Справочник химика 21

Химия и химическая технология

Статьи Рисунки Таблицы О сайте English

Тезаурусы

    Пермутационные указатели обладают рядом недостатков. Во-первых, заглавие не всегда в должной мере отражает содержание документа. Во-вторых, в качестве самостоятельных рубрик используются только слова заголовка, а не термины, определенные из существа дела и специально разработанной рубрикации. Поэтому работы близкого содержания могут быть расположены под разными ключевыми словами, являющимися синонимами. Например, заголовки Выращивание кремния по методу Чохральского и Вытягивание кристаллов кремния из расплава имеют одинаковый смысл, но мало совпадающих ключевых слов и поэтому будут разнесены по несовпадающим рубрикам, в частности по рубрикам Выращивание и Вытягивание , хотя в полном контексте смысл этих слов совпадает. Поэтому каждый раз, изучая какую-либо тему, приходится вспоминать все слова-синонимы. Это особенно трудно, если указатель составлен на малознакомом языке. Безусловно, словарь синонимов очень полезен для такой работы. Подобные словари— так называемые тезаурусы — удобны для определения терминов, по которым выбираются ключевые слова для отыскания нужной информации в указателе. Примером такого справочника может служить [122]. [c.254]


    Двигатели внутреннего сгорания. Тезаурус (сборник-словарь [c.279]

    Это может быть ключевое слово, извлеченное из текста документа, или дескриптор — слово, взятое из особым образом упорядоченного и отобранного списка, представляющего собой так называемый тезаурус. [c.11]

    ВИНИТИ издает сигнальную информацию, реферативный журнал по естественным и техническим наукам, а также отраслям народного хозяйства и некоторым комплексным проблемам, экспресс-информацию, серии Итоги науки и техники , научно-технические сборники. Международный журнал по информатике, бюллетени, тезаурусы и библиографические указатели. [c.54]

    Базы данных, содержащих сведения о химических соединениях, обладают наибольшей спецификой, а поиск в них наиболее сложен. В базе данных Химия документ состоит из библиографического описания (причем название дается на одном из четырех языков русском, английском, французском или немецком) и поискового образа документа, т. е. ключевых слов, которые выбираются из текста с учетом имеющихся в периодически издаваемых справочных материалах. Список основных ключевых слов по химии и химической технологии издан ВИНИТИ в 1981 г. Для характеристики содержания работы используются также дескрипторы, извлеченные из нормированных терминологических изданий, например тезаурусов. Создание тезауруса способствует упорядочению терминологии при реферировании, редактировании, переводе научной литературы, а для читателей тезаурусы служат дополнительными справочниками, позволяющими облегчить выбор дескрипторов, под которыми необходимо искать нужную информацию в предметных указателях и базах данных. Примерами тезаурусов могут служить изданный ВИНИТИ в 1978 г. Тезаурус классов органических соединений и вышед- [c.66]

    Отдельные главы посвящены вопросам подготовки, ввода и организации тезауруса, систематики и классификатора фактографических данных, сбора и накопления информации, а также возможности использования различных единиц измерения при вводе и поиске данных. [c.5]

    В простейшем случае тезаурус можно представить в виде списка наименований понятий. Тезаурус предназначен для обеспечения перевода содержания и запросов на ИПЯ с [c.7]

    Таким образом, в группе условно-эквивалентных понятий дескриптором является одно йз них. Остальные в этом случае условно являются синонимами и вводятся в тезаурус в качестве синонимов с указанием ссылок на выделенный дескриптор. [c.8]

    Для лучшего согласования результатов информационного поиска с требованиями пользователя в тезаурусе между ключевыми словами могут быть установлены отношения, показанные на рис. 1.1. [c.8]


    Пример фрагмента из тезауруса с иерархическими связями В Ди( ренциальные уравнения О Математика D Линейные дифференциальные уравнения О Дифференциальные уравнения В Математика [c.9]

    Эти отношения в тезаурусе следует приводить взаимно. [c.9]

    Структура тезауруса. Структура подлежащего разработке тезауруса зависит от специфики его применения, от потребности пользователя. Структура тезауруса влияет на результаты поиска, на эффективность раб всей системы. Пользователь может использовать в качестве тезауруса уже простой перечень понятий. Но еСли системе предъявляются большие требования относительно точности и полноты поиска накопленной информации, то естественно предпочесть соответствующую более сложную структуру тезауруса. [c.10]

    Если пользователь решает применить структуру А, то его тезаурус состоит только иа части, содержащей дескрипторы, упорядоченные по кодам (кириллица А — Я, специальные знаки латиница Л — 1, цифры 1 — 9) или по предметным группам и внутри их по кодам. [c.10]

    Описание структуры тезауруса [c.11]

    Если пользователь хочет применить структуру 5, то тезаурус состоит из дескрипторной и синонимической частей. Обе части могут быть упорядочены по кодам или по предметным группам. [c.11]

    Общие принципы создания тезауруса. При создании тезауруса необходимо учитывать характеристики фонда документов, особенности пользователей и их требования к полноте и точности поиска [20]. [c.11]

    Работу по созданию тезауруса можно разбить на следующие этапы выбор источников для отбора ключевых слов, отбор ключевых слов, установление парадигматических связей, оформление тезауруса. [c.11]

    Отбор лексического материала является достаточно трудоемким процессом и обычно осуществляется следующим образом составляется словарь всех слов, представленных в выбранных источниках, и путем анализа и на основании особенностей данной области знаний производится отбор слов, которые в дальнейшем войдут в тезаурус. Часто для этих целей используются частотные словари словоформ, полученные в помощью ЭВМ е представительного массива текстовых источников по данной тематике. Полученные частотные и алфавитно-частотные списки словоформ вручную приводятся к соответствующим спискам слов, каждое из которых имеет показатель относительной частоты встречаемости в репрезентативной выборке текстовых источников, а значит, и в области функционирования проектируемой ИПС. Конечно, эти показатели дают грубую оценку полезности тех или иных слов, тем не менее их необходимо учитывать. Из полученного таким образом списка исключаются так называемые общеупотребительные слова, которые не несут смысловой нагрузки, — предлоги, союзы, наречия и др. Далее производится анализ каждого оставшегося слова и на основании его значимости решается вопрос о включении его в тезаурус. [c.12]

    Ясно, что нельзя включать в тезаурус все слова, имеющие большое значение относительной частоты встречаемости, так как они могут идентифицировать слишком общие понятия, которые в дальнейше№не смогут служить в качестве специфических терминов при индексировании документов. В то же время слова, имеющие низкую частоту встречае-люсти, не всегда являются случайными в данной области знаний. Отклонять их лишь на этом основании без предва- [c.12]

    Особенно трудна задача выявления терминов, представляющих собой словосочетания. Обычно это именные словосочетания, например существительное с одним или несколькими прилагательными. Отбор этих ключевых слов, как правило, производится вручную из различного рода словарей, справочников и на основании знаний и опыта специалистов. В качестве человеко-машинного выявления используется (и то в редких случаях) способ, при котором с помощью ЭВМ вырабатываются частотные словари двоек , троек и т. д. смежных словоформ по текстам документов репрезентативной выборки. Отбор ключевых слов — словосочетаний из полученных списков производится вручную различными способами сопоставления, логических выводов, а также с использованием обычных дополнительных средств словарей, справочников, каталогов, консультаций со специалистами и т. д. Дальнейшее развитие методов автоматизации этого процесса ожидается при разработке процедур синтаксического и семантического анализа текстов, порождаемых русским естественным языком. Несмотря на имеющиеся многочисленные теоретические работы в этой области (в частности, связанные с проблемой машинного перевода с одного языка на другой), ощутимых практических результатов, к сожалению, не получено. Эти проблемы связаны не только о автоматизацией процесса разработки тезаурусов, но и с автоматизацией индексирования документов и запросов. [c.13]

    Так, индексирование запросов на практике производится одними специалистами, индексирование документов — другими, а тезаурус разрабатывался третьими. Элемент субъективизма и несогласованность, имеющие место в этом случае, могут свести к нулю эффективность автоматизации информационного поиска. Выход из этого положения лежит в передаче этих работ самой ЭВМ, т, е. в автоматизации индексирования документов и запросов, а также составления тезауруса. В этой области следует отметить предложенные оригинальные решения [14, 15, 22]. [c.13]

    Любое словосочетание можно представить как совокупность отдельных слов. В связи о этим при разработке тезауруса, в частности при отборе терминов, всегда стоит вопрос, в какой степени следует использовать многословные термины. Ответ на этот вопрос может быть получен [c.13]


    Следующим этапом создания тезауруса является установление связей между ключевыми словами. Для этого весь СПИСОК разбивается на классы условной эквивалентности, в каждом из которых один из терминов назначается дескриптором, а остальные — считаются синонимами к нему. [c.14]

    Оформление тезауруса производится в двух вариантах. [c.14]

    Требования к тезаурусу. При разработке тезауруса пользователь должен соблюдать следующие требования. [c.14]

    Элементы ИПС лингвистич. обеспечение-информацион-но-ноисковые языки, к-рые служат для ввода и поиска данных, рубрикаторы, тезаурусы, индексы разл. классификаций и др. программно-информац. обеспечение - пакеты [c.248]

    Одни люди предпочитают говорить Суда , а другие — Корабли , одни Повреждение , а другие — Поломка и т. д. Это затруднение сводится к минимуму благодаря использованию специального згнифицированного языка при занесении в предметный каталог и последующем поиске. Собрание слов такого языка обычно называют контрольным словником или же (применительно к более разработанной его форме) тезаурусом . Создание такого языка само по себе является темой для [c.186]

    Тезаурус в употребляемом здесь смысле представляет собой нечто совершенно отличное от классического словаря Роджетса. В нашем понимании тезаурус — это алфавитный перечень слов, где нас отсылают, например, от земледелия к сельскому хозяйству , т. е. от многочисленных обиходных словоупотреблении к одному дескрйпторному термину. [c.186]

    В книге рассматривается информационно-поивковый язык системы, базируемой на использовании ППП АИДОС структура тезауруса, реализуемые в нем отношения, структура рубрикатора, средства классификации фактографической информации. Описаны основные принципы стратегии поиска, формальные правила для установления соответствия поискового предписания поисковому образу документов приводится структура пакета. [c.5]

    Основными составными частями ИПЯ АИДОС являются тезаурус, систематический рубрикатор (систематика), профиль групп фактов, причем тезау 5ус является обязательной составной частью. Использование систематического рубрикатора и профиля групп фактов определяется назначением создаваемой ИПС и требованиями пользователя. [c.7]

    Тезаурус. Тезаурус в информационно-поисковой системе АИДОС используется как средство для классификации информации, индексирования, на.копления фонда, поиска. [c.7]

    Дескриптором называют ключевое слово, определяющее класс условной эквивалентности, в который включены эквивалентные и близкие по смыслу слова [26]. Пользователю системы АИДСХЗ, который сам разрабатывает тезаурус, предоставляется право решать, какие ключевые слова он выбирает в качестве дескрипторов, т. е. основная лексика системы является свободно выбираемой. Дескрипторами могут быть специальная терминология используемой области знайия названия приборов, устройств числа (например, сроки) нотации рубрикатора и др. [c.8]

    Если применяется структура С, то тезаурус состоит из дескрипторной части в иерархическом порядке. Эта часть подразделяется на предметные группы. В случае выбора структуры В тезаурус состоит из дескрипторной части в иерархическом порядке и из еинонимической части. Последняя может быть упорядочена по кодам или по предметным группам. [c.11]

    Отаошения иерархии и ассоциации устанавливаются только между дескрипторами. От специалистов, занимающихся разработкой лексико-семантической основы тезауруса, требуется не только лингвистическая, но и специальная подготовка [28]. [c.14]

    Второй вариант диктуется требованием конкретной программной системы (в нашем случае ППП АИДОР и является одним из этапов подготовки системного массива тезауруса. [c.14]

    Длина ключевых слов не должна превышать 100 символов. При определении максимального количества символов следует помнить о йеблагонрнятных последствиях увеличения длины терминов. Это увеличение сказывается, например, на печатном оформлении тезауруса и другой системной информации, увеличивается время печати, расход бумаги, возрастает вероятность ошибок при написании и перфорации и др. Наиболее рациональным вариантом для поиска научно-технической информации предполагается использование на каждое наименование до % символов максимально. Следует также учитывать влияние длины термина на объем массива тезауруса. [c.14]


Библиография для Тезаурусы: [c.4]    [c.5]    [c.6]    [c.148]    [c.272]    [c.197]    [c.150]   
Смотреть страницы где упоминается термин Тезаурусы: [c.187]    [c.116]    [c.212]    [c.67]    [c.8]    [c.10]   
Книга для начинающего исследователя химика (1987) -- [ c.254 ]




ПОИСК







© 2025 chem21.info Реклама на сайте