Справочник химика 21

Химия и химическая технология

Статьи Рисунки Таблицы О сайте English

Автоматическое индексирование документов

    Глава 15 АВТОМАТИЧЕСКОЕ ИНДЕКСИРОВАНИЕ ДОКУМЕНТОВ [c.253]

    Автоматическое индексирование документов по текстам [c.261]

    Автоматическое индексирование формализованных описаний документов [c.255]

    Эффективным средством улучшения качества автоматического индексирования является постредактирование. Для осуществления этой операции составленные машиной поисковые образы документов должны декодироваться и выдаваться на печать. Далее человек, сопоставляя [c.263]


    Вопросам автоматического индексирования документов посвящен ряд исследований в нашей стране и за рубежом (см., например, работы [29, 65, 119]). В большинстве из них речь идет об автоматическом переводе содержания документов на дескрипторные языки, причем в качестве дескрипторов используются преимущественно однословные термины. Процесс индексирования здесь сводится к замене буквенных кодов информативных слов текста на их машинные индексы. Информативные слова выделяются из текста либо с помощью заранее составляемого словаря, либо статистическими методами. Группы близких по смыслу слов объединяются в классы эквивалентности, и словам, принадлежащим к одному классу, назначаются одинаковые индексы. При этом возникает необходимость распознавания различных форм слов и разрешения их омонимии. Последняя задача ока- [c.254]

    Системы автоматического индексирования документов, ориентированные на использование преимущественно однословных терминов, проще в реализации, чем системы, в которых основными единицами речи считаются словосочетания. В этих системах словарь дескрипторов занимает меньший объем, чем в системах второго типа, в них легко выделяются из текста единицы речи (по пробелам между словами) и, как правило, не применяется синтаксический анализ. Но системы второго типа обеспечивают большую полноту поиска информации при меньшем уровне шумов. Полнота поиска увеличивается за счет использования парадигматических связей между словосочетаниями, а точность поиска — за счет синтагматических связей внутри словосочетаний. Кроме того, в системах второго типа в 2—3 раза сокращается объем массива поисковых образов документов по сравнению с объемом этого массива в системах первого типа (см. гл. ()). В дальнейшем мы будем рассматривать только такие способы автоматического индексирования, при которых в качестве основных единиц речи используют преимущественно именные словосочетания, а документы индексируют по текстам их рефератов. [c.255]

    Автоматическое индексирование документов по тек-.стам рефератов можно производить на основе той же методики, что и их поиск, но в качестве запроса здесь выступает весь словарь наименований понятий тезауруса. Термины словаря сопоставляются с текстом индексируемого реферата и, если они входят в одно из его предложений, заносятся в массив результатов. Процедура определения вхождений терминов тезауруса в текст реферата выполняется с по.мощью словаря смысловых связей слов. [c.262]

    После ввода в СИАП документы автоматически индексируются так, что каждому документу ставится в соответствие некоторый набор поисковых признаков, который будем называть полным набором поисковых признаков документа (П-на-бором). В свою очередь, поисковые признаки, образующие П-наборы, делятся на две группы. Первая группа состоит из библиографической информации (авторы, заглавие, выходные данные документа). Вторую, группу, отображающую смысловое содержание (текст) документа, образуют согласно принятому алгоритму автоматического индексирования наборы дескрипторов и ключевых слов. Эти наборы обозначаются со- ответственно как Д- и К-наборы., -  [c.111]


    Ещё один довод в пользу полного анализа текста документа (сплошного индексиррвания) заключается в той, что Невозможно предсказать, какие именно запросы в будущем бу- дут поступать от абонентов систем . Поэтому очевидно, что ве роят иость отказов системы из-за неполноты введенной информации уменьшится. Кстати, если при эксплуатации ИС выяснится, что в некоторой ситуации можно ограничиться индексированием не полного текста, а какой-то его части (на-Гфимер, заданногЬ числа предложений), то это.обстоятельство-очень просто учесть без существенного Изменения прогрйайы. . автоматического индексирования.  [c.124]

    Если выясняется, что проверяемый документ уже введен в систему, то соответствующая информация посылается в выходной диспетчер, где принимается решение либо о вводе очередного массива информации, либо о прекращении работы СИАП. Если же выясняется, что вводимого доку.мента в памяти нет, то его библиографическое описание поступает на обработку и хранение, а текст документа передается в блок, осуществляющий автоматическое индексирование [c.129]


Смотреть главы в:

Автоматизированные информационные системы -> Автоматическое индексирование документов


Автоматизированные информационные системы (1973) -- [ c.253 ]




ПОИСК







© 2025 chem21.info Реклама на сайте