Справочник химика 21

Химия и химическая технология

Статьи Рисунки Таблицы О сайте English

Поиск документов по текстам рефератов

    Поиск документов по текстам рефератов [c.259]

    Казалось бы, построение документальных систем на основе процедуры автоматического поиска документов по текстам, рефератов является выгодным. Здесь не требуется составлять формализованные описания документов и хранить поисковые образы в па.мяти ЭВМ. Но, [c.261]

    Для сокращения времени формирования поисковых образов документов исключать из них избыточные термины можно приближенным способом, без повторного обращения к тезаурусу. Для этого нужно в процессе поиска вхождений терминов распределить найденные термины по словам текста реферата, а затем оставить для каждого слова по одному термину максимальной длины. Далее необходимо объединить номера всех терминов в один общий список, исключив при этом повторения одинаковых элементов. [c.263]


    Инвертированный файл — это средство перебора отсылок к документам. Его называют инвертированным, т. е. переставленным, вывернутым, потому что он получается из текстов рассыпанием их на слова и упорядочением слов по алфавиту. Сами -слова, как мы уже говорили, хранятся в индексе инвертированный файл в узком смысле — это адресная книга по всем документам системы. Записи в ней, связанные с записями индекса, включают всю информацию, необходимую для работы со словами при поиске номер документа, из которого слово взято, номер или имя поля (заглавие, реферата и т. п.), номер предложения и сведения о положении слова в этом предложении (позднее мы покажем, как используется эта информация). [c.32]

    Для оценки возможности поиска документов по текстам рефератов А. К. Родионовой под руководство автора была построена программная модель, включавшая процедуры морфологического и синтаксического анализа и поиска по текстам рефератов. Общий объем программ для машины типа БЭСМ-ЗМ составлял около 7000 команд. Тексты рефератов (их было около З ОО) вводились в ЭВМ в побуквенном коде и с помощью процедуры морфологического анализа переводились в пословный код. При необходимости словарь основ слов пополнялся. Для каждого предложения строилось дерево зависимостей и результаты обработки текстов лереписы-вались на магнитную ленту. [c.260]

    Оговоримся, однако, что такая операция имеет смысл не всегда. Если базы данных, которые необходимо просмот-треть, имеют нрин-ципиально разное устройство или, например, при их подготовке для индексирования документов используют разные терминологические словари, то стратегия поиска, обеспечившая успех в одном случае, отнюдь не гарантирует его в другом. Однако если поиск идет, скажем, по текстам рефератов и/или ключевые слова при подготовке базы выбираются свободно, т. е. без привлечения терхминологиче-ских пособий, повторение успешно использованной стратегии поиска имеет очень большой смысл. Например, в системе ВИНИТИ е ее однородной совокупностью баз по различным областям знания этот прием можно использовать практически без ограничений и получить хорошие результаты. [c.43]

    Уникальной особенностью AS Online является наличие текстов рефератов в библиографических базах и возможность получить до десяти описаний документов, соответствующих результатам структурного поиска, не отключаясь от базы REGISTRY (для получения полной библиографии и/или поиска по ней необходимо перейти в базу СА или AOLD). [c.56]

    Деление информационно-поисковых систем на фактографические и документальные условно. Доказательством правильности этого тезиса является тот факт, что документальные системы дескрипторного типа могут быть успешно применены для поиска фактографической информации. Для этого необходимо ввести в память ЭВМ фактографические записи и их дескрипторные поисковые образы. Тогда тексты фактографических записей могут выдаваться потребителям информации но тем же правилам, что и тексты рефератов. С другой стороны, фактографическая система может быть использована для поиска документов. При этом поисковые образы рефератов должны представляться в виде массива элементарных сообщений, а тексты рефератов интерпретироваться как значения характеристики с наименованием текст реферата . Но в фактографических информацион-но-поисковых системах обычно решаются более сложные задачи, чем в документальных, и они бывают оснащены более мощной системой программ. [c.241]


    Автоматизация решения этих задач связана с большими трудностями как принципиального, так и технического порядка. К числу первых относится трудность моделирования процессов понимания смысла. К числу вторых —отсутствие читающих автоматов, способных В0спр1инимать различные типографские и машинописные шрифты, а также относительно высокая стоимость перфорационных работ. Высокая стоимость перфорационных работ может явиться причиной малой эффективности автоматизированных документальных систем, оперирующих с полными текстами документов. Поэтому на первых порах (до создания эффективных читающих автоматов) целесообразно использовать ЭВМ только для хранения формализованных описаний документов й текстов рефератов, а запись, хранение, поиск и воспроизведение полных текстов документов производить с помощью средств микрофотографии. Индексировать документы целесообразно по текстам их рефератов или по заглавиям. [c.254]

    Документы. можно искать по текстам их рефератов. При этом запросы следует фор.мулировать в виде именных словосочетаний или последовательностей именных словосочетаний, соединенных знаками дизъюнкции или конъюнкции. Документ считается отвечающим на запрос, сформулированный в виде одного словосочетания, если это словосочетание встречается в тексте его реферата. Если в запросе указывается несколько словосочетаний, соединенных знаком дизъюнкции, то достаточно, чтобы в тексте реферата встретилось хотя бы одно из них. При конъюнктивной связи между словосочетаниями необхо- димо, чтобы в тексте реферата встретились все перечисленные в запросе словосочетания. При смешанной логической связи между словосочетания.ми, офор.мленной в виде конъюнкции дизъюнкций (в конъюнктивной нормальной форме), требуется, чтобы в тексте реферата встретилось хотя бы по одному словосочетанию из каждой дизъюнкции. Таким образом, основной операцией при установлении смысловых связей между запроса.ми и документами здесь является поиск вхождений словосочетаний запросов в тексты рефератов документов. [c.259]

    Автоматическое индексирование документов по тек-.стам рефератов можно производить на основе той же методики, что и их поиск, но в качестве запроса здесь выступает весь словарь наименований понятий тезауруса. Термины словаря сопоставляются с текстом индексируемого реферата и, если они входят в одно из его предложений, заносятся в массив результатов. Процедура определения вхождений терминов тезауруса в текст реферата выполняется с по.мощью словаря смысловых связей слов. [c.262]

    Системы автоматического индексирования документов, ориентированные на использование преимущественно однословных терминов, проще в реализации, чем системы, в которых основными единицами речи считаются словосочетания. В этих системах словарь дескрипторов занимает меньший объем, чем в системах второго типа, в них легко выделяются из текста единицы речи (по пробелам между словами) и, как правило, не применяется синтаксический анализ. Но системы второго типа обеспечивают большую полноту поиска информации при меньшем уровне шумов. Полнота поиска увеличивается за счет использования парадигматических связей между словосочетаниями, а точность поиска — за счет синтагматических связей внутри словосочетаний. Кроме того, в системах второго типа в 2—3 раза сокращается объем массива поисковых образов документов по сравнению с объемом этого массива в системах первого типа (см. гл. ()). В дальнейшем мы будем рассматривать только такие способы автоматического индексирования, при которых в качестве основных единиц речи используют преимущественно именные словосочетания, а документы индексируют по текстам их рефератов. [c.255]


Смотреть страницы где упоминается термин Поиск документов по текстам рефератов: [c.262]    [c.20]   
Смотреть главы в:

Автоматизированные информационные системы -> Поиск документов по текстам рефератов




ПОИСК





Смотрите так же термины и статьи:

Шаг поиска



© 2025 chem21.info Реклама на сайте