Справочник химика 21

Химия и химическая технология

Статьи Рисунки Таблицы О сайте English

Поиск по текстам рефератов

    Для упрощения поиска вводится дополнительная информация — представляется принадлежность того или иного конкретного соединения к определенным классам в соответствии со Списком классов... например, хлорнитробензолы , исходя из текста реферата, представлены в базе Химия следующим образом ХЛОРНИТРОБЕНЗОЛ, НИТРОХЛОР-БЕНЗОЛ, 1-ХЛОР-2-НИТРО-БЕНЗОЛ, 1-ХЛОР-З-НИТРО-БЕНЗОЛ, [c.73]


    Процессы поиска и обновления информации в документальной системе сходны с соответствующими процессами фактографической системы. Их различие определяется в основном различием в структуре массивов сообщений (массивов поисковых образов и текстов рефератов с одной стороны и массивов элементарных сообщений и значений характеристик — с другой). [c.237]

    Разбиение словосочетаний запроса на более короткие словосочетания (равно как и поиск по ассоциированным понятиям) позволяет преодолеть влияние субъективных факторов при составлении поисковых образов рефератов (разные лица могут выделять из текстов рефератов словосочетания различной длины) и увеличивает полноту выдачи информации. Но это одновременно приводит и к некоторому увеличению поискового шума. [c.241]

    Поиск документов по текстам рефератов [c.259]

    Поисковые запросы также подвергались морфологическому и синтаксическому анализу и приводились к форме, аналогичной форме представления текстов рефератов. В запросе, как правило, указывалось одно исходное словосочетание, которое с помощью тезауруса вручную заменялось на серию эквивалентных ему и более узких по смыслу словосочетаний. Связь между словосочетаниями расширенного запроса интерпретировалась как дизъюнктивная. Словарь основ при вводе запросов не пополнялся, а новые слова исключались из словосочетаний. Результаты поиска выдавались в виде серии номеров рефератов. [c.260]

    Таким образом, чтобы перевести тексты рефератов и запросов в машинную форму представления и обеспечить высокий уровень полноты выдачи информации при поиске, необходим автоматический тезаурус. В состав тезауруса должны входить словарь основ слов, словарь смысловых связей слов, словарь наименований понятий и классификационный словарь понятий. [c.261]

    Казалось бы, построение документальных систем на основе процедуры автоматического поиска документов по текстам, рефератов является выгодным. Здесь не требуется составлять формализованные описания документов и хранить поисковые образы в па.мяти ЭВМ. Но, [c.261]

    Для сокращения времени формирования поисковых образов документов исключать из них избыточные термины можно приближенным способом, без повторного обращения к тезаурусу. Для этого нужно в процессе поиска вхождений терминов распределить найденные термины по словам текста реферата, а затем оставить для каждого слова по одному термину максимальной длины. Далее необходимо объединить номера всех терминов в один общий список, исключив при этом повторения одинаковых элементов. [c.263]

    До 1967 г. в С А текст на страницах располагался в две колонки, и каждая имела свой номер. В центре страницы размещался ряд букв от а до к. Эти буквы предназначались для того, чтобы облегчить поиск. Так, ссылка 73376 относится к разделу Ь колонки 7337. В более ранние годы аналогичным образом использовались надстрочные индексы, например 4327 . В еще более ранних выпусках эти цифры не печатались на странице, хотя они приводились в декадных указателях. Для того чтобы воспользоваться ими, читатель должен был мысленно разделить страницу на девять частей. С 1967 г. каждому реферату присваивается отдельный номер, а номера [c.378]


    Для продолжения поиска информации в литературе после 1949 г. (или 1959 г.) химик должен обратиться к объединенным формульным указателям СА 1947—1956 (если этот период не охвачен справочником Бейльштейна), 1957—1961, 1962—1966, 1967—1971, 1972—1976, 1977—1981 гг.—или более поздним объединенным указателям, если они вышли, а затем к полугодовым указателям. Если в данном формульном указателе содержится лишь несколько ссылок на интересующее нас соединение, то страницы или номера рефератов приводятся в самом формульном указателе. Однако если таких ссылок много, то указатель отсылает читателя к указателю химических соединений или (для указателей до 1972 г.) к предметному указателю за тот же период в этих указателях может оказаться очень большое число ссылок на номера страниц или номера рефератов. Для облегчения поиска вводится множество подзаголовков, которые часто позволяют сузить область поиска и ограничить ее наиболее подходящими рубриками. Тем не менее исследователю непременно придется обратиться ко многим рефератам, которые окажутся бесполезными. Во многих случаях информация, почерпнутая из реферата, окажется достаточной. Если это не так, то следует обратиться к оригинальной литературе. В некоторых случаях (в указателе такие случаи отмечены звездочкой или двумя звездочками) в реферате соединение не упоминается, хотя речь о нем идет в тексте оригинальной статьи или патента. Между прочим все ссылки в указателях СА, относящиеся к патентам, отмечены перед номером реферата буквой Р. В 1967 г. для обозначения книг и обзорных статей введены также префиксы В и R соответственно. [c.398]

    Описанный диалог характерен для диалогового поиска. Конкретные формы способа ведения диалога, а также возможности программного обеспечения могут быть разными в разных системах (см. работу [49]). Однако по Мере развития методов диалогового поиска должна произойти существенная стандартизация таких систем. Так, в настоящее время в европейских странах предпринимаются значительные усилия но разработке набора стандартных команд для диалогового поиска. Диалоговые базы данных могут быть трех основных типов коммерческие (или общего пользования), внутреннего пользования (в корпорациях) н персональные. В них могут использоваться различные принципы организации указателей и/или поиска ключевые слова в заголовках, рефераты или полный текст, вручную или автоматически присвоенные ключевые слова и любые аспекты, полезные для поиска. Системы могут быть ориентированы на поиск библиографического материала, научной информации по химическим веществам или по конкретным разделам, как, например, научные приборы [50]. [c.456]

    Инвертированный файл — это средство перебора отсылок к документам. Его называют инвертированным, т. е. переставленным, вывернутым, потому что он получается из текстов рассыпанием их на слова и упорядочением слов по алфавиту. Сами -слова, как мы уже говорили, хранятся в индексе инвертированный файл в узком смысле — это адресная книга по всем документам системы. Записи в ней, связанные с записями индекса, включают всю информацию, необходимую для работы со словами при поиске номер документа, из которого слово взято, номер или имя поля (заглавие, реферата и т. п.), номер предложения и сведения о положении слова в этом предложении (позднее мы покажем, как используется эта информация). [c.32]

    Каким бы способом мы ни описывали химическую структуру, она во всяком случае не может быть сжато, полно и точно описана в виде текста, напоминающего, скажем, реферат без формул. Стало быть, для поиска нужны средства, выходящие за рамки типовой схемы, область эффективного применения которой ограничивается именно текстовой информацией. Насколько далеко требуется отойти от этой схемы, определяется задачами конкретной поисковой службы. Здесь нужно оговориться, что с точки зрения пользователя, работающего за терминалом поисковой системы, изменения в средствах работы могут не быть радикальными — речь идет о внутренней стороне дела, о том, что происходит по ту сторону экрана терминала. [c.45]

Рис. 8.8. Распечатка результатов поиска в базе AS Online с выводом полного текста реферата Рис. 8.8. <a href="/info/1790962">Распечатка результатов поиска</a> в базе AS Online с выводом полного текста реферата
    Предметный указатель в каладом выпуске имеет форму указателя ключевых слов , отобранных из заголовка и текста реферата. Этими ключевыми словами являются общие понятия, термины, названия классов химических соединений. При пользовании указателем ключевых слов следует иметь в виду одну его особенность, связанную с машинным происхождением указателя может оказаться, что один и тот же предмет в разных рефератах назван по-разному (следуя авторской терминологии),— тогда и в указателе он может оказаться рассеянным по разным местам. Это заставляет внимательно продумывать, под какими синонимами можно встретить в указателе ключевых слов нужное понятие. Так, например, при поиске сведений о круговом дихроизме необходимо искать не только по полному названию ir ular Di hroism , но и по сокращенному-— СО . [c.104]


    В различных автоматических информационных системах поиск ведется либо по ключевым словам, либо по заглавиям работ, либо непосредственно по текстам рефератов. Информационные поисковые системы на основе заглавий дешевы и быстрее всего доводят материал до потребителей. Хотя при замене ключевых слов заглавиями теряется 20—30% информации, однако одновременно исключаются лишние источники ошибок (процесс индексирования и др.). Поэтому системы поиска по заглавиям в настояшее время получили широкое распространение [4] печатным изданием такого рода является журнал hemi al Titles (см. гл. 4). [c.136]

    Оговоримся, однако, что такая операция имеет смысл не всегда. Если базы данных, которые необходимо просмот-треть, имеют нрин-ципиально разное устройство или, например, при их подготовке для индексирования документов используют разные терминологические словари, то стратегия поиска, обеспечившая успех в одном случае, отнюдь не гарантирует его в другом. Однако если поиск идет, скажем, по текстам рефератов и/или ключевые слова при подготовке базы выбираются свободно, т. е. без привлечения терхминологиче-ских пособий, повторение успешно использованной стратегии поиска имеет очень большой смысл. Например, в системе ВИНИТИ е ее однородной совокупностью баз по различным областям знания этот прием можно использовать практически без ограничений и получить хорошие результаты. [c.43]

    Уникальной особенностью AS Online является наличие текстов рефератов в библиографических базах и возможность получить до десяти описаний документов, соответствующих результатам структурного поиска, не отключаясь от базы REGISTRY (для получения полной библиографии и/или поиска по ней необходимо перейти в базу СА или AOLD). [c.56]

    Деление информационно-поисковых систем на фактографические и документальные условно. Доказательством правильности этого тезиса является тот факт, что документальные системы дескрипторного типа могут быть успешно применены для поиска фактографической информации. Для этого необходимо ввести в память ЭВМ фактографические записи и их дескрипторные поисковые образы. Тогда тексты фактографических записей могут выдаваться потребителям информации но тем же правилам, что и тексты рефератов. С другой стороны, фактографическая система может быть использована для поиска документов. При этом поисковые образы рефератов должны представляться в виде массива элементарных сообщений, а тексты рефератов интерпретироваться как значения характеристики с наименованием текст реферата . Но в фактографических информацион-но-поисковых системах обычно решаются более сложные задачи, чем в документальных, и они бывают оснащены более мощной системой программ. [c.241]

    Автоматизация решения этих задач связана с большими трудностями как принципиального, так и технического порядка. К числу первых относится трудность моделирования процессов понимания смысла. К числу вторых —отсутствие читающих автоматов, способных В0спр1инимать различные типографские и машинописные шрифты, а также относительно высокая стоимость перфорационных работ. Высокая стоимость перфорационных работ может явиться причиной малой эффективности автоматизированных документальных систем, оперирующих с полными текстами документов. Поэтому на первых порах (до создания эффективных читающих автоматов) целесообразно использовать ЭВМ только для хранения формализованных описаний документов й текстов рефератов, а запись, хранение, поиск и воспроизведение полных текстов документов производить с помощью средств микрофотографии. Индексировать документы целесообразно по текстам их рефератов или по заглавиям. [c.254]

    Документы. можно искать по текстам их рефератов. При этом запросы следует фор.мулировать в виде именных словосочетаний или последовательностей именных словосочетаний, соединенных знаками дизъюнкции или конъюнкции. Документ считается отвечающим на запрос, сформулированный в виде одного словосочетания, если это словосочетание встречается в тексте его реферата. Если в запросе указывается несколько словосочетаний, соединенных знаком дизъюнкции, то достаточно, чтобы в тексте реферата встретилось хотя бы одно из них. При конъюнктивной связи между словосочетаниями необхо- димо, чтобы в тексте реферата встретились все перечисленные в запросе словосочетания. При смешанной логической связи между словосочетания.ми, офор.мленной в виде конъюнкции дизъюнкций (в конъюнктивной нормальной форме), требуется, чтобы в тексте реферата встретилось хотя бы по одному словосочетанию из каждой дизъюнкции. Таким образом, основной операцией при установлении смысловых связей между запроса.ми и документами здесь является поиск вхождений словосочетаний запросов в тексты рефератов документов. [c.259]

    Для оценки возможности поиска документов по текстам рефератов А. К. Родионовой под руководство автора была построена программная модель, включавшая процедуры морфологического и синтаксического анализа и поиска по текстам рефератов. Общий объем программ для машины типа БЭСМ-ЗМ составлял около 7000 команд. Тексты рефератов (их было около З ОО) вводились в ЭВМ в побуквенном коде и с помощью процедуры морфологического анализа переводились в пословный код. При необходимости словарь основ слов пополнялся. Для каждого предложения строилось дерево зависимостей и результаты обработки текстов лереписы-вались на магнитную ленту. [c.260]

    Помимо улучшения качества тезауруса и совершенствования процедур выборки из него терминов, связанных по смыслу с исходными терминами запроса, эффективным средством увеличения полноты поиска может явиться использование словаря с.мысловых связей слов на этапе сопоставления терминов расширенного запроса и текстов рефератов. При этом термин А может считаться входящим в состав предложения В, если в предложении содержатся все слова термина А или слова им эквивалентные или подчиненные. Схемы синтаксических связей слов в исходном термине и соответствующих слов в предложении должны удовлетворять тем же условиям, которые были сформулированы выше. [c.261]

    Автоматическое индексирование документов по тек-.стам рефератов можно производить на основе той же методики, что и их поиск, но в качестве запроса здесь выступает весь словарь наименований понятий тезауруса. Термины словаря сопоставляются с текстом индексируемого реферата и, если они входят в одно из его предложений, заносятся в массив результатов. Процедура определения вхождений терминов тезауруса в текст реферата выполняется с по.мощью словаря смысловых связей слов. [c.262]

    Исторически сложилось, что большинство имеющихся систем прямого доступа использовались для поиска библиографической информации, например рефератов или полных текстов отчетов, хранящихся в памяти машины в удобочитаемой форме. Более того, большое число систем прямого доступа развивалось как естественное продолжение систем непрямого доступа, ориентированных на поиск текущей и ретроспективной информации. Упоминавшаяся в предыдущем разделе система UK IS — типичный пример системы, развитие которой проходило именно таким путем. Основные принципы поиска в режиме прямого доступа описаны рядом авторов, см., например, [1, 43—47]. К сожалению, в результате широкой применимости методов поиска с прямым доступом возник ряд проблем с терминологией— каждая отдельная система имеет свой собственный набор терминов и фраз для описания того, что в большинстве своем является общим для всех систем. Авторы статьи [48] попытались предложить некоторую стандартную терминологию и определения, и большая часть обсуждения, которое проводится в данном разделе, построена в рекомендованных ими терминах. [c.453]

    Особенности поиска в документальных базах данных Data-Star связаны с тем, что в них одновременно присутствуют термины естественного языка — слова из заглавий, рефератов и т. п. — и контролируемые термины индексирования, которые берутся из соответствующих тезаурусов. Таким образом, поиск по словосочетанию следовало бы вести, учитывая оба варианта — когда слова попадают в число контролируемых -терминов индексирования и когда они есть только в свободном тексте, скажем в реферате. Этому соответствовала бы последовательность действий  [c.102]

    Системы автоматического индексирования документов, ориентированные на использование преимущественно однословных терминов, проще в реализации, чем системы, в которых основными единицами речи считаются словосочетания. В этих системах словарь дескрипторов занимает меньший объем, чем в системах второго типа, в них легко выделяются из текста единицы речи (по пробелам между словами) и, как правило, не применяется синтаксический анализ. Но системы второго типа обеспечивают большую полноту поиска информации при меньшем уровне шумов. Полнота поиска увеличивается за счет использования парадигматических связей между словосочетаниями, а точность поиска — за счет синтагматических связей внутри словосочетаний. Кроме того, в системах второго типа в 2—3 раза сокращается объем массива поисковых образов документов по сравнению с объемом этого массива в системах первого типа (см. гл. ()). В дальнейшем мы будем рассматривать только такие способы автоматического индексирования, при которых в качестве основных единиц речи используют преимущественно именные словосочетания, а документы индексируют по текстам их рефератов. [c.255]


Смотреть страницы где упоминается термин Поиск по текстам рефератов: [c.35]    [c.262]    [c.20]   
Автоматизированные информационные системы (1973) -- [ c.259 ]




ПОИСК





Смотрите так же термины и статьи:

Шаг поиска



© 2025 chem21.info Реклама на сайте