Индексирование автоматическое

АЛГОРИТМ АВТОМАТИЧЕСКОГО ИНДЕКСИРОВАНИЯ В ИНФОРМАЦИОННОЙ СИСТЕМЕ ДЛЯ АЗОТНОЙ ПРОМЫШЛЕННОСТИ [c.118]

Алгоритм автоматического индексирования построен в соответствии с вышеизложенными принципами и предусматривает выполнение следующих процедур. [c.120]

Пути использования результатов автоматического индексирования [c.123]

АВТОМАТИЧЕСКОЕ ИНДЕКСИРОВАНИЕ СТРУКТУРНЫХ ФОРМУЛ ОРГАНИЧЕСКИХ СОЕДИНЕНИЙ [c.117]

Автоматизированная информационная система для химии должна решать широкий круг задач, в числе которых важное место занимают корреляционные задачи. В зависимости от типа искомых корреляций (например, инфракрасный спектр — структура , ультрафиолетовый спектр — структура , биологическая активность — структура ) требуется свой специфический подход к структурной формуле и, возможно, свой способ фрагментации. От задачи к задаче меняется и требуемая глубина индексирования. Это связа 10 с тем, что значимые фрагменты для различных корреляционных задач будут различны. В этой ситуации автоматическое индексирование является удобным средством для соответствующего представления структурной формулы как набора потенциально значимых фрагментов . Отсюда ясно, как тесно связана проблема автоматического индексирования с проблемой формализации понятия структурной родственности, рассматриваемой в гл. VII. [c.119]

Таким образом, блок автоматического индексирования играет существенную роль в технологической схеме автоматизированной системы для химии. Ниже кратко описываются три системы автоматического индексирования. [c.119]

Общая схема алгоритма автоматического индексирования такова во входном коде выделяются классы цепочек символов, которые однозначно характеризуют класс структурных фрагментов. Рассмотрим выделение подобных цепочек для характеристики циклической разветвленности. [c.123]

Хотя процедурный аспект автоматического индексирования структурных формул может с некоторыми оговорками считаться автономным , эффективность выбранной системы фильтров может быть оценена, как правило, только в рамках алгоритма поиска семейств родственных соединений. Именно исходя из этого факта, мы рассматриваем автоматизированную систему с использованием фильтров на основе механического химического кода . [c.162]

Анализ опыта составления экспериментального тома систематического указателя реакций приводит к общему выводу, что составление такого рода указателей может стать экономически выгодным только в случае максимальной замены ручных процессов приемами автоматической обработки информации и в первую очередь при условии автоматизации процессов индексирования реакций и процессов систематизации и обобщения, производимых при составлении рукописи указателя. Эти ироцессы представляют собой достаточно сложные виды обработки химической структурной информации, реализация которых мыслима лишь в рамках крупномасштабных автоматизированных информационных систем. Разумеется, что для этого необходимо разработать алгоритмы, позволяющие моделировать соответствующие процедуры, выполняемые людьми. Проблемы разработки этих алгоритмов мы рассмотрим в 14.1—14.2. [c.222]

Автоматизация дескрипторного индексирования может иметь большое значение для автоматизированных ИПС, первоначально созданных для соедипений, в которые затем дополнительно включаются сведения о реакциях. В таких ИПС обычно хорошо налажены процессы автоматического индексирования соединений ( 5.2), в связи с чем дескрипторное индексирование реакций требует сравнительно небольшие дополнительные усилия. [c.267]

Во избежание потерь связей в работе [145] производилось автоматическое распознавание реакций такого рода. Для этого к алгоритму было сделано следующее дополнение. Перед началом работы сравнением БФд и БФп, делается проверка наличия в БФд (или в БФп) связи вида 5 а- 3 , где- 2 или 3. Если такую связь находят, то проверяют, есть ли в БФ и в БФд связи вида 81 8 (где 2 может иметь любое значение). Если такие связи находят, то вырабатывается сигнал о необходимости ручного индексирования. Такой сигнал вырабатывается, в частности, для реакции (81), поскольку в БФп есть связь С==К ( 1 = 2) а в БФ и БФд есть еще связи С-М. [c.270]

Для реакций, в которых происходит выделение лишних связей при автоматическом индексировании, основной процент также приходится па реакции, для которых выделяется одна лишняя связь — 12,5% от общего числа реакций (две лишние связи выделены в 6,4%, три — в 3% и четыре — в 1,25% реакций). [c.270]

Приведенные цифры свидетельствуют о том. что, несмотря на простоту алгоритма, поисковые образы, полученные в результате его применения, в большинстве случаев приемлемым образом совпадают с результатами ручного дескрипторного индексирования реакций. Однако если индексирование информационных запросов будет производиться вручную, то потерянные связи, не выделенные нри автоматическом индексировании, вызовут нри поиске определенные, хотя и не слишком большие, потери. [c.270]

Для автоматического индексирования плоскостей кристаллической решетки применяют компьютерные программы, что позволяет определять параметры элементарной ячейки (с точностью до 0,001 А и выше) и плотности, если известна химическая формула вещества. Для твердых растворов значения параметров элементарной ячейки линейно меняются в зависимости от атомных процентных содержаний компонентов, например в кубической системе u-Au величина а возрастает от 3,608 А для чистой меди до 4,070 А для чистого золота. Измерения межплоскостных расстояний решетки для высоких углов брэгговского отражения приведут, следовательно, к определению состава сплава. Изменения в значениях dhki при изменении температуры или внешнего давления позволяют соответственно определять коэффициенты термического рас- [c.403]

В различных автоматических информационных системах поиск ведется либо по ключевым словам, либо по заглавиям работ, либо непосредственно по текстам рефератов. Информационные поисковые системы на основе заглавий дешевы и быстрее всего доводят материал до потребителей. Хотя при замене ключевых слов заглавиями теряется 20—30% информации, однако одновременно исключаются лишние источники ошибок (процесс индексирования и др.). Поэтому системы поиска по заглавиям в настояшее время получили широкое распространение [4] печатным изданием такого рода является журнал hemi al Titles (см. гл. 4). [c.136]

После ввода в СИАП документы автоматически индексируются так, что каждому документу ставится в соответствие некоторый набор поисковых признаков, который будем называть полным набором поисковых признаков документа (П-на-бором). В свою очередь, поисковые признаки, образующие П-наборы, делятся на две группы. Первая группа состоит из библиографической информации (авторы, заглавие, выходные данные документа). Вторую, группу, отображающую смысловое содержание (текст) документа, образуют согласно принятому алгоритму автоматического индексирования наборы дескрипторов и ключевых слов. Эти наборы обозначаются со- ответственно как Д- и К-наборы., - [c.111]

Выбор алгоритма автоматического индексирования для СИАП базируется в основном на гипотезе, выдвинутой и реализованной М. Таубе в его системе Унитерм Эта гипоте-118 [c.118]

Поэтому, чтобы обеспечить удовлетворительное автоматическое индексирование, принимаем, что все слова естественного языка можно разделить на три непересекающиеся группы несущественные, неопределенные и ключевые (значащие) слова. К группе несущественных при проведении поисков слов относятся служебные части речи, а также слова, которые в рамках тематики СИАП не несут сколько-нибудь значительной смысловой нагрузки. Если не известно, будет ли некоторое слово использоваться при проведении поисков (то есть при формировании поисковых предписаний ), его включают в группу неопределенных слов. В группу ключевых слов объединяются такие слова, поисковая ценность которых принимается достаточно высокой. [c.119]

Алгоритм автоматического индексирования записан на языке программирования ЛИСП соответствующая программа отлажена и экспе1р,иментально проверена на ЭЦВМ БЭСМ-6 в Вычислительном центре АН СССР. [c.123]

Предложенный алгоритм и отлаженная программа позволяют приступить к решению чрезвычайно важной для практики задачи по вводу в СИАП информации, выраженной сред -ствами естественных языков, и изучить на модели различные теоретические и практические аспекты автоматического индексирования. [c.123]

Ещё один довод в пользу полного анализа текста документа (сплошного индексиррвания) заключается в той, что Невозможно предсказать, какие именно запросы в будущем бу- дут поступать от абонентов систем . Поэтому очевидно, что ве роят иость отказов системы из-за неполноты введенной информации уменьшится. Кстати, если при эксплуатации ИС выяснится, что в некоторой ситуации можно ограничиться индексированием не полного текста, а какой-то его части (на-Гфимер, заданногЬ числа предложений), то это.обстоятельство-очень просто учесть без существенного Изменения прогрйайы. . автоматического индексирования. [c.124]

Следует заметить, что в рамках изложенного алгоритма автоматического индексирования предполагается перей и к непосредственному переводу английских текстов на язык СИАП. Положительность такого подхода показана в работе Кроме того, настоящий алгоритм может быть использован также в режиме автоматического реферирования 124 [c.124]

Если выясняется, что проверяемый документ уже введен в систему, то соответствующая информация посылается в выходной диспетчер, где принимается решение либо о вводе очередного массива информации, либо о прекращении работы СИАП. Если же выясняется, что вводимого доку.мента в памяти нет, то его библиографическое описание поступает на обработку и хранение, а текст документа передается в блок, осуществляющий автоматическое индексирование [c.129]

Адаптивность автонатизированных информационных систем и алгоритмы автоматического индексирования [c.117]

Другой путь повышения адаптивности заключается в двухуровневой организации, охватываюш,ей с единой методологической точки зрения любой структурно-химический объект информационной системы. В этом случае с помощью алгоритмов автоматического индексирования для каждой структурной формулы генерируется вторичная дополнительная запись, приспособленная к массовым структурно-химическим задачам. В гл. IV подобные вторичные записи были названы дополнительными кодами . Таким образом, алгоритмы автоматического индексирования являются средством повышения адаптивности при сохранении универсальности автоматизированных информационных систем. Задача автоматического индексирования структурных формул органических соединений есть частный случай более общей проблемы автоматического индексирования текстов. Касаясь этой общности, Кент [77] отмечал, что и в том и в другом случае цель индексирования заключается в выделении признаков, пригодных для информационного поиска. В связи с этим небезынтересно отметить, что сотрудник фирмы IBM Лун, известный своими работами в области автоматического индексирования текстов, разработал также систему кодировапия ациклических цепей (в частности, структурных формул органических соединений), основанную на учете статистического распределения узлов в структурной формуле. [c.118]

Существуют два основных варианта автоматического индексирования структурных формул. Первый вариант сводится к обычному координатному индексированию. Задается некоторый словарь значимых структурных признаков S = Si, Sa,. .., Sk . Далее алгоритм по соответствующей полной записи структурной формулы (например, по матрице связи) ставит в соответствие каждой структуре некоторое подмножество признаков S = == . Зр, St,. .. из этого с.товаря. В этом случае дополнительная запись имеет вид набора чисел, например 17 56 105 264, что означает, что данная структура содержит 17-й, 5б-й, 105-й и 264-й признаки из словаря структурных признаков. При втором варианте задается не словарь признаков, а правило генерации фрагментов структурной формулы. Другими словами, задаются отношения между исходной структурной формулой и некоторым к.лассом фрагментов. [c.118]

Правило генерации может, например, предусматривать компактную запись, включающую кольцевую систему и ациклические фрагменты. В этом случае заранее может быть известен лишь общий класс фрагментов, которые будут выработаны алгоритмом. В соответствии с заранее сформулированными правилами алгоритм будет вырабатывать различные фрагменты, не будучи ограничен заранее их списком. Возможны и промежуточные варианты. При этом вовсе не обязательно, чтобы генерируемая запись включала именно фрагменты данной структурной формулы. Возможно алгоритмически вырабатывать дополнительную запись, свидетельствующую о принадлежности данной структуры к тому или иному общему классу соединений или же словесные наименования, характеризующие класс соединения, и т. д. В случае дескрипторных систем можно вводить отношения между дескрипторами и соответственно получать при автоматическом индексировании более репрезентативную характеристику структуры. Однако в последнем случае сложность системы возрастает. Итак, под автоматическим индексированием структурных формул понимается алгоритмически реализуемая процедура, ставящая в соответствие машинному коду структуры дополнительную запись, отображающую те или иные структурные особенности рассматриваемого соединения. [c.118]

Был составлен и реализован алгоритм выработки бинарных структур ных признаков из поатомных машинных матриц. В этом случае автоматическое индексирование сводится к специализировапному варианту автоматического поиска вхождения подграфа в химический граф. Этот вариант автоматического поиска отличается от обычного тем , что устанавливаются определенные отношения между признаками, что позволяет сократить время индексирования за счет совмещения поиска по нескольким структурным признакам. Результат записывался при этом в виде набора номеров признаков. [c.120]

Другой подход к задаче автоматического индексирования реа.тпзован в фирме I I Томпсоном, Хайдом и Меттьюсом [79]. В этой системе автоматического индексирования словарь структурных признаков типа рассмотренного в предыдущей работе пе задается. Задается совокупность правил, по которым алгоритм генерирует набор фрагментов, используя матрицу связи. Получение матрицы связи по входным линейным записям Висвессера [73] было рассмотрено нами в гл. IV. [c.120]

Алгоритм автоматического индексирования по линейным записям на языке ПНК был разработан и реализован на ЭВМ БЭСМ-4 в НИОПиК Гейвандовым и Баландиным [80]. Результаты работы этого алгоритма использовались в системе внутримашинной организации массива структурной информации. Модификации этого алгоритма можно использовать и для других целей, например, для генерации фрагментов при машинных корреляционных исследованиях. [c.123]

Рассматриваемая система предназначалась для специализированной ИПС для класса соедипений с сопряженными связями, что оказало влияние на выбор дескрипторов. Было выбрано пять классов дескрипторов В — характеристика циклической разветвленности структурной формулы В — размер кольца В,—состав циклической системы В — число колец в циклической системе В," — состав заместителей. В рассматриваемой системе т -= 2 -н 15, т. е. каждый класс дескрипторов содержит от 2 до 15 отдельных дескрипторов. Автоматическое индексирование проводилось непосредствеппо по входным кодам структурных формул. В подобных случаях особое значение приобретает технологичность машинной расшифровки входных кодов. Это определяется том, насколько явно в коде отображена организация исходного графического изображения структурной формулы — скелет циклической системы, гетероатомы, заместители, связки и т. д. [c.123]

В заключении отметим, что проблема автоматического индексирования структурных формул исследована недостаточно. Наиболее многообеш аю-щими являются алгоритмы автоматического индексирования с переменным к.тассификациопным критерием. Эффективные способы индексирования должны основываться на такой формализации понятия структурной родственности, которая, будучи адекватной химическим реалиям, допускала бы в то же время достаточно технологическую схему автоматического индексирования структурных формул. [c.125]

Дескрипторное индексирование реакций может быть осуществлено людьми. Ири этом структурные дескрипторные индексы могут вырабатываться автоматически па базе ручного выявления изменяющихся связей. Однако целесообразпо полностью автоматическое дескрипторное индексирование уравнений реакций, что намного проще автоматического анализа для выявления структурных изменений. [c.267]

Предусматривалось определение и коэффициентов р, когда коэффициент у для связей пе равнялся единице. Результаты автоматического индексирования выводились печатаюш,им устройством ЭВМ Урал-4 в форме таблицы, в которой под порядковым помором реакции перечислялись найденные виды образуюш,и ся и разрывающихся связей с указанием значений коэффициентов а, р и у. [c.269]

Необходимо было В1.1яснить процент видов связей, которые пе выделяются при автоматическом индексировапии, что приводит к потере ипфор-ман,ии при поиске. В зависимости от состава наборов действительно образующихся связей, обозначаемого Д,. и действительно разрывающихся связей, обозначаемого Ун были выявлены случаи, ведущие к потере видов связей при автоматическом индексировании [c.269]

Случаи а), б) и в) также легко распознаются алгоритмически по признаку пустоты Дд или Уа такие реакции также выдавались на ручное индексирование. Суммарный процент реакций, требующий ручного индексирования по всем указанным признакам, был оценен в — 15%. Было подсчитано, что для оставшихся 85% реакций нри автоматическом индексировании потери связей не будут превышать 2%. При подсчетах потерь отдельно фиксировали реакции, где нроисходили потери двух, трех и четырех связей. Из общего числа реакций, для которых при применении алгоритма происходят потери, случаи потери двух связей составляют 4%, потери трех связей — 0,29% и четырех связей — 0,09%. Таким образом, основной процент приходится на реакции, в которых при автоматическолг индексировапии происходит потеря одной связи. [c.270]

На основе этих соображений представляется возможным использовать в ИПС, по крайней мере в качестве фильтров, поисковые образы, получаемые путел сплошного автоматического индексирования реакций (т. е. без В1>1дачи на ручное индексирование) на базе алгоритмов индексирования рассмотренного типа. [c.271]

Могут быть высказаны соображения об усовергаенствовапии описанного алгоритма. В первую очередь желательно устранить те трудности, которые возникают нри выделении изменяющихся кратных связей. Эти трудности могут привести к тому, что для двух реакций с одинаковыми скелетными схемами будут выработаны разные наборы квазиизменяющихся связей, что и вызвало необходимость отказа от автоматического индексирования части реакций. Более простой путь устранения этих трудностей состоит в отказе от индексирования характера изменений кратности связей. Это значит, что при вычислении брутто-формул связей левой и правой частей уравнения не делается различие между связями 8 ах 8 и Зга З), т. е. все связи рассматриваются как имеющие одинаковую кратность, а — = 2 = Тогда алгебраическим вычитанием мы получим только целиком образующиеся и целиком разрывающиеся связи. Поисковые образы, состоящие только из таких связей, будут компактнее, но менее специфичны. Другой нуть устранения трудностей связан с отказом от вычисления и отражения в поисковом образе значения коэффициентов р, т. е. от применения второй части алгоритма. Полученные поисковые образы будут менее химически точными. [c.271]

Приближенное автоматическое индексирование реакций может представить интерес и для автоматического составления традиционного книжного вида специализированных указателей ( 13.4). Хорошей основой для этого являются приближенные линейные коды скелетных схем реакций. Поисковые образы, получаемые алгоритмически вышеописанными путями, также представляют собой приближенные линейные коды, хотя они и менее точны по сравнению с кодами, полученными ручным индексированием по системе, описанной в 13.2. Однако для не слишком обширных массивов реакций дифференцирующая способность поисковых образов, получаемых автоматическим индексированием может оказаться вполне достаточной. [c.273]

Справочник химика 21

Химия и химическая технология