Справочник химика 21

Химия и химическая технология

Статьи Рисунки Таблицы О сайте English

Словарь основ слов

    В ИПС словари слов могут быть в виде словаря словоформ и в виде словаря основ слов. В первом случае основным элементом словаря является буквенный код словоформы, во втором — буквенный код основы слова. В процессе перевода сообщений с русского языка на информационный поиск в словаре осуществляется по буквенному коду словоформы или основы слова, а из словаря выбирается порядковый номер словоформы (основы слова) и сопровождающая его грамматическая информация. При переводе с информационного языка на русский из словаря по номеру словоформы или основы слова выбирается буквенный состав искомого элемента и его грамматическая информация (если она необходима). Первый вид поиска в словаре называется прямы м, а второй — обратным. В ИПС словарь должен быть построен так, чтобы он был удобен и для прямого и для обратного поиска. [c.87]


    Таким образом, наиболее существенное сокращение необходимого объема памяти (в 2—3 раза) достигается при переходе от словаря словоформ к словарю основ слов в том виде, каким он принят в настоящей главе. Дальнейшие шаги в этом направлении малоэффективны и связаны с существенным усложнением алгоритмов морфологического анализа и синтеза. [c.137]

    Возможность определения грамматических признаков новых слов с помощью словаря была проверена на примере обобщенных и флективных классов. Оказалось, что в неформализованных текстах с помощью словаря основ обобщенные грамматические классы определяются правильно с вероятностью 0,96, флективные классы — с вероятностью 0,89. С помощью словаря словоформ обобщенные классы определяются правильно с вероятностью 0,95, флективные классы —с вероятностью 0,91. В именных словосочетаниях обобщенные и флективные классы слов определялись точнее обобщенные классы— с вероятностью 0,99, флективные классы—с вероятностью 0,95, причем данные, полученные с помощью словаря основ слов и с помощью словаря словоформ, совпадали. [c.162]

    Таким образом, словарь основ слов и словарь словоформ могут быть использованы в качестве средства для определения грамматических признаков новых слов. При этом отпадает необходимость в специальных списках конечных буквосочетаний слов. [c.162]

    Основной словарь основ слов (для. точного морфологического анализа) [c.188]

    Дополнительный словарь основ слов (для приближенного морфологического анализа) Словарь наименований понятий (СНП) Классификационный словарь понятий (КСП) Обращенный классификационный словарь понятий [c.188]

    Основной словарь основ слов (табл. 10.3) был составлен по неформализованным текстам и включал 4000 наиболее часто встречающихся основ. Дополнительный словарь составлялся по тезаурусу. Он содержал только такие основы слов, которые отсутствовали в основном словаре. Словарь наименований понятий (словарь пословных кодов терминов) формировался на основе словаря их побуквенных кодов. Последний использовался также для декодирования результатов поиска в словарях. [c.188]

    При работе автоматизированных ИПС широко используются словари различного наз.начения (словари словоформ, словари основ слов, словари наименований понятий). Составление словарей — задача весьма трудоемкая. Естественным поэтому является стремление автоматизировать этот процесс. Но если процесс составления словарей словоформ легко автоматизируется, то сложнее дело обстоит со словарями основ слов и словосочетаний. [c.195]


    Составление словарей словоформ и словарей основ слов [c.195]

    Составление словарей словоформ и словарей основ слов на ЭВМ с большой оперативной памятью [c.197]

    Процедуры автоматического составления словарей словоформ и словарей основ слов имеют много общих черт. Поэтому в дальнейшем изложении мы сосредоточим основное вни,ма.ние на способах составления словарей словоформ. [c.197]

    Задача ставится следующим образом. Даны перечни наименований понятий (именных словосочетаний) в различной форме с повторениями одних и тех же элементов. Требуется отобрать из этих перечней разные по смыслу наименования понятий и представить их в форме, принятой для записи машинного словаря. Для решения этой задачи необходим машинный словарь основ слов, включающий все основы, которые могут встретиться в именных словосочетаниях. Такой словарь составляется заранее по описанной выше методике или формируется в процессе составления словаря именных словосочетаний. [c.202]

    В процессе перевода сообщений на информационный язык сначала пословно кодируют наименования понятий (блок 3 на рис. 13.2), затем полученные коды заменяют их номерами по словарю понятий (блок 4). В случае необходимости словарь основ слов и словарь понятий дополняются. При появлении новых понятий пополняется также массив буквенных кодов их наименований (блок 5). Новые буквенные коды наименований понятий записываются в конец этого массива. [c.235]

    Словарь основ слов состоит из двух частей — основного словаря и дополнительного. Основной словарь составляется до ввода системы в эксплуатацию и предназначен для точного морфологического анализа. Дополнительный словарь формируется в процессе эксплуатации системы и пополняется за счет новых слов. При этом используется процедура приближенного морфологического анализа. Основы новых слов записываются в словарь в порядке их поступления, а в качестве номеров смысловых эквивалентов используются их позиционные номера. Поиск в дополнительном словаре производится цепным способом. [c.235]

    Полнота установления смысловых связей между понятиями при индексировании может быть сушественно увеличена, если наряду со словарем основ слов и словарем наименований понятий использовать словарь родовидовых связей слов. При этом понятие А тезауруса может быть использовано для замены исходного понятия В, если для каждого слова наименования понятия А в наименовании понятия В находится либо эквивалентное ему по смыслу слово, либо слово, выражающее более узкое по объему понятие. В обоих наименованиях понятий схемы связей соответствующих слов должны совпадать. [c.257]

    Таким образом, чтобы перевести тексты рефератов и запросов в машинную форму представления и обеспечить высокий уровень полноты выдачи информации при поиске, необходим автоматический тезаурус. В состав тезауруса должны входить словарь основ слов, словарь смысловых связей слов, словарь наименований понятий и классификационный словарь понятий. [c.261]

    Зависимость объема словаря основ слов от протяженности текста (получена по неформализованным текстам объемом 500 ООО слов) [c.266]

    Зависимость объема словаря основ слов от объема словаря наименований понятий (получена по словарю объемом 11 620 словосочетаний) [c.266]

    Зависимость объема словаря основ слов от протяженности словаря именных словосочетаний, исчисляемой в словах (получена по словарю словосочетаний объемом 34 182 слов) Зависимость объема словаря наименований понятий от объема массива элементарных сообщений в фактографической ИПС (получена по массиву объемом 17 690 сообщений) [c.266]

    Зависимость объема словаря словоформ и словаря основ слов от объема словаря наименований понятий (СНП) [c.270]

    Объем словаря основ слов (в двоичных знаках)  [c.277]

    ФРАГМЕНТЫ МАШИННОГО СЛОВАРЯ ОСНОВ СЛОВ [c.307]

    Машинный словарь основ слов представляет собой перечень буквенных кодов основ, упорядоченный по возрастанию их длины и по алфавиту. Каждая основа сопровождается цифровыми индексами, определяющими характер изменения форм слова в различных контекстных окружениях кроме того, каждой основе слова ставится в соответствие номер ее смыслового эквивалента. Номера смысловых эквивалентов обозначают классы эквивалентных слов, т. е. группы слов, способных замещать друг друга при трансформациях словосочетаний. [c.307]

    Машинный словарь основ слов фрагменты) [c.308]

    ПРИЛОЖЕНИЕ 4 ФРАГМЕНТЫ ОБРАТНОГО ЧАСТОТНОГО СЛОВАРЯ ОСНОВ СЛОВ [c.311]

    Морфологический анализ и синтез слов производится с помощью словаря основ и ряда вспомогательных таблиц. В словарь включены основы простых и сложных слов без внутренней флексии. Для сложных слов с внутренней флексией типа слесарь-инструменталь-щик , завод-изготовитель и т. п. в словаре приведены лишь основы простых слов, входящих в состав этих сложных слов. Если слово имеет несколько форм основ, то в словарь, как правило, были включены все формы основ слов. Исключение составляют лишь изменяемые основы типа II (основы с чередованием гласных), которые представлены в словаре только в одной из возможных форм, принятой за каноническую. Каждой основе словаря ставится в соответствие сочетание кода основоизменительного класса и кода флективного класса, а омонимичной основе—серия сочетаний таких кодов. Фрагменты словаря основ слов приведены в приложении 2. [c.102]


    Словарь основ слов записывается в памяти ЭВМ. в виде двух массивов массива буквенных кодов основ й массива кодов морфологических классов слов. Массив кодов морфологических классов слов записывается отдельно от массива буквенных кодов основ и, в свою очередь, разделяется на два массива массив кодов основоизменительных классов и массив кодов флективных классов слов. Массив кодов флективных классов представляет собой перечень их номеров (согласно табл. 7.1), поставленных в соответствие кодам основ слов. Различные сочетания номеров флективных классов, соответствующие омонимичным основам, перенумерованы, и эти (последние) номера включены в состав массива флективных классов. Нумерация сочетаний кодов флективных классов является продолжением нумерации флективных классов, приведенной в табл. 7.1. [c.128]

    В результате экспериментов были получены распределения частот поязления максимальных значений количества совпавших конечных букв у новых слов и у слов из словаря (отдельно для словаря словоформ и для словаря основ слов). Эти распределения приведены в табл. 8.7. Средние значения количества совпавших [c.161]

    Понятия автоматически кодируются с помощью двух словарей словаря слов и словаря понятий. Словарь слов может быть оформлен в виде словаря словоформ или словаря основ слов. Все его элементы нумеруются. Словарь понятий содержит список свернутых кодов именных словосочетаний, используемых в информационной системе. Каждое наименование понятия представлено в словаре сочетанием нхзмеров слов , входящих в его состав, и номером грамматической структуры. Грамматическая структура словосочетания содержит информацию о связях между словами и информацию о формах слов, необходимую при декодировании. Различные грамматические структуры задаются списком. [c.164]

    Эффективность различных способов автоматического установления смысловых связей между терминами оценивалась при двух вариантах пословного кодирования словосочетании. По первому варианту слова, основы которых содержались в основном словаре, были представлены номерами смысловых эквивалентов, а слова из дополнительного словаря — номерами основ. По второму варианту все слова были представлены номерами их основ, а словосочетания кодировались только с помощью приближенного морфологического анализа. Основной словарь основ слов отсутствовал, а дополнительный словарь имел объем 3675 элемектоз. [c.188]

    При составлении словаря основ слов используются алгоритмы точного и приближенного морфологического анализа (см. гл. 7, 8). Если словарь составляется заново, с нуля , то выделение основ слов и назначение им грамматической информации осуществляется с помощью процедуры приближенного морфологического анализа. Если он составляется а базе ранее составленного словаря, то поиск в исходном словаре производится с помощью процедуры точного морфологического анализа, а поиск в дополнительной части словаря — с помощью процедуры приближенного анализа. Обращение к до-полнительпой части словаря происходит после того, как очередное слово не было найдено в исходном словаре. [c.197]

    В словаре наименований понятий, предназначенном для декодирования информации, в словосочетаниях сохраняется естественный порядок слов. Слова здесь могут быть представлены номерами их основ, номерами словоформ или буквенными кодами словоформ. В первом и втором случае наряду со словарем словосочетаний необходимо иметь словарь слов (словарь основ слов или словарь словоформ соответственно). Словарь наименований понятий для декодирования информации составляется одновременно со словарем для ее кодирования. Он пополняется по мере появления новых терминов. Распознавание новых терминов производится с помощью словаря для кодирования информации, а в словарь для декодирования заносится по одному трансформационному варианту каждого термина. При составлении словарей наименований ронятий на ЭВМ с ограниченной емкостью оперативной памяти могут использоваться методы, рассмотренные ранее. [c.204]

    Перед началом функционирования системы составляется словарь основ слов и словарь наименований понятий, устанавливаются родо-видовые связи между понятиями (для классификационного словаря) и заполняются бланки сообщений (см. табл. 13.1). Родо-видовые связи фиксируются в классификационном словаре только в тех случаях, когда они не выражены в словесных формулировках наименований понятий. Слозарь основ [c.229]

    Дескринторные описания рефератов переносятся на перфоленту в международном телеграфном коде и вводятся в ЭВМ. Далее с помощью процедур морфологического анализа и отождествленрш наименований понятий исходные словосочетания заменяются на номера понятий по словарю. При необходимости словарь основ слов и словарь наименований понятий пополняются. В процессе формирования поисковых образов рефератов на печать выдается список новых наименований понятий вместе с их словарными номерами. Этот список служит в дальнейшем в качестве исходного материала для установления смысловых связей между наименованиями понятий и для пополнения классификационного словаря понятий. [c.240]

    Для оценки возможности поиска документов по текстам рефератов А. К. Родионовой под руководство автора была построена программная модель, включавшая процедуры морфологического и синтаксического анализа и поиска по текстам рефератов. Общий объем программ для машины типа БЭСМ-ЗМ составлял около 7000 команд. Тексты рефератов (их было около З ОО) вводились в ЭВМ в побуквенном коде и с помощью процедуры морфологического анализа переводились в пословный код. При необходимости словарь основ слов пополнялся. Для каждого предложения строилось дерево зависимостей и результаты обработки текстов лереписы-вались на магнитную ленту. [c.260]

    Пусть зависимость объема словаря наименований понятий у от количества формализованных сообщений х определяется выражением y=kiX а зависимость объема словаря основ слов z от объема, словаря наименований понятий у — выражением z= 2 l/" fei, ГИ], k2, ni2 — параметры). Тогда длина кода номера словосочетания будет /j = log2i/, а средняя длина пословных кодов словосочетаний (если слова кодируются номерами их основ) —/2 = i" p logzZ, где Гор — среднее количество слов в словосочетании. [c.275]


Смотреть страницы где упоминается термин Словарь основ слов: [c.135]    [c.161]    [c.228]    [c.236]    [c.256]    [c.275]    [c.304]    [c.305]    [c.307]   
Автоматизированные информационные системы (1973) -- [ c.87 , c.235 ]




ПОИСК





Смотрите так же термины и статьи:

Слово



© 2024 chem21.info Реклама на сайте