Справочник химика 21

Химия и химическая технология

Статьи Рисунки Таблицы О сайте English

Синтаксический анализ текстов

    В начале главы было указано, что прн автоматическом синтаксическом анализе текстов обычно можно ограничиться сведениями о принадлежности новых  [c.155]

    Модель семантик предпочтения позволяет 1) анализировать связные тексты, а не отдельные предложения 2) формализовать семантический анализ текста 3) разработать машинно-ориентированную структуру анализа текста 4) рассматривать смысл предложений не как список значений слов с соответствующей синтаксической структурой, а выделять структурированную форму сообщения 5) уметь обрабатывать предложения, содержащие неизвестные слова. [c.79]


    Особенно трудна задача выявления терминов, представляющих собой словосочетания. Обычно это именные словосочетания, например существительное с одним или несколькими прилагательными. Отбор этих ключевых слов, как правило, производится вручную из различного рода словарей, справочников и на основании знаний и опыта специалистов. В качестве человеко-машинного выявления используется (и то в редких случаях) способ, при котором с помощью ЭВМ вырабатываются частотные словари двоек , троек и т. д. смежных словоформ по текстам документов репрезентативной выборки. Отбор ключевых слов — словосочетаний из полученных списков производится вручную различными способами сопоставления, логических выводов, а также с использованием обычных дополнительных средств словарей, справочников, каталогов, консультаций со специалистами и т. д. Дальнейшее развитие методов автоматизации этого процесса ожидается при разработке процедур синтаксического и семантического анализа текстов, порождаемых русским естественным языком. Несмотря на имеющиеся многочисленные теоретические работы в этой области (в частности, связанные с проблемой машинного перевода с одного языка на другой), ощутимых практических результатов, к сожалению, не получено. Эти проблемы связаны не только о автоматизацией процесса разработки тезаурусов, но и с автоматизацией индексирования документов и запросов. [c.13]

    Глава 14 АВТОМАТИЧЕСКИЙ СИНТАКСИЧЕСКИЙ АНАЛИЗ НЕФОРМАЛИЗОВАННЫХ ТЕКСТОВ [c.242]

    При создании алгоритмов синтаксического анализа необходимо располагать сведениями о грамматической структуре текстов, на которые эти алгоритмы ориентируются. Эффективным путем получения такого рода сведений является статистическое обследование текстов. Оно позволяет выявить различные элементы грамматической структуры и оценить их относительную значимость. [c.242]

    Исходные данные для алгоритма синтаксического анализа формируются путем морфологического анализа текстов. В результате работы алгоритма синтаксического анализа строится дерево предложения. В памяти машины дерево предложения записывается таким образом, что для каждого порядкового номера слова указываются перечни порядковых номеров подчиняющих и подчиненных слов.  [c.244]

    Работа алгоритма построения дерева предложения заключается в последовательном принятии решения о характере синтаксической связи между двумя словами. Переход от одной пары слов к другой совершается с учетом результатов анализа предшествующей пары слов. Синтаксические связи определяются согласно правилам, приведенным в табл. 14.1. Эти правила вырабатывались на основе статистического анализа текстов. [c.244]


    Кроме перечисленных Выше программ в состав экспериментальной модели синтаксического анализа предложений входила программа ввода текстов с телеграфного аппарата и программа распечатки результатов анализа на АЦПУ. На АЦПУ выдавался текст исходного предложения вместе с присвоенными машиной порядковыми номерами слов, перечень новых слов (слов, не содержащихся в словаре) с их грамматическими признаками и структура дерева предложения. Структура дерева пред- [c.251]

    Поисковые запросы также подвергались морфологическому и синтаксическому анализу и приводились к форме, аналогичной форме представления текстов рефератов. В запросе, как правило, указывалось одно исходное словосочетание, которое с помощью тезауруса вручную заменялось на серию эквивалентных ему и более узких по смыслу словосочетаний. Связь между словосочетаниями расширенного запроса интерпретировалась как дизъюнктивная. Словарь основ при вводе запросов не пополнялся, а новые слова исключались из словосочетаний. Результаты поиска выдавались в виде серии номеров рефератов. [c.260]

    В основу синтаксического анализа текстов была положена модель дерева зависимостей. Каждое предложение анализируемого текста представлялось в В1иде графа, в узлах которого помещались символы грамматических классов слов и информация о форме, слова. Узлы соединялись стрелками, указывающими направление связи между словами (от подчиняющего слова к подчиненному). При этом использовались следующие условные обозначения. [c.242]

    Появление новых слов в тексте может помешать правильному выполнению его синтаксического анализа. Между тем для выявления синтаксической структуры фразы в большинстве случаев достаточно получить информацию о принадлежности незнакомого слова только к определенному грамматическому классу и не требуется более подробных сведений форме слова. Возникает вопрос, нельзя ли, не прибегая к помощи словаря, определять грамматический класс слова по его буквенному составу Задача подобного рода была поставлена и решена автором совместно с И. М. Давыдовой. В процессе исследования был проанал изирован обратный словарь словоформ объемом около 30 ООО единиц, составленный по деловым текстам протяженностью 500 ООО слов (см. приложение 3). В результате были построены распределения частот появления грамматических классов, ассоциированных с различными буквами и буквосочетаниями, стоящими в конце слова. Фрагмент перечня распределений частот появления грамматических классов приведен в табл. 8.1. [c.138]

    Одной из наиболее трудных задач, возникающих при создании систем автоматической обработки текстовой информации, является построение процедур синтаксического анализа для естественных языков. Дело в том, что естественный язык является универсальным средством общения людей и в нем отображается все многообразие проявлений человеческой деятельности. Функционирование языка непосредственно связано с процессами мышления, которые еще недостаточно изучены. Над созданием процедур синтаксического анализа естественных языков работает ряд ученых в нащей стране и за рубежом (см., например, монографию И. А. Мельчука [89]). Тем не менее в настоящее время еще нет аппробирован-ных процедур синтаксического анализа, учитывающих все явления естественного языка. Поэтому приходится пользоваться приближенными процедурами, ориентированными на решение частных задач обработки текстовой, информации. В настоящей главе описывается алгоритм приближенного синтаксического анализа русского языка, предназначенный для использования в системах автоматического индексирования деловых текстов. [c.242]

    Системы автоматического индексирования документов, ориентированные на использование преимущественно однословных терминов, проще в реализации, чем системы, в которых основными единицами речи считаются словосочетания. В этих системах словарь дескрипторов занимает меньший объем, чем в системах второго типа, в них легко выделяются из текста единицы речи (по пробелам между словами) и, как правило, не применяется синтаксический анализ. Но системы второго типа обеспечивают большую полноту поиска информации при меньшем уровне шумов. Полнота поиска увеличивается за счет использования парадигматических связей между словосочетаниями, а точность поиска — за счет синтагматических связей внутри словосочетаний. Кроме того, в системах второго типа в 2—3 раза сокращается объем массива поисковых образов документов по сравнению с объемом этого массива в системах первого типа (см. гл. ()). В дальнейшем мы будем рассматривать только такие способы автоматического индексирования, при которых в качестве основных единиц речи используют преимущественно именные словосочетания, а документы индексируют по текстам их рефератов. [c.255]

    Для оценки возможности поиска документов по текстам рефератов А. К. Родионовой под руководство автора была построена программная модель, включавшая процедуры морфологического и синтаксического анализа и поиска по текстам рефератов. Общий объем программ для машины типа БЭСМ-ЗМ составлял около 7000 команд. Тексты рефератов (их было около З ОО) вводились в ЭВМ в побуквенном коде и с помощью процедуры морфологического анализа переводились в пословный код. При необходимости словарь основ слов пополнялся. Для каждого предложения строилось дерево зависимостей и результаты обработки текстов лереписы-вались на магнитную ленту. [c.260]


    Многие приборы оборудованы рядом средств для автоматизированной выдачи результатов. Некоторые приборы имеют встроенные печатающие устройства (которые могут проводить построение графиков), другие же снабжены стандартным интерфейсом (обычно К5-232-С) для присоединения внещнего печатающего устройства. И в том и в другом случае бумага, предназначенная для печатающих устройств, может быть самой различной окращенной или белой, чистой или с заранее напечатанным текстом она может быть поступающей в устройство непрерывно или в виде отдельных листов. Устройства такого типа играют важную роль в тех случаях, когда выдача результатов проводится обычными методами — в виде печатных форм. Если же результаты передаются в центры, удаленные от той лаборатории, в которой проводится анализ, приборы могут быть оборудованы устройствами автоматического набора телефонного номера, так что результаты анализа могут быть автоматически переданы по сети телекоммуникаций тем лицам, которым они предназначены. Эта область быстро развивается. В настоящее время большой интерес представляет применение методов речевого ввода/вывода информации для управления приборами в лаборатории и для сообщения результатов. В относительно недавно опубликованной статье Левинсона и Шипли [29] показано, какими возможностями обладают такие системы. В статье описана сложная диалоговая информационная система, основанная на использовании речевого ввода и вывода. Устройство способно оперировать 19 различными семантическими категориями. В каждой из них допускаются различные альтернативные и эквивалентные синтаксические структуры. Словарь распознавателя речи состоит из 127 слов, а словарь речевого ответчика — из 191 слова. Речевой ввод информации в прибор проводится в виде последовательности слов с короткими паузами (100 мс) [c.353]


Смотреть страницы где упоминается термин Синтаксический анализ текстов: [c.260]    [c.262]    [c.96]   
Автоматизированные информационные системы (1973) -- [ c.242 ]




ПОИСК







© 2024 chem21.info Реклама на сайте