Генерирование перекрестных членов

из "Распознавание образом в химии"

Применение методов распознавания образов в масс-спектрометрии на первых порах почти всегда проводилось с использованием пороговых логических элементов. Такие распознающие системы принадлежат к категории линейных систем, поскольку масс-спектрометрические пики считаются в данном случае не зависящими друг от друга. Между тем теория масс-спектрометрии, равно как и фундаментальные основы классификации образов, позволяют предположить, что при подобной классификации можно было бы успешно использовать взаимодействия второго порядка (перекрестные члены, учитывающие зависимости между пиками). В статье [2] сообщается об использовании меры подобия к данным масс-спектро-метрии низкого разрешения для вывода перекрестных членов двух типов внутригрупповых (для объектов одной выборки) и межгруп-повых (для объектов нескольких выборок). Показано, что для полученных таким образом межгрупповых перекрестных членов существует большая вероятность корреляции с теми молекулярными признаками, которые можно положить в основу разбиения на категории. Это предположение было реализовано в виде классификаторов образов на пороговых логических элементах, проверявшихся на нескольких выборках масс-спектрометрических данных. Как оказалось, перекрестные члены расширяют возможности систем классификации образов либо ускоряя сходимость, либо повышая прогнозирующую способность этих систем, либо же обеспечивая и то и другое одновременно. [c.138]
Данные многих типов (такие, как интересующие нас масс-спектрометрические данные) можно выразить в векторной форме. Действительно, каждый спектр из выборки масс-спектрометрических данных можно записать как X = Х2, Хр, где каждая отдельная компонента вектора соответствует одному пику в спектре так, Хз1 характеризует интенсивность пика с mie 31. Из совокупности подобных векторов, характеризующих выборку данных, можно вычислить следующие величины Ьц — число векторов в выборке данных с ненулевым членом хй Ьц — число векторов с ненулевыми значениями Xi и x . Например, для массива масс-спектрометрических данных из 100 векторов значение eis.is будет равно 50, если половина векторов имеет ненулевую компоненту Ху . Значение 15,30 = 40 означает, что 40 векторов имеют пики в обоих положениях mie 15 и mie 30. [c.139]
Такая матрица сходства состоит из элементов Сц значения Сц, вычисленные по формуле (6.3), лежат в пределах от нуля до единицы чем больше тем сильнее зависимость между членами лгг и Xj. Эту матрицу можно преобразовать в матрицу смежности путем сравнения каждого значения с порогом Т, принимая затем Сц = I, если Сгу Г, и = О во всех остальных случаях. Можно исследовать число ненулевых элементов полученной таким образом матрицы смежности как функцию порога. Каждая 1, фигурирующая в составленной пороговым нормированием матрице смежности, соответствует отдельному перекрестному члену, появляющемуся в выборке данных достаточно часто, чтобы превзойти пороговое значение. Подобные перекрестные члены могут служить полезным признаком для пороговых логических элементов при разделении данных в целях классификации. Следовательно, такие члены можно рассматривать как полезные при классификации признаки. Эти признаки явно относятся к внутригрупповым, поскольку они выводятся для элементов множества векторов в целом. [c.140]
Кривые е и г на рис. 6.2 характеризуют число узлов в самом крупном кластере как функцию величины порога. Кластер определяют как совокупность таких узлов, которые соединены между собой ребром. Переход от одного узла подобного класса к другому можно осуществить последовательным перемещением по ребрам. Как показывает график (рис. 6.2), число узлов в самом крупном кластере тем меньше, чем выше порог Т. [c.141]
Описанным методом поиска межгрупповых признаков были обработаны масс-спектры соединений нескольких характерных химических категорий для выявления представляющих интерес перекрестных членов, коррелирующих с двумя классами химических соединений. Множество из 450 масс-спектров было разбито на два подмножества. Затем по формуле (6.3) были вычислены соответствующие матрицы сходства для попарных сочетаний компонент и, наконец, по формуле (6.4) была найдена разность между двумя этими матрицами. Результаты трех таких расчетов обобщены в табл. 6.1. Эти расчеты проводились для следующих вопросов, допускающих только два варианта ответа I) содержится или не содержится в соединении кислород 2) больше или меньше 14 число атомов водорода в молекуле 3) больше или меньше двух отношение числа атомов водорода к числу атомов углерода Выбранные в этом исследовании категории (классы) типичны для той информации, какую полезно знать о соединении, когда перед обучающейся вычислительной машиной ставится задача распознать соединение по его спектру. [c.142]
В верхней части табл. 6.1 приведены числа перекрестных членов для обоих подмножеств при некоторых значениях порога Т в интервале 1,00—0,80. Число перекрестных членов для разных категорий изменяется в широких пределах при каждом значении Т. Исследованное для каждой категории число перекрестных членов указано в шестой строке таблицы (это члены с высшими значениями сц, по которым вычисляли значения Асц). По результатам расчетов были отобраны отдельные перекрестные члены с наибольшими значениями Дс . Число отобранных таким образом перекрестных членов для каждой категории указано в седьмой строке. В нижней части табл. 6.1 приведены данные о профилях шести наборов исследованных перекрестных членов. Величина и интервалы изменения значений Сц иАсц с переходом от одной категории к другой изменяются в весьма широком диапазоне. Наибольшие значения Асц принадлежат перекрестным членам контрольного набора для определения присутствия или отсутствия кислорода (со средними значениями A ij, равными 0,74 для кислородсодержащих молекул и 0,66 для бескислородных соединений). [c.142]
При обучении классификации на присутствие кислорода в составе соединения программа выделения линейных признаков сокращала число положений mie от 132 до 95. При наличии 95 положений классификатор образов быстро сходился к полному распознаванию, при этом прогнозирующая способность составила 97,7, 98,1 и 98,7%. С введением 27 перекрестных членов (тех же, что и в табл. 6.1) характеристики классификаторов образов изменялись. В опытах с обучением классификации на присутствие кислорода показатель скорости сходимости находился в интервале 0,54—0,77. Такой значительный выигрыш в сходимости свидетельствует о том, что отобранные перекрестные члены сильно коррелировали с присутствием или отсутствием кислорода в составе соединения. В случае обучающих выборок Б н В прогнозирующая способность очень мало изменялась при введении перекрестных членов, а для выборки А она немного снижалась. Анализ данных, приведенных в восьмой колонке, показывает, что классификаторы образов при введении перекрестных членов дают меньше отказов, чем при распознавании только по линейным признакам. Данные, представленные в последней колонке, указывают на то, что программа отбора признаков исключает во всех случаях введения перекрестных членов больше линейных дескрипторов, чем при обучении только на линейных членах. Как показала программа отбора признаков, почти все перекрестные члены были полезными при классификации. [c.146]

Вернуться к основной статье

Справочник химика 21

Химия и химическая технология