ПОИСК Статьи Рисунки Таблицы Отбор признаков по знаку весовых векторов из "Распознавание образом в химии" Рассмотренные выше методы отбора признаков носят алгоритмический характер причем число признаков, исключенных на каждом этапе, устанавливалось заранее. Эти алгоритмы не позволяют определить, когда же следует прекращать отбор признаков. Признаки исключались даже в тех случаях, когда их отбрасывание значительно ухудшало распознающую способность классификатора. Это обстоятельство стимулировало разработку динамического метода отбора признаков, итог которого зависит от условий, складывающихся в процессе такого динамического отбора. Иными словами, признаки отбрасываются до тех пор, пока не останется ни одного признака, который не давал бы существенного вклада в общее решение. На этой стадии отбор признаков прекращается. Динамический отбор успешно использовался при обработке масс-спектров, однако прежде чем приступить к изложению самого метода, следует описать массив исходных данных. [c.111] Из всего массива в 630 спектров 300 спектров, взятых случайно, были включены в обучающую выборку, а остальные 330 — в контрольную. Максимальная величина отношения mie, соответствующая пику в спектре, оказалась равной 195. Таким образом, поскольку в этом случае d = 195, векторы X i Y имели размерность 195. Использование линейных решающих поверхностей предполагало независимость всех координат и отсутствие взаимодействия между слагаемыми. Для всех этих спектров нашлись 40 положений mie, которые не соответствовали пикам, и поэтому размерность удалось снизить до 155. Дальнейшее сокращение размерности было достигнуто путем исключения из всего массива спектров еще 36 положений mie с числом пиков менее 10. Всего из 17 137 исходных пиков при этом отборе было исключено 111 пиков, т. е. 0,6% общего числа, причем остальные пики распределялись по 119 положениям. Как показала последующая проверка, использование всех без исключения исходных пиков не могло существенным образом упростить задачу классификации. [c.112] В результате семи итераций число признаков для каждого образа снизилось от 119 до 37. Несмотря на такое уменьшение размерности, число коррекций через обратную связь, необходимых для обучения, оставалось приблизительно постоянным. Таким образом, лолное машинное время на обучение сократилось, потому что каждая классификация была сопряжена с расчетом меньшего объема в пространстве уменьшенной размерности. Даже когда из 195 исходных положений осталось всего 37, средняя прогнозирующая способность была высокой. [c.114] Половина из 36 отобранных признаков коррелировала с наличием азота в составе молекул (табл. 5.6). Перечень признаков содержит больше аномалий, чем в случае кислорода, обусловленных, ло-видимому, теми же причинами, что и прежде. В данном случае значение т/е 14 отсутствует, но зато появилось положение mie 28. Неясно, свидетельствует ли это о том, что исходные образцы были загрязнены примесью азота, или же о том, что обучающаяся машина использовала для т/е 28 иную информацию, хотя вероятность загрязнения азотом по крайней мере некоторых образцов весьма значительна. [c.117] Метод отбора признаков, основанный на использовании обучающихся вычислительных устройств, показывает, что информация о вхождении кислорода или азота в состав молекул локализуется на сравнительно немногих положениях mie масс-спектров низкого разрешения. Рассматриваемая процедура позволяет обучить классификатор распознаванию всех объектов обучающей выборки и довольно большую часть объектов контрольной выборки, используя лишь какую-то долю всех имеющихся в масс-спектре признаков. При более обстоятельном анализе выяснилось, что состав отбираемых признаков зависит от фрагментации этих небольших органических молекул в масс-спектрометре и что некоторые фрагменты, не содержащие атомов кислорода или азота, все же важны для обнаружения присутствия последних в составе молекул. [c.118] Рассмотренные выше работы легли в основу другого исследования, целью которого было изучение возможностей итерационного обучения распознаванию образов по методу наименьших квадратов. Этот метод, подробно описанный в гл. 4, сочетался с отбором признаков по знаку весовых векторов, причем массив масс-спектрометрических данных был большего объема [11]. [c.118] Используемую в итерационном методе наименьших квадратов систему нормальных уравнений можно компактно записать в матричной форме. Система имеет единственное нетривиальное решение в том случае, если линейные уравнения независимы. Ранг матрицы коэффициентов такой же, как и размерность пространства образов. Поскольку число операций, требующихся при решении системы линейных уравнений, пропорционально п п — ранг матрицы), целесообразно размерность матрицы сводить к минимуму. [c.119] Итерационный метод наименьших квадратов был испытан при решении нескольких задач. Первая из них заключалась в классификации по наличию кислорода в органических соединениях с небольшим молекулярным весом, уже исследовавшихся ранее. Эту задачу решали обучением с отбором признаков и исправлением ошибок через обратную связь. Число признаков было сокращено от 132 до 31. Обучающаяся система безошибочно распознавала все объекты обучающей выборки прогнозирующая способность на объектах контрольной выборки составила 93,9%. [c.119] Вектор Yi считали равным +1, если г-й спектр указывал на присутствие кислорода, и —1 в противоположном случае. Начальные значения компонент весового вектора выбирали следующим образом если компонента Wj имела значение р-, то для компоненты брали значение —р. В данной задаче компонента считалась равной либо +0,01, либо —0,01. Как выяснилось, эти величины оказались достаточными для того, чтобы значения скалярного произведения находились в разумном интервале (—2,5, +2,5). Минимизация расстояния между кластерами улучшала сходимость. [c.119] Метод отбора признаков сводился к использованию двух разных исходных весовых векторов. Естественно, что обучающая выборка в этих случаях была одинаковой. После обучения сопоставляли знаки компонент весовых векторов. Если знаки оказывались одинаковыми, то соответствующее положение mie сохраняли, если же они были разными — соответствующее положение исключали. Отбор признаков по этому принципу не отразился ни на распознающей, ни на прогнозирующей способности классификатора. [c.121] Этот факт подтверждает предположение, что исключенные признаки не дают почти никакого вклада в решение задачи. [c.121] В табл. 5.7 четыре исключенные положения помечены двумя звездочками. Результаты подобного исключения, как это видно из табл. 5.8, почти не отразились на способности классификатора к распознаванию и прогнозированию. Для оставшихся 18 пиков была достигнута полная согласованность с результатами, полученными методом с исправлением ошибок через обратную связь. Этот вывод подтверждает предположение о том, что определенные пики позволяют судить об отсутствии атомов кислорода в молекулах, тогда как другие идентифицируют присутствие кислорода. [c.122] Второй проверочной задачей была классификация по наличию атомов азота в молекулах органических соединений небольшого молекулярного веса. В данном случае удалось добиться полного распознавания, что позволило произвести отбор признаков. В результате число признаков было сокраш,ено от 132 до 43, из которых были выбраны только те, которые соответствовали 31 наименьшему значению т/е. [c.122] Как И В случае с кислородом, считалось, что вектор К, = +1, если г-й спектр указывал на присутствие азота, и VI = —1 в противоположном случае. Исходные компоненты весового вектора выбирали такими же, как и в рассмотренном выше случае. [c.123] В табл. 5.9 приведены результаты обучения. Весовые векторы определялись при разных условиях обучения, в том числе на разных обучающ,их выборках для разных исходных весовых векторов. Были вычислены средние компоненты весовых векторов и установлены корреляционные связи с наличием или отсутствием азота. Они были сопоставлены с корреляциями, установленными итерационным методом с исправлением ошибок через обратную связь. И в данном случае обнаружилась хорошая согласованность корреляций на 21 случай соответствия корреляций пришлось всего 10 случаев несоответствия. [c.123] В табл. 5.10 приведены результаты решения задачи классификации по наличию атомов азота в молекулах для 31 исходного пика и после дополнительного отбора признаков. Исключенные признаки помечены одной звездочкой в табл. 5.9. И здесь не наблюдалось снижения распознающей или прогнозирующей способностей. Последняя составила 96,7% для 31 признака и 98% для 21 признака. [c.123] Одна из трудностей, встретившихся при решении задачи классификации по наличию азота, была связана с распределением спектров по выборкам. Более 90% использовавшихся спектров принадлежали соединениям, не содержащим азот. Поэтому решающую гиперплоскость пришлось придвинуть к кластеру азотсодержащих соединений. В результате этого распознающая и прогнозирующая способности оказались намного выше для соединений, не содержащих азот, чем для азотсодержащих молекул. Чтобы избежать эту трудность, обучающие выборки пришлось обогащать азотсодержащими соединениями путем простой замены не содержащих азот соединений азотсодержащими. Это привело к значительному улучшению расположения решающей гиперплоскости. Прогнозирующая способность в отношении азотсодержащего кластера повысилась от 40 до 75%. Разумеется, полностью преодолеть эту трудность не удалось, так как число азотсодержащих соединений было слишком мало. Лучшим выходом было бы максимально возможное пополнение совокупности исходных данных азотсодержащими соединениями. [c.124] Методом отбора признаков по знаку весовых векторов пользовались и авторы работы [12] при исследовании вольт-амперных характеристик стационарного электрода (СЭ-полярограмм), которое было описано в гл. 4. Из массива исходных данных первоначально было отобрано 133 признака, затем это число сократили отбором по знаку весовых векторов до 57 практически без всякого ущерба для распознающей способности. Способность к разделению по таким СЭ-полярограммам одно- и двухкомпонентных соединений оказалась для обучающей выборки равной приблизительно 96%, причем число неясных случаев составляло / 5—6%. Дальнейшее сокращение числа признаков осуществлялось отбором по методу, изложенному в предыдущем разделе настоящей главы. [c.124] Вернуться к основной статье