Справочник химика 21

Химия и химическая технология

Статьи Рисунки Таблицы О сайте English
Нередко одна задача противоречит другой. Однако если сделать расстояние между классами больше, то классификация упрощается. Уменьшение размерности пространства образов снижает расходы на классификацию, потому что время, требующееся для расчета разделяющей функции, как правило, тем больше, чем больше размерность этого пространства. Таким образом, уменьшение размерности может привести к сокращению объема выборки данных, который необходим, чтобы избежать неопределенности классификации.

ПОИСК





Предварительная обработка и преобразования исходных данМасс-спектры

из "Распознавание образом в химии"

Нередко одна задача противоречит другой. Однако если сделать расстояние между классами больше, то классификация упрощается. Уменьшение размерности пространства образов снижает расходы на классификацию, потому что время, требующееся для расчета разделяющей функции, как правило, тем больше, чем больше размерность этого пространства. Таким образом, уменьшение размерности может привести к сокращению объема выборки данных, который необходим, чтобы избежать неопределенности классификации. [c.29]
Настоящая глава посвящена рассмотрению ряда примеров линейной препроцессорной обработки химических данных, при которых сохраняется размерность пространства изображений. Поскольку данн ю стадию нельзя рассматривать отдельно от всей системы классификации образов, при сопоставлении различных подходов к препроцессорной обработке приходится обращаться к общим рабочим характеристикам бинарного классификатора. Поэтому в настоящей главе приведены некоторые рабочие характеристики распознающих систем в целом. Однако объем сведений, обстоятельно излагаемых в последующих главах, сведен к минимуму. В начальных разделах данной главы рассмотрена препроцессорная обработка данных, заимствованных из одного источника, т. е. характеризующихся тесной взаимосвязью замеров. В последующих же разделах главное внимание уделено препроцессорной обработке разрозненных данных, т. е. заимствованных из разных источников и полученных в ходе самостоятельных, не связанных между собой измерений. [c.30]
Из химических данных мы в первую очередь рассматривали масс-спектры. Ниже изложены результаты сопоставления ряда методов препроцессорной обработки масс-спектров низкого разрешения, проведенного одним из авторов настоящей книги [1]. [c.30]
Большое число исходных данных позволило брать при решении конкретной задачи достаточно однородные выборки спектров. В рассматриваемом случае были отобраны масс-спектры соединений, содержащих от 3 до 10 атомов углерода. (Испытания с использованием выборок спектров соединений, в состав молекул которых входит от 3 до 20 атомов углерода, показали, что полученные в нашем исследовании результаты не были артефактами данных и хорошо зарекомендовали себя также при обучении на менее однородных выборках спектров.) Для каждого машинного просчета было использовано по 600 спектров, соответствующих требованиям в отношении числа атомов углерода и поровну поделенных между обучающей и контрольной выборками. Чаще всего в выборке из 600 спектров имелось 35 500 пиков, распределенных по 132 положениям mie. [c.31]
Масс-спектры преобразовывали четырьмя не изменявшими размерность методами извлечением квадратного корня, извлечением корня четвертой степени, логарифмированием и возведением в нулевую степень . Последнее преобразование фактически сводится к двоичному кодированию, т. е. пику в спектре соответствует единица, а положению, где пик отсутствует, — нуль. Следовательно, это преобразование можно трактовать как пороговую обработку. Полученные результаты приведены в табл. 3.1. [c.31]
Для каждого из этих четырех преобразований проводили машинный просчет по программе отбора признаков. Главные моменты обычной процедуры отбора признаков заключались в том, что на каждом ее этапе осуществлялось обучение на двух весовых векторах (ВВ), компоненты которых во всех случаях считались первоначально равными либо +1 (ВВ = +1), либо —1 (ВВ = —1) затем знаки компонент весовых векторов сопоставлялись. На очередном этапе оставляли только те положения т/е, для которых компоненты весовых векторов имели одинаковый знак. Процедуру обучения проводили до тех пор, пока не достигалась полная ясность в отношении всех положений т/е. На этом программа обучения заканчивалась. [c.31]
Целесообразность выбора для преобразования логарифмической зависимости обоснована с позиций теории информации в работе [2]. В этом исследовании, включающем сжатие масс-спектров, логарифмически устанавливался ряд переходных уровней интенсивности, соответствовавших следующим относительным значениям полного ионного тока (%) Va, 1, 2, 4, 8, 16 и 32. Это делалось для того, чтобы приблизительно сравнять число пиков на каждом уровне и тем самым по возможности увеличить объем информации, или так называемую энтропию информации, в независимом канале. [c.33]
Известно [3], что динамический диапазон изменения разных компонент образов может изменяться в широких пределах, однако вне определенных пределов время сходимости резко возрастает. В работе [3] значение (й + 1)-й компоненты любого вектора образа варьировалось в пределах нескольких порядков величины. Как выяснилось, когда эта компонента во много раз превосходит средние значения других компонент, сходимость достигается крайне медленно. [c.34]
Как показано в ряде работ [1,4, 5], объем информации в бинарных масс-спектрах весьма значителен, поэтому во многих случаях масс-спектры идеально подходят для исследования методами распознавания образов. [c.34]


Вернуться к основной статье


© 2025 chem21.info Реклама на сайте