Принципы некоторых современных алгоритмов идентификации

из "Интерпритация масс-спектров органических соединений "

При решении многих практических задач масс- или хромато-масс-спектрометрического анализа сложных образцов идентификация органических соединений с помощью методов библиотечного поиска оказывается весьма эффективной. Однако необходимым условием целесообразности применения этих методов является наличие обширных банков данных (по современным оценкам — не менее 20—30 тыс. спектров). Эффективная обработка таких массивов данных возможна только с использованием ЭВМ. Даже если спектр неизвестного соединения отсутствует в этом массиве, методы библиотечного поиска оказываются полезными, так как позволяют выявить другие вещества с похожими спектрами и в некоторых случаях сделать выводы о строении анализируемого вещества. [c.112]
Ответ ЭВМ обычно включает перечень названий соединений со спектрами, наиболее похожими на спектр неизвестного соединения. Достоверность этого ответа зависит как от характера массива данных, так и от алгоритма сравнения спектров. [c.112]
Любой алгоритм масс-спектрометрической идентификации включает стадию библиотечного поиска (просмотр всех спектров, записанных в памяти ЭВМ, и предварительный отбор некоторого ограниченного их числа) и основную -стадию их детального сопоставления с интерпретируемым спектром, предусматривающую количественную оценку степени совпадения. [c.113]
Параметр, характеризующий подобие спектров, принимает значения в некотором заданном интервале (О—1, О—100 или О—1000), границы которого соответствуют двум крайним случаям полного совпадения или несовпадения спектров. Выбор спектров из массива справочных данных осуществляется именно по оптимальному значению этого параметра. [c.113]
Просмотр спектров, записанных в памяти ЭВМ, в современных алгоритмах идентификации может быть основан на принципах прямого или обратного библиотечного поиска. При прямом поиске спектр неизвестного соединения поочередно сопоставляют с каждым из спектров банка данных, учитывая только сигналы, присутствующие в первом из них. Другими словами, наличие лищних пиков в библиотечном спектре не влияет на результаты идентификации. Примером таких алгоритмов является метод, разработанный для хромато-масс-спектро-метрических систем обработки данных еще в конце 60-х годов [94, 95]. При обратном поиске [96] каждый спектр массива справочных данных сопоставляется со спектром неизвестного соединения и не учитываются лишние пики во втором из них. Такой метод идентификации оказался весьма полезным именно в хромато-масс-спектрометрии, поскольку он позволяет правильно идентифицировать соединение даже при сильных искажениях их спектров другими компонентами или фоном хроматографической колонки. Еще более эффективны методы, сочетающие оба типа поиска [97, 98], так как они компенсируют погрешности как экспериментальных данных, так и спектров каталога. [c.113]
На стадии предварительного (быстрого) поиска помимо отбора ограниченного числа спектров для их последующего детального сопоставления осуществляется также отбор в этих спектрах наиболее значимых для идентификации сигналов. В алгоритме [94,95] такой поиск проводят по совпадению массовых чисел заданного количества пиков из нескольких главных сигналов (например, 6 из 8). Однако из-за колебаний в интенсивностях пиков спектров, записанных в неодинаковых условиях, порядковые номера сигналов с одинаковыми mjz в последовательностях массовых чисел главных пиков могут меняться. Вследствие этого при сравнении двух наборов значений не исключена возможность пропуска некоторых важных спектров еще на стадии предварительного поиска. [c.113]
В более эффективном алгоритме [97] 8 главных пиков каждого из спектров, записанных в памяти ЭВМ, сопоставляют не с 8, а с 16 А 50 пиков спектра неизвестного соединения. В этом случае совпадение 6 или 7 из них оказывается гораздо более надежным признаком. Число спектров, отбираемых из больших массивов в результате такого предварительного поиска, составляет от 50 до 1000. [c.113]
Например, для пиков с т/г 29, 32, 43, 197 и 303 эти коэффициенты равны 1, 4, 1, 6 и 9 соответственно. [c.114]
В алгоритме [97] все интенсивности пиков перед сравнением спектров преобразовывают к виду д/ г г (пики с т/г 33 не учитываются). Произведение т,7, отражает большую значимость тяжелых. ионов для идентификации, а оператор / повышает значение слабых пиков. [c.114]
Выбор фиксированного числа главных пиков спектров (5, 6, 8, 10 или 25) на стадии основного сравнения спектров неудобен тем, что все они могут оказаться сгруппированными в малоинформативной области малых массовых чисел, а слабый пик молекулярных ионов — пропущенным. Более предпочтительным оказывается выбор п главных пиков в равных интервалах из m массовых чисел. Использовались различные сочетания параметров пят (см. [17, 25]) = 1- -3, m = 14 п — 3, т == 20 п = 3, ш = 4б п = 6, m —46 и т. д., однако наибольшее распространение получил вариант /г = 2, т= 14 (в интервалах массовых чисел 6—19, 20—33, 34—47 и т. д. выбирают по два главных пика) [94, 95]. Иногда используют переменные значения параметра n [99] п = 3 в интервале т/г 20—117, /г == 2 для области 118—187 и /г = 1 для больших массовых чисел с т/г 188—705. [c.114]
В алгоритме [97] принцип отбора главных пиков несколько иной. Сначала отбрасывают все сигналы, которые не попадают в число 40 главных пиков в диапазоне массовых чисел 50 а. е. м. от каждого пика спектра. Далее используют более жесткое условие пик исключают, если он не попадает в число 6 главных в интервале 7 а. е. м. от рассматриваемого. Все перечисленные способы приводят к значительному сокращению числа интерпретируемых пиков в сложных спектрах практически без потери их информативности. [c.114]
Необходимость еще одной операции преобразования спектров перед их сравнением обусловлена зависимостью интенсивностей пиков от условий регистрации. По этой причине сигналы ионов в разных диапазонах массовых чисел могут оказаться закономерно заниженными или завышенными по сравнению с другими спектрами этого же соединения. Частичная компенсация обусловленных этим погрешностей достигается введением поправочных коэффициентов для интенсивностей, зависящих от массовых чисел соответствующих ионов. Иногда эти коэффициенты (различные для каждой пары сравниваемых спектров) учитывают непосредственно при сопоставлении спектров [47]. По иному принципу построен алгоритм [97], который предусматривает разбиение полного спектра на несколько диапазонов, в пределах каждого из которых осуществляется локальная нормализация интенсивностей пиков. Далее с преобразованным спектром оперируют как с обычным. [c.114]
Параметры с и й в каждом конкретном случае также вычисляют из условий дО/дс = О и дО(д 1 = 0. [c.115]
Приведенные выше формулы не исчерпывают перечень соотношений, применяемых при количественной оценке степени совпадения спектров. В настоящее время в разных алгоритмах все они используются как приблизительно равноценные. Сравнение их эффективности не производилось, поскольку результаты идентификации в наибольшей степени зависят не от вида этих формул, а от представительности массива справочных данных. [c.116]
Известны специальные критерии сравнения спектров, записанных в ЭВМ в максимально сжатой форме (однобитовое кодирование) [102], а также критерии, устойчивые к искажениям спектров за счет шума (примеси других веществ, фон хроматографической колонки и т. д.) [103]. Сложные выражения, предложенные в последней ра- боте, оказались менее эффективными, чем принцип обратного библиотечного поиска. [c.116]
В наиболее современных алгоритмах масс-спектрометрической идентификации вычисление параметров совпадения спектров предполагает представление этих спектров в виде векторов в п-мерном пространстве (размерность гиперпространства определяется диапазоном массовых чисел). [c.116]
При вычислении ( ) можно учитывать не все составляющие вектора Ь, а только те, которые соответствуют массовым числам, присутствующим в спектре И. Это дает величину Аналогично,, учитывая при расчете только те пики, которые присутствуют в спектре , получаем величину Поочередная подстановка значений (L ) и 0 ) в формулу для индекса корреляции (6.7) приводит к параметрам О С и С С. На расчете именно этих величин и основаны упоминавшиеся выше алгоритмы прямого (по максимуму С ) и обратного (по максимуму С ) поиска. Таким образом, влияние примесей на спектр неизвестного соединения может резко уменьшить индексы корреляции С и С , но практически не сказывается на величине С при обратном поиске. [c.117]
Значение параметра М сопоставляют с квадратом длины вектора Для всех веществ со спектрами, наиболее похожими на спектр неизвестного соединения, набор параметров С, С , С и М указывается в ответе ЭВМ и позволяет оператору в некоторых случаях прийти к выводу о возможных причинах неудовлетворительного совпадения спектров (основные — отсутствие данных в памяти ЭВМ и сильные искажения за счет примесей). [c.117]
Все эти упрощенные формулы несколько менее чувствительны к тонким различиям в спектре. Однако ЭВМ никогда не дает однозначного ответа, и результат идентификации всегда представляет собой перочень альтернативных вариантов отнесения неизвестного спектра, поэтому небольшие погрешности в приоритетном порядке этих вариантов заметно не ухудшают результатов. Чаще всего простые формулы-применяют при ограниченном быстродействии ЭВМ. [c.117]
Основные преимущества ЭВМ заключаются в автоматизации предварительной обработки (нормализации) спектров, вычитании фона прибора и проведении библиотечного поиска. Особенно эффективна автоматизация этих стадий в режиме работы ON LINE совместно с хромато-масс-спектрометрами, когда в ходе одного анализа за сравнительно небольшое время могут быть записаны спектры нескольких сотен компонентов сложных образцов. [c.118]

Вернуться к основной статье

Справочник химика 21

Химия и химическая технология