ПОИСК Статьи Рисунки Таблицы Применение мини-ЭВМ для групповой идентификации из "Интерпритация масс-спектров органических соединений " Дискретный характер масс-спектров позволяет эффективно использовать ЭВМ для их автоматической обработки и интерпретации. В настоящее время принято выделять три основные группы методов автоматической идентификации органических соединений по спектрам низкого разрещения (см. монографии [17, 22] и обзорные статьи [77— 80]). Первую (главную) группу составляют методы библиотечного поиска, основанные на сопоставлении спектров неизвестных веществ с массивами данных, записанных в памяти ЭВМ. Методы второй группы ( самообучающиеся интерпретирующие алгоритмы) используют эмпирические или полуэмпирические корреляции масс-спектров и структуры. Третья группа — методы распознавания образов — предусматривает формализацию для ЭВМ закономерностей фрагментации органических соединений и традиционных способов их расшифровки. [c.97] Использование всех этих методов требует наличия достаточно быстродействующих ЭВМ с оперативной памятью 16—64 К и более, оснащенных внешними устройствами памяти емкостью до 10 К (Ю мегабайт). Такие объемы памяти ЭВМ определяются значительным числом сигналов в масс-спектрах и необходимостью записи различной дополнительной информации. Так, хранение в памяти компьютера только названий и эмпирических формул для массива из 10 тысяч органических соединений требует около 10 К. Время автоматической интерпретации спектров с помощью современных алгоритмов составляет от нескольких секунд до 1—5 мин и зависит от их сложности, быстродействия ЭВМ и объема просматриваемой информации. [c.97] Преимущества использования более простых ЭВМ (в том числе персональных компьютеров) для интерпретации масс-спектров и сокращения требуемых объемов памяти достаточно очевидны. Этим объясняется появление специальных алгоритмов идентификации, предназначенных для мини-ЭВМ, в которых требуемые объемы памяти доведены до примерно 500 К [81] и даже до 65 К [82] при массивах данных, содержащих 10 000 и 18 800 спектров соответственно. [c.97] Во втором алгоритме также используется однобитовое кодирование интенсивностей пиков (т. е. рассматриваются только совокупности массовых чисел), сравнение спектров осуществляется с помощью операций математической логики, а для представления структурных формул со-едицений использована линейная форма их записи на основе кода Висвессера [86]. [c.98] Разделение масс-спектрометрической идентификации на две стадии— групповую (классификацию) и индивидуальную — открывает возможности существенного упропдения алгоритмов обработки экспериментальных данных на ЭВМ и резкого сокращения требуемых объемов машинной памяти. Во всех известных ранее алгоритмах эти стадии фактически объединены. Использование же методов групповой идентификации, основанных на представлении массовых чисел в четырнадцатиричной системе счисления и спектрах ионных серий, позволяет применять простейшие ЭВМ с оперативной памятью в пределах 4—32 К как с внешними устройствами памяти, так и без них. [c.98] В данном разделе охарактеризованы две программы групповой идентификации по главным пикам масс-спектров (программа 1) и по усредненным спектрам ионных серий (2), основанные на алгоритмах, рассмотренных в разделах 5.3 и 5.5. Первоначальные варианты этих программ описаны в сообщении [87]. [c.98] набор интенсивных пиков в спектрах алкенов (ряд 0 1) 0-й, 1-й, 11-й и 13-й групп может быть представлен числом 2°+ 2 + 2 4--f 2 = 10 243, а гомологический ряд алкилбензолов характеризуется числом 2 -f 2 -f 2 == 896. Кроме того, этому числу приписывается знак — , если данный ряд включает соединения, не дающие в спектрах пиков молекулярных ионов. Алифатические спирты, относящиеся именно к такому типу соединений (ряды 4 3 и 4 5), получают обозначение— (2° + 2 + 2 -f 2 ) =—8203. Для некоторых рядов со сходными закономерностями фрагментации эти числа, естественно, будут одинаковыми. [c.99] Абсолютное значение Z может быть легко однозначно декодировано с восстановлением исходной совокупности параметров г/. Для этого вычисляют набор остатков от последовательных делений Z на 2 их значения, равные 1, указывают на номера (от О до 13) гомологических групп главных пиков. Другими словами, если Z +i = int(Z /2), Zo == = Z , 0 A 13, то при выполнении условия Zft/2 = int(Z /2) параметр уи не фигурирует в списке номеров групп главных пиков и присутствует в такой совокупности при несоблюдении этого условия (т. е. когда остаток от очередного деления равен единице). [c.99] В такой форме записи необходимых для групповой идентификации данных программа 1 требует всего 2—4 К памяти ЭВМ при включении в нее информации о приблизительно 200—450 гомологических рядах. Однако идентификация по главным пикам масс-спектров значительно более однозначна, если при этом учитывать номера групп максимальных пиков. При этом каждый ряд характеризуется уже двумя числами, первое из которых кодирует весь набор параметров у главных пиков, а второе — только тех, которые могут быть максимальными. Вследствие этого требуемый объем памяти возрастает до 4—6 К для того же числа рядов. [c.99] Например, неразличимые по совокупности номеров групп главных пиков спектров алифатические спирты после включения дополнительной информации о значениях i/max подразделяются на два типа, первичные спирты (ряд 4 3)— 8203, 8195 вторичные и третичные спирты (ряд 4 5) —8203, 8. [c.99] Модификация программы 1 без учета информации о максимальных пиках спектров реализована на ЭВМ НР 2114 В, не имеющей внешних устройств памяти (алгоритмический язык BASI , оперативная память 8 К, объем транслятора около 6 К). Вторая модификация этой программы (с учетом г/тах) для примерно 450 рядов предназначена для ЭВМ BASIS 108 с оперативной памятью 64 К (программа занимает 5,4 К), оснащенной магнитными дисками. Для экономии памяти в ней не предусмотрены названия рядов и используется числовая символика в соответствии с обозначениями приложения V. Исходные данные, вводимые в ЭВМ, — число выбранных из спектра главных пиков (любое), условное число, характеризующее вариант работы программы (способ поиска вероятных рядов и выдаваемые на печать результаты) и перечень массовых чисел. [c.99] Четыре варианта работы программы, задаваемые условным числом (от О до 3), учитывают неодинаковый характер исходных масс-спектров. [c.100] На первом этапе вычислений производится отнесение всех заданных массовых чисел главных пиков к соответствующим классам вычетов по модулю 14. Условием идентификации является принадлежность всех значений у неизвестного вещества наборам этих параметров для разных рядов, а помер гомологической группы максимального пика должен быть включен в совокупность номеров пиков, которые могут быть максимальными в данном ряду. Другими словами, найденные экспериментально наборы у и ут -л должны быть подмножествами наборов этих параметров для всех вероятных рядов. В программе предусмотрена возможность отрицательного ответа, если ни один из представленных в ней рядов не включает наблюдаемого сочетания параметров у. В остальных случаях ответ содержит перечень символов гомологических рядов. [c.100] В целом, как правильность ответов, так и их однозначность при идентификации по главным пикам значительно уступают возможностям использования статистически обработанных спектров ионных серий. В предлагаемом ниже алгоритме, в отличие от ранее известных [69, 70], важнейшее значение приобретают величины стандартных отклонений 1у в спектрах ионных серий разных гомологических рядов. [c.101] Программа 2 реализована на настольной ЭВМ BASIS 108 (фирма APPLE). Исходными данными для идентификации служат либо полные масс-спектры неизвестных соединений при 70 эВ, либо предварительно рассчитанные для них спектры ионных серий. Если в спектре зарегистрирован пик молекулярного иона и, следовательно, номер гомологической группы вещества известен, сравнение спектров ионных серий осуществляется только в пределах данной группы (в противном случае — для всего массива 14 групп). Алгоритм сравнения основан на критерии идентификации (5.4) попадании всех значений Ту неизвестного вещества в интервалы Ту kSy гомологического ряда. Параметр k (2 или 3) выбирается оператором ЭВМ и, как отмечалось выше, определяет уровень надежности и однозначности идентификации. Время работы программы определяется наличием в спектре пика молекулярных ионов и для данной ЭВМ с небольшим быстродействием варьирует от 1,5—2 мин (г/м известно) до 5—7 мин (пик отсутствует или не опознан). [c.101] При проверке возможностей программы по 100 масс-спектрам контрольной выборки для соединений зарегистрированных в массиве данных рядов доля правильных ответов при ft = 2 превышает 80% при среднем числе альтернативных вариантов отнесения 2. Увеличение k до 3 значительно уменьшает число ошибок идентификации I рода (число правильных ответов возрастает до 95%), но несколько увеличивает число ощибок II рода и среднее число рядов в ответе (до 4). [c.101] Следовательно, данный метод групповой идентификации сочетает весьма высокий уровень надежности с чрезвычайно высокой однозначностью ответов. Введение понятия однозначность идентификации оказалось возможным только при использовании алгоритмов, основанных на привлечении статистически обработанных масс-спектрометрических данных. Так, только в 5% случаев перечни альтернативных вариантов отнесения неизвестных соединений включают более 10 рядов при к = 3, а при /г = 2 их нет совсем. Кроме того, для 31 соединения контрольной выборки, принадлежащих к не зарегистрированным в памяти ЭВМ рядам, в 80% случаев получен правильный (однозначный отрицательный) результат. В больщинстве остальных ответов допущенные ощнбки II рода легко выявляются при более детальном рассмотрении спектра или привлечении дополнительной информации. [c.102] Проверка работы программы 2 при разных объемах массивов спектров ионных серий показывает, что по уровню надежности и однозначности результаты практически не отличаются. Из этого следует, что число рядов, охарактеризованное спектрами ионных серий, не ограничивается приведенными в настоящем руководстве (450) и может быть существенно расширено. [c.102] Рассмотренные алгоритмы групповой идентификации могут быть включены в качестве составных элементов более сложных программ для интерпретации масс-спектров органических соединений. [c.102] Вернуться к основной статье