Кодирование фрагментов структур

Подобное неполное кодирование может рассматриваться как предварительное при генерации всех возможных структур но данной брутто-формуле. Другой вариант неполного представления — описание вместо всей только какого-то одного фрагмента структуры. [c.94]

Для решения поставленной задачи был выбран такой способ кодирования фрагментов, который предполагает описание соединения как комбинации его основных фрагментов и соотношений между ними. Затем этим признакам приписывают численные дескрипторы. Преимущества данного способа кодирования заключаются в том, что им легко овладеть он понятен каждому, дает перечень линейных дескрипторов, которые можно вводить в вычислительную машину непосредственно без какой бы то ни было предварительной обработки, требует малого объема машинной памяти. Однако за простоту данного способа приходится расплачиваться не совсем полным описанием молекулярной структуры. Теряется информация о том, какие фрагменты молекулы связаны друг с другом или какой атом фрагмента связан с другим его атомом, т. е. информация [c.174]

Исследование, результаты которого обобщены в табл. 7.3— 7.5 и которое основывалось на кодировании фрагментов молекулярных структур, доказало возможность прогнозирования масс-спект-ров непосредственно на основе молекулярной структуры. Однако [c.197]

Прежде чем перейти к изложению отдельных операторов алгоритма Р, остановимся иа вопросе о сокращенных обозначениях фрагментов структурной формулы в ее линейной записи. В блочных системах кодирования, как уже отмечалось выше, различные фрагменты структурной формулы, содержащие несколько атомов, могут обозначаться одним символом, например L — бензол. При составлении матрицы типа (1) необходимо расшифровать подобные обозначения, т. е. поставить им в соответствие запись, адекватно отображающую исходный фрагмент структуры. Существует два класса подобных обозначений именной систематический. [c.95]

В соответствии с принятой в работе [21] терминологией системы кодирования с полным отображением структурно-химической информации будем называть полными . Неполные системы кодирования, отображая структурные фрагменты, не передают полностью информацию о химической структуре, т. е. один код может соответствовать нескольким структурным формулам. [c.49]

Несмотря па обширные исследования в области полных систем кодирования, интерес к фрагментарным неполным системам кодирования сохраняется, что объясняется рядом причин [56] использованием в неполных фрагментарных системах естественного языка химика (членение на фрагменты и регистрация вхождения тех или иных фрагментов привычна для химика) высокой приспособленностью к решению специальных задач в относительно узких областях органической химии возможностью использования простого оборудования (например, перфокарт) высокой приспособленностью к обработке информации о структурных классах, в частности структур Маркуша, часто встречающихся в химических патентах. [c.84]

При машинной реализации подобные системы кодирования позволяют проводить поиск структурной информации по весьма несложным программам. Поэтому было бы неправильно объявить неполные фрагментарные системы кодирования заведомо неполноценными. Важно лишь четко представлять ограничения, накладываемые на информационную систему запрограммированной потерей структурной информации. В частности, неполные фрагментарные системы кодирования нецелесообразно применять в качестве основного языка хранения крупномасштабных ИПС для органической химии. Могут существовать дескрипторные языки с грамматикой, которые предусматривают не простое перечисление имеющихся в структуре фрагментов, но и указание тех или иных связей между ними. Однако введение таких дополнительных грамматических правил усложняет систему. [c.84]

Запись ациклических фрагментов (правило А). При кодировании структур Маркуша с ациклическими альтернативными фрагментами последние записываются в квадратных скобках после номера кольца, к которому они относятся, причем индивидуальные группы разделяются знаком V, а после символа ) ставится помер вершины г,. .., ч , к которому относится ациклический фрагмент (правило А, структура а) [c.141]

При кодировании зависимых ациклических фрагментов (к.з.а.ф), заданных в виде таблицы (или сводящихся к таблице), фрагменты каждого вертикального столбца таблицы кодируются в соответствии с правилами серии А как обычные альтернативные ациклические фрагменты при этом перед квадратной скобкой, в которой записаны фрагменты вертикального столбца, ставится символ И (пример к.з.а. ф., структура а). [c.142]

Второй и третий этапы в принципе можно поменять местами. Возможны и иные способы описания молекулярных структур, например линейное (с помощью линии Висвессера) или графическое изображения. При кодировании фрагментов не обязательно исполь- [c.176]

Чтобы вводить описания молекулярных структур в программы обучающихся машин, им пришлось придавать уже упоминавшийся векторный формат. Из множества путей осуществления поставленной задачи остановились на сочетании двух распространенных подходов кодов фрагментов и субструктурных кодов. Методика кодирования фрагментов состоит из описания соединения в виде составного целого, подразделяющегося на главные структурные фрагменты и связи между ними. Затем полученным признакам были приписаны порядковые номера. Фрагменты, использовавшиеся при описании рассматривавшихся молекулярных структур, перечислены в табл. 7.9. В большинстве случаев они не нуждаются в пояскениях, однако отдельные замечания следует сделать. Наибольшее кольцо откосится к максимальному числу атомов углерода [c.207]

Первая задача связана с полнотой отображения структурной информации, так как если одному коду соответствует несколько структурных формул, то правила кодирования (соответственно, правила записи номенклатурного названия) допускают потерю информации. Вторая задача связана с проблемой идентификации структурных формул в ЭВМ (в случае автоматизированных ИПС) или по традиционным предметным указателям органических соединений (ири использовании номенклатурных названий). Однако, как хорошо известно химикам, однозначное наименование органического соединения дать нелегко, вследствие слоншости правил номенклатуры. Насколько сложны правила номенклатуры, свидетельствует тот факт, что для изложения Правил номенклатуры органических соединений ШРАС потребовалось около 400 страниц [16]. Аналогичные трудности возникают при линейной заниси структурной формулы для ввода в ЭВМ составить однозначный (каноничный) код нелегко. Известно, что химики нередко дают одному и тому же соединению несколько различных наименований [17]. В некоторых случаях химики делают это сознательно стремясь подчеркнуть принадлежность структуры к данному классу (или отразить в названии генетическую связь с некоторым классом структур), они выде- ляют, подчеркивают соответствующий фрагмент структуры. Как известно, еще Правила Женевской номенклатуры [16, 17], принятые в 1892 г., констатировали, что наряду с применяемыми ныне названиями для каждого органического соединения долл но быть установлено ого официальное на- [c.43]

Структуры, содержащие несколько циклических блоков, записываются с учетом старшинства блоков, определяемых в зависимости от числа колец в блоке, от типа гетероатомов, от локантов, насыщенности и т. д. Далее иллюстрируется старшинство некоторых циклических систем. Предусмотрены различные сокращенные обозначения фрагментов структуры. Система ШРАС — Дайсона содержит правила кодирования пространственных структур, а также различных типов неклассических структур. [c.70]

При кодировании данной структуры выбран списочный блок В10 (антрацен). Цифра 1 перед В10 означает номер блока. В круглых скобках записано отклонение блока данной структуры от стандартного списочного блока, а именно насыщенность в вершинах 1, 4—8 и И—14. После символа/записано подсоединение к блоку 1В10 двух трехчленных циклов. Запись [1,6] SS [1,6] расшифровывается так атом 6 блока 1 цепочкой SS связан с атомом 6 блока 1 (запись спиросвязи). Аналогично расшифровывается и фрагмент записи [1, 13] SS [1, 13]. [c.97]

Примеров пространственного (геометрического) кодирования в химии и биологии мож[го привести очень много. Отношения катализатора, в частности фермента (его активной группы) и субстрата, гормона и рецептора, антигена н антитела, эффекты феромонов, явления узнавания молекул и т. п. достаточно убедительно свидетельствуют о решающем значении определенных дискретных совокупностей геометрических конфигураций для развития того или иного процесса. Заметим, что геометрия в наиболее развитых структурах не абсолютно жесткая (рнс. П1.6). Молекулы антител, как доказано в настоящее время, способны изменять форму, причем их фрагменты вращаются нли раздвигаются как концы щипцов, приспосабливаясь к менее подвижной структуре антигена (об аналогичных явлениях в белках см. 1гиже), [c.334]

Получение определенных и воопроизводимых данных о молекулярном весе ДНК представляет собой очень трудную задачу по ряду причин. Прежде всего ее молекулярный вес очень велик и молекулы имеют форму тонкой нити кроме того, ДНК гетерогенна и имеет склонность к образованию агрегатов. К тому же при обычных методах работы ДНК легко деградирует на фрагменты меньшего молекулярного веса. Для некоторых препаратов ДНК характерен вес 7 10 . Если молекулы имеют структуру двойной опирали, то такому молекулярному весу соответствует длина 3,4 мк. Молекула ДНК такой длины содержит около 10 пар оснований, а ее спираль имеет около 10 витков. Исследования последних лет показывают, что ДНК с подобными характеристиками является, вероятно, также продуктом деградации нативной ДНК. Молекулярный вес ДНК Е. соН превосходит 10 , а ее длина равна нескольким сотням микрон поскольку суммарное количество ДНК в клетке лишь немногим больше того, которое входит в такую молекулу, можно думать, что вся ДНК клетки представляет собой одну-единственную молекулу. При столь больших молекулярных весах ко1рреляция физических свойств с молекулярным весом становится ненадежной. Если бы всю ДНК, содержащуюся в одной клетке млекопитающих, вытянуть в одну ниточку, то она имела бы длину около метра. Такого количества ДНК достаточно для кодирования Ю —10 различных белков, из которых состоит человеческий организм. Если выстроить в одну линию одну за другой молекулы ДНК всех клеток организма, то эта [c.317]

Будучи полезными при решении ряда частных информационно-поисковых задач, системы кодирования с занрограммированной потерей информации не позволяют в но.пной мере реализовать типичный для химического мышления тонкий поиск по аналогии , поскольку одна из основ подхода химика — учет взаиморасположения и взаимосвязи отдельных фрагментов — недостаточно отражена в коде. Гибкую систему формирования семейств родственных соединений с помощью ЭВМ, которая необходима для решения ряда важнейших информационно-логических задач, можно реализовать только на основе полных систем кодирования. Согласование систем кодирования со статистической структурой источника сообщения требует, в частности, чтобы наиболее распространенным сообщениям система кодирования ставила в соответствие наиболее короткие кодовые последовательности. [c.49]

Так, 3-я зона кода структуры, изображенной на рис. 24 (выделенные блоки обведены штриховыми линиями, цифры в кружках — номера соответствующих блоков по произвольной нумерации блоков), такова /[1,1] СН.,С(= [2,1]СН,,[3,9]. [3,9]-[4,1].[2,3]С4Н8[2,4]. Понятно, что, как и в случае записи всяких ациклических фрагментов, при изменении выбора главных цепей в связке изменяется и код ее. Знак конца всего кода соединения — две точки .. . Кодирование ациклических соединений производится по описанным правилам кодирования ациклических фрагментов. При этом кодирование можно начинать с любого атома ациклического соединения. [c.74]

Комментарий к правилу 2. Практически во всех системах кодирования и номенклатуры используется полная нумерация (иногда с пропуском узловых атомов, если в них нет насыщенности, гетероатомов или заместителей). Иными словами, в этих системах приходится нумеровать по меньшей мере весь внешний контур циклической системы для того, чтобы указать местоположение гетероатома где-то в конце контура. Принятый в языке ПНК принцип локальной нумерации имеет ряд преимуществ нет необходимости дифференцировать атомы с различной степенью сращенности не нужно нумеровать атомы в кольцах, в которых отсутствуют гетероатомы, насыщенность или заместители правила нумерации стандартны и одинаковы для всех колец, т. е. они соответствуют понятию равноправности всех колец в мозаичной структуре число номеров всего 6 в отличие от больших номеров в других системах правило локальной нумерации позволяет весьма прозрачно отобразить в коде взаиморасположение различных элементов одного кольца (гетероатомов, насыщенности, заместителей и т. д.) локальная нумерация позволяет реализовать простой машинный попск фрагментов регулярной структуры по линейным записям на языке ПНК. [c.77]

Запись альтернативных кольцевых систем, гетероатомов и частично не детерминированных словесных определений структурных фрагментов. Правило В. При кодировании альтернативных фрагментов, содержащих кольцевые системы, используется применяемый в языке ПНК оператор разрыва, т. е. связка разрывается и место разрыва обозначается меткой — буквой из ряда щ,. .., я структура далее кодируется в соответствии с правилами серии А, причем альтернативные кольцевые систеппл записываются в дополнительных квадратных скобках и разделяются знаком /. [c.143]

Т-клеточные рецепторы (ТкР) были выявлены и получены в очищенном виде (с применением соответствующих антирецепторных антител) как некие специфичные для каждого отдельного клона Т-клеток поверхностные структуры. Первоначально ТкР был обозначен ар, поскольку, как выяснилось, он представляет собой гетеродимер из одной а-цепи и одной р-цепи, соединенных дисульфидной связью. В исследованиях другого направления из библиотек комплементарных ДНК (кДИК) были выделены гены, предположительно предназначенные для кодирования цепей ТкР — каждая пара таких генов экспрессировалась клетками лишь одного определенного клона. Последовательность аминокислот, предсказанная на основе нуклеотидной последовательности этих генов, совпала с данными секвенирования фрагмента а- и Р-цепей ТкР, выделенных с использованием моноклональных антител. Таким образом, двумя альтернативными методическими подходами была идентифициро- [c.114]

Размер гена dhfr составляет примерно 32 тпн, хотя для кодирования белка необходимо лишь 558 пн. Данный ген имеет раздробленную структуру и состоит из шести экзонов, разделенных протяженными интронами. Конструирование интегративного вектора на основе такого крупного фрагмента ДНК малоперспективно. Поэтому усилия исследователей были направлены на клонирование кДНК дигидрофолатредуктазы или кодирующей последовательности аналогичного бактериального гена. [c.344]

Справочник химика 21

Химия и химическая технология