Справочник химика 21

Химия и химическая технология

Статьи Рисунки Таблицы О сайте English

Кодирование фрагментов

    Для решения поставленной задачи был выбран такой способ кодирования фрагментов, который предполагает описание соединения как комбинации его основных фрагментов и соотношений между ними. Затем этим признакам приписывают численные дескрипторы. Преимущества данного способа кодирования заключаются в том, что им легко овладеть он понятен каждому, дает перечень линейных дескрипторов, которые можно вводить в вычислительную машину непосредственно без какой бы то ни было предварительной обработки, требует малого объема машинной памяти. Однако за простоту данного способа приходится расплачиваться не совсем полным описанием молекулярной структуры. Теряется информация о том, какие фрагменты молекулы связаны друг с другом или какой атом фрагмента связан с другим его атомом, т. е. информация [c.174]


    Исследование, результаты которого обобщены в табл. 7.3— 7.5 и которое основывалось на кодировании фрагментов молекулярных структур, доказало возможность прогнозирования масс-спект-ров непосредственно на основе молекулярной структуры. Однако [c.197]

    Подобное неполное кодирование может рассматриваться как предварительное при генерации всех возможных структур но данной брутто-формуле. Другой вариант неполного представления — описание вместо всей только какого-то одного фрагмента структуры. [c.94]

    Кодирование структурных фрагментов [c.582]

    Такая форма хранения информации о строении требует в 10—15 раз больше знаков, чем при использовании фрагментных кодов и линейных шифров. Однако этот недостаток компенсируется преимуществами топологической записи небольшой алфавит символов, простые правила кодирования, полнота описания формулы и возможность поиска по любым структурным фрагментам. [c.138]

    В соответствии с принятой в работе [21] терминологией системы кодирования с полным отображением структурно-химической информации будем называть полными . Неполные системы кодирования, отображая структурные фрагменты, не передают полностью информацию о химической структуре, т. е. один код может соответствовать нескольким структурным формулам. [c.49]

    Рассмотрим данный вопрос в связи со степенью дробности фрагмента структурной форму.11Ы, отображаемой в виде отдельного символа в коде. Предположим, что мы составили упорядоченный ряд масштабов дробности отображения a , аз, ад,. .., Левый предельный член ряда соответствует наиболее дробному отображению каждому атому структурной формулы ставится в соответствие отдельный символ кода. Подобные системы кодирования называют топологическими или поатомными. За правый предельный член ряда (максимальный масштаб) мы можем формально считать [c.49]

    На первом этапе процедуры кодирования разветвленных ациклических цепей им ставится в соответствие графическая формула, которая представляет собой двумерную диаграмму, топологически схожую с исходной ациклической цепью, полученную заменой фрагментов ациклической цепи символами линейной записи  [c.60]

    Поскольку свободные заместители блоков — это ациклические фрагменты, то они кодируются по обш,им правилам кодирования ациклических фрагментов по системе ПБ. [c.73]

    Наиболее распространенным классом неполных систем кодирования является класс фрагментарных языков дескрипторного типа. При этом задается некоторый список дескрипторов, отображающий общие сведения о соединении (тип циклической системы, тип гетероатомов, фрагменты заместителей и связок и т. д. и т. п.), и код соединений представляет собой список номеров дескрипторов. [c.84]


    Несмотря па обширные исследования в области полных систем кодирования, интерес к фрагментарным неполным системам кодирования сохраняется, что объясняется рядом причин [56] использованием в неполных фрагментарных системах естественного языка химика (членение на фрагменты и регистрация вхождения тех или иных фрагментов привычна для химика) высокой приспособленностью к решению специальных задач в относительно узких областях органической химии возможностью использования простого оборудования (например, перфокарт) высокой приспособленностью к обработке информации о структурных классах, в частности структур Маркуша, часто встречающихся в химических патентах. [c.84]

    При машинной реализации подобные системы кодирования позволяют проводить поиск структурной информации по весьма несложным программам. Поэтому было бы неправильно объявить неполные фрагментарные системы кодирования заведомо неполноценными. Важно лишь четко представлять ограничения, накладываемые на информационную систему запрограммированной потерей структурной информации. В частности, неполные фрагментарные системы кодирования нецелесообразно применять в качестве основного языка хранения крупномасштабных ИПС для органической химии. Могут существовать дескрипторные языки с грамматикой, которые предусматривают не простое перечисление имеющихся в структуре фрагментов, но и указание тех или иных связей между ними. Однако введение таких дополнительных грамматических правил усложняет систему. [c.84]

    Прежде чем перейти к изложению отдельных операторов алгоритма Р, остановимся иа вопросе о сокращенных обозначениях фрагментов структурной формулы в ее линейной записи. В блочных системах кодирования, как уже отмечалось выше, различные фрагменты структурной формулы, содержащие несколько атомов, могут обозначаться одним символом, например L — бензол. При составлении матрицы типа (1) необходимо расшифровать подобные обозначения, т. е. поставить им в соответствие запись, адекватно отображающую исходный фрагмент структуры. Существует два класса подобных обозначений именной систематический. [c.95]

    После подобного анализа человек выбирает единственный вариант записи в соответствии с правилами канонической записи. В ряде случаев при этом выбирается старший фрагмент из группы почти идентичных фрагментов. Как известно из экспериментальной психологии, одна из особенностей восприятия графической информации человеком заключается в инвариантности оценок идентичности образов, незначительно отличающихся каким-либо фрагментом. Именно в таком режиме приходится работать кодировщику при использовании канонических входных языков, что неизбежно связано с увеличением ошибок и времени кодирования. [c.103]

    Таким образом, различные значения Р ( ) имеют в рассматриваемой модели определенный структурно-химический смысл, охватывая наиболее важные используемые химиками способы вариации положения фрагментов. Для отображения различных значений функции делокализации Р 1)1) в рассматриваемом языке используется ограниченное число идентификаторов меток . Каждому значению Р (6 ) ставится в соответствие своя метка, а правила записи делокализованного фрагмента не изменяются. Иными словами, используется практически одно общее правило кодирования независимо от степени делокализации, что существенно упрощает кодирование. [c.140]

    Запись ациклических фрагментов (правило А). При кодировании структур Маркуша с ациклическими альтернативными фрагментами последние записываются в квадратных скобках после номера кольца, к которому они относятся, причем индивидуальные группы разделяются знаком V, а после символа ) ставится помер вершины г,. .., ч , к которому относится ациклический фрагмент (правило А, структура а)  [c.141]

    При кодировании зависимых ациклических фрагментов (к.з.а.ф), заданных в виде таблицы (или сводящихся к таблице), фрагменты каждого вертикального столбца таблицы кодируются в соответствии с правилами серии А как обычные альтернативные ациклические фрагменты при этом перед квадратной скобкой, в которой записаны фрагменты вертикального столбца, ставится символ И (пример к.з.а. ф., структура а). [c.142]

    Пример кодирования зависимых ациклических фрагментов [c.143]

    Второй и третий этапы в принципе можно поменять местами. Возможны и иные способы описания молекулярных структур, например линейное (с помощью линии Висвессера) или графическое изображения. При кодировании фрагментов не обязательно исполь- [c.176]

    Чтобы вводить описания молекулярных структур в программы обучающихся машин, им пришлось придавать уже упоминавшийся векторный формат. Из множества путей осуществления поставленной задачи остановились на сочетании двух распространенных подходов кодов фрагментов и субструктурных кодов. Методика кодирования фрагментов состоит из описания соединения в виде составного целого, подразделяющегося на главные структурные фрагменты и связи между ними. Затем полученным признакам были приписаны порядковые номера. Фрагменты, использовавшиеся при описании рассматривавшихся молекулярных структур, перечислены в табл. 7.9. В большинстве случаев они не нуждаются в пояскениях, однако отдельные замечания следует сделать. Наибольшее кольцо откосится к максимальному числу атомов углерода [c.207]

    Примеров пространственного (геометрического) кодирования в химии и биологии мож[го привести очень много. Отношения катализатора, в частности фермента (его активной группы) и субстрата, гормона и рецептора, антигена н антитела, эффекты феромонов, явления узнавания молекул и т. п. достаточно убедительно свидетельствуют о решающем значении определенных дискретных совокупностей геометрических конфигураций для развития того или иного процесса. Заметим, что геометрия в наиболее развитых структурах не абсолютно жесткая (рнс. П1.6). Молекулы антител, как доказано в настоящее время, способны изменять форму, причем их фрагменты вращаются нли раздвигаются как концы щипцов, приспосабливаясь к менее подвижной структуре антигена (об аналогичных явлениях в белках см. 1гиже), [c.334]


    Информация о последовательности аминокислот в полипептидной цепи белка, программируемого информационной РНК, записана в молекуле этой РНК, а следовательно, и в соответствующем участке одной из цепей ДНК, в виде последовательности кодирующих эти аминокислоты тринуклеотидных фрагментов — кодонов. Необходимость как минимум трех нуклеотидов для кодирования каждой из 20 аминокислот, формирующих первичную полипептидную цепь при биосинтезе белков, вытекает из очевидных арифметических соображений ни каждый из четырех нуклеотидов по отдельности, ни 16 мыслимых динуклеотид-ных фрагментов не могут однозначно кодировать 20 аминокислот. Соответствие между 64 кодонами и 20 аминокислотами, участвующими в биосинтезе полипептидных цепей на рибосомах, получило название генетического кода. Первое доказательство самого факта существования генетического кода и первый шаг к его расшифровке были получены в эксперименте Ниренберга и Маттеи. Эти авторы показали, что на рибосомах в присутствии всех компонентов, необходимых для биосинтеза белка, и построенной полностью из фрагментов уридин-5 онофос-фата полиуридиловой кислоты в качестве информационной РНК, синтезируется полифенилаланин. Отсюда следовало, что фенилаланин кодируется несколькими, скорее всего тремя остатками уридиловой кислоты, т. е. кодоном для фенилаланина является тринуклеотид ШШ (в этом параграфе в табл. 5.2 символы межнуклеотидных фосфатов или заменяющие их черточки опущены). [c.172]

    Gly—Тгр—Val—Туг—Gly—Arg. Этот фрагмент ДНК может участвовать в кодировании ахшнокислотных последовательностей для двух белков со сдвигом рамки считывания. [c.443]

    Получение определенных и воопроизводимых данных о молекулярном весе ДНК представляет собой очень трудную задачу по ряду причин. Прежде всего ее молекулярный вес очень велик и молекулы имеют форму тонкой нити кроме того, ДНК гетерогенна и имеет склонность к образованию агрегатов. К тому же при обычных методах работы ДНК легко деградирует на фрагменты меньшего молекулярного веса. Для некоторых препаратов ДНК характерен вес 7 10 . Если молекулы имеют структуру двойной опирали, то такому молекулярному весу соответствует длина 3,4 мк. Молекула ДНК такой длины содержит около 10 пар оснований, а ее спираль имеет около 10 витков. Исследования последних лет показывают, что ДНК с подобными характеристиками является, вероятно, также продуктом деградации нативной ДНК. Молекулярный вес ДНК Е. соН превосходит 10 , а ее длина равна нескольким сотням микрон поскольку суммарное количество ДНК в клетке лишь немногим больше того, которое входит в такую молекулу, можно думать, что вся ДНК клетки представляет собой одну-единственную молекулу. При столь больших молекулярных весах ко1рреляция физических свойств с молекулярным весом становится ненадежной. Если бы всю ДНК, содержащуюся в одной клетке млекопитающих, вытянуть в одну ниточку, то она имела бы длину около метра. Такого количества ДНК достаточно для кодирования Ю —10 различных белков, из которых состоит человеческий организм. Если выстроить в одну линию одну за другой молекулы ДНК всех клеток организма, то эта [c.317]

    Поскольку было установлено, что синтетические сополимеры стимулируют включение аминокислот в белок, оказалось возможным поставить следующий эксперимент, позволяющий проверить гипотезу об адаптерной роли растворимой РНК-Поли-УГ стимулирует включение цистеина в полипептиды, но не стимулирует включение аланина. Цистеин, присоединенный к растворимой РНК, с помощью специальной обработки был превращен в аланин, который оставался по-прежнему связанным с цистеи-новой S-PHK. В этом случае полн-УГ стимулировал включение аланина. Таким образом, аминокислота, прикрепленная к растворимой РНК, сама по себе не влияет на процесс кодирования. Поли-УГ опознает специфическую цистеиновую транспортную РНК независимо от того, какая аминокислота к ней присоединена. Следовательно, транспортная РНК обладает характерными свойствами молекулы-адаптера, о которых говорилось выше. В одном из таких экспериментов было обнаружено включение аланина в пептидный фрагмент а-цепи гемоглобина. В обычных условиях этот пептид содержит не аланин, а цистеин. Этот результат подтверждает гипотезу об адаптерной роли растворимой РНК при синтезе белка. [c.378]

    Первым процессором является блок кодирования структурной химической информации. При рассмотреинн структурной формулы химик видит (т. е. зрительно выделяет) различш.ю ее фрагменты, взаиморасположение различных фрагментов (гетероатомов, заместителей и т. д.). Для моделирования на ЭВМ видения структурной формулы, ее анализа, классификации и т. д. необходимо нро 1 л,е всего представить структурную формулу и виде линейного набора символов (линейной записи, кода), доступного д.тя машинного погшмаиия , т. е. допускающего формализованный (алгоритмический) анализ. Совокупность грамматических правил и соответствующей лексики, позволяющая прообразовать графическое изображение структурной формулы в линейную запись, называется входным языком или системой кодирования органических соединений. В качестве блока кодирования АИС может служить оператор, использующий соответствующую систему кодирования, или полуавтомат (папример, специализированная пишущая машинка), или устройство автоматического считывания графи- [c.39]

    Первая задача связана с полнотой отображения структурной информации, так как если одному коду соответствует несколько структурных формул, то правила кодирования (соответственно, правила записи номенклатурного названия) допускают потерю информации. Вторая задача связана с проблемой идентификации структурных формул в ЭВМ (в случае автоматизированных ИПС) или по традиционным предметным указателям органических соединений (ири использовании номенклатурных названий). Однако, как хорошо известно химикам, однозначное наименование органического соединения дать нелегко, вследствие слоншости правил номенклатуры. Насколько сложны правила номенклатуры, свидетельствует тот факт, что для изложения Правил номенклатуры органических соединений ШРАС потребовалось около 400 страниц [16]. Аналогичные трудности возникают при линейной заниси структурной формулы для ввода в ЭВМ составить однозначный (каноничный) код нелегко. Известно, что химики нередко дают одному и тому же соединению несколько различных наименований [17]. В некоторых случаях химики делают это сознательно стремясь подчеркнуть принадлежность структуры к данному классу (или отразить в названии генетическую связь с некоторым классом структур), они выде- ляют, подчеркивают соответствующий фрагмент структуры. Как известно, еще Правила Женевской номенклатуры [16, 17], принятые в 1892 г., констатировали, что наряду с применяемыми ныне названиями для каждого органического соединения долл но быть установлено ого официальное на- [c.43]

    Будучи полезными при решении ряда частных информационно-поисковых задач, системы кодирования с занрограммированной потерей информации не позволяют в но.пной мере реализовать типичный для химического мышления тонкий поиск по аналогии , поскольку одна из основ подхода химика — учет взаиморасположения и взаимосвязи отдельных фрагментов — недостаточно отражена в коде. Гибкую систему формирования семейств родственных соединений с помощью ЭВМ, которая необходима для решения ряда важнейших информационно-логических задач, можно реализовать только на основе полных систем кодирования. Согласование систем кодирования со статистической структурой источника сообщения требует, в частности, чтобы наиболее распространенным сообщениям система кодирования ставила в соответствие наиболее короткие кодовые последовательности. [c.49]

    Прежде чем рассматривать различные системы кодирования органических соединений, остановимся хотя бы кратко па объекте кодирования —па структурных формулах органических соединений. Основная доля органических соединений, описываемых в статьях, патентах, монографиях и т. д.,— это соединения классического строения, которые можно описать, используя циклические системы из справочника циклических систем Ring Index [22, 23], а также обычные ациклические фрагменты, служащие связками двух или более циклических систем и заместителями. Основную трудность при кодировании структурных формул представляют циклические системы. Поэтому важно рассмотреть классификацию известных циклических систем органической химии. В настоящее время известно около 15 ООО таких циклических систем. По топологическим особенностям их можно разделить па несколько классов.  [c.51]

    Структуры, содержащие несколько циклических блоков, записываются с учетом старшинства блоков, определяемых в зависимости от числа колец в блоке, от типа гетероатомов, от локантов, насыщенности и т. д. Далее иллюстрируется старшинство некоторых циклических систем. Предусмотрены различные сокращенные обозначения фрагментов структуры. Система ШРАС — Дайсона содержит правила кодирования пространственных структур, а также различных типов неклассических структур. [c.70]

    Так, 3-я зона кода структуры, изображенной на рис. 24 (выделенные блоки обведены штриховыми линиями, цифры в кружках — номера соответствующих блоков по произвольной нумерации блоков), такова /[1,1] СН.,С(= [2,1]СН,,[3,9]. [3,9]-[4,1].[2,3]С4Н8[2,4]. Понятно, что, как и в случае записи всяких ациклических фрагментов, при изменении выбора главных цепей в связке изменяется и код ее. Знак конца всего кода соединения — две точки .. . Кодирование ациклических соединений производится по описанным правилам кодирования ациклических фрагментов. При этом кодирование можно начинать с любого атома ациклического соединения. [c.74]

    Комментарий к правилу 2. Практически во всех системах кодирования и номенклатуры используется полная нумерация (иногда с пропуском узловых атомов, если в них нет насыщенности, гетероатомов или заместителей). Иными словами, в этих системах приходится нумеровать по меньшей мере весь внешний контур циклической системы для того, чтобы указать местоположение гетероатома где-то в конце контура. Принятый в языке ПНК принцип локальной нумерации имеет ряд преимуществ нет необходимости дифференцировать атомы с различной степенью сращенности не нужно нумеровать атомы в кольцах, в которых отсутствуют гетероатомы, насыщенность или заместители правила нумерации стандартны и одинаковы для всех колец, т. е. они соответствуют понятию равноправности всех колец в мозаичной структуре число номеров всего 6 в отличие от больших номеров в других системах правило локальной нумерации позволяет весьма прозрачно отобразить в коде взаиморасположение различных элементов одного кольца (гетероатомов, насыщенности, заместителей и т. д.) локальная нумерация позволяет реализовать простой машинный попск фрагментов регулярной структуры по линейным записям на языке ПНК. [c.77]

    При кодировании данной структуры выбран списочный блок В10 (антрацен). Цифра 1 перед В10 означает номер блока. В круглых скобках записано отклонение блока данной структуры от стандартного списочного блока, а именно насыщенность в вершинах 1, 4—8 и И—14. После символа/записано подсоединение к блоку 1В10 двух трехчленных циклов. Запись [1,6] SS [1,6] расшифровывается так атом 6 блока 1 цепочкой SS связан с атомом 6 блока 1 (запись спиросвязи). Аналогично расшифровывается и фрагмент записи [1, 13] SS [1, 13]. [c.97]

    Запись альтернативных кольцевых систем, гетероатомов и частично не детерминированных словесных определений структурных фрагментов. Правило В. При кодировании альтернативных фрагментов, содержащих кольцевые системы, используется применяемый в языке ПНК оператор разрыва, т. е. связка разрывается и место разрыва обозначается меткой — буквой из ряда щ,. .., я структура далее кодируется в соответствии с правилами серии А, причем альтернативные кольцевые систеппл записываются в дополнительных квадратных скобках и разделяются знаком /. [c.143]


Смотреть страницы где упоминается термин Кодирование фрагментов: [c.174]    [c.198]    [c.97]    [c.537]    [c.583]    [c.142]    [c.138]    [c.98]    [c.48]    [c.48]    [c.81]    [c.84]    [c.95]    [c.141]   
Смотреть главы в:

Распознавание образом в химии -> Кодирование фрагментов




ПОИСК





Смотрите так же термины и статьи:

Кодирование фрагментов структур



© 2024 chem21.info Реклама на сайте