ТЕКСТОВАЯ ЭНТРОПИЯ СТРУКТУРЫ

из "Куда идешь, Человек Основы эволюциологии Информационный подход"

Хорошо известно, что если любой блок привычной для нас информации разбить на мелкие независимые блоки (разрушить контекст), то теряется часть информации, и чем более мелкими будут блоки, тем больше семантические потери. Например, если какую-нибудь статью представить как множество слов или независимых символов, то вряд ли будет возможно сказать что-то о ее содержании. [c.51]
Если же m отражает число только ненулевых значений p(s), то получаем величину, так называемой, относительной текстовой энтропии (ОТЭ). [c.52]
Текстовая энтропия 8-словаря - ТЭ(8), вычисляется как среднее арифметическое ТЭ(8) всех слов словаря, вычисленная по 2.1. [c.53]
Текстовая энтропия текста ТЭ(1)ь вычисляется как среднее арифметическое всех ТЭ(8) для длин слов, начиная с 1 и до Ь. [c.53]
В основе вычисления ТЭ (2.1, 2.4 и 2.5) лежит усредненная частота встречаемости p(s) некоторого отрезка (слова s) на интервале информационного потока 1(а) размером в символов (размер словаря S). Поясним на примере. Допустим, что текстовой поток отображается в алфавите А О, 1 , и нам необходимо вычислить ТЭ для отрезков (s) по два символа (L=2). Нарезая поток 1(а) на интервалы по L символов, будем подсчитывать частоту встречаемости отрезков S тождественных Sj (например, Sj = 1,0 ) на интервале А (А1-=2 22=8), равном размеру словаря S (8= 00,01,10,11 ). Значение p(s) выражает вероятность обнаружения отрезка s, на интервале А -потока 1(а). Величина I - ТЭ(з) указывает на отклонение частоты встречаемости данного отрезка s в потоке 1(а) от идеального белого шума . Для которого характерно, что для любых слов p(s)= 1 и любых словарей ТЭ(8)= 1, и соответственно, ТЭ(1) л .= 1. [c.53]
Проанализировав тестовые 1(а), такие как белый шум - практически это был генератор псевдослучайной последовательности Вог1ап 1 С, периодический сигнал и реальный текст , - для ТЭ были получены следующие зависимости. ТЭ(1)ь в среднем монотонно уменьшается с ростам Ь для всех трех типов сигнала. Для периодического сигнала ТЭ(8) уменьшалась до нуля приХ=к т (т -длина периода сигнала, к - кратность). Для псевдослучайной последовательности, при X-12 величина ТЭ(8)ь уменьшилась с 1.00 до 0.56, а это означает практическую возможность весьма высоковероятного предсказания ожидаемых отсчетов, что свидетельствует о неудовлетворительности работы генераторов псевдослучайной последовательности при таких режимах. Для реального текста получены значения ТЭ, лежащие, к это и предполагалось, в границах между значениями белого шума и периодического сигнала . Результаты экспериментов по вычислению ТЭ приведены в Приложении 1. [c.54]
Шеннона [161], положительно отличающаяся от нее по вычислимости (линейная форма) и нормировке (ТЭ=1 для белого шума и ТЭ=0 лля периодического сигнала , 0 ТЭ 1 для реального текста ). Если совместить графики этих трех классов информационных потоков, то достаточно легко, даже чисто визуально, можно указать разделяющие их признаки. [c.55]
Выводы из последнего утверждения можно практически применить к тезису об ограниченности материальных ресурсов Вселенной. ТЭ, построенная на реальных астрофизических данных, полностью подчиняется данному утверждению ТЭ I. Это говорит о конечности структурного разнообразия нашей Вселенной, а соответственно, и о ее физической ограниченности. Проведя более точные спектральные измерения, а также исследуя динамику их изменений во времени и пространстве, можно будет получить уже конкретные оценки многих параметров Вселенной [148,160,162]. [c.56]
Численные значения ТЭ по формуле (2.1), как отношения числа реализуемых состояний объекта на число теоретически возможных состояний, т.е. на размерность информационного пространства этого объекта, совпадают с общепринятыми интуитивными оценками. Так например, пространственная энтропия (ТЭ) вируса на несколько порядков меньше, чем пространственная энтропия у кристалла такой же массы. Соответственно, энтропия работающей ЭВМ на много меньше, чем энтропия груды металла той же массы, и т.д. [c.56]
Все вышесказанное о ТЭ относилось к понятию абсолютной текстовой энтропии. Количественная оценка значения ТЭ показывает насколько данная текстовая последовательность близка к белому шуму и, соответственно, можно ли в ней при конкретном разбиении (по Ь), надеяться иа выделение семантической составляющей. При этом, чем ближе ТЭ к 1, и меньше шансов у исследователя понять эту ПО. [c.56]
Относительная текстовая энтропия (ОТЭ). Другой оценкой семантических характеристик текстового потока является величина так называемой относительной текстовой энтропии. Ее отличие от ТЭ заключается в том, что все вычисления ТЭ (2.1) проводятся только на текстовых элементах (з), реально присутствующих в текстовом потоке 1(а), т.е. т равно числу элементов словаря (т АЬ). [c.56]
Если рассмотреть график на рис. 2.5 из которого видно, что значение ТЭ монотонно уменьшается с ростом Ь для всех известных физических ПО, то для ОТЭ характерна совершенно другая зависимость, и, что самое интересное, значения ОТЭ для белого шума и периодического сигнала тождественны и равны 1. [c.56]
Этот результат подтверждает интуитивно ожидаемое эквивалентное бесплодие периодического сигнала и белого шума, т.е. кристаллический и огненный миры эволюционно неспособны к саморазвитию. [c.57]
Действительно, в кристаллическом мире с его абсолютно регулярной структурой не может родиться никакая ИС. Относительно огненного мира можно сказать, что в нем хотя и может случайным образом зародиться ИС с некоторой малой вероятностью прямо пропорциональной суммарному числу происходящих в нем событий, но также случайно, и с гораздо большей вероятностью она бесследно исчезнет в хаосе. Хотя понятно, что кристаллический и огненные миры это некоторая идеализация, но некоторые локальные области реальной ПО могут иметь характеристики, близкие к этим идеализациям и, соответственно, данные представления позволяют лучше понять наш реальный мир. [c.57]
Таким образом, вычисление ОТЭ позволяет четко разделить информационные потоки на два основных класса ПО, в которых выполняются или не выполняются условия антропного принципа. Различие ОТЭ и АТЭ весьма значительно и будет проанализировано на конкретных примерах далее в параграфе 2.5. [c.57]
В соответствии с (2.7), одна и та же последовательность I(a)2,i для различных ИС, скорее всего, будет иметь различные качественные оценки значимости Кис Ф Юис. А из этого следует, что существуют индивидуальные оптимальные траектории настройки или обучения ИС, и этим необходимо руководствоваться при их создании или формировании. [c.58]
Как одно из практических решений вышеназванных проблем была сформулирована концепция крупномасштабных информационных сред для работы в априорно неопределенных и слабоструктурированных предметных областях на базе энтропийного подхода. Под крупномасштабными ИС мы будем рассматривать системы, оперирующие ресурсами, как минимум на 10 порядков больше, чем учебные (тестовые) примеры из курсов вычислительной техники. В качестве слабоструктурированных ПО будем рассматривать реальные ПО с потоком 1(a) без какой-либо предварительной обработки. [c.59]
Классификация идеальных ИС. Исходя из характеристик ПО и вышеперечисленных требований к ТИС, можно предложить объективную классификацию ИС. Все типы ИС можно разделить на четыре класса. [c.60]
При удовлетворении условиям (2.9) и (2.10) получаем ТИС 3-го класса, к ним принадлежат все биологические ИС, включая и человека. [c.60]

Вернуться к основной статье

Справочник химика 21

Химия и химическая технология