Евгений Седов - Одна формула и весь мир
Впрочем, и во фразе № 2 порядок не столь велик, чтобы всю эту фразу можно было «озвучить». Ну как, например, произнести стоящий в начале слова ЬУЕМЛОЛЙК-ЗБЯ мягкий знак?
По всей видимости, в нашей упорядоченной фразе № 2 еще не учтены все правила, по которым строятся реальные тексты. Чтобы сделать еще один шаг, приближающий наши искусственные фразы к фразам реальных текстов, давайте несколько усложним эксперимент. Будем учитывать вероятности не только отдельных букв, но л их сочетаний. Для этого снова раскроем наугад какую-нибудь книгу и из случайно выбранного слова выпишем четыре буквы, идущие одна за другой, например ВЕСЕ. Теперь будем скользить глазами по строчкам текста до тех пор, пока не встретим в тексте сочетание ЕСЕ (три последние буквы нашей записи ВЕСЕ). Выпишем ту букву, которая следует за сочетанием ЕСЕ (если, к примеру, встретившееся нам сочетание ЕСЕ принадлежит слову «ПЕРЕСЕЛЕНИЕ», то выпишем следующую за сочетанием ЕСЕ букву Л). Теперь записанное нами сочетание букв превратилось в ВЕСЕЛ. Снова запоминаем три последние буквы СЕЛ и ищем такое же сочетание в реальном тексте. Допустим, что такое сочетание встретилось нам в словах «присел на скамейку». В этом тексте следом за сочетанием СЕЛ следует интервал. Значит и в «конструируемом» нами тексте интервал должен следовать за сочетанием ВЕСЕЛ.
Все описанные манипуляции были проделаны с английскими текстами Шенноном и с русскими текстами Добрушиным. В результате Добрушин получил «странную фразу», помещенную в нашей таблице под № 3.
Подобную фразу может сочинить электронная машина если, подбирая сочетания букв по заданной программе она будет учитывать хранящиеся в ее памяти вероят ности различных 4־буквенных сочетаний, встречающихся в текстах различных книг. Эта «машинная речь», хотя и далека от человеческой речи, все же по некоторым формальным признакам очень напоминает обычный, осмысленный текст. По этим признакам можно даже найти во фразе № 3 составное сказуемое (ВЕСЕЛ ВРАТЬСЯ), дополнения (НЕ СУХОМ, НЕПО, КОРКО) и т. п.
Заметим, кстати, что описанная процедура составления фраз очень напоминает один из приемов каббалы. Многие прорицатели, используя случайный набор слогов из священных (или из «черных», то бишь дьявольских) книг, пытались разгадывать и истолковывать таинственный смысл полученных слов и фраз. Считалось, что таким образом они вступают в общение с духом, подсказавшим эти фразы или слова. Мы с вами не станем уподобляться прорицателям и не будем гадать, какой каббалистический смысл вкладывал дух во фразу ВЕСЕЛ ВРАТЬСЯ НЕ СУХОМ И НЕПО И КОРКО. В ней нет, разумеется, никакого тайного смысла, а есть лишь смысл вполне очевидный: ее вероятностная структура приближается к вероятностной структуре обычных осмысленных фраз.
Все полученные Добрушиным искусственные фразы сведены нами в таблицу. К ним добавлена еще одна фраза, которой мы присвоили № 4. Она выписана наугад прямо из текста и, следовательно, соответствует всем грамматическим и фонетическим правилам русского языка Теперь окинем взглядом снизу вверх всю таблицу: перед нами картина распада и деградации: буквы, которые в нижней фразе соблюдали осмысленный строгий порядок, постепенно «сбиваясь с толку», в конце концов настолько между собой перемешались, что превратились в полную абракадабру (фраза № 1).
Превращение фразы № 4 сначала во фразы № 3 и № 2, а затем во фразу № 1 — это модель перехода всякой упорядоченной системы в состояние термодинамического равновесия, то есть такого хаоса, при котором энтропия становится максимальной, а вероятности выравниваются, приближаясь к условию
р1 =р2= .. =рn= 1/n
Теперь попробуем на те же фразы посмотреть в обратном порядке, перемещая взгляд сверху вниз, от фразы № 1 к фразе № 4. Перед нами предстанет модель всех накапливающих порядок антиэнтропийных процессов Элементы системы (в рассматриваемом случае система — это текст, а элементы системы — отдельные буквы) сначала следуют друг за другом в любых сочетаниях, не соблюдая правил, не «обращая внимания» на то, какие элементы появились до них (фраза № 1). Первый проблеск порядка появился после того, как частоты появления элементов системы стали соответствовать вероятностям появления тех же элементов в структуре реальных упорядоченных систем (фраза № 2). Порядок в системе существенно увеличился после того, как стали учитываться вероятности сочетаний ее элементов, определяемые правилами образования слогов в тексте (фраза № 3).
«Полный порядок» образовался с того момента, как стали учитываться все правила русского языка (фраза № 4).
С каждым шагом от хаоса к упорядоченности все меньше и меньше становится энтропия системы, потому что все больше и больше отличаются друг от друга различные вероятности Pi входящие в формулу энтропии:
Стало быть, окинув взглядом сверху вниз таблицу, мы увидели, как протекает типичный антиэнтропийный процесс.
Подобная «антиэнтропийная метаморфоза» может происходить не только с текстом, но и с системами самой разнообразной природы. Например, можно представить себе, как молекулы жидкости, метавшиеся из стороны в сторону в хаотичном броуновском движении, для которого все скорости и направления в равной степени вероятны, начали вдруг выстраиваться в упорядоченные «колонны» и «шеренги» (потому что вероятности направлений движения стали различными) и постепенно образовали сложный, многогранный кристалл. А можно вообразить, как из сумбура нечленораздельных звуков начали образовываться закономерные сочетания (звуковые сигналы), которые постепенно превратились в осмысленные слова.
Как в этих, так и во многих других процессах, приводящих к увеличению порядка в структуре формирующихся систем, происходит накопление информации, количество которой определяется с помощью той же функции
Известный физик Леон Бриллюэн показал, что количество накопленной и сохраняемой в структуре систем информации в точности равно уменьшению их энтропии
Посмотрим, как это общее правило (так называемый негэнтропийный принцип информации) проявляется на частном примере рассмотренных нами фраз.
С помощью функции подсчитали, что при переходе от фразы № 1 к фразе № 4 энтропия текста уменьшилась примерно в 5 раз. Для фразы № 1 энтропия (неопределенность появления каждой новой буквы) составляет 5 бит. Во фразе № 2 неопределенность появления каждой буквы уменьшается на 1 бит и составляет 4 бита на букву. Энтропия реальных текстов меньше, чем максимальная энтропия (фраза № 1) на 4 бита. Она составляет около 1 бита на букву7.
*Все значения энтропии и информации в битах подсчитываются с помощью функции
Пример I. Энтропия сообщений типа «У А. родилась дочка», «В. играет белыми» равна:
= 1 бит
Пример II. Энтропия появления каждой следующей буквы в тексте равна:
Пример III. Для фразы: № 1 выполняется условие рА = Рб =... = Ря=1/32
Подстановка этих значений рА, рБ, рв,..., ря в общее выражение примера II дает энтропию 5 бит.
Пример IV. Чтобы определить энтропию фразы №2, достаточно подставить в общее выражение примера II реальные значения вероятностей букв в русских текстах (Po= 0,09, Pф=0,002 и др.). В результате такой подстановки получим значение энтропии около 4 бит.
Пример V. Чтобы определить энтропию фраз № 3 и № 4, необходимо учитывать не только вероятности отдельных букв, но и вероятности их сочетаний. Для реальных текстов эта задача становится настолько сложной, что приходится применять приближенные методы расчета, описанные подробно и доступно в книге А. М. Яглома и И. М. Яглома «Вероятность и информация» (глава 4). Приближенное значение энтропии реальных текстов составляет около 1 бита на букву.
Уменьшение энтропии реальных текстов по сравнению с фразой № 1 обусловлено тем, что в структуре реального текста содержится информация всех грамматических и фонетических правил русского языка. Разность между энтропией реального текста Нр = 1 бит на букву и максимальной энтропией фразы № 1, Hmax=5 бит на букву — это и есть количество информации Iп, содержащейся в грамматических и фонетических правилах, которым подчиняются реальные тексты. Таким образом:
= 4 бита на букву.