KnigaRead.com/

Евгений Седов - Одна формула и весь мир

На нашем сайте KnigaRead.com Вы можете абсолютно бесплатно читать книгу онлайн Евгений Седов, "Одна формула и весь мир" бесплатно, без регистрации.
Перейти на страницу:

«Полный порядок» образовался с того момента, как стали учитываться все правила русского языка (фраза № 4).

С каждым шагом от хаоса к упорядоченности все меньше и меньше становится энтропия системы, потому что все больше и больше отличаются друг от друга различные вероятности Pi входящие в формулу энтропии:      

                                   

Стало быть, окинув взглядом сверху вниз таблицу, мы увидели, как протекает типичный антиэнтропийный процесс.

Подобная «антиэнтропийная метаморфоза» может происходить не только с текстом, но и с системами самой разнообразной природы. Например, можно представить себе, как молекулы жидкости, метавшиеся из стороны в сторону в хаотичном броуновском движении, для которого все скорости и направления в равной степени вероятны, начали вдруг выстраиваться в упорядоченные «колонны» и «шеренги» (потому что вероятности направлений движения стали различными) и постепенно образовали сложный, многогранный кристалл. А можно вообразить, как из сумбура нечленораздельных звуков начали образовываться закономерные сочетания (звуковые сигналы), которые постепенно превратились в осмысленные слова.

Как в этих, так и во многих других процессах, приводящих к увеличению порядка в структуре формирующихся систем, происходит накопление информации, количество которой определяется с помощью той же функции

                     

Известный физик Леон Бриллюэн показал, что количество накопленной и сохраняемой в структуре систем информации  в точности равно уменьшению их энтропии

Посмотрим, как это общее правило (так называемый негэнтропийный принцип информации) проявляется на частном примере рассмотренных нами фраз.

С помощью функции  подсчитали, что при переходе от фразы № 1 к фразе № 4 энтропия текста уменьшилась примерно в 5 раз. Для фразы № 1 энтропия (неопределенность появления каждой новой буквы) составляет 5 бит. Во фразе № 2 неопределенность появления каждой буквы уменьшается на 1 бит и составляет 4 бита на букву. Энтропия реальных текстов меньше, чем максимальная энтропия (фраза № 1) на 4 бита. Она составляет около 1 бита на букву[7].

*Все значения энтропии и информации в битах подсчитываются с помощью функции

Пример I. Энтропия сообщений типа «У А. родилась дочка», «В. играет белыми» равна:

= 1 бит


Пример II. Энтропия появления каждой следующей буквы в тексте равна:


Пример III. Для фразы: № 1 выполняется условие PА = Рб =... = Ря= 1/32

Подстановка этих значений pА, рБ, рв,..., ря вобщее выражение примера II дает энтропию 5 бит.


Пример IV. Чтобы определить энтропию фразы №2, достаточно подставить в общее выражение примера II реальные значения вероят­ностей букв в русских текстах (Po= 0,09, Pф=0,002 и др.). В результате такой подстановки получим значение энтропии около 4 бит.


Пример V. Чтобы определить энтропию фраз № 3 и № 4, необ­ходимо учитывать не только вероятности отдельных букв, но и веро­ятности их сочетаний. Для реальных текстов эта задача становится настолько сложной, что приходится применять приближенные методы расчета, описанные подробно и доступно в книге А. М. Яглома и И. М. Яглома «Вероятность и информация» (глава 4). Приближенное значение энтропии реальных текстов составляет около 1 бита на букву.


Уменьшение энтропии реальных текстов по сравнению с фразой № 1 обусловлено тем, что в структуре реального текста содержится информация всех грамматических и фонетических правил русского языка. Разность между энтропией реального текста Нр = 1 бит на букву и максимальной энтропией фразы № 1, Hmax= 5 бит на букву — это и есть количество информации Iп, содержащейся в грамматических и фонетических правилах, которым подчиняются реальные тексты. Таким образом:

                                                         = 4 бита на букву.

Этого количества информации оказывается достаточно для того, чтобы представленную фразой № 1 абракадабру превратить в осмысленный текст.

Специалисты по телефонной, телеграфной и радиосвязи называют информацию грамматических и фонетических правил избыточной информацией. Почему? Это не так уж сложно понять.

Дело в том, что специалистов, проектирующих системы связи, письменные тексты интересуют только с одной точки зрения: как с помощью этих текстов передать по каналу связи при минимальной затрате энергии и в максимально короткий срок наибольшее количество новостей?

Мы только что выяснили, что в структуре реальных текстов содержится информация грамматических и фонетических правил.

Является ли эта информация для получателя новой? Нет, разумеется. Надо думать, что правила грамматики он усвоил еще на школьной скамье. А раз так, решили специалисты по связи, значит, информация эта избыточна и лучше по мере возможности не загружать ею канал. Приняв точку зрения специалистов по теории информации и технике связи, взглянем еще раз на фразы нашей таблицы.

Фраза № 1 и проделанный для нее расчет энтропии показывают, что наибольшая неопределенность появления буквы составляет 5 бит на букву. Расчеты, проделанные для фразы № 4 и других реальных текстов, показали, что неопределенность (непредсказуемость, неожиданность) появления каждой буквы в реальных текстах уменьшается до 1 бита за счет упорядоченности, обусловленной правилами, по которым строится всякий реальный текст.

Другими словами, неожиданность сообщений для знакомого с правилами грамматики и фонетики адресата уменьшается на 80 процентов, так как 80 процентов содержащейся в тексте информации не является для него неожиданной, новой. Так стоит ли загружать такой информацией дорогостоящий телеграфный или телефонный канал?

Специалисты решили: не стоит. И стали искать способы, позволяющие уменьшить этот «избыточный груз».

Например, получив сообщение ТЬС, можно безошибочно предугадать, что дальше последует буква Я. Почти с полной уверенностью можно предсказывать, что вслед за сочетанием КИ появится либо Й, либо М, либо X, либо Е. А если учесть еще связь между передаваемым словом и предыдущим, то можно сказать уже без всяких сомнений, какая буква последует после сочетания СКИ. Если до этого было слово ЯЩИК, а потом пришло сочетание ГРОМОЗДСКИ, то вполне очевидно, что следом появится Й. А если раньше было получено слово ВЕЩЕЙ, то после СКИ появится X и т. п.

Исходя из того, то многие буквы передаваемых текстов можно предсказывать до их получения, создатели теории информации задались вполне законным вопросом: может быть, для экономии времени и энергии эти буквы можно совсем не передавать?

Методами теории вероятностей и статистики были исследованы разнообразные сообщения: тексты, телеграфные коды, радио- и телесигналы и т. д. Оказалось, что все они обладают значительной долей избыточной информации, то есть той информации, которую можно предсказывать еще до ее получения или вообще не передавать по каналам связи, сохранив при этом возможность восстановить на приемном, конце полный текст.

Но тут мы должны отвлечься от задач техники связи и передачи сообщений, чтобы обратить внимание на одно очень важное обстоятельство: та информация, которая оказывается избыточной для техники связи, вовсе не будет излишней для самого языка.

В самом деле: лишите-ка вы текст той избыточной информации правил (Iп = 4 бита на букву), благодаря которой буквы следуют друг за другом в определенном порядке. Что тогда станет с текстом? Вполне очевидно: он тут же рассыплется, перемешает между собой все свои буквы, превратится в абракадабру, подобную фразе № 1.

То же самое произойдет и в любой другой упорядоченной (а стало быть, сохраняющей определенное количество информации) системе: стоит лишить ее этой информации, и она превратится в хаотичную смесь элементов, перестанет существовать как система.

Чтобы еще раз убедиться в том, что одна и та же информация может быть с одной точки зрения избыточной, а с другой точки зрения — крайне необходимой, допустим, что вам пришло такое сообщение: из яйца вылупился птенец, у которого есть крылья и нет плавников. Являются для вас новостью сведения о плавниках и крыльях? Нет, не являются. Для вас это избыточная информация. А для птенца?

Перейти на страницу:
Прокомментировать
Подтвердите что вы не робот:*