Игра разума. Как Клод Шеннон изобрел информационный век - Сони Джимми
Давайте рассмотрим пример противоположной крайности: представьте себе монету с двумя орлами. Подбросьте ее столько раз, сколько хотите – дает ли она вам какую-то информацию? Шеннон настаивал на том, что не дает. Она не говорит вам ничего о том, чего вы не знаете: она не убирает неопределенность.
А что в действительности измеряет информация? Она измеряет неопределенность, которую мы преодолеваем. Она измеряет наши шансы узнать то, чего мы еще не знаем. Или, если говорить более конкретно, когда одна вещь передает информацию о другой вещи – подобно тому, как показания счетчика сообщают нам физическое количество или книга рассказывает нам о жизни, – количество информации, которое она несет, отражает уменьшение неопределенности в отношении объекта. Сообщения, которые убирают наибольшее количество неопределенности – те, что выбраны из самого широкого диапазона символов с минимальным процентом случайностей, – наиболее содержательны в плане информации. Но там, где присутствует идеальная определенность, нет информации: в этих случаях просто нечего сказать.
«Клянетесь ли вы говорить правду, всю правду и ничего, кроме правды?» Сколько раз в истории судебной практики на этот вопрос звучал другой ответ, кроме «да»? В силу того, что только один ответ реально допустим, данный ответ не дает нам почти никакой новой информации – мы уже заранее знали его. И это справедливо в отношении большинства человеческих ритуалов, во всех случаях, когда наша речь заранее прописана и ожидаема («Берете ли вы в мужья этого человека?»). И когда мы отделяем значение от самой информации, мы обнаруживаем, что часть наших самых значимых высказываний – это наши самые менее информативные высказывания.
Мы, конечно, можем вспомнить те немногие случаи, когда клятву не произносят или бросают невесту у алтаря. Но с точки зрения Шеннона, количество ценной информации заключено не в одном конкретном выборе, а в вероятности узнавания чего-то нового с каждым заданным выбором. Как бы вы ни старались, чтобы выпал орел, монета все равно будет время от времени падать решкой. Но в силу того, что монета сравнительно предсказуема, она также будет информационно ограниченна.
И все же самые интересные случаи заключены в промежутке между двумя крайностями из абсолютной неопределенности и абсолютной предсказуемости: в широком диапазоне подброшенных монет. Почти каждое реально отправленное или полученное сообщение – это фактически брошенная определенным образом монета, и количество ценной информации варьируется в зависимости от того, как была подброшена монета. На этом графике Шеннон показал количество ценной информации при бросании монеты, когда вероятность выпадения нужной стороны (назовем эту величину р) варьируется от О до 100 процентов.
Случай с процентным соотношением 50 на 50 дает максимум один бит, но количество непредвиденного стабильно падает, по мере того как выбор становится более предсказуемым. Это происходит до тех пор, пока мы не получим идеально предсказуемого выбора, который ни о чем нам не скажет. Особый случай с процентным соотношением 50 на 50 был уже описан Хартли. Но теперь стало ясно, что теория Шеннона, проработавшего каждый набор случайностей, поглотила теорию Хартли. В конечном счете реальная мера информации зависела от этих случайностей:
H = – p log p – q log q.
В данном случае р и q представляют собой вероятности двух итогов – либо сторона монеты, либо посылаемый символ, – которые вместе составляют 100 процентов. (Когда возможно больше, чем два символа, мы можем включить больше вероятностей в наше уравнение.) Количество битов в сообщении (Н) зависит от его неопределенности: чем ближе эти случайности к равенству, тем больше неопределенности изначально и тем больше нас удивит результат. А когда равенство уменьшается, количество неопределенности, с которой нужно разобраться, уменьшается вместе с ним. Поэтому считайте величину Н мерилом «среднестатистической неожиданности» монеты. Если монета будет выпадать орлом 70 процентов времени, то ценность сообщения при ее подбрасывании составит всего 0,9 бита.
Цель всего этого – не просто вычленить точное количество битов в каждом понятном сообщении: в ситуациях более сложных, чем подбрасывание монеты, возможности множатся, и определить точное количество случайностей для каждой из них становится гораздо труднее. Целью Шеннона было заставить своих коллег воспринимать информацию с точки зрения вероятности и неопределенности. Именно уход от традиционных взглядов Найквиста и Хартли помог заработать всей остальной части проекта Шеннона, хотя, что характерно, он посчитал это пустяшным делом: «Я не считаю это чем-то сложным».
Сложный или нет, но это был новый подход, и он открывал новые возможности для передачи информации и преодоления шума. Теперь мы можем обернуть все случайности в свою пользу.
И все же в основной массе сообщений символы не ведут себя, как монеты. Символ, который отправляют сейчас, зависит – важным и предсказуемым образом – от символа, который был только что отправлен: один символ «тянет» за собой последующий. Возьмем изображение: Хартли показал, как оценивать информационный контент сообщения, измеряя интенсивность тона каждого «элементарного участка». Но в тех изображениях, которые читаемы, яркость тона представлена не хаотично разбросанными по поверхности пикселями: каждый пиксель имеет свою «библиотеку ресурсов». Светлый пиксель, вероятней всего, появится рядом со светлым пикселем, а темный – рядом с темным. Или же, предлагал Шеннон, возьмем простейший случай с телеграфными сообщениями. (К телеграфной связи часто обращались, как к самой базовой модели дискретной связи, удобной для упрощения и изучения. Даже несмотря на то что телеграфом пользовались все реже, он продолжал служить науке в теоретических работах.) Сократим алфавит до трех основных символов азбуки Морзе – точки, тире и пробела. Каким бы ни было сообщение, за точкой может следовать точка, тире или пробел; за тире может следовать точка, тире или пробел; но за пробелом может следовать только точка или тире. За пробелом никогда не идет пробел. Выбор символов не является абсолютно свободным. Действительно, машина, работающая с телеграфным ключом в произвольном режиме, может нарушить правила и по незнанию отправить пробел вслед за пробелом. Но почти все сообщения, которые интересны инженерам, подчиняются определенным правилам и в некоторой степени лишены свободы. И Шеннон учил инженеров тому, как можно выгодно воспользоваться этим фактом.
Этим своим озарением Шеннон поделился с Германом Вейлем в Принстоне в 1939 году. Прошло почти десять лет, прежде чем он смог подвести под эту идею теоретическую базу: информация стохастична. Ее нельзя назвать ни абсолютно непредсказуемой, ни абсолютно определенной. Она разворачивается в приблизительно предсказуемых формах. Вот почему классическая модель стохастического процесса – это пьяный человек, который идет, спотыкаясь, по улице. Он идет не по прямой линии, и мы не можем с точностью предсказать его путь. Каждый его крен выглядит как случайность. Но если понаблюдать за ним достаточно долго, мы заметим, что в его движениях присутствуют определенные модели, которые при желании можно было бы зафиксировать. Постепенно мы бы довольно точно вычислили те места на тротуаре, на которых он, вероятнее всего, мог бы оказаться. И наши оценки были бы еще более достоверными, если бы мы начали с изучения общего характера походки пьяных людей. Так, к примеру, их тянет к фонарным столбам.
Как это ни удивительно, но Шеннон продемонстрировал, что данная модель также описывает поведение сообщений и языков. При общении на любом языке определенные правила ограничивают нашу свободу выбирать последующую букву и последующий ананас [5]. Так как эти правила делают одни модели наиболее вероятными, а другие – практически недопустимыми, то такие языки, как английский, почти лишены полной неопределенности и максимальной информативности: сочетание «th» встречалось в этой книге уже 6431 раз, сочетание «tk» – только один. С точки зрения специалиста в области теории информации, наши языки ужасно предсказуемы – до скучного предсказуемы.