Киви Берд - Книга о странном (с иллюстрациями)
Пионером здесь стала британская интернет-компания Autonomy, для интеллектуального поиска информации созданная математиком (и ныне миллиардером) Майком Линчем. Программное обеспечение Autonomy, построенное на базе байесовых оценок, позволяет компьютерам «понимать» содержание неструктурированной информации, такой как текстовые участки веб-страниц или электронная почта. Например, с помощью байесовского аппарата по контексту достаточно элементарно подбирается нужная информация о реке Амазонке, а не о мифических племенах воинственных женщин или об онлайновом супермагазине с тем же названием Amazon. Просто по той причине, что контекст документа будет включать упоминания о джунглях, деревьях и Южной Америке.
Лежащая в основе Autonomy технология DRE (Dynamic Reasoning Engine) по сути дела сводит воедино вероятностные методы Томаса Байеса и труды Клода Шеннона по теории информации. Формулы Байеса связаны с вычислением вероятностных связей между многими переменными и определением их взаимовлияния. Используя эту технику и компьютерные мощности, удается выявлять связи между различными элементами информации. Поняв основной смысл текста (или другого информационного носителя), система Autonomy приступает к следующему шагу и использует теорию Шеннона, согласно которой чем менее часто встречается информация, тем она более информативна.
Майк Линч с редкостным апломбом любит заявлять, что «лишь 10 человек в мире знают, как все это [байесовы оценки] применять, причем треть таких людей работает на меня». Вряд ли стоит воспринимать слова математика-предпринимателя всерьез, скорее это так – работа на публику и раздувание щек, что называется, бизнеса ради. Байесовский математический аппарат разработан сейчас весьма мощно, и технологии на его основе применяются во множестве других компаний.
Например, корпорация Oracle использует теорию Байеса в своем новом ПО для баз данных, где с ее помощью выявляются характерные тенденции в сложных массивах данных, а также вносится столь популярная ныне «персонализация» в маркетинговые кампании. В корпорации Microsoft этот же статистический аппарат заложен в программы выявления неполадок в новой ОС WinXP, а еще ранее – был использован при создании для пакета MS Office столь доставшего всех своими ненужными советами «мистера Скрепки» (Mr Clippy). Этого надоедливого мультяшного субъекта, как известно, впоследствии задвинули подальше, дабы не раздражать без нужды клиентов. Впрочем, научному авторитету Томаса Байеса суетливый «Скрепыш» вряд ли нанес хоть какой-то урон.
И уж коли речь зашла о дискредитации ученого, то, быть может, наихудшую услугу ему оказывают разухабистые пиаровские тексты компании Autonomy, вещающие об «эксцентричном англичанине Томасе Байесе, который с одинаковым успехом занимался как доказательством существования бога, так и разработкой наиболее эффективных алгоритмов для игры в кости». По свидетельству историков, подобные заявления, мягко говоря, не соответствуют известным фактам из жизни этого человека.
Что же известно, так это на редкость мудрый подход Байеса к эффективности точных наук и к возможности их гармоничного сочетания с глубоким религиозным чувством.
5.4. «Мне просто было интересно, как это устроено…»
24 февраля 2001 г. покинул наш мир Клод Шеннон, один из выдающихся умов XX столетия, «отец» теории информации и научной криптографии. Фундаментальные идеи и теории Шеннона появились на свет более полувека назад, однако и поныне они остаются не менее современными и важными, чем в годы своего зарождения. Более того, можно говорить, что лишь нынешняя эпоха высокоскоростных цифровых коммуникаций позволяет в полной мере оценить гигантский вклад этого ученого, вследствие ряда личных качеств названного одним из соратников «самым неизвестным среди великих математиков».
Клод Шеннон.
Клод Элвуд Шеннон родился в городке Питоски, штат Мичиган, 30 апреля 1916 года. Благодаря влияниям отца-радиолюбителя и старшей сестры, всю жизнь посвятившей математике, весьма рано проявилось и дарование Клода, крайне удачно сочетавшее в себе технический талант инженера-электронщика и выдающиеся теоретические способности к глубокому математическому анализу проблем. В 1936 году Шеннон закончил Мичиганский университет с бакалаврскими степенями в математике и электронной технике. Еще через 4 года он закрепил свое «обоюдоострое» образование в стенах Массачусетсского технологического института, в 1940-м защитив здесь магистерскую диссертацию по электротехнике и докторскую по математике.
Уже магистерская диссертация Шеннона «Символический анализ релейных и переключающих схем» стала без преувеличения новым словом в науке. В эпоху аналоговых радиоэлектронных устройств и счетно-решающих машин на шестеренках и валиках Шеннон по сути дела разработал теоретическое обоснование электронным цифровым схемам. Ныне такие схемы лежат в основе функционирования практически всех современных компьютерных и коммуникационных систем. Суть новаторского подхода, предложенного в диссертации, заключалась в том, чтобы работу переключателей и реле в электрических схемах анализировать на базе аппарата булевой алгебры – достаточно абстрактной по тем временам технике математической логики, созданной в середине XIX века английским математиком Джорджем Булем. Впоследствии Шеннон следующим образом пояснял причину своего выдающегося открытия: «Просто случилось так, что никто другой не был знаком с обеими этими областями одновременно»…
Время тогда было известно какое, ив 1941 году Шеннон начал работу в математическом отделении научно-исследовательского центра Bell Laboratories, сосредоточенного по-преимуществу на проблемах военных коммуникационных систем и криптографии. Напряженная работа в этой области за годы войны дала богатейшие плоды в мирное время. В 1948 году Шеннон публикует свой эпохальный труд «Математическая теория связи», оригинал которого можно найти на веб-сайте Bell Labs[37]. Цель перед работой ставилась сугубо практическая – как можно было бы улучшить передачу информации по телеграфному или телефонному каналу, находящемуся под воздействием электрических шумов. При решении же этой задачи у Шеннона родилась поистине революционная работа, положившая начало целой науке под названием «теория информации».
Безусловный интерес представляет то, как ученый переформулировал цель исследования: «Фундаментальная проблема связи состоит в том, чтобы на одном конце в точности или приблизительно воспроизвести сообщение, которое избрали для передачи на другом конце». Для строгого математического описания и решения проблемы в такой формулировке Шеннон разработал теоретический фундамент столь тщательным образом, что введенные им конструкции и терминология остаются стандартом и по сию пору.
Достаточно быстро Шенноном был сделан вывод, что наилучшим решением проблемы стало бы более эффективное кодирование или «упаковка» информации. Однако для начала требовалось строго определить, что это собственно такое – «информация» – и чем измерять ее количество. Имея за плечами аппарат двоичной логики, за единицу информации Шеннон принял то, что впоследствии окрестили бинарной цифрой или просто «битом», другими словами, выбор одного из двух равновероятных вариантов.
Что же касается количества информации, то ее Шеннон определил через энтропию – математическую меру, в термодинамике и статистической физике применяемую для характеристики степени хаотичности (разупорядоченности) систем. Как гласит предание, пошедшее из уст самого автора, использовать энтропию ему посоветовал знаменитый математик Джон фон Нейман. Со своеобразным чувством юмора, свойственным этим людям, фон Нейман обосновал свой совет тем, что в среде математиков и инженеров мало кто знает об энтропии, а посему Шеннон получит огромное преимущество в неизбежных грядущих спорах вокруг новой теории. Однако вопреки ожиданиям, новаторской теории Шеннона был сужден мгновенный и широчайший успех среди инженеров, занимающихся системами связи. Она породила огромное количество исследовательских работ и стала мощным стимулом к развитию всех тех технологий, что в конечном счете привели к сегодняшнему «веку информации».
Другая эпохальная работа Клода Шеннона, вышедшая практически одновременно с «теорией информации», по ряду причин не получила такого же широкого резонанса, поскольку явно опережала свое время сразу на несколько десятилетий. Речь идет, конечно же, об опубликованной в 1949 году статье «Теория связи в системах засекречивания»[38] (Communication Theory of Secrecy Systems). На самом деле данная статья представляла собой несколько переработанный отчет, подготовленный Шенноном еще в 1945 году. То, что эта работа была рассекречена и опубликована в открытой печати – уже само по себе маленькое чудо, рационально объяснить которое можно лишь тем, что уровень абстрагирования явно показался принимающим решения инстанциям чересчур далеким от практики. Ну а то, что значит этот труд для современной криптологии, можно проиллюстрировать лишь одним примером. Всю историю криптографии от античности до наших дней принято делить на два периода: до 1949 года, когда «тайнопись» считали шаманством, оккультизмом и родом искусства; и после 1949 года, когда криптология стала полноценной прикладной наукой со строгой математической теорией в фундаменте.