Александр Кондратов - Звуки и знаки
«Человек так же неспособен выучить наизусть все книги, хранящиеся в библиотеке, как и взвалить их себе на спину», — очень метко сказал академик В. М. Глушков. И не только выучить, но и просто-напросто прочитать. Число научно-технических журналов в наше время уже превысило пятьдесят тысяч и продолжает расти. Добавьте к ним еще семьдесят пять тысяч книг по науке и технике, издаваемых ежегодно. Плюс более трехсот тысяч описаний к авторским свидетельствам и патентам. Плюс сотни тысяч ежегодных научно-технических отчетов. И все это море информации кодируется не на одном, а на многих языках мира, причем и число таких языков науки и техники постоянно увеличивается. Если десяток лет назад было достаточно знания европейских языков, то теперь ценная научно-техническая информация публикуется на арабском, хинди, японском, турецком, персидском языках…
Обуздать Ниагару книг, потоки информации с помощью машин — машин-переводчиков или информационно-логических машин, хранящих в своей электронной памяти сведения из самых различных областей знания; создать общий язык для машины-переводчика и машины-информатора, некий универсальный код науки; научить электронный мозг не только хранить и выдавать по требованию информацию, но и обрабатывать ее, делать новые выводы, умозаключения, сопоставления; включить ЭВМ как мощнейший усилитель нашего мышления в цивилизацию XX столетия — таковы были грандиозные и благородные идеи, которыми руководствовались кибернетики, лингвисты, социологи, логики после первых опытов машинного перевода.
Казалось, время осуществления этих идей не так уж далеко. Пройдет каких-нибудь десять—двадцать лет, и начнется одна из самых крупных научно-технических революций в истории человечества…
Идея перевода с помощью ЭВМ была высказана в 1949 году. Со времени первого публичного перевода машиною с языка на язык прошло почти четверть века. Что же происходит в наши дни, в последней четверти двадцатого столетия?
…где ваша сладость?
Нет, кибернетическая революция, о которой мечтали четверть века назад и которую связывали прежде всего с машинным переводом и созданием информационно-логических машин, до сих пор не произошла. ЭВМ не переводят с языка на язык ни технические, ни тем более научные тексты. И хранителями знаний по-прежнему служат полки библиотек, а не блоки электронной памяти машин.
Более того. По свидетельству самих специалистов по машинному переводу, в наши дни свое основное внимание они сосредоточивают не на переводе, не на машине и не на алгоритме, формальной программе перевода!
В чем же тут дело? В порочности самой идеи, будто машина может переводить с языка на язык? Нет, идея эта подавляющим большинством ученых признается верной.
Тогда, быть может, все дело в технических трудностях: слишком маленькой оперативной памяти ЭВМ, недостаточной скорости, трудности ввода информации? Опять-таки псе эти проблемы не имеют отношения к реальным проблемам машинного перевода.
На исследования в этой области отпускались большие средства, над машинным переводом работали целые лаборатории. Случалось, что попадали в них люди, далекие от науки, видевшие в МП лишь легкую поживу. Но ведь в основном и в нашей стране, и за рубежом проблемой автоматического перевода занимались крупные ученые, причем и математики, и языковеды, и логики… И все-таки проблема эта не решена до сих пор.
Почему? Да потому что обманчивая простота механизации перевода вступила в совсем необманчивую сложность нашего человеческого языка. Чтобы сделать машинный перевод не проблемой, а реальностью, нужно сделать науку о языке достаточно точной, иначе нельзя перевести ее положения на формулировки программ ЭВМ. Вполне понятно, что ни десяти, ни двадцати лет не хватит для такой коренной перестройки. Да и вообще возможна ли она до конца — это тоже еще под вопросом.
Ну, а как же первые переводы с помощью машины? — спросит читатель. Ведь переводила же ЭВМ с русского на английский, с английского на русский и т. д.?
Переводила, это бесспорный факт. Но вот что она переводила — это другое дело. Есть такая шутка: «Черное, с крыльями, жужжит, жук — что это такое?» Ответ однозначен — жук, потому что он содержался в самом вопросе. Нечто подобное было и в первом опыте публичного машинного перевода, осуществленного в рекламных целях фирмой ИБМ. Текст был тщательным образом отпрепарирован, предельно упрощен. Правила грамматики также были элементарны. И словарный запас минимален.
Когда же стали увеличивать объем словаря, усложнять грамматику и пытаться перевести не препарированные, а подлинные тексты, перед исследователями стали задачи, неразрешимые на уровне современных знаний о языке. Проблем было сотни: слова, имеющие несколько значений, и слова-омонимы; грамматические правила и неизбежные в любом языке исключения из правил; многообразие не только слов, но и грамматических форм, В русском языке насчитывается сто пятьдесят семь различных глагольных окончаний, в немецком — триста пятьдесят четыре, а в языке аранта — около тысячи (правда, пока что аранта не имеют письменности и поэтому проблема машинного перевода для этого языка Австралии неактуальна).
Перечень подобного рода проблем можно было бы продолжить, но вам, пожалуй, ясна наша главная мысль: язык оказался слишком сложен для машины, а лингвистика — слишком «гуманитарна», чтобы изложить накопленные ею сведения о языке в виде формул и алгоритмов. Больше того, даже для информационно-логических машин, которые, казалось бы, должны иметь дело со строгими и однозначными терминами науки, по сей день не удалось найти приемлемого кода, языка-посредника между информацией, накопленной человечеством, и электронной памятью ЭВМ. А причина этого все та же: наш человеческий язык. Ведь именно на этом языке «закодирован» весь океан современной информации — научной, технической и просто житейской.
Возьмем слово белок. Как закодировать его? Химик понимает под белком одно, биолог — другое, демограф — третье, повар — четвертое, врач-окулист — пятое, генетики— шестое и т. д. Какое из этих значений мы должны вводить в машину? Или ограничиться структурной формулой, генетическим кодом, то есть заменить слово условными знаками той или иной науки?
Но, во-первых, не для всех наук мы имеем такие знаки. Во-вторых, с помощью знаков можно описать далеко не все положения науки, которые мы выражаем средствами обычного языка. В-третьих, в большинстве областей науки и техники термины — это не просто условные словесные знаки, а все-таки слова, они связаны с другими словами языка ассоциациями, хотим мы этого или не хотим (лингвисты говорят даже об эмоциональности терминов!). Превращая слово-термин в кодовый знак, мы можем отсечь от него нечто существенное, важное.
Как же быть? Есть ли выход из сложившейся ситуации? Или непреодолимая пропасть разделяет наш язык и алгоритмический язык машин?
Информатика — наука деловая
Информационным взрывом называют иногда процесс, начавшийся в середине нашего столетия. Научно-технический прогресс — причина этого взрыва, лавинообразно нарастающего потока информации в самых различных областях науки и техники. Укротить эту лавину необходимо. Только в нашей стране трудится около миллиона научных работников; число их на земном шаре гораздо больше. И все эти миллионы людей, несмотря на их старания и желания, не могут работать с полным КПД своего мозга. Ибо не в состоянии прочитать литературу по своей специальности, выходящую в мире.
«Если бы химик, свободно владеющий 30 языками (условие невероятное), начал с 1 января 1964 г. читать все выходящие в этом году публикации, представляющие для него профессиональный интерес, и читал бы их по 40 часов в неделю со скоростью 4 публикации в час, то к 31 декабря 1964 г. он прочитал бы лишь 1/20 часть этих публикаций», — говорил академик А. Н. Несмеянов. А ведь с 1964 года число публикаций по химии из года в год увеличивалось, и сейчас наш химик-полиглот не прочел бы и одной тридцатой всей литературы по специальности.
Поток публикаций возрастает, а вместе с тем ежегодно возрастает и необходимость чтения этих публикаций. Все чаще и чаще обращаются к научным публикациям инженеры и техники. Их в мире не миллионы, а десятки миллионов. Больше века прошло со времени открытия электрического тока Гальвани до создания первой электростанции. Полстолетия потребовалось телефону, чтобы из научного открытия воплотиться в техническое изобретение. Но такие темпы характеризовали XVIII и XIX столетия. В нашем веке с момента открытия деления ядер урана до создания атомного реактора прошло лишь три года, а до запуска первой атомной электростанции — пятнадцать лет. Научные открытия используются сейчас почти моментально, если мерять время темпами прошлых лет. Зато, в отличие от прошлого, поиск нужной информации в океане книг, статей, журналов, патентов отнимает уйму времени.