Охота на электроовец. Большая книга искусственного интеллекта - Марков Сергей Николаевич
Устройство Арцруни демонстрировалось на Парижской универсальной выставке 1937 г., где получило награду (diplôme de grand prix) секции обработки данных (mécanographie). Представители ряда государственных организаций были весьма впечатлены демонстрацией и заключили предварительные контракты с изобретателем на разработку прототипов различных систем, основанных на изобретённой Арцруни системе механической памяти. Французская почта заинтересовалась созданием машины для учёта почтовых чеков, железнодорожные чиновники хотели получить машину для печати билетов в различные пункты назначения, а Министерство обороны нуждалось в системе регистрации и учёта военнопленных. Конец всем этим планам был положен оккупацией Франции нацистами в 1940 г.
Смирнов-Троянский до конца жизни продолжал работать над своей концепцией автоматического перевода, стремясь доказать скептикам, что, хотя его устройство и не может выполнять переводы, сравнимые по качеству с результатами труда профессиональных переводчиков, оно всё же способно существенно сократить трудозатраты на процесс перевода. Он выпустил ещё несколько статей, посвящённых более детальной проработке концепции машинного перевода, а также полемике со своими критиками, однако его исследования до второй половины 1950-х годов были известны лишь чрезвычайно узкому кругу специалистов. Интерес к его исследованиям проснулся лишь тогда, когда были осуществлены первые эксперименты по машинному переводу с применением ЭВМ. В 1959 г. Академия наук СССР опубликовала обширное собрание сочинений Смирнова-Троянского. Однако самому изобретателю не суждено было дожить до признания своих идей [2030].
6.3.2.2 Использование ЭВМ и формулирование теории машинного перевода
Задачу использования ЭВМ для перевода текстов с одних естественных языков на другие впервые в явном виде сформулировали в конце 1940-х годов директор отделения естественных наук фонда Рокфеллера Уоррен Уивер (уже знакомый нам по истории создания «Бюллетеня математической биофизики» Рашевского) и британский исследователь из Биркбек-колледжа (Университет Лондона) Эндрю Бут.
С марта 1947 г. Уивер вступил в переписку с Норбертом Винером, интересуясь мнением того о перспективах машинного перевода. Винер, впрочем, проявил некоторый скепсис, поскольку считал преждевременным изучение данной задачи. В одном из писем к Винеру Уивер предложил в качестве чернового решения использовать словарь биграмм (напомним, что биграмма — серия из двух слов, встречающихся в тексте последовательно). При 2000 слов в словаре список биграмм включал бы в себя 4 млн элементов, что не выглядело таким уж большим числом для компьютера того времени.
Уивер, занимавшийся во время Второй мировой войны проблемами, связанными с криптографией, считал, что задача машинного перевода по своей сути близка к задаче дешифровки. «Когда я вижу текст на русском языке, я говорю себе, что на самом деле он написан по-английски и зашифрован при помощи странных знаков. Мне надо просто его расшифровать», — писал он в письме Винеру.
Проблема перевода в те годы действительно была тесно переплетена с задачами криптографии. Здесь сразу же вспоминается история «говорящих с ветром» — индейцев навахо, служивших радистами-шифровальщиками в американской армии. Использование редкого и сложного языка при передаче сообщений серьёзно затрудняло их расшифровку. Сама идея использовать индейские языки для пересылки сообщений была испытана ещё во время Первой мировой, тогда в американской армии радистами служили восемь представителей народа чокто. В рассказе писателя-фронтовика Николая Богданова «Дружба» [2031] описано, как советские солдаты применили для фронтовой радиопередачи казахский язык. Наверняка можно найти ещё немало подобных примеров.
Машины могут с лёгкостью анализировать обширные наборы текстов, подсчитывая частоты отдельных элементов текста и их сочетаний. Они могут запоминать, в каком контексте встречаются различные элементы текста. Эти же приёмы, применяемые в ходе дешифровки сообщений, по мнению Уивера, могли оказаться полезными и в решении задачи автоматического перевода.
Хотя Уиверу и не удалось заинтересовать Винера, идея была воспринята всерьёз другим исследователем. 12 февраля 1948 г. появился меморандум, написанный профессором Эндрю Бутом, занимавшимся проектированием вычислительных машин. Бут писал: «Итоговый пример возможного применения электронного компьютера — перевод с одного языка на другой. Мы довольно подробно проанализировали эту задачу, и выяснилось, что машина такого типа может выполнять эту функцию без каких-либо изменений в её конструкции».
В мае 1948 г. Уивер навестил Бута в его компьютерной лаборатории и узнал, что Бут и его коллега доктор Ричард Риченс, заместитель директора Бюро селекции растений и генетики, проявляли большой интерес к проблеме машинного перевода. На тот момент они ещё не задумывались над проблемами, связанными с порядком следования слов, их множественными значениями, наличием идиом и так далее, а были сосредоточены на проблеме автоматизации словарного поиска. Впрочем, алгоритм, предлагавшийся Бутом и Риченсом, был чуть более сложным, чем простой поиск точных совпадений слов. Если слово отсутствовало в словаре, он отбрасывал его последнюю букву и повторял попытку поиска. Эта операция повторялась снова и снова до тех пор, пока слово наконец не было найдено. После этого алгоритм проверял наличие отброшенного окончания в специальном «грамматическом приложении» словаря [2032] (этот метод хорошо подходит для английского языка, в котором словообразование часто происходит за счёт добавления разнообразных суффиксов: -ing, -ness, -en, а также других; впрочем, и в русском языке можно найти подобные примеры — например, слово «столик» образовано с помощью добавления суффикса «-ик»).
Конечно, такие простые методы не могли обеспечить решение столь сложной проблемы, как профессиональный перевод текста с одного языка на другой. Выбор правильного значения слова при переводе сильно зависит от контекста, а также от наличия у переводчика знаний об окружающем мире. В противном случае могут возникнуть ситуации, подобные знаменитой байке о том, как в результате машинного перевода на русский язык и обратно библейская фраза The spirit is willing but the flesh is weak [Дух бодр, плоть же немощна] превратилась в The vodka is good but the meat is rotten [Водка хороша, но мясо гнилое] [2033], [2034].

Впрочем, дело было не только в ограниченности возможностей ранних ЭВМ, но и в том, что задача перевода в ряде случаев крайне сложна и по сути неразрешима даже для человека. Знаменитому писателю и поэту, классику поэзии на иврите Хаиму Бялику приписывают следующую цитату: «Изучение через перевод похоже на поцелуй невесты сквозь платок» (ללמד תרגום זה כמו לנשק את הכלה דרך צעיף). Сложность задачи видна даже в этом, на первый взгляд простом изречении, приведённом в критической статье [2035] Макса Зельднера в New York Herald Tribune от 26 июня 1949 г. Слово צעיף в английском переводе превратилось в veil (вуаль), я же использовал в русском переводе слово «платок». Но у этого слова есть и другие значения: шарф, пелена, чадра, шаль, кашне. Что именно имел в виду автор и имеет ли данный предмет прямой аналог в нашем обиходе? В качестве перевода дляהכלה Зельднер выбирает слово sweetheart (возлюбленная). Хотя слово «невеста» в данном случае по значению куда ближе к оригиналу, однако его действительный смысл привязан к особенностям брачного обряда, который имеет ряд отличий у разных народов.