Александр Кондратов - Звуки и знаки
«В этом диалоге, казалось бы, нет ничего удивительного, — пишет профессор Р. Г. Пиотровский, руководитель группы «Статистика речи». — Именно таким образом сотни референтов-переводчиков ведут беседу со своими заказчиками. Однако приведенный текст представляет собой человеко-машинный диалог, в котором вопросы формулировал человек, а ответы на правильном русском языке без всякой подсказки выдавала машина. Учителями компьютера были языковеды, химики и математики из лаборатории инженерной лингвистики Ленинградского педагогического института имени А. И. Герцена и Кишиневского политехнического института».
Лишь совсем недавно человеческий мозг создал «мозг» электронный, вычислительные машины. На первых порах диалог человека с ЭВМ казался фантастикой. Затем настала пора радужных надежд и горьких разочарований. Но работа продолжается, продолжаются поиски подходов и методов, с помощью которых вычислительные машины включатся в человеческое общество и «электронный мозг» станет не просто чудо-счетчиком, по и надежным и верным помощником в тысяче других дел. Путь к этому — обучить машины человеческому языку.
Диалог человека и робота только-только начинается! Мы же закончим наш рассказ о МП — машинном переводе, о поисках ЯП — языка-посредника и о создании ИЯ — информационных языков словами Норберта Винера, которого называют «отцом кибернетики»: «Отдайте же человеку — человеческое, а вычислительной машине— машинное. В этом и должна, по-видимому, заключаться разумная линия поведения при организации совместных действий людей и машин. Линия эта в равной мере далека и от устремлений машинопоклонников, и от воззрений тех, кто во всяком использовании механических помощников в умственной деятельности усматривает кощунство и принижение человека».
В ПОИСКАХ ЗНАЧЕНИЯ
Передача смысла, значения — вот цель нашего общения, главная задача человеческого языка и, стало быть, главная задача науки об этом языке. Можно ли описывать это значение на языке точных формул и чисел?
О том, как математическая лингвистика штурмует «святая святых» языка, расскажет очерк
В ПОИСКАХ ЗНАЧЕНИЯ
Путь к семантике
Не так давно в сектор структурной и прикладной лингвистики Института языкознания Академии наук пришел человек с рюкзаком. В рюкзаке лежали словари: индонезийского, английского, русского, древнегреческого и других языков.
Человек с рюкзаком объявил: он сделал важное открытие. Чтобы определить степень развитости того или иного языка, надо мерять слова. В буквальном смысле мерять — линейкою. Оказывается, древнегреческие слова на пять миллиметров длиннее индонезийских. Стало быть, и сам язык эллинов более развит…
Конечно, это курьез. Но еще каких-нибудь два десятка лет назад даже у многих серьезных ученых представление о математической лингвистике принципиально не отличалось от представлений человека с рюкзаком. Помните, как великий комбинатор Остап Бендер, продавая астролябию, напутствовал покупателя словами: «Сама меряет — было бы что мерять». Математической лингвистике отводилась такая же роль: с ее помощью, дескать, все можно в языке измерить, были бы языки!
Но сам термин «математическая лингвистика» не совсем точен. «Нельзя сравнивать термин «математическая лингвистика» с аналогичным термином «математическая физика», — писал профессор Р. Л. Добрушин в годы, когда математическая лингвистика делала свои первые шаги. — Математическая физика — это особый раздел математики, нацеленный на специфические физические приложения; по своим методам он не менее сложен, чем любой другой раздел математики. В лингвистике же речь должна идти о первых шагах применения математики».
В пионерских работах применялся традиционный аппарат теории вероятностей и теории множеств, математической статистики и теории информации. Однако в наши дни начинается создание и своего особого математического аппарата для лингвистики, подобно тому, как он был создан для экономики с ее линейным и динамическим программированием, теорий игр и теорий массового обслуживания. Особые лингвистические проблемы привели к тому, что в математике родилась совершенно новая область — теория формальных грамматик.
В предыдущем очерке мы упоминали теорию нечетких множеств. Она также была создана математиками для решения задач лингвистики. Позже выяснилось, что аппарат этой теории имеет самые различные применения, вплоть до метеорологии. Сейчас теория нечетких множеств — одна из самых перспективных и бурно развивающихся отраслей современной математики (в нашей стране в издательстве «Знание» вышла брошюра основателя этой теории, Л. Заде, «Основы нового подхода к анализу сложных систем и процессов принятия решений» и его же монография «Понятие лингвистической переменной и ее применение к принятию приближенных решений» в издательстве «Физматгиз»).
Когда ученые попробовали применить к языку и его правилам строгие и однозначные алгоритмы, выяснилось, что они слишком просты и грубы. Теперь математики разрабатывают так называемые нечеткие алгоритмы, опираясь на теорию нечетких множеств. Образцом такого алгоритма может быть поведение слепого, когда он приближается к цели, постепенно уменьшая свои шаги…
Таким образом, в современной лингвистике наряду с традиционным аппаратом математики есть и свои специальные средства. Они применяются для описания диалектов и изменения языка во времени, для грамматики и лексики. Но при всем многообразии идей и направлений, поисков и перспектив можно увидеть общую тенденцию, которая отличает их от более ранних исследований. Тенденцию эту можно охарактеризовать словами, вынесенными в заголовок: поиски значения. Поиски путей, позволяющих проникнуть в сокровенные глубины языка, а вместе с тем — и вообще человеческого мышления, неотторжимого от языка.
На первом этапе развития математической лингвистики ученые принципиально отказывались от анализа смысла, от содержательной интерпретации высказываний, слова и т. д. Их интересовала система «языка вообще», система конкретных языков, абстрактные формулы грамматики, приложимые к этим языкам, структура языка «икс» нерасшифрованного текста, ритмическая «сетка» правил стихосложения.
Пионерская работа такого плана была сделана… около двух с половиной тысяч лет назад. Тогда великий индийский ученый Панини дал блестящий образец строго формализованного описания санскрита. С появлением быстродействующих электронных вычислительных машин как из рога изобилия посыпались работы, где давались в терминах математики формализованные описания структур различных языков. Однако вскоре стало ясно, что описание грамматики языка или его частотных характеристик, несмотря на всю свою математическую точность, недостаточно еще для решения не только основных задач языкознания, но и для решения частных и даже сугубо практических задач.
Например, для машинного перевода и автоматического реферирования текста необходимо обращаться к смыслу, к значению (вспомните язык смысловых множителей в очерке МП, ЯП, ИЯ). Для расшифровки древних текстов — таких, как кохау ронго-ронго острова Пасхи, где грамматические показатели отсутствуют почти полностью, — методы позиционной статистики, опирающейся на выявление грамматики языка «икс», непригодны. Мало чем полезна позиционная статистика и при анализе ритмики стиха, при котором неизбежно следует обращение к значению, к интерпретации того или иного «звукообраза», создаваемого этим ритмом.
Профессор Роман Осипович Якобсон привел такое красочное сравнение во время своей лекции в Московском институте иностранных языков имени Мориса Тореза. В лингвистике, игнорируя значение, мы даем формализованное описание языка, подобное тому, какое дает человек, описывая поведение курицы, предварительно отрубив ей голову. Описание это будет точным и непротиворечивым… Но разве из этого следует, что оно описывает поведение курицы с головой во всех его аспектах?
Отсюда, конечно, не следует, что математическая лингвистика — тупиковый путь, что ее итогом будет не кибернетическая формализация, а пустой формализм. Нет, в наши дни от формализации чисто «внешнего» в языке лингвистика переходит к формализации «внутреннего», от грамматики переходит к семантике, к анализу смысла.
«Куздра», «бокр», «бокренок», «глокая»
Различие между ранним и нынешним этапами математической лингвистики очень хорошо показывает такой пример. Академик Л. В. Щерба давал своим ученикам для анализа, казалось бы, заумную фразу: глокая куздра штеко будланула бокра и кудрячит бокренка.
Ни в каком словаре русского языка вы не отыщете всех этих слов, хотя грамматическое оформление фразы русское (Щербе принадлежит крылатый афоризм для изучающих иностранные языки: «Лексика — дура, грамматика — молодец!», перефраз суворовского афоризма о пуле и штыке).