Александр Кондратов - Звуки и знаки
Проанализировав скорость изменения нескольких языков и языковых семей, Свадеш нашел, что она равна примерно восьмидесяти двум плюс-минус два процента за тысячелетие. То есть в языке за тысячу лет сохраняется около восьмидесяти процентов слов, входящих в ядро, в основную лексику языка…
Так ли это? Свадеш проанализировал древнеегипетский, китайский, романские языки. Если ход лингвистических часов объективен, как часов радиоуглеродных, то, стало быть, близкие результаты можно получить и на материале любых других языков мира. Однако когда ученые стали проверять эту «среднюю константу скорости», взяв другие языковые семьи, оказалось, что она не является всеобщей.
Вот несколько примеров. По мнению археологов и лингвистов, единый праславянский язык стал распадаться в конце VI века до н. э. Однако подсчеты, проведенные по методу Свадеша, дали совсем иную дату. Русский и чешский языки, оказывается, разошлись четыреста-пятьсот лет назад, чешский и польский — двести-четыреста лет назад. Всякому, кто хоть немного знает историю своей страны и братских славянских народов, ясно, что эти числа смехотворно малы (более тысячи лет назад чехи имели и свою государственность, и свое письмо, и свой язык!).
Поразительно неубедительную дату получили по методу лингвистических часов, когда сравнили два скандинавских языка — старонорвежский и исландский, чтобы определить время их расхождения. Известно, что к 930 году завершилось заселение Исландии, в основном выходцами из Норвегии. Между тем лингвистические часы показали не тысячу и даже не полтысячи лет, а всего шестьдесят три — сто девяносто четыре года. На самом деле уже в прошлом тысячелетии исландцы имели и свой язык и свою литературу.
Правда, неточность хода лингвистических часов в этом случае можно оправдать той уникальной консервативностью исландского языка, о которой мы уже говорили выше… Ну, а славянские языки? Или, как показали исследования востоковедов, скорость изменения армянского языка, языков Средней Азии и ряда других, не соответствующая формуле Свадеша? Под вопрос стал сам метод датирования с помощью словаря, динамики изменения слов, его составляющих. Или, быть может, дело не в самом методе, а в лексике, тех словах, которые мы берем за эталон?
Свадеш составил список из двухсот пятнадцати слов, потом сократил его до сотни. Но почему, собственно говоря, до ста? А может быть, надо расширить этот список до пятисот? Проверка показала, что разные слова имеют разную устойчивость. Русский язык — индоевропейский, числительное три звучит в нем так же, как звучало оно в языке древних хеттов, как звучит оно в священном языке Индии — санскрите, сходным образом звучит оно и в английском, немецком и других индоевропейских языках. А вот понятие «мальчик» меняло свой словесный ярлык по нескольку раз чуть ли не в истории каждого языка. В древней Руси говорили отрок, а потомки древнерусского языка — русский, украинский и белорусский — сменили это слово. Русские вместо отрока говорят мальчик, а украинцы и белорусы — хлопчик.
Вот почему современные лингвисты начинают проверять слова на их устойчивость в языке, степень сохранения того или иного слова в зависимости от понятия, которое оно обозначает. Более того, оказывается, что есть связь между частотой употребления слова и временем его возникновения в языке. Не так давно в нашей стране вышла книга «Математические методы в исторической лингвистике», авторы которой М. В. Арапов и М. М. Херц предложили математическую модель лингвистических часов, где работы Свадеша оказываются лишь частным случаем более общего метода.
По сравнению с методом Свадеша, «шаг вперед состоит здесь в том, что нет более необходимости требовать, чтобы скорость изменения словаря всегда была постоянной и им, ела одинаковое значение для различных языков, — пишут Арапов и Херц. — Таким образом, вместо списка слов, выражающих фиксированные, тщательно выбранные понятия, можно было бы взять случайно выбранный фрагмент словаря и проверять, имеют ли слова из него соответствия в родственном языке».
Формулы, найденные советскими учеными, показывают, что случайная выборка из словаря распадается точив так же, как и весь словарь. А это значит, что такая случайная выборка подходит для целей датирования не меньше, чем отобранная сложным методом сотня-другая слов. Иными словами, механизм лингвистических часов оказался и более прост, и более сложен, чем это представлялось его первооткрывателю Морису Свадешу.
Впрочем, такую простоту и одновременно сложность мы находим всякий раз, когда начинаем изучать язык с помощью статистики. Числа помогают лингвистам исследовать язык во всех его измерениях, начиная со слов и кончая субъективными ассоциациями, связанными со словами. Но за числами стоят, очевидно, какие-то закономерности, определяющие статистику.
Нельзя ли увидеть за фактами формулы? Вскрыть с помощью математики механизмы языка, порождающие все многообразие нашей речи?
От фактов к формулам
Статистические данные отражают в числах рост, убывание или стабильность различных элементов языка. Но они не вскрывают механизм процесса, его динамику. Вот почему в настоящее время языковеды, имея дело с числами, стараются строить на их основании математические модели, которые не только отражают динамику, но и позволяют делать прогнозы на будущее и «заглядывать» в прошлое, о котором нет достоверных данных. Вот несколько подобного рода моделей, предложенных ленинградскими лингвистами А. А. Пиотровской и Р. Г. Пиотровским.
В русских научных и электротехнических текстах XIX века слова типа вольт, рентген, радиан во множественном числе родительного падежа писались так: вольтов, рентгенов и т. п. Однако, как показала Л. К. Граудина, начиная с- конца восьмидесятых годов прошлого века, все чаще стали употребляться написания вольт, рентген, совпадающие с именительным падежом единственного числа. Спустя два-три десятилетия эти формы утвердились не только в профессиональной речи, но и в литературном языке. В итоге появилась новая группа имен существительных, которая в родительном падеже множественного числа имеет нулевое окончание: мы говорим и пишем: тысяча вольт, пять рентген, а не вольтов или рентгенов.
Числовые данные, характеризующие динамику этого процесса, можно свести в таблицу (например, если в 1885 году написание типа вольт встречалось один раз на сотню, то в 1908 году — уже девяносто девять раз).
Данные таблицы были перенесены на график, где по оси абсцисс отмечались годы, а по оси ординат — частоты форм с нулевым окончанием. «Полученная последовательность экспериментальных точек показывает резкое возрастание нулевых форм в период между 1886 и 1905 гг. Возникает вопрос, какой из функций можно воспользоваться для описания полученной зависимости? — пишут Пиотровские. — Линейная зависимость здесь применена быть не может, поскольку значения функции находятся в интервале от — со до + со, в то время как по условиям задачи область изменения нашей функции лежит в интервале между нулем и единицей (относительные частоты не могут быть меньше нуля и больше единицы)». Рост нулевых форм лучше всего моделирует график обратной тригонометрической функции f = arctg t, где f — частота нулевых форм, а t — годы.
Пример этот имеет иллюстративный характер — все числовые данные у нас были. Однако часто лингвисты имеют дело с отрывочными сведениями, неполными материалами по диалекту, эпохе или стилю того или иного языка. Здесь математическая модель помогает восстановить не засвидетельствованные в дошедших до нас памятниках этапы развития языка. Так, А. А. Пиотровская и Р. Г. Пиотровский выводят формулу, по которой можно вычислить динамику формирования и развития в старофранцузском языке определенного артикля (формирование это шло в народно-разговорной речи, которая почти не отражена в дошедших до нас памятниках той эпохи).
Зависимость между объемом текста, который подвергается обработке, и числом разных слов, которые в нем окажутся, очевидна. Нельзя ли отыскать математически строгую формулу, по которой можно было бы, исходя из объема текста, вычислять количество слов? И определять, какой объем даст нам статистически достоверные результаты?
Первым найти такую формулу словаря попытался уже упоминавшийся нами Дж. Ципф. Связь между частотой употребления слова и его рангом, то есть номером в списке, получила наименование «закон Ципфа». Частотные словари представляют собой обычно списки слов, которые расположены по их рангу: первым идет слово, которое встречается чаще всего, затем второе по встречаемости и т. д. Однако выяснилось, что «закон Ципфа» не универсален. Были попытки описать распределение слов в тексте с помощью специальных формул теории вероятностей — так называемого нормального распределения, распределения Пуассона, распределения Маркова— Колмогорова и т. д. (причем, как показала советская исследовательница М. Е. Каширина, распределение Маркова — Колмогорова является наиболее общим и универсальным для распределения любых языковых единиц).