Василий Захарченко - Разговор с электрическим мозгом
В нашей стране насчитывается более 100 народов. Самые многочисленные из них русские - 120 миллионов, украинцы - около 39 миллионов, белорусы - 8 миллионов.
Но языков и диалектов в мире гораздо больше... Даже в такой маленькой республике, как Дагестан, служившей на протяжении многих тысячелетий своеобразным коридором, проходящим через перешеек между Черным и Каспийским морями, отложилось ни много ни мало - свыше 60 языков, непохожих друг на друга.
Поэтому на земле насчитывается около 6000 языков.
Но среди великого множества можно выделить 13 "великих" языков. Владея этими языками, практически можно общаться со всеми людьми земного шара.
Язык состоит из слов, слова несут понятия. В сатирическом романе Ильфа и Петрова существует персонаж - людоедка Эллочка, которая объяснялась при помощи двух десятков слов, не больше. Высмеивая эту недалекую девицу, талантливые писатели почти лишили бедняжку языка, а вот Шекспир изъяснялся с читателями, используя 24000 слов!
Современные математические исследования языка приводят нас к поразительным результатам, которых мы никогда в жизни не получили бы, если бы на помощь анализу не пришли машины. Они проанализировали различные языки - частоту употребления слов, характерное построение фразы. Именно машины дают нам сегодня возможность создать очень интересную статистику использования языка.
Американский ученый А. Уэст долго исследовал английский "словарь говорения". Вот его выводы: оказывается, для примитивного пересказа основной сюжетной линии анекдота нужно всего лишь 450 слов.
Как видите, это все же значительно обгоняет возможности людоедки Эллочки!
Для подробного пересказа любой сказки нужно не меньше 750 слов. Приключенческий роман требует не менее 1400 слов, а для пересказа любого произведения художественной литературы необходимо уже 3000 слов.
Сколько же практически нужно слов для общения людей между собой?
Я невольно вспоминаю увлекательный рассказ Акселя Ивановича Берга на тему словарного баланса.
"Я плавал в 1916-1917 годах на английской подводной лодке "Е-8" - одной из прорвавшихся сквозь немецкий заслон в Балтийское море,- рассказывает академик,- На каждую подлодку назначали для связи одного русского офицера, хорошо знавшего английский язык,- я и попал в число таковых.
Неожиданно выяснилось, что на лодке английского языка не существовало пять офицеров и 50 матросов, набранных из различных портов и провинций Англии, Шотландии и Ирландии, с трудом понимали друг друга, объясняясь на каком-то чудовищном жаргоне. Но, как ни странно, на сложнейшем подводном корабле все обходилось благополучно. А ведь мы пользовались словарным запасом в каких-то 200 слов. Из них несколько десятков были команды, а остальные морской жаргон - короче, довольно остроумные и научно обоснованные морские ругательства, принятые во всем подводном экипаже Британского королевского флота".
Конечно, рассказ этот анекдотичен. В обыденной жизни все обстоит сложнее. Вот данные психологов.
Ребенок использует практически 3600 слов, подросток в 14 лет уже 9000 слов. Чго же касается взрослого человека, то см употребляет свыше 11 000 слов. А человек повышенного интеллекта имеет в своем запасе до 13500 слов. Это уже неплохо! Однако это еще очень далеко до полного использования словесного богатства, созданного человеческой культурой.
В языке есть слова, которые употребляются чаще и реже. С помощью кибернетических машин произвели и этот анализ.
Через машину, как говорится, прогнали огромное количество разнообразных текстов. Машина автоматически подсчитала, какой объем занимают самые употребительные слова на различных языках. Выяснилось, что в английском языке 75 процентов текста занимают 736 самых употребительных слое. А что это значит? Вы изучили 736 слов, и, следовательно, три четверти текста вам уже будет понятно.
Увеличим запас слов до 1000. Что мы получим? 80,5 процента английского, 83,5 процента французского и 81 процент испанского текста. То есть знание 1000 слов дает вам возможность полностью ориентироваться в чужом языке.
Увеличим еще наш словесный багаж - до 2000 слов. Тогда они соответственно составят в английском языке 86 процентов, при 3000 слое - 90 процентов, при 5000 слов - 93,5 процента. А что это значит? Зная 5000 слов, вы сможете свободно читать текст на английском языке, потому что лишь 19 слов из 300 будут вам незнакомы.
Но здесь обнаруживается поразительное явление.
Вы изучили 10000 слов, а процент знания текста возрастает только до 96,4 процента. Сколько труда, сколько зубрежки, и только для того, чтобы выиграть каких-то 2,9 процента!
Это исследование очень интересно, особенно для тех, кто собирается изучать иностранные языки. Но в данном случае мы говорим о словарном составе обычного текста. Язык же писателя - это область, в которой он применяется в еще более разнообразных нюансах.
Вот почему первый, к кому мы обращаемся с математическим анализом языковых особенностей,- наш великий поэт А. С. Пушкин. Машинами было подсчитано, что полное Собрание сочинений Пушкина составляет приблизительно 600 тысяч разных, неоднократно повторяющихся слов. Из этой массы 21 200 слов совершенно различны. Каким огромным словарным резервом владеет поэт! Свыше 100 раз употребляется всего 720 слов, а один раз на все 600 тысяч слов встречается 6440 слов, 2 раза - 2830 слов, 3 раза - 1800 слов.
Разве этот анализ не является поразительным математическим доказательством бесценного богатства языка и умения пользоваться этим языком, чтобы передать читателю "поэтическую информацию".
Могут сказать: да, но ведь это Пушкин! А как обстоит дело у других писателей?
В нашем распоряжении имеются некоторые данные. В "Божественной комедии" Данте 5860 слов, в произведениях древнего римского поэта Горация - 6084 слова, в стихах Гомера - около 9000 слов. Мы уже упоминали, что у Шекспира, по разным источникам, количество употребляемых слов колеблется от 15000 до 24000. Но приборы современных кибернетических машин проверяют особенности писателей и по другим направлениям.
Какова, например, емкость фразы писателя? Среднее число слов во фразах произведения Алексея Толстого "Сестры" равно 11,9, в "Поединке" Куприна -9,5.
Машины помогают составлению так называемого частотного словаря. Это словари, которые представляют собою список, начинающийся с самых часто встречающихся слов до слов, которые встречаются исключительно редко. Английский частотный словарь включает в себя 30 000 слов. Он начинается со слов, которые встречались всего лишь 4 раза. Были составлены словари: испанский язык -400 000 слов, чешский - 1 200 000 слов, польский -7 000 000 слов, французский -1 500 000 слов, немецкий -11 000 000.
Хочется еще сказать об анализе языка с точки зрения его заимствования у других народов. Машины подсчитали, что в албанском языке из 5140 слов только 430 являются собственными. В армянском языке из 1500 слов 1140 заимствованы из персидского, греческого, парфянского, сирийского, арабского и других восточных языков. Можно оказать, что этот язык вобрал в себя все особенности восточных языков.
Но ведь этот процесс касается и таких языков, как английский. В нем от 55 до 70 процентов всех слов заимствованы из французского языка, латыни и других романских языков.
Эти цифры мы привели не для того, чтобы обидеть людей, говорящих на своем родном языке, невольно обвинив их в заимствовании. Мы отлично понимаем, что каждый язык складывался в соответствии с историческими условиями. Однако вернемся к анализу языковых особенностей. Слова состоят из букв. Как же употребляются отдельные буквы в словах? На кибернетической машине провели анализ произведений целого ряда советских писателей, таких, как Гайдар, Паустовский, Горбатов, с общим количеством 88000 звуков русской речи. Оказалось, что на каждые 100 букв текста приходится девять "О", шесть "А", столько же "И", пять "Н". Что же касается таких редких букв, как "Ю",на каждые 100 букв она встречается 0,6 раза.
Анализ слогов показал, что в русском языке в слове в среднем 2,2 слога. Слова же, состоящие из 5 слогов, чрезвычайно редки - их всего 3,5 процента.
Читатель спросит: почему же, интересуясь кибернетикой и мозгом человека, мы так много места уделяем проблеме словообразования? А все дело заключается в том, что именно этот анализ и дает нам возможность вплотную подойти к пониманию того, что такое язык машин, как машина в состоянии переводить текст с одного языка на другой.
Когда-то, лет 100 назад, во всем м"ире выходило не более 1000 научных журналов, теперь их выходит свыше 100 тысяч. Если бы, например, химик 40 часов в неделю тратил на то, чтобы со скоростью четырех статей в час читать все, что публикуется з современной прессе, он за целый год не прочитал бы и десятой доли того, что ему следовало бы прочитать. Это приводит нас к прямой необходимости использования машин. Современная наука должна перерабатывать колоссальнейшее количество информации. Например, в Библиотеке имени Ленина сейчас хранится около 21 000 000 книг, к концу века их будет свыше 100000000. В нашей страна 400000 библиотек, в которых насчитывается полтора миллиарда книг.