KnigaRead.com/

Геннадий Мирам - Профессия: переводчик

На нашем сайте KnigaRead.com Вы можете абсолютно бесплатно читать книгу онлайн Геннадий Мирам, "Профессия: переводчик" бесплатно, без регистрации.
Перейти на страницу:

языка он находит соответствие в другом языке и так слово за словом переводит текст.

Однако, как вам тоже должно быть известно, общее значение в разных языках могут иметь не только отдель­ные слова, но и словосочетания, поэтому простейший пе­реводящий автомат ищет соответствия не только для от­дельных слов, но и для словосочетаний, выполняя так на­зываемый пословно-пооборотный перевод.

Кроме того, соответствие слов разных языков друг дру­гу не является однозначным, т.е. одному слову языка А может соответствовать несколько слов языка В и наобо­рот. Следовательно, в переводящем автомате необходимо предусмотреть программу выбора правильного эквивален­та.

Такие программы обычно основываются на двух прин­ципах:

1. На принципе выбора эквивалента по синтаксической модели входного текста, чаще всего по синтаксической модели предложения. Таким образом, например, авто­мат может различить эквиваленты глагола "to book" и существительного "book" (соответственно, "резервиро­вать" и "книга").

2. На принципе выбора эквивалента по семантической мо­дели. По разным семантическим моделям автомат, на­пример, может различать такие эквиваленты слова "solution" как "решение" и "раствор". Обе модели обычно применяют в комплексе. И сами модели, и процедуры выбора эквивалентов довольно сложны. Мы кратко и в общих чертах рассмотрим их ни­же.

В некоторых более сложных системах в дополнение к этим двум принципам выбора эквивалента применяют также и принцип выбора на основе внелингвистической (фоновой) информации. Модели для выбора эквивален­тов, работающие по этому принципу, еще сложнее: их от­носят к разряду моделей искусственного интеллекта.

В зависимости от сложности выбора правильного зна-

чения слов и, соответственно, правильного переводного эквивалента модели и системы машинного перевода мож­но разделить на три уровня.

К первому, низшему уровню относятся простейшие модели пословно-пооборотного перевода, в которых вы­бор эквивалентов не производится и на выход системы перевода поступают все переводные эквиваленты, имею­щиеся в словаре.

Системы второго уровня, к которым относятся почти все так называемые "электронные переводчики", имею­щиеся на современном рынке программного обеспечения, используют ту или иную комбинацию синтаксических и семантических моделей для выбора правильного эквива­лента и преобразования структуры входного текста в структуру текста перевода.

Наконец, модели третьего уровня в дополнение к грамматике и семантике применяют для синтеза текста перевода также и фоновые знания. Надо сказать, что мо­дели и системы этого уровня до сих пор находятся на ста­дии эксперимента.

Для того чтобы яснее представить себе возможности систем разного уровня и качество перевода, которое вы можете получить с их помощью, давайте проведем анало­гию между действиями автомата и человека.

Системы низшего уровня можно сравнить с челове­ком, который, пользуясь словарем и таблицей словоизме­нения (списком правил и форм спряжения и склонения), переводит текст на совершенно незнакомом ему языке,

Система действует так же, как действуем в этом случае мы. Берет первое слово, смотрит, есть ли оно в словаре в таком виде. Если есть, выписывает все его переводы, если нет, то ищет в таблице словоизменения форму слова, об­наруженную в тексте, определяет соответствующую сло­варную форму и выписывает все переводы. Затем берет следующее слово и т.д.

В данном случае отличие от перевода, выполняемого человеком, состоит в том, что человек, делая такой перевод, отбрасывает все неподходящие переводные эквива­ленты, система же машинного перевода низшего уровня этого не делает. Вот какой, например, получается перевод короткого предложения: Lead absorbs radiation

свинец / лот / грузило / вести / руководить / лидировать / руководство / лидерство / проводник; всасывать / впи­тывать абсорбировать / амортизировать / поглощать; излучение/ радиация',

Системы второго уровня по своим действиям напоми-нают более или менее опытного переводчика, который переводит текст на совершенно непонятную ему тему. Подобно такому переводчику система сможет отбросить наиболее неподходящие эквиваленты на основе анализа синтаксиса и семантики, причем глубина и точность такого анализа у автомата будет зависеть от совершенства и пол­ноты моделей так же, как у переводчика, она зависит от полноты его профессиональных знаний.

Но так же, как переводчик, который совершенно не по­нимает содержания переводимого текста, переводящий автомат этого уровня не сможет сделать выбор экви-валентов на основе фоновой информации.

Можно, например, предположить, что такая система на сновании анализа грамматического контекста (два глаго-на подряд), переводя предложение "Lead absorbs radiation", исключит глаголы в качестве эквивалентов слова "lead". To есть получит на выходе промежуточный текст: свинец / лот / грузило / руководство / лидерство / про­водник; всасывать / впитывать абсорбировать / аморти­зировать / поглощать; излучение/ радиация. Можно также предположить, что на основе элементар-ного анализа семантики субъекта "lead" и предиката "ab­sorbs" и семантических отношений между ними переводя­щий автомат исключит эквиваленты "руководство" и "ли­дерство", т.е. получит на выходе:

свинец / лот / грузило / проводник; всасывать / впиты­вать / абсорбировать / амортизировать / поглощать; из­лучение /радиация.

После грамматического согласования перевод этого предложения, сделанный системой второго уровня, будет выглядеть приблизительно так:

свинец (лот / грузило / проводник) всасывает (впитывает / абсорбирует / амортизирует / поглощает) излучение (радиацию).

А вот сделать выбор между словами "свинец", "лот", "грузило" и "проводник", между эквивалентами "всасы­вает", "впитывает", "абсорбирует", "амортизирует", "погло­щает", а также между частичными синонимами "излуче­ние" и "радиация" переводящий автомат этого уровня не сможет, так как такой выбор можно сделать лишь на осно­ве фоновых (т.е. специальных) знаний.

Выше я написал, что перевод, выполненный синтакти-ко-семантической системой машинного перевода будет иметь приблизительно такой-то и такой-то вид. И это пра­вильно, так как приведенный здесь пример относится к конкретному случаю перевода, выполненного определен­ной системой, точнее системой, которую я сам разработал и знаю, что от нее можно ожидать36.

Не исключено, что другие, более совершенные системы смогут провести более тонкий синтактико-семантический анализ и отбросить некоторые неподходящие эквивален­ты. Не это важно.

Важно здесь то, что выполнить качественный перевод без использования фоновых знаний невозможно, а систе­мы второго уровня фоновую информацию использовать не могут.

Системы третьего, высшего уровня можно сравнить с переводчиком-профессионалом, знающим тематику переводимого текста.

Системы третьего уровня используют модели синтакси­ческого и семантического анализа и синтеза, а также (что их и отличает) концептуальные модели окружающего ми­ра. К сожалению, как уже говорилось, они существуют лишь на стадии эксперимента.

Таким образом, рынок коммерческих программных продуктов для автоматического перевода предлагает пока что лишь системы второго уровня. Давайте рас­смотрим более подробно, как они работают и как их мо­жет применить в своей работе переводчик.

Очевидно, что основой любой системы машинного пе­ревода является автоматический словарь, и коммерческие системы второго уровня не являются исключением.

Как правило, все эти системы снабжены большими сло­варями, а в некоторых из них имеется очень важная, на мой взгляд, функция пополнения словарей новой лекси­кой.

Автоматический словарь системы машинного перевода - это программный модуль, который выполняет следую­щие функции:

а) распознает во входном тексте символьные цепочки слов и словосочетаний, например, символьная строка пред­ложения LEAD*ABSORBS*RADIATION.(* - пробел) бу­дет разделена на цепочки словоформ LEAD, ABSORBS и RADIATION;

6) преобразует текстовые словоформы в словарный вид, например, словоформу ABSORBS в вид ABSORB;

в) по графемному составу слова регистрирует грамматиче­скую информацию о слове, например, флексию S в слове ABSORBS, которая может быть признаком третьего лица глагола или множественного числа существительного, или суффикс -TION в слове RADIATION, который мо­жет служить формальным признаком отглагольного существительного;

Перейти на страницу:
Прокомментировать
Подтвердите что вы не робот:*