KnigaRead.com/
KnigaRead.com » Компьютеры и Интернет » Базы данных » Охота на электроовец. Большая книга искусственного интеллекта - Марков Сергей Николаевич

Охота на электроовец. Большая книга искусственного интеллекта - Марков Сергей Николаевич

На нашем сайте KnigaRead.com Вы можете абсолютно бесплатно читать книгу онлайн Марков Сергей Николаевич, "Охота на электроовец. Большая книга искусственного интеллекта" бесплатно, без регистрации.
Перейти на страницу:

Именно в процессе работ над устройством для шифрования речи (к слову сказать, оно получило название «Соболь-П») Котельников и создал первый в СССР вокодер, основанный на выделении основного тона речи. Вот что писал по этому поводу сам Котельников:

Для того чтобы было труднее расшифровать передаваемую речь, было важно сделать «отрезки», на которые мы её разбивали, как можно короче. А это проблема потому, что тогда ухудшается качество передаваемой речи. Я стал думать, как бы передавать речь не всю полностью, а как-то сжать её спектр. Начал рассматривать спектр звуков, чтобы понять, какие частоты определяющие…

В это время попалась на глаза ссылка на статью Хомера Дадли, опубликованную в октябре 1940 года, где говорилось, что он сделал преобразователь речи — «вокодер». Бросился смотреть, а оказалось, что там ничего конкретного не написано. Но всё равно это было очень полезно: идея у него та же, значит, мы на правильном пути. В общем, мы начали делать свой «вокодер». И перед самой войной у нас уже работал его опытный образец. Правда, пока он ещё «говорил» плохо, «дрожащим голосом» [2349].

Развитие аналоговых систем связи привело к дальнейшему совершенствованию применяемых в них вокодеров. Преобразование речи в сигнал, устойчивый к различным типам помех и дешифровке, с последующим восстановлением по нему исходной речи — задача, имеющая большое прикладное значение, и в XX в. исследованиями в этой области занимались многие талантливые учёные, о работе которых можно было бы написать не одну сотню страниц. Но это имеет лишь косвенное отношение к истории обретения машинами собственного голоса. И новая глава в этой истории начинается с первыми опытами по синтезу речи при помощи электронных вычислительных машин.

6.4.3 Синтез речи на ЭВМ и его применение

Электронные вычислительные машины научились воспроизводить звуки ещё на заре своего существования (об этом коротко упоминалось в подглаве, посвящённой шашечной программе Кристофера Стрейчи), и первые эксперименты по компьютерному синтезу речи были начаты уже в 1950-е гг.

Первая программа синтеза на основе правил, способная синтезировать речь из фонематического представления, была, что вполне ожидаемо, создана в недрах Bell Laboratories. Её написали Джон Келли, Кэрол Лохбаум и Лу Герстман в первой половине 1960‑х гг. для компьютера IBM 704. Исследователи использовали синтезатор с тремя формантами. Хотя длительности и форма кривой F0 были скопированы из естественной речи, а также в некоторых случаях использовалась ручная коррекция вывода правил, результаты были весьма впечатляющими. Келли, Герстман и Лохбаум не только порадовали публику несколькими простыми фразами, они заставили IBM 704 зачитать монолог Гамлета («Быть или не быть?») и даже научили свою программу исполнять фрагмент песни Daisy Bell под музыкальный аккомпанемент, который генерировался другой программой.

Свидетелем этой демонстрации стал Артур Кларк, приглашённый в Bell Laboratories своим другом, инженером и фантастом Джоном Пирсом. Кларк был настолько впечатлён увиденным, что использовал машинное исполнение Daisy Bell в одной из наиболее ярких сцен своего романа и сценария фильма «2001 год: Космическая одиссея», увидевшего свет в 1968 г. Именно эту песню поёт компьютер HAL 9000 перед тем, как астронавт Дейв Боуман окончательно отключит его [2350], [2351], [2352], [2353].

Первая полноценная компьютерная система для преобразования текста в речь (text-to-speech, TTS) была продемонстрирована в 1968 г. на VI Международном конгрессе по акустике в Токио [2354], [2355], [2356], [2357]. Её создательницей была Норико Умеда из Электротехнической лаборатории (Electrotechnical Laboratory, ETL) в Японии. Созданная Умедой и её коллегами система предназначалась для синтеза английской речи и была основана на артикуляционной модели (т. е. на моделировании работы речевого тракта и артикуляционного процесса). Система включала в себя модуль синтаксического анализа текста, основанный на довольно сложных эвристиках. Спустя год Норико Умеда стала сотрудницей Bell Laboratories, где объединила усилия с инженером Сесилом Кокером и лингвистом Кэтрин Браумен для работы над первой TTS-системой Bell Laboratories. Работа системы была продемонстрирована на Международной конференции по речевым коммуникациям и обработке речи (International Conference of Speech Communication and Processing, ICSCP) в 1972 г. [2358], [2359], [2360]

В 1970-е гг. по мере удешевления и миниатюризации вычислительной техники задача компьютерного синтеза речи постепенно переходит из разряда теоретических в прикладную область. Например, появляются первые проекты систем, предназначенных для помощи незрячим и слабовидящим людям. Самый ранний из них был предпринят в начале 1970-х гг. лингвистом Игнациусом Мэттингли из Лабораторий Хаскинса. Помимо набора правил для транскрипции слов в последовательность фонем, Мэттингли использовал фонетический словарь, состоявший из 140 000 слов. Кроме того, Мэттингли стремился оптимизировать темп речи своей системы, чтобы добиться наилучшего восприятия слушателями [2361], [2362], [2363]. К сожалению, этот новаторский проект был остановлен из-за нехватки средств, и устройство, частью которого должна была стать система Мэттингли, так и не пошло в серию. В итоге первое коммерческое устройство для чтения, предназначенное для незрячих пользователей, разработала в 1975 г. компания уже знакомого нам Рэя Курцвейла — Kurzweil Computer Products (позже компания была приобретена корпорацией Xerox). Машина была оснащена оптическим сканером (для распознания напечатанного) и поступила в продажу в конце 1970‑х гг. [2364]

Подобные работы шли и в СССР. Первый русскоязычный синтезатор речи «Фонемофон‑1» был создан в начале 1970-х гг. в Минске под руководством Бориса Лобанова. «Фонемофон-1» был способен не только синтезировать русскую речь, но и читать введённый текст на нескольких иностранных языках, а также синтезировать пение. В основу работы синтезатора был положен формантный метод [2365].

Охота на электроовец. Большая книга искусственного интеллекта - image253.jpg
Рис. 138. Синтезатор речи «Фонемофон-1»

Первым серийным синтезатором речи в СССР стал цифровой «Фонемофон-4», выпуск которого был начат в середине 1980-х гг. В «Фонемофоне-5» на смену формантному методу синтеза пришёл новый, микроволновой метод синтеза речевых сигналов (при его использовании речь конструируется из элементов, являющихся отдельными периодами звуковых волн, составляющих звуковой сигнал) [2366]. Этот синтезатор до сих пор нередко используется незрячими пользователями ЭВМ, поскольку он стал частью русскоязычной версии системы JAWS (Job access with speech, Доступ к работе при помощи речи) — одного из наиболее популярных в мире средств чтения с экрана. JAWS позволяет незрячему или слабовидящему пользователю слышать текст, отображаемый на экране компьютера, либо воспринимать его при помощи дисплея Брайля.

Перейти на страницу:
Прокомментировать
Подтвердите что вы не робот:*