KnigaRead.com/
KnigaRead.com » Компьютеры и Интернет » Базы данных » Охота на электроовец. Большая книга искусственного интеллекта - Марков Сергей Николаевич

Охота на электроовец. Большая книга искусственного интеллекта - Марков Сергей Николаевич

На нашем сайте KnigaRead.com Вы можете абсолютно бесплатно читать книгу онлайн Марков Сергей Николаевич, "Охота на электроовец. Большая книга искусственного интеллекта" бесплатно, без регистрации.
Перейти на страницу:

Почему природа «изобрела» столь странное приспособление? Неужели недостаточно было простого измерителя звукового давления, преобразующего звук в последовательность электрических импульсов разного напряжения? Дело в том, что звуки, с которыми живое существо обычно сталкивается в реальном мире, представляют собой в большинстве случаев продукт одновременного протекания нескольких элементарных колебательных процессов, каждый из которых обладает некоторой частотой. Если вы потянете, а затем отпустите зажатую на пятом ладу нижнюю струну семиструнной гитары, настроенной стандартным гитарным строем, то струна начнёт колебаться с частотой 440 Гц (раз в секунду). Свои колебания струна будет передавать корпусу гитары, а тот — окружающему гитару воздуху, в котором начнут распространяться звуковые волны, причём расстояние между пиками этих волн будет соответствовать расстоянию, которое звук преодолевает за 1/440 часть секунды (примерно 0,75 м). Вокализации, производимые людьми, основаны на аналогичном процессе, только колеблются в данном случае не струны, а голосовые связки человека. Вот почему довольно практично обладать звуковым анализатором, способным раскладывать комплексный звуковой сигнал на множество элементарных. Такое разложение называют спектром сигнала. В «Тобермори» за него отвечали аудиофильтры, во внутреннем ухе за него ответственны волосковые клетки, а в цифровых системах за него обычно отвечает быстрое преобразование Фурье [Fast Fourier transform] [1894].

После применения к сигналу преобразования Фурье и разложения его на колебания с разными частотами становится возможным построить специальное изображение для сигнала, называемое спектрограммой. Она строится следующим образом: по оси x обозначается время, по оси y — диапазон частот, а амплитуда колебания на частоте h в момент времени t (при этом разложению на частоты подвергается не весь сигнал, а только его часть, находящаяся в пределах некоторого временно́го окна с центром в момент времени t) передаётся при помощи цвета точки с координатами (t; h). Если мы используем для y линейную шкалу, то и сама спектрограмма будет называться линейной.

Охота на электроовец. Большая книга искусственного интеллекта - image222.jpg
Рис. 124. Пример спектрограммы

В 1937 г. Стивенс, Фолькман и Ньюман изобрели так называемую мел-шкалу. Дело в том, что чувствительность человеческого слуха неодинакова в разных диапазонах частот. В ходе эксперимента 1937 г. пятерых наблюдателей попросили после прослушивания звука осциллятора, настроенного на некоторую фиксированную частоту (125, 200, 300, 400, 700, 1000, 2000, 5000, 8000 или 12 000 Гц), путём вращения регулятора второго осциллятора настроить его на высоту звука, в два раза более низкую, чем высота звука первого осциллятора. Таким образом авторы исследования попробовали установить зависимость между объективной частотой звука и его субъективно воспринимаемой высотой. В результате появился «мел» (от англ. melody — мелодия) — единица субъективно воспринимаемой высоты звука [1895]. Существует несколько популярных формул для преобразования частоты звука в «мелы», каждая из которых задаёт немного различающиеся логарифмические мел-шкалы [1896], [1897]. В некоторых моделях для распознавания речи в наши дни используются мел-спектрограммы, а в некоторых — линейные.

Ещё одно важное заклинание из арсенала специалистов по автоматизированной обработке звука — кепстр [cepstrum]. Эта анаграмма слова spectrum используется для обозначения функции обратного преобразования Фурье от логарифма спектра мощности сигнала. Мне кажется, что это определение способно, будучи произнесено вслух, отнять минимум 150 хит-поинтов у тревожного студента-гуманитария. На самом деле не всё так страшно. Давайте посмотрим для начала на некоторые особенности спектрограммы мощности для человеческого голоса. Звуковые волны, возникающие в голосовых связках при прохождении через них выдыхаемого воздуха, отражаясь от стенок полостей тела, создают в них несколько резонансов в области разных частот. Если вы посмотрите на спектрограмму человеческого голоса, то увидите на ней характерные параллельные полосы, примерно по одной на каждые 1000 Гц. Их называют формантами. На иллюстрации ниже представлена спектрограмма русского гласного [е], на которой можно различить пять формант.

Охота на электроовец. Большая книга искусственного интеллекта - image223.jpg
Рис. 125. Пример спектрограммы русского гласного [е]

Форманта — это концентрация акустической энергии вокруг определённой частоты в речевой волне. Форманты присутствуют как в гласных, так и в согласных звуках человеческой речи. Учёные договорились нумеровать форманты «снизу вверх», начиная от самой низкой частоты: F1, F2, F3 и так далее [1898], [1899] (иногда нумерацию осуществляют не с F1, а с F0).

Любые полости, стенки которых могут отражать звуковые колебания, способны формировать так называемые акустические резонансы. С этой точки зрения между декой гитары, ванной комнатой или одной из полостей речевого тракта человека нет существенной разницы. Звуковые волны, оказавшись в замкнутом пространстве, отражаются от стенок полости, а затем отражённые волны накладываются на исходные. Если исходные и отражённые волны совпадают по фазе, амплитуда итогового звукового колебания усиливается. Это явление называется акустическим резонансом. Акустический резонанс возникает в том случае, если расстояние между параллельными отражающими стенками полости кратно значению половины длины звуковой волны. Явление противоположное резонансу, когда отражённая волна находится в противофазе с исходной, называется антирезонансом. При антирезонансе отражённая волна гасит исходную, снижая амплитуду итоговой волны. Таким образом, если поместить внутри полости источник звука, генерирующий звуковые колебания различных частот, некоторые из этих колебаний будут усилены, а некоторые — ослаблены.

Речевой тракт человека состоит из нескольких соединённых полостей, причём их объём и форма в процессе произнесения звуков могут изменяться. Например, при помощи языка человек меняет объём и форму ротовой полости, а при помощи смыкания мягкого нёба изолирует от речевого тракта носовую полость. Такая сложная конфигурация речевого тракта и приводит к возникновению сразу нескольких областей усиления частот, каковыми и являются форманты.

Охота на электроовец. Большая книга искусственного интеллекта - image224.jpg
Рис. 126. Голосовой аппарат при произнесении звуков

Речевой тракт фильтрует исходный звук, представляющий собой периодические вибрации голосовых связок или апериодическое шипение, и результатом фильтрации является звук, попадающий во внешнюю среду.

Охота на электроовец. Большая книга искусственного интеллекта - image225.jpg
Рис. 127. Модель источник-фильтр

Форманты встречаются и видны на спектрограммах вокруг частот, которые соответствуют резонансам речевого тракта. Но есть разница между чистыми гласными, с одной стороны, и согласными и носовыми гласными, с другой. Для согласных также характерны антирезонансы на одной или нескольких частотах из-за пероральных сужений. Антирезонансы ослабляют или устраняют те или иные форманты, так что они выглядят ослабленными или вообще отсутствуют на спектрограмме.

Перейти на страницу:
Прокомментировать
Подтвердите что вы не робот:*