Стивен Уитт - Как музыка стала свободной
Поражение всегда горько, особенно такое: Бранденбург потратил 13 лет жизни на то, чтобы решить одну важнейшую задачу, точку преткновения всей проблемы цифрового аудио. Корпус исследований, который комиссия отвергла, складывался десятилетиями — инженеры строили теории о чем-то вроде mp3 еще с конца 70-х. Теперь, наконец, из этого мутного научного болота всплыло нечто совершенно прекрасное — готовый продукт, венчающий разработки, над которыми бились три поколения. Только «пиджаки» в конференц-зале на это плевать хотели.
На этот путь Бранденбурга наставил его научный руководитель, у которого он писал диссертацию — лысый громогласный компьютерный инженер по имени Дитер Зайтцер. В свою очередь, Зайтцер сам был обязан этой темой своему научному руководителю, маниакальному исследователю по имени Эберхард Цвикер, отцу сложной научной дисциплины под названием «психоакустика», изучающей восприятие звука человеком. Зайтцер был не только протеже и подопытным Цвикера, но, что гораздо важнее, смертельным оппонентом. На протяжении десяти лет они каждый будний день после обеда играли в настольный теннис, и в течение этого часа Цвикер проверял на своём ученике пределы человеческого восприятия, то и дело попадая ему шариком по голове[5].
Главное открытие Цвикера, сделанное в результате проводимых десятки лет исследований, состоит в том, что человеческое ухо работает совсем не так, как микрофон. Напротив, ухо — адаптивный орган, на который естественный отбор возложил две задачи: 1) слышать и понимать речь, 2) заранее давать тревожный сигнал, о приближении огромной плотоядной кошки.
То есть ухо должно быть таким, чтобы только соответствовать этим задачам, и лучше ему быть ни к чему. Поэтому у уxa сохранились некоторые анатомические особенности, и вот как раз исследования Цвикера выявили их удивительную широту. Например, каждый человек различает два одновременных тона с интервалом в полутон или больше, а Цвикер обнаружил, что если чуть приблизить высоту тонов друг к другу, то ухо можно обмануть: оно услышит один тон. Особенно это проявляется, если нижний тон звучит громче. Также любой слушатель различает два щелчка с временным интервалом в полсекунды, но если укоротить это время на пару миллисекунд, то ухо снова обманывается и объединяет эти два щелчка в один. И здесь вновь эффект ещё более заметен, если один щелчок громче. В общем, вывод из этих иллюзий «психоакустической маскировки» таков: та реальность, которую слышит человек — по большей части фикция.
Со временем Зайтцер начал опережать своего наставника. Цвикер — анатом, его прозрения относятся к аналоговой эпохе. Зайтцер, напротив — компьютерный инженер, человек грядущей цифровой эры. У него родилась догадка о том, что, используя исследования и выводы Цвикера о несовершенстве слуха, можно делать высококачественные музыкальные записи, занимающие небольшой объём. Это прозрение открыло перед ним новые перспективы. Когда в 1982 году был представлен формат компакт-диска, инженеры превозносили его как самое главное достижение в звукозаписи. Зайтцер — практически единственный, кто счёл компакт-диск нелепым упражнением в излишестве. Рекламные тексты обещали «Идеальный звук навсегда»[6], но Зайтцер видел лишь залежи ненужной информации, большая часть которой не воспринимается человеческим ухом. Он понял, что большую часть данных, записанных на компакт-диске, можно попросту выбросить — собственно, человеческое ухо именно так и делает.
В том же году Зайтцер попытался запатентовать «Цифровой музыкальный аппарат». Идея была красивой: вместо того, чтобы печатать на заводе миллионы дисков, паковать их в пластмассовые коробочки и развозить в магазины, всю музыку загружают на сервер, к которому люди получают доступ через телефонную линию (в Германии как раз начали устанавливать новые цифровые телефонные линии), и где с помощью компьютерной клавиатуры можно выбрать любую музыку, которая становится доступной в любое время. Всё это — по подписке. Такой сервис избавляет от неудобств, связанных с физическими носителями: стереозвук доставляется прямо в телефонную трубку. Заявку на патент отклонили. Первые телефонные цифровые линии были крайне примитивны, и данные с компакт-диска никак не могли «пролезть» в их узкий канал. Чтобы воплотить идею Зайтцера, музыкальные файлы требовалось уменьшить в 12 раз[7], а в то время технологии сжатия такое даже близко не позволяли.
Несколько лет Зайтцер бился с патентным экспертом, доказывая, насколько важны открытия Цвикера, но без практических доказательств всё это оказалось совершенно безнадёжным. В конце концов, заявку свою Зайтцер отозвал, но от идеи не отказался. Цвикер уже определил недостатки восприятия уха, так что оставалось измерить их математическим способом. У Зайтцера это так и не получилось, как и у других исследователей. Но он наставил на этот путь и воодушевил своего юного протеже: студент, будущий инженер-электрик, Карлхайнц Бранденбург показался ему одним из самых умных людей, с кем он когда-либо общался.
Бранденбург заподозрил, что десять лет настольного тенниса со странным специалистом по слуху просто лишили Зайтцера рассудка. В цифровую эпоху информация хранится в битах: ноль и единица. Цель сжатия — использовать как можно меньше бит. Одна секунда стереозвука на компакт-диске требовала более 1,4 миллиона бит, но Зайтцер хотел уместить ее в 128 тысяч.
Бранденбург счёл эту цель абсурдной: это как собрать автомобиль за 200 долларов. Но, тем не менее, она показалась ему достойной его амбиций. Следующие три года он работал над этой задачей, пока, наконец, в начале 1986 года не набрёл на направление, которое никто не изучал. Назвав свою идею «анализ синтезом», он следующие несколько недель почти не спал — писал математические инструкции определения этих драгоценных бит. Начал он с нарезки аудио. С помощью «сэмплера» он нарезал входящий звук на тоненькие «щепочки» длительностью в одну секунду. Затем «банком фильтров» рассортировывал их по частотам (банк фильтров делал со звуком то же, что призма со светом). В результате появилась сетка времени и частоты, состоящая из микроскопических фрагментов звука, рассортированных в узкие высотные «ленты» — аудиовариант пикселей. Затем Бранденбург обучил компьютер упрощать эти «аудиопиксели», используя четыре трюка из психоакустического арсенала Цвикера.
Первый. Цвикер доказал, что человеческое ухо лучше всего воспринимает определённый высотный диапазон, который примерно совпадает с человеческим голосом. За этими пределами — особенно выше — слух уже воспринимает хуже. То есть для записи краёв спектра можно использовать меньше бит.
Второй. Цвикер продемонстрировал, как близкие по высоте тоны уничтожают друг друга. Конкретно: нижний тон подавляет верхний, так что когда вы оцифровываете музыку с пересекающимися инструментами, например, виолончелью и скрипкой, играющими одновременно, то скрипку можно записать меньшим количеством бит.
Третий. Согласно опытам Цвикера, слух не воспринимает звук после громкого щелчка. Так что если вы оцифровываете музыку с, например, ударами по тарелке в каждом такте, то в первые миллисекунды после удара можно оставить меньше бит.
Четвёртый и самый странный. Ухо не воспринимает также и звук до громкого удара. Дело в том, что уху требуется несколько миллисекунд, чтобы обработать услышанный звук, и удар этот процесс прерывает. То есть, если снова говорить о тарелке, то нескольким миллисекундам до удара требуется меньше бит.
Основываясь на десятилетиях эмпирического исследования слуха, Бранденбург «объяснил» битам, куда им вставать. Но это был только первый шаг. Настоящее же серьёзное достижение Бранденбурга в том, что он понял, что это — итерационный процесс. Другими словами, можно взять то, что получилось в результате сжатия по его алгоритму, снова прогнать через тот же алгоритм и повторять так столько раз, сколько угодно, доведя файл до такого крошечного размера, который вам нужен. Качество звука при каждом таком прогоне, разумеется, ухудшается: это как копия копии или четвёртая перезапись на кассету. То есть если повторить процесс миллион раз, то у вас останется только один бит.
Но если найти нужный баланс, возможно и сжать, и сохранить качество, оставив лишь те биты, которые услышит человеческое ухо.
Конечно, не любой музыке требуется столь сложный инструментарий. У скрипичного концерта много психоакустической избыточности, а у скрипичного соло — нет. Если нет ударов тарелки, накладывающейся виолончели или верхнего регистра, то нечего упрощать: есть только чистый тон, и никуда не денешься. Но в таком случае Бранденбург мог перебросить результат своего сжатия в другой метод сжатия, совершенно отличный от его способа.