KnigaRead.com/
KnigaRead.com » Компьютеры и Интернет » Базы данных » Охота на электроовец. Большая книга искусственного интеллекта - Марков Сергей Николаевич

Охота на электроовец. Большая книга искусственного интеллекта - Марков Сергей Николаевич

На нашем сайте KnigaRead.com Вы можете абсолютно бесплатно читать книгу онлайн Марков Сергей Николаевич, "Охота на электроовец. Большая книга искусственного интеллекта" бесплатно, без регистрации.
Перейти на страницу:

Из-за проблемы исчезающего градиента на границе 1980–1990-х гг. исследователи могли позволить себе рекуррентные сети, способные различать лишь сравнительно короткие зависимости в обрабатываемых последовательностях [1492], [1493]. Было трудно поверить в то, что когда-нибудь появятся сети, способные улавливать закономерности в событиях, разделённых десятками или даже сотнями шагов. Однако через некоторое время появилась новая нейросетевая архитектура, способная существенно снизить остроту этой проблемы. О ней мы и поговорим в следующем разделе.

Охота на электроовец. Большая книга искусственного интеллекта - image192.jpg
Рис. 106. Схематическое изображение блока рекуррентной нейронной сети (RNN). Обозначения: ht1 — предыдущее скрытое состояние, ht — текущее скрытое состояние, xt — обрабатываемый элемент последовательности, ot — текущий выход, th — функция активации (гиперболический тангенс)

5.2.5.3 Сети с долгой краткосрочной памятью (LSTM) и другие модели

Решительный шаг вперёд в области рекуррентных нейронных сетей удалось сделать в 1997 г., когда Юрген Шмидхубер и Зепп Хохрайтер предложили [1494] принципиально новую архитектуру, получившую весьма оригинальное название — «долгая краткосрочная память» (Long short-term memory, LSTM).

Сталкиваясь с памятью людей, можно заметить, что люди помнят только важные события, а многое старое и ненужное забывается. Можно представить, что было бы, если бы человек запоминал абсолютно всё. Например, такая ситуация описана в рассказе «Фунес, чудо памяти» (Funes el memorioso) [1495], принадлежащем перу аргентинского писателя Хорхе Луиса Борхеса. Чтобы убить время, главный герой рассказа восстанавливает в своей памяти переживания целого дня, на что у него уходит также целый день. Фунес изобретает собственную систему счисления, где каждое число имеет своё название, например число 7030 получает имя «Максимо Перес», а 7040 — имя «поезд». Лирический герой автора пытается объяснить Фунесу, что такая система противоречит самой идее счёта, но Фунес не понимает его или не хочет понимать.

Действительно, способность к обобщению, к абстракции основывается на отвлечении от конкретных деталей, на их забвении. Избавившись от неважных деталей, мы можем находить аналогии, и именно они позволяют нам сложить 7030 и 7040, в то время как трудно представить себе операцию сложения «Максимо Переса» и «поезда». Поэтому возникает вполне резонный вопрос: нельзя ли реализовать в нейронных сетях такой механизм забывания, который позволял бы сети запоминать важные признаки последовательности, игнорируя не влияющие ни на что мелочи? Именно эта идея лежит в основе «долгой краткосрочной памяти» Шмидхубера и Хохрайтера.

Основой LSTM-сети являются так называемые LSTM-блоки (LSTM units). Такой блок представляет собой рекуррентный элемент сети, способный запоминать значения как на короткие, так и на длинные промежутки времени. Это достигается благодаря тому, что LSTM‑блок не использует функцию активации внутри своих рекуррентных компонентов, благодаря чему хранимое значение не размывается во времени и при использовании метода обратного распространения ошибки во времени градиент не исчезает.

Обычно LSTM-блоки содержат три вентиля [gate], предназначенных для управления потоками информации на входе, выходе и внутри блока. Эти вентили называются соответственно «входным» [input gate], «выходным» [output gate] и «вентилем забывания» [forget gate].

Основной функцией, выполняемой LSTM-блоком, является отслеживание зависимостей между элементами поступающей на вход последовательности. Входной вентиль определяет меру, в которой новые значения поступают в ячейку памяти [cell], вентиль забывания — меру, в которой значения сохраняются в ячейке от шага к шагу, а выходной вентиль отвечает за меру, в которой значения в ячейке используются для вычисления выходного значения. Обученный блок должен понимать, что именно и в какой мере стоит замечать, запоминать и использовать для ответа на каждом из шагов.

LSTM-блок может содержать несколько ячеек памяти, управляемых одними и теми же вентилями. К сожалению, в отношении терминологии в данном случае существует некоторая путаница [1496], но мы будем придерживаться именно этих наименований — LSTM-блок для обозначения совокупности ячеек памяти и управляющих вентилей и LSTM-ячейка для обозначения одного скалярного компонента памяти LSTM-блока.

Охота на электроовец. Большая книга искусственного интеллекта - image193.jpg
Рис. 107. Схематическое изображение блока LSTM

Некоторые варианты LSTM-блоков могут не иметь одного или нескольких вентилей. Например, стробированные (или управляемые) рекуррентные блоки (gated recurrent units, GRU) не имеют выходного вентиля.

Это напомнило мне животрепещущий эпизод из книги Святослава Сахарнова «Путешествие на „Тригле“», которую я очень любил в детстве. В нём главный герой, молодой художник, решил примерить на себя роль исследователя веслоногих рачков. Острым кухонным ножом он соскоблил отфильтрованный планктон с марли и поместил его на приборное стекло микроскопа.

Вот стекло под микроскопом. На светлом поле копошились прозрачные многорукие твари.

— Что это?!

Мои глаза полезли на лоб.

Прямо посередине светлого поля судорожно двигался по стеклу пятиногий рачок.

— Ого!

Я поперхнулся от радости.

А вон ещё… ещё… Шестиногие, четырёхногие, семиногие рачки так и кишели под микроскопом. Один из них был даже одноногий.

КАКОЕ ЗАМЕЧАТЕЛЬНОЕ ОТКРЫТИЕ!

Охота на электроовец. Большая книга искусственного интеллекта - image194.jpg

Иногда мне кажется, что эксперименты, проводимые в целях создания новых разновидностей LSTM-блоков, напоминают вышеупомянутые художества, произведённые над ни в чём не повинными представителями зоопланктона при помощи острого кухонного ножа. После удаления различных вентилей выясняется, что наиболее важным является вентиль забывания. Без остальных вентилей LSTM-блок худо-бедно способен выполнять свои основные функции. Лишь после удаления вентиля забывания приходится констатировать: таракан оглох [1497].

Охота на электроовец. Большая книга искусственного интеллекта - image195.jpg
Рис. 108. Схематическое изображение блока GRU

По сравнению с простыми рекуррентными сетями LSTM-сети гораздо лучше приспособлены к ситуациям, когда важные события разделены временными лагами с неопределённой продолжительностью и границами. Неудивительно, что в начале нового тысячелетия они стали основой многих систем, предназначенных для обработки естественного языка, прогнозирования временных рядов, распознавания речи и решения других задач, связанных с обработкой последовательностей. Сегодня идеи, положенные в основу LSTM, получили развитие в новом поколении рекуррентных нейросетевых архитектур, к которому относятся, например, такие модели, как AWD-LSTM [1498], Mogrifier LSTM [1499] и LEM [1500].

Конечно, на заре новой весны искусственного интеллекта арсенал коннекционистских инструментов не ограничивался упомянутыми выше моделями. Определённую популярность среди исследователей имели сети Кохонена, эхо-сети (Echo State Network, ESN), сети Хопфилда и модели на их основе — сети Коско, машина Больцмана (Boltzmann machine), а затем и ограниченная машина Больцмана (Restricted Boltzmann Machine, RBM), глубокие сети доверия (Deep Belief Networks, DBN) и даже машина Гельмгольца (Helmholtz machine).

Перейти на страницу:
Прокомментировать
Подтвердите что вы не робот:*