KnigaRead.com/
KnigaRead.com » Компьютеры и Интернет » Базы данных » Охота на электроовец. Большая книга искусственного интеллекта - Марков Сергей Николаевич

Охота на электроовец. Большая книга искусственного интеллекта - Марков Сергей Николаевич

На нашем сайте KnigaRead.com Вы можете абсолютно бесплатно читать книгу онлайн Марков Сергей Николаевич, "Охота на электроовец. Большая книга искусственного интеллекта" бесплатно, без регистрации.
Перейти на страницу:

Основной метрикой, используемой в рамках ILSVRC для оценки точности классификации, стала «ошибка топ-5» [top-5 error]. Принцип её расчёта довольно прост. В датасете ILSVRC, используемом для соревнований по классификации, каждому изображению сопоставлена единственная «истинная» метка класса, при этом число классов сокращено до 1000. Модель, «взглянув» на изображение, должна предоставить пять наиболее вероятных гипотез по поводу «истинной» метки класса. Если среди этих гипотез присутствует «истинная» метка, то ответ модели считается правильным. Величина ошибки равна доле неправильных ответов модели на тестовой выборке. Организаторы ILSVRC использовали такую метрику для того, чтобы не штрафовать модель за нахождение на изображении каких-либо второстепенных объектов. Если вместо пяти гипотез использовать десять, то такая метрика будет называться «ошибка топ-10» [top-10 error], если одну — то «ошибка топ-1» [top-1 error] и так далее.

6.2.1.2 SuperVision и её особенности

Результат лучших моделей распознавания изображений на соревнованиях ILSVRC в 2010 г. составлял 28,19% ошибок, в 2011 г. — 25,77% ошибок.

А в 2012 г. результат команды SuperVision Университета Торонто составил уже лишь 16,42% ошибок, с отрывом почти в десять процентных пунктов от второго места — команды ISI с результатом 26,17% ошибок [1836], [1837], [1838].

Команда SuperVision (в названии игра слов: super vision — суперзрение, supervision — надзор; supervised learning — обучение с учителем) состояла из трёх человек. Первый из них — Алекс Крижевский, именно в его честь архитектура сети, использованная командой SuperVision, получила название AlexNet.

После победы SuperVision на ILSVRC-2012 корпорация Google поручила своему стажёру Войцеху Зарембе воссоздать сеть на основе публикации с описанием модели. Поскольку в Google существует традиция называть нейронные сети именами их создателей, реплика нейронной сети SuperVision изначально называлась WojNet. Позже Google удалось убедить Крижевского стать её сотрудником, после чего имя сети было изменено на AlexNet.

Хотя события, спровоцировавшие медийный бум в отношении глубокого обучения, и были непосредственно связаны с именем Крижевского, биографические сведения о нём весьма скудны. Известно, что родился он в/на Украине, а вырос в Канаде [1839]. Я не могу даже поручиться, что его фамилия по-русски должна быть записана как «Крижевский», а не как «Крыжевский».

Вторым участником команды был Илья Суцкевер. Сегодня он известен как руководитель исследовательского отдела OpenAI, однако в 2012 г. это имя вряд ли что-то сказало бы неспециалистам.

И наконец, третьим участником команды был научный руководитель Суцкевера и Крижевского — Джеффри Хинтон собственной персоной.

Кстати говоря, команда Хинтона причастна и к созданию популярных и в наши дни баз данных изображений CIFAR-10 и CIFAR-100, созданных за счёт средств Канадского института передовых исследований (Canadian Institute for Advanced Research, CIFAR). Оба датасета, созданные Алексом Крижевским, Винодом Наиром и Джеффри Хинтоном, были опубликованы в 2009 г. и с тех пор пользуются большой популярностью в качестве стандартного набора изображений в задачах распознавания образов.

CIFAR-10 содержит 60 000 изображений, относящихся к 10 непересекающимся классам (6000 изображений на класс). В CIFAR-100 тоже 60 000 изображений, но уже 100 классов (по 600 изображений на класс). Оба датасета являются размеченными подмножествами набора данных Visual Dictionary, содержащего 80 млн крошечных (вписывающихся в рамку 32 × 32 пикселя) изображений [1840].

Основой для создания датасетов CIFAR стал датасет «80 Million Tiny Images» [80 млн крошечных изображений], или просто Tiny Images, — набор данных, который содержит почти 80 млн цветных изображений размером 32 × 32 пикселя. Для его создания исследователи из MIT подготовили набор из 75 062 конкретных (не абстрактных) имён существительных, входящих в состав лексической базы WordNet, затем использовали каждое из этих существительных в качестве текста запроса по поиску изображений к семи различным системам — Altavista, Ask.com, Flickr, Cydral, Google, Picsearch и Webshots, после чего произвели уменьшение размеров полученных картинок [1841].

В 2020 г. датасет Tiny Images был изъят его создателями из обращения после сообщений, что обученные на этом датасете модели демонстрировали проявления предвзятости в отношении расы и пола. Например, авторы статьи «Огромные датасеты: пиррова победа для компьютерного зрения?» (Large datasets: a pyrrhic win for computer vision?) [1842] продемонстрировали, что многие популярные датасеты изображений, в частности Tiny Images, содержат в своей разметке оскорбительные слова (вроде печально известного N-word), подмножества изображений с метками child_molester [растлитель малолетних], rape_suspect [подозреваемый в изнасиловании], pedophile [педофил] и тому подобное, содержат фотографии конкретных людей, а некоторые попавшие в датасет изображения носят порнографический характер.

В ответ создатели Tiny Images попросили других исследователей не использовать этот датасет для дальнейших исследований и удалить свои копии набора данных [1843], [1844], [1845], [1846]. К счастью, датасеты CIFAR при создании подвергались дополнительной фильтрации, поэтому изъятие Tiny Images из оборота на них не повлияло.

Несколько слов о самой сети AlexNet. Сеть состоит из пяти двумерных (на самом деле сами тензоры при этом трёхмерные, поскольку к двум пространственным измерениям добавляется ещё наличие трёх цветовых каналов, однако число каналов в изображении равно числу каналов в ядрах свёртки, поэтому сама свёртка является двумерной) свёрточных и трёх полносвязных слоёв. Причём на выходах из первого, второго и пятого слоёв в целях сокращения размерности применяется максимизирующий пулинг [1847].

Охота на электроовец. Большая книга искусственного интеллекта - image213.jpg
Рис. 118. Схема сети AlexNet

Первая особенность AlexNet, отличающая её от разных версий LeNet, применявшихся на MNIST, заключается в том, что, поскольку сеть должна работать с цветными изображениями, все её свёрточные ядра не двумерные, а трёхмерные. Третьим измерением становится число цветовых каналов, в данном случае три — красный, зелёный и синий [1848]. Вторая интересная особенность AlexNet — использование в качестве функции активации:

f(x) = max(0,x)
. По-английски такая функция называется rectifier — выпрямитель.

В наши дни для обозначения элемента нейронной сети, выполняющего подобное преобразование, обычно используют аббревиатуру ReLU (rectified linear unit, выпрямляющий линейный блок). Эта функция активации для нейронных сетей была впервые предложена [1849] швейцарским исследователем Рихардом Ханлозером и его коллегами в статье, опубликованной в Nature в 2000 г. В 2011 г. Ксавье Глоро, Антуан Борд и Йошуа Бенджио продемонстрировали [1850], что использование этой функции активации позволяет более эффективно обучать глубокие нейронные сети по сравнению с более популярными ранее логистической функцией и гиперболическим тангенсом. И в наши дни ReLU остаётся самой популярной функцией активации в глубоких нейронных сетях, хотя с тех пор было изобретено немало [1851] интересных альтернатив, таких, например, как LReLU, CReLU, PReLU, SELU и даже ReLU-6.

Перейти на страницу:
Прокомментировать
Подтвердите что вы не робот:*