Охота на электроовец. Большая книга искусственного интеллекта - Марков Сергей Николаевич
Тьюринг не приводит конкретных алгоритмов обучения машин типа B, замечая, что обучение таких машин слишком сложный процесс для того, чтобы его можно было смоделировать при помощи бумаги и карандаша, однако приводит пример более простой машины (машина типа P), которая первоначально обладает случайным поведением, выдавая случайные ответы на все запросы. Если ответ окажется правильным, машина запомнит, что в такой ситуации следует дать именно этот ответ (положительное подкрепление). Если же ответ окажется неправильным, машина, напротив, запомнит, что в этой ситуации именно этот ответ давать не следует. Тьюринг ограничивается описанием принципа работы машины, опуская детальное описание её архитектуры [1178], [1179].
Причина, по которой работа Тьюринга не была опубликована, довольно забавна. Можно сказать, что она пала жертвой отбора. Начальник Тьюринга по имени Чарльз Дарвин, внук знаменитого основоположника теории эволюции, отозвался о статье Тьюринга в критическом ключе, заявив, что по своему качеству она ничем не лучше школьного сочинения.
Между тем исследования в области искусственных нейронных сетей продолжались. В 1948 г. Альфонсо Шимбел и Анатоль Рапопорт из Чикагского университета описали семейство статистически организованных сетей. Отталкиваясь от модели Мак-Каллока и Питтса, Шимбел и Рапопорт рассмотрели различные параметры нейрона и его компонентов в качестве случайных величин, имеющих некоторые вероятностные распределения. Из них они вывели общее уравнение для расчёта вероятности того, что нейрон в указанном месте сработает в указанное время [1180].
4.4.3 Исследования нейробиологов
Работа Шимбела и Рапопорта, как и исследования Тьюринга, не получила дальнейшего развития, и инициатива перешла в стан нейропсихологов, а именно к Дональду Хеббу. В книге «Организация поведения: нейропсихологическая теория» (The Organization of Behavior: A Neuropsychological Theory) он сформулировал принцип, который сегодня известен под названием «хеббовское обучение» (Hebbian learning): «Когда аксон клетки A находится достаточно близко, чтобы возбудить клетку B, и многократно или постоянно принимает участие в её срабатывании, в одной или обеих клетках происходит некоторый процесс роста или метаболические изменения таким образом, что эффективность A как одной из клеток, возбуждающих B, растёт». Часто этот принцип афористично формулируют так: «нейроны, которые возбуждаются вместе, связываются вместе» [neurons that fire together, wire together].
После установления таких связей нейроны образуют клеточный ансамбль таким образом, что любое возбуждение хотя бы одного относящегося к нему нейрона приводит в возбуждение весь ансамбль. Сочетание их связей формирует постоянно меняющийся алгоритм, определяющий реакцию мозга на раздражители [1181].
Хебб не был первым, кто высказал эту идею. Ещё в 1932 г. американский психолог Эдвард Торндайк предположил, что обучение заключается в постепенном усилении проводящих путей между нейронами. В начале века Торндайк изучал поведение кошек при помощи так называемого проблемного ящика [puzzle box]. Помещённое в ящик животное могло освободиться в результате некоторого действия (например, потянув за рычаг или нажав на педаль). Когда кошка выбиралась из ящика, то получала вознаграждение, обычно еду. Поначалу кошки, помещённые в ящик, беспокойно бродили по нему и мяукали, но не знали, как выбраться. В конце концов они случайно наступали на педаль на полу — и дверь открывалась. Чтобы выяснить, могут ли кошки обучаться «вприглядку», Торндайк заставлял их наблюдать за выбиравшимися из ящика сородичами. Однако эта серия экспериментов завершилась неудачей: кошки упорно не желали учиться. Тогда Торндайк вернулся к методике обучения методом проб и ошибок. Он обнаружил, что после случайного нажатия на педаль кошки начинали в каждом последующем испытании нажимать на неё быстрее. Наблюдая за животными, Торндайк замерял время, потраченное ими на побег из ящика, а затем построил график времени в зависимости от номера эксперимента — он назвал его «кривая обучения» (у психологов принято говорить «кривая научения» [learning curve]). Этот же термин используется сегодня при обучении искусственных нейронных сетей. Оказавшись в ящике, кошки поначалу испытывали трудности, но в итоге схватывали закономерность и выбирались всё быстрее и быстрее в каждом последующем опыте. В результате время сокращалось до некоторой минимальной величины и стабилизировалось на ней. В итоге Торндайк получил S‑образные кривые. Позже он повторил те же опыты с другими видами животных и обнаружил, что все они обучаются примерно одинаково, различия наблюдаются только в скорости этого процесса [1182].

В книге «Основы обучения» (The Fundamentals of Learning, 1930) Торндайк высказывает догадку, развитую позже Хеббом: «…должен быть некоторый физиологический отбор в результате повторения. Это может быть изменение в синапсах, в результате которого многократное прохождение стимула по одному и тому же пути активно увеличивает проводимость за счёт снижения проводимости в других местах. Или это может быть своего рода избирательная интеграция, посредством которой повторяющееся действие более или менее ассоциативной системы в целом по определённому шаблону подавляет тенденцию к действию по другим шаблонам. Или это может быть что-нибудь ещё» [1183]. Это высказывание Торндайка развивает предложенную им ещё в 1911 г. концепцию «закона эффекта»: «Из нескольких реакций на одну и ту же ситуацию те, которые сопровождаются удовлетворением воли животного или за которыми удовлетворение вскоре следует, при прочих равных условиях будут более прочно связаны с ситуацией, так что, когда она [ситуация] повторяется, они [реакции] с большей вероятностью будут повторяться; те же, которые сопровождаются дискомфортом для воли животного или за которыми дискомфорт вскоре следует, при прочих равных обстоятельствах ослабляют свои связи с этой ситуацией, поэтому, когда она повторяется, вероятность их возникновения будет меньше. Чем больше удовлетворение или дискомфорт, тем больше укрепление или ослабление связи» [1184].
Параллельно с Торндайком исследованием процессов обучения у животных занимался знаменитый российский, а затем советский учёный Иван Павлов, создатель теории условных рефлексов. Среди прочего Павлов и его коллеги исследовали влияние соотношения силы условного и безусловного подкрепления на интенсивность и продолжительность условного рефлекса. Соответствующая закономерность, сформулированная Павловым и его учеником Борисом Бабкиным, получила название «закон относительной силы» [1185]. Исследования Павлова стали источником многих новаторских идей в области физиологии нервной деятельности, однако они были по большей мере сосредоточены в области крупномасштабной структуры и функций — на страницах его работ почти не встречаются рассуждения о процессах, происходящих на клеточном уровне.
Однако там, где Павлов всё-таки спускается на клеточный уровень, его суждения весьма точны и одновременно осторожны: «…связывание импульсов в разных областях мозга путём образования новых нервных связей является первым нервным механизмом, с которым мы столкнулись при изучении физиологии полушарий. Вопрос о месте, где возникает эта новая нервная связь, ещё не получил чёткого ответа. Это происходит исключительно в коре или между корой и подкорковыми областями? <…> В любом случае клетки, преимущественно возбуждённые в данный момент времени, становятся очагами, притягивающими к себе нервные импульсы, возбуждённые импульсами новых стимулов, которые при повторении имеют тенденцию следовать по тому же пути и, таким образом, устанавливать условные рефлексы» [1186].