Владимир Гриценко - Теоретические основания дрессировки
Способ отбора поведения служит базой для способов, позволяющих не только отрабатывать свойственные (видоспецифические) реакции животных, но и осваивать навыки, необычные для их нормального поведения:
Способ усиления поведенческого признака, который заключается в том, что подкрепляется все более отличающийся в нужном направлении (или более выраженный) вариант поведенческого акта. К. Прайор называет такой способ «способом последовательного приближения» именно этот способ она использовала как основной для дрессировки дельфинов, например для увеличения высоты прыжка;
Способ сокращения (редукции) поведенческого акта до его отдельного элемента. Например, путем положительного подкрепления только одного из элементов. Редуцируя поведенческий акт, В.Л. Дурову удалось отработать навыки дутья в музыкальную трубу и произнесение слова «мама» собакой.
Способ альтернативы (альтернативного поведения), при котором дрессировщик создает такие условия (иногда даже непосредственно не воздействуя на животное: например, при помощи реквизита), которые допускают совершение лишь единственно возможного движения. Именно так называется один из старинных способов обучения собаки двигаться рядом с дрессировщиком, когда он движется с ней вдоль забора — собакой к забору.
Способ игрового поведения (особенно эффективен для молодых или любящих играть животных). При этом используется потребность в игре, когда возможность поиграть является и подкреплением. Для применения такого способа создается игровая ситуация и предлагается форма игры, которая должна представлять нужное дрессировщику действие.
Имитационный способ (способ подражания), особенностью которого является то, что оно одновременно выступает и как метод (имитационный метод научения).
Способ оборонительного поведения или избегания, когда добиваются нужного поведения при помощи болевых или неприятных воздействий, избегая которые, животные и совершают желаемое действие. Например, неприятные или болевые рывки, удары, болезненные надавливания, ожидание боли (страх), способные вызвать изменение поведения животного, нужные дрессировщику — оборонительное поведение. Как правило при помощи этого способа отрабатывается движение собаки рядом с дрессировщиком, посадки и укладки.
Способ агрессивно-оборонительного поведения: при нем на животное оказывают воздействия такого качества и такой силы, избавиться от которого собака может только посредством агрессивно-оборонительного поведения. Эффект способа заключается в том, что от опасного раздражителя можно избавиться двояко — 1) уйти (убежать) из сферы его действия; 2) уничтожить его атакуя. Ваша задача заключается в том, чтобы вызвать у собаки желание следовать второму пути. Со временем команда, предшествующая агрессивному состоянию и соответствующему инструментальному действию, или ситуация, связанная с этим, становятся сигнальными, то есть образуются не только инструментальные рефлексы, но и условные рефлексы на состояние.
Указанные способы можно использовать при любой форме научения (методе дрессировке), но эффективность их при этом будет различной. Очень часто при отработке конкретного навыка последовательно или параллельно используются несколько способов.
Выбор того или иного способа дрессировки определяется возрастом и породой собаки, стоящей перед дрессировщиком задачей, его опытом, интуицией, а то и вкусом. И очень часто «быстрые» способы не являются самыми лучшими.
ПОДКРЕПЛЕНИЕ
Вопрос о подкреплении в научении еще окончательно не разработан и в разных школах, изучающих поведение, решается неоднозначно.
В школе классических условных рефлексов подкреплением считается безусловное воздействие на животное, связанное во времени с условным сигналом. Причем подкреплением может быть любая вызванная деятельность организма.
В случае наличия подкрепления условный рефлекс называют положительным (подкрепляемым). А в случае отсутствия безусловного воздействия — отрицательным или тормозным (неподкрепляемым). При таком подходе болевое воздействие служит положительным подкреплением оборонительному поведению.
В оперантном научении подкреплением считается любое воздействие, увеличивающее или уменьшающее вероятность повторения в будущем предшествующего его воздействию поведения, то есть любое поведение определяется своими последствиями. В зависимости от того, будут ли эти последствия приятными, безразличными или неприятными, животное проявит тенденцию повторять данный поведенческий акт, не придавать ему никакого значения или же избегать его повторения в дальнейшем. В таком случае положительным подкреплением считается воздействие, которое увеличивает в будущем вероятность предшествующего ему действия, другими словами, животное стремится к получению положительного подкрепления. Момент получения положительного подкрепления всегда положительно эмоционален. И, наоборот, животное стремится избежать отрицательного подкрепления. Факт отрицательного подкрепления вызывает отрицательные (негативные) эмоции и снижает вероятность повторения в будущем поведения, приводящего к нему. Как уже упоминалось, само эмоциональное состояние может иметь выраженный подкрепляющий характер.
Надо сказать, что некоторые ученые считают, что этот термин «отрицательное подкрепление» несколько неудачен, так как всякое подкрепление по определению должно способствовать выработке какой-то формы поведения, т. е. оказывать положительное действие. Видимо, правильнее было бы в обоих случаях говорить о подкреплении, но не о положительном и отрицательном, а о положительном и аверсивном (в зависимости от его значения для организма).
С точки зрения мотивированного поведения, подкреплением считается любое событие, увеличивающее, уменьшающее или исключающее вероятность удовлетворения наличной потребности. Событие, связанное с удовлетворением потребности, и сам факт удовлетворения потребности являются положительным подкреплением. Факт неудовлетворения потребности считается отрицательным подкреплением. Такой подход объясняет существование форм научения без выраженного подкрепления, например, импринтинга или латентного научения.
Событие, регулярно предшествующее факту подкрепления, начинает нести информацию о его наступлении и, по законам развития условного рефлекса, само становится подкреплением. Такое подкрепление называется условным. Различают положительное и отрицательное условное подкрепление (известные всем «ХОРОШО!» и «ФУ!»). Таким образом различают натуральное (первичное в оперантном научении) подкрепление, заключающееся в непосредственном воздействии на животное (кормление, поение, оглаживание, причинение боли или неприятных ощущений) и условное (вторичное в оперантном научении) подкрепление, образующееся по законам классических условных рефлексов.
По мере тренированности, свойства условного подкрепления могут приобретать команда, а при инструментальных рефлексах — действия животного или даже данные обстановочной афферентации — потому, что, чаще или реже, их результатом бывает подкрепление. Чтобы условное подкрепление не потеряло своего сигнального значения, время от времени его необходимо подтверждать непосредственным воздействием на животное, то есть натуральным подкреплением.
Особое значение имеет время подачи подкрепления. Следует отметить, что закрепляется только непосредственно предшествующее подкреплению поведение. В оперантном научении считается, что разрыв между нужной формой поведения и фактом подкрепления не должен составлять более 10 секунд. Если этот разрыв больше, научение может не произойти.
Школой И.П. Павлова были описаны так называемые «отставленные рефлексы», когда разрыв между действием условного раздражителя и подкрепления составлял минуты и десятки минут. Выработка «отставленных рефлексов» осуществима только в специфических условиях павловской «башни молчания», но и при этом была отмечена закономерность — чем дальше во времени оставляется подкрепление, тем медленней вырабатывается условнорефлекторная реакция. В реальных условиях избежать факта оставления подкрепления помогает использование условного подкрепления.
Оказалось, что частичное подкрепление условных сигналов (до 50% случаев, а по некоторым данным до 33—25%), не затрудняет выработку условного рефлекса, но значительно замедляет его угашение при последующей отмене подкрепления. Но при свободном выборе режима положительного подкрепления, животные выбирают режим с большей вероятностью его получения. Возможно общее число случаев подкрепления важно только для упрочения реакции до навыка. Однако вариационный (вариабельный) режим подкрепления значительно закрепляет отработанный навык.