КЛИКЕР-ТРЕНИНГ

[ Новые сообщения · Участники · Правила форума · Поиск · RSS ]

Страница 1 из 1 1
Модератор форума: Ole, Gebrikuzja

КЛИКЕР-ТРЕНИНГ (оперантное обучение)

КЛИКЕР-ТРЕНИНГ

ВИКТОРИЯ

Дата: Четверг, 27.08.2009, 23:34 | Сообщение # 1

Генералиссимус

Группа: Пользователи

Сообщений: 8789

Статус: Offline

"Говоря попросту, оперантное обучение – искусство и техника развития («отбора») поведения. Акцент делается на отбор поведения, которое вам нужно, с помощью положительного подкрепления, а не подавление ненужного поведения через отрицательное подкрепление или наказание." (Морган Спектор. Кликер-дрессировка для обидиенс.)

Дальше будут выдержки из упомянутой его книги в переводе Варвары Большаковой. Сразу оговорюсь- я не крутой специалист в кликер-тренинге. Я немного занимаюсь с кликером со своими собаками, но на мой взгляд у нас есть более опытные специалисты с этой области.

Quote

Безусловное и условное подкрепление.
Подкрепление повышает вероятность повторения поведения в будущем. Говоря проще, подкрепление усиливает поведение. Некоторые виды подкрепления «объективны», т.е. собака их получает сама собой. Например, вода, которая бьет из фонтана, когда вы нажимаете на кнопку, подкрепляет нажимание кнопки. В дрессировке подкрепление «субъективно», т.е. вы как дрессировщик даете его собаке с целью вызвать данное поведение в будущем. Знаете вы это или нет, ваши действия всегда подкрепляют что-то, что делает собака. Неважно, какого поведения вы хотите добиться от собаки, это всегда продукт того, что вы делали, чтобы это подкрепить. Так что вы всегда должны думать, что именно вы собираетесь подкрепить, и как вы это делаете.

Давайте посмотрим на «меню подкреплений».

Дрессировочный «обмен».

Я буду больше говорить об этом в разделе о положительном подкреплении, но коротко упомяну и здесь. Дрессировка, основанная на отборе поведения с помощью положительного подкрепления, покоится на «дрессировочном обмене» между вами и вашей собакой. Проще говоря, вы говорите собаке: «Ты делаешь то, что я хочу, и за это я тебе дам то, что ты хочешь». Тогда дрессировочный процесс становится диалогом между вами. Собака смотрит на вас в ожидании указаний (информации о том, что вы хотите от нее) и подтверждения правильности (что собака сделала именно это). Ваша задача – быть понятным, последовательным и честным.

Звук щелчка, издаваемый кликером – основной путь «разговаривать» с собакой во время дрессировки. Это работает потому, что вы последовательно доставляете собаке то, что «обещает» щелчок, так что собака чувствует себя уверенно с этим однозначным ответом.

Безусловное подкрепление.

Хотя существует несколько научных определений термина «безусловное подкрепление», для целей дрессировки мы используем следующее: «то, что собака «естественно» хочет». Другими словами, вам не надо приучать собаку хотеть это. Это «что-то» может быть едой, игрой, физическим контактом с хэндлером и т.д. Секс – тоже безусловное подкрепление, но мы воздержимся от обсуждения этой темы в нашей книге. Это не то, что собаку надо «учить» любить. Пища – самое простое безусловное подкрепление для использования в дрессировке, потому что пищевой инстинкт - один из основных, и едой проще манипулировать. Игра как безусловное подкрепление не столь удобна (кроме «перемен» или празднования окончания тренировки), поскольку прерывает занятие. То же касается и физического поощрения (игры или массаж).

Условное подкрепление.

Условное подкрепление (иногда также называемое вторичным) – это то, что собаку «научили» любить, связывая его появление с безусловным подкреплением. В теории, все, что угодно, может быть условным подкреплением – голос, свисток, кликер. Главный аргумент при выборе сигнала – удобство для дрессировщика. Я слышал различные аббревиатуры, чтобы суммировать все необходимые качества условного подкрепления, но мне нравится одно: PRIDE: условное подкрепление должно быть в наличии (Present), постоянным (Reliable), немедленным (Immediate), определенным (Distinct) и очевидным (Evident). Расшифруем:
- в наличии – оно должно быть у вас с собой и должно быть легко доступно для использования;
- постоянным – Вы вырабатываете у собаки ассоциацию особого звука с безусловным подкреплением, так что вы должны иметь возможность воспроизводить этот звук одинаково все время;
- немедленным – звук должен быть очень быстрым, чтобы вы могли его очень точно применять в нужный момент. Фраза «Сейчас ты был очень хорошей собакой и хорошо, если ты сделаешь так еще раз» не годится. Подумайте об односложном слове или коротком звуке;
- определенным – условное подкрепление должно четко ассоциироваться с безусловным, и не должно «размываться» ассоциацией с чем-то, не относящимся к дрессировочному процессу. Слово «хорошо» не очень эффективно как условное подкрепление, поскольку вы его используете и в других ситуациях помимо дрессировки;
- очевидным – собака должна быть способна узнавать и отличать его от всех других звуков.

Почему кликер?

Вся программа этой книги построена на кликере. Вы можете выбрать любой условный сигнал для собаки. На протяжении всей книги вам будут попадаться буквы Щ/П («щелкнуть-покормить»). Вы можете использовать другие варианты (в том числе и голосовой сигнал), но по моему опыту, лучше кликера нет ничего. Кликер отвечает всем вышеперечисленным критериям. Его звук ясно слышен, он ассоциируется с безусловным подкреплением, он быстр и слышен на расстоянии; и он нейтрален, т.е. на него не влияют ваши эмоции или физическое состояние.

Добавлено (16.11.2008, 22:58)
---------------------------------------------

Quote

Почему важна нейтральность; или щелчок не есть похвала.

Многие дрессировщики отрицают идею нейтральности. Они хотят «хвалить» собаку. Я не знаю, помогает ли им это, или они считают, что под этим есть какая-то научная основа (энтузиазм имеет какой-то смысл для собаки – насколько я знаю, у подобных теорий нет научного фундамента). Я не против похвалы. Мои собаки получают ее много, в разных обстоятельствах и невзирая на погоду. Однако в процессе обучения информация важнее похвалы. Для собаки, как и для любого ученика, понимание того, что она сделала правильно, становится поощрением само по себе.

Похвала – это не общение. Похвала – это эмоциональное взаимодействие с собакой. В книге «Как стать лучшим другом своей собаке» монахи Нового скита описывают похвалу как «физическое и словесное общение с животным». Она выражает положительные чувства, необязательно положительную информацию.

Кликер не несет никакой эмоциональной оценки того, что делает собака; он просто «отмечает» правильное действие. Это чисто информационное сообщение. Он несет собаке ясное, недвусмысленное сообщение: «То, что ты делаешь, правильно». Это примерно то же, что пятерка, которую учитель ставит вам в тетрадь после диктанта. Вы будете ей рады, даже если он вас не обнимет при этом. Вы знаете, что вы преуспели, и только это вам надо.

Похвала не служит той же цели и не ведет к тому же результату, что и положительное подкрепление. В институте я ужасно учился, и особенно плохо было с химией. Мои родители всегда давали мне понять, что любят меня («хвалили» меня), но это никак не помогало мне преодолеть разочарование от того, что в лаборатории я был полным болваном. И хотя мой преподаватель химии старался меня научить изо всех сил, я так и не научился, как преуспеть в науке (эта неполноценность левого полушария немало повлияла на то, что я так и не стал ветеринаром при всей своей любви к животным).

Это же относится и к собакам. В дрессировке к соревнованиям мы учим собак выполнять определенные действия определенным образом. Эти навыки не имеют «естественного» смысла для собаки, в отличие от пастьбы для бордер колли или хождения по следу для гончих или перевозки нескольких десятков килограммов груза по замерзшей тундре для маламутов. Собака должна не только научиться физическим действиям; она должна выучить, по каким сигналам и когда их выполнять. Это все довольно непонятно. Поэтому самое главное – использовать инструмент, который дает собаке четкий, недвусмысленный сигнал о том, что конкретное действие было правильным. Делая так, мы достигаем ясности (или чего-то близкого к ней) и повышаем вероятность того, что данное действие будет повторяться в будущем.

Ограничения при использовании голосового маркера.

Голосовой сигнал в качестве условного подкрепления менее эффективен, чем кликер. В сравнении по шкале PRIDE он проигрывает по нескольким пунктам.

Во-первых, голос - не такой определенный сигнал, как кликер. Давайте предположим, что вы используете слово «хорошо». Вы, возможно, говорите «хорошая собака» раз 50-60 на дню вне дрессировочного контекста. Слово «хорошо» таким образом не имеет эксклюзивной связи именно с дрессировкой. Вы можете сказать «хорошо» после вкусного обеда, или по телефону, обычно при собаке. Все это размывает особую ценность слова в качестве условного подкрепления.

Слово и не такое «быстрое». Для этого есть несколько причин. Во-первых, поскольку кликер позволяет вам реагировать на действия собаки немедленно, вы должны будете, и это произойдет, выработать отличное чувство своевременной подачи сигнала. При занятиях с кликером вы научитесь вычленять маленькие кусочки поведения, «выхватывать» их и формировать из них что-то лучшее. Хотя у вас в голове всегда цельная картина, вы работаете с деталями. Вы можете отреагировать на движение одной лапой при отработке движения рядом, например. Голосовой сигнал не даст такой точности.

Во-вторых, для большинства людей, когда они привыкнут управляться с кликером, он становится намного быстрее, чем речь. Сколько раз вы хотели сказать одно, а получалось сказать совсем другое? Физический рефлекс нажатия на кнопку при нужном действии выработать легче, чем процесс облечения в слова вашей позитивной реакции.
***
Голос также очень сильно меняется в зависимости от того, жарко ли вам, или вы устали, рады или расстроены, хотите пить – и т.д. Практически невозможно всегда говорить одно и то же слово в одной и той же интонации и с одной и той же громкостью. Поскольку интонация важна для собаки, эти неизбежные вариации будут иметь разное значение. Условное подкрепление должно упрощать вещи; использование голосового маркера усложнит их.

Это не значит, что похвала и похлопывания не нужны или не имеют значения. Это не так. Я много использую и того, и другого. Но они являются безусловным, а не условным подкреплением. Это вещи, ради которых собака работает; они не сообщают собаке о том, что приближается то, ради чего она работает. И они случаются после того, как действие закончено. Они не доставляют информацию во время действия.

Quote

Время – это все!
Смысл в том, чтобы щелкать точно в тот момент, который вы хотите поощрить. Это значит, что вы должны четко сознавать, что вы хотите получить. Карен Прайор в книге «Несущие ветер» рассказывает, как она пыталась научить дельфина переплывать из одного бассейна в другой. Дельфин проплывал через проход и немедленно разворачивался и плыл обратно, прежде, чем успевали закрыть проход. Когда наконец Карен попросила кого-то посмотреть со стороны, наблюдатель ей сказал, что она свистела ровно в тот момент, когда дельфин начинал разворот. Так что вместо того, чтобы поощрить его переход в другой бассейн, она поощряла разворот. Когда она начала подавать сигнал в нужный момент (речь идет о долях секунды), проблема была решена очень быстро.

Урок, который Карен извлекла из этой ситуации, был следующим: дрессировщик всегда должен спрашивать себя «Что я поощряю?». На самом деле, вопрос состоит из двух частей: 1) что я хочу поощрять? 2) что я на самом деле поощряю. Это требует от вас тщательного планирования занятия и концентрации на протяжении всего процесса.

Вы должны сфокусироваться исключительно на том, что делает собака, чтобы соответствующим образом реагировать на то, что она предлагает. Это будет честно. Ведь в конце концов, вы же требуете, чтобы собака полностью концентрировалась на вас! Это одна из причин, о которой Карен Прайор в «Не рычите на собаку!» говорит, что необоснованное прерывание занятия является наказанием. Перестать обращать на собаку внимание – это убрать возможность у собаки достичь ее цели. Это разрушит весь принцип метода.

Хотя классическое определение поощрения содержит примечание о том, что оно следует за действием, это относится только к безусловному подкреплению. Условное подкрепление должно быть доставлено собаке в момент совершения действия, чтобы оно четко ассоциировалось именно с желаемым поведением. Обычная ошибка для начинающего дрессировщика в использовании кликера – затягивание с щелчком. Щелчок так быстр и конкретен, что всегда поощряет то, что происходит именно в этот момент. Если вы промедлите с подачей условного подкрепления, вы поощрите нечто совсем не то, что намеревались.

Возможно, вам будет легче понять это, если вы будете думать о поощрении процесса, а не поощрении результата. Я хочу, чтобы собака знала, что то, что она делает – правильно, а не то, что она уже сделала. Гораздо важнее, чтобы она поняла, как это делать, а не чтобы она это в принципе сделала. Так что, если я и буду подавать сигнал невовремя, лучше это делать раньше, а не позже. Так я, по крайней мере, поймаю поведение в развитии. Щелчок может «обрубить» поведение слишком рано, но это легко преодолеть. Я просто рассматриваю то поведение, которое я поощрил раньше, чем требовалось, как шаг в правильном направлении, и продолжаю двигаться дальше. Этот вариант не сработает, если я буду щелкать слишком поздно; тогда я теряю все поведение целиком.

Чтобы понять, как это работает, давайте вернемся к обычному «сидеть». Поощряя «попу на земле», я подаю условный сигнал, когда собака садится. При своевременной подаче щелчок раздается в тот момент (или за мгновение до того), как собака касается попой земли. Возможна слишком ранняя подача сигнала: если я щелкну в тот момент, когда собака еще только начала садиться и ей еще легко подняться обратно или зависнуть, щелчок может прервать поведение до того, как получится сесть. Так можно построить «недопосадку». С другой стороны, если я щелкну, когда собака уже села на землю, я поощряю то, что ее попа находится на земле, а не то, как она туда попала. При правильной подаче сигнала я щелкну за мгновение до того, как она коснется земли, поощряя движение мышц – так же, как и результат этого движения, который немедленно последует.

Добавлено (16.11.2008, 23:07)
---------------------------------------------

Quote

Щелчок заканчивает поведение.

Это одна из областей работы с кликером, которую многие сначала понимают с трудом. Сила кликера в точности, с которой он отмечает отдельное правильное действие. Собака, с которой провели подготовительное обучение, понимает, что когда она слышит щелчок, то она заслужила поощрение.

Поэтому это закон – каждый щелчок сигнализирует собаке о том, что она сделала то, что вы от нее хотели и работа окончена. И это закон, что услышав щелчок, собака вольна прекратить то, что она делала, и получить кусочек.
***
Помните одно из главных правил отбора поведения: Вы работаете только над одним критерием за раз.

Quote

Применение кликера.

В этой книге я говорю о «кликер-дрессировке», что является сокращенным от «метод оперантного научения, основанный преимущественно на положительном подкреплении и включающий систематическое применение условного поощрения». Если вы собираетесь дрессировать собаку так, как я описываю здесь, вам обоим надо чувствовать себя комфортно при использовании кликера.

Ранее я говорил о том, почему надо использовать кликер. Давайте теперь поговорим, как им пользоваться. Первый шаг – сделать кликер для собаки условным поощрением. Вы должны быть уверены, что она поняла и приняла, что «щелк» означает «хорошее на подходе».

Вырабатываем ассоциацию.

Идея проста: создать рефлекторную связь между звуком («щелк») и безусловным подкреплением («лакомство»). Собака учит что щелчок=лакомство. Просто щелкните и немедленно покормите. Повторите так пять раз. Делайте так четыре-пять занятий. Вам может показаться задолго до двадцать пятого повторения, что уже все хорошо, но доделайте до конца. Это настолько важный фундамент всего в будущем, что не надо упрощать себе жизнь. Не торопитесь.

Quote

Проверяем ассоциацию.

Через два-три занятия можно проверить, насколько прочна ассоциация щелчка с поощрением у собаки. Вот пара вариантов проверки:

Собака настораживается при звуке. Что бы не делала в тот момент собака, щелкните. Понаблюдайте за ее реакцией. Если она уже поняла связь, то вы увидите «ожидание» - поднятая голова, настороженные уши, глаза смотрят на вас. Если же заметной реакции не будет – связь не выработана.

Пусть собака предложит поведение. Вы щелкали, когда собака сидела, стояла и лежала, но один из этих вариантов неизбежно повторялся чаще. Ничего не делайте. Подождите, пока собака примет одно из положений и щелкните и покормите. Теперь пусть собака снова начнет двигаться, и подождите, пока она снова предложит это поведение. Это не должно занять много времени. Щелкайте и кормите.

Реакция вашей собаки на проверку в середине процесса приучения подскажет вам, как все идет. Но даже если реакция будет полностью соответствовать описанию, продолжите процесс приучения к кликеру до конца.

Поддерживаем ассоциацию.

Две самых распространенных ошибки – щелкать без поощрения и поощрять без щелчка. Правило таково: один щелчок – одно поощрение. Не щелкайте без подкрепления (в начале оно должно следовать за щелчком немедленно), и не поощряйте собаку без щелчка.

Quote

Так когда щелкать и кормить?
Время подачи маркера – это все. В начале, вы будете щелкать немедленно, как только собака дает вам поведение, которое вам нужно. В простом примере с обучением собаки сидеть вы щелкаете в момент касания «штанов» земли. Это обозначает то самое действие, которое хотите поощрить.

Однако очень важно рано приучить собаку к важному принципу: поощрение прибудет, но не всегда немедленно. «Иногда», скажете вы собаке, «надо еще немного поработать за этот щелчок». Это не нарушает дрессировочный договор. Вы все же поощряете, и принцип «один щелчок – одно поощрение» сохраняется. Вы просто увеличиваете время и требуете немного больше усилий.

Важно, чтобы собака рано поняла этот принцип. Он лежит в основе вариабельного подкрепления. Если ваша собака не привыкла к нему в начале, вам будет трудно убедить собаку сделать нужное вам действие два, три или четыре раза, чтобы заработать один щелчок. Собака настолько привыкнет к принципу «одно действие=один щелчок», что отсутствие щелчка будет ее разочаровывать, в то время как должно, наоборот, вдохновлять на увеличение усилий.

Так что, например, в обучении собаки сидеть, как только она начинает садиться регулярно, начните увеличивать промежуток между моментом посадки и щелчком. Пару занятий считайте до двух. Потом пару занятий – до трех, потом до четырех, до пяти и так далее. «Отпускайте» собаку после щелчка (пусть встанет). Это подтвердит, что «щелчок заканчивает поведение».