Instrumentelle und operante Konditionierung


Instrumentelle und operante Konditionierung sind Paradigmen der behavioristischen Lernpsychologie und betreffen das Erlernen von Reiz-Reaktions-Mustern (Stimulus-Response) aus ursprünglich spontanem Verhalten. Die Häufigkeit eines Verhaltens wird durch seine angenehmen (appetitiven) oder unangenehmen (aversiven) Konsequenzen nachhaltig verändert. In der Alltagssprache ist das „Lernen am Erfolg“ oder „Lernen durch Belohnung/Bestrafung“.

Man unterscheidet diese Art des Lernens von der Klassischen Konditionierung, die ausgelöstes Verhalten betrifft (der lernende Organismus hat keine Kontrolle über den Reiz oder seine Reaktion).

Geschichte

Die Erforschung der instrumentellen Konditionierung beginnt mit den Tierversuchen von Edward Lee Thorndike, die er im Rahmen seiner Doktorarbeit (1898) an der Columbia University machte. Er setzte Hühner, Katzen und Hunde in selbstgebaute Rätselkäfige (puzzle boxes) verschiedener Schwierigkeitsgrade und maß die Zeit, die die Versuchstiere zur Selbstbefreiung benötigten. Als Anreiz legte er, für die Tiere sichtbar, Futter neben den Käfig. Nachdem das Tier Erfolg hatte und mit Futter belohnt worden war, setzte er das Tier zurück in den Käfig und maß erneut die Zeit bis zur Käfigöffnung (sog. discrete trial procedure). Eine durchschnittliche Katze benötigte bei einer einfachen puzzle box anfangs 160 Sekunden, wurde jedoch immer schneller und benötigte nach 24 Versuchen nur noch 7 Sekunden. Die Ergebnisse seiner Versuche fasste Thorndike in seinem "Gesetz der Wirkung" (law of effect) zusammen: "Von allen Reaktionen in einer gegebenen Situation werden [...] jene Reaktionen, die für das Tier von Befriedigung begleitet oder gefolgt werden, stärker mit der Situation verbunden, sodass, wenn die Situation erneut eintritt, auch jene Reaktionen erneut auftreten; solche Reaktionen, die für das Tier [...] von Unbehagen begleitet oder gefolgt wurden, verlieren ihre Bindung an die Situation, sodass diese Reaktionen, wenn die Situation erneut eintritt, seltener auftreten." [1]

Thorndikes Reiz-Reaktions-Modell legte, mit Pawlows Experimenten zur Klassischen Konditionierung, die Grundlage für den von John B. Watson begründeten Behaviorismus, der jahrzehntelang die psychologische Forschung beherrschen sollte.

Geprägt wurde die behavioristische Forschung von niemandem so sehr wie von Burrhus Frederic Skinner, der Thorndikes und Watsons Arbeit fortsetzte und weiterentwickelte. Seine Käfige, die Skinner-Boxen, enthalten die Möglichkeit, das Zielverhalten (z. B. einen Hebel zu drücken) jederzeit auszuführen (sog. free operant procedure). Nach einem festgelegten Verstärkerplan hat dieses Verhalten für das Tier bestimmte Konsequenzen.

Unterschied zwischen instrumenteller und operanter Konditionierung

Bei der instrumentellen Konditionierung betrachtet man das Verstärken oder Abschwächen von instrumentellem Verhalten. Das Verhalten wird also als Instrument (= Mittel, Werkzeug) eingesetzt, um etwas herbeizuführen. Damit bezweckt dann ein Lebewesen ein bestimmtes Ziel zu erreichen und hat entweder Erfolg oder nicht. Je nach dem Resultat (outcome) wird es beim nächsten Mal wieder dasselbe oder eher ein anderes Verhalten an den Tag legen.

Bei der operanten Konditionierung betrachtet man beliebiges spontanes Verhalten, das vom Lebewesen auch unbeabsichtigt oder rein zufällig gezeigt werden kann und ohne weitere Bedingungen (wie z. B. das Vorhandensein eines Problems) wiederholt werden kann.

Grundbegriffe

Da Behavioristen sich auf Beobachtbares beschränken, fassen sie alle inneren Zustände wie eventuelle Wahrnehmungen, Gefühle und Gedanken in einer „Black Box“ zusammen. Auf diese Black Box wirken nun Umweltreize (Stimuli) in der Weise, dass Verhalten (Response) hervorgerufen wird. Diese Antwort hat eine Konsequenz. Wenn in einem bestimmten Kontext (Stimulus) ein beliebiges Verhalten gezeigt wird, kann es sein, dass dieses Verhalten künftig (unter gleichen Umständen) häufiger ausgeführt wird (dann kann man schließen, dass die Konsequenz „angenehm“ war), oder sie wird seltener (dann war die Konsequenz vermutlich „unangenehm“). Im ersten Fall spricht man von „Verstärkung“, im zweiten Fall (wertneutral) von „Bestrafung“.

Die Begriffe "angenehm/unangenehm" bzw. "appetitiv/aversiv" sind nicht als subjektiv erlebte Zustände zu verstehen - als solche hätten sie in einer behavioristischen Theorie keinen Platz - sondern als Ausdruck dafür, ob diese Zustände gesucht oder gemieden werden. Thorndike definierte wie folgt: "Mit angenehmer Zustand ist ein Zustand gemeint, den das Tier nicht vermeidet, oft sogar aufsucht und aufrechterhält. Unangenehm bezeichnet einen Zustand, den das Tier normalerweise meidet oder verlässt."[2]

Verstärkung geschieht, wenn die Konsequenz des Verhaltens ein angenehmer Reiz (positive Verstärkung) oder der Wegfall eines unangenehmen Reizes ist (negative Verstärkung). Entsprechend geschieht Bestrafung, wenn die Konsequenz ein unangenehmer Reiz (positive Bestrafung) oder der Wegfall eines angenehmen Reizes ist (negative Bestrafung, omission training oder "DRO" = Differential Reinforcement of Other behavior).

Diskriminative Hinweisreize (Signalreize) sind Reize, die bestimmte Verhaltenskonsequenzen signalisieren. Beispiel: Eine Ratte erhält nur dann eine Belohnung (Futter), wenn vorher eine Lampe aufleuchtete.

Verstärker

Verstärker sorgen beim operanten Konditionieren dafür, dass das Auftreten einer bestimmten Reaktion (sog. instrumentelle oder operante Reaktion) begünstigt oder erschwert wird. Verstärker können in den einzelnen Fällen recht unterschiedliche Dinge sein, für ein Kind vielleicht etwas Schokolade, bei einem Erwachsenen kann auch Kopfnicken oder Schulterklopfen Verstärkung genug sein (sozialer Verstärker). Was letztendlich als Verstärker funktioniert, bestimmt jedoch die Versuchsperson (also die Person, bei der eine bestimmte Verhaltensweise verstärkt werden soll). Wichtig ist, dass die Verstärker kontingent (also unmittelbar, erkennbar, regelhaft) und motivationsadäquat sind und Bedürfnisse (z. B. Hunger, Aktivitätsbedürfnis) befriedigen. Bei einem Verstärker, der erst Stunden nach der gewünschten Reaktion eintritt, ist nicht mehr erkennbar, wofür er vergeben wurde, und er hat deshalb keine Wirkung. Auch wird eine satte Ratte für eine Futterpille nichts mehr veranstalten – die Bedürfnisspannung fehlt. Um einer Verfettung von Laborratten vorzubeugen, benutzt man in der Forschung Erkenntnisse der Klassischen Konditionierung: Der Reiz „Verstärker“ (hier: Futter) wird mit einem anfangs neutralen Reiz (z. B. einem Pfiff) gekoppelt, wodurch der Pfiff durch klassische Konditionierung zum bedingten Reiz wird, der dann – wie Futter – ebenfalls die Wirkung einer Belohnung hat (diskriminativer Hinweisreiz).

Das Kontingenzschema

Positive Verstärkung bedeutet die Erhöhung der Auftretenswahrscheinlichkeit eines Verhaltens, wenn das Verhalten einen angenehmen Reiz auslöst (z. B. Anerkennung, Achtung, Nahrung, Geld).

Negative Verstärkung bedeutet die Erhöhung der Auftretenswahrscheinlichkeit eines Verhaltens, wenn das Verhalten einen unangenehmen Reiz verhindert oder beendet (z. B. jeweils das Entfernen von Lärm, grellem Licht, Hitze oder Kälte).

Positive Bestrafung oder Bestrafung I bedeutet die Senkung der Auftretenswahrscheinlichkeit eines Verhaltens, wenn das Verhalten einen aversiven Reiz auslöst (z. B. Lärm, grelles Licht, Hitze oder Kälte, Stromschlag).

Negative Bestrafung oder Bestrafung II bedeutet die Senkung der Auftretenswahrscheinlichkeit eines Verhaltens, wenn das Verhalten einen appetitiven Reiz verhindert oder beendet (z. B. Wegnahme von Futter, Wärme, Weihnachtsgeld).

Negative Verstärkung und Bestrafung werden häufig miteinander verwechselt. Das Wort positiv steht hier nur für das Hinzufügen eines Reizes, das Wort negativ für das Entfernen.

Diese Arten der Beeinflussung von Verhalten können in folgender Tabelle festgehalten werden:

Verhalten…
erzeugt verhindert/beendet
appetitive Konsequenz positive Verstärkung negative Bestrafung (II)
aversive Konsequenz positive Bestrafung (I) negative Verstärkung

Negative Verstärkung hat klinisch die größte Bedeutung, da sie zur Aufrechterhaltung von Vermeidungsverhalten z. B. bei Phobischen Störungen und Zwangsstörungen massiv beiträgt: Die Patienten unternehmen alles, um einen als aversiv empfundenen Zustand (enge Räume, ungewaschene Hände) zu meiden, sodass sie niemals die Erfahrung machen, ob sie den Zustand inzwischen aushalten bzw. die Situation meistern können.

Arten von Verstärkern

Primäre und sekundäre Verstärker

Man unterscheidet verschiedene Arten von Verstärkern. Zwei klassische Arten sind: primäre Verstärker und sekundäre Verstärker. Primäre Verstärker sind jene Verstärker, die bereits von Geburt an wirken. Laut Miller und Dollard wirkt jede Reduktion eines allzu intensiven Reizes als primäre Verstärkung. Primäre Verstärker sind beispielsweise Essen und Trinken, da sie Hunger und Durst reduzieren, aber auch Körperkontakt ist primärer Verstärker. Sekundäre Verstärker (siehe auch Token-System) dagegen sind gelernte Verstärker. Sie sind also zunächst neutrale Reize, die durch die wiederholte Kopplung mit primären Verstärkern sekundäre Verstärkerqualität erhalten. Beispiele für sekundäre Verstärker sind beispielsweise Geld, denn die Funktion wird erst gelernt. Zunächst ist Geld ein komplett neutraler Reiz, bis gelernt wird, dass es zur Bedürfnisbefriedigung herangezogen werden kann.

Token-Konditionierung

Ähnlich zu sekundären Verstärkern, gibt es das Prinzip, für eine Verstärkung so genannte Token zu vergeben. Diese können dann später – nach ausreichender Akkumulation von Token – gegen andere Dinge, Handlungen, Dienstleistungen usw. eingetauscht werden. Häufig findet das Prinzip bei der Verhaltensformung Anwendung, wenn in therapeutischen Einrichtungen das Verhalten der Patienten in einer bestimmten Art und Weise geformt werden soll.

Premack-Prinzip

Hauptartikel: Premack-Prinzip

"Die Gelegenheit zu wahrscheinlicherem Verhalten kann weniger wahrscheinliches Verhalten verstärken." (David Premack, 1962[3]) Verhalten, das wir gerne und häufig tun, hat eine verstärkende Wirkung auf Verhalten, das wir weniger gern und häufig tun. Nehmen wir als Beispiel ein Kind mit einem Nachmittag zur freien Verfügung. Wenn wir es vollkommen frei vor die Wahl zwischen „Fernsehen“, „Hausaufgaben machen“ und „Zimmer aufräumen“ stellen, wird es mutmaßlich die meiste Zeit mit Fernsehen verbringen, etwas Hausaufgaben machen und das Zimmer unaufgeräumt lassen. Nun können wir das Verhalten mit der jeweils höheren Auftretenswahrscheinlichkeit als Verstärker benutzen: Das Kind wird mehr Zeit mit Hausaufgaben verbringen, wenn es erst danach fernsehen darf, und es wird mehr Zeit mit Aufräumen verbringen, wenn es erst danach Hausaufgaben machen darf.

In Ergänzung zum Premack-Prinzip konnte in Tierversuchen mit Ratten nachgewiesen werden, dass auch ein Verhalten, das eine niedrigere Auftretenswahrscheinlichkeit besitzt, als Verstärker dienen kann: Nehmen wir an, eine Ratte, die eine Stunde in einem Käfig sitzt, verbringt ohne äußere Zwänge 50 Minuten damit, an einem Wasserspender zu lecken und zehn Minuten damit, in einem Laufrad zu rennen. Man kann nun nach dem Premack-Prinzip ohne Probleme das längere Rennen im Laufrad durch das Lecken verstärken. Es geht jedoch auch andersherum. Wenn die Ratte zwei Minuten lecken muss, um danach eine Minute im Laufrad zu rennen, wird dies nicht als Verstärker wirken, da die Ratte nach diesem Verstärkerplan leicht auf ihre Basis-Verhaltenshäufigkeit von 10 Minuten Rennen in der Stunde kommt. Wenn die Ratte aber fünfzehn Minuten lecken muss, um eine Minute rennen zu dürfen, wirkt dieses Verhalten als Verstärkung für das Lecken. Somit kann auch ein Verhalten mit einer niedrigeren Auftretenshäufigkeit als Verstärker dienen.

Verstärkerpläne

Kontinuierliche Verstärkung

Hier wird bei jeder gewünschten Reaktion verstärkt. Dies führt zu einem starken Anstieg der Lernkurve. Die Versuchsperson lernt also schnell, vergisst aber auch ebenso schnell wieder, wenn nicht mehr verstärkt wird. Dieser Verstärkerplan ist optimal in der Akquisitionsphase, also beim ersten Erlernen des Zielverhaltens.

Um einer Extinktion vorzubeugen, muss die Kopplung gelegentlich wiederholt werden. Dabei haben sich die folgenden, unterschiedlich erfolgreichen Verstärkerpläne herauskristallisiert.

Quotenverstärkung

Bei dieser Variante verstärkt man erst, wenn eine bestimmte Anzahl von gewünschten Reaktionen erfolgt ist. Beispiel: Bei jedem fünften (fixed ratio) oder durchschnittlich jedem fünften (variable ratio) Auftreten des Zielverhaltens erfolgt eine Verstärkung.

Intervallverstärkung

Bei dieser Methode wird nach dem letzten verstärkten Verhalten frühestens wieder nach in einem konstanten oder variablen Zeitintervall verstärkt, sobald das erwünschte Verhalten auftritt. Beispiel: Für die Dauer von 20 Sekunden (fixed interval) oder durchschnittlich 20 Sekunden (variable interval) wird kein Verhalten verstärkt.

Ratenverstärkung

Verstärkt wird, wenn das Zielverhalten mit hoher Frequenz oder niedriger Frequenz gezeigt wird. Die Verstärkung hoher Frequenzen führt zum selben Ergebnis wie Verhältnispläne, die Verstärkung niedriger Frequenzen führt zum selben Ergebnis wie Intervallpläne.

Neues Verhalten

Durch positive oder negative Verstärkung und Methoden wie Shaping und Chaining können auch komplexe Abfolgen von Verhaltensweisen gefördert werden. Eine elegante Methode, auf gleichermaßen anschauliche wie reproduzierbare Weise einem Testtier neue Verhaltensweisen beizubringen, stellt das Lernen mit Hilfe einer so genannten Skinner-Box dar.

Shaping

Beim Shaping (auch Approximation genannt) wird nicht erst die vollständige Abfolge der erwünschten Verhaltensweisen verstärkt, sondern bereits jede Annäherung an die gewünschten Verhaltensweisen. Soll eine Taube etwa auf einen roten Punkt auf einer Scheibe picken, so wird bereits verstärkt, wenn die Taube den Kopf zur Scheibe bewegt; dann, wenn sie zur Scheibe schaut; dann, wenn sie sich der Scheibe nähert; dann, wenn sie auf die Scheibe pickt und schließlich, wenn sie den roten Punkt auf der Scheibe trifft. Insbesondere dient diese Technik dem Erlernen komplexerer Verhaltensweisen. Auf diese Weise können auch recht unnatürliche Bewegungsabfolgen bei Tieren konditioniert werden, wie sie etwa im Zirkus zu sehen sind.

Kritik

Die Erforschung des Lernens durch Konditionierung beschränkt sich rigoros auf beobachtbares Verhalten und spekuliert nicht über Konstrukte, die dem Verhalten eventuell zugrunde liegen. Daher kann sie nicht erklären, wie Lernen durch intrinsische Motivation (z. B. Neugier) funktioniert. Erst durch alternative Modelle – etwa Albert Banduras sozialkognitive Lerntheorie, welche insbesondere das Lernen am Modell erklärt – wurden auch diese Verhaltensmuster erklärbar.

Trotz differenzierter Konditionierungseffekte schaffen ebendiese nicht, z.B. stringent den Wirkmechanismus der Klingelmatte gegen Enuresis zu erklären.

Auch aus ethischer Sicht gibt es Kritik: Die erzieherischen Konsequenzen des Behaviorismus werden als problematisch angesehen, sofern sie in einer Weise eingesetzt werden, die an Dressur und Gehirnwäsche erinnert. Die operante und klassische Konditionierung sollte in einer ethisch vertretbaren Weise eingesetzt werden. Dazu ist erforderlich, dass dem Lernenden der Konditionierungsprozess ausführlich erklärt wird, und er sich bewusst dafür oder dagegen entscheiden kann. Dazu gehört auch, dass der Lernende die Lernziele selbst bestimmt. Dies ist zum Beispiel dann nicht der Fall, wenn die Konditionierung von bestimmten Empfindungen als Reaktion auf das Darbieten bestimmter Produkte in der Werbung eingesetzt wird.

Weblinks

Einzelnachweise

  1. im Original: "Of several responses made to the same situation, those which are accompanied or closely followed by satisfaction to the animal will, other things being equal, be more firmly connected with the situation, so that, when it recurs, they will be more likely to recur; those which are accompanied or closely followed by discomfort to the animal will, other things being equal, have their connections with that situation weakened, so that, when it recurs, they will be less likely to occur."
  2. im Original: "By a satisfying state of affairs is meant one which the animal does nothing to avoid, often doing such things as attain and preserve it. By a discomforting or annoying state of affairs is meant one which the animal commonly avoids and abandons."
  3. im Original: "An opportunity to engage in more probable responses will reinforce a less probable response."

Die News der letzten Tage