Gefangenendilemma
Das Gefangenendilemma ist ein zentraler Bestandteil der Spieltheorie. Es ist nicht zu verwechseln mit dem Gefangenenparadoxon über bedingte Wahrscheinlichkeiten. Bei dem Dilemma handelt es sich um ein Spiel mit zwei Spielern.
Die Spieler haben die Möglichkeit zusammenzuarbeiten, um eine hohe Auszahlung zu erzielen, oder können sich für eine geringere Auszahlung gegenseitig verraten. Beide Spieler müssen ihre Strategie ohne Kenntnis der Wahl des jeweils anderen Spielers festlegen (dies geschieht automatisch, wenn sie es gleichzeitig tun). Es ist daher möglich, dass ein Spieler das Gegenteil von dem tut, was der andere macht. In diesem Fall profitiert nur der Spieler, der den anderen verrät, und dieser profitiert dann besonders stark.
Da für beide Spieler damit identische Bedingungen vorliegen, ist das Gefangenendilemma ein symmetrisches Spiel. Des Weiteren kennen beide Spieler die eigenen Strategiemöglichkeiten und die des anderen Spielers und die jeweils dazugehörigen Auszahlungen für beide Spieler. Das Spiel kann damit in Normalform dargestellt werden.
Das Gefangenendilemma taucht bei einer Vielzahl soziologischer und ökonomischer Fragestellungen auf. In den Wirtschaftswissenschaften wird das Gefangenendilemma als Teil der Spieltheorie auch den entscheidungsorientierten Organisationstheorien zugeordnet.
Entwicklung und Namensgebung
Mit dem Thema beschäftigte sich schon Thomas Hobbes (1588–1679). Hobbes war ein englischer Mathematiker, Staatstheoretiker und Philosoph der Neuzeit; in seinem Hauptwerk Leviathan entwickelte er eine Theorie des Absolutismus. Hobbes war neben John Locke und Jean-Jacques Rousseau einer der bedeutendsten Vertragstheoretiker. (Siehe auch: Gefangenendilemma und Wirtschaftsethik im Leviathan.)
Die Grundkonzeption des Gefangenendilemmas wurde in den 1950er Jahren von zwei Mitarbeitern der Rand Corporation formuliert. Um ihre abstrakten theoretischen Resultate zu veranschaulichen, beschrieben Merrill Flood und Melvin Dresher ein Zweipersonenspiel, das zeigt, wie individuell rationale Entscheidungen zu kollektiv schlechteren Ergebnissen führen können.
Die Bezeichnung „Gefangenendilemma“ indes geht auf Albert William Tucker von der Universität Princeton zurück. Dieser hatte die Auszahlungsmatrix 1950 bei Melvin Dresher gesehen und übernahm sie ihrer Anschaulichkeit halber. Als er vor Psychologen einen Vortrag über die Spieltheorie halten sollte, entschloss er sich, die abstrakte Auszahlungsmatrix mit dem Szenario eines sozialen Dilemmas zu veranschaulichen. Dabei stehen zwei (schuldige) räumlich getrennte Untersuchungshäftlinge vor der Wahl zu leugnen oder zu gestehen. Für den Einzelnen ist es am sichersten zu gestehen, beidseitiges Leugnen aber verspricht das beste Gesamtergebnis.
Seitdem hat sich die Bezeichnung Gefangenendilemma für sämtliche Interaktionsbeziehungen mit denselben Rahmenbedingungen (zwei Akteure, je zwei Handlungsalternativen, symmetrische Auszahlungsmöglichkeiten, keine Möglichkeit der Absprache, wechselseitige Interdependenzen) etabliert.
Beschreibung der Situation
Das von Tucker zur Veranschaulichung formulierte soziale Dilemma ist wie folgt:
Zwei Gefangene werden verdächtigt, gemeinsam eine Straftat begangen zu haben. Beide Gefangene werden in getrennten Räumen verhört und haben keine Möglichkeit, sich zu beraten bzw. ihr Verhalten abzustimmen. Die Höchststrafe für das Verbrechen beträgt sechs Jahre. Wenn die Gefangenen sich entscheiden zu schweigen (Kooperation), werden beide wegen kleinerer Delikte zu je zwei Jahren Haft verurteilt. Gestehen jedoch beide die Tat (Defektion), erwartet beide eine Gefängnisstrafe, wegen der Zusammenarbeit mit den Ermittlungsbehörden jedoch nicht die Höchststrafe, sondern lediglich von vier Jahren. Gesteht nur einer (Defektion) und der andere schweigt (Kooperation), bekommt der erste als Kronzeuge eine symbolische einjährige Bewährungsstrafe und der andere bekommt die Höchststrafe von sechs Jahren.
In einer Auszahlungsmatrix eingetragen ergibt sich inklusive des Gesamtergebnisses folgendes Bild:
B schweigt | B gesteht | |||||
---|---|---|---|---|---|---|
A schweigt | –4 | A: −2 | B: −2 | –7 | A: −6 | B: –1 |
A gesteht | –7 | A: –1 | B: −6 | –8 | A: −4 | B: −4 |
Beschreibung des Dilemmas
Ergebnisse
–1 | „Versuchung“ (temptation T) | Belohnung für einseitigen Verrat/einseitige Defektion (individuelle Freiheit) |
–2 | „Belohnung“ (reward R) | Belohnung für Kooperation von A und B (nur zwei Jahre gemeinschaftliche Strafe) |
–4 | „Bestrafung“ (punishment P) | Bestrafung für gegenseitigen Verrat/zweiseitige Defektion (vier Jahre Strafe) |
–6 | „Des Gutgläubigen Belohnung“ (sucker's payoff S) |
Bestrafung für das Vertrauen, welches einseitig durch den Partner gebrochen wurde (sechs Jahre Strafe) |
In allgemeiner Form lässt sich das Gefangenendilemma mit folgender Auszahlungsmatrix darstellen:
B kooperiert | B defektiert | |||
---|---|---|---|---|
A kooperiert | A: $ R $ | B: $ R $ | A: $ S $ | B: $ T $ |
A defektiert | A: $ T $ | B: $ S $ | A: $ P $ | B: $ P $ |
mit $ T>R>P>S $ und $ (T+S)/2. $
Die Auszahlung eines Spielers hängt somit nicht nur von der eigenen, sondern auch von der Entscheidung des Komplizen ab (Interdependenz des Verhaltens).
Kollektiv ist es objektiv für beide vorteilhafter zu schweigen. Würden beide Gefangenen kooperieren, dann müsste jeder nur zwei Jahre ins Gefängnis. Der Verlust für beide zusammen beträgt so vier Jahre, und jede andere Kombination aus Gestehen und Schweigen führt zu einem höheren Verlust.
Individuell scheint es für beide vorteilhafter zu sein auszusagen. Für den einzelnen Gefangenen stellt sich die Situation individuell so dar:
- Falls der andere gesteht, reduziert er mit seiner Aussage die Strafe von sechs auf vier Jahre;
- falls der andere aber schweigt, dann kann er mit seiner Aussage die Strafe von zwei Jahren auf ein Jahr reduzieren!
Individuell gesehen ist als Strategie also auf jeden Fall „gestehen“ zu empfehlen. Diese Aussage hängt nicht vom Verhalten des anderen ab, und es ist anscheinend immer vorteilhafter zu gestehen. Eine solche Strategie, die ungeachtet der gegnerischen gewählt wird, wird in der Spieltheorie als 'dominante Strategie' bezeichnet.
Das Dilemma beruht darauf, dass kollektive und individuelle Analyse zu unterschiedlichen Handlungsempfehlungen führen.
Die Spielanlage verhindert die Verständigung und provoziert einen einseitigen Verrat, durch den der Verräter das für ihn individuell bessere Resultat „ein Jahr“ (falls der Mitgefangene schweigt) oder vier statt sechs Jahre (falls der Mitgefangene gesteht) zu erreichen hofft. Verfolgen aber beide Gefangenen diese Strategie, so verschlimmern sie – auch individuell – ihre Lage, da sie nun je vier Jahre statt der zwei Jahre Gefängnis erhalten.
In diesem Auseinanderfallen der möglichen Strategien besteht das Dilemma der Gefangenen. Die vermeintlich rationale, schrittweise Analyse der Situation verleitet beide Gefangene dazu zu gestehen, was zu einem schlechten Resultat führt (suboptimale Allokation). Das bessere Resultat wäre durch Kooperation erreichbar, die aber anfällig für einen Vertrauensbruch ist. Die rationalen Spieler treffen sich in einem Punkt, der in diesem Fall als Nash-Gleichgewicht bezeichnet wird. Das Paradoxe ist, dass beide Spieler keinen Grund haben, vom Nash-Gleichgewicht abzuweichen und das, obwohl in diesem Fall des Gefangenendilemmas das Nash-Gleichgewicht ein nicht pareto-effizienter Zustand ist.
Vertrauen
Das Dilemma der Teilnehmer beruht besonders auf der Unkenntnis über das Verhalten anderer Teilnehmer. Die optimale Strategie für beide zusammen wäre, wenn alle Mitspieler einander vertrauten und miteinander kooperierten. Das Vertrauen kann auf zweierlei Art erzielt werden: Zum einen durch – nach den ursprünglichen Spielregeln nicht erlaubte – Kommunikation und entsprechende Vertrauensbeweise, zum anderen durch Strafe im Falle des Vertrauensbruches.
Der Ökonom und Spieletheoretiker Thomas Schelling geht in seinem Werk The Strategy of Conflict (deutsch: Die Strategie des Konflikts) auf solche Probleme unter den Bedingungen des Kalten Krieges ein (Gleichgewicht des Schreckens). Die Bestrafung für einseitigen Vertrauensbruch wäre so groß gewesen, dass er sich nicht lohnte. Beim wiederholten Spiel des Gefangenendilemmas beruhen die meisten Strategien darauf, dass man Informationen aus vorhergehenden Schritten verwendet. Wenn der andere in einem Schritt kooperiert, vertraut die erfolgreiche Strategie Tit for Tat („Wie du mir, so ich dir“) darauf, dass er es weiterhin tut, und gibt ihrerseits einen Vertrauensbeweis. Im entgegengesetzten Fall bestraft sie, um zu verhindern, dass sie ausgenutzt wird.
William Poundstone weist darauf hin, dass es sich nicht um ein Dilemma handele, wenn man auf Grund des Vertrauens sofort und immer Kooperation wählt.[1]
Schuld und Unschuld
Im Gefangenendilemma spielt die Frage von tatsächlicher Schuld oder Unschuld für das Resultat keine Rolle. Das wirkt sich so aus, dass auch der Unschuldige besser wegkommt, wenn er gesteht – in dem Fall für etwas, das er nicht getan hat. Da moralische Bedenken und die Hoffnung auf Erweis der Unschuld den Unschuldigen davon abhalten zu gestehen, was er nicht getan hat, muss er dann oft die schlechtere Stellung einnehmen, die sich aus dem Nichtgeständnis ergibt. Wenn die Strafe für Nichtgestehen sehr hoch ist, gestehen auch viele Unschuldige alles. Das Dilemma kommt insbesondere bei Schauprozessen zum Tragen.
Spielweisen
Einmaliges Spiel
Gemäß der klassischen Analyse des Spiels ist im nur einmal gespielten Gefangenendilemma die einzig rationale Strategie für einen am eigenen Wohl interessierten Spieler zu gestehen und den Mitgefangenen damit zu verraten. Denn durch seine Entscheidung kann er das Verhalten des Mitspielers nicht beeinflussen, und unabhängig von der Entscheidung des Mitspielers stellt er sich immer besser, wenn er selbst nicht mit dem Mitgefangenen kooperiert. Diese Analyse setzt voraus, dass die Spieler nur einmal aufeinander treffen, und ihre Entscheidungen keinen Einfluss auf spätere Interaktionen haben können. Da es sich um ein echtes Dilemma handelt, folgt aus dieser Analyse aber keine eindeutige Handlungsanweisung (präskriptive Aussage) für reale Interaktionen, die einem Gefangenendilemma entsprechen.
Im einmaligen, alles entscheidenden Spiel, muss jedoch darauf hingewiesen werden, dass es egal ist, ob sich beide Parteien zuvor absprechen. Die Situation nach einem evtl. geführten Gespräch bleibt gleich.
Moderne Analysen zeigen andere rationale Strategien, insbesondere bei anderen Anwendungen des Modells. Dass es unterschiedliche Auffassungen über die Rationalität geben könne, zeigt ein Hinweis von Douglas Hofstadter. Er meinte, dass es zwei Typen von Zivilisationen im Weltall geben könne, eine, deren Mitglieder beim einmaligen Spiel des Gefangenendilemmas kooperieren würden, die andere, deren Mitglieder Verrat üben würden. Der zweite Typ dieser Gesellschaften würde sich am Ende in die Luft jagen.[2]
In Experimenten wurde nachgewiesen, dass sehr viele Mitspieler auch bei einmaligem Spiel kooperieren. Es wird angenommen, dass es verschiedene Spielertypen gibt. Die tatsächliche Verteilung der in den Experimenten beobachteten Kooperation kann durch die Standardtheorie der „rationalen Strategie“ nicht erklärt werden. In einem Experiment mit 40 Mitspielern, die jeweils 20 Spiele paarweise absolvierten, betrug die Kooperationsrate im Durchschnitt 22 %.[3]
Nach einem von Frank, Gilovich und Regan 1993 veröffentlichten Experiment wurde das Verhalten von Ökonomiestudenten im ersten Studienjahr mit Studenten im Jahr vor dem Examen sowie mit dem Verhalten von Studenten anderer Fachrichtungen unter den Bedingungen eines Gefangenendilemmas verglichen. Dabei erhielten die Studenten, wenn sie beide kooperierten, je zwei Dollar und wenn sie beide nicht kooperierten, je einen Dollar; bei einseitiger Kooperation bekam der kooperierende Student nichts, der nicht kooperierende Student dagegen drei Dollar. Es zeigte sich, dass sowohl Erstsemester, als auch Studenten anderer Fachrichtungen sich mit großer Mehrheit für Kooperationsstrategien entschieden. Studenten im vierten Jahr ihres Ökonomiestudiums tendierten dagegen zu unkooperativem Verhalten. Frank u.a. schlossen daraus, dass Ökonomen in ihrer Lehre mit Rücksicht auf das Allgemeinwohl als auch auf das Wohlergehen ihrer Studenten eine weniger verengte Perspektive hinsichtlich menschlicher Motivation einräumen sollten als dies bisher der Fall war.[4]
Mehrmaliges (endliches) Spiel
Die Situation ändert sich, wenn das Spiel mehrere Runden gespielt wird (Iteriertes oder Wiederholtes Gefangenendilemma). Diese Variation ermöglicht den Spielern, die Entscheidungen des Gegners in den vorherigen Runden mit in die Entscheidung, ob in der jeweils nächsten Runde kooperiert oder übergelaufen wird, einzubeziehen. Vertrauensbruch kann somit im nächsten oder einem späteren Spiel geahndet werden (Vergeltung), Kooperation kann belohnt werden.
Die Anzahl der Runden darf den Spielern allerdings nicht mitgeteilt werden, sondern muss diesen unbekannt sein. Andernfalls könnte es sich für eigentlich kooperierende Spieler lohnen, in der letzten Runde zu verraten, weil dafür eine Vergeltung nicht mehr möglich ist. Somit wird aber die vorletzte Runde zur letzten, in welcher effektiv eine Entscheidung zu fällen ist, worauf sich wieder dieselbe Situation ergibt. Durch Induktion folgt, dass das einzig rationale Verhalten eines Spielers (Strategie) in diesem Fall der ständige Verrat ist.[5] In der Praxis wird dieses theoretisch rationale Verhalten jedoch nicht immer beobachtet.[6]
Beim mehrmaligen Spiel wird die Auszahlungsmatrix in der Regel so gestaltet, dass zusätzlich zur allgemein gültigen Ungleichung $ T>R>P>S $ außerdem $ 2R>T+S $ gilt, was in der Beispiel-Auszahlungsmatrix aus der Einleitung erfüllt ist: $ 2\cdot \left(-2\right)>-1+\left(-6\right) $. Im entgegengesetzten Fall könnten sich zwei Spieler sonst durch abwechselndes Ausbeuten und Ausgebeutet-Werden einen Vorteil gegenüber kooperierenden Spielern verschaffen.
Zur Interpretation der Ergebnisse eines Spiels werden bei endlichen Spielen die Auszahlungen der einzelnen Runden zu einer Gesamtauszahlung zusammengefasst, welche dann den Erfolg eines Spielers in einem Spiel wiedergibt. Hierfür werden die Auszahlungen der einzelnen Runden üblicherweise ungewichtet addiert.
Es ist ein Unterschied, ob man siegen oder gewinnen will. Wenn man den Sieg erringen will, handelt es sich eigentlich um ein anderes Spiel. Das Spiel wird zu einem Nullsummenspiel, wenn am Ende nur der Sieg gezählt wird. Wenn man gewinnen will (einen Gewinn erzielen will), lohnt es sich, dem anderen Mitspieler auch Kooperation anzubieten, indem man kooperiert. Wenn der andere darauf eingeht, erzielt man am Ende einen höheren Gewinn, als wenn man ausschließlich Verrat übt. Auch wenn man selbst auf die Kooperation des anderen eingeht durch eigene Kooperation, steigert man seinen Gewinn.[7]
Unendliches Spiel
Das Spiel wiederholt sich, ohne dass den Spielern bekannt ist, wann die letzte Runde stattfindet. Befinden sich die Spieler in diesem Dilemma, dann kann eine Nicht-Kooperation im darauf folgenden Spiel geahndet werden. Nicht zu kooperieren zahlt sich also nicht (zwangsläufig) aus, da man bei Verrat (direkt) im zweiten Spiel bestraft würde, während Kooperation (dauerhaft) belohnt wird. Tit for Tat („wie du mir, so ich dir“) bedeutet Bestrafung für Verrat in der nächsten Periode. Man spricht in dem Fall von kalkulativem Vertrauen.
Computerturnier von Axelrod
Der amerikanische Politologe Robert Axelrod veranstaltete zum mehrmaligen Gefangenendilemma zu Beginn der 1980er Jahre ein Computerturnier, in dem er Computerprogramme mit verschiedenen Strategien gegeneinander antreten ließ. Die insgesamt erfolgreichste Strategie, und gleichzeitig eine der einfachsten, war besagte Tit for Tat-Strategie, entwickelt von Anatol Rapoport. Sie kooperiert im ersten Schritt (freundliche Strategie) und den folgenden und „verzichtet auf den Verrat“, solange der andere ebenfalls kooperiert. Versucht der andere, sich einen Vorteil zu verschaffen („Verrat“), tut sie dies beim nächsten Mal ebenfalls (sie lässt sich nicht ausbeuten), kooperiert aber sofort wieder, wenn der andere kooperiert (sie ist nicht nachtragend).
Evolutionsdynamische Turniere
Eine Weiterentwicklung des Spiels über mehrere Runden ist das Spielen über mehrere Generationen. Sind alle Strategien in mehreren Runden gegeneinander und gegen sich selbst angetreten, werden die erzielten Resultate für jede Strategie zusammengezählt. Für einen nächsten Durchgang ersetzen die erfolgreichen Strategien die weniger erfolgreichen. Die erfolgreichste Strategie ist in der nächsten Generation am häufigsten vertreten. Auch diese Turnier-Variante wurde von Axelrod durchgeführt.
Strategien, die zum Verraten tendierten, erzielten hier zu Beginn relativ gute Resultate – solange sie auf andere Strategien stießen, die tendenziell eher kooperierten, also sich ausnutzen ließen. Sind verräterische Strategien aber erfolgreich, so werden kooperative von Generation zu Generation seltener – die verräterischen Strategien entziehen sich in ihrem Gelingen selbst die Erfolgsgrundlage. Treffen aber zwei Verräter-Strategien zusammen, so erzielen sie schlechtere Resultate als zwei kooperierende Strategien. Verräter-Strategien können nur durch Ausbeutung von Mitspielern wachsen. Kooperierende Strategien wachsen dagegen am besten, wenn sie aufeinandertreffen. Eine Minderheit von miteinander kooperierenden Strategien wie z. B. Tit for Tat kann sich so sogar in einer Mehrheit von verräterischen Strategien behaupten und zur Mehrheit anwachsen. Solche Strategien, die sich über Generationen hin etablieren können und auch gegen Invasionen durch andere Strategien resistent sind, nennt man evolutionär stabile Strategien.
Tit for Tat konnte erst 2004 von einer neuartigen Strategie "Master and Servant" (Ausbeuter und Opfer) der Universität Southampton geschlagen werden, wobei dazugehörige Teilnehmer sich bei gegenseitigem Aufeinandertreffen nach einem Initial-Austausch in eine Ausbeuter- bzw. eine Opferrolle begeben, um dem Ausbeuter (individuell) so eine Spitzenposition zu ermöglichen. Betrachtet man das Ergebnis des Ausbeuters und des Opfers zusammen (kollektiv), so sind sie bei den o.g. Auszahlungswerten schlechter als Tit for Tat. Nötig für die individuell guten Ergebnisse ist aber eine gewisse kritische Mindestgröße, d. h. master-and-servant kann sich nicht aus einer kleinen Anfangspopulation etablieren. Da die Spielpartner über ihr anfängliches Spielverhalten codiert kommunizieren, besteht der Einwand, dass die Master-and-servant-Strategie die Spielregeln verletzt, wonach die Spielpartner isoliert voneinander befragt werden. Die Strategie erinnert an Insektenvölker, in denen Arbeiterinnen auf Fortpflanzung gänzlich verzichten und ihre Arbeitskraft für das Wohlergehen der fruchtbaren Königin aufwenden.
Notwendige Bedingungen für das Ausbreiten von kooperativen Strategien sind: a) dass mehrere Runden gespielt werden, b) sich die Spieler von Runde zu Runde gegenseitig wiedererkennen können, um nötigenfalls Vergeltung zu üben, und c) dass nicht bekannt ist, wann sich die Spieler zum letzten Mal begegnen.
Sequentielle Entscheidung
Die Variante des Gefangenendilemma, bei der die Spieler nacheinander entscheiden, stellt die Spieler in eine asymmetrische Position. Eine solche Situation ergibt sich beispielsweise bei der Ausführung von bei eBay zustande gekommenen Geschäften. Zunächst muss der Käufer entscheiden, ob er kooperieren, d.h. den Kaufbetrag an den Verkäufer überweisen möchte. Anschließend entscheidet der Verkäufer, ob er die Ware versendet. Trivialerweise wird der Verkäufer in keinem Fall die Ware versenden, wenn der Käufer den Kaufbetrag nicht überweist.
(Anmerkung zum Verständnis: Im Folgenden steht nicht die rationale Entscheidungsfindung im Sinne einer optimalen Strategie, sondern eine emotionale Motivation im Fokus.) Der Käufer befindet sich also in einer Situation der „Angst“, dass der Verkäufer die Ware nicht versenden könnte, auch wenn er – der Käufer – den Kaufpreis überweist. Ist das Geld beim Verkäufer eingegangen, gibt es für diesen die Versuchung („Gier“), die Ware dennoch nicht zu versenden. Angst und Gier können als Emotionen in diesem Fall den beiden Spielern also getrennt zugeordnet werden, während bei der üblichen, zeitgleichen Entscheidungsfindung beide Spieler gleichermaßen beide Emotionen empfinden bzw. erfahren können.
Dieser Unterschied macht die Analyse des Einflusses der Sozialen Identität (vereinfacht: „Wir-Gefühl“) möglich. Die traditionelle Hypothese ist, dass ein vorhandenes Wir-Gefühl die Tendenz zur Kooperation generell verstärkt. Yamagishi und Kiyonari[8] stellten jedoch die These auf, dass ein Einfluss eines Wir-Gefühls zwar existiert, im Falle des sequentiellen Gefangenendilemmas jedoch ein viel stärkerer Effekt der reziproken Kooperation das Vorhandensein oder Nicht-Vorhandensein eines Wir-Gefühls unerheblich macht: Der Käufer motiviert den Verkäufer durch seine eigene Kooperation ebenfalls zur Kooperation. Simpson[9] konnte jedoch zeigen, dass die Belege, die Yamagishi und Kiyonari für ihre These anführen, ebenfalls mit der Annahme verträglich sind, dass ein vorhandenes „Wir-Gefühl“ die Spieler zwar dazu bringt, der Gier nicht nachzugeben, die Angst, der andere könne nicht kooperieren, jedoch weiterhin ein entscheidender Einfluss bleibt.
Ein solcher Sachverhalt wäre insbesondere dazu geeignet, zu erklären, dass bei den Minimal-group-Experimenten von Tajfel[10] nicht beobachtet wurde, dass die Spieler den Gewinn ihrer eigenen Gruppe, sondern den Gewinnunterschied zur anderen Gruppe zu maximieren und den Unterschied innerhalb der eigenen Gruppe zu minimieren trachteten: Geht man einmal davon aus, dass zwei Spieler eines Gefangenendilemmas sich in irgendeiner Weise beide als Teil einer Gruppe fühlen und die Gruppenzugehörigkeit im Moment des Spiels salient ist, muss man annehmen, dass die beiden Spieler zum einen eine möglichst gleiche Verteilung, zum anderen eine möglichst geringe Summe an Strafen (bzw. möglichst hohe Summe an Belohnung) anstreben. Nimmt ein Spieler an, der andere kooperiere (er könne also durch Gier von der Kooperation abgehalten werden), so können beide Ziele durch Kooperation (Differenz: $ R-R<T-S $; und Summe: $ 2R>T+S $) erreicht werden; nimmt der Spieler jedoch an, der andere kooperiere nicht (Angst vor Ausnutzung), so werden beide Ziele mit unterschiedlichen Strategien erreicht (Differenz schlägt Nicht-Kooperation vor: $ P-P<T-S $; aber Summe schlägt Kooperation vor: $ 2P<T+S $).
Strategien
Einige ausgewählte Strategien
Für das über mehrere Runden gespielte Gefangenendilemma gibt es viele verschiedene Strategien. Für einige Strategien haben sich Namen eingebürgert (Übersetzung in Klammern). Dahinter steht, wie hoch der durchschnittliche Gewinn ist. (Unter der Voraussetzung, dass die Anzahl der Runden unbekannt sind und es nach jedem Zug mit einer Wahrscheinlichkeit von $ \delta \in ]0,1[ $ einen weiteren Zug gibt. - Die Wahrscheinlichkeit, dass das Spiel mindestens i. Züge dauert, ist also $ \delta ^{i-1} $):
- Tit for Tat : Kooperiert in der ersten Runde und kopiert in den nächsten Runden den vorherigen Spielzug des Spielpartners. Diese Strategie ist prinzipiell kooperationswillig, übt aber bei Verrat Vergeltung. Bei erneuter Kooperation des Mitspielers ist sie nicht nachtragend, sondern reagiert ihrerseits mit Kooperation.
- Der Tit for Tat-Spieler (TFT) erhält:
- gegen einen ewigen Kooperateur (K): $ TFT/K={\frac {R}{1-\delta }} $ (dieselbe Auszahlung erhält der Kooperateur)
- gegen einen anderen Tit for Tat-Spieler: $ TFT/TFT={\frac {R}{1-\delta }} $
- gegen einen ewigen Defekteur/Verräter (D): $ TFT/D={\frac {P}{1-\delta }}+S-P $
- Der Tit for Tat-Spieler (TFT) erhält:
- mistrust (Misstrauen): Verrät in der ersten Runde und kopiert in den nächsten Runden (wie Tit for Tat) den vorherigen Spielzug des Spielpartners. Ist nicht von sich aus kooperationswillig.
- spite (Groll): Kooperiert solange, bis der Mitspieler zum ersten Mal verrät. Verrät danach immer. Kooperiert bis zum ersten Vertrauensmissbrauch. Sehr nachtragend.
- punisher (Bestrafer): Kooperiert bis zur ersten Abweichung. Dann ist er so lange feindlich, bis der Gewinn des Mitspielers aus seinem Abweichen aufgebraucht wurde. Dann kooperiert er wieder bis zum nächsten Abweichen von der kooperativen Lösung. Diese Strategie ist optimal bei kooperationswilligen Spielern, die Fehler begehen, also irrtümlich einen konfrontativen Zug machen. Bei wenigen Wiederholungen oder zu großen Unterschieden in der Ergebnismatrix kann es jedoch vorkommen, dass ein Verlust durch einen Fehler des Gegners nicht mehr ausgeglichen werden kann. Diese Spiele heißen unheilbar.
- pavlov: Kooperiert in der ersten Runde und verrät, falls der vorherige Zug des Mitspielers anders als der eigene war. Kooperiert, wenn in der Vorrunde beide Spieler kooperierten oder beide verrieten. Dies führt zu einem Wechsel des Verhaltens, wenn der Gewinn der Vorrunde klein war, aber zum Beibehalten des Verhaltens, wenn der Gewinn groß war.
- gradual (allmählich): Kooperiert solange, bis der Mitspieler zum ersten Mal verrät. Verrät darauf einmal und kooperiert zweimal. Verrät der Mitspieler nach dieser Sequenz nochmals, verrät die graduale Strategie zweimal und kooperiert zweimal. Verrät der Mitspieler danach nochmals, verrät sie dreimal und kooperiert zweimal. Diese Strategie kooperiert grundsätzlich, bestraft aber jeden Ausbeutungsversuch zunehmend unversöhnlicher.
- prober (Sondierer): spielt die ersten drei Züge kooperieren, verraten, verraten und verrät fortan, wenn der Gegner im zweiten und dritten Zug kooperiert hat, spielt sonst Tit for Tat. Testet, ob sich der Mitspieler ohne Vergeltung ausnehmen lässt. Nimmt nicht-vergeltende Mitspieler aus. Passt sich bei Vergeltung aber an.
- master-and-servant („Herr und Knecht“ oder auch „Southampton-Strategie“): Diese Strategie spielt während der ersten fünf bis zehn Runden ein der Erkennung dienendes, codiertes Verhalten. Die Strategie stellt so fest, ob der Mitspieler ebenfalls Master-and-Servant spielt, d. h. ob er ein Verwandter ist. Ist dies der Fall, wird der eine Mitspieler zum Ausbeuter ('Master'), der immer betrügt, der andere Mitspieler zum Ausgenommenen ('Servant'), der bedingungslos und scheinbar wider alle Vernunft kooperiert. Ist der Mitspieler nicht 'Master-and-Servant'-konform, wird betrogen, um die Mitstreiter im Wettbewerb zu schädigen. Dies führt zu einem sehr guten Resultat für die Strategie als Ganzes, da bei Master-Servant-Begegnungen der Master fast immer die maximal mögliche Punktzahl für einseitigen Verrat erhält, was bei sonst üblichen Begegnungen extrem unwahrscheinlich ist. Durch das mehrfache Einsenden von ähnlichen, sich als 'verwandt' erkennenden Master-and-Servant-Strategien kann der Erfolg in einem Turnier noch verstärkt werden. Ob Master-and-Servant gegen Tit for Tat gewinnen kann, hängt von den vergebenen Punkten (Auszahlungsmatrix) ab. Wenn $ T+S<2\cdot R $ ist, hat es die Strategie schwer, gegen Tit for Tat zu gewinnen.
- always defect (verrate immer): Verrät immer, egal was der Spielpartner tut.
- Gegen einen ewigen Kooperateur (K) erhält der Defekteur/Verräter (D): $ D/K={\frac {T}{1-\delta }} $
- Gegen einen anderen ewigen Defekteur/Verräter (D) erhält der Defekteur/Verräter (D): $ D/D={\frac {P}{1-\delta }} $
- always cooperate (kooperiere immer): Kooperiert immer, egal was der Spielpartner tut.
- Gegen einen anderen ewigen Kooperateur (K) erhält der Kooperateur (K): $ K/K={\frac {R}{1-\delta }} $
- Gegen einen ewigen Defekteur/Verräter (D) erhält der Kooperateur (K): $ K/D={\frac {S}{1-\delta }} $
- random (Zufall): Verrät oder kooperiert aufgrund eines 50:50-Zufallsentscheids.
- per kind (periodisch und freundlich): Spielt periodisch die Folge kooperieren/kooperieren/verraten. Diese Strategie versucht, den Mitspieler durch zweimaliges Kooperieren in Sicherheit zu wiegen, um ihn dann einmal auszunehmen.
- per nasty (periodisch und unfreundlich): Spielt periodisch die Folge verraten/verraten/kooperieren.
- go by majority (Entscheide gemäß Mehrheit): Kooperiert in der ersten Runde und spielt dann den meistbenutzten Zug des Mitspielers. Bei Unentschieden wird kooperiert.
- Tit for Two Tats (gutmütigeres Tit for Tat): Kooperiert in der ersten Runde. Hat der Mitspieler zuletzt kooperiert, wird auch kooperiert. Hat aber der Mitspieler zuletzt verraten, wird mit gleicher Wahrscheinlichkeit kooperiert oder verraten. Diese Tit for Tat-Variation kann sehr erfolgreich Kolonien bilden, auch wenn durch „Missverständnisse“ (Sabotage oder schlechte Kommunikation) die Geschäftsbeziehung hin und wieder gestört wird. Normale Tit for Tat-Agenten können durch eine Störung in einen Zyklus geraten, in dem immer abwechselnd einer kooperiert und der andere verrät. Dieser Zyklus wird nur durch eine weitere Störung durchbrochen.
- gegen einen ewigen Defekteur/Verräter (D) erhält der tit-for-two-tat-Spieler (TFTT) die Auszahlung: $ TFTT/D={\frac {S}{1-\delta }}+(1+\delta ^{2})\cdot (S-P) $
- gegen einen ewigen Kooperateur (K), einen Tit for Tat-Spieler, oder einen anderen tit-for-two-tat-Spieler erhält er die Auszahlung: $ ={\frac {R}{1-\delta }} $
Optimale Strategie
Die Strategie „Tit for Tat“ ist – wenn sie strikt gespielt wird – eine einfache, aber sehr wirkungsvolle und langfristig erfolgreiche Strategie. Sind aber im Spiel auch Fehlkommunikation bzw. Missverständnisse möglich (z. B. ein kooperieren wird als verraten missverstanden), weist striktes „Tit for Tat“ einen Schönheitsfehler auf: Ein durch ein Missverständnis aufgetauchter Verrat wird dann durch eine Abfolge wechselseitiger Vergeltungen perpetuiert und nicht verziehen. Beide Spieler können sich so in einem andauernden Konflikt aus Vergeltungsreaktionen blockieren und ihr Spielergebnis wesentlich schmälern. Dieser Umstand wird Vendetta (ital. Blutrache) genannt. Vendetta kann unter Tit for Tat-Spielenden nur durch Fehlkommunikation entstehen, da die Tit for Tat-Strategie nie unprovoziert von sich aus verraten spielt. Die Vendetta kann auch nur wieder durch eine weitere Fehlkommunikation unterbrochen werden (wenn ein verraten als kooperieren missverstanden wird), da die Tit for Tat-Strategie von sich aus nie eine Vergeltung unterlässt.
Eine mögliche Adaption der Tit for Tat-Strategie, um das Risiko einer ausgedehnten Vendetta zu verkleinern ist deshalb, die Strategie etwas weniger unerbittlich bei der Vergeltung zu machen bzw. der Strategie einen Verzeih-Mechanismus einzubauen. Dieser bewirkt, dass nicht jeder Verrat vergolten wird, sondern mit einer gewissen Wahrscheinlichkeit ein Verrat auch ohne Vergeltung toleriert wird. Ein solches „gutmütiges Tit for Tat“ ist das oben erwähnte „tit-for-two-tat“. Solange die Häufigkeit der Fehlkommunikation zwischen den Spielern nicht so hoch ist, dass sie die Erkennbarkeit der gespielten Tit for Tat-Strategie verhindert, ist es noch möglich, optimale Ergebnisse zu erzielen. Dazu muss die Häufigkeit des Verzeihens proportional zur Häufigkeit der Kommunikations-Fehler gewählt werden.
Beispiele
Aus Politik und Wirtschaft
Das Gefangenendilemma lässt sich auf viele Sachverhalte in der Praxis übertragen. Vereinbaren beispielsweise zwei Länder eine Rüstungskontrolle, so wird es immer individuell besser sein, heimlich doch aufzurüsten. Keines der Länder hält sich an sein Versprechen und beide sind durch die Aufrüstung schlechter gestellt (höheres Gefahrenpotential, höhere ökonomische Kosten), allerdings besser, als wenn nur der jeweils andere aufrüstete (Gefahr einer Aggression durch den anderen).
Die sogenannte Politikverflechtungsfalle basiert nicht unwesentlich auf den Mechanismen des Gefangendilemmas, was Entscheidungsblockaden und -einschränkungen sowohl bei Sachentscheidungen wie auch in Bezug auf institutionelle Fragen zur Folge hat.[11]
Auch in der Wirtschaft finden sich Beispiele für das Gefangenendilemma, etwa bei Absprachen in Kartellen oder Oligopolen: Zwei Unternehmen vereinbaren eine Outputquote (zum Beispiel bei der Ölförderung), aber individuell lohnt es sich, die eigene Quote gegenüber der vereinbarten zu erhöhen. Beide Unternehmen werden mehr produzieren. Das Kartell platzt. Die Unternehmen im Oligopol sind aufgrund der erhöhten Produktion gezwungen, die Preise zu senken, wodurch sich ihr Monopolgewinn schmälert.
Konkurrieren mehrere Firmen auf einem Markt, erhöhen sich die Werbeausgaben immer weiter, da jeder die anderen ein wenig übertreffen möchte. Diese Theorie konnte 1971 in den USA bestätigt werden, als ein Gesetz zum Werbeverbot für Zigaretten im Fernsehen verabschiedet wurde. Es gab kaum Proteste aus den Reihen der Zigarettenhersteller. Das Gefangenendilemma, in das die Zigarettenindustrie geraten war, wurde durch dieses Gesetz gelöst.
Ein weiteres Beispiel ist ein Handelsreisender, der seine Kunden bei Vorkasse (gegebenenfalls ungedeckte Schecks) mit guter Ware (kleinerer Profit, aber langfristig sicher) oder gar keiner Ware (hoher kurzzeitiger Profit) beliefern kann. Händler mit schlechtem Ruf verschwinden in solchen Szenarien vom Markt, da keiner mit ihnen Geschäfte macht, und sie ihre Fixkosten nicht decken können. Hier führt „Tit for Tat“ zu einem Markt mit wenig „Betrug“. Ein bekanntes Beispiel nach diesem Muster ist die Funktionsweise des eBay-Bewertungsschemas: Händler, die trotz erhaltener Bezahlung die vereinbarte Ware nicht liefern, erhalten schlechte Bewertungen und verschwinden so vom Markt.
Beachtenswert ist das Anbieterdilemma, das zu einer Beeinflussung der Preise für angebotene Güter führt. Zwar profitieren Anbieter bei Vorliegen des Dilemmas nicht, jedoch kann sich die Wohlfahrt einer Volkswirtschaft insgesamt erhöhen, da der Nachfrager durch niedrige Preise profitiert. Durch staatlichen Eingriff in Form von Wettbewerbspolitik wird ein Anbieterdilemma häufig künstlich generiert, indem beispielsweise Absprachen zwischen Anbietern untersagt werden. Somit sorgen Institutionen für mehr Wettbewerb, um den Verbraucher zu schützen.
Auch die Versteigerung der UMTS-Lizenzen in Deutschland dient als Beispiel. Es wurden zwölf Frequenzblöcke für UMTS versteigert, die entweder als 2er- oder 3er-Paket erworben werden konnten. Sieben Bieter (E-Plus/Hutchison, Mannesmann, T-Mobile, Group 3G, debitel, mobilcom und Viag Interkom) nahmen an der Versteigerung im August 2000 teil. Beachtenswert ist auch, dass – wie im theoretischen Original – Absprachen unter den Spielern, also der Mobilfunkanbieter, unterbunden wurden. Nach dem Ausscheiden von debitel nach der 126. Runde am 11. August 2000 waren zwölf Lizenzen für sechs Mobilfunkanbieter vorhanden, also zwei für jeden. Die Summe aller Lizenzen hat zu diesem Zeitpunkt 57,6 Mrd. DM betragen. Durch das Spekulieren der Mobilfunkanbieter auf ein Ausscheiden eines weiteren Anbieters und die Möglichkeit, drei Lizenzen zu erwerben, ging die Bieterschlacht jedoch weiter. In der 173. Runde, am 17. August 2000, gingen je zwei Lizenzen an die sechs verbliebenen Mobilfunkanbieter – ein Ergebnis also, das auch schon in der 127. Runde hätte erreicht werden können. Die Summe, die die Mobilfunkanbieter für alle Lizenzen zahlten, lag nun bei 98,8 Mrd. DM.
Aus der Kriminalistik
Die sogenannte „Omertà“ (Schweig oder stirb!) der Mafia versucht das Schweigen (Kooperieren) dadurch sicherzustellen, dass ein Verstoß mit besonders drastischen Sanktionen bedroht wird. Damit wird die Kooperation gefestigt, während gleichzeitig ein einseitiges Geständnis durch extremen Verlust demotiviert wird. Dies wäre eine Internalisierung eines negativen externen Effektes („negativ“ in rein spieltheoretischem Sinn).
Omertà versucht die Spieler zu gegenseitigem Vertrauen anzuhalten, kann aber das grundsätzliche Dilemma nicht auflösen. Als Gegenmittel kann die Justiz z. B. eine neue Identität und Straffreiheit für Verräter ins Spiel bringen, um das Vertrauen der Komplizen zu untergraben (Kronzeugenregelung). Eine einfache (wenngleich in Deutschland nach § 136a StPO unzulässige) Verhörstrategie der Polizei kann darin bestehen, den Verdächtigten zu verunsichern, indem behauptet wird, der Komplize hätte bereits gestanden.
Rilling hat in einer Studie an psychisch gestörten Probanden herausgefunden, dass ein Defizit an Kooperation mit Defiziten im emotionalen und behavioralen Bereich einhergeht. Psychopathie wird als Störung vor allem der Affekte für soziale Interaktion angesehen. Es wird definiert als sozial beeinträchtigende Persönlichkeitsstörung mit affektiven, sozialen und Verhaltensproblemen. Psychopathen verspüren in Übereinstimmung mit den Annahmen Axelrods (1987) viel weniger den Wunsch stabile Beziehungen einzugehen und zu unterhalten. Dass bei einer klinischen Population, welche überzufällig beim iterierten Gefangenendilemma defektiert, gleichzeitig die genannten Defizite auftreten, deutet auf die nahe Verwandtschaft der Fähigkeit zu kooperieren mit Empathie und emotionalem Affekt hin.
Einfluss auf die Wohlfahrt
Inwiefern das Gefangenendilemma die soziale Wohlfahrt verbessert oder verschlechtert, hängt vom betrachteten Sachverhalt ab. Im Fall eines Kartells oder Oligopols führt das Gefangenendilemma zu einer Verbesserung der Situation. Das „Marktversagen“ durch ein verringertes Angebot kann behoben werden. Betrachtet man allerdings die Waffenaufrüstung von Staaten oder die Werbeausgaben von Firmen, dann führt das Gefangenendilemma zu einer schlechteren Wohlfahrt, da lediglich Kosten geschaffen werden, die zu keinem neuen Nutzen führen.
Karl Homann geht in seiner Konzeption einer Wirtschaftsethik davon aus, dass es Aufgabe der Staaten bzw. des Gesetzgebers sei, in der Gestaltung der Rahmenordnung darauf hinzuwirken, dass erwünschte Dilemmasituationen aufrechterhalten werden und dass unerwünschte Dilemmasituationen durch die Schaffung bzw. Veränderung von Institutionen überwunden werden. So können beispielsweise gesetzliche Mindeststandards bei der Sicherung von Konsumentenrechten (z. B. AGB-Gesetz) ein Misstrauen dem Verkäufer gegenüber (unerwünschte Dilemmasituation) ausräumen und so zu mehr Handel führen; gleichzeitig ist die Konkurrenz zwischen den jeweiligen Verkäufern und den jeweiligen Käufern als erwünschte Dilemmasituation aufrechtzuerhalten.
Beschreibung der Verhaltensoptionen
Ob die beiden Möglichkeiten, sich zu verhalten, sinnvollerweise als Vertrauen/Verrat, Kooperation/Verweigerung oder Altruismus/Egoismus beschrieben werden, hängt unter anderem von der genauen Form der Auszahlungsmatrix ab. Ersetzt man im Vergleich zu obiger Matrix -2 durch 2, 0 durch 3, -5 durch 0 und -4 durch 1, liegt beispielsweise Altruismus/Egoismus als Interpretation näher: Beide Spieler beginnen mit einem Gut. Ein Spieler kann auf sein Gut verzichten (Altruismus). Der Mitspieler erhielte dafür zwei (!) Güter. Behält er sein Gut (Egoismus), erfolgt keine Bestrafung oder Ähnliches. Er kann das Spiel bei einem altruistischen Mitspieler mit drei Gütern abschließen, ansonsten behält er sein eigenes Gut.
Verwandte Probleme
Zu den symmetrischen Zweipersonen-Nichtnullsummenspielen gehören auch das Spiel mit dem Untergang (Feiglingsspiel, chicken game), die Hirschjagd, das Urlauberdilemma und das Spiel Kampf der Geschlechter.
Weitere Beispiele dafür, dass individuelle und kollektive Rationalität zu unterschiedlichen Ergebnissen führt, sind das Braess-Paradoxon und die Rationalitätenfalle.
Literatur
- Anatol Rapoport, Albert M. Chammah: Prisoner's dilemma: a study in conflict and cooperation. University of Michigan Press, 1965
- Robert Axelrod: Die Evolution der Kooperation. Oldenbourg Verlag, 2000, ISBN 3-486-53995-7
- Eggebrecht, Winfried; Manhart, Klaus: Fatale Logik: Egoismus oder Kooperation in der Computersimulation, c't 6/1991
- Rilling, J., K., Glenn, A., L., Jairim, M., R., Pagnoni, G., Goldsmith, D., R., Elfenbein, H., A., Lilienfeld, S., O. (2007). Neural Correlates of Social Cooperation and Non- Cooperation as a Function of Psychopathy. In: Biological Psychiatry. 61: 1260-1271
Weblinks
- Eintrag In: Edward N. Zalta (Hrsg.): Stanford Encyclopedia of Philosophy
- Iterated Prisoner's Dilemma Game and Simulation (englisch)
- New Tack Wins Prisoner's Dilemma (englisch, über 'master-and-servant')
- Tobias Thelen, Spieltheorie und das Gefangenendilemma
Einzelnachweise
- ↑ William Poundstone, Prisoner's Dilemma: John von Neumann, Game Theory, and the Puzzle of the Bomb, Anchor/Random House, 1992
- ↑ William Poundstone, Prisoner's Dilemma: John von Neumann, Game Theory, and the Puzzle of the Bomb, Anchor/Random House, 1992, S. 258
- ↑ Carsten Vogt: Kooperation im Gefangenen-Dilemma durch endogenes Lernen, Inauguraldissertation, http://diglib.uni-magdeburg.de/Dissertationen/2001/carvogt.pdf
- ↑ Robert H. Frank, Thomas Gilovich & Dennis Regan: „Does Studying Economics Inhibit Cooperation?“ in: Journal of Economic Perspectives. Bd. 7, Nr. 2. Frühjahr 1993. S. 159–71(PDF; 788 KB)
- ↑ Robert Axelrod, The Evolution of Co-operation, 1984, S. 10
- ↑ Martin J. Osborne, Ariel Rubinstein: A Course in Game Theory. MIT Press, 1994, S. 135
- ↑ William Poundstone, Prisoner's Dilemma: John von Neumann, Game Theory, and the Puzzle of the Bomb, Anchor/Random House, 1992, S. 101 ff.
- ↑ T. Yamagishi and T. Kiyonari. The Group as the Container of Generalized Reciprocity.’ Social Psychology Quarterly 63: 116–32 2000
- ↑ Brent Simpson. Social Identity and Cooperation in Social Dilemmas. Rationality and Society 2006; 18; 443 DOI:10.1177/1043463106066381
- ↑ Tajfel. Experiments in intergroup discrimination. Scientific American, November 1970, 223, 96-102
- ↑ Fritz W. Scharpf u.a (Hrsg.): Politikverflechtung, Bd.1. – Theorie und Empirie des kooperativen Föderalismus in der Bundesrepublik,Kronberg/Ts 1976; Fritz W. Scharpf: Die Politikverflechtungs-Falle: Europäische Integration und deutscher Föderalismus im Vergleich, in: Politische Vierteljahresschrift, 26. Jg. (1985), Nr. 4, S. 323–356; Alexander Mayer: Der Landkreis in der Politikverflechtungsfalle. Fürth 1993.