囚人のジレンマとは?具体例・ナッシュ均衡
囚人のジレンマとは?具体例・ナッシュ均衡
取調室で、相手と切り離されたまま「黙秘するか、自白するか」を選ぶとしたら、あなたならどうしますか。筆者はこの問いを最初に置くと、読者が「なぜ互いに自白が選ばれやすいのか」を自分の言葉で言い換えられるようになると感じています。
取調室で、相手と切り離されたまま「黙秘するか、自白するか」を選ぶとしたら、あなたならどうしますか。
筆者はこの問いを最初に置くと、読者が「なぜ互いに自白が選ばれやすいのか」を自分の言葉で言い換えられるようになると感じています。
囚人のジレンマは、まさにその直感から、個人にとって合理的な選択が全体では損になる構図をあぶり出す思考実験です。
この記事は、ゲーム理論に初めて触れる人や、ナッシュ均衡パレート最適の違いが腑に落ちない人に向けて、利得表の大小関係だけでこのズレを見える形にします。
さらに、一回限りと反復の違い、Tit For Tatの古典的な位置づけ、2025年の研究が示した「万能戦略はない」という見直しまで追い、価格競争や軍拡、買い占めの話につなげながら、私たちの日常と社会がどこでこのジレンマに飲み込まれるのかを整理していきます。
囚人のジレンマとは?まずは場面設定から考えてみる
古典的な場面設定を具体的に
囚人のジレンマを定義から入るより先に、まずは場面の空気を思い浮かべてみましょう。
無機質な取調室にひとりで座らされ、相手とは切り離されています。
壁の色も、机の冷たさも、時計の音も妙に気になるのに、知りたいことはひとつだけです。
相手は何を選ぶのか。
それだけがわかりません。
そこで捜査側から、選択肢を示されます。
あなたに渡された封筒には、黙秘するか、自白するかの二択が入っている。
しかも相手とは連絡できず、相談も、目配せもできません。
互いに黙秘すれば軽い刑で済む。
けれど、自分だけが黙って相手だけが自白したら、自分は重い刑を受ける。
逆に、自分だけが自白して相手が黙秘していれば、自分にとってはいちばん得になる。
この配置が、囚人のジレンマの核心です。
ここで面白いのは、問題の難しさが「悪人だから裏切る」といった性格診断ではないことです。
相手がどう出るかわからない状況で、自分の不利益を避けようと考えると、自白の誘惑が急に現実味を帯びます。
黙秘には信頼が必要ですが、その信頼を確かめる手段がありません。
だから、この思考実験の怖さは、道徳心が弱いことではなく、情報が遮断されたまま合理性だけが働く点にあります。
筆者はこの場面を説明するとき、取調官の言葉よりも、選ぶ側の沈黙に注目します。
机の上の封筒を見ながら、「相手も自分を守ろうとするはずだ」と考え始めた瞬間、共同で得をする道が見えていても、そこから一歩ずつ離れていく。
その感覚がつかめると、囚人のジレンマは単なる用語ではなく、自分の判断の揺れとして立ち上がってきます。
あなたならどう選ぶ?直感チェック
少し立ち止まって、あなた自身の直感を当てはめてみてください。
相手が黙秘してくれる保証はない。
それなのに自分だけ黙秘して、重い刑を引き受けるのは避けたい。
そう考えると、自白に手が伸びるのは自然な反応です。
しかも厄介なのは、相手がどちらを選んでも、自白にはもっともらしい理由がついてしまうことです。
相手が黙秘するなら、自分は自白したほうが得になる。
相手が自白するなら、自分も自白したほうが傷が浅くなる。
こうして考えると、「信頼したい気持ち」と「裏切られたくない気持ち」が同時に走り、頭の中でせめぎ合います。
この直感チェックでつかみたいのは、正解探しではありません。
囚人のジレンマの入り口にあるのは、相手の出方が読めない不安と、目の前の利得に引かれる感覚です。
人は協力が望ましいと理解していても、単独で見ると守りに入る選択を選びやすい。
そのズレこそが、この思考実験を日常や社会の問題につなげる出発点になります。
数値は代表例—重要なのは利得の順序
数値は教材や解説によってばらつきがあり、ここで示した年数は説明用の代表例にすぎません(例:Stanford Encyclopedia of Philosophy 等の概説も参照してください)。
重要なのは具体的な年数そのものではなく、相手が黙秘しても自分は自白が有利、相手が自白しても自白が損が小さい――つまり利得の順位関係が囚人のジレンマの本質である、という点です。
なぜ合理的な選択が悪い結果になるのか
利得表で確かめる
ここは、言葉だけで追うより表に落としたほうが腹落ちします。
代表例としてよく使われる刑期パターンを、ひとつの例として並べると次のようになります。
なお、前述の通り具体的な年数には異版があり、ここで見たいのは数字そのものではなく「どちらが得か」という順序です。
| あなた \ 相手 | 黙秘 | 自白 |
|---|---|---|
| 黙秘 | あなた1年 / 相手1年 | あなた10年 / 相手0年 |
| 自白 | あなた0年 / 相手10年 | あなた5年 / 相手5年 |
この表を自分の側からだけ見てみます。
相手が黙秘すると仮定した場合、あなたは黙秘だと1年、自白だと0年です。
なら、自白のほうが得です。
では相手が自白すると仮定した場合はどうか。
あなたは黙秘だと10年、自白だと5年です。
この場合も、自白のほうが損が小さくなります。
つまり、相手がどちらを選ぶ場面でも、目の前の比較では自白が勝ってしまいます。
ここで人は「協力したいかどうか」より先に、「自分だけ重い刑を引くのは避けたい」と考えます。
その結果、二人とも同じ理屈で自白へ引っ張られていきます。
筆者はこの感覚を説明するとき、初回のフリマ取引を思い出します。
まだ相手を信頼しきれない段階で、「先に送ります」と言うべきか、「入金確認後に発送します」と守りに入るべきかで、気持ちが揺れる場面です。
相手が誠実なら先に動いても気持ちよく取引が終わりますが、もし相手がそうでなかったら自分だけが損をする。
その不安があると、互いに警戒的な選択を取りやすくなります。
利得表は冷たい記号に見えますが、実際にはこの「裏切られたくない」という心理の地図でもあります。
ℹ️ Note
囚人のジレンマでは、数字の大小よりも「相手が黙秘でも自白が得、相手が自白でも自白が得」という並びが再現されているかが核心です。
“支配戦略”をやさしく定義
このときに出てくる基本用語が支配戦略です。
平たく言えば、相手が何を選んでも、自分にとってそちらのほうが有利になる選択肢のことです。
難しい言い回しに見えますが、さきほどの表をなぞれば意味は単純です。
相手が黙秘でも、自白したほうが得です。
相手が自白でも、やはり自白したほうが得です。
なら、自分にとっては自白が「どちらに転んでも勝つ側の選択肢」になっています。
これが、囚人のジレンマで通常自白が支配戦略と呼ばれる理由です。
用語を使わずに言い換えるなら、「相手の出方を知らなくても、自分だけの計算ではいつも同じ答えに落ちる選択」です。
だから人は、協力の価値を理解していても、単独で判断するとそちらに寄っていきます。
ここで働いているのは、悪意よりむしろ防衛的な合理性です。
自分だけが最悪の位置に置かれる可能性を消したい。
その気持ちが、支配戦略に手を伸ばさせます。
全体最適とのズレが生まれる理由
厄介なのは、各人にとって筋の通った判断が、二人そろった瞬間に望ましい結果を壊してしまうことです。
表を見れば、双方黙秘なら各1年で済みます。
ところが、双方がそれぞれ合理的に自白を選ぶと、結果は各5年になります。
自分の視点では損を避けたつもりでも、組み合わさると二人とも悪い場所に着地してしまうわけです。
このズレは、「個人ごとの最適化」と「二人まとめて見たときの最適化」が一致していないために生まれます。
相手を信じて黙秘すれば、二人にとってはよい結果になります。
しかし、その信頼には保証がありません。
しかも裏切られたときの痛手は大きい。
すると、人は一段低いけれど確実な位置、つまり双方自白へ流れます。
協力のほうが全体では得でも、裏切られたときの傷を避ける論理が個人を動かすからです。
この構図が、囚人のジレンマの核心です。
合理的な人がいるから協力が壊れるのではなく、それぞれが筋の通った計算をした結果として、全体では損になる。
ここに、個人合理性と集団合理性のねじれがあります。
だからこの思考実験は、取調室の話にとどまらず、価格競争、軍拡、買い占めのような場面にもそのまま響いてきます。
自分だけ守ろうとする判断が積み重なると、全員が前より苦しい場所に移る。
その見取り図を、囚人のジレンマはこれ以上ないほど簡潔に示しています。
ナッシュ均衡とパレート最適の違い
ナッシュ均衡とは
ナッシュ均衡は、相手の戦略をいったん固定して見たとき、自分だけが一方的に選択を変えても得にならない状態です。
初学者には少し硬い定義ですが、囚人のジレンマではこの形がきれいに見えます。
たとえば、相手が自白するとします。
そのとき自分が黙秘すると重い刑を受け、自白すればそれより軽く済みます。
では相手が黙秘するとしたらどうか。
この場合も、自分が自白したほうが自分にとっては得です。
つまり相手の行動をどう置いても、自分は自白に引かれます。
相手も同じ計算をするので、二人とも自白を選ぶところに落ち着きます。
これが、囚人のジレンマでいう互いに自白=ナッシュ均衡です。
筆者はこの説明をするとき、2×2のマス目にそれぞれの結果を書き込み、各マスから「自分だけ動いたら得か」を矢印でたどってもらうことがあります。
すると、互いに自白のマスでは、どちらか一人だけが別の行動に変えても状況はよくなりません。
矢印がそこに集まって止まるので、「安定している」とはどういうことかが、定義より先に目でわかります。
ナッシュ均衡は、みんなが満足している状態というより、誰も単独では抜け出せない安定点と捉えるとつかみやすくなります。
パレート最適とは
パレート最適は、誰かを悪くせずに、誰かをもっとよくする余地がもう残っていない状態です。
こちらは「安定しているか」ではなく、「これ以上うまくできるか」を見る考え方です。
囚人のジレンマでは、互いに黙秘=パレート最適と整理できます。
双方が黙秘なら、二人とも軽い刑で済みます。
そこから片方だけをもっとよくしようとすると、もう片方にしわ寄せが行きます。
二人とも今より同時によくなる動かし方はありません。
だから、この点はパレート最適です。
ここで見るべきなのは、「全員にとってどの結果がより望ましいか」です。
互いに自白より互いに黙秘のほうが、二人そろってよい位置にいます。
前のセクションで見た利得表を思い出すと、双方自白より双方黙秘のほうが二人とも得をしています。
にもかかわらず、その結果が自動的には実現しない。
そこに囚人のジレンマのいやらしさがあります。
ℹ️ Note
ナッシュ均衡は「一人で動いても得しない場所」、パレート最適は「全体としてこれ以上改善できない場所」と言い換えると、混線しにくくなります。
なぜ両者は一致しないのか
ここが、初学者がいちばん混同しやすいところです。
ナッシュ均衡とパレート最適は、そもそも見ている基準が違います。
ナッシュ均衡は各人のインセンティブが止まる場所を見ています。
他方でパレート最適は、全体としてもっとよい配置があるかを見ています。
基準が別なので、同じ地点を指すとは限りません。
囚人のジレンマでは、そのズレがはっきり出ます。
互いに自白は、一人だけ裏切って黙秘に変えても得にならないのでナッシュ均衡です。
しかし、全体で見れば互いに黙秘のほうが二人ともよい結果です。
つまり、安定はしているが、最善ではありません。
これが“安定=最善”ではないという話です。
この点は、図で見ると腑に落ちることが多いです。
2×2のマスを見て、各マスで「自分だけ向きを変えたら得か」と矢印を入れていくと、互いに自白には矢印が流れ込みます。
だから安定しています。
けれど、結果の良し悪しを比べると、互いに黙秘のほうが二人にとって上です。
矢印の落ち着き先と、結果として望ましい場所がずれるわけです。
筆者はこの図をたどるとき、読者が「なるほど、均衡はゴールではなく停止位置なのか」と表情を変える瞬間を何度も見てきました。
この違いを言い換えるなら、ナッシュ均衡は「それぞれが自分の立場から動けなくなった状態」、パレート最適は「全体として見てこれ以上よくならない状態」です。
囚人のジレンマでは前者が互いに自白、後者が互いに黙秘になります。
だから「ナッシュ均衡だから最善」という理解は誤りですし、「パレート最適だから自然にそこへ行く」という理解も誤りです。
実現される結果と、望ましい結果は同じとは限らない。
このズレをつかめると、ゲーム理論の用語がただの暗記項目ではなく、現実の競争や協力の見取り図として立ち上がってきます。
どこから来たか:起源とゲーム理論の基礎
この思考実験は、いきなり完成形で現れたわけではありません。
読んでいて混線しやすいのは、「ゲーム理論という学問の出発点」「囚人のジレンマという発想の誕生」「囚人の物語としての定着」「ナッシュ均衡による理論的な位置づけ」が、別々のタイミングで積み上がっているからです。
筆者は年表を読むとき、まずこの4つを別の箱に分けて見ます。
そうすると、どの出来事が概念誕生で、どこで物語化され、どこで均衡の理論化がなされたのかが、一目で入ってきます。
ℹ️ Note
年代を見るときは、1944年を「ゲーム理論の出発点」、1950年を「囚人の物語としての形式化」、1951年を「均衡概念の整備」と置くと、流れが崩れません。
| 年 | 出来事 | 位置づけ |
|---|---|---|
| 1944年 | フォン・ノイマンとモルゲンシュテルンがゲームの理論と経済行動を刊行 | ゲーム理論の出発点 |
| 1950年 | RAND研究所でのフラッドとドレッシャーの実験をもとに、タッカーが囚人の物語で形式化 | 囚人のジレンマの物語化・定着 |
| 1951年 | ナッシュが非協力ゲームを発表 | 均衡概念の理論化 |
RANDの実験
頻繁に出発点として挙げられるのは、1944年のゲームの理論と経済行動です。
ジョン・フォン・ノイマンとオスカー・モルゲンシュテルンのこの仕事によって、利害がぶつかる状況を数学的に扱う土台が整いました。
囚人のジレンマも、この大きな流れの中から生まれてきます。
ただし、囚人のジレンマそのものの直接の起源として押さえたいのは、RAND研究所でメリル・フラッドとメルビン・ドレッシャーが行った実験です。
ここで面白いのは、最初から有名な「二人の囚人」の話があったわけではないことです。
先にあったのは、互いに合理的に動くと全体では損な結果に落ちるという戦略的な構造でした。
つまり誕生したのは、まず物語ではなく、あのねじれた形そのものです。
この順番をつかむと、囚人のジレンマは単なる寓話ではなくなります。
筆者はこの点を初学者に説明するとき、「物語はあとから着せられた服で、骨格は先にできていた」と言い換えます。
そう見ると、価格競争や軍拡競争にこのモデルが転用される理由も見えます。
警察の取調室に限らず、同じ骨格が別の場面で何度も現れるからです。
Tuckerによる形式化
1950年にアルバート・W・タッカーが、この問題を“囚人”の物語として示したことで、現在の形が広く共有されるようになりました。
ここは歴史の整理で混同が起きやすいところです。
起源はフラッドとドレッシャーの実験にあり、私たちがよく知る囚人のストーリーとして形式化したのがタッカーです。
両者は連続していますが、同じ役割ではありません。
タッカーの功績は、抽象的な利得の対立を、誰でも直感できる物語に落とし込んだことにあります。
二人は協力したほうがそろって軽い結果で済むのに、相手を出し抜ける余地があるせいで、互いに裏切りへ引かれていく。
前のセクションで見た支配戦略とナッシュ均衡のずれは、この物語にした瞬間、数式を読まない人にも伝わります。
しかも、教材によって刑期の数字は少し違います。
片方だけ自白したときの刑や、双方黙秘の軽さに差がある例もあります。
それでも構造が変わらないのは、見るべき点が絶対値ではなく利得の順位だからです。
相手が何をしても自白のほうが自分には得になる並びになっていれば、囚人のジレンマとして成立します。
筆者はこの話をするとき、読者が数字の細部に気を取られなくなる瞬間をよく見ます。
物語の芯は、「何年か」より「どちらに誘われるか」にあります。
ナッシュの貢献
1951年のジョン・ナッシュによる非協力ゲームは、囚人のジレンマを一段深いところに置き直しました。
ここで整えられたのが、前のセクションで扱ったナッシュ均衡の考え方です。
囚人のジレンマは、それ以前にも戦略的な問題として存在していましたが、ナッシュによって「各プレイヤーが相手の行動を所与として、自分だけ変えても得にならない状態」として読み解けるようになったわけです。
この貢献によって、囚人のジレンマは一つの面白い逸話ではなく、非協力ゲームの代表例になりました。
双方が協力した結果のほうが全体には望ましいのに、均衡としては別の場所に止まる。
このズレが、学問上の言葉で精密に語れるようになったのです。
筆者は年表を読むとき、ここを「均衡の理論化」と呼んで頭の中で区切ります。
1950年が物語の完成なら、1951年はその物語を一般理論の中に固定した年です。
この並びを押さえておくと、後に登場する反復囚人のジレンマやTit For Tatの議論も見通しがよくなります。
まず骨格が生まれ、次に人に伝わる物語になり、そのあとで均衡概念の中に位置づけられた。
囚人のジレンマは、思考実験として有名になる前に、ゲーム理論の中で段階的に磨かれてきたモデルなのです。
囚人のジレンマは思考実験として何を問うのか
個人利益と公共善の緊張
囚人のジレンマが思考実験として鋭いのは、単に「人は利己的になりがちだ」と言いたいからではありません。
ここで問われているのは、各人が自分にとって筋の通った選択をしたのに、全体としては望ましくない結果に落ちるというねじれです。
自分の最善が、みんなの最善を壊してしまう。
その構造を、これ以上ないほど凝縮して見せるのがこの問題です。
哲学や倫理学の文脈で読むと、このねじれは社会のいたるところに顔を出します。
価格競争では、自社だけ見れば値下げで得を取りにいく動機があるのに、業界全体では消耗戦になります。
軍拡でも、各国が自国の安全を求めて装備を積み上げると、相互不信と高コストが残ります。
共有資源の利用でも、自分だけ少し多く取る判断が積み重なると、資源そのものが痩せていきます。
どれも「自分だけなら得」という局所的な合理性が、「みんなにとっての損」を生む場面です。
筆者が授業やゼミでこの問題を扱うとき、学生の考えが大きく揺れるのは、条件を一つずつ動かした瞬間です。
まず規範が何もない場面を置くと、多くの人は「裏切るしかない」と言います。
ところが、裏切りに罰があると示すと反応が変わります。
さらに、過去の行動が公開されて評判になると置くと、「一回の得」より「関係の継続」を数え始めます。
ここで実感されるのは、人が急に善人になるから協力するのではなく、協力が損にならない条件が整うと判断そのものが変わるということです。
囚人のジレンマは、性格診断ではなく、環境設計の問いを開く思考実験でもあります。
合理性と道徳の衝突
この思考実験が倫理学で繰り返し参照されるのは、裏切りが合理的に見える局面で、道徳は何を根拠に協力を求められるのかという難題を突きつけるからです。
相手がどう出るかわからず、一回限りで、しかも自分だけが損をする可能性がある。
その条件では、協力は美徳に見えても、選択としては不利に映ります。
ここでぶつかるのは、「合理的であること」と「正しいこと」が同じではない、という事実です。
日常ではこの二つを重ねて考えがちですが、囚人のジレンマはその重なりが崩れる瞬間を切り出します。
自分の不利益を避ける判断は、戦略としては筋が通っている。
けれど、その判断が一般化されると、誰にとっても望ましくない世界になる。
では道徳は、「皆がそうすると困るから協力せよ」と言うだけで足りるのか。
相手が協力する保証もないのに、自分だけが道徳的である理由はどこにあるのか。
この問いは、義務論にも功利主義にも、徳倫理学にも、それぞれ別の形で返答を迫ります。
筆者はこの点を説明するとき、「道徳はきれいごとか、それとも合理性を組み替える装置か」と問い直します。
たとえば、嘘をつかない、約束を守る、ただ乗りをしないといった規範は、単独では窮屈に見えるかもしれません。
けれど、そうした規範が共有され、破ったときの非難や信頼喪失が見込まれる社会では、短期的な裏切りは長期的な損に変わります。
道徳は単なる内面の美しさではなく、相互行為を支える仕組みとして働くわけです。
ここまで来ると、合理性と道徳は正面衝突するだけでなく、制度と規範を介して結び直される可能性が見えてきます。
⚠️ Warning
囚人のジレンマで苦しくなるのは、「協力がよい」と知っているのに、それだけでは選べない点です。だから倫理学では、善い行為の称賛よりも、善い行為が成立する条件の分析へと議論が進みます。
道徳哲学での位置づけ
道徳哲学では、囚人のジレンマは互恵、契約、規範、制度の基礎を検討するための装置として扱われます。
人はなぜ約束を守るべきなのか。
なぜ互いに自制し、ただ乗りを控え、協力のルールに従うべきなのか。
こうした問いに対して、この思考実験は「善意があるから」で済ませず、協力が崩れる条件と、成り立つ条件を切り分けて見せる役割を果たします。
契約論の系譜では、各人が自分の利益を追う存在だとしても、一定の制約を引き受けるほうが、結果として全員にとってましな秩序が成立するのではないかという発想が展開されてきました。
David Gauthierの名前はこの文脈でしばしば挙がりますが、ここは単純化しないほうがよいところです。
彼の議論は「利己的な主体から道徳を導く」と一言で片づくものではなく、合理性にどのような制約を組み込むか、どの範囲で協力が正当化されるかをめぐる精密な検討を含んでいます。
囚人のジレンマは、その議論全体を象徴する便利な図ではあっても、それだけで契約論の結論を代表するわけではありません。
ここで見えてくるのは、道徳を個人の善意だけに預ける発想の限界です。
協力を道徳的義務として唱えるだけでは、裏切りが誘因として残る局面を越えられません。
そこで問われるのが、評判が共有される仕組み、約束違反にコストが生じる制度、長期的関係を支える契約、互恵を学習できる環境といった設計です。
前述のゼミで条件を変えながら議論すると、学生たちは「人を信じるべきか」という問いから、「どういうルールなら信じても損をしないか」という問いへ移っていきます。
倫理学にとって囚人のジレンマが有用なのは、その移動を起こせるからです。
つまり、この思考実験は「人は利己的だからだめだ」という説教にも、「結局みんな協力すべきだ」という道徳訓話にも回収されません。
むしろ、制度や規範が整ってはじめて、協力は持続可能な選択肢になるという視点を与えます。
個人の内面を責める前に、どんな条件なら協力が合理的になるのかを考えること。
そこに、哲学・倫理学のメディアとしてこの問題を扱う意味があります。
繰り返しゲームでは協力は生まれるのか
有限反復と後退帰納法
一回限りの囚人のジレンマでは、相手が何をしても自分は裏切るほうが得になる、という構造が前面に出ます。
では、これを何回か繰り返せば協力は自然に育つのかというと、ここでまず立ちはだかるのが有限反復です。
回数があらかじめ決まっていて、その事実を双方が知っているとき、理屈のうえでは協力は最後まで持ちにくくなります。
理由は後退帰納法で説明できます。
たとえば最終回では、もう次がありません。
将来の報復も評判への影響もないので、一回限りのゲームと同じく裏切りの誘因が勝ちます。
すると、そのひとつ前の回から見ても「次回はどうせ裏切られる」と読めるので、自分も協力を控えるのが合理的になります。
この推論を前へ前へと戻していくと、初回にまで崩れが及びます。
回数が共通知識である有限反復では、最終回で裏切り、その前も裏切り……という連鎖が論理的に発生するわけです。
この話は、直感には少し反します。
人は「10回あるなら途中までは協力できそうだ」と感じますし、実際の人間関係でもそうふるまう場面があります。
ただ、ゲーム理論の厳密なモデルで見ると、終わりが確定していること自体が協力を侵食します。
合理性が時間の先まで見通すほど、現在の選択が変わってしまうのです。
筆者自身、この点は継続的な共同作業を想像すると腑に落ちます。
たとえば同僚と新しい企画を始めるとき、その仕事がその一回で終わる相手なのか、次の案件でもまた組む相手なのかで、最初のメールの書き方や情報共有の丁寧さまで変わります。
今だけの関係だと、相手の出方を探る気持ちや自分だけ損をしたくない警戒が先に立つ。
反対に、次も一緒に働く相手だと思うと、初回から少し協力的に踏み出せます。
有限反復の議論は、その体感を理論の言葉に置き換えたものだと考えると見通しが立ちます。
無期限反復と信頼・評判
協力の可能性が本格的に現れるのは、無期限反復、つまり関係がいつ終わるか確定していないときです。
明日も続くかもしれない、次の取引もあるかもしれない、今回のふるまいが後で知られるかもしれない。
そうした条件が入ると、目先の裏切りで得る利益より、長く協力関係を保つ利益のほうが大きくなりえます。
ここで効いてくるのが、信頼・報復・評判です。
相手を一度だますと、その後の協力を失う。
あるいは周囲に知られて、別の相手との関係でも不利になる。
こうした将来コストがあるなら、協力は道徳的だから選ばれるというより、長期の利得を考えると筋が通る行動として選ばれます。
前の節で見た「道徳が合理性を組み替える装置になる」という話は、反復ゲームでいっそう具体的になります。
企業どうしの価格競争でも、国家間の軍備抑制でも、共有資源の利用でも、この発想は共通しています。
短期だけを見ると、自分だけ先に値下げする、自国だけ軍備を増やす、自分だけ多く資源を取るほうが得に見える。
けれど関係が継続し、相手も記憶し、次の局面が来るなら、裏切りのうまみはすぐに細ります。
反復ゲームは、協力が善意の産物というより、継続する関係のなかで支えられる均衡であることを示します。
ℹ️ Note
協力が生まれる条件は「みんな仲良くするべきだ」という標語ではなく、将来の関係が現在の選択に重みを持つことです。終わりが読めないだけで、判断の計算式そのものが変わります。
Tit For Tatの基本と限界
反復囚人のジレンマを語るとき、もっとも有名な戦略がTit For Tatです。
日本語では「しっぺ返し戦略」と呼ばれます。
1965年にラパポートとChammahの整理で言及され、1980年のアクセルロッドの選手権で広く知られるようになりました。
内容は驚くほど単純で、最初は協力し、その後は相手の前回の行動をそのまま返すというものです。
この戦略が魅力的なのは、性質がはっきりしているからです。
最初に協力するので親切で、相手が裏切ればすぐ仕返しするので甘すぎない。
相手が協力に戻れば自分も戻るので、報復が無限に続く設計でもありません。
しかもルールが単純なので、相手から見ても読みやすい。
反復関係では、この「親切」「報復」「寛容」「わかりやすさ」の組み合わせが強みになります。
ただし、Tit For Tatを常に最強の万能戦略として覚えるのは危険です。
ここは教科書的イメージと現代の理解がずれるところです。
相手の行動を忠実に返す戦略は、相互協力を育てる場面では美しく働きますが、観測ミスや偶発的な裏切りが入ると、仕返しの連鎖を引き起こすことがあります。
相手が単純に敵対的な戦略を取るときにも、別の応答のほうが利得を稼ぐ局面があります。
つまりTit For Tatの評価は、ゲームの長さ、誤りの有無、集団の構成、相手戦略の分布と切り離せません。
この点でも、日常感覚と結びつけると理解しやすくなります。
継続する仕事相手に対して、相手が誠実ならこちらも誠実に返す、相手が一度約束を破れば次は警戒する、相手が態度を改めたらこちらも関係修復に応じる。
Tit For Tatは、そうした互恵の直感をきわめて簡潔に表した戦略です。
ただ、人間の現場では誤解や伝達ミスがあるので、機械的に同じ強さで返すだけでは関係がこじれることもある。
このズレが、戦略の限界そのものです。
最新研究(2025)の示唆
2025年の再検討では、反復囚人のジレンマについての見方がさらに精密になりました。
PLOS Computational Biologyに出た研究では、195種類以上の戦略を数千回規模のトーナメントで比較し、勝ち筋が一枚岩ではないことが示されています。
どの戦略が有利になるかは、対戦環境、ノイズの有無、集団の構成、相互作用の条件によって大きく変わります。
古典的にはTit For Tatが象徴的な成功例として語られてきましたが、現代の整理では「有名な基本戦略」ではあっても、「どんな場面でも王者」という位置づけではありません。
この示唆は、倫理や制度の議論にそのまま響きます。
協力を支える仕組みを考えるとき、「正しい戦略をひとつ採用すれば解決する」という発想では足りないということです。
人がどう記憶し、どこまで誤りが入り、裏切りがどの程度観察され、評判がどう広がるかによって、協力の安定条件は変わります。
つまり問うべきなのは最強戦略探しより、どんな環境なら協力が維持されるかです。
同じ年の4月15日には、理化学研究所が共有資源の制度進化を扱う進化力学系ゲーム理論を示しました。
ここで見えてくるのは、囚人のジレンマを二人の抽象的な選択として理解する段階から、制度そのものがどう進化し、どのようなルール配置なら資源利用の秩序が保たれるかを科学的に扱う段階へ、議論が広がっているということです。
価格競争、軍拡、コモンズ問題のような現実の社会的ジレンマでは、協力は個人の徳だけでは支えきれません。
反復ゲーム研究の蓄積は、そのことをモデルの側から押し出しています。
ここで一段深まるのは、囚人のジレンマが単なる「人は利己的で困る」という寓話ではないという点です。
有限反復では協力が論理的に崩れやすい。
無期限反復では協力の余地が生まれる。
しかも、その余地は戦略名だけでは決まらず、制度と情報環境の設計に左右される。
思考実験としての囚人のジレンマは、そこまで見えてきてはじめて、現代社会の問題に接続する厚みを持ちます。
具体例でわかる囚人のジレンマ
企業の価格競争
身近なビジネスの場面に置き換えると、囚人のジレンマは価格競争で見えやすくなります。
たとえば同じ市場で争う二社が高値を維持できれば業界全体の利幅は保たれますが、片方が値下げすれば短期的に顧客を奪える可能性がある──これが裏切りの誘因です。
国家間の軍拡競争も同様に直感的です。両国が抑制すれば費用と緊張は下がるが、自国だけ増強できれば優位を得られるかもしれないという思惑が働きます。
チキン・ゲームでは、相手が譲るなら自分は強く出たいが、相手も強く出るなら衝突を避けたい、という構造になります。
ここでは「強く出る」がいつでも得とは限りません。
したがって、囚人のジレンマのように裏切りが一律に支配戦略にはなりません。
軍事危機や瀬戸際外交の一部は、こちらに近いことがあります。
協調ゲームでは、同じ行動を選ぶこと自体に価値があります。
右側通行か左側通行か、同じ規格を採用するか、といった問題では、片方だけ抜け駆けして得をするというより、足並みが揃わないこと自体が損失になります。
この場合の難しさは裏切りの誘惑ではなく、どの均衡に揃えるかです。
囚人のジレンマとの違いを短く言えば、協調ゲームは「揃うこと」が焦点で、チキン・ゲームは「相手が引くなら突っ込みたい」が焦点です。
囚人のジレンマは、相手がどう出ても裏切りたくなるところに独特さがあります。
価格競争、軍拡、買い占めのような現実の例を考えるときも、ただ雰囲気で当てはめるのではなく、本当に支配戦略が存在するのか、相互協力が全体にとってより良いのかを見ていくと、似た別ゲームとの境界がはっきりします。
現代的な意義:AI・制度設計・協力の条件
AI・マルチエージェントの協力
囚人のジレンマが古典理論として面白いだけなら、ここまで長く参照され続けていません。
いま読む意味があるのは、AIとアルゴリズムの世界でも、同じ骨格が繰り返し現れるからです。
複数のAIが同じ環境で学習し、限られた計算資源や報酬をめぐって行動するとき、各エージェントが自分の短期得点だけを追えば、全体としては低い成果に落ち込む場面が生まれます。
マルチエージェント強化学習では、この「自分にとっての最適」と「系全体の安定」がずれる局面が、むしろ基本問題として現れます。
たとえば自動運転、物流制御、広告配信、オークション入札のように、複数の意思決定主体が同時に動く系では、各主体にどんな報酬を与えるかで挙動が変わります。
短期の獲得量だけを褒めると、抜け駆けや過剰競争に流れやすくなります。
逆に、将来の関係継続や相手への影響まで含めて報酬を設計すると、協調行動が安定しやすくなります。
ここで効いてくるのは「AIは合理的だから最善を選ぶ」という素朴な見方ではありません。
何を最善として学習させるかが、結果そのものを作るのです。
この点は、探索ノイズの扱いにも表れます。
学習中のAIは、同じ行動を固定的に繰り返すのではなく、試行錯誤として別の手を打ちます。
人間同士なら「一度の裏切りはミスかもしれない」と読み替えられる場面でも、アルゴリズム同士では、その一回が報復連鎖の引き金になります。
情報共有のルールが細かく設定されていないと、偶発的な逸脱が恒常的な非協力に変わるわけです。
反対に、相手の意図や過去の行動履歴を適切に参照できる設計では、誤解からの崩壊を抑えられます。
2025年の研究動向も、この直感を裏づけています。
PLOS Computational Biology系の大規模検討では、195種類以上の戦略を数千回規模のトーナメントで比較しても、単一の万能戦略は確認されませんでした。
勝つ戦略は、ノイズ、相手集団の構成、反復の長さ、情報条件によって入れ替わります。
ここから見えてくるのは、「最強の振る舞い」を探す発想より、どんな制度と環境なら協力が壊れにくいかを設計する発想のほうが、現代の課題に合っているということです。
筆者はこの論点を、オンライン・プラットフォームの評価システムを見るたびに思い出します。
出品者にも購入者にも履歴と評価が見える場では、多少高くても丁寧な対応を選びたくなりますし、こちらも雑な連絡を控えようという気持ちになります。
ところが評価も過去履歴も見えない相手との取引では、約束が守られる前提そのものが弱くなり、「先に自分の安全を確保したい」という発想が前に出ます。
人の道徳心が急に変わるというより、評判が可視化されているかどうかで合理性の計算式が変わるのです。
AIの設計でも同じで、透明性や履歴参照の有無は、協力の成否を左右する条件になります。
共有資源と制度設計
共有資源の問題も、囚人のジレンマの現代的な応用先として外せません。
気候変動、漁業資源、水資源の配分では、各国や各事業者が「自分だけ少し多く使う」誘因を持ちます。
個別には得でも、全員がそう動けば資源の回復力を超え、全体が損を引き受けることになります。
ここでは単純な二者ゲームを超えて主体が増えますが、協力を支える条件を問うという意味では、囚人のジレンマの延長線上にあります。
気候交渉が難しいのも同じ理由です。
排出削減には短期コストがかかる一方で、便益は広く分散します。
そのため「他国が削減するなら自国は少し緩めたい」という誘惑が残ります。
漁業でも、各プレイヤーがその日の漁獲だけを追えば、将来の資源量を削って自分の首も絞めます。
水資源でも、上流が取り過ぎれば下流の生活と産業に負荷が移ります。
どれも、善意の呼びかけだけでは持続しません。
監視、違反検知、罰、相互監督、評判が組み込まれてはじめて、協力が現実の行動になります。
制度設計の核心は、裏切りを「道徳的に悪い行為」と言うことではなく、裏切ったときの利得計算を変えることにあります。
漁獲量の記録義務、衛星監視、国際査察、排出量の開示、第三者が確認できる報告制度は、そのための装置です。
監視だけで足りないなら、ペナルティやアクセス制限が必要ですし、中央集権的な罰だけで回らないなら、参加者同士が互いを見て評判を更新できる仕組みが必要になります。
制度は単なる外枠ではなく、プレイヤーの合理性そのものを作り替える環境条件です。
2025年4月15日に公表された理化学研究所の進化力学系ゲーム理論の整理も、この点をよく示しています。
焦点は「どの戦略が一番強いか」ではなく、戦略が増減し、環境との相互作用のなかで何が安定するかにあります。
協力は個人の性格の産物というより、相互作用の場がどう設計されているかで増えも減りもする。
制度設計を考えるときに、この見方は役に立ちます。
制度は人に我慢を強いるだけのものではなく、協力したほうが合理的だと感じられる地形を作るものだからです。
ℹ️ Note
共有資源の問題では、「みんなが良心的なら解決する」と考えるより、「良心がなくても協力が続く仕組みは何か」と問うほうが、設計の精度が上がります。
協力を支える4条件
では、協力が続く制度には何が必要なのでしょうか。論点は多く見えても、骨組みは4つに整理できます。
- 繰り返し性、つまり関係が続くこと
一回だけの取引では、相手を出し抜いて終わる誘惑が強くなります。
反対に、今後も会う、また取引する、次の交渉があるという見通しがあると、今日の裏切りは将来の不利益として跳ね返ってきます。
無期限反復の議論が示したのは、協力は善人だけの特権ではなく、関係継続が見えるだけで合理的選択肢になりうるということでした。
- 違反を見つけられることと、罰があること
ルールがあっても、破っても見つからず、見つかっても不利益がないなら、制度は紙の上で終わります。
協力を守るには、何が違反かが明確で、検知手段があり、違反時の帰結が予測できなければなりません。
ここでいう罰は感情的な報復ではなく、裏切りの期待利得を下げる調整装置です。
- 評判と透明性があること
人間でもAIでも、相手の過去が見えないと毎回ゼロから疑いが始まります。
履歴、実績、説明可能性、第三者からの確認可能性があると、協力は一度きりの賭けではなくなります。
筆者がオンライン取引で感じる安心感もここにあります。
評価欄が整っているだけで、相手の振る舞いが予測可能なものに変わり、こちらの応答も穏やかになります。
- コミュニケーションできること
意外に見落とされますが、話し合えること自体が協力の資源です。
意図を伝え、誤解を解き、条件付きの約束を交わせるだけで、相手の行動を「敵対」ではなく「調整不足」と読み替えられます。
AIシステムでも、情報共有プロトコルや説明ルールがあると、偶発的な衝突を減らせます。
沈黙したまま利得だけをぶつけ合う場より、対話の回路がある場のほうが、協力は持続しやすくなります。
この4条件は、道徳教育の項目というより、合理性の地形を変えるレバーです。
人は制度の外で純粋に協力的になるのではなく、制度の内側で「協力したほうが損をしない」と読めるときに安定して協力します。
囚人のジレンマが2025年以降にも読み継がれる理由は、ここにあります。
AIの報酬設計でも、国際協調でも、プラットフォームのルールでも、問われているのは人や機械の善悪そのものではなく、どんな仕組みなら協力が合理的になるのかという設計の問題なのです。
まとめ:囚人のジレンマから何を学ぶか
囚人のジレンマが教えるのは、正しい選択がそのまま実現されるわけではない、ということです。
一回限りでは裏切りが合理的になりやすく、回数が決まった反復でも最終回から協力は崩れやすい。
反対に、終わりが読めない関係や、検知と罰、評判、対話の回路がある場では、協力は善意ではなく合理性として立ち上がります。
ナッシュ均衡とパレート最適がずれるのも、安定していることと望ましいことの基準が別だからです。
筆者はこのテーマを考えるとき、「人が悪い」のではなく「裏切りたくなる構図が置かれていないか」を先に見ます。
今週中に一つ、協力を促す場の仕組みを試し、自分の行動と相手の反応を観察してみてください。
あわせて、身近な一場面を書き出し、それが一回限りか繰り返しかを見分け、別の具体例でこの二つの概念の違いを自分の言葉で説明できれば、理解は知識から判断力へ変わります。
本記事は公開時点でサイト内に関連記事がまだありません。
将来的に関連コンテンツが追加された際には、この記事から内部リンクを設定して知識ネットワークを形成する予定です。
参考・出典:
- Stanford Encyclopedia of Philosophy — "Prisoner's Dilemma"
- Axelrod, R., The Evolution of Cooperation (Princeton University Press)
応用倫理学の研究者出身。生命倫理・AI倫理の分野で企業研修講師も務め、思考実験を通じて倫理的問いを「自分ごと」にする解説を得意とします。
関連記事
トロッコ問題とは?回答例と倫理的論点を解説
暴走するトロッコの進路を変えて1人を犠牲にし、5人を救うべきか。企業研修や大学の導入授業でこの問いに挙手を促すと、レバーを引くSwitchでは手が上がっても、1人を突き落とすFootbridgeに移ると教室が急に静まり、迷いが空気として見えてきます。
テセウスの船とは?同一性を5視点で理解
テセウスの船は、部品を少しずつ交換していった船が、時間をへてもなお同じ船なのかを問う、通時的同一性の思考実験です。ここではまず、まったく同一の一つのものを指す数的同一性と、性質や見た目が似ていることを指す質的同一性を分けて、論点の混同を避けます。
哲学的ゾンビとは?定義・論証・AIとの接点
哲学的ゾンビとは、外見も行動も脳の物理状態も私たちと同じなのに、主観的経験、つまりクオリアをまったくもたないと仮定される思考実験です。友人が足の小指をぶつけて「痛い!」と叫んでも、その痛みそのものはあなたには届かない。
スワンプマンとは?自己同一性と外在主義の論点
もし明日、あなたの“完全コピー”が何事もなくオフィスに現れたら、その人はあなた本人でしょうか。スワンプマンは、この直観を一気に鋭くする思考実験です。1987年にドナルド・デイヴィッドソン(Donald Davidson、1917–2003)が提示した原典では、沼のそばで本人が死に、