政治粉餅。羅毓嘉: 作業《囚徒困境與國際政治》

　

　　囚徒困境（Prisoner’s Dilemmas）是賽局理論（Game Theory）的一

個分支情境，若要探討囚徒困境的情境，就非得從賽局理論開始說起不可。

　　賽局理論有時也被稱為博弈理論，是衍生自應用數學的一個學門，專門研究

具有鬥爭或競爭性質現象的數學理論和方法，目前被廣泛地應用在生物學、經濟

學、國際關係、政治學與軍事研究等方面。賽局理論考慮遊戲或競爭環境當中，

個體的預測行為與實際行為，並且試圖解構分析個體如何將其行為結果最佳化的

選擇過程。

　　具有競爭或對抗性質的行為，構成了賽局的基本結構。在這類競爭／對抗的

行為當中，參加鬥爭或競爭的各方都是理性的個體──在可能狀況下選擇可讓自

身獲致最高預測利益的行為──各自具有不同的目標或利益。為了獲取對個體最

有利的目標和利益，賽局當中的個體必須考慮衡量對手各種可能的行動方案，並

力圖選取對自己最為合理──也就意謂著獲得相對較大利益──的方案。賽局理

論就是研究賽局當中鬥爭的個體是否存在著最合理的行為方案，以及如何找到這

個合理行為方案的數學理論和方法。

　　而囚徒困境是賽局理論當中最為人所津津樂道的一個應用。

　　囚徒困境是一種非零和賽局（Non-zero-sum Game）。在這個賽局中──和

在其他賽局情境一樣──它假定每個賽局的參與者／囚徒都是理性利己的，也就

是說，賽局當中的每個個體所做的選擇，都試圖最大化其自身的利益，而不關心

另一個參與者的福利。

　　讓我們用圖表來呈現囚徒困境的情境：

　　一個案子的兩個嫌疑犯被分開審訊，警官分別告訴兩個囚犯，如果兩人均不

招供，將被判刑一年；如果你招供，而對方不招供，則你將被判刑三個月，而對

方將被判刑十年；如果兩人均招供，將均被判刑五年。於是，兩人同時陷入招供

還是不招供的兩難處境。

囚徒困境矩陣

　　　　　　　　　囚犯甲

　　　　　　招供　　　　　不招

　　　　　甲被判五年　　甲被判十年

　　招供　乙被判五年　　乙被判三月

囚

犯

乙　不招　甲被判三月　　甲被判一年

　　　　　乙被判十年　　乙被判一年

　　若選擇招供，乙選擇不招供，則甲將被判刑三月，甲若選擇招供，乙選擇

招供，甲將被判刑五年。甲若選擇不招供，乙選擇不招供，甲將只被判刑一年

。甲若選擇不招供，而乙招供，則甲將被判刑十年。因此就甲的偏好結構

（preference structure）來說，一旦選擇招供，無論乙作怎樣的選擇，相對

於選擇不招供的結果，甲都可以獲得相對較輕的刑期──然而就乙的偏好結構

來看也是一樣的。

　　在任何賽局裡頭，人傾向於選擇一種「導向相對優勢結果的行動dominant

strategy」。此優勢策略，乃針對「其他行動者無論選擇何種動作」，其獲致

的利益都比自己選擇另外一種行動方式所將獲致的利益來得多。一個理性的賽

局參與者必然會選擇此優勢策略，而我們在稍早的討論當中已經強調，賽局當

中參與競爭的個體都是理性的──因此在囚徒困境中，經過理性思考，背叛這

個選項相對於合作，便成為賽局當中的優勢策略，所以這個賽局唯一可能的均

衡結果，就是所有的參與者都選擇背叛。納許均衡告訴我們，賽局中的雙方將

各自選擇自己的優勢策略，並且在這均衡點上，雙方均不再改變策略──因為

改變策略，將導致所得報酬減少──然而在現實情況當中，當事人的優勢策略

往往與另一方的優勢策略結果相牴觸，而得致對雙方都相對不利的結果。（因

為雙方都沒有想到，如果和對方合作可以得到較好的結果。）

　　在雙方有所互信且資訊有所交換／增加的情況之下，事實上第二行第二列

的結果（雙方都僅被判刑一年，）可以導致最小損害或者雙方共利的結果。然

而顯而易見地，當兩方都根據自己的優勢策略做選擇，進入這個賽局的唯一均

衡，則兩方都不會得到最佳的解決方案。在均衡中，每個囚徒選擇背叛──儘

管雙方都能通過選擇合作，而使境況得到改善──這就是「困境」所在。

　　在國際政治的學門中，囚徒困境的情景經常被用於說明兩個國家之間的軍

備競賽（arm race）問題。

　　根據現實主義的分析模式，兩個國家都是理性的個體，因此套用到囚徒困

境的矩陣之後，雙方都會認為他們有兩種選擇──增加軍費開支，或達成削減

武器的協議──然而在兩國之間缺乏有效溝通平台與信任建立機制（Confidence

Building Measures）的狀況下，沒有任何一方能肯定另一方會遵守協議，因

此，他們都根據自身的偏好結構，作了傾向軍事擴張的選擇。這個困境的肇因

在於：兩個國家都選擇了「理性地」行動，但卻產生了一個「非理性」的結果

（軍備競賽）。

　　安全困境的問題，很快地成為了現實主義與自由主義相互辯證的戰場。新

自由主義者傾向認為，國與國之間的軍備競爭，可以通過囚徒困境下多次賽局

的理論和國際性制度安排來解決，相對地，現實主義者則認為國際關係的囚徒

困境幾乎難以達到完全解決的境界。然而如我們所知，事實上，在現實世界當

中的國際關係，並非如同典型的囚徒困境一般僅是一次性選擇的問題──國與

國互動的過程當中，參與者必須反覆地選擇他們彼此相關的策略，並且記住他

們以前的對抗結果。

　　在重複的囚徒困境中，賽局被反覆地進行。因而每個參與者都有機會去「

懲罰」另一個參與者前一回合的非合作行為。這時，合作可能會作為均衡的結

果出現。欺騙的動機這時可能被受到懲罰的威脅所剋服，從而導向一個較好的

、合作的結果。當國際對抗被每個選擇不同策略的參與國家一再重複了很長時

間之後，從利己的角度來判斷，最終「貪婪」策略趨向於減少，而相對地出現

了更多「利他／雙贏」策略的採用。重複的囚徒賽局說明了，通過自然選擇，

以及參賽者一再得致雙輸結果的重複選擇之後，一種利他行為的機制，可能從

最初純粹的自私機制進化而來。

　　重新考慮典型的，一次性的囚徒困境中所給定的軍備競賽模型：結論是，

理性策略增進了軍事力量，似乎兩個國家都寧可花費其GDP購買槍炮，而不是

麵包。有趣的是，一次性囚徒困境說明了，對抗國家實際上以這種方式（在「

重複囚徒困境假定」下的不同時期，軍費支出在「高」和「低」之間反覆，甚

至可能達到雙方皆同步地選擇了降低其軍事預算，）重複競賽的嘗試卻顯示，

根據囚徒困境推演所假定的軍備競賽，並沒有像預想的那樣出現。這可能是一

次性博弈和重複性博弈中的理性行為不同的例子──在彼此敵對競爭的狀況下

，雙方皆付出過大成本並且得到雙輸的結果，因此在不停重複嘗試的策略選擇

架構中，終有可能做出退而求其次，符合雙方次要利益的賽局均衡。

　　依照囚徒困境的理論模型衍伸，自由主義者認為，在國際現實這個無政府

狀態的社會當中，如果各國只將政策聚焦在「如何獲致最大利益」而忽視他國

的偏好結構，則納許均衡所指向的「雙輸」結果，將在囚徒困境當中不停重演

。囚徒困境強調的一點是「雙方對對方的心意一無所知，僅能憑著推測來了解

」，因此若能根據國際現實的需要建立制度，例如國與國之間充分對話的平台

或信心建立機制等等，在多次性／重複的囚徒賽局推演之下，雙方合作達致雙

贏結果的可能性將大幅增加。

　　囚徒困境賽局，充分地分析／解釋了當前國際政治上的權力角力與軍備競

賽均衡的狀況，然而，也提供了國際政治研究者一個新方向──國與國合作，

而非對立，的可能性。除了以囚徒困境解釋歷史上始終不斷的軍備競賽現象，

以及國與國何以始終以「追求軍事力量的不均等」為最高軍備擴充指導原則，

更甚者，囚徒困境顯示了，儘管國際合作對各方都是有利的，然而受到彼此競

爭的壓力與合作的權利不均等，追求相對利益（relative gains）的誘因遠

大於追求絕對利益（absolute gains）的增加，因此若將國際合作的架構放

在一次性的囚徒困境矩陣裡頭檢視，「合作有利卻拒絕合作」的結果肯定會一

再重演。

　　然而國際政治上的交流，卻並不像一次性的典型囚徒困境──國與國的競

爭或合作，並不是單一情況，而是隨著時間軸推演而進入多次性的囚徒困境選

擇，這樣的架構，卻也揭示了，事實上永遠背叛的選擇在現實當中，鮮少出現

。

　

政治粉餅。羅毓嘉

創用授權範圍

Jan 10, 2006

作業《囚徒困境與國際政治》

No comments:

Post a Comment

Facebook