從中方對等關閉成都領事館,看博弈論中的以牙還牙策略(Tit-for-tat)

西西弗

在美國關閉中國駐美休斯頓領事館後,中方通知美方關閉成都領事館。

在西方媒體對這個事情的報導中,基本都用了’tit-for-tat’這個詞語,這個詞翻譯成中文,就是以牙還牙。

在博弈論中,以牙還牙(tit-for-tat)是一種解決囚徒困境的有效應對策略。

在兩個相互完全不信任個人之間的多次重複博弈中,以牙還牙是一個最有效的應對方法。

1、

囚徒困境(Prisoner’s Dilemma)是博弈論中最具代表性的例子,對每個人來說的最佳選擇,反而會帶來群體的損失。

經典的囚徒困境如下:

警方逮捕甲、乙兩名嫌疑犯,但沒有足夠證據指控二人有罪。於是警方分開囚禁嫌疑犯,分別和二人見面,並向雙方提供以下相同的選擇:

若一人認罪並作證檢控對方(相關術語稱「背叛」對方),而對方保持沉默,此人將即時獲釋,沉默者將判監10年。

若二人都保持沉默(相關術語稱互相「合作」),則二人同樣判監半年。

若二人都互相檢舉(互相「背叛」),則二人同樣判監5年。

用表格概述如下:

 乙沉默(合作)乙認罪(背叛) 
甲沉默(合作) 二人同服刑半年甲服刑10年;乙即時獲釋
甲認罪(背叛 甲即時獲釋;乙服刑10年二人同服刑5年 

囚徒到底應該選擇哪一項策略,才能將自己個人的刑期縮至最短?兩名囚徒由於隔絕監禁,並不知道對方選擇;而即使他們能交談,還是未必能夠盡信對方不會反口。

就個人的理性選擇而言,檢舉背叛對方所得刑期,總比沉默要來得低。試設想困境中兩名理性囚徒會如何作出選擇:

若對方沉默、我背叛會讓我獲釋,所以會選擇背叛。

若對方背叛指控我,我也要指控對方才能得到較低的刑期,所以也是會選擇背叛。

二人面對的情況一樣,所以二人的理性思考都會得出相同的結論——選擇背叛。這場博弈中唯一可能達到的納什均衡,就是雙方參與者都背叛對方,結果二人同樣服刑5年。

這場博弈的納什均衡,顯然不是顧及團體利益的最優解決方案。以全體利益而言,如果兩個參與者都合作保持沉默,兩人都只會被判刑半年,總體利益更高。但根據以上假設,二人均為理性的個人,且只追求自己個人利益。均衡狀況會是兩個囚徒都選擇背叛,結果二人判監均比合作為高,總體利益較合作為低。這就是「困境」所在。

囚徒困境和博弈論,被廣泛用於分析包括美蘇軍備競賽,核威懾這樣的現實政治問題。

2、

如果這種囚徒困境可以發生給定次數的多次博弈,結果並不會有什麼改變。

概括而言囚徒困境進行第一次後會出現以下兩種情況:

假設雙方博弈十局。

在第十局中,因為甲乙雙方都知道這是最後一局,之後不會被對方報復。雙方的最佳選擇都是在第十局指控對方,這將最終導致,二人同服刑5年。

如果雙方都知道對方會在第十局中指控自己,這樣,在第九局時都保持沉默,建立兩者間的信任關係的建立即是沒有意義的。第九局也應該指控對方。

如此類推,第八局到第一局中信任關係的建立也是沒有意義的,即是所有的十局都會互相背叛,也就是納什均衡。

如果局數是給定的,甲乙雙方還是不會互相信任。所有的博弈都會互相背叛。

只有在囚徒困境的局數在不肯定的情況下(即雙方均不知道進行的局數,這樣就沒有最後一局),才有可能出現互相保持沉默以獲得信任關係的現象。

3、

在重複的不肯定局數的囚徒困境中,什麼樣的策略是最好的?

美國政治學家羅伯特·阿克塞爾羅德(Robert Marshall Axelrod)在其著作《合作的進化》(The Evolution of Cooperation)中,探索了經典囚徒困境情景的一個擴展,並把它稱作「重複的囚徒困境」(IPD)。

在這個博弈中,參與者必須反覆地選擇他們彼此相關的策略,並且記住他們以前的對抗。阿克塞爾羅德邀請全世界的學術同行來設計計算機策略,並在一個重複囚徒困境競賽中互相競爭。參賽的程序的差異廣泛地存在於這些方面:算法的複雜性、最初的對抗、寬恕的能力等等。

最佳確定性策略被認為是「以牙還牙」(tit-for-tat),這是俄裔美籍數學心理學家阿納托爾·拉波波特(Anatol Rapoport)開發並運用到錦標賽中的方法。它是所有參賽程序中最簡單的,只包含了四行BASIC語言,並且贏得了比賽。

這個策略是:在重複博弈的開頭選擇合作,然後,採取你的對手前一回合的策略。如果對手上一回合合作,你也選擇合作。如果對手上一回合背叛,你95-99%的概率選擇背叛,1%-5%的概率選擇合作。小概率選擇合作是考慮到偶爾要從循環背叛的受騙中復原。

通過分析高分策略,阿克塞爾羅德分析了策略獲得成功的幾個必要條件。

初期的友善:最重要的條件是策略必須「友善」,這就是說,不要在對手背叛之前先背叛。幾乎所有的高分策略都是友善的。永遠不首先打擊其對手。

堅決的報復:同時,成功的策略必須不是一個盲目樂觀者。要始終報復。一個非報復策略的例子是始終合作。這是一個非常糟糕的選擇,因為「下流」的策略將殘酷地剝削這樣的傻瓜。

寬恕:成功策略的另一個品質是必須要寬恕。雖然它們不報復,但是如果對手不繼續背叛,它們會一再退卻到合作。這停止了報復和反報復的長期進行,最大化了得分點數。

不嫉妒:最後一個品質是不嫉妒,就是說不去試圖爭取得到高於對手的分數

4、

今天,中國在中美關係的策略,很接近以牙還牙的策略

中國對美國的策略是:

友善:中國的應對基本都是被動的。只要美國不挑事,中國絕對不找事。

堅決的報復:美國如果挑事,中國一定會以牙還牙的報復回去

寬恕:美國表達友善時,中國會馬上回報友善。

在Covid-19疫情之前,我們能看到只要美國方面表達了一些友善的態度時,中國馬上予以回報。媒體馬上開始宣傳中美友好。有人諷刺我們變臉變得太快。其實按博弈論的理論就應該這樣,對方示好時我們應該馬上回應。

即使美國始終對中國抱有敵意,從博弈論的角度,也應該時不時的表示一下合作的態度,嘗試能否回到相互合作的軌道上。

目前我們對美國的應對,至少從純理論的角度,是沒什麼問題的。以牙還牙對於已經完全沒有信任的中美雙方,不失為一個好策略。

5、

最後再說一句:有人說,美國最近的一再挑釁是特朗普的選舉策略,是短期瘋狂。

另外一批人說,這個是美國的大棋,是處心積慮一步步絞殺中國的第一步。

其實,兩者都沒錯。

我對這個事情的判斷是:

美國有一批所謂的鷹派「精英」,確實有着一步步絞殺中國的完整計劃:

包括宣傳上醜化,軍事上包圍,外交上孤立,經濟上打擊。並最終通過一場戰爭徹底消滅中國對美國的威脅。

這一批鷹派,包括博爾頓、納瓦羅等人。這批人在美國一直存在。維持美國的霸權,消滅可能的競爭對手,這就是他們孜孜以求的。

朝鮮戰爭中,麥克阿瑟就打算往中國扔幾十顆核彈,被杜魯門阻止。

但是,包括特朗普在內的歷任美國總統,都沒這麼瘋狂。

按特朗普的話:「如果我聽他(博爾頓)的話,我們現在將參加第六次世界大戰。」

但是,特朗普現在需要連任。在反華是美國的政治正確的前提下,為了轉移民眾對他應對Covid-19疫情的不滿,他需要一個替罪羊,需要轉移話題。

這時,這批鷹派就利用特朗普的這種需求,來不斷的挑釁中國,破壞中美關係,以達到他們自己內心與中國開戰,通過戰爭一勞永逸的解決中國問題的目的。

在第一次世界大戰前,無論是同盟國還是協約國,都希望用一場最終戰爭徹底解決問題。第一次世界大戰被稱為,結束所有戰爭的最終一戰(The War to End All Wars)

想和中國打一場最終戰爭,有這個念頭的美國鷹派不在少數。

特朗普需要通過打壓中國拿選票,罵中國挑事兒,確實是他的選舉策略,他並不想打仗,也不想和中國徹底撕破臉。

而美國的「鷹派精英」,也確實有盤大棋,希望把中美兩國推向戰爭,用戰爭解決中國問題。

所以,就出現了如今的局面。■

Be the first to comment

Leave a Reply

Your email address will not be published.