賽局理論_ Chapter 06 Game theory_筆記
賽局理論
主要是研究理性者互動策略選擇,研究人類互動行為的方法。(比方:選舉、戰爭、貿易經濟戰)
當個人之最佳行動抉擇於他人行動或預期行動時,可協助釐清情勢。
目的在於發掘穩定及可預測的互動結果,學者將穩定可預測之結果稱之為均衡(Equilibrium)。
關鍵步驟:發覺在給定期他參與者策略下,找出參與者的最適反映(Best Response)。
賽局理論就是在研究策略性互動,通常會需要有
- 參與者(players) 至少兩人
- 參與者可能採取的策略(possible strategies)
- 報酬(Payoff)
最適反映(Best Response)
在給定或預期其他參與者將選擇之色略下,能帶給自身最大報酬的策略。
報酬表(Payoff Table)
用於描述有兩個或三個參與者於不同策略組合下的參與者報酬。
參與者的策略分解於行和列,行和列下的數字,分別表述所對應策略組合下,行與列參與者的報酬。
納許均衡(Nash Equilibrium)
- 納許是美國數學家,他提出:「我們應該預期每個人都會考慮其他參與者的策略,並據此做出最佳決策。」
- 在包含兩個或以上參與者的非合作賽局中,假設每個參與者都知道其他參與者的均衡策略的情況下,沒有參與者可以透過改變自身策略使自身受益時的一個概念解。
- 納許均衡可大致分為純策略均衡 (Pure Strategy) 和混合策略均衡 (Mixed Strategy)。
優勢策略(Dominant Strategy)
簡而言之,自己的某個策略,對對手所有的策略都是最適回應。當賽局中存在優勢策略時,便會產生讓人非選該策略不可的強大理由,此狀態就稱為優勢策略均衡。
囚犯困境(The Prisoner’s Dilemma)
之所以難下抉擇,是因為刑期不僅取決於自己認罪與否,也取決於別人認罪與否。
嫌疑犯1 跟 2各自是否認罪?
- 若兩人都不招就各判關1年
- 兩人都招就各判關4年
- 其中一方招對方不招,則招的一方直接自由,另一方不招就關10年。
Payoff Table如下呈現
- NC 代表 不認罪(Not Confess)
- C 代表 認罪(Confess)
基於理性原則為前提假設,兩個囚犯符合自己利益的選擇是坦白招供,原本對雙方都有利的策略不招供從而均被判刑1年就不會出現。兩人都選擇坦白的策略以及因此被判4年的結局被稱作是「納許均衡」(也叫非合作均衡)。
明顯可見,嫌疑犯雙方最有利的抉擇理應選定都不招,指各判關一年,但這並非均衡結果。
每一位嫌疑犯在做決策時,都會站在自己的利益上,去思考「不管對方怎麼選,我選哪個比較有利?」
以嫌疑犯 1 的角度來看
情況一:如果嫌疑犯 2 不認罪(NC)
此時嫌疑犯 1 有兩種選擇:
- 自己也不認罪:結果是 (-1, -1),嫌疑犯 1 得到 -1
- 自己認罪:結果是 (0, -10),嫌疑犯 1 得到 0
因為 0 比 -1 好,代表 直接釋放比坐牢 1 年更有利,
所以在對方不認罪時,嫌疑犯 1 會選擇 認罪(C)。
情況二:如果嫌疑犯 2 認罪(C)
此時嫌疑犯 1 一樣有兩種選擇:
- 自己不認罪:結果是 (-10, 0),嫌疑犯 1 得到 -10
- 自己也認罪:結果是 (-4, -4),嫌疑犯 1 得到 -4
因為 -4 比 -10 好,代表 坐牢 4 年比坐牢 10 年更有利,
所以在對方認罪時,嫌疑犯 1 仍然會選擇 認罪(C)。
對嫌疑犯 1 而言:
對方不認罪時,自己認罪比較好
對方認罪時,自己還是認罪比較好
也就是說,認罪(C)是嫌疑犯 1 的優勢策略(dominant strategy)。
同理,對嫌疑犯 2 來說也完全一樣:
若嫌疑犯 1 不認罪,嫌疑犯 2 認罪比較好
若嫌疑犯 1 認罪,嫌疑犯 2 還是認罪比較好
所以,認罪(C)同樣也是嫌疑犯 2 的優勢策略。
雙方都會理性地發現:
對每個人個別理性思考而言,認罪才是最安全、最有利的策略,最後雙方都會選擇認罪(C, C)
對應結果是:(-4, -4)也就是兩人各判 4 年,這就是此賽局的納許均衡。
協調賽局(Coordination Game)
當賽局有兩個或更多個納許均衡時,參與者們將難以抉擇,因為每一個均衡皆可能發生,因此他們彼此必須協調策略。
薛林點(Schelling Point)
Thomas Schelling引入焦點(focal point)概念來解決協調賽局中的選擇困難,在協調賽局中,若有任一線索引導參與者相信其中一個均衡較其他均衡更可能發生,則這個最可能的均衡便稱作薛林點。
1960年代,薛林在耶魯授課時,曾對學生做過心理測驗詢問同學,在一個特別日子裡,你與你朋友相約要在紐約會面,但是你跟你朋友都不清楚會面的時間與地點。請問你們會在何時、何地碰面? 於20世紀中期耶魯大部分學生都回應在中午12點的中央車站,而這是對學生們而言傳統習以為常的以中央車站的時鐘作為會面地點。此傳統足以打破不確定性,使學生們都聚焦在相同地點。
優勢策略均衡(Dominant Strategy Equilibrium)
若一賽局中,每一個參與者都有一個優勢策略,則所有參與者之優勢策略的組合
及其所對應的報酬,即構成此一賽局的優勢策略均衡。
純策略(Pure strategy)
只使用策略集合(各列各行伴隨報酬的策略)中其中一條策略。
混合策略(Mixed Strategies)
- 對每個純策略分配一個機率而形容的策略。
- 也有一些賽局是完全不存在納許均衡的。對於這類賽局,我們會透過擴大策略集合來進行預測,也就是把隨機化選擇的可能性納入策略之中。
- 一旦允許玩家以隨機方式行動,均衡便一定會存在。
- 「攻擊-防禦」類型的賽局,就能展現這種現象。
有兩個人,每人各拿一枚硬幣,並且同時決定要讓自己的硬幣顯示正面(H)或反面(T)。
如果兩人的結果相同,則玩家 1 會輸掉自己的硬幣;
如果兩人的結果不同,則玩家 1 會贏得玩家 2 的硬幣。
如圖 6.14 所示的報酬矩陣
零和賽局(Zero-sum game)
- 在一個零和賽局中,參與者的報酬總和為0。換言之,若一人贏,則另一個人必輸。
- 例如: 剪刀石頭布、球賽、運動競賽。
- 也屬於一種有混合策略均衡的賽局。
賽局理論舉例(都是僅兩人兩個策略的案例)
案例1.有兩位大學生,要決定把主要心力放在準備考試還是報告?
每個人的平均成績,不是只看自己選哪一個,而是也會受到夥伴選擇影響。
- 考試(Exam)的結果:看個人是否投入準備
- 如果有準備考試,預期考試成績是 92
- 如果沒準備考試,預期考試成績是 80
- 報告(Presentation)的結果:看雙方共同投入
- 如果兩人都準備報告,報告成績是 100
- 如果只有一人準備報告,報告成績是 92
- 如果兩人都不準備報告,報告成績是 84
圖中的 payoff matrix 不是直接寫考試分數或報告分數
而是:平均成績 = (考試成績 + 報告成績) / 2
- 情況 1:你選 Presentation,夥伴也選 Presentation (左上角)代表:你把心力放在報告,所以沒準備考試夥伴也把心力放在報告,所以他也沒準備考試兩人都準備報告,所以報告成績 = 100兩人都沒準備考試,所以考試成績各自 = 80因此每個人的平均成績:180/2=90。
- 情況 2:你選 Presentation,夥伴選 Exam (右上角)代表:你投入報告,所以你沒準備考試,你的考試成績 = 80夥伴投入考試,所以他的考試成績 = 92只有你一人準備報告,因此報告成績 = 92你的平均成績 : (92+80)/2=86夥伴的平均成績 : (92+92)/2=92
- 情況 3:你選 Exam,夥伴選 Presentation (左下角)代表:你準備考試,所以你的考試成績 = 92夥伴沒準備考試,所以他的考試成績 = 80只有夥伴一人準備報告,因此報告成績 = 92你的平均成績 : (92+92)/2=92夥伴的平均成績 : (92+80)/2=86
- 情況 4:你選 Exam,夥伴也選 Exam (右下角)代表:兩人都準備考試,所以考試成績各自 = 92兩人都沒有準備報告,所以報告成績 = 84因此每個人的平均成績:(92+84)/2=88。
賽局分析
如果夥伴選 Presentation,你有兩種選擇:
你也選 Presentation → 你的分數是 90
你改選 Exam → 你的分數是 92
因為 92 > 90,
所以當夥伴選 Presentation 時,你會想選 Exam。
如果夥伴選 Exam,你也有兩種選擇:
你選 Presentation → 你的分數是 86
你選 Exam → 你的分數是 88
因為 88 > 86,
所以當夥伴選 Exam 時,你還是會想選 Exam。
結論對你而言的優勢策略就是Exam。
不管夥伴怎麼選:
對方選 Presentation,你選 Exam 比較好
對方選 Exam,你選 Exam 還是比較好
同理,對夥伴來說也完全一樣,因此:
Exam 也是夥伴的優勢策略
最後兩人都會選:(Exam,Exam)其結果是:(88,88)
這就是此賽局的納許均衡(Nash Equilibrium)。
因為 (Exam, Exam) 這個結果下:
若你單方面改成 Presentation,你會從 88 降到 86
若夥伴單方面改成 Presentation,他也會從 88 降到 86
所以沒有人會想單獨改變策略,這就是均衡。
案例2.鷹鴿賽局(Hawk – Dove Game)
也是典型的包含兩個納許均衡的非協調賽局例子
這個賽局的核心精神是:
最好是其中一方強硬、另一方退讓,因為這樣可以避免雙方正面衝突。
但麻煩的點就在於,每個人都希望自己當強硬者,讓對方去退讓。
在此可將老鷹Strategy視為比較侵略激進的作為模式,鴿子Strategy則屬和平被動作為模式。
如果今天站在Animal 1角度來看
若Animal 2是Dove,此時Animal 1應該要選Hawk,因為5 > 3。
若Animal 2是Hawk,此時Animal 1應該要選Dove,因為1 > 0。
(H, D) = (5, 1)
如果今天站在Animal 2角度來看
若Animal 1是Dove,此時Animal 2應該要選Hawk,因為5 > 3。
若Animal 1是Hawk,此時Animal 2應該要選Dove,因為1 > 0。
(D, H) = (1, 5)
若對方退讓,我就想強硬,因為我能拿更多
若對方強硬,我就該退讓,至少比硬碰硬來得好
因此存在兩個納許平衡
案例3.獵鹿還兔子的賽局(Stag VS Hare)
是一種非零和賽局,在這一場景下,兩名獵人一起去打獵,他們可以獵取鹿,也可以獵取野兔。鹿需要兩個人合作才能獲取,野兔一個人就可獵得。
想一起合夥做大生意(兩個獵人一起獵鹿分食到的肉比較多)
(4,4)
想一起合夥做小生意(兩個獵人一起獵兔子就好)
(3,3)
留言
張貼留言