博弈論

博弈論粵拼bok3 jik6 leon6英文game theory),粵語又有叫對策論或者賽局理論,係應用數學嘅一個分支領域,專門研究理性決策者之間嘅互動[1]:博弈論會將一場博弈想像成一件物體,一場博弈由某啲規則同若干個參與者組成,

  • 每個參與者手上都有一柞可能選擇同埋特定嘅資訊
  • 對於一個參與者嚟講,佢每一個選擇都會引致某啲得失,呢啲得失由場博弈嘅規則話事;
  • 每一個參與者會想令自己嘅利益最多,並且按照呢條原則做決策
一班阿伯喺度捉象棋。每個棋手要考慮自己同對手嘅可能選擇,諗吓自己行邊步棋最大機會贏。
熟讀博弈論嘅捉棋阿伯:佢(對手)會行咩步?我要點樣做先可以最有效噉打低佢?

捉棋打機以至國際關係等好多嘅現象都涉及博弈[2],而原則上,所有人類之間嘅互動都可以想像成博弈,所以博弈論能夠應用落去所有嘅社會科學—尤其係經濟學政治學等—嗰度,解釋各式各樣嘅社會現象。到咗廿一世紀,就連邏輯學生物學電腦科學都會用到博弈論[2]

除咗俾人攞嚟做解釋性質嘅研究,博弈論仲有俾人用嚟做一啲規範性質嘅研究:有學者運用博弈論嚟分析喺某啲情況(例如係某啲使錢上嘅決擇)之下,一個參與者有邊啲選擇同埋應該要點樣做決策先至可以令到自身利益最多[3][4]—有好多經濟分析師都興用博弈論分析企業彼此之間喺市場上嘅鬥爭,並且用呢啲分析嚟向企業提供營運方面嘅建議[5][6]

博弈論源於廿世紀初:博弈論係喺廿世紀上半橛由馮紐曼等嘅數學家諗出嚟嘅,打後呢個理論喺廿世紀中期俾經濟學家生物學家用嚟分析佢哋各自嘅領域當中嘅現象,而且仲有多個經濟學家靠住佢哋用博弈論對經濟現象進行嘅分析攞到諾貝爾經濟學獎。到咗今日,博弈論上嘅發展令到佢出咗大量嘅專有概念同子理論,成為咗一門獨立於第啲應用數學領域嘅領域[7]

基本概念

博弈論研究嘅重點係博弈,一場博弈係一件數學物體,包含咗以下嘅組成部份[1][5]

  1. 至少兩個博弈者;
  2. 每個博弈者手上有若干個選擇;
  3. 每個選擇都會為嗰個博弈者帶嚟某啲報償。

報償

圖 1;一場假想嘅博弈嘅報償矩陣;呢場博弈涉及兩個博弈者,佢哋分別各有兩個選擇,每個格仔入面嗰兩個數字代表「如果結果兩個博弈者揀咗噉做,佢哋報償分別係幾多」。

喺一場博弈當中,一個博弈者有多個行動可以揀,例如係喺商業上,一間企業喺諗點樣賣佢哋嘅產品嗰時至少有兩個可能嘅行動-加價或者減價;佢每一個選擇都會引致某啲後果,而一個選擇會引致乜嘢後果往往受到對手採取嘅行動影響-如果對手加價而我方減價,好可能會有大批客人改買我方嘅商品,令我方市場佔有率大增,而如果對手減價而我方一樣減價,噉雙方嘅市場佔有率會大致上不變;對於一個博弈者嚟講,佢每一個可能嘅結果都有一個相應嘅報償[歐 1],報償可以係嘢食、或者名譽等-可以係任何人類會想爭嘅嘢。喺一般應用上,研究者會用正數字代表得益,負數字代表損失。對報償嘅量化令到博弈論嘅分析變得精確[1][5]

舉個簡單嘅例子說明,想像家吓有兩間公司,叫公司 1(附圖 firm 1)同公司 2(附圖 firm 2),喺度爭一個市場嘅買家,每間公司都有兩個選擇,一係揀進入市場(E),一係揀遲啲先進入市場(DE)。喺呢個個案之下,如果兩間同時進入市場嘅話,佢哋都會各自損失 4,000,000 man1嘅盈利 (-4, -4);而如果公司 1 而家進入市場,而公司 2 揀遲啲先入,噉公司 1 會得到 6,000,000 文嘅盈利,而公司 2 乜嘢都得唔到 (6, 0);淨低嘅情況可以睇圖 1 入便嘅數值。喺呢個形勢之下,對於公司 1 嚟講,揀 DE 嘅話實蝕,相比之下,佢揀 E 嘅話至少會蝕少啲,甚至有機會賺(如果公司 2 揀 DE 嘅話),同一時間,就算公司 2 知道呢一點,佢都好可能都會因為唔想蝕 4,000,000 而焗住去揀 DE。如果係噉,最後結果會係公司 1 賺 6,000,000,而公司 2 冇得益冇損失。

上述呢場博弈用報償矩陣[歐 2]嘅形式表述出嚟嘅結果係圖 1 [8]

理性

博弈論假設咗,博弈者冚唪唥都係理性[歐 3]嘅,即係話假設咗[9][10]

  1. 喺場博弈途中,博弈者都係一心一意想令自身報償最大;
  2. 每一個博弈者都清楚知道自己想達到乜嘢目的同埋場博弈嘅規則;
  3. 每一個博弈者都能夠做必需嘅運算,能夠達到佢想要達到嘅結果。

睇返頭先兩個公司博弈嘅例子:如果公司 1 唔係一心一意想令自身報償最大化,噉佢未必會揀即刻進入市場;又或者如果公司 1 唔知道個報償矩陣嘅內容嘅話,噉佢都未必識要揀即刻進入市場;而且喺實行起上嚟,公司 1 要有能力執行即刻進入市場需要採取嘅行動。

均衡

一場有拿殊均衡點嘅博弈
阿松揀 A阿松揀 B
阿明揀 A+1, +1+1, −1
阿明揀 B-1, +10, 0

均衡[歐 4]係一場博弈當中嘅一種可能情況。喺一個均衡情況之下,每個博弈者都揀咗應對其他博弈者嘅最佳策略,但唔一定係對佢嚟講最有利嘅選擇。好似係頭先兩間公司博弈嘅例子噉樣,對於公司 2 嚟講,最理想嘅情況係佢揀即刻進入市場,同時公司 1 揀遲啲先進入市場,但佢要考慮佢對手會點決定-假設佢知公司 1 知成場博弈嘅報償矩陣嘅內容,佢就會知公司 1 冇乜可能會揀遲啲先進入市場,所以公司 2 諗過佢對手嘅策略之後,決定都係揀遲啲先進入市場,最後成場博弈成一個「公司 1 揀咗即刻進入市場、而公司 2 揀咗遲啲先進入市場」嘅狀態-一個均衡嘅狀態[11]

拿殊均衡點[歐 5](個名取自著名博弈論家莊·拿殊)可以話係博弈論當中最出名嗰隻均衡。喺拿殊均衡點之下,每個博弈者都揀咗一個選擇,而且佢哋當中冇任何一個有誘因去單方面噉改變自己嘅選擇。舉個例說明,想像右手邊嗰場拿殊博弈嘅報償矩陣[12][13],成場博弈涉及兩個博弈者-阿明同阿松-而佢哋各有兩個選擇(A 同 B)可以揀;根據呢一場博弈嘅規則,如果阿明揀 A 而阿松揀 B,結果會係阿明得益 1 文阿松損失 1 文(+1, -1),如此類推;假想佢哋兩個而家都為咗將自己報償最大化而揀咗 A 嘅選項,對於阿明嚟講,如果佢改變選擇而同時阿松嘅選擇不變,噉佢自己會變成損失 1 文,阿松都係同一道理;噉喺呢個情況下,佢哋兩個喺進入咗「雙方都揀咗 A」嘅狀態之後,就再冇誘因改變自己嘅選擇-呢個狀態就係呢場博弈嘅拿殊均衡點[12][14]

唔係所有博弈都有一個拿殊均衡點-有啲博弈有多過一個拿殊均衡點,又有啲博弈係冇拿殊均衡點嘅[12][15]

博弈分類

博弈可以按照幾種屬性嚟分類:

對稱定非對稱

一場懦夫博弈
阿松揀 C阿松揀 S
阿明揀 C0, 0-5, +5
阿明揀 S+5, -5-100, -100

喺一場對稱博弈[歐 6]當中,一個選擇嘅報償只係會受到第個(或者第啲)博弈者嘅選擇影響,但唔受選擇者嘅身份影響-同一個選擇無論由邊個博弈者揀,報償都會一樣嘅。好多成日俾人攞嚟研究嘅 2 x 2 博弈都屬於對稱博弈,包括咗好出名嘅懦夫博弈獵鹿博弈監犯困境呀噉[16][17]。以懦夫博弈為例,想像而家有兩個人,佢哋揸住電單車向住對方迎頭衝刺,每個都有兩個選擇揀(直去 / S;做懦夫 / C),如果佢哋兩個都直去唔轉軚嘅話,佢哋會相撞(報償係 -100, -100),而如果其中一方轉軚另一方直去,雙方都冇事,但轉軚嗰個人會俾人笑係冇膽鬼(-5)而直去嗰個人會俾人讚佢大膽(+5)[16]。喺呢場博弈當中,每個選擇造成嘅報償只會受第個博弈者嘅選擇影響,但唔受博弈者嘅身份影響,所以係一場對稱博弈[16]

喺一場非對稱博弈[歐 7]當中,唔同嘅博弈者手上嘅選擇唔一樣,又或者佢哋有同一樣嘅選擇集,但唔同博弈者做同一個選擇報償唔一樣。非對稱博弈例子有最後通牒博弈獨裁者博弈等等[18]。喺最後通牒博弈當中,有兩個博弈者,其中一個(提議者)會收到一筆錢,並且要負責做一個提案提議點樣分筆錢,而另一個博弈者(回應者)就負責決定接唔接受個提議,如果個回應者接受提案,筆錢就會按照提案噉分,而如果回應者拒絕,兩個博弈者都冇錢。喺呢場博弈當中,雙方手上嘅可能選擇好唔同,所以係一場非對稱博弈[19]

零和定非零和

一場零和博弈
阿松揀 A阿松揀 B
阿明揀 A0, 0-1, +1
阿明揀 B+3, -3-2, +2

喺一場零和博弈[歐 8]當中,每一個結果入面所有博弈者嘅得失加埋實係零(所以就叫零和),例如係右手邊嗰個報償矩陣描述緊嘅就係一場零和博弈,因爲喺呢場博弈當中,兩個博弈者嘅報償加埋永遠係零。如果一場博弈係零和嘅,噉就意味住「一個博弈者要得益嘅話,另一個博弈者就實要有等量嘅損失」[20]。好多日常生活會玩嘅遊戲當中嘅博弈都屬於零和博弈,喺好似係啤牌象棋等嘅遊戲當中,因為規則所限,其中一方要贏,另外嗰一方就一定要輸。而頭先提到嘅懦夫博弈亦都係一場非零和博弈[歐 9],因為喺呢種博弈當中,博弈雙方嘅報償加埋未必實係零[21]

現實環境裏面嘅博弈多數都係非零和嘅博弈,例子有國際貿易:喺國際貿易當中有所謂嘅貿易利得[歐 10]現象;經濟學研究證明,當有兩個國家或者地區進行貿易嗰陣,往往有啲選擇係能夠令到雙方都得益嘅-即係話個結果當中雙方嘅報償都係正數[22][23]

同步定序貫

捉象棋係一種序貫博弈,而且具有完全資訊嘅特徵。

同步博弈[歐 11]序貫博弈[歐 12]嘅分別係在於有冇涉及時間上嘅差異:喺一場同步博弈當中,博弈者冚唪唥都要同時間做決策,又或者係先後做決策,但後做決策嘅博弈者冇能力知道喺早過佢做決策嘅博弈者做咗乜嘢決定,所以實際應用上可以當成同時做決策;而喺一場序貫博弈當中,博弈者要先後做決策,而且後做決策嘅博弈者有能力一定程度上得知之前嘅博弈者做咗乜嘢決定(但未必有完全資訊),例如可能一個後做決策嘅博弈者知道之前嗰個博弈者冇揀選擇 A,但唔知佢揀咗選擇 B 定選擇 C。序貫博弈通常會以決策樹[歐 13]嘅型式表述多過用報償矩陣[24][25]

序貫博弈嘅概念對於用博弈論解釋信任嚟講不可或缺。想像家陣有一場序貫博弈,規則如下:阿松首先做決策,佢可以揀合作或者唔合作,而佢做咗決策之後,阿明就要喺知道阿松揀咗乜嘅情況之下,同樣揀合作或者唔合作

  • 如果阿松揀咗合作而阿明揀合作,報償係(2, 2),當中第一個數字表示阿松所得嘅報償;
  • 如果阿松揀咗合作而阿明揀唔合作,報償會係(0, 4);
  • 而如果阿松揀咗唔合作,噉無論阿明揀乜,報償都會係(1, 0)。

阿松佢可以揀合作,噉樣做會令佢嘅最大可能報償由 1 變成 2,但噉做同時要求佢信任阿明-如果阿松揀咗合作,阿明將會有能力透過揀自私嘅唔合作選項嚟令阿松乜都得唔到,自己霸嗮所有嘅得益。上述嘅博弈喺社會科學當中有俾人攞嚟研究人與人之間嘅信任[24][26]

資訊完唔完全

完全資訊博弈[歐 14]係一種序貫博弈。喺有完全資訊嘅博弈當中,所有博弈者都完美知道嗮之前嘅博弈者做過嘅決策。好多圖板遊戲都係完全資訊博弈,例如係象棋-喺象棋當中,每個玩家都可以知嗮對手同自己之前做過咩決策,所以具有完全資訊,而對完全資訊嘅分析喺對圖板遊戲嘅研究好有用[27][28][29]。不完全資訊博弈就包括啤牌同埋橋牌等等,喺德州話事啤[歐 15]入面,每個牌手喺一局開始嗰時會獲派兩張啤牌,而呢兩張牌係乜唔到最後都唔會揭曉,牌手頂櫳都只係有得憑對手嘅行為估對手有乜牌[30][31]

想像下面嗰幅決策樹所描述嘅一場序貫博弈(以擴展形式表達),規則如下:兩個博弈者先後做決策,而每個結果會有若干報償;博弈者 1 先做決策,而且博弈者 2 冇方法直接得知佢揀咗乜;博弈者 1 手上有三個選項,C、D、同 O,如果佢揀咗 O,會令到博弈者 2 冇得做決策,並且直接造成(2, 2)嘅報償,其他可能結果嘅報償如圖所示。假如家吓博弈者 2 俾人叫佢做決策,假設博弈者 2 清楚博弈規則,就算冇人話佢知博弈者 1 揀咗乜,佢都會有能力推斷博弈者 1 實冇揀 O,但佢冇得知到底博弈者 1 揀咗 C 定 D-所以呢場博弈具有不完全資訊[32]

一場不完全資訊博弈嘅決策樹;1 代表博弈者 1 做決策嘅點,而 2 就代表博弈者 2 做決策嘅點。

重複度

如果要令博弈論能夠更加準確噉描述現實,博弈論家就有需要考慮重複博弈[歐 16]嘅問題:喺現實世界,多數嘅人博弈起上嚟都會同同一班對手玩多次博弈-一個棋手會識得佢班棋友,而且重複噉同佢班棋友捉棋;而兩個國家之間往往會喺多個時間點喺某啲方面交鋒(例如係爭完石油爭土地呀噉)。所以如果想博弈論嘅分析更加符合現實,就實要考慮「同一班博弈者彼此之間玩同一個博弈,玩若干次」嘅可能性,而且重複博弈亦都意味住一樣嘢:博弈者能夠憑住過去嘅經驗估計對手將來嘅行動[33]

重複博弈嘅概念仲帶出咗信譽呢個諗頭[32]:現實世界博弈起上嚟多數都係重複嘅,所以博弈者好多時都有能力靠過往嘅博弈經驗估對手會用嘅策略;喺最簡單嗰種情況下,佢可以隨機斷估;但喺實際應用上,佢可以靠手上嘅有限資訊估計對手揀每個選擇嘅概率;如果佢對手喺過去嘅博弈當中大多數揀咗唔合作,而且假設佢識得按概率做決策[34],佢就好有可能會傾向相信佢對手喺將來都會作出噉嘅選擇-佢就比較傾向會揀一啲喺「對手揀咗唔合作」嘅情況下對自己有利嘅選擇。好似係頭先信任嘅例子噉,喺貝氏理性嘅情況下,如果阿松同阿明兩個係三唔識七嘅陌生人,阿松比較有理由隨機噉做決策,但如果佢識阿明,而阿明出咗名信譽唔好嘅話,噉佢比較有理由認為阿明信唔過,因而揀唔合作[32][33]

合作定非合作

唐朝時期吐魯番嘅一張合同;呢張嘢紀錄咗一個奴隸嘅買賣,禁止咗買賣雙方做某啲行為。

博弈可以分做合作博弈[歐 17]非合作博弈[歐 18]兩大種[35][36]。喺合作博弈當中,博弈者彼此之間能夠組成一啲有制約性嘅承諾,並且講明乜嘢選擇可以揀乜嘢唔可以,例如公司同打工仔之間嘅合同指明咗,法律禁止雙方嘅某啲嘅可能行為(例如喺多數情況下,老細如果唔出糧係犯法嘅),所以公司同打工仔之間嘅博弈算得上係合作博弈[37];而非合作博弈就係指喺場博弈當中,博弈者彼此之間唔能夠組成一啲噉嘅制約,或者啲制約要靠自己嚟執行(例如係用暴力恐嚇嚟迫對方做自己想佢做嘅嘢)。對合作博弈嘅分析令到博弈論能夠進一步噉接近呢個理論想要描述嘅現實世界現象[36]

另一方面,合作博弈仲帶出咗通訊嘅概念:諗返頭先懦夫博弈嗰個例子噉,假想博弈雙方喺博弈開始之前能夠互相通訊,甚至事先講好數,應承對方會大家一齊揀轉軚(假設佢哋有理由認為對方信得過),又或者其中一方俾啲好處另一方,等後者願意特登俾對方赢呢場博弈(喺知道好處提供者會揀直去嘅情況下,特登揀轉軚),噉佢哋就有得合作令大家嘅報償最大化[38]

隨機度

懦夫博弈、獵鹿博弈、同監犯困境等嘅經典博弈好多時都唔能夠充分噉模擬現實世界當中嘅博弈,其中一個原因係因為呢啲模型冇考慮到隨機嘅問題:喺現實世界嘅博弈裏面,一個博弈者好多時都唔能夠完全噉知道一個策略嘅報償係幾多(呢個又同不完全資訊有關),又或者知道咗一個策略嘅報償係有隨機喺入面嘅,例如「呢個結果有 80% 機會造成(2, 2)嘅報償,而有 20% 機會造成(3, 0)嘅報償」。喺博弈論史上,其中一個最至關重要嘅發展就係對隨機博弈[歐 19]嘅分析。隨機博弈喺定義上有以下嘅特徵[39][40]

  • 博弈者會重複噉玩呢場博弈;
  • 喺是但一個時間點,場博弈會處於某一個狀態 ,而 係包括嗮所有狀態嘅
  • 每個狀態都有一系列嘅可能策略 同埋相應嘅一系列報償
  • 一個集,包含咗由每一個狀態去另外一個狀態嘅概率, ,呢個概率可以受博弈者喺嗰個狀態當中揀咗乜嘢策略影響;
  • 場博弈嘅每個步驟都會維持一段時間

要模擬隨機博弈,可以用馬可夫決策過程[歐 20],例如係以下呢幅圖當中嘅馬可夫決策過程,模擬咗一個虛擬世界,個虛擬世界有三個狀態( 、同 ),喺每一個狀態當中,玩家都有兩個可能嘅選擇( )同埋相應嘅報償,而每個選擇有若干概率令到個世界變成另外一個狀態(由啲箭咀同箭咀側邊嘅數字表示)。呢一個模型可以好容易噉用電腦程式表達出嚟,喺人工智能(AI)領域上可以攞嚟(例如)教電腦喺玩遊戲嗰陣做決策[41][42]

策略分類

喺博弈論當中,策略又可以按幾種屬性分類[43]

純粹定混合

一個使用緊純粹策略[歐 21]嘅博弈者會一路用死一個能夠令佢報償最大化嘅選項,係對嗰個博弈者嚟講最理想嘅狀態。相比之下,現實嘅博弈者多數會用混合策略[歐 22],即係話個博弈者會每一個選擇俾個概率佢,而個概率代表咗佢會揀嗰個選項嘅機會率[43][44]

美式足球為例:美式足球比賽分攻守,進攻嗰隊目的係要帶住個波衝過對手防線,並且去到得分區達陣(達陣會得分);而要衝過對手防線,主要有兩個方法-跑陣同傳球;跑陣指由負責開波嘅四分衛交個波俾(通常)跑衛,再要個跑衛向對手防線衝刺,嘗試以個跑衛嘅速度同敏捷身手嚟突破防線;傳球就係指由啲線鋒一路護住四分衛、一路俾班外接員同跑衛跑向對手防線,再要個四分衛掟個波俾其中一個外接員或者跑衛。多數嘅美式足球隊都會採取混合策略-一時跑陣一時傳球,等對手無所適從[45]。除咗美式足球之外,好多運動都會講「要用多變嘅策略」[46][47]

RB
WR1
WR2
一場美式足球比賽嘅一次進攻;而家係白色衫嗰隊做進攻,佢哋個跑衛(RB)準備好衝刺,同時佢哋兩個外接員(WR1 同 WR2)都準備向前跑-就噉睇,呢次進攻有可能係跑陣,又有可能係傳球。

佔優

一場防守方角衛好渣之下嘅美式足球博弈
B 隊集中防範跑陣B 隊集中防範傳球
A 隊用跑陣+3, -3+6, -6
A 隊用傳球+15, -15+10, -10

佔優策略[歐 23]係指一個喺是但一個對手選擇之下,都能夠令到個選擇者報償最大化嘅選項[43]。又諗返美式足球嘅例子說明,想像家陣有兩隊美式足球隊打比賽,而家 A 隊進攻,B 隊防守。A 隊可以揀跑陣或者傳球,但佢哋仲知另一個資訊-B 隊啲角衛(專門負責防範傳球嘅防守位置)極之渣,完全冇能力阻礙佢哋啲外接員:如果對手揀集中防範跑陣,A 隊傳球會比較大機會成功推進;而就算對手揀集中防範傳球,因為佢哋角衛渣,傳球嘅報償依然高啲(睇報償矩陣,報償以「預計成功推進幾多」計[48])。喺呢個情況下,無論對手揀乜,揀傳球都係一個比較有利嘅選項,所以傳球係一個佔優策略[49]

最小最大化

最小最大化策略[歐 24]係指將自己嘅「最小」最大化嘅策略,即係選擇能夠令到自己嘅最低報償值最大化嘅策略。

用返頭先懦夫博弈嘅例子做說明,一個採取最小最大化嘅策略嘅博弈者會永遠選擇轉軚,噉係因為揀直去嘅最低可能報償係 -100,而揀轉軚嘅最低可能報償只係 -5,所以原則上,「係唔係都永遠揀轉軚」係一個比較安全嘅策略;又想像美式足球博弈嘅例子,由 B 隊嘅角度嚟睇,集中防範跑陣嘅最大損失係 15,而集中防範傳球嘅最大損失只係 10,後者嘅最大可能損失比較細,所以如果 B 隊選用最小最大化策略,佢哋會集中防範傳球。會採用最小最大化策略嘅通常都表示,個博弈者想盡可能噉令到自己所承受嘅風險有咁低得咁低[43][50]

應用

經濟學

一場會造成公地悲劇嘅博弈
B 君揀合作B 君揀背叛
A 君揀合作3, 30, 5
A 君揀背叛5, 01, 1
一場唔會造成公地悲劇嘅博弈
B 君揀合作B 君揀背叛
A 君揀合作5, 50, 3
A 君揀背叛3, 00, 0

經濟學係一個専門研究資源分配社會科學領域,經濟學家會憑住佢哋對資源等嘅事物嘅知識嚟了解經濟體嘅運作,而管理者政府等嘅人就往往要靠呢啲知識設計經濟體系。喺經濟學上,一個經濟體入面嘅人、企業、同埋各種嘅社會團體可以分別噉當做博弈者,而佢哋爭緊嘅資源(例如係錢等)就代表報償,經濟學家會假設呢啲博弈者多數都係想要令到佢哋自己利益最大化嘅,並且按照博弈模型嚟了解唔同嘅人或者組織點解會喺資源分配上做某啲決策,跟住佢哋仲會運用呢啲知識幫手制定政策,並且形塑一個經濟體嘅設計[2]-呢個過程就係所謂嘅經濟設計學[歐 25]領域[51][52][53]

例:公地悲劇

喺經濟學上,公地悲劇[歐 26]係一個成日俾人用博弈論嚟分析嘅現象:家吓想像一個由多個博弈者共同使用嘅資源(例如係石油或者第啲天然資源),如果佢哋都有節制噉開採個資源嘅話,個資源可以好襟用,但現實發生嘅係,每個博弈者往往會以自身利益行先,過度噉開採個資源,最後搞到個資源枯竭,大家都冇得用,呢個現象就係所謂嘅公地悲劇[54][55]

公地悲劇喺經濟學上係一個相當受關注嘅議題,有唔少専家都嘗試用博弈論分析呢個現象同埋研究點樣解決呢個問題。有科學家就試過噉做:佢哋用一個簡單嘅對稱博弈模型嚟模擬個世界,假想喺使用資源嗰陣,一個博弈者有合作[歐 27](乖乖哋跟規矩噉用個資源)同背叛[歐 28](過度開採)呢兩個選擇,如果雙方都揀合作,報償會係(3, 3),而如果一方揀合作另一方揀背叛,合作方嘅報償係 0 而背叛方嘅報償係 5,而如果大家一齊揀背叛,報償會係(1, 1);喺呢個情況下,長遠嚟講,雙方都有誘因趁對手揀合作嗰陣揀背叛嚟到令自己利益最大化(而且喺呢個情況下,「大家齊齊揀背叛」係場博弈嘅唯一拿殊均衡點);佢哋做電腦模型,模擬一個有兩種博弈者-合作者同背叛者-嘅世界,顧名思義,合作者傾向合作,而背叛者傾向背叛;佢哋嘅模擬發現,喺呢個情況下,隨住時間過去,合作者嘅所得會明顯少過背叛者嘅,於是合作者就會慢慢消失-一係變成背叛者,一係因為所得太少而被淘汰-形成一個以背叛者為主嘅世界,大家齊齊過度開採資源,造成公地悲劇;跟住落嚟,班科學家唔假想人類會唔自私,而係郁手改變場博弈嘅報償規則,令到雙方合作嘅報償變成(5, 5),一齊背叛嘅報償變成(0, 0),而如果一方'合作另一方背叛,合作方報償係 0 而背叛方報償係得 3 咁多,拿殊均衡點變成「大家一齊揀合作」;佢哋跟住再進行模擬,發現喺呢個情況下,就算一開始場博弈當中多數博弈者都係背叛者,合作者會慢慢因為佢哋嘅報償高而變成主流類型-背叛者所得唔夠,焗住一係改變策略、一係被淘汰[56]

基於呢個研究結果,喺 2016 年,有一班美國佐治亞州嘅科學家向當地政府提議咗一啲系統嚟令到佐治亞州嘅水資源使用生態變成唔會造成公地悲劇嘅樣,例如係運用一個信譽系統嚟獎勵合作者(用政府干預令揀合作嘅報償上升)同懲罰背叛者(用政府干預令揀背叛嘅報償下降),令到啲人有誘因合作,最後仲成功噉解決佐治亞州水資源嘅公地悲劇問題[57]

生物學

令到利他行為進化到出嚟嘅重複博弈
B 君揀合作B 君揀背叛
A 君揀合作2, 2-1, 3
A 君揀背叛3, -10, 0

生物學係研究生命自然科學。喺生物學對博弈論嘅應用當中,最出名嘅就係進化博弈論[歐 29][58]:同冇生命嘅嘢比起上嚟,生物其中一個最大嘅特徵係曉進化-一群同種生物嘅基因庫會因為物競天擇等嘅過程而慢慢變化,經過幾百萬年嘅時間就會演變成截然不同嘅新物種;喺進化博弈論當中,生物學家會將同一個物種入面嘅唔同個體當成博弈者,而報償反映隻生物揀嘅策略有幾能夠幫佢提升佢嘅進化適應度[歐 30](指隻生物生存落去同繁殖嘅能力);幫到隻生物提升自身進化適應度嘅策略比較有機會通過遺傳流傳到去下一代嗰度,所以更加有機會會喺下一代嗰度出現。憑住呢啲分析,進化博弈論幫到生物學家手了解點解某啲行為零舍常見[59][60][61]

例:利他嘅進化

古典進化論入面其中一個大問題係解釋利他主義[歐 31]嘅進化:利他行為係指一啲對自己冇明顯利益、而係有利他人嘅行為,例如假想有個人參與一場懦夫博弈,唔係揀對自己最有利嘅策略,而係無條件噉揀俾佢對手羸;由古典進化論嘅角度嚟講,呢種行為驟眼睇好似唔合理,因為噉做唔能夠直接噉令到個個體提升自己嘅進化適應度,正路嚟講理應唔會零舍通過到物競天擇嘅考驗流傳到落嚟。廿世紀中至後期嘅生物學家用進化博弈論嚟思考人類當中嘅利他行為,佢哋假想一個簡單嘅博弈模型,規則如下:喺呢場博弈當中有兩個博弈者,兩者各有兩個選項-合作背叛,如果雙方合作,報償會係(2, 2),而如果其中一方合作另一方背叛,合作方損失 1 而背叛方得益 3,最後如果雙方都選擇背叛,報償會係(0, 0)。呢個模型能夠模擬好多人類現實面對嘅問題-人類日常做嘅工作有好多都要求佢哋合作先做得成[62][63][64]

跟住呢班科學家又假想一個人類群體入面有三種人:

  • 無條件嘅合作者(係唔係都揀合作嘅);
  • 無條件嘅背叛者(係唔係都揀背叛嘅);
  • 有條件嘅合作者-呢種合作者一般會揀合作,除非佢認得個對手,而個對手之前揀過背叛。

然後班科學家用進化論嘅思路嚟諗嘢:行為係可以遺傳嘅[65],所以佢哋用一個簡單嘅模型,假想仔女所屬嘅類型同父母一樣,而一個個體「成功噉生到後代嘅機會率」同佢「最後手上嘅資源量」成正比;佢哋用呢個模型模擬,結果發現,無條件嘅合作者好容易俾無條件嘅背叛者利用,話咁快就因為損失太多資源、生唔到後代而走向滅絕;而跟住落嚟失敗嘅係無條件嘅背叛者-有條件嘅合作者喺撞到無條件嘅背叛者嗰陣識得唔好合作,但撞到其他有條件嘅合作者嗰時識得要合作令自身利益最大化,結果打低咗無條件嘅背叛者,成為咗個群體入面嘅大多數。雖然以上呢個模型做咗好多簡化嘅假設,但佢的確能夠相當準噉描述到現實:事實係,心理學等領域嘅研究表明咗,人類多數都係傾向做有條件嘅合作者-佢哋會做利他嘅行為,但前題係佢哋嘅利他對象唔會利用佢哋嘅好意。呢個進化博弈論分析幫助解釋點解利他行為喺人類裏面進化到出嚟,對進化論嘅發展作出咗貢獻[64][66]

可以睇埋重複監犯困境[歐 32]嘅嘢。

遊戲設計

一場容易令玩家嗌交嘅遊戲
B 君揀做支援B 君揀做進攻
A 君揀做支援3, 31, 2
A 君揀做進攻2, 12, 2

遊戲設計係廿一世紀初開始受重視嘅一門領域,研究點樣設計各式各樣嘅遊戲,尤其係電子遊戲[67]。喺一場遊戲當中,唔同嘅玩家係博弈者,而佢哋玩遊戲嘅目的(要贏、要攞高分、要賺多啲遊戲內部嘅貨幣等)就會反映喺佢哋嘅報償之上[68]。喺遊戲設計上,博弈論嘅一個用途係俾個遊戲設計者模擬佢個遊戲嘅規則會引致乜嘢行為,並且睇吓佢設計嘅遊戲會形成一個點嘅遊戲環境,跟住等佢可以評估個遊戲環境係咪理想[69]

例:隊制射擊遊戲問題

喺線上遊戲嘅設計方面,玩家之間嘅互動係一個重大課題,因為玩家之間嘅溝通好多時會變成互相漫駡-呢種情況會搞到玩家唔開心,所以遊戲設計者會想減少呢種情況[70]。假想而家有一隻噉嘅射擊遊戲:呢隻遊戲每場比賽都有 12 個玩家參與,而佢哋會被分做兩組,每組 6 個人,而兩組要喺一個地圖上面戰鬥,爭取分數或者第啲嘢,目的係要贏;每個玩家都可以揀一個角色喺呢場比賽當中使用,每個角色有某啲特定嘅異能,而且可以分做兩大類-進攻型角色同支援型角色;進攻型角色主要負責殺敵,而支援型角色主要負責做幫隊友擋子彈或者回復生命值等支援性質嘅作業,現實例子有《絕地要塞 2》同《鬥陣特攻》等。事實表明咗,啲人多數都比較鍾意用進攻型角色,覺得殺敵好玩啲。家陣想像有兩個人,佢哋嗰四個隊友都經已揀咗做進攻型,而根據佢哋對隻遊戲嘅認識,一隊一般要起碼有一至兩個支援型角色先至會掂,所以如果佢哋想令贏嘅機會最大化,佢哋就要一齊揀做支援型角色[68]

呢場博弈嘅可能結果同報償如下:

  1. 如果佢哋兩個一齊揀做支援,佢哋好大機會能夠合作打贏場比賽(3, 3);
  2. 如果佢哋一個揀做支援一個揀做進攻,做支援嗰個要一個人做嗮支援工作,會覺得非常之唔好玩(1),而揀做進攻嗰個可以享受做進攻嘅樂趣,但係都仲要冒「輸嘅機會提高咗」嘅風險(2);
  3. 如果佢哋兩個一齊揀做進攻,佢哋多數會輸,但會覺得好玩(2, 2)。

雖然「一齊揀做支援」係呢場博弈嘅拿殊均衡點,但係隊友之間嘅信任可以係一個問題:假如一個玩家唔信任佢嘅隊友,認為佢嘅隊友唔會真係合作,噉佢就有理由揀「做進攻」-因為呢個係「假設隊友唔會乖乖地做支援」嘅情況下對自己最有利嘅選擇(坐底得到 2 個單位嘅報償)。而事實係,線上遊戲嘅玩家通常都係互不相識嘅陌生人,好難要佢哋吓吓都信任自己隊友,所以上述嘅呢個遊戲設計容易令到玩家嗌交-好多時其中一個玩家揀做支援但另一個玩家拒絕合作,於是兩個人開始喺聯機對話入面指住對方互鬧。呢個分析令到一啲遊戲設計者開始重新思考線上遊戲嘅設計[68][70]

人工智能

人工智能[歐 33]係一個專門研究點樣教機械展示有智能行為嘅領域,屬電腦科學嘅一個子領域。人工智能其中一個受關注嘅課題係點樣教機械進行博弈-因為「曉得喺博弈當中做正確嘅決定」一般都俾人認為係智能嘅一個重要指標,而且呢方面嘅研究相當有實用價值,例如係改善電子遊戲入面嘅人工智能,創造出更加能令到玩家投入個遊戲嘅人工智能呀噉[71][72][73]。喺廿一世紀初嘅科學界,教人工智能做博弈其中一種最常見嘅做法係運用頭提到嘅馬可夫決策過程[歐 34](以下簡稱 MDP[74]

例:用 MDP 教 AI 博弈

一個 MDP 模擬一個博弈環境,有以下組成部份[75][76]

  • 一柞狀態 ,包括咗個環境嘅所有可能狀態;
  • 一柞可能嘅行動 ,包括個博弈者能夠採取嘅行動;
  • 一柞過渡模型[歐 35] ,包括咗由某一個狀態變成另一個特定狀態嘅概率;
  • 獎勵 ,包括咗喺每個狀態下,每個行動會引致嘅報償;同
  • 對策 ,一個對策係一個函數,以「現時嘅狀態」做輸入,「應該採取嘅行動」做輸出;喺現實應用當中,對策好多時會係一個人工神經網絡

想像一個簡單嘅例子,家陣個人工智能設計者想設計一個人工智能程式,教部電腦玩井字過三關,個程式內部要有一個數學模型用 MDP 表示個遊戲嘅環境, 包括咗「對手霸咗左上角,其他格仔全部都空」等嘅狀態, 包括咗「霸右下角個格仔」等嘅行動, 包括咗「我填咗右下角,跟住落嚟中間格仔會被霸佔嘅機會率」等嘅一柞機會率, 包括咗一柞數值代表(例如)變成呢個狀態會令自己贏嘅機會率提升幾多。喺一場井字過三關嘅遊戲入面,玩家嘅目的係要令到場遊戲嘅狀態變成對佢有利嘅樣,而最佳對策 就係能夠令到最終自身報償最大化嘅對策[74][75]

家吓想像一個人工智能程式,佢有一個演算法能夠改變佢內部嗰個人工神經網絡對策函數,學習範式係強化學習,即係話佢有能力按照採取過嘅行動嘅結果嚟自我修改(詳情可以睇人工神經網絡),跟住個設計者開個程式同佢玩過三關,玩到咁上下,個程式會自我修改過多次,令到個對策函數變成一個更加能夠喺過三關當中贏嘅對策-出咗一個識學玩過三關嘅程式[76]

軍事學

軍事學係研究軍隊軍事組織嘅行為嘅一個社會科學領域,會幫手思考國防打仗上用嘅策略[77]。喺軍事學上,一場戰事可以當成一場博弈,當中涉及交戰嘅各方係博弈者,而報償涉及嘅就係交戰各方打仗嘅目的-打仗可以係為咗資源同埋對某片土地嘅控制權等嘅策略目的。自從二戰開始,軍事學方面嘅學者就正式噉開始採用博弈論嚟分析打仗當中嘅戰略博弈,並且出咗唔少有成績嘅研究[78][79][80]

例:俾斯麥海海戰

俾斯麥海海戰[歐 36]係二戰當中嘅一場戰事,發生喺 1943 年 3 月,涉及盟軍俾斯麥海(位於巴布亞新畿內亞以北嘅一個海)嗰度對大日本帝國海軍嘅運輸船隊進行轟炸,最後殲滅咗日軍船隊。喺呢場戰事當中,美國空軍嘅佐治·肯尼將軍[歐 37]同日本海軍嘅今村海軍上將分別係兩方嘅指揮官。今村海軍上將下咗命令,要日軍運輸船隊向喺巴布亞新畿內亞戰鬥嘅日軍運送支援物資。當時,喺巴布亞新畿內亞進行嘅戰鬥正係打到白熱化階段,日軍要揀俾佢哋嘅運輸船隊經邊條路線去巴布亞新畿內亞,有兩條路線可以揀:北面經俾斯麥海嘅路線同埋南面經所羅門海[歐 38]嗰條[81]

俾斯麥海海戰嘅地圖圖解;紅線反映咗日軍運輸船隊嘅北路。
肯尼將軍面對嘅博弈
日軍揀行北路日軍揀行南路
美軍揀飛去北路2, -22, -2
美軍揀飛去南路1, -13, -3

肯尼將軍嘅任務係要盡可能噉破壞日軍嘅支援計劃,等盟軍可以喺巴布亞新畿內亞打緊嘅戰鬥當中佔上風。透過軍事情報,肯尼將軍知道敵軍嘅運輸船隊有呢兩條路線可以行,而根據佢啲參謀人員嘅預測,北面路線將會有惡劣天氣,令到佢指揮嘅空軍喺嗰度得兩日時間可以進行轟炸,而南面路線嘅好天氣令佢嘅空軍喺嗰度可以一連三日都進行轟炸;對於日軍嚟講,無論揀邊條路,佢哋嘅運輸船隊都需要三日時間先去到目的地。喺呢場戰事裏面,雙方指揮官都有兩個選項,所以呢場戰事可以睇做一場 2 x 2 嘅(零和)博弈,有四個可能結果(報償係美軍總共有幾多日可以進行轟炸):

  1. 如果日軍揀行北路而肯尼將軍集中派空軍去北路,噉佢會有 2 日嘅時間進行轟炸,對日軍船隊造成 2 個單位嘅破壞(2);
  2. 如果日軍揀行南路而肯尼將軍集中派空軍去北路,佢會因為呢個失誤而要嘥 1 日嘅時間重新調動空軍,令到日軍喺頭 1 日完全唔受轟炸,最後總共有 2 日時間進行轟炸,造成 2 個單位嘅破壞(2);
  3. 如果日軍揀行北路而肯尼將軍集中派空軍去南路,噉(耽誤 1 日)佢會得嗰 1 日嘅時間進行轟炸,對日軍造成 1 個單位嘅破壞(1);
  4. 最後,如果日軍揀行南路而肯尼將軍集中派空軍去南路,噉美軍將會能夠進行成 3 日嘅轟炸,對日軍造成 3 個單位嘅破壞(3)[80]

肯尼將軍知道,如果佢揀派空軍去北路,佢係唔係都有兩日時間可以進行轟炸,而如果佢揀派空軍去南路嘅話,佢要冒一個大風險-可能會得一日時間進行轟炸。另一方面,今村海軍上將當然想「美軍總共有幾多日可以進行轟炸」呢個數字盡可能有咁細得咁細,而佢都知道,如果揀行北路,美軍頂嗮櫳都係得兩日時間進行轟炸,而揀行南路就係坐底要受兩日轟炸,甚至要冒「連續三日受轟炸」嘅風險,所以對日軍嚟講當然係行北路比較著數。肯尼將軍亦都估到,日軍老虎蟹都會行北路,然後俾斯麥海海戰發生嘅嘢係正如博弈論所預料嘅-日軍運輸船隊揀咗行北路,而美軍亦都揀咗集中派空軍炸北路。最後結果係,肯尼將軍同佢旗下嘅部隊成功噉重創日軍嘅支援計劃,喺盟軍嘅巴布亞新畿內亞作戰當中成為咗功臣[80][82]

批評

馮紐曼嘅相
莊·拿殊嘅相;2006 年影嘅。

博弈論係一個科學理論,而科學理論存在嘅目的係要解釋、預測、同模擬各種嘅現象[83],有唔少學者都質疑博弈論係咪能夠有效噉幫科學家達到呢啲目的[84][85][86]

有唔少學者都有批評博弈論啲假設,話呢啲假設好多時都係過度簡化嘅。喺任何嘅理論分析(包括博弈論)當中,研究者梗要做一啲簡化,集中思考對研究現象嚟講最緊要嗰啲變數,但亦都因為噉有陣時要焗住做某啲假設,令到個理論模型嘅真實程度受質疑。學者需要爭論到底一個理論模型有幾能夠代表到現實,同個模型「代表到現實」嘅程度係咪夠高,可唔可以攞嚟預測現實世界發生嘅嘢[87][88]

舉個例說明:喺做博弈論嘅分析嗰時,個研究者會假設所有博弈參與者都想將自己贏嘅機會率最大化,佢跟手會用個理論模型分析現實世界嘅現象;問題事實係,喺現實當中,的確會有一部份嘅人會因為某啲原因而唔想喺場博弈當中贏,所以佢個理論模型只不過係對現實嘅大致[歐 39]描述,唔完全代表到現實(理想化);只要大部份人都係想贏嘅,噉用佢呢個理論做分析會大致上正確,但問題係,到底想贏嘅人佔咗幾多百分比?原則上,呢個百分比愈高,個理論模型就愈會做到準確嘅預測。仲有,到底呢個百分比要有幾高,個模型先至算得上係「啱用」?

好多批評博弈論研究方法嘅學者都係講緊呢樣嘢:佢哋質疑到底博弈論做嗰啲假設係咪有足夠嘅真實度,確保到啲理論夠晒實用。除咗頭先提到嘅博弈論例子之外,「人類大致上係理性嘅」同埋「人類具有足夠嘅資訊做正確決策」等都係博弈論模型常用嘅假設,好多學者都質疑呢啲假設係咪真係適當[87][89]

理論史

雖然話博弈論要去到廿世紀初先正式開始出現,但人類早喺廿世紀前經已有做類似博弈論嘅討論。目前已知最早嘅博弈論討論源自 1715 年由英國外交官占士渦格里夫嘅阿叔寫嘅一封信[90]。喺呢封信入面,渦格里夫為當時興嘅卡牌遊戲用數學分析咗一個合理嘅策略出嚟。而打後喺 1838 年嘅一份研究當中,又有法國數學家分析咗經濟學上嘅雙佔現象,並且提出咗一個解答,呢個解答查實係佢所分析嘅博弈嘅拿殊均衡點[註 1][91]

博弈論要到 1930 年代先正式成為一個應用數學子領域。1928 年,匈牙利裔美國數學家馮紐曼[歐 40]出版咗一份論文《On the Theory of Games of Strategy》(粵文:論策略博弈嘅理論)[92]。喺呢篇論文入面,馮紐曼佢對博弈嘅概念做咗一啲基本嘅分析,證明咗多條相關嘅定理[93]。及後佢喺 1944 年出咗本書叫《Theory of Games and Economic Behavior》(粵文:博弈同經濟行為嘅理論),呢本書詳細噉討論咗好似係兩人零和博弈等嘅概念。而喺跟住落嚟嘅時間,好似係合作博弈等嘅概念都出咗嚟,令到博弈論基本成形[94]

喺 1938 年,法國數學家伊苖波里出咗本書叫《Applications aux Jeux de Hasard》(粵文:隨機遊戲嘅應用),喺呢本書入面,波里佢分析咗兩個人玩嘅零和對稱博弈嘅矩陣,並且證明咗一啲相關嘅定理,而且佢嘅分析仲有實用價值。波里仲進一步猜想,喺某啲情況下,有限嘅兩人零和博弈可能有陣時會冇混合策略均衡點(不過馮紐曼後來證明咗佢係錯嘅)[95]

喺 1950 年,學界開始咗對監犯困境嘅數學討論,而且仲有數學家用實驗方法展視監犯困境嘅博弈現象,同埋有人嘗試將呢個分析應用落去核戰略上-即係開始有人將博弈論用落去政治學嗰度[96]。大概喺同一時間,美國數學家莊·拿殊提出咗拿殊均衡點嘅諗頭,並且將呢個概念應用嚟去分析多個當時已知嘅博弈。拿殊佢跟手仲證明咗,喺混合策略嘅情況下,是但俾一個有 n 個博弈者、非零和、非合作嘅有限博弈,場博弈實會有個拿殊均衡點。由嗰陣時開始,博弈論就俾經濟學家同生物學家等多個領域嘅學者採用嚟解釋佢哋所研究嘅現象,成為咗一個舉足輕重嘅數學理論[7]

註釋

領域

睇埋

文獻

講博弈論嘅教科書:

  • Gintis, Herbert (2000), Game theory evolving: a problem-centered introduction to modeling strategic behavior. Princeton University Press, ISBN 978-0-691-00943-8
  • Joseph E. Harrington (2008), Games, strategies, and decision making. Worth, ISBN 0-7167-6630-2. Textbook suitable for undergraduates in applied fields; numerous examples, fewer formalisms in concept presentation.
  • Howard, Nigel (1971), Paradoxes of Rationality: Games, Metagames, and Political Behavior. Cambridge, MA: The MIT Press, ISBN 978-0-262-58237-7
  • Miller, James H. (2003), Game theory at work: how to use game theory to outthink and outmaneuver your competition, New York: McGraw-Hill, ISBN 978-0-07-140020-6. Suitable for a general audience.
  • Osborne, Martin J. (2004), An introduction to game theory, Oxford University Press, ISBN 978-0-19-512895-6. Undergraduate textbook.
  • Shoham, Yoav; Leyton-Brown, Kevin (2009), Multiagent Systems: Algorithmic, Game-Theoretic, and Logical Foundations, New York: Cambridge University Press, ISBN 978-0-521-89943-7, retrieved 8 March 2016
  • Webb, James N. (2007), Game theory: decisions, interaction and evolution. Undergraduate mathematics, Springer, ISBN 978-1-84628-423-6

博弈論史上嘅經典文:

  • Aumann, R.J. and Shapley, L.S. (1974), Values of Non-Atomic Games, Princeton University Press.
  • Luce, R. Duncan; Raiffa, Howard (1957), Games and decisions: introduction and critical survey, New York: Wiley.
  • reprinted edition: R. Duncan Luce ; Howard Raiffa (1989), Games and decisions: introduction and critical survey, New York: Dover Publications, ISBN 978-0-486-65943-5
  • Maynard Smith, John (1982), Evolution and the theory of games, Cambridge University Press, ISBN 978-0-521-28884-2
  • Maynard Smith, John; Price, George R. (1973), "The logic of animal conflict", Nature, 246 (5427): 15–18, Bibcode:1973Natur.246...15S, doi:10.1038/246015a0
  • Nash, John (1950), "Equilibrium points in n-person games", Proceedings of the National Academy of Sciences of the United States of America, 36 (1): 48-49, Bibcode:1950PNAS...36...48N, doi:10.1073/pnas.36.1.48, PMC 1063129, PMID 16588946
  • Shapley, L.S. (1953), A Value for n-person Games, In: Contributions to the Theory of Games volume II, H. W. Kuhn and A. W. Tucker (eds.)
  • Shapley, L.S. (1953), Stochastic Games, Proceedings of National Academy of Science Vol. 39, pp. 1095–1100.
  • von Neumann, John (1928), "Zur Theorie der Gesellschaftsspiele", Mathematische Annalen, 100 (1): 295–320, doi:10.1007/bf01448847 English translation: "On the Theory of Games of Strategy," in A. W. Tucker and R. D. Luce, ed. (1959), Contributions to the Theory of Games, v. 4, p. 42. Princeton University Press.
  • von Neumann, John; Morgenstern, Oskar (1944), Theory of games and economic behavior, Princeton University Press.
  • Zermelo, Ernst (1913), "Über eine Anwendung der Mengenlehre auf die Theorie des Schachspiels", Proceedings of the Fifth International Congress of Mathematicians, 2: 501–4.

亦有好多拉雜類型嘅文獻,例如係用博弈論嚟分析啤牌或者打機呀噉:

疏士