Lý thuyết Trò chơi (IV)
Don Ross
Người dịch Hà Hữu Nga
3.
Tính không chắc chắn, Rủi ro và những Cân bằng rãy
Các trò chơi mà chúng ta xây dựng mô hình cho vấn đề
này toàn bộ đều liên quan đến các tay chơi bằng cách chọn lựa một trong số các chiến lược thuần túy, trong đó mỗi người
đều tìm kiếm một quá trình hành động tối ưu riêng ở mỗi nút tạo nên một phản
ứng tốt nhất đối với những hành động của những tay chơi khác. Tuy nhiên thường
xuyên một tiện ích của một tay chơi được tối ưu hóa thông qua việc sử dụng một
chiến lược hỗn hợp, trong đó cô ta gieo một đồng xu trong số một vài hành động
khả thể khác. (Sau đây chúng ta sẽ thấy có một sự lý giải thay thế đặc biệt hỗn
hợp không liên quan đến sự ngẫu nhiên hóa ở một tập thông tin đặc biệt; nhưng
chúng ta sẽ bắt đầu ở đây từ việc lý giải hành động gieo đồng tiền và sau đó sẽ
dựa vào nó ở phần 3.1). Hòa trộn là cần thiết bất cứ khi nào không có một chiến
lược thuần túy tối đa hóa tiện ích của người chơi dựa vào toàn bộ các chiến
lược của đối phương. Trò chơi qua sông
từ phần 1 của chúng ta đã minh họa cho vấn đề này. Như chúng ta đã thấy, thách
thức trong trò chơi này bao gồm sự thật
là nếu sự suy lý của người chạy trốn lựa chọn một chiếc cầu đặc biệt với tư
cách là một lựa chọn tối ưu, thì người săn đuổi anh ta phải được giả định là có
thể để nhân lên cái suy lý đó. Vậy là người chạy trốn có thể thoát được chỉ khi
người theo đuổi anh ta không thể tiên đoán một cách chắc chắn rằng anh ta sẽ sử
dụng chiếc cầu nào. Tính chất đối xứng của năng lực suy lý về phần hai tay chơi
đảm bảo rằng người chạy trốn có thể làm cho người săn đuổi bất ngờ chỉ khi nào
anh ta làm cho chính mình bất ngờ.
Hãy giả sử rằng chúng ta lờ đi những tảng đá và lũ
rắn trong một chốc lát và tưởng tượng rằng những chiếc cầu kia là hoàn toàn an
toàn. Cũng có thể giả định rằng người chạy trốn không có hiểu biết đặc biệt nào
về người săn đuổi anh ta làm cho anh ta liều lĩnh thử thách một sự phân phối
xác suất phỏng đoán đặc biệt đối với các chiến lược có sẵn của người săn đuổi.
Trong trường hợp này, cách cư xử tốt nhất của người
chạy trốn là gieo con súc sắc ba mặt trong đó mỗi mặt đều thể hiện một chiếc
cầu khác nhau (hoặc truyền thống hơn, một con súc sắc 6 mặt trong đó mỗi chiếc
cầu thể hiện bởi hai mặt). Sau đó anh ta phải tự cam kết trước việc sử dụng bất
cứ chiếc cầu nào được lựa chọn bằng lựa
chọn ngẫu nhiên này. Công việc này ấn định tần số xuất hiện khả năng sống
của anh ta bất chấp người săn đuổi anh ta làm gì; nhưng vì người săn đuổi không
có bất cứ lý do gì để ưa thích bất cứ chiến lược hỗn hợp hay đơn lẻ nào có sẵn,
và vì trong bất cứ trường hợp nào thì chúng ta cũng đang đoán chừng cái tình
huống hiểu biết của cô ta là cân bằng với cái tình huống của người chạy trốn,
thì chúng ta có thể giả định rằng cô ta sẽ gieo con súc sắc ba mặt của riêng
mình. Giờ đây người chạy trốn có một xác suất trốn thoát là 2/3 và xác xuất của
người săn đuổi là 1/3 khả năng bắt được anh ta. Người chạy trốn không thể cải
thiện được tình hình dựa vào tỷ lệ xuất hiện khả năng sống còn nếu người săn
đuổi là người duy lý, vì vậy cả hai chiến lược ngẫu nhiên đều có trong cân bằng
Nash.
Bây giờ thì chúng tôi xin giới thiệu lại những yếu
tố tham số, có nghĩa là những tảng đá rơi ở cây cầu #2 và những con rắn hổ mang ở cây cầu #3. Hơn nữa hãy giả định rằng người chạy trốn
chắc chắn được an toàn qua chiếc cầu #1, có một tỷ lệ là 90% qua chiếc cầu số #2, và 80% qua cầu số #3.
Chúng ta có thể giải quyết trò chơi mới này nếu chúng ta có những định đề chắc
chắn về các hàm tiện ích của hai tay chơi. Hãy giả định rằng tay chơi I, người
chạy trốn chỉ quan tâm đến sống hoặc chết (thích sống hơn chết) trong khi người
săn đuổi chỉ đơn giản muốn báo cáo rằng người chạy trốn đã chết vì cô ta thích
báo cáo như vậy hơn là báo cáo anh ta đã chạy thoát. (Nói cách khác, cô ta
không quan tâm đến việc người chạy trốn sống hay chết như thế nào). Trong trường hợp này người chạy trốn chỉ đơn giản lựa
chọn các công thức ngẫu nhiên hóa và so sánh nó theo những cấp độ khác nhau của
sự nguy hiểm mang tính tham số ở ba chiếc cầu. Cần phải nghĩ rằng mỗi chiếc cầu
là một điều may rủi đối với các kết quả khả thể của người chạy trốn, trong đó
mỗi may rủi có một khoản phải trả mong muốn trong khuôn khổ của những hạng mục
trong hàm tiện ích của ông ta.
Hãy xem xét vấn đề từ quan điểm của người săn đuổi.
Cô ta sẽ sử dụng chiến lược cân bằng Nash của mình khi cô ta lựa chọn sự hỗn
hợp của các xác suất đối với ba chiếc cầu, và nó làm cho người chạy trốn trở
nên trung lập giữa các chiến lược khả thể thuần túy của anh ta. Chiếc cầu có
những tảng đá thì 1.1 lần nguy hiểm đối với anh ta hơn là chiếc cầu an toàn. Vì
vậy anh ta sẽ trung lập giữa hai chiếc cầu trong khi người săn đuổi thì 1.1 lần
thích đợi tại chiếc cầu an toàn hơn là chiếc cầu có đá rơi. Cầu có rắn thì 1.2
lần nguy hiểm đối với người chạy trốn hơn là chiếc cầu an toàn. Vì vậy anh ta
sẽ trung lập trong việc lựa chọn giữa hai chiếc cầu này khi xác suất đợi của
người săn đuổi ở chiếc cầu an toàn là 1.2 lần cao hơn xác suất đợi của chính cô
ta ở chiếc cầu có rắn. Hãy giả sử chúng ta sử dụng s1, s2 và s3 để thể hiện các
tỷ lệ sống sót tham số của người chạy trốn ở mỗi chiếc cầu. Vậy là người săn
đuổi tối đa hóa tỷ lệ sống sót ròng qua bất cứ cặp cầu nào bằng cách điều chỉnh
các xác suất p1 và p2 là những xác suất mà cô ta sẽ chờ đợi sao cho
s1 (1
− p1) = s2 (1 − p2)
vì p1
+ p2 = 1, nên chúng ta có thể viết lại công thức này là
s1 x
p2 = s2 x p1
vì
vậy
p1/s1
= p2/s2.
Cuối
cùng người săn đuổi phát hiện ra chiến lược cân bằng Nash của cô ta bằng cách
giải các phương trình sau:
1 (1 − p1)
|
=
|
0.9 (1 − p2)
|
=
|
0.8 (1 − p3)
|
p1 + p2 + p3 = 1.
Vậy
thì
p1
|
=
|
49/121
|
p2
|
=
|
41/121
|
p3
|
=
|
31/121
|
p1
|
=
|
p2
|
=
|
p3
|
=
|
Bây giờ hãy để f1, f2, f3 thể hiện các xác suất với những xác suất mà người chạy trốn chọn lựa mỗi chiếc cầu tương ứng. Vậy là người chạy trốn phát hiện ra chiến lược cân bằng Nash của anh ta bằng cách giải:
s1 x
f1
|
=
|
s2 x
f2
|
=
|
s3 x
f3
|
Do đó
1 × f1
|
=
|
0.9 × f2
|
=
|
0.8 × f3
|
đồng
thời với
f1 +
f2 + f3 = 1.
Vậy
thì
f1
= 36/121
|
f2
= 40/121
|
f3
= 45/121
|
Hai
tập xác suất cân bằng Nash này nói cho mỗi tay chơi cách thức đo lường độ may
rủi của cô ta hoặc ông ta trước khi gieo chúng. Hãy lưu ý – có lẽ rất đáng ngạc
nhiên – kết quả mà người chạy trốn sử dụng những chiếc cầu rủi ro với xác suất
cao hơn. Đó là cách duy nhất làm cho người săn đuổi trung lập với những gì liên
quan đến chiếc cầu cô ta xí phần, và đến lượt mình nó lại tối đa hóa xác suất sống
sót của người chạy trốn.
Chúng
ta có thể giải trò chơi này một cách minh bạch vì chúng ta thiết lập hàm tiện
ích sao cho nó trở thành zero-sum,
hoặc cạnh tranh nghiêm nhặt. Thế có
nghĩa là mỗi thành quả đạt được trong tiện ích mong muốn bởi một người chơi đều
thể hiện một lần thua cân xứng một cách chính xác bởi tay chơi kia. Tuy nhiên
có thể điều kiện này thường không đứng vững được. Giờ đây hãy giả sử rằng các
hàm tiện ích đều phức tạp hơn nhiều. Người săn đuổi thích nhất một kết quả mà
trong đó cô ta bắn người chạy trốn và vì vậy mà khẳng định lòng tin đối với
hiểu biết của anh ta đối với một chiếc cầu mà anh ta chết vì đá rơi hoặc rắn
cắn; và cô ta thích kết quả thứ hai hơn là để anh ta thoát được. Người chạy
trốn thích một cái chết nhanh chóng bằng một phát đạn hơn là chết vì bị đá rơi,
hoặc nỗi kinh hoàng khi bị rắn cắn. Tất nhiên điều anh ta thích nhất vẫn là
thoát được. Như trước, chúng ta không thể giải được trò chơi này một cách đơn
giản dựa trên cơ sở biết được các hàm tiện ích thứ tự của các tay chơi, vì các cường độ của những sở thích tương ứng
giờ đây sẽ liên quan đến các chiến lược của họ.
Trước
công trình của von Neumann & Morgenstern [1947], các tình huống thuộc loại
này rõ ràng đã cản trở những người phân tích. Đó là vì tiện ích không chứng tỏ
một biến số tâm lý ẩn dấu chẳng hạn như niềm
vui sướng. Như chúng ta đã thảo luận ở phần 2.1, tiện ích chỉ là một phương
tiện đo lường các cơ cấu hành vi có liên quan đem lại những định đề kiên định
nào đó về các mối liên hệ giữa những sở thích và các lựa chọn. Vì vậy nó không
tạo ra ý nghĩa để hình dung sự so sánh bản
số của các tay chơi của chúng ta – có nghĩa là cường độ – nhạy cảm – các sở
thích với bản số của người khác, vì không có tiêu chuẩn so sánh cố định liên cá
nhân độc lập mà chúng ta có thể sử dụng. Vậy thì chúng ta có thể xây dựng mô
hình các trò chơi thế nào để cho thông tin bản số phù hợp? Sau hết, việc xây
dựng mô hình các trò chơi đòi hỏi rằng tất cả các tiện ích của những tay chơi
đều phải được xem xét đồng thời như chúng ta đã thấy.
Một
khía cạnh quyết định trong công trình của von Neumann & Morgenstern [1947] là giải pháp cho vấn đề này. Trong
trường hợp này chúng tôi sẽ cung cấp một phác thảo tóm tắt về kỹ thuật khéo léo
của họ trong việc xây dựng các hàm tiện ích bản số của các số thứ tự. Điều đó
nhấn mạnh rằng cái tiếp theo chỉ là một phác
thảo, sao cho có thể làm cho tiện ích bản số trở thành phi-bí ẩn đối với
bạn với tư cách là một sinh viên, là người quan tâm đến việc tìm hiểu các cơ sở
triết học của lý thuyết trò chơi, và về hàng lọat vấn đề có thể áp dụng. Việc
cung cấp một chỉ dẫn cho bạn có thể được tiếp tục bằng việc xây dựng các hàm
bản số của riêng bạn, phần chỉ dẫn đó sẽ chiếm nhiều trang giấy. Rất may là
những chỉ dẫn như vậy lại có sẵn trong nhiều cuốn sách giáo trình. Trong bất kỳ
trường hợp nào, nếu bạn là một sinh viên triết học thì bạn có thể không mong
muốn thử làm công việc đó cho đến khi bạn tham gia vào một khóa học về lý
thuyết xác suất.
Giả
sử chúng ta có một tác nhân mà hàm tiện ích số thứ tự của tác nhân đó được biết
rõ. Thực sự thì giả sử đó là người tù vượt sông của chúng ta. Chúng ta ấn định
cho ông ta hàm tiện ích thứ tự sau:
Trốn
thoát 4
Chết
vì bị bắn 3
Chết
vì đá rơi 2
Chết
vì rắn cắn 1
Giờ
đây chúng ta biết rằng ý muốn trốn thoát của ông ta hơn bất cứ kiểu chết nào
chắc chắn mạnh hơn ý thích của ông ấy về, chẳng hạn bị bắn so với bị rắn cắn.
Điều này sẽ được phản ánh trong hành vi lựa chọn của ông ta theo những cách
sau. Trong tình huống chẳng hạn như trò chơi qua sông, ông ta sẽ mong muốn chạy
thoát khỏi những rủi ro lớn hơn để tăng xác suất tương đối của việc trốn thoát
so với bị bắn, và ông ta tăng xác suất tương đối bị bắn hơn là bị rắn cắn. Một
chút logic ấy là sự hiểu biết hệ trọng đàng sau giải pháp của von Neumann &
Morgenstern [1947] cho vấn đề bản số hóa.
Bắt
đầu bằng việc đề nghị tác nhân của chúng ta lựa chọn từ tập kết quả đã có một
kết quả tốt nhất và một kết quả tồi nhất. “Tốt nhất” và “tồi nhất” được xác
định trong khuôn khổ lựa chọn duy lý: một tác nhân duy lý luôn luôn lựa chọn
sao cho có thể tối đa hóa xác xuất của kết quả tốt nhất – ta gọi đó là W – và để tối thiểu hóa xác suất của
kết quả tồi nhất - được gọi là L.
Giờ đây chúng ta hãy xem xét các phần thưởng trực tiếp giữa W và L. Trong một tập kết quả chứa các phần thưởng như vậy, chúng ta
phát hiện được điều may rủi bao gồm chỉ có W
và L. Trong ví dụ của chúng ta đây
sẽ là điều may rủi khi bị bắn và bị đá rơi như là những kết quả khả thể của nó.
Ta gọi đó là may rủi T. Chúng ta
định nghĩa một hàm tiện ích q = u(T) khi q là loại phần thưởng đáng mong đợi ở T, tác nhân thì trung tính giữa đạt
được T và đạt được may rủi trong đó
W xảy ra với xác suất u(T) và L xảy ra với xác suất 1 – u(T).
Giờ
đây chúng ta xây dựng một T* may rủi
đa hợp đối với tập kết quả {W, L}
sao cho tác nhân là trung tính giữa T
và T*. Một T may rủi đa hợp là một xác suất trong đó giải thưởng may rủi là
một yếu tố may rủi khác. Điều đó là có ý nghĩa bởi vì trên hết nó vẫn là W và L là những yếu tố dang bị đe dọa đối với tác nhân của chúng ta
trong cả hai trường hợp; vì vậy sau đó chúng ta có thể chia T* thành một may rủi đơn đối với W và L. Chúng ta gọi đây là may rủi r.
Nó nảy sinh từ tính nhất thời mà T
tương đương với r. (Lưu ý rằng điều
này giả định trước rằng một tác nhân của chúng ta không đạt được hàm tiện ích
từ tính chất phức tạp trong các canh bạc của cô ta). Giờ đây tác nhân duy lý sẽ
chọn hành động tối đa hóa xác suất thắng W.
Việc xây dựng sơ đồ từ tập kết quả đến u(r)
là một hàm tiện ích von
Newmann-Morgenstern (VNMuf).
Vậy
thì thực sự là ở đây chúng ta đã làm được cái gì? Chúng ta chỉ đơn giản đưa ra
cho các tác nhân những lựa chọn đối với các may rủi thay cho các lựa chọn đối
với những phần thưởng một cách trực tiếp, và đã quan sát anh ta muốn thêm bao
nhiêu rủi ro để chạy trốn để tăng cường những cơ hội thoát khỏi được rắn cắn
liên quan đến việc bị bắn hoặc bị đá rơi trúng người. Một hàm tiện ích đạt được
một bản số chứ không phải là một rãy thứ tự, một phép đo tiện ích. Lựa chọn của
chúng ta về các giá trị điểm cuối, W
và L là mang tính võ đoán như trước
vậy; nhưng một khi những giá trị này đã được cố định thì các giá trị điểm trung
gian cũng được xác định. Vì vậy hàm tiện
ích VNMuf thực sự đo các cường độ sở thích có liên quan của một tác nhân đơn.
Tuy nhiên vì việc chúng ta ấn định các giá trị tiện ích cho W và L là võ đoán, nên chúng ta không thể sử dụng các VNMufs để so sánh
các sở thích bản số của một tác nhân với các sở thích của các tác nhân khác.
Hơn nữa vì chúng ta sử dụng một trắc
lượng rủi ro như một công cụ đo của chúng ta nên việc xây dựng hàm tiện ích
mới phụ thuộc vào việc giả định rằng thái
độ đối với tự thân sự rủi ro của tác nhân vẫn không đổi bằng việc so sánh
các rủi ro với nhau. Điều này có vẻ là hợp lý đối với một tác nhân đơn trong
một tình huống trò chơi đơn lẻ. Tuy nhiên hai tác nhân trong một trò chơi hoặc
một tác nhân trong những loại hoàn cảnh khác nhau có thể thể hiện những thái độ
rất khác nhau đối với rủi ro. Có lẽ trong trò chơi qua sông thì người săn đuổi
mà cuộc sống của cô ta không hề bị đe dọa sẽ thích đánh bạc với vinh quang của
cô ta trong khi người chạy trốn thì lại phải rất thận trọng. Nói chung một tác
nhân chống rủi ro thích một phần
thưởng được đảm bảo đối với một giá trị đáng mong đợi tương đương của nó trong
một xác suất may rủi. Một tác nhân ưa rủi
ro lại có một sở thích ngược lại.
Một tác nhân trung tính với rủi ro
thì trung tính giữa các lựa chọn này. Tuy nhiên trong việc phân tích trò chơi
qua sông chúng ta không thể so sánh các tiện ích bản số của người săn đuổi với
người chạy trốn. Suy cho cùng thì cả hai tác nhân đều phát hiện ra các chiến
lược cân bằng Nash của họ nếu họ có thể ước tính được các xác suất mà mỗi tác
nhân sẽ ấn định cho các hành động của tác nhân kia. Điều đó có nghĩa là mỗi tác
nhân phải biết cả hàm VNMufs, nhưng họ lại không cần cố để đánh giá một cách
tương đối các kết quả đối với những kết quả mà họ mạo hiểm.
Giờ
đây chúng ta có thể điền phần còn lại của ma trận cho trò chơi qua cầu mà chúng
ta đã bắt đầu vạch ra ở phần 2. Nếu toàn bộ những thứ mà người chạy trốn quan
tâm là sự sống và cái chết của anh ta chứ không phải là cách thức chết, và nếu
toàn bộ những gì mà người săn đuổi quan tâm là ngăn chặn người chạy trốn thoát
được thì giờ đây chúng ta có thể giải thích về tất cả các hàm tiện ích về
phương diện bản số. Điều này cho phép chúng ta ấn định những tiện ích mong muốn
được thể hiện bằng cách nhân lên các khoản được trả nguyên bản bằng các xác
suất tương đương như những kết quả trong ma trận. Giả sử rằng người săn đuổi
đợi ở cầu có rắn với xác suất x và ở
cầu đá rơi với xác suất y. Vì các xác
suất của cô ta qua ba chiếc cầu phải có tổng là 1 nên điều này ngầm ẩn rằng cô
ta phải đợi ở chiếc cầu an toàn với xác suất 1- (x + y). Vậy là việc tiếp tục
ấn định cho người chạy trốn một khoản nhận được là 0 nếu anh ta chết và là 1
nếu anh ta thoát, và người săn đuổi thì có khoản nhận được ngược lại với người
chạy trốn thì ma trận hoàn chỉnh của chúng ta là như sau:
Hình 12
Chú thích hình 12:
-
Cobra Bridge = cầu
có rắn hổ mang
-
Rocky Bridge = cầu có
đá rơi
-
Safe Bridge =
cầu an toàn
-
Fugitive
= kẻ chạy trốn
-
Hunter = người săn
Giờ
đây chúng ta có thể đọc các sự kiện sau về trò chơi một cách trực tiếp từ ma
trận. Không hàng nào cột nào thống trị nghiêm nhặt hoặc thống trị yếu đối với
bất cứ hàng cột nào khác. Vì vậy các cân bằng Nash của trò chơi phải ở trong
các chiến lược hỗn hợp.
3.1. Các niềm tin
Chúng ta cần lý giải như thế nào về các quá trình
xây dựng mô hình bằng các thuật toán của các hỗn hợp cân bằng Nash trong các
trò chơi như trò chơi qua sông? Một loại giải thích khả thể là loại lý giải tiến hóa. Nếu người săn đuổi và người
chạy trốn thường xuyên chơi các trò chơi có cấu trúc tương tự với trò chơi qua
sông thì những sức ép lựa chọn sẽ có những thói quen được cổ vũ trong họ là thứ
đưa cả hai đến việc chơi các chiến lược cân bằng Nash và duy lý hóa hành động
như vậy bằng việc thỏa mãn câu truyện hoặc cái khác. Nếu không bên nào ở trong
tình huống như vậy và nếu các tổ tiên văn hóa và/hoặc sinh học của họ cũng chưa
từng lâm vào tình huống như vậy, và nếu không bên nào quan tâm đến việc bộ lộ
thông tin cho các đối phương trong những tình huống tương lai mong muốn thuộc
loại này (vì họ không mong đợi họ lại xuất hiện) và nếu cả hai bên không phải
là những lý thuyết gia trò chơi được đào tạo thì hành vi của họ sẽ được tiên
đoán không phải bởi một lý thuyết gia trò chơi mà bởi những người bạn của họ,
những người thân thuộc với những đặc tính cá nhân của họ. Các nhà hành vi luận
sung sướng nhận ra rằng lý thuyết trò chơi không hữu dụng cho việc xây dựng mô hình
mỗi hoàn cảnh kinh nghiệm chủ nghĩa khả thể là cái xuất hiện cùng.
Tuy
nhiên nhà triết học nào muốn lý thuyết trò chơi được sử dụng như là một lý
thuyết mô tả và/hoặc định chuẩn của tính duy lý chiến lược thì không thể cứ
khăng khăng với câu trả lời đó. Ông ta phải tìm cho ra một cung cách tư vấn
thỏa đáng cho những tay chơi ngay cả khi trò chơi của họ chỉ đơn độc trong cái
vũ trụ của những vấn đề chiến lược. Không có lời khuyên nào như vậy có thể được
đưa ra mà lại thỏa đáng không hề có tranh luận – sau rốt thì các nhà hành vi
luận vẫn là các nhà hành vi luận vì họ không được thỏa mãn bởi bất cứ cách tiếp
cận nào ở đây – nhưng có một cách xử lý vấn đề mà nhiều lý thuyết gia trò chơi
đã phát hiện lại rất đáng để theo đuổi. Điều đó liên quan đến việc tính toán về
những cân bằng trong niềm tin.
Thực
ra thì nhà hành vi luận cũng cần khái niệm cân bằng trong các niềm tin, nhưng
lại vì những mục đích khác. Như chúng ta đã thấy, khái niệm cân bằng Nash đã
không được phân tích đủ sâu với tư cách một công cụ phân tích để nói cho chúng
ta tất cả những gì mà chúng ta nghĩ là có thể quan trọng trong một trò chơi. Vì
vậy ngay cả các nhà hành vi luận không phải chịu sức ép bởi dự án các bộ lọc
cũng có thể tận dụng khái niệm cân bằng hoàn hảo của trò chơi phụ (SPE - subgame-perfect
equilibrium) như đã được thảo luận trong phần 2.6, nếu họ nghĩ rằng họ đang
phải đối phó với các tác nhân là những người được thông tin rất tốt (có nghĩa
là vì họ ở trong một môi trường thể chế thân thuộc). Nhưng giờ đây chúng ta hãy
xem xét trò chơi tay ba với thông tin hoàn hảo dưới đây được gọi là “Con ngựa
Selten” (tên người sáng tạo ra trò chơi này, được giải thưởng Nobel, Reinhard Selten, và vì nó hình cây; lấy trích
dẫn từ Kreps [1990, tr. 426]:
Hình
13
Một
trong những cân bằng Nash của trò chơi này là Lr2l3. Đó
là vì nếu tay chơi I chơi L, sau đó tay chơi II chơi r2 không
hề có động cơ để thay đổi chiến lược vì nút hành động duy nhất của bà ta, 12 đã
trệch ra khỏi đường dẫn của trò chơi. Nhưng cân bằng Nash này dường như thuần túy
kỹ thuật; nó đã tạo ra đôi chút ý nghĩa với tư cách là một giải pháp. Điều đó
tự bộc lộ trong sự kiện là nếu trò chơi bắt đầu ở nút 14 có thể được xử lý như
một trò chơi phụ, thì Lr2l3
sẽ không là một SPE. Bất cứ khi nào cô ta bắt đầu vận động thì tay
chơi II cũng sẽ chơi l2. Nhưng nếu tay chơi II đang chơi l2
thì tay chơi I sẽ chuyển sang R. Trong trường hợp đó tay chơi III sẽ chuyển
sang r3, bằng cách đưa tay chơi II trở về r2. Và đây là
một “cảm biến” mới, cân bằng Nash: Rr2r3. I và II đều
chơi một cách hiệu quả “tách ra” khỏi III.
Cân
bằng Nash này chỉ “nhạy cảm” theo cùng một cách là một kết quả SPE trong một
trò chơi thông tin hoàn hảo nhậy cảm hơn cân bằng Nash phi-SPE. Tuy nhiên chúng
ta không thể chọn nó bằng cách áp dụng thuật toán Zermelo. Vì các nút 13 và 14
rơi vào bên trong một tập thông tin chung, nên Con ngựa Selten chỉ có một trò
chơi phụ (ấy là toàn bộ cuộc chơi). Chúng ta cần có một khái niệm “anh em” nữa
cho SPE là cái mà chúng ta có thể áp dụng trong những trường hợp thông tin không
hoàn hảo, và chúng ta cần một thủ tục giải pháp mới để thay thế thuật toán
Zermelo cho các trò chơi như vậy.
Hãy
lưu ý rằng tay chơi III trong Con ngựa Selten đang băn khoăn tự hỏi xem anh ta
chọn chiến lược của mình như thế nào. “Giả sử ta vận động” anh ta tự nhủ “thì
nút hành động của ta tới được từ nút 11, hay từ nút 12?”. Nói cách khác, cái gì
là những xác suất có điều kiện mà tay chơi III ở nút 13 hay 14 làm cho anh ta
thực hiện một vận động? Vậy thì nếu các xác suất có điều kiện là cái mà tay
chơi III băn khoăn, sau đó là cái mà tay chơi I và tay chơi II phải phỏng đoán
khi họ lựa chọn các chiến lược của họ là các niềm tin của tay chơi III về các
xác suất có điều kiện đó. Trong trường hợp này, tay chơi I phải phỏng đoán về
các niềm tin cả tay chơi II về niềm tin của tay chơi III, và niềm tin của tay
chơi III về niềm tin của tay chơi II và vv…,. Trong trường hợp này các niềm tin
tương ứng không chỉ mang tính chiến lược như trước, vì chúng không hề là cái mà
các tay chơi sẽ thực hiện một tập các khoản nhận được nhất định và các cấu trúc
của trò chơi, mà về cái mà họ nghĩ là tạo nên ý nghĩa cho việc tìm hiểu nào đó
hoặc ý nghĩa khác của xác suất có điều kiện.
Những
gì là niềm tin nào về xác xuất có điều kiện có thể có lý mà các tay chơi mong
đợi từ tay chơi khác? Lý thuyết gia định chuẩn có thể kiên trì về bất cứ cái gì
mà các nhà toán học đã phát hiện về chủ đề này. Tuy nhiên rõ ràng là nếu điều
này được áp dụng thì một lý thuyết trò chơi mà nó tích hợp sẽ không phải là sự
thật của hầu hết mọi người. Nhà hành vi luận sẽ kiên trì đối với việc áp đặt
các thói quen hành vi là cái mà một quá trình chọn lọc tự nhiên có thể xây dựng
thành các sản phẩm. Có lẽ một số tạo vật khả thể có thể quan sát các thói quen
tôn trọng qui tắc Bayes, là một khái
quát hóa chân thật tối thiểu về xác suất có điều kiện mà một tác nhân có thể
biết nếu nó biết bất cứ khái quát nào như vậy. Việc bổ sung thêm nhiều tri thức
tinh vi về xác suất có điều kiện có nghĩa là sự tinh lọc cân bằng về niềm tin,
hệt như một số lý thuyết gia trò chơi thích tinh lọc các cân bằng Nash. Bạn có
thể tưởng tượng cái điều mà các nhà hành vi luận nghĩ về dự án đó!
Giờ
đây chúng ta sẽ giới hạn sự chú ý của mình vào khái niệm cân bằng về niềm tin
được tinh lọc ít nhất, một khái niệm có được khi chúng ta đòi hỏi các tay chơi
suy lý theo nguyên tắc Bayes. Nguyên tắc Bayes nói với chúng ta về việc phải
tính toán như thế nào về xác suất của một sự kiện F sinh ra thông tin E (được
viết thành ‘pr(F/E):
pr(F/E) = [pr(E/F) ì pr(F)] / pr(E)
Từ nay trở đi chúng ta giả định rằng các tay chơi không giữ niềm tin mâu
thuẫn với đẳng thức này.
Giờ đây chúng ta có thể xác định một cân
bằng theo trật tự. Một cân bằng theo trật tự có hai phần: (1) một hồ sơ
chiến lược Đ cho mỗi tay chơi, như trước, và (2) một hệ thống niềm tin à cho
mỗi tay chơi. à ấn định cho mỗi tập thông tin h một phân phối xác suất trên các nút x trong h, với lời lý
giải rằng đó là những niềm tin của tay chơi i(h)
về vấn đề là tập thông tin của anh ta nằm ở đâu, mà tập thông tin h đã cho đó đã có được rồi. Vậy là một
cân bằng tuần tự là một tập tham số ưu tiên của các chiến lược Đ và một hệ
thống niềm tin à phù hợp với qui tắc Bayes đến mức bắt đầu từ mỗi tập thông tin
h trong hình cây mà tay chơi i(h) đã chơi một cách tối ưu từ đó, cái
điều đã cho mà anh ta tin là đã xảy ra ấy đã được sinh ra bởi à(h) và cái sẽ xảy ra trong các vận động
tiếp theo được sinh ra bởi Đ.
Giờ đây chúng ta thể hiện khái niệm ấy bằng việc áp dụng cho Con ngựa
Selten. Và chúng ta hãy xem lại cái cân bằng Nash không mấy thú vị Lr2l3.
Giả định rằng tay chơi III ấn định pr(1) cho niềm tin của cô ta rằng nếu như cô
ta thực hiện một chuyển động thì cô ta sẽ ở nút 13. Vậy là tay chơi II, được
cấp cho một à(II) cố định phải tin tưởng rằng tay chơi III sẽ chơi l3,
mà trong trường hợp đó chiến lược SE duy nhất của cô ta là l2. Vì
vậy mặc dù Lr2l3 là một cân bằng Nash, nhưng nó lại không
phải là một cân bằng SE. Tất nhiên đây chính là điều mà chúng ta mong muốn. Việc
sử dụng nhu cầu kiên định trong ví dụ này là một cái gì đó đối chút tầm thường,
vì vậy giờ đây chúng ta hãy xem xét một trường hợp thứ hai, cũng được dẫn từ trích
dẫn từ Kreps [1990, tr. 429] :
Hình 14
Giả sử rằng tay chơi I chơi L, tay chơi II chơi l2
và tay chơi III chơi l3. Cũng giả sử rằng à(II) ấn định pr(.3) cho nút 16. Trong trường hợp
đó, l2 không phải là
một chiến lược SE cho tay chơi II, vì l2 trở thành một khoản được trả đáng mong muốn
là .3(4) + .7(2) = 2.6, trong khi r2 đem một khoản được trả đáng mong muốn là 3.1. Nên lưu ý rằng nếu chúng
ta tiêu phí tập tham số ưu tiên chiến lược cho tay chơi III trong khi để cho
mọi thứ còn lại cố định, thì l2
có thể trở thành một chiến
lược SE cho tay chơi II. Nếu Đ(III) đạt được một cách chơi l3 với pr(.5) và r3 với pr(.5), thì nếu tay chơi II chơi r2 thì khoản được trả mong ước của anh ta giờ
đây sẽ là 2.2, vì vậy Ll2l3
sẽ là một SE. Giờ đây hãy tưởng
tượng môi trường à(III) quay trở lại như nó đã từng, nhưng hãy thay
đổi à(II) sao cho tay chơi II
nghĩ đến xác suất có điều kiện ở nút 16 lớn hơn .5; trong trường hợp này, l2
lại không phải là một chiến lược
SE.
Ý
tưởng về SE giờ đây đã hoàn toàn rõ ràng. Chúng ta có thể áp dụng nó vào trò
chơi qua sông theo cái cách là nó tránh được tính chất nhất thiết cho người săn
đuổi không phải gieo bất cứ đồng xu nào để chúng ta có thể làm cho trò chơi
biến đổi đi đôi chút. Bây giờ hãy giả sử tay chơi II có thể thay đổi việc lựa
chọn những chiếc cầu hai lần trong khi người chạy trốn đi qua, và sẽ bắt anh ta
đúng trong trường hợp cô ta gặp anh ta khi anh ta rời chiếc cầu. Vậy thì chiến
lược SE của người đi săn là chia thời gian của cô ta ở ba chiếc cầu phù hợp với
tỷ lệ nhất định bằng phương trình trong đoạn thứ ba của phần 3 ở trên.
Cần phải lưu ý rằng vì nguyên tắc Bayes không thể được được áp dụng vào các sự kiện với xác suất bằng 0, nên việc áp dụng nó vào cân bằng SE đòi hỏi rằng các tay chơi phải ấn định các xác suất phi-zero cho toàn bộ các hành động có sẵn trong hình cây. Cần phải có đòi hỏi này vì giả sử là toàn bộ các tập tham số ưu tiên chiến lược được hòa trộn một cách nghiêm nhặt, có nghĩa là mỗi hành động đó ở mỗi tập thông tin được thực hiện với xác suất dương. Bạn sẽ thấy rằng đây thực sự cũng giống như việc giả định rằng toàn bộ các bàn tay đôi khi đều run. Một cân bằng SE là một dự án bàn tay run nếu toàn bộ các chiến lược chơi ở điểm cân bằng là những đáp trả tốt nhất đối với các chiến lược được hòa trộn một cách nghiêm nhặt. Bạn cũng không nên ngạc nhiên khi người ta nói rằng không chiến lược bị thống trị yếu nào có thể là dự án bàn tay run, vì khả năng của các bàn tay run đưa đến cho các tay chơi một lý do xác đáng nhất để tránh các chiến lược như vậy.
Còn
nữa…
Tác
giả: Don Ross là
Giáo sư Triết học tại Đại học Alabama
ở
Birmingham, Giáo sư Kinh tế học tại Đại học Cape Town, Nam Phi. Công trình
chủ yếu:
Economic Theory and Cognitive Science: Microexplanation (MIT Press,
2005).
Nguyên
văn: Game Theory, The
Stanford Encyclopedia of Philosophy (Fall 2010 Edition), Edward N.
Zalta (ed.), First published Sat Jan
25, 1997; substantive revision Wed May 5, 2010
Tài
liệu dẫn
Baird, D., Gertner, R., and Picker, R. (1994). Game
Theory and the Law. Cambridge, MA: Harvard University Press.
Binmore, K., Kirman, A., and Tani, P. (eds.) (1993). Frontiers
of Game Theory. Cambridge, MA: MIT Press
Binmore, K. (1998). Game Theory
and the Social Contract (v. 2): Just Playing. Cambridge, MA: MIT
Press.
Camerer C. 2003. Behavioral Game Theory: Experiments in Strategic Interaction. Princeton:
Princeton University Press.
Danielson, P. (ed.) (1998). Modelling Rationality, Morality and Evolution. Oxford: Oxford University Press.
Fudenberg, D., and Tirole, J. (1991). Game
Theory. Cambridge, MA: MIT Press.
Gintis, H. (2004). Towards the Unity of the Human Behavioral
Sciences. In Philosophy, Politics and Economics 31:37-57.
Guala, F. (2005). The
Methodology of Experimental Economics. Cambridge: Cambridge University
Press.
Hofbauer, J. and Sigmind K. 1998. Evolutionary Games and Population
Dynamics. Cambridge: Cambridge University Press.
Krebs, J., and Davies, N.(1984). Behavioral
Ecology: An Evolutionary Approach. Second edition. Sunderland: Sinauer.
Kreps, D. (1990). A Course in
Microeconomic Theory. Princeton: Princeton University Press.
McMillan, J. (1991). Games,
Strategies and Managers. Oxford: Oxford University Press.
Nash, J. (1950b). The Bargaining Problem. In Econometrica
18:155-162.
Nash, J. (1951). Non-cooperative Games. In Annals of
Mathematics Journal 54:286-295.
Ormerod, P. (1994). The Death
of Economics. New York: Wiley.
Rawls, J. (1971). A Theory of
Justice. Cambridge, MA: Harvard University Press.
Robbins, L. (1931). An Essay on
the Nature and Significance of Economic Science. London: Macmillan.
Ross D. 2005.
Evolutionary Game Theory and the
Normative Theory of Institutional Design: Binmore and Behavioral Economics. In
Politics, Philosophy and Economics,
forthcoming.
Ross D. and LaCasse C. 1995. Towards
a New Philosophy of Positive Economics. In Dialogue 34: 467-493.
Samuelson, L. (2005). Economic Theory and Experimental Economics.
In Journal of Economic Literature 43:65-107.
Selten, R. (1975). Re-examination of the Perfectness Concept
for Equilibrium Points in Extensive Games. In International Journal of
Game Theory 4:22-55.
Sigmund, K. (1993). Games of
Life. Oxford: Oxford University Press.
Smith V. 1982. Microeconomic Systems as an Experimental
Science. In American Economic Review 72:923-955.
Sober, E., and Wilson, D.S. (1998). Unto
Others. Cambridge, MA: Harvard University Press.
Tomasello M., Carpenter, J. Call, T. Behne and H. Moll (2004). Understanding and Sharing Intentions: The Origins of Cultural Cognition.
In Behavioral and Brain Sciences, forthcoming.
Vallentyne, P. (ed.). (1991). Contractarianism
and Rational Choice. Cambridge: Cambridge University Press.
von Neumann, J., and Morgenstern, O., (1947). The
Theory of Games and Economic Behavior. Princeton: Princeton University
Press, 2nd edition.
Weibull, J. (1995). Evolutionary
Game Theory. Cambridge, MA: MIT Press.
Yaari, M. (1987). The Dual Theory of Choice Under Risk. In
Econometrica 55:95-115.
Young, H.P. (1998). Individual
Strategy and Social Structure. Princeton: Princeton University Press.
Không có nhận xét nào:
Đăng nhận xét