Thứ Năm, 17 tháng 5, 2012

Lý thuyết Trò chơi (IV)


Lý thuyết Trò chơi (IV)

Don Ross

Người dịch Hà Hữu Nga

3. Tính không chắc chắn, Rủi ro và những Cân bằng rãy

Các trò chơi mà chúng ta xây dựng mô hình cho vấn đề này toàn bộ đều liên quan đến các tay chơi bằng cách chọn lựa một trong số các chiến lược thuần túy, trong đó mỗi người đều tìm kiếm một quá trình hành động tối ưu riêng ở mỗi nút tạo nên một phản ứng tốt nhất đối với những hành động của những tay chơi khác. Tuy nhiên thường xuyên một tiện ích của một tay chơi được tối ưu hóa thông qua việc sử dụng một chiến lược hỗn hợp, trong đó cô ta gieo một đồng xu trong số một vài hành động khả thể khác. (Sau đây chúng ta sẽ thấy có một sự lý giải thay thế đặc biệt hỗn hợp không liên quan đến sự ngẫu nhiên hóa ở một tập thông tin đặc biệt; nhưng chúng ta sẽ bắt đầu ở đây từ việc lý giải hành động gieo đồng tiền và sau đó sẽ dựa vào nó ở phần 3.1). Hòa trộn là cần thiết bất cứ khi nào không có một chiến lược thuần túy tối đa hóa tiện ích của người chơi dựa vào toàn bộ các chiến lược của đối phương.  Trò chơi qua sông từ phần 1 của chúng ta đã minh họa cho vấn đề này. Như chúng ta đã thấy, thách thức trong trò chơi này bao gồm  sự thật là nếu sự suy lý của người chạy trốn lựa chọn một chiếc cầu đặc biệt với tư cách là một lựa chọn tối ưu, thì người săn đuổi anh ta phải được giả định là có thể để nhân lên cái suy lý đó. Vậy là người chạy trốn có thể thoát được chỉ khi người theo đuổi anh ta không thể tiên đoán một cách chắc chắn rằng anh ta sẽ sử dụng chiếc cầu nào. Tính chất đối xứng của năng lực suy lý về phần hai tay chơi đảm bảo rằng người chạy trốn có thể làm cho người săn đuổi bất ngờ chỉ khi nào anh ta làm cho chính mình bất ngờ.

Hãy giả sử rằng chúng ta lờ đi những tảng đá và lũ rắn trong một chốc lát và tưởng tượng rằng những chiếc cầu kia là hoàn toàn an toàn. Cũng có thể giả định rằng người chạy trốn không có hiểu biết đặc biệt nào về người săn đuổi anh ta làm cho anh ta liều lĩnh thử thách một sự phân phối xác suất phỏng đoán đặc biệt đối với các chiến lược có sẵn của người săn đuổi.

Trong trường hợp này, cách cư xử tốt nhất của người chạy trốn là gieo con súc sắc ba mặt trong đó mỗi mặt đều thể hiện một chiếc cầu khác nhau (hoặc truyền thống hơn, một con súc sắc 6 mặt trong đó mỗi chiếc cầu thể hiện bởi hai mặt). Sau đó anh ta phải tự cam kết trước việc sử dụng bất cứ chiếc cầu nào được lựa chọn bằng lựa chọn ngẫu nhiên này. Công việc này ấn định tần số xuất hiện khả năng sống của anh ta bất chấp người săn đuổi anh ta làm gì; nhưng vì người săn đuổi không có bất cứ lý do gì để ưa thích bất cứ chiến lược hỗn hợp hay đơn lẻ nào có sẵn, và vì trong bất cứ trường hợp nào thì chúng ta cũng đang đoán chừng cái tình huống hiểu biết của cô ta là cân bằng với cái tình huống của người chạy trốn, thì chúng ta có thể giả định rằng cô ta sẽ gieo con súc sắc ba mặt của riêng mình. Giờ đây người chạy trốn có một xác suất trốn thoát là 2/3 và xác xuất của người săn đuổi là 1/3 khả năng bắt được anh ta. Người chạy trốn không thể cải thiện được tình hình dựa vào tỷ lệ xuất hiện khả năng sống còn nếu người săn đuổi là người duy lý, vì vậy cả hai chiến lược ngẫu nhiên đều có trong cân bằng Nash.

Bây giờ thì chúng tôi xin giới thiệu lại những yếu tố tham số, có nghĩa là những tảng đá rơi ở cây cầu #2 và những con rắn hổ mang ở cây cầu #3. Hơn nữa hãy giả định rằng người chạy trốn chắc chắn được an toàn qua chiếc cầu #1, có một tỷ lệ là 90% qua chiếc cầu số #2, và 80% qua cầu số #3. Chúng ta có thể giải quyết trò chơi mới này nếu chúng ta có những định đề chắc chắn về các hàm tiện ích của hai tay chơi. Hãy giả định rằng tay chơi I, người chạy trốn chỉ quan tâm đến sống hoặc chết (thích sống hơn chết) trong khi người săn đuổi chỉ đơn giản muốn báo cáo rằng người chạy trốn đã chết vì cô ta thích báo cáo như vậy hơn là báo cáo anh ta đã chạy thoát. (Nói cách khác, cô ta không quan tâm đến việc người chạy trốn sống hay chết như thế nào). Trong trường hợp này người chạy trốn chỉ đơn giản lựa chọn các công thức ngẫu nhiên hóa và so sánh nó theo những cấp độ khác nhau của sự nguy hiểm mang tính tham số ở ba chiếc cầu. Cần phải nghĩ rằng mỗi chiếc cầu là một điều may rủi đối với các kết quả khả thể của người chạy trốn, trong đó mỗi may rủi có một khoản phải trả mong muốn trong khuôn khổ của những hạng mục trong hàm tiện ích của ông ta.

Hãy xem xét vấn đề từ quan điểm của người săn đuổi. Cô ta sẽ sử dụng chiến lược cân bằng Nash của mình khi cô ta lựa chọn sự hỗn hợp của các xác suất đối với ba chiếc cầu, và nó làm cho người chạy trốn trở nên trung lập giữa các chiến lược khả thể thuần túy của anh ta. Chiếc cầu có những tảng đá thì 1.1 lần nguy hiểm đối với anh ta hơn là chiếc cầu an toàn. Vì vậy anh ta sẽ trung lập giữa hai chiếc cầu trong khi người săn đuổi thì 1.1 lần thích đợi tại chiếc cầu an toàn hơn là chiếc cầu có đá rơi. Cầu có rắn thì 1.2 lần nguy hiểm đối với người chạy trốn hơn là chiếc cầu an toàn. Vì vậy anh ta sẽ trung lập trong việc lựa chọn giữa hai chiếc cầu này khi xác suất đợi của người săn đuổi ở chiếc cầu an toàn là 1.2 lần cao hơn xác suất đợi của chính cô ta ở chiếc cầu có rắn. Hãy giả sử chúng ta sử dụng s1, s2 và s3 để thể hiện các tỷ lệ sống sót tham số của người chạy trốn ở mỗi chiếc cầu. Vậy là người săn đuổi tối đa hóa tỷ lệ sống sót ròng qua bất cứ cặp cầu nào bằng cách điều chỉnh các xác suất p1 và p2 là những xác suất mà cô ta sẽ chờ đợi sao cho

s1 (1 − p1) = s2 (1 − p2)
vì p1 + p2 = 1, nên chúng ta có thể viết lại công thức này là
s1 x p2 = s2 x p1
vì vậy
p1/s1 = p2/s2.

Cuối cùng người săn đuổi phát hiện ra chiến lược cân bằng Nash của cô ta bằng cách giải các phương trình sau:

1 (1 − p1)
=
0.9 (1 − p2)

=
0.8 (1 − p3)
p1 + p2 + p3 = 1.
Vậy thì

p1
=
49/121
p2
=
41/121
p3
=
31/121


p1
=
p2
=
p3
=

Bây giờ hãy để f1, f2, f3 thể hiện các xác suất với những xác suất mà người chạy trốn chọn lựa mỗi chiếc cầu tương ứng. Vậy là người chạy trốn phát hiện ra chiến lược cân bằng Nash của anh ta bằng cách giải:

s1 x f1
=
s2 x f2

=
s3 x f3

Do đó

1 × f1
=
0.9 × f2

=
0.8 × f3
đồng thời với

f1 + f2 + f3 = 1.

Vậy thì

f1 = 36/121
f2 = 40/121
f3 = 45/121

Hai tập xác suất cân bằng Nash này nói cho mỗi tay chơi cách thức đo lường độ may rủi của cô ta hoặc ông ta trước khi gieo chúng. Hãy lưu ý – có lẽ rất đáng ngạc nhiên – kết quả mà người chạy trốn sử dụng những chiếc cầu rủi ro với xác suất cao hơn. Đó là cách duy nhất làm cho người săn đuổi trung lập với những gì liên quan đến chiếc cầu cô ta xí phần, và đến lượt mình nó lại tối đa hóa xác suất sống sót của người chạy trốn.

Chúng ta có thể giải trò chơi này một cách minh bạch vì chúng ta thiết lập hàm tiện ích sao cho nó trở thành zero-sum, hoặc cạnh tranh nghiêm nhặt. Thế có nghĩa là mỗi thành quả đạt được trong tiện ích mong muốn bởi một người chơi đều thể hiện một lần thua cân xứng một cách chính xác bởi tay chơi kia. Tuy nhiên có thể điều kiện này thường không đứng vững được. Giờ đây hãy giả sử rằng các hàm tiện ích đều phức tạp hơn nhiều. Người săn đuổi thích nhất một kết quả mà trong đó cô ta bắn người chạy trốn và vì vậy mà khẳng định lòng tin đối với hiểu biết của anh ta đối với một chiếc cầu mà anh ta chết vì đá rơi hoặc rắn cắn; và cô ta thích kết quả thứ hai hơn là để anh ta thoát được. Người chạy trốn thích một cái chết nhanh chóng bằng một phát đạn hơn là chết vì bị đá rơi, hoặc nỗi kinh hoàng khi bị rắn cắn. Tất nhiên điều anh ta thích nhất vẫn là thoát được. Như trước, chúng ta không thể giải được trò chơi này một cách đơn giản dựa trên cơ sở biết được các hàm tiện ích thứ tự của các tay chơi, vì các cường độ của những sở thích tương ứng giờ đây sẽ liên quan đến các chiến lược của họ.

Trước công trình của von Neumann & Morgenstern [1947], các tình huống thuộc loại này rõ ràng đã cản trở những người phân tích. Đó là vì tiện ích không chứng tỏ một biến số tâm lý ẩn dấu chẳng hạn như niềm vui sướng. Như chúng ta đã thảo luận ở phần 2.1, tiện ích chỉ là một phương tiện đo lường các cơ cấu hành vi có liên quan đem lại những định đề kiên định nào đó về các mối liên hệ giữa những sở thích và các lựa chọn. Vì vậy nó không tạo ra ý nghĩa để hình dung sự so sánh bản số của các tay chơi của chúng ta – có nghĩa là cường độ – nhạy cảm – các sở thích với bản số của người khác, vì không có tiêu chuẩn so sánh cố định liên cá nhân độc lập mà chúng ta có thể sử dụng. Vậy thì chúng ta có thể xây dựng mô hình các trò chơi thế nào để cho thông tin bản số phù hợp? Sau hết, việc xây dựng mô hình các trò chơi đòi hỏi rằng tất cả các tiện ích của những tay chơi đều phải được xem xét đồng thời như chúng ta đã thấy.

Một khía cạnh quyết định trong công trình của von Neumann & Morgenstern  [1947] là giải pháp cho vấn đề này. Trong trường hợp này chúng tôi sẽ cung cấp một phác thảo tóm tắt về kỹ thuật khéo léo của họ trong việc xây dựng các hàm tiện ích bản số của các số thứ tự. Điều đó nhấn mạnh rằng cái tiếp theo chỉ là một phác thảo, sao cho có thể làm cho tiện ích bản số trở thành phi-bí ẩn đối với bạn với tư cách là một sinh viên, là người quan tâm đến việc tìm hiểu các cơ sở triết học của lý thuyết trò chơi, và về hàng lọat vấn đề có thể áp dụng. Việc cung cấp một chỉ dẫn cho bạn có thể được tiếp tục bằng việc xây dựng các hàm bản số của riêng bạn, phần chỉ dẫn đó sẽ chiếm nhiều trang giấy. Rất may là những chỉ dẫn như vậy lại có sẵn trong nhiều cuốn sách giáo trình. Trong bất kỳ trường hợp nào, nếu bạn là một sinh viên triết học thì bạn có thể không mong muốn thử làm công việc đó cho đến khi bạn tham gia vào một khóa học về lý thuyết xác suất.

Giả sử chúng ta có một tác nhân mà hàm tiện ích số thứ tự của tác nhân đó được biết rõ. Thực sự thì giả sử đó là người tù vượt sông của chúng ta. Chúng ta ấn định cho ông ta hàm tiện ích thứ tự sau:

Trốn thoát >>4
Chết vì bị bắn >>3
Chết vì đá rơi >>2
Chết vì rắn cắn >>1

Giờ đây chúng ta biết rằng ý muốn trốn thoát của ông ta hơn bất cứ kiểu chết nào chắc chắn mạnh hơn ý thích của ông ấy về, chẳng hạn bị bắn so với bị rắn cắn. Điều này sẽ được phản ánh trong hành vi lựa chọn của ông ta theo những cách sau. Trong tình huống chẳng hạn như trò chơi qua sông, ông ta sẽ mong muốn chạy thoát khỏi những rủi ro lớn hơn để tăng xác suất tương đối của việc trốn thoát so với bị bắn, và ông ta tăng xác suất tương đối bị bắn hơn là bị rắn cắn. Một chút logic ấy là sự hiểu biết hệ trọng đàng sau giải pháp của von Neumann & Morgenstern [1947] cho vấn đề bản số hóa.

Bắt đầu bằng việc đề nghị tác nhân của chúng ta lựa chọn từ tập kết quả đã có một kết quả tốt nhất và một kết quả tồi nhất. “Tốt nhất” và “tồi nhất” được xác định trong khuôn khổ lựa chọn duy lý: một tác nhân duy lý luôn luôn lựa chọn sao cho có thể tối đa hóa xác xuất của kết quả tốt nhất – ta gọi đó là W – và để tối thiểu hóa xác suất của kết quả tồi nhất - được gọi là L. Giờ đây chúng ta hãy xem xét các phần thưởng trực tiếp giữa WL. Trong một tập kết quả chứa các phần thưởng như vậy, chúng ta phát hiện được điều may rủi bao gồm chỉ có WL. Trong ví dụ của chúng ta đây sẽ là điều may rủi khi bị bắn và bị đá rơi như là những kết quả khả thể của nó. Ta gọi đó là may rủi T. Chúng ta định nghĩa một hàm tiện ích q = u(T) khi q là loại phần thưởng đáng mong đợi ở T, tác nhân thì trung tính giữa đạt được T và đạt được may rủi trong đó W xảy ra với xác suất u(T) và L xảy ra với xác suất 1 – u(T).

Giờ đây chúng ta xây dựng một T* may rủi đa hợp đối với tập kết quả {W, L} sao cho tác nhân là trung tính giữa TT*. Một T may rủi đa hợp là một xác suất trong đó giải thưởng may rủi là một yếu tố may rủi khác. Điều đó là có ý nghĩa bởi vì trên hết nó vẫn là WL là những yếu tố dang bị đe dọa đối với tác nhân của chúng ta trong cả hai trường hợp; vì vậy sau đó chúng ta có thể chia T* thành một may rủi đơn đối với W L. Chúng ta gọi đây là may rủi r. Nó nảy sinh từ tính nhất thời mà T tương đương với r. (Lưu ý rằng điều này giả định trước rằng một tác nhân của chúng ta không đạt được hàm tiện ích từ tính chất phức tạp trong các canh bạc của cô ta). Giờ đây tác nhân duy lý sẽ chọn hành động tối đa hóa xác suất thắng W. Việc xây dựng sơ đồ từ tập kết quả đến u(r) là một hàm tiện ích von Newmann-Morgenstern (VNMuf).

Vậy thì thực sự là ở đây chúng ta đã làm được cái gì? Chúng ta chỉ đơn giản đưa ra cho các tác nhân những lựa chọn đối với các may rủi thay cho các lựa chọn đối với những phần thưởng một cách trực tiếp, và đã quan sát anh ta muốn thêm bao nhiêu rủi ro để chạy trốn để tăng cường những cơ hội thoát khỏi được rắn cắn liên quan đến việc bị bắn hoặc bị đá rơi trúng người. Một hàm tiện ích đạt được một bản số chứ không phải là một rãy thứ tự, một phép đo tiện ích. Lựa chọn của chúng ta về các giá trị điểm cuối, WL là mang tính võ đoán như trước vậy; nhưng một khi những giá trị này đã được cố định thì các giá trị điểm trung gian  cũng được xác định. Vì vậy hàm tiện ích VNMuf thực sự đo các cường độ sở thích có liên quan của một tác nhân đơn. Tuy nhiên vì việc chúng ta ấn định các giá trị tiện ích cho WL là võ đoán, nên chúng ta không thể sử dụng các VNMufs để so sánh các sở thích bản số của một tác nhân với các sở thích của các tác nhân khác. Hơn nữa vì chúng ta sử dụng một trắc lượng rủi ro như một công cụ đo của chúng ta nên việc xây dựng hàm tiện ích mới phụ thuộc vào việc giả định rằng thái độ đối với tự thân sự rủi ro của tác nhân vẫn không đổi bằng việc so sánh các rủi ro với nhau. Điều này có vẻ là hợp lý đối với một tác nhân đơn trong một tình huống trò chơi đơn lẻ. Tuy nhiên hai tác nhân trong một trò chơi hoặc một tác nhân trong những loại hoàn cảnh khác nhau có thể thể hiện những thái độ rất khác nhau đối với rủi ro. Có lẽ trong trò chơi qua sông thì người săn đuổi mà cuộc sống của cô ta không hề bị đe dọa sẽ thích đánh bạc với vinh quang của cô ta trong khi người chạy trốn thì lại phải rất thận trọng. Nói chung một tác nhân chống rủi ro thích một phần thưởng được đảm bảo đối với một giá trị đáng mong đợi tương đương của nó trong một xác suất may rủi. Một tác nhân ưa rủi ro  lại có một sở thích ngược lại. Một tác nhân trung tính với rủi ro thì trung tính giữa các lựa chọn này. Tuy nhiên trong việc phân tích trò chơi qua sông chúng ta không thể so sánh các tiện ích bản số của người săn đuổi với người chạy trốn. Suy cho cùng thì cả hai tác nhân đều phát hiện ra các chiến lược cân bằng Nash của họ nếu họ có thể ước tính được các xác suất mà mỗi tác nhân sẽ ấn định cho các hành động của tác nhân kia. Điều đó có nghĩa là mỗi tác nhân phải biết cả hàm VNMufs, nhưng họ lại không cần cố để đánh giá một cách tương đối các kết quả đối với những kết quả mà họ mạo hiểm.

Giờ đây chúng ta có thể điền phần còn lại của ma trận cho trò chơi qua cầu mà chúng ta đã bắt đầu vạch ra ở phần 2. Nếu toàn bộ những thứ mà người chạy trốn quan tâm là sự sống và cái chết của anh ta chứ không phải là cách thức chết, và nếu toàn bộ những gì mà người săn đuổi quan tâm là ngăn chặn người chạy trốn thoát được thì giờ đây chúng ta có thể giải thích về tất cả các hàm tiện ích về phương diện bản số. Điều này cho phép chúng ta ấn định những tiện ích mong muốn được thể hiện bằng cách nhân lên các khoản được trả nguyên bản bằng các xác suất tương đương như những kết quả trong ma trận. Giả sử rằng người săn đuổi đợi ở cầu có rắn với xác suất x và ở cầu đá rơi với xác suất y. Vì các xác suất của cô ta qua ba chiếc cầu phải có tổng là 1 nên điều này ngầm ẩn rằng cô ta phải đợi ở chiếc cầu an toàn với xác suất 1- (x + y). Vậy là việc tiếp tục ấn định cho người chạy trốn một khoản nhận được là 0 nếu anh ta chết và là 1 nếu anh ta thoát, và người săn đuổi thì có khoản nhận được ngược lại với người chạy trốn thì ma trận hoàn chỉnh của chúng ta là như sau: 

Figure 12

Hình 12

Chú thích hình 12:

-          Cobra Bridge    = cầu có rắn hổ mang
-          Rocky Bridge   = cầu có đá rơi
-          Safe Bridge       = cầu an toàn
-          Fugitive                        = kẻ chạy trốn
-          Hunter              = người săn

Giờ đây chúng ta có thể đọc các sự kiện sau về trò chơi một cách trực tiếp từ ma trận. Không hàng nào cột nào thống trị nghiêm nhặt hoặc thống trị yếu đối với bất cứ hàng cột nào khác. Vì vậy các cân bằng Nash của trò chơi phải ở trong các chiến lược hỗn hợp.

3.1. Các niềm tin

Chúng ta cần lý giải như thế nào về các quá trình xây dựng mô hình bằng các thuật toán của các hỗn hợp cân bằng Nash trong các trò chơi như trò chơi qua sông? Một loại giải thích khả thể là loại lý giải tiến hóa. Nếu người săn đuổi và người chạy trốn thường xuyên chơi các trò chơi có cấu trúc tương tự với trò chơi qua sông thì những sức ép lựa chọn sẽ có những thói quen được cổ vũ trong họ là thứ đưa cả hai đến việc chơi các chiến lược cân bằng Nash và duy lý hóa hành động như vậy bằng việc thỏa mãn câu truyện hoặc cái khác. Nếu không bên nào ở trong tình huống như vậy và nếu các tổ tiên văn hóa và/hoặc sinh học của họ cũng chưa từng lâm vào tình huống như vậy, và nếu không bên nào quan tâm đến việc bộ lộ thông tin cho các đối phương trong những tình huống tương lai mong muốn thuộc loại này (vì họ không mong đợi họ lại xuất hiện) và nếu cả hai bên không phải là những lý thuyết gia trò chơi được đào tạo thì hành vi của họ sẽ được tiên đoán không phải bởi một lý thuyết gia trò chơi mà bởi những người bạn của họ, những người thân thuộc với những đặc tính cá nhân của họ. Các nhà hành vi luận sung sướng nhận ra rằng lý thuyết trò chơi không hữu dụng cho việc xây dựng mô hình mỗi hoàn cảnh kinh nghiệm chủ nghĩa khả thể là cái xuất hiện cùng.

Tuy nhiên nhà triết học nào muốn lý thuyết trò chơi được sử dụng như là một lý thuyết mô tả và/hoặc định chuẩn của tính duy lý chiến lược thì không thể cứ khăng khăng với câu trả lời đó. Ông ta phải tìm cho ra một cung cách tư vấn thỏa đáng cho những tay chơi ngay cả khi trò chơi của họ chỉ đơn độc trong cái vũ trụ của những vấn đề chiến lược. Không có lời khuyên nào như vậy có thể được đưa ra mà lại thỏa đáng không hề có tranh luận – sau rốt thì các nhà hành vi luận vẫn là các nhà hành vi luận vì họ không được thỏa mãn bởi bất cứ cách tiếp cận nào ở đây – nhưng có một cách xử lý vấn đề mà nhiều lý thuyết gia trò chơi đã phát hiện lại rất đáng để theo đuổi. Điều đó liên quan đến việc tính toán về những cân bằng trong niềm tin.

Thực ra thì nhà hành vi luận cũng cần khái niệm cân bằng trong các niềm tin, nhưng lại vì những mục đích khác. Như chúng ta đã thấy, khái niệm cân bằng Nash đã không được phân tích đủ sâu với tư cách một công cụ phân tích để nói cho chúng ta tất cả những gì mà chúng ta nghĩ là có thể quan trọng trong một trò chơi. Vì vậy ngay cả các nhà hành vi luận không phải chịu sức ép bởi dự án các bộ lọc cũng có thể tận dụng khái niệm cân bằng hoàn hảo của trò chơi phụ (SPE - subgame-perfect equilibrium) như đã được thảo luận trong phần 2.6, nếu họ nghĩ rằng họ đang phải đối phó với các tác nhân là những người được thông tin rất tốt (có nghĩa là vì họ ở trong một môi trường thể chế thân thuộc). Nhưng giờ đây chúng ta hãy xem xét trò chơi tay ba với thông tin hoàn hảo dưới đây được gọi là “Con ngựa Selten” (tên người sáng tạo ra trò chơi này, được giải thưởng Nobel,  Reinhard Selten, và vì nó hình cây; lấy trích dẫn từ Kreps [1990, tr. 426]:

Figure 13

Hình 13

Một trong những cân bằng Nash của trò chơi này là Lr2l3. Đó là vì nếu tay chơi I chơi L, sau đó tay chơi II chơi r2 không hề có động cơ để thay đổi chiến lược vì nút hành động duy nhất của bà ta, 12 đã trệch ra khỏi đường dẫn của trò chơi. Nhưng cân bằng Nash này dường như thuần túy kỹ thuật; nó đã tạo ra đôi chút ý nghĩa với tư cách là một giải pháp. Điều đó tự bộc lộ trong sự kiện là nếu trò chơi bắt đầu ở nút 14 có thể được xử lý như một trò chơi phụ, thì Lr2lsẽ không là một SPE. Bất cứ khi nào cô ta bắt đầu vận động thì tay chơi II cũng sẽ chơi l2. Nhưng nếu tay chơi II đang chơi l2 thì tay chơi I sẽ chuyển sang R. Trong trường hợp đó tay chơi III sẽ chuyển sang r3, bằng cách đưa tay chơi II trở về r2. Và đây là một “cảm biến” mới, cân bằng Nash: Rr2r3. I và II đều chơi một cách hiệu quả “tách ra” khỏi III.

Cân bằng Nash này chỉ “nhạy cảm” theo cùng một cách là một kết quả SPE trong một trò chơi thông tin hoàn hảo nhậy cảm hơn cân bằng Nash phi-SPE. Tuy nhiên chúng ta không thể chọn nó bằng cách áp dụng thuật toán Zermelo. Vì các nút 13 và 14 rơi vào bên trong một tập thông tin chung, nên Con ngựa Selten chỉ có một trò chơi phụ (ấy là toàn bộ cuộc chơi). Chúng ta cần có một khái niệm “anh em” nữa cho SPE là cái mà chúng ta có thể áp dụng trong những trường hợp thông tin không hoàn hảo, và chúng ta cần một thủ tục giải pháp mới để thay thế thuật toán Zermelo cho các trò chơi như vậy.

Hãy lưu ý rằng tay chơi III trong Con ngựa Selten đang băn khoăn tự hỏi xem anh ta chọn chiến lược của mình như thế nào. “Giả sử ta vận động” anh ta tự nhủ “thì nút hành động của ta tới được từ nút 11, hay từ nút 12?”. Nói cách khác, cái gì là những xác suất có điều kiện mà tay chơi III ở nút 13 hay 14 làm cho anh ta thực hiện một vận động? Vậy thì nếu các xác suất có điều kiện là cái mà tay chơi III băn khoăn, sau đó là cái mà tay chơi I và tay chơi II phải phỏng đoán khi họ lựa chọn các chiến lược của họ là các niềm tin của tay chơi III về các xác suất có điều kiện đó. Trong trường hợp này, tay chơi I phải phỏng đoán về các niềm tin cả tay chơi II về niềm tin của tay chơi III, và niềm tin của tay chơi III về niềm tin của tay chơi II và vv…,. Trong trường hợp này các niềm tin tương ứng không chỉ mang tính chiến lược như trước, vì chúng không hề là cái mà các tay chơi sẽ thực hiện một tập các khoản nhận được nhất định và các cấu trúc của trò chơi, mà về cái mà họ nghĩ là tạo nên ý nghĩa cho việc tìm hiểu nào đó hoặc ý nghĩa khác của xác suất có điều kiện.

Những gì là niềm tin nào về xác xuất có điều kiện có thể có lý mà các tay chơi mong đợi từ tay chơi khác? Lý thuyết gia định chuẩn có thể kiên trì về bất cứ cái gì mà các nhà toán học đã phát hiện về chủ đề này. Tuy nhiên rõ ràng là nếu điều này được áp dụng thì một lý thuyết trò chơi mà nó tích hợp sẽ không phải là sự thật của hầu hết mọi người. Nhà hành vi luận sẽ kiên trì đối với việc áp đặt các thói quen hành vi là cái mà một quá trình chọn lọc tự nhiên có thể xây dựng thành các sản phẩm. Có lẽ một số tạo vật khả thể có thể quan sát các thói quen tôn trọng qui tắc Bayes, là một khái quát hóa chân thật tối thiểu về xác suất có điều kiện mà một tác nhân có thể biết nếu nó biết bất cứ khái quát nào như vậy. Việc bổ sung thêm nhiều tri thức tinh vi về xác suất có điều kiện có nghĩa là sự tinh lọc cân bằng về niềm tin, hệt như một số lý thuyết gia trò chơi thích tinh lọc các cân bằng Nash. Bạn có thể tưởng tượng cái điều mà các nhà hành vi luận nghĩ về dự án đó! 
Giờ đây chúng ta sẽ giới hạn sự chú ý của mình vào khái niệm cân bằng về niềm tin được tinh lọc ít nhất, một khái niệm có được khi chúng ta đòi hỏi các tay chơi suy lý theo nguyên tắc Bayes. Nguyên tắc Bayes nói với chúng ta về việc phải tính toán như thế nào về xác suất của một sự kiện F sinh ra thông tin E (được viết thành ‘pr(F/E):

pr(F/E) = [pr(E/F) ì pr(F)] / pr(E)

Từ nay trở đi chúng ta giả định rằng các tay chơi không giữ niềm tin mâu thuẫn với đẳng thức này.

Giờ đây chúng ta có thể xác định một cân bằng theo trật tự. Một cân bằng theo trật tự có hai phần: (1) một hồ sơ chiến lược Đ cho mỗi tay chơi, như trước, và (2) một hệ thống niềm tin à cho mỗi tay chơi. à ấn định cho mỗi tập thông tin h một phân phối xác suất trên các nút x trong h, với lời lý giải rằng đó là những niềm tin của tay chơi i(h) về vấn đề là tập thông tin của anh ta nằm ở đâu, mà tập thông tin h đã cho đó đã có được rồi. Vậy là một cân bằng tuần tự là một tập tham số ưu tiên của các chiến lược Đ và một hệ thống niềm tin à phù hợp với qui tắc Bayes đến mức bắt đầu từ mỗi tập thông tin h trong hình cây mà tay chơi i(h) đã chơi một cách tối ưu từ đó, cái điều đã cho mà anh ta tin là đã xảy ra ấy đã được sinh ra bởi à(h) và cái sẽ xảy ra trong các vận động tiếp theo được sinh ra bởi Đ.  

Giờ đây chúng ta thể hiện khái niệm ấy bằng việc áp dụng cho Con ngựa Selten. Và chúng ta hãy xem lại cái cân bằng Nash không mấy thú vị Lr2l3. Giả định rằng tay chơi III ấn định pr(1) cho niềm tin của cô ta rằng nếu như cô ta thực hiện một chuyển động thì cô ta sẽ ở nút 13. Vậy là tay chơi II, được cấp cho một à(II) cố định phải tin tưởng rằng tay chơi III sẽ chơi l3, mà trong trường hợp đó chiến lược SE duy nhất của cô ta là l2. Vì vậy mặc dù Lr2l3 là một cân bằng Nash, nhưng nó lại không phải là một cân bằng SE. Tất nhiên đây chính là điều mà chúng ta mong muốn. Việc sử dụng nhu cầu kiên định trong ví dụ này là một cái gì đó đối chút tầm thường, vì vậy giờ đây chúng ta hãy xem xét một trường hợp thứ hai, cũng được dẫn từ trích dẫn từ Kreps [1990, tr. 429] :

 Figure 14

Hình 14

Giả sử rằng tay chơi I chơi L, tay chơi II chơi l2 và tay chơi III chơi l3. Cũng giả sử rằng à(II) ấn định pr(.3) cho nút 16. Trong trường hợp đó, l2 không phải là một chiến lược SE cho tay chơi II, vì l2 trở thành một khoản được trả đáng mong muốn là .3(4) + .7(2) = 2.6, trong khi r2 đem một khoản được trả đáng mong muốn là 3.1. Nên lưu ý rằng nếu chúng ta tiêu phí tập tham số ưu tiên chiến lược cho tay chơi III trong khi để cho mọi thứ còn lại cố định, thì lcó thể trở thành một chiến lược SE cho tay chơi II. Nếu Đ(III) đạt được một cách chơi l3 với pr(.5) và r3 với pr(.5), thì nếu tay chơi II chơi r2 thì khoản được trả mong ước của anh ta giờ đây sẽ là 2.2, vì vậy  Ll2l3 sẽ là một SE. Giờ đây hãy tưởng tượng môi trường  à(III) quay trở lại như nó đã từng, nhưng hãy thay đổi à(II) sao cho tay chơi II nghĩ đến xác suất có điều kiện ở nút 16 lớn hơn .5; trong trường hợp này, l2 lại không phải là một chiến lược SE.

Ý tưởng về SE giờ đây đã hoàn toàn rõ ràng. Chúng ta có thể áp dụng nó vào trò chơi qua sông theo cái cách là nó tránh được tính chất nhất thiết cho người săn đuổi không phải gieo bất cứ đồng xu nào để chúng ta có thể làm cho trò chơi biến đổi đi đôi chút. Bây giờ hãy giả sử tay chơi II có thể thay đổi việc lựa chọn những chiếc cầu hai lần trong khi người chạy trốn đi qua, và sẽ bắt anh ta đúng trong trường hợp cô ta gặp anh ta khi anh ta rời chiếc cầu. Vậy thì chiến lược SE của người đi săn là chia thời gian của cô ta ở ba chiếc cầu phù hợp với tỷ lệ nhất định bằng phương trình trong đoạn thứ ba của phần 3 ở trên.

Cần phải lưu ý rằng vì nguyên tắc Bayes không thể được được áp dụng vào các sự kiện với xác suất bằng 0, nên việc áp dụng nó vào cân bằng SE đòi hỏi rằng các tay chơi phải ấn định các xác suất phi-zero cho toàn bộ các hành động có sẵn trong hình cây. Cần phải có đòi hỏi này vì giả sử là toàn bộ các tập tham số ưu tiên chiến lược được hòa trộn một cách nghiêm nhặt, có nghĩa là mỗi hành động đó ở mỗi tập thông tin được thực hiện với xác suất dương. Bạn sẽ thấy rằng đây thực sự cũng giống như việc giả định rằng toàn bộ các bàn tay đôi khi đều run. Một cân bằng SE là một dự án bàn tay run nếu toàn bộ các chiến lược chơi ở điểm cân bằng là những đáp trả tốt nhất đối với các chiến lược được hòa trộn một cách nghiêm nhặt. Bạn cũng không nên ngạc nhiên khi người ta nói rằng không chiến lược bị thống trị yếu nào có thể là dự án bàn tay run, vì khả năng của các bàn tay run đưa đến cho các tay chơi một lý do xác đáng nhất để tránh các chiến lược như vậy.

Còn nữa…

Tác giả: Don Ross là Giáo sư Triết học tại Đại học Alabama Birmingham, Giáo sư Kinh tế học tại Đại học Cape Town, Nam Phi. Công trình chủ yếu: Economic Theory and Cognitive Science: Microexplanation (MIT Press, 2005).

Nguyên văn: Game Theory, The Stanford Encyclopedia of Philosophy (Fall 2010 Edition), Edward N. Zalta (ed.), First published Sat Jan 25, 1997; substantive revision Wed May 5, 2010


Tài liệu dẫn

Baird, D., Gertner, R., and Picker, R. (1994). Game Theory and the Law. Cambridge, MA: Harvard University Press.

Binmore, K., Kirman, A., and Tani, P. (eds.) (1993). Frontiers of Game Theory. Cambridge, MA: MIT Press

Binmore, K. (1998). Game Theory and the Social Contract (v. 2): Just Playing. Cambridge, MA: MIT Press. 

Camerer C. 2003. Behavioral Game Theory: Experiments in Strategic Interaction. Princeton: Princeton University Press.

Danielson, P. (ed.) (1998). Modelling Rationality, Morality and Evolution. Oxford: Oxford University Press.

Fudenberg D., and Levine D. 1998. The Theory of Learning in Games. Cambridge, MA: MIT Press.

Fudenberg, D., and Tirole, J. (1991). Game Theory. Cambridge, MA: MIT Press.

Gintis, H. (2004). Towards the Unity of the Human Behavioral Sciences. In Philosophy, Politics and Economics 31:37-57.

Guala, F. (2005). The Methodology of Experimental Economics. Cambridge: Cambridge University Press.


Hofbauer, J. and Sigmind K. 1998. Evolutionary Games and Population Dynamics. Cambridge: Cambridge University Press.

Krebs, J., and Davies, N.(1984). Behavioral Ecology: An Evolutionary Approach. Second edition. Sunderland: Sinauer.

Kreps, D. (1990). A Course in Microeconomic Theory. Princeton: Princeton University Press.


Maynard Smith J. 1982. Evolution and the Theory of Games. Cambridge: Cambridge University Press.

McMillan, J. (1991). Games, Strategies and Managers. Oxford: Oxford University Press.

Nash J. 1950a. Equilibrium Points in n-Person Games. In PNAS 36:48-49.

Nash, J. (1950b). The Bargaining Problem. In Econometrica 18:155-162.

Nash, J. (1951). Non-cooperative Games. In Annals of Mathematics Journal 54:286-295.

Ormerod, P. (1994). The Death of Economics. New York: Wiley.

Rawls, J. (1971). A Theory of Justice. Cambridge, MA: Harvard University Press.

Robbins, L. (1931). An Essay on the Nature and Significance of Economic Science. London: Macmillan.

Ross D. 2005. Evolutionary Game Theory and the Normative Theory of Institutional Design: Binmore and Behavioral Economics. In Politics, Philosophy and Economics, forthcoming.

Ross D. and LaCasse C. 1995. Towards a New Philosophy of Positive Economics. In Dialogue 34: 467-493.

Samuelson L. 1997. Evolutionary Games and Equilibrium Selection. Cambridge, MA: MIT Press.

Samuelson, L. (2005). Economic Theory and Experimental Economics. In Journal of Economic Literature 43:65-107.

Samuelson, P. 1938. L.A Note on the Pure Theory of Consumers' Behaviour. In Econimica 5:61-71.

Selten, R. (1975). Re-examination of the Perfectness Concept for Equilibrium Points in Extensive Games. In International Journal of Game Theory 4:22-55.

Sigmund, K. (1993). Games of Life. Oxford: Oxford University Press.

Smith V. 1982. Microeconomic Systems as an Experimental Science. In American Economic Review 72:923-955.

Sober, E., and Wilson, D.S. (1998). Unto Others. Cambridge, MA: Harvard University Press.

Tomasello M., Carpenter, J. Call, T. Behne and H. Moll (2004). Understanding and Sharing Intentions: The Origins of Cultural Cognition. In Behavioral and Brain Sciences, forthcoming.

Vallentyne, P. (ed.). (1991). Contractarianism and Rational Choice. Cambridge: Cambridge University Press.

von Neumann, J., and Morgenstern, O., (1947). The Theory of Games and Economic Behavior. Princeton: Princeton University Press, 2nd edition.

Weibull, J. (1995). Evolutionary Game Theory. Cambridge, MA: MIT Press.

Yaari, M. (1987). The Dual Theory of Choice Under Risk. In Econometrica 55:95-115.

Young, H.P. (1998). Individual Strategy and Social Structure. Princeton: Princeton University Press.



Không có nhận xét nào:

Đăng nhận xét