Tiếng vọng KATTIGARA: Lý thuyết Trò chơi (III)

Don Ross

Người dịch Hà Hữu Nga

2.5. Các khái niệm giải pháp và những cân bằng

Trong nan đề người tù, các kết quả mà chúng ta thể hiện là (2,2) bằng cách chỉ ra sự đào ngũ chung thì được coi là giải pháp của trò chơi. Đi theo các thực tiễn chung trong kinh tế học, các lý thuyết gia trò chơi đã coi các giải pháp trò chơi là những cân bằng. Những người đọc có tư duy triết học sẽ muốn đưa ra một vấn đề khái niệm ngay trong trường hợp này: cái gì “được cân bằng” đối với một số kết quả trò chơi như cái mà chúng ta đang có động cơ để gọi chúng là “các giải pháp”? Khi chúng ta nói rằng một hệ thống vật chất nằm trong sự cân bằng thì có nghĩa là chúng ta muốn nói rằng nó đang ở trong trạng thái bền vững, đó là một trạng thái mà toàn bộ các lực nhân quả bên trong hệ thống cân bằng với bên ngoài và vì vậy mà để nó ở trạng thái “nghỉ” cho đến khi và trừ khi nó bị xáo trộn bởi sự can thiệp của một lực lượng ngoại sinh nào đó. Đó chính là cái mà các nhà kinh tế quan niệm một cách truyền thống là “cân bằng”; họ đọc các hệ thống kinh tế như là các mạng lưới của những mối quan hệ nhân quả, giống hệt như các hệ thống vật chất và các cân bằng của những hệ thống như vậy chính là những trạng thái bền vững nội sinh. Như chúng ta sẽ thấy sau khi thảo luận về lý thuyết trò chơi tiến hóa trong phần sau thì chúng ta có thể bảo lưu một cách hiểu như vậy về sự cân bằng trong trường hợp lý thuyết trò chơi. Tuy nhiên như chúng ta đã lưu ý ở phần 2.1, một số người đã giải thích lý thuyết trò chơi là một lý thuyết diễn giải về sự suy lý chiến lược. Đối với họ, một giải pháp cho một trò chơi phải là một kết quả mà một tác nhân duy lý phải tiên đoán được bằng cách sử dụng duy nhất các cơ chế tính toán duy lý. Các lý thuyết gia như vậy phải đối mặt với một số mắc míu về những khái niệm giải pháp không phải là quá quan trọng đối với những người hành vi luận. Chúng ta sẽ xem xét những mắc míu như vậy và những giải pháp khả thể trong suốt cả phần còn lại của bài viết này.

Sẽ là hữu dụng để bắt đầu cuộc thảo luận từ trường hợp PD [Nan đề người tù], vì nó đơn giản đến mức bất ngờ nếu xem xét từ quan điểm của những rắc rối này. Cái mà chúng ta coi như là giải pháp của nó chính là cân bằng Nash của trò chơi. (Từ Nash ở đây chính là John Nash, nhà toán học được giải Nobel trong Nash 1950 đã mở rộng nhất và khái quát hóa công trình tiên phong của von Newmann và Morgenstern). Cân bằng Nash từ đây gọi là NE được áp dụng (hoặc thất bại trong khi áp dụng vào toàn bộ các tập chiến lược, mỗi tập cho một người chơi trong một trò chơi. Một tập chiến lược là một cân bằng Nash chỉ trong trường hợp không người chơi nào có thể cải thiện được khoản phải trả của họ, những chiến lược nhất định của tất cả những người chơi khác trong trò chơi bằng cách thay đổi chiến lược của người chơi. Hãy lưu ý xem tư trưởng này gắn liền với tư tưởng về sự thống trị nghiêm nhặt đến mức nào: không chiến lược nào có thể là chiến lược cân bằng Nash nếu nó bị thống trị một cách nghiêm nhặt. Vì vậy nếu việc loại bỏ lặp lại những những chiến lược thống trị nghiêm nhặt đưa chúng ta đến với một kết quả duy nhất thì chúng ta biết rằng chúng ta đã phát hiện ra cái cân bằng Nash duy nhất của trò chơi đó. Giờ đây hầu hết các lý thuyết gia đều đồng ý rằng việc tránh những chiến lược thống trị nghiêm nhặt là một yêu cầu tối thiểu của tính duy lý. Điều này ám chỉ rằng nếu một trò chơi có một kết quả là một cân bằng Nash duy nhất như trong trường hợp cùng nhận tội trong trò chơi PD, thì nó phải là một giải pháp duy nhất của nó. Đây là một trong những khía cạnh quan trọng nhất trong đó trò chơi PD là một trò chơi “dễ” (và phi điển hình).

Chúng ta có thể xác định một lớp các trò chơi trong đó cân bằng Nash luôn luôn không chỉ cần mà còn đủ như là một khái niệm giải pháp. Đây là những trò chơi thuộc loại thông tin hoàn hảo hữu hạn; đó cũng là loại tổng bằng không (zero-sum). Trò chơi zero-sum (trong trường hợp một trò chơi chỉ có hai người chơi) là một trò chơi mà trong đó một người chơi chỉ có thể cải thiện lối chơi bằng cách làm cho người chơi khác chơi tồi hơn. Tic-tac-toe là một ví dụ giảm đơn về một trò chơi như vậy: bất cứ vận động nào đưa tôi đến gần với chiến thắng thì cũng đưa bạn gần đến với chiến bại, và ngược lại). Chúng ta có thể xác định xem một trò chơi có phải là một trò zero-sum không bằng cách xác định các hàm tiện ích của người chơi: trong trò chơi zero-sum các hàm này sẽ là những hình ảnh gương của một hàm khác, những kết quả ở thứ hạng cao của một người chơi lại là thứ hạng thấp đối với người kia và ngược lại. Trong một trò chơi như vậy, nếu tôi đang chơi một chiến lược như một chiến lược nhất định của bạn, tôi không thể làm được bất cứ điều gì tốt hơn, và nếu bạn cũng đang chơi một chiến lược như vậy thì vì bất cứ sự thay đổi chiến lược nào của tôi cũng sẽ phải làm cho bạn chơi tồi đi và ngược lại, kết quả là cuộc chơi của tôi có thể không có được giải pháp tương hợp với tính duy lý chung trừ tính cân bằng Nash duy nhất của nó. Chúng ta có thể đưa ra một tình huống khác: trong một trò chơi zero-sum tôi chơi một chiến lược mà chiến lược đó tối đa hóa cái khoản phải trả tối thiểu của tôi nếu bạn chơi tốt hết sức và hành động của bạn đồng thời làm nên cùng một kết quả, thì nó thực sự tương đương với toàn bộ chiến lược chơi tốt nhất của chúng ta, vì vậy cặp thủ tục “tối đa hóa” này được đảm bảo để phát hiện ra giải pháp duy nhất đối với trò chơi, đó là tính cân bằng Nash duy nhất của nó. (Trong trò chơi Tic-tac-toe thì như vậy là hòa. Bạn không thể làm gì tốt hơn hòa, cả tôi cũng không thể làm gì hơn, nếu cả hai chúng ta đều cố gắng chiến thắng và cố gắng để không bị thua).

Tuy nhiên hầu hết các trò chơi đều không có thuộc tính này. Trong một bài viết như thế này chúng ta không thể kê ra tất cả những cách thức mà các trò chơi có thể có vấn đề từ quan điểm của những giải pháp khả thể. (Có một vấn đề rất khác, đó là các lý thuyết gia đã phát hiện được toàn bộ những vấn đề khả thể!). Tuy nhiên, chúng ta cố gắng khái quát hóa các vấn đề một chút.

Trước tiên có một vấn đề là trong hầu hết các trò chơi phi-zero-sum số cân bằng Nash lớn hơn một, nhưng không phải tất cả mọi cân bằng Nash đều có vẻ hợp lý như những giải pháp mà các tay chơi duy lý sẽ chạm phải về phương diện chiến lược. Hãy xem xét trò chơi dạng chiến lược dưới đây (lấy ra từ Kreps 1990, trang 403):

Hình 6

Trò chơi này có hai cân bằng Nash: s1-t1 và s2-t2. (Lưu ý rằng không phải các hàng và cột thống trị một cách nghiêm nhặt ở đây. Nhưng nếu người chơi I đang chơi s1 thì người chơi II có thể thực hiện không tốt hơn t1, và ngược lại; và tương tự như vậy đối với cặp s2-t2). Nếu cân bằng Nash là khái niệm giải pháp duy nhất của chúng ta thì chúng ta buộc phải nói rằng cả những kết quả này cũng có sức thuyết phục như một giải pháp vậy. Tuy nhiên nếu lý thuyết trò chơi được coi là một lý thuyết giải thích và/hoặc định chuẩn về sự suy lý chiến lược thì điều đó hình như là bỏ quên một cái gì đó: những người chơi duy lý chắc chắn có thông tin hoàn hảo sẽ hội tụ vào s1-t1? (Xin lưu ý rằng điều này không giống với tình huống trong trò chơi PD, trong đó tình huống cao hơn về phương diện xã hội là không thể đạt được vì đó không phải là một cân bằng Nash. Trong trường hợp trò chơi ở trên cả hai người chơi, mỗi người đều có một lý do để cố gắng hội tụ vào cân bằng Nash trong đó họ là những người chơi tốt hơn).

Điều này minh họa cho một sự thật là cân bằng Nash là một khái niệm giải pháp tương đối yếu (về mặt logic) thường không dự đoán trước được các giải pháp nhạy cảm về mặt trực giác vì nếu được áp dụng đơn độc thì nó sẽ không cho phép những người chơi sử dụng các nguyên tắc của lựa chọn cân bằng mà sự lựa chọn đó nếu không được yêu cầu bằng tính duy lý thì ít nhất cũng không phải là phi lý. Hãy xem xét một ví dụ khác của Kreps (1990, trang 397):

Hình 7

Trong trường hợp này không có chiến lược nào thống trị nghiêm nhặt một chiến lược khác. Tuy nhiên, hàng trên cùng của người chơi I, s1, thống trị yếu s2, vì người chơi I ít nhất cũng sử dụng s1 làm s2 vì bất cứ một phản ứng nào bởi người chơi số II, và về một phản ứng của người chơi số II (t2), thì số I thực hiện tốt hơn. Vì vậy phải chăng cả những người chơi lẫn người phân tích đều không nên xóa đi hàng số s2 bị thống trị yếu? Khi họ làm như vậy thì cột t1 được thống trị nghiêm nhặt, và cân bằng Nash s1-t2 được chọn là giải pháp duy nhất.

Tuy nhiên như Kreps đã tiếp tục chỉ rõ việc sử dụng ví dụ này, thì cái ý tưởng là các chiến lược thống trị nên được loại bỏ hệt như là những chiến lược nghiêm nhặt có những kết quả bổ sung. Hãy giả định chúng ta thay đổi các khoản phải trả của trò chơi chỉ một chút thôi như sau:

Hình 8

s2 vẫn bị thống trị yếu như trước; nhưng thuộc về 2 cân bằng Nash của chúng ta, s2 – t1 giờ đây là hấp dẫn nhất đối với cả hai người chơi; vậy thì tại sao các nhà phân tích lại muốn loại bỏ khả năng của nó? (Lưu ý rằng trò chơi này không sao chép lại logic của trò PD. Tại đó nó tạo ra ý nghĩa để loại bỏ cái kết quả hấp dẫn nhất, việc cùng từ chối nhận tội, vì cả hai người chơi đều có động cơ để đơn phương đi chệch hướng khỏi nó, vì vậy đó không phải là một cân bằng Nash. Đó không thực sự thuộc về s2-t1 của trò chơi này. Bạn nên bắt đầu nhận ra một cách rõ ràng tại sao chúng tôi lại gọi trò chơi PD là “không điển hình”). Lý lẽ cho việc loại bỏ các chiến lược thống trị yếu là ở chỗ người chơi I có thể nóng vội khi sợ rằng người chơi II không hoàn toàn chắc chắn là duy lý (hoặc người chơi II sợ rằng người chơi I không hoàn toàn duy lý, và cứ như thế cho đến vô cùng) và vì vậy có thể chơi t2 bằng một xác suất dương. Nếu khả năng xuất phát điểm từ tính duy lý được thực hiện một cách nghiêm nhặt thì chúng ta có một lý lẽ về việc loại bỏ các chiến lược thống trị yếu: vì vậy người chơi I tự đảm bảo cho cái kết quả thấp nhất của mình, s2-t2. Tất nhiên người đó phải trả giá cho sự đảm bảo này, bằng cách giảm khoản nhận được mong muốn từ 10 xuống 5. Một mặt chúng ta có thể hình dung rằng những người chơi có thể giao tiếp với nhau trước khi chơi, và đồng ý chơi các chiến lược tương quan sao cho có thể điều phối được s2-t1 bằng cách loại bỏ một số, hầu hết hoặc toàn bộ tính chất không chắc chắn nào tạo điều kiện cho việc loại bỏ hàng thống trị yếu s1, và thay vào đó, loại bỏ s1-t2 với tư cách là một cân bằng Nash vững chắc!

Bất cứ nguyên tắc nào được đề xuất cho việc giải quyết các trò chơi mà có tác động loại bỏ một hoặc nhiều cân bằng Nash khỏi sự xem xét thì đều được coi là bộ lọc của cân bằng Nash. Trong trường hợp vừa mới thảo luận thì việc loại bỏ các chiến lược thống trị yếu chính là một bộ lọc khả hữu vì nó lọc đi cân bằng Nash s2-t1, và tương quan là một cân bằng khác, vì thay vào đó nó lọc cân bằng Nash khác s2-t1. Vậy thì bộ lọc nào thích hợp với tư cách là một khái niệm giải pháp? Những ai nghĩ về lý thuyết trò chơi như một lý thuyết định chuẩn và/hoặc giải thích có tính duy lý chiến lược thì đều tạo ra một văn liệu bản chất trong đó những ưu khuyết điểm của một số lượng lớn các bộ lọc đều cần phải bàn thêm. Về nguyên tắc dường như không có giới hạn đối với số bộ lọc là cái có thể được xem xét, vì có thể cũng không có giới hạn về tập trực giác triết học về những nguyên tắc nào mà một tác nhân duy lý có thể hoặc không thể nhận thấy là thích hợp để theo hoặc để e ngại, hoặc hy vọng rằng những người chơi khác đang theo.

Các nhà hành vi luận bảo lưu một quan điểm rất mơ hồ về hành động này. Họ coi công việc của lý thuyết trò chơi là để tiên đoán các kết quả đem đến một sự phân phối nào đó về những sắp xếp chiến lược và một sự phân phối nào đó về những mong muốn liên quan đến những sắp xếp chiến lược của những người khác, là những thứ được tạo nên bởi những quá trình thể chế và/hoặc sự lựa chọn tiến hóa (xem phần 7 để thảo luận thêm). Về quan điểm các cân bằng Nash có thể tồn tại vững chắc trong một trò chơi có thể được xác định bằng những động thái cơ sở là thứ trang bị cho những người chơi với những sắp xếp tiên thiên đối với một trò chơi. Các bản chất chiến lược của người chơi vì vậy được đối xử như một tập đầu vào ngoại sinh cho trò chơi, hệt như những hàm tiện ích vậy. Vì vậy các nhà hành vi luận nghiêng về phía tìm kiếm những bộ lọc chung của bản thân khái niệm cân bằng chí ít cũng đến mức mà những bộ lọc này tham gia vào việc xây dựng mô hình của những thể hiện duy lý tính tinh vi hơn đối với việc kiên định tối đa hóa tiện ích. Các nhà hành vi luận thường nghiêng về phía nghi ngờ rằng mục đích của việc tìm kiếm một lý thuyết tổng quát của tính duy lý tạo nên ý nghĩa như một dự án. Các thể chế và các quá trình tiến hóa xây dựng nhiều môi trường và cái được coi là một thủ tục duy lý trong một môi trường có thể lại không được ưa thích trong một môi trường khác. Tính duy lý kinh tế chỉ đòi hỏi rằng các tác nhân có những sở thích ổn định, tức là những sở thích không ưu tiên a hơn b và b hơn c và c hơn a. Một trong những sự sắp xếp chiến lược lớn tương hợp với yêu cầu tối thiểu này và các quá trình tiến hóa hoặc thể chế có thể tạo ra những trò chơi trong bất cứ quá trình nào của chúng. Về phương diện này thì các cân bằng Nash là một khái niệm cân bằng vững chắc vì nếu những người chơi phát triển những chiến lược trong các môi trường cạnh tranh, là những môi trường mà những ai không thực hiện những chiến lược tối ưu nhất định của những người khác trong môi trường riêng biệt đó sẽ bị bật khỏi quá trình cạnh tranh và sự lựa chọn như vậy cũng sẽ loại bỏ chúng hoặc cổ vũ việc tìm hiểu những sắp xếp mới. Không có nhiều khái niệm duy lý “được lọc” có thể quan niệm là thật nói chung; và vậy là theo các nhà hành vi luận những bộ lọc Nash dựa trên các bộ lọc của tính duy lý cũng có vẻ như thuộc về mối quan tâm tình cờ.

Điều này không có nghĩa là các nhà hành vi luận tuyên bố từ bỏ mọi cách giới hạn các tập cân bằng Nash vào các tập con hợp lý. Đặc biệt họ định thông cảm với những cách tiếp cận thay đổi trung tâm điểm từ bản thân tính duy lý sang những mối quan tâm về các động thái thông tin của các trò chơi. Có lẽ chúng ta không có gì phải ngạc nhiên là phân tích cân bằng Nash tự thân nó thường thất bại không thể nói được gì nhiều cho chúng ta về mối quan tâm đến các trò chơi dạng chiến lược (chẳng hạn Hình. 6 ở trên), trong đó cấu trúc thông tin bị chặn. Những vấn đề lựa chọn cân bằng thường được thể hiện một cách hiệu quả trong bối cảnh các trò chơi dạng mở rộng.

2.6. Tính duy lý đơn nguyên và Sự hoàn hảo của trò chơi phụ

Để làm sâu sắc hơn nữa hiểu biết của chúng ta về các trò chơi dạng mở rộng, chúng ta cần một ví dụ với một cấu trúc thú vị hơn là cái mà trò chơi PD đưa ra. Hãy xem xét trò chơi được mô tả theo hình cây dưới đây:

Hình 9

Trò chơi này không nhằm làm tương hợp với một tình huống bất kỳ tiền nhận thức nào đó; nó đơn giản là một đối tượng toán tìm cách để ứng dụng. (L và R ở đây chỉ xác định “trái” và “phải” tương ứng). Bây giờ chúng ta hãy xem xét dạng chiến lược của trò chơi này:

Hình 10

(Nếu bạn bị bối rối với ma trận này thì chỉ cần nhớ rằng một chiến lược cần phải nói cho người chơi phải làm gì ở mỗi tập thông tin mà trong đó người chơi thực hiện một hành động. Vì mỗi người chơi lựa chọn giữa hai hành động ở hai tập thông tin một, nên tổng cộng mỗi người chơi có 4 chiến lược. Chữ cái thứ nhất trong mỗi thiết kế chiến lược nói với mỗi người chơi cái mà họ phải làm nếu họ có được tập thông tin đầu tiên của mình, thứ hai là cái mà họ phải làm khi họ có được tập thông tin thứ hai. I.e., LR đối với người chơi II nói với II phải chơi L nếu có được tập thông tin 5, và chơi R nếu có được tập thông tin 6). Nếu bạn xem xét kỹ ma trận này bạn sẽ phát hiện ra rằng (LL, RL) là nằm trong số các cân bằng Nash. Trong trường hợp này có một chút rắc rối, bởi vì nếu người chơi I có được tập thông tin (7) trong trò chơi dạng mở rộng thì tôi sẽ khó lòng mà mong muốn chơi L ở đó; người đó thu được một khoản được trả cao hơn bằng cách chơi ở nút 7. Phép phân tích cân bằng Nash duy nhất không lưu ý đến điều này vì cân bằng Nash khuyến khích cái xảy ra bên ngoài đường dẫn của trò chơi. Người chơi I khi chọn L ở nút 4 đảm bảo rằng sẽ tới được nút 7; điều đó có nghĩa là đó là “bên ngoài quĩ đạo chơi”. Tuy nhiên khi phân tích các trò chơi dạng mở rộng chúng ta xem cái gì sẽ xảy ra bên ngoài đường dẫn của trò chơi, vì công việc xem xét này là có tính quyết định đối với cái xảy ra trong đường dẫn của trò chơi. Chẳng hạn sự thật là người chơi I sẽ chơi R nếu tới được nút 7, làm cho người chơi II chơi L nếu đến được nút 6, và đó chính là lý do tại sao người chơi I sẽ không chọn R ở nút 4. Chúng ta đang vứt bỏ lượng thông tin liên quan đến các giải pháp trò chơi nếu chúng ta bỏ qua những sản phẩm bên ngoài đường dẫn khi phân tích cân bằng Nash thuần túy đã làm. Cần lưu ý rằng lý do để nghi ngờ rằng cân bằng Nash không phải là một khái niệm cân bằng tổng thể hoàn toàn thỏa đáng, tự thân đã không liên quan gì đến các trực giác về lý tính như trong trường hợp các khái niệm bộ lọc đã được thảo luận ở phần 2.5.

Giờ đây hãy áp dụng thuật toán Zermelo vào loại hình tăng cường của ví dụ hiện thời của chúng ta. Chúng ta lại bắt đầu với trò chơi phụ cuối cùng, trò chơi đi xuống từ nút 7. Đây là vận động của người chơi I, và người đó chọn R vì thích khoản được trả của mình là 5 so với được trả 4 mà cô/anh ta nhận được bằng cách chơi L. Vì vậy chúng ta chỉ định khoản được trả (5, -1) cho nút 7. Vậy là ở nút 6 người chơi II đối mặt với lựa chọn giữa (-1, 0) và (5, -1). Người đó chọn L. Tại nút 5, người chơi II chọn R. Vậy thì tại nút 4 người chơi I chọn lựa chọn giữa (0, 5) và (-1, 0), và vì vậy mà chơi L. Nên nhớ rằng vì trong trò chơi PD, một kết quả xuất hiện ở một nút đầu cuối – (4, 5) từ nút 7 - đó là cân bằng Pareto cao hơn các cân bằng Nash. Hơn nữa, tuy nhiên, các động thái của trò chơi ngăn cản nó không tới được.

Sự thật là thuật toán Zermelo đã chọn lựa vector chiến lược (LR, RL) như là giải pháp duy nhất cho trò chơi đã cho thấy rằng nó đạt được một cái gì đó khác nữa chứ không phải chỉ là một cân bằng Nash. Trong thực tế thì nó đang tạo ra sự cân bằng hoàn hảo của trò chơi phụ (SPE – supgame perfect equilibrium). Nó đưa đến một kết quả đạt được cân bằng Nash không chỉ trong toàn bộ trò chơi mà còn cả trong mỗi trò chơi phụ nữa. Đây là một khái niệm giải pháp có sức thuyết phục vì không giống với những bộ lọc của phần 2.5, nó không đòi hỏi “nhiều” tính duy lý của các tác nhân, mà đòi hỏi ít hơn. (Tuy nhiên người ta cho rằng những người chơi không chỉ biết mọi thứ về phương diện chiến lược liên quan đến tình trạng của họ, mà còn sử dụng tất cả các thông tin đó; chúng ta phải cẩn thận để không lẫn lộn tính duy lý với khả năng tính toán). Các tác nhân ở mỗi nút chỉ đơn giản lựa chọn đường dẫn nào đem đến cho họ khoản được trả cao nhất trong trò chơi phụ bắt nguồn từ nút đó; và sau đó khi giải quyết cuộc chơi, họ thấy trước rằng họ sẽ thực hiện tất cả những cái đó. Các tác nhân vượt lên theo cách này được gọi là đơn nguyên duy lý, có nghĩa là duy lý ngắn hạn ở mỗi bước. Họ không tự tưởng tượng, bằng một trí tưởng tượng nào đó các quá trình siêu duy lý tính khi tác động trở lại đối với những sở thích cục bộ vì mục đích của một mục tiêu rộng lớn hơn nào đó. Nên nhớ rằng như trong trò chơi PD, điều này có thể dẫn đến các kết quả đáng tiếc về phương diện xã hội. Trong ví dụ hiện thời của chúng ta, người chơi I là tốt hơn, người chơi II không tồi hơn, ở nút bên tay trái xuất phát từ nút 7 so với kết quả ở SPE (cân bằng hoàn hảo của trò chơi phụ). Nhưng tính duy lý rất đơn nguyên của người chơi I và nhận thức của người chơi II về vấn đề đó đã đóng kín kết quả hữu hiệu về phương diện xã hội. Nếu những người chơi của chúng ta muốn làm xuất hiện kết quả có tính cân bằng hơn (4,5) thì họ phải làm như vậy bằng cách tái thiết kế các thể chế của mình sao cho có thể thay đổi được cấu trúc của các trò chơi mà họ thực hiện. Chỉ mong rằng họ có thể là siêu duy lý theo cái cách thức dường như không gắn kết chặt chẽ như một cách tiếp cận.

2.7. Tính chất đạo đức và Hiệu quả trong các Trò chơi

Nhiều người đọc có thể cho rằng kết luận của phần trước đã được thực hiện dựa trên cơ sở không phòng thủ đầy đủ. Chắc chắn là những người chơi có thể chỉ thấy rằng kết quả (4,5) là cao hơn về phương diện xã hội và đạo đức; và vì vậy chúng ta biết họ có thể cũng thấy đường dẫn của các hành động dẫn đến nó, vậy ai là lý thuyết gia trò chơi để tuyên bố về điều đó trong cái trò chơi mà họ đang chơi, nó phải chăng là không đạt được? Thực tế thì việc gợi ý rằng tính siêu duy lý là một ý chí của người chơi là có tính định hướng về phương diện triết học mặc dù nó thực sự là cái mà các nhà hành vi luận về lý thuyết trò chơi tin tưởng. Người đọc nào tìm kiếm một sự biện minh triệt để cho niềm tin này thì đều được qui vào Binmore (1994,1998). Tuy nhiên trước khi chúng ta rời khỏi những vấn đề ở một điểm có tác dụng làm cân bằng (tại đây), chúng ta cần phải cẩn thận để không lẫn lộn cái vấn đề đang còn tranh cãi với những kết quả của một nhầm lẫn kỹ thuật đơn giản. Chúng ta hãy cùng xem lại nan đề người tù. Chúng ta đã thấy rằng trong cân bằng Nash duy nhất về trò chơi PD, cả hai tay chơi đều nhận được ít tiện ích hơn họ có thể nhận được thông qua sự hợp tác chung với nhau. Điều này có thể tác động mạnh đến bạn (hệt như nó đã tác động đến nhiều nhà bình luận) như là một sự éo le. Chắc chắn bạn có thể nghĩ rằng nó đơn giản nảy sinh từ một sự kết hợp của tính ích kỷ và bệnh hoang tưởng về phía những tay chơi. Ngay từ đầu họ đã không quan tâm đến thiện chí về phương diện xã hội và sau đó họ đã tự bắn vào chân mình bằng cách không đáng để tôn trọng các thỏa thuận.

Cách tư duy như vậy đã dẫn đến những hiểu lầm tai hại về lý thuyết trò chơi, và vì vậy những cách hiểu đó phải được loại bỏ. Trước hết chúng tôi xin phép giới thiệu một vài thuật ngữ để nói về các kết quả. Các nhà kinh tế học phúc lợi đo lường một cách điển hình hàng hóa xã hội bằng khuôn khổ hiệu xuất Pareto. Một phân phối tiện ích o thì được gọi là ưu thế Pareto đối với phân phối d chỉ trong trường hợp từ trạng thái d có một tái phân phối tiện ích cho o chẳng hạn như tối thiểu là một tay chơi chơi kém. Thất bại trong việc chuyển thành một tái phân phối ưu thế Pareto là thiếu hiệu quả vì sự tồn tại của o như một khả năng logic chỉ rõ rằng trong d một tiện ích nào đó đang bị bỏ phí. Vậy là kết quả (3,3) thể hiện sự cộng tác chung trong mô hình của chúng ta về trò chơi PD rõ ràng là ưu thế Pareto đối với sự phản bội chung; ở (3,3) cả hai tay chơi đều thành công hơn ở (2,2). Vì vậy sẽ là chân khi trò chơi PDs dẫn đến các kết quả thiếu hiệu quả. Đó cũng là chân đối với ví dụ của chúng ta trong phần 2.6.

Tuy nhiên, tính thiếu hiệu quả không nên đi kèm với tính chất phi đạo đức. Một hàm tiện ích đối với một tay chơi được giả định thể hiện bất cứ cái gì mà tay chơi quan tâm đến, đó có thể là bất cứ thứ gì. Như chúng tôi đã mô tả tình huống hai người tù của chúng ta, họ thực sự chỉ quan tâm đến bản án tù riêng đối với họ, nhưng lại không có cái gì là cốt yếu trong vấn đề này. Cái làm cho một cuộc chơi trở thành một ví dụ về trò chơi PD thì duy nhất chỉ là cấu trúc khoản phải trả của nó. Vì vậy chúng ta có thể có hai kiểu loại Mẹ Theresa ở đây, mà cả hai đều ít quan tâm đến bản thân mình mà chỉ mong được chăm sóc lũ trẻ đói khổ. Nhưng hãy hình dung là Mẹ Theresa thật mong muốn được chăm bọn trẻ ở Calcutta trong khi Mẹ Juanita lại muốn chăm sóc bọn trẻ ở Bogota. Và hãy hình dung là cơ quan trợ giúp quốc tế sẽ tối đa hóa khoản quyên góp của mình nếu hai vị thánh nữ đó nhắm đến cùng một thành phố; sẽ cho một khoản quyên góp cao thứ nhì nếu mỗi người nhắm đến thành phố của người kia; và khoản quyên góp thấp nhất nếu mỗi người đều nhắm đến thành phố riêng của mình. Trong trường hợp này các thánh nữ của chúng ta đang tham gia một trò chơi PD, mặc dù quá vị kỷ hoặc không bận tâm đến vấn đề xã hội.

Quay trở lại với người tù của chúng ta, hãy giả định rằng ngược lại với những định đề của chúng ta họ tạo ra giá trị cho tình trạng hạnh phúc của mỗi người cũng như cho riêng bản thân họ. Trong trường hợp này, điều đó phải được phản ánh trong các hàm tiện ích của họ, và vì vậy mà cả trong khoản nhận được của họ nữa. Nếu cấu trúc khoản nhận được của họ thay đổi thì họ sẽ không còn tham gia trò chơi nữa. Nhưng tất cả những cái đó đều chỉ ra rằng không phải mỗi tình huống khả thể đều là một trò chơi PD; nó không chỉ rõ rằng mối đe dọa của các kết quả thiếu hiệu quả là một sản phẩm đặc biệt của tính vị kỷ. Nó là logic của tình huống người tù chứ không phải là tâm lý của họ, nó đánh bẫy họ trong cái kết quả không hiệu quả, và nếu nó thực sự là tình huống của họ thì họ đang bị mắc kẹt trong đó (trừ những phức tạp hơn sẽ được thảo luận ở dưới đây). Các tác nhân muốn tránh những kết quả không hiệu quả nên ngăn chặn sự xuất hiện của bất cứ trò chơi nào; người phòng vệ của khả năng siêu duy lý thực sự giả định rằng họ cố gắng tự thân phát hiện những trò chơi như vậy bằng cách tự họ biến thành những loại tác nhân khác.

Vậy là nhìn chung một trò chơi được định nghiã một cách cục bộ bằng khoản phải trả được ấn định cho những tay chơi. Nếu một giải pháp được đề xuất liên quan đến sự thay đổi ngầm những khoản phải trả ấy thì “giải pháp” này thực sự là một cách trá hình để thay đổi chủ thể.

2.8. Những bàn tay run

Vấn đề vừa rồi của chúng ta ở trên mở ra cách thức cho một vấn đề rắc rối triết học vẫn cuốn hút sự chú ý đối với các nền tảng logic về lý thuyết trò chơi. Nó có thể được nêu ra liên quan đến bất cứ số lượng ví dụ nào, nhưng chúng ta sẽ mượn một người tao nhã từ C. Bicchieri (1993) đã đưa ra một cách xử lý tăng cường vấn đề được phát hiện trong các văn liệu. Hãy xem xét trò chơi sau:

Hình 11

Kết quả cân bằng Nash ở đây thuộc nút đơn xa nhất bên trái từ nút 8 nghiêng xuống. Hãy xem nút này, lại một qui nạp ngược. Tại nút 10, tay chơi I sẽ đánh L để nhận khoản được trả là 3, cho tay chơi II khoản được trả là 1. Tay chơi II có thể làm tốt hơn bằng cách chơi L ở nút 9, cho tay chơi I khoản nhận được là 0. Có một vấn đề khó xử được Bicchieri nêu lên [cùng các tác giả khác, bao gồm Binmore [1987] và Pettit & Sugden [1989] bằng cách suy luận sau. Tay chơi I có thể làm tốt hơn bằng cách chơi L ở nút 8; vậy thì đó chính là điều mà tay chơi I làm và trò chơi kết thúc mà không có tay chơi II tham gia chơi tiếp. Nhưng lúc này hãy lưu ý đến sự suy lý cần thiết để hỗ trợ cho sự tiên đoán này. Tay chơi I chơi L ở nút 8 vì cô/anh ta biết rằng tay chơi II là người duy lý, và vì vậy sẽ chơi L ở nút 9 vì tay chơi II biết rằng tay chơi I là người duy lý và vì vậy sẽ chơi L ở nút 10. Nhưng chúng ta lại thấy xuất hiện một nghịch lý tiếp theo tay chơi I phải cho rằng tay chơi II ở nút 9 sẽ tiên đoán là việc chơi duy lý của I sẽ ở nút 10 mặc dù đã đến một nút (9) là nút chỉ có thể đến được nếu tay chơi I không duy lý! Nếu tay chơi I không duy lý thì tay chơi II sẽ không được thanh minh bằng cách tiên đoán rằng tay chơi I sẽ không chơi R ở nút 10, trong trường hợp này thì không rõ là tay chơi II sẽ không chơi R ở nút 9; và nếu tay chơi II chơi R ở nút 9 thì tay chơi I sẽ có một khoản nhận được tốt hơn sau đó cô/anh ta nhận được nếu cô/anh ta chơi L ở nút 8. Cả hai tay chơi phải sử dụng lối qui nạp ngược đòi hỏi rằng tay chơi I biết rằng tay chơi II biết tay chơi I là duy lý; nhưng tay chơi II chỉ có thể giải quyết được cuộc chơi bằng cách sử dụng cái lý lẽ qui nạp ngược là cái lấy tính phi lý của tay chơi I làm một tiên đề. Đó chính là nghịch lý của cách qui nạp ngược.

Có một cách chuẩn mực nhất để hiểu được nghịch lý này là viện đến cái gọi là “bàn tay run” theo Selten [1975]. Tư tưởng này cho rằng một quyết định và hành động hợp lý có thể “tách ra” khỏi xác suất phi-zero tuy nhỏ. Thế có nghĩa là một tay chơi có thể muốn thực hiện một hành động nhưng vì mắc lỗi trong khi thực hiện và thay vào đó đã đưa trò chơi xuống theo một đường dẫn nào đó khác. Nếu thậm chí chỉ có một chút khả năng một tay chơi có thể mắc lỗi - đó là “bàn tay” cô/anh ta “có thể run” thì không có mâu thuẫn nào được đưa vào bởi một tay chơi sử dụng một lý lẽ qui nạp ngược yêu cầu một giả định đề rằng một tay chơi khác đã chiếm đường dẫn mà một tay chơi duy lý có thể không lựa chọn. Trong ví dụ của chúng ta tay chơi II có thể suy lý về cái cần làm ở nút 9 phụ thuộc vào định đề cho rằng tay chơi I chọn L ở nút 8, nhưng sau đó đã bị thất bại.

Có một văn liệu kỹ thuật cơ bản về cái nghịch lý qui nạp ngược đó mà nguồn tổng hợp có thể tìm được ở Bicchieri (1993). (Cần lưu ý là Bicchieri không tán thành viện lẽ vào những bàn tay run như một giải pháp thích hợp. Tuy nhiên việc thảo luận về đề xuất riêng của bà ở đây có lẽ đã làm cho chúng ta đi quá xa vào những tính chất kỹ thuật. Người đọc nào chú ý nên nghiên cứu cuốn sách của bà). Thách đố được giới thiệu ở đây chỉ để xác định rằng những bộ lọc thuộc loại đã được thảo luận trong phần 2.6 có thể được cổ vũ nhiều hơn là những trực giác thuần túy về khái niệm tính duy lý. Vì nếu những bàn tay có thể run thì những người chơi thuần túy duy lý sẽ có động cơ để lo lắng về những xác xuất mà với nó những xuất phát điểm hiển nhiên từ trò chơi duy lý sẽ được nhận thấy. Chẳng hạn nếu bàn tay đối thủ của tôi có thể run, thì bàn tay ấy sẽ cho tôi lý do chính đáng để tránh cái chiến lược thống trị yếu s2 trong ví dụ thứ ba của phần 2.5. Hơn nữa đối thủ của tôi có thể cam kết chơi t1 trong trò chơi đó và tôi có thể tin vào lời hứa của anh ta. Nhưng nếu bàn tay của anh ta sau đó cũng run và kết quả là anh ta sẽ chơi t2, thì tôi phải nhận một khoản nhận được tồi nhất. Nếu tôi đảo ngược rủi ro thì trong tình huống như vậy dường như tôi có thể gắn với những chiến lược thống trị yếu.

Nghịch lý qui nạp ngược, giống như những câu đố đưa ra bởi bộ lọc cân bằng chủ yếu là một vấn đề cho những ai coi lý thuyết trò chơi như một đóng góp cho một lý thuyết định chuẩn của tính duy lý (đặc biệt là đóng góp cho lý thuyết lớn, lý thuyết duy lý chiến lược). Nhà hành vi luận có thể đưa ra một loại lý giải khác về lối chơi rõ ràng là phi lý và sự thận trọng mà nó cổ vũ. Điều này liên quan đến việc viện vào một sự kiện kinh nghiệm chủ nghĩa là các tác nhân thực sự gồm cả những con người phải học những chiến lược cân bằng của các trò chơi mà họ tham gia, chí ít là bất cứ khi nào những trò chơi đó rơi vào hoàn cảnh hoàn toàn phức tạp. Công việc nghiên cứu đã chỉ ra rằng ngay cả một trò chơi đơn giản như trò Nan đề Người tù cũng đòi hỏi người ta phải học [Ledyard 1995, Sally 1995, Camerer 2003, tr.265]. Ý nghĩa của việc nói rằng con người cần phải học những chiến lược cân bằng là ở chỗ chúng ta phải có đôi chút phức tạp hơn là cái đã được chỉ ra ở phần trước trong việc tạo ra các hàm tiện ích từ hành vi trong việc áp dụng Lý thuyết Bộc lộ Sở thích (Revealed Preference Theory). Thay cho việc cấu tạo các hàm tiện ích dựa trên cơ sở những tình tiết đơn, chúng ta phải làm như vậy trên cơ sở của những hành vi quan sát được khi nó đã ổn định, bằng cách biểu thị độ chín của việc học đối với các chủ thể được đặt vấn đề và cái trò chơi được đặt vấn đề. Một lần nữa cần phải nói rằng Nan đề Người tù cho ta một ví dụ rất tốt. Mọi người đều phải đối mặt với một số Nan đề Người tù chí ít là một lần trong cuộc sống hàng ngày, nhưng họ phải đối mặt với nhiều trò chơi PD lặp đi lặp lại với những người không xa lạ. Kết quả là khi bắt đầu cái định làm như một trò chơi PD một lần duy nhất trong đời trong phòng thực nghiệm ngay từ đầu người ta đã có ý định chơi cứ như là trò chơi ấy là một vòng đơn của một trò chơi PD lặp đi lặp lại. Trò PD lặp đi lặp lại đó có nhiều cân bằng Nash là cái liên quan đến sự hợp tác hơn là đảo ngũ. Vì vậy các chủ thể kinh nghiệm có ý định hợp tác đầu tiên trong các hoàn cảnh này, nhưng lại học sau khi một số vòng chơi bị thất bại. Người thực nghiệm có thể suy luận rằng cô ta đã qui nạp một cách thành công một cuộc chơi PD một lần duy nhất với cơ cấu thực nghiệm cho đến khi cô ta thấy hành vi này đã ổn định. (Như đã lưu ý ở phần 2.7 ở trên, nếu nó không ổn định như vậy thì cô ta phải suy luận rằng cô ta đã thất bại trong việc qui nạp trò chơi PD một lần duy nhất và các chủ thể của cô ta đang chơi một trò chơi nào đó khác).

Nghịch lý qui nạp ngược giờ đây đã bị hủy bỏ. Trừ khi các tay chơi đã trải nghiệm lối chơi cân bằng với một tay chơi khác trong quá khứ, ngay cả khi tất cả họ đều duy lý và tất cả đều tin tưởng nhau thì chúng ta sẽ tiên đoán rằng họ sẽ gắn một xác suất dương nào đó vào việc phỏng đoán rằng các bên tương tác đã không tìm hiểu để biết được toàn bộ các cân bằng. Vậy là điều này lý giải tạo sao các tác nhân duy lý trừ khi họ thích mạo hiểm, lại có thể chơi cứ như là họ tin vào những bàn tay run vậy.

Việc tìm hiểu các cân bằng bởi các tác nhân duy lý có thể có nhiều dạng khác nhau đối với những tác nhân khác nhau và đối với những trò chơi ở những cấp độ phức tạp và rủi ro khác nhau. Vì vậy việc tích hợp nó vào các mô hình lý thuyết trò chơi của các tương tác sẽ giới thiệu một tập kỹ thuật tính mở rộng mới. Vì lý thuyết tổng quát này đã được phát triển đầy đủ nhất nên người đọc có thể tham khảo [Fudenberg and Levine 1998].

Còn nữa…

Tác giả: Don Ross là Giáo sư Triết học tại Đại học Alabama ở Birmingham, Giáo sư Kinh tế học tại Đại học Cape Town, Nam Phi. Công trình chủ yếu: Economic Theory and Cognitive Science: Microexplanation (MIT Press, 2005).

Nguyên văn: Game Theory, The Stanford Encyclopedia of Philosophy (Fall 2010 Edition), Edward N. Zalta (ed.), First published Sat Jan 25, 1997; substantive revision Wed May 5, 2010

Tài liệu dẫn

Baird, D., Gertner, R., and Picker, R. (1994). Game Theory and the Law. Cambridge, MA: Harvard University Press.

Binmore, K., Kirman, A., and Tani, P. (eds.) (1993). Frontiers of Game Theory. Cambridge, MA: MIT Press

Binmore, K. (1998). Game Theory and the Social Contract (v. 2): Just Playing. Cambridge, MA: MIT Press.

Camerer, C. (2003). Behavioral Game Theory: Experiments in Strategic Interaction. Princeton: Princeton University Press.

Danielson, P. (ed.) (1998). Modelling Rationality, Morality and Evolution. Oxford: Oxford University Press.

Fudenberg, D., and Levine, D. (1998). The Theory of Learning in Games. Cambridge, MA: MIT Press.

Fudenberg, D., and Tirole, J. (1991). Game Theory. Cambridge, MA: MIT Press.

Gintis, H. (2004). Towards the Unity of the Human Behavioral Sciences. In Philosophy, Politics and Economics 31:37-57.

Guala, F. (2005). The Methodology of Experimental Economics. Cambridge: Cambridge University Press.

Hofbauer, J., and Sigmund, K. (1998). Evolutionary Games and Population Dynamics. Cambridge: Cambridge University Press.

Krebs, J., and Davies, N.(1984). Behavioral Ecology: An Evolutionary Approach. Second edition. Sunderland: Sinauer.

Kreps, D. (1990). A Course in Microeconomic Theory. Princeton: Princeton University Press.

Maynard Smith, J. (1982). Evolution and the Theory of Games. Cambridge: Cambridge University Press.

McMillan, J. (1991). Games, Strategies and Managers. Oxford: Oxford University Press.

Nash, J. (1950a). Equilibrium Points in n-Person Games. In PNAS 36:48-49.

Nash, J. (1950b). The Bargaining Problem. In Econometrica 18:155-162.

Nash, J. (1951). Non-cooperative Games. In Annals of Mathematics Journal 54:286-295.

Ormerod, P. (1994). The Death of Economics. New York: Wiley.

Rawls, J. (1971). A Theory of Justice. Cambridge, MA: Harvard University Press.

Robbins, L. (1931). An Essay on the Nature and Significance of Economic Science. London: Macmillan.

Ross, D. 2005. Evolutionary Game Theory and the Normative Theory of Institutional Design: Binmore and Behavioral Economics. In Politics, Philosophy and Economics, forthcoming.

Ross, D., and LaCasse, C. (1995). Towards a New Philosophy of Positive Economics. In Dialogue 34: 467-493.

Samuelson, L. (1997). Evolutionary Games and Equilibrium Selection. Cambridge, MA: MIT Press.

Samuelson, L. (2005). Economic Theory and Experimental Economics. In Journal of Economic Literature 43:65-107.

Samuelson, P. (1938). A Note on the Pure Theory of Consumers' Behaviour. In Econimica 5:61-71.

Selten, R. (1975). Re-examination of the Perfectness Concept for Equilibrium Points in Extensive Games. In International Journal of Game Theory 4:22-55.

Sigmund, K. (1993). Games of Life. Oxford: Oxford University Press.

Smith, V. (1982). Microeconomic Systems as an Experimental Science. In American Economic Review 72:923-955.

Sober, E., and Wilson, D.S. (1998). Unto Others. Cambridge, MA: Harvard University Press.

Tomasello, M., M. Carpenter, J. Call, T. Behne and H. Moll (2004). Understanding and Sharing Intentions: The Origins of Cultural Cognition. In Behavioral and Brain Sciences, forthcoming.

Vallentyne, P. (ed.). (1991). Contractarianism and Rational Choice. Cambridge: Cambridge University Press.

von Neumann, J., and Morgenstern, O., (1947). The Theory of Games and Economic Behavior. Princeton: Princeton University Press, 2nd edition.

Weibull, J. (1995). Evolutionary Game Theory. Cambridge, MA: MIT Press.

Yaari, M. (1987). The Dual Theory of Choice Under Risk. In Econometrica 55:95-115.

Young, H.P. (1998). Individual Strategy and Social Structure. Princeton: Princeton University Press.

Tiếng vọng KATTIGARA

Thứ Sáu, 4 tháng 5, 2012

Lý thuyết Trò chơi (III)

Không có nhận xét nào:

Đăng nhận xét