Don Ross
Người dịch Hà Hữu Nga
2.5. Các khái niệm giải pháp và
những cân bằng
Trong nan đề người tù, các kết quả mà chúng ta thể hiện là (2,2) bằng
cách chỉ ra sự đào ngũ chung thì được coi là giải pháp của trò chơi. Đi theo
các thực tiễn chung trong kinh tế học, các lý thuyết gia trò chơi đã coi các
giải pháp trò chơi là những cân bằng.
Những người đọc có tư duy triết học sẽ muốn đưa ra một vấn đề khái niệm ngay
trong trường hợp này: cái gì “được cân bằng” đối với một số kết quả trò chơi
như cái mà chúng ta đang có động cơ để gọi chúng là “các giải pháp”? Khi chúng
ta nói rằng một hệ thống vật chất nằm trong sự cân bằng thì có nghĩa là chúng
ta muốn nói rằng nó đang ở trong trạng thái bền vững, đó là một trạng thái mà
toàn bộ các lực nhân quả bên trong hệ thống cân bằng với bên ngoài và vì vậy mà
để nó ở trạng thái “nghỉ” cho đến khi và trừ khi nó bị xáo trộn bởi sự can
thiệp của một lực lượng ngoại sinh nào đó. Đó chính là cái mà các nhà kinh tế
quan niệm một cách truyền thống là “cân bằng”; họ đọc các hệ thống kinh tế như
là các mạng lưới của những mối quan hệ nhân quả, giống hệt như các hệ thống vật
chất và các cân bằng của những hệ thống như vậy chính là những trạng thái bền
vững nội sinh. Như chúng ta sẽ thấy sau khi thảo luận về lý thuyết trò chơi
tiến hóa trong phần sau thì chúng ta có thể bảo lưu một cách hiểu như vậy về sự
cân bằng trong trường hợp lý thuyết trò chơi. Tuy nhiên như chúng ta đã lưu ý ở
phần 2.1, một số người đã giải thích lý thuyết trò chơi là một lý thuyết diễn
giải về sự suy lý chiến lược. Đối với họ, một giải pháp cho một trò chơi phải
là một kết quả mà một tác nhân duy lý phải tiên đoán được bằng cách sử dụng duy nhất các cơ chế tính toán duy lý.
Các lý thuyết gia như vậy phải đối mặt với một số mắc míu về những khái niệm
giải pháp không phải là quá quan trọng đối với những người hành vi luận. Chúng
ta sẽ xem xét những mắc míu như vậy và những giải pháp khả thể trong suốt cả
phần còn lại của bài viết này.
Sẽ là hữu dụng để bắt đầu cuộc thảo luận từ trường hợp PD [Nan đề người
tù], vì nó đơn giản đến mức bất ngờ nếu xem xét từ quan điểm của những rắc rối
này. Cái mà chúng ta coi như là giải pháp của nó chính là cân bằng Nash của trò chơi. (Từ Nash ở đây chính là John Nash, nhà
toán học được giải Nobel trong Nash 1950 đã mở rộng nhất và khái quát hóa công
trình tiên phong của von Newmann và Morgenstern). Cân bằng Nash từ đây gọi là
NE được áp dụng (hoặc thất bại trong khi áp dụng vào toàn bộ các tập chiến
lược, mỗi tập cho một người chơi trong một trò chơi. Một tập chiến lược là một
cân bằng Nash chỉ trong trường hợp không người chơi nào có thể cải thiện được
khoản phải trả của họ, những chiến lược nhất định của tất cả những người chơi
khác trong trò chơi bằng cách thay đổi chiến lược của người chơi. Hãy lưu ý xem
tư trưởng này gắn liền với tư tưởng về sự thống trị nghiêm nhặt đến mức nào:
không chiến lược nào có thể là chiến lược cân bằng Nash nếu nó bị thống trị một
cách nghiêm nhặt. Vì vậy nếu việc loại bỏ lặp lại những những chiến lược thống
trị nghiêm nhặt đưa chúng ta đến với một kết quả duy nhất thì chúng ta biết
rằng chúng ta đã phát hiện ra cái cân bằng Nash duy nhất của trò chơi đó. Giờ
đây hầu hết các lý thuyết gia đều đồng ý rằng việc tránh những chiến lược thống
trị nghiêm nhặt là một yêu cầu tối thiểu
của tính duy lý. Điều này ám chỉ rằng nếu một trò chơi có một kết quả là một
cân bằng Nash duy nhất như trong trường hợp cùng nhận tội trong trò chơi PD,
thì nó phải là một giải pháp duy nhất của nó. Đây là một trong những khía cạnh
quan trọng nhất trong đó trò chơi PD là một trò chơi “dễ” (và phi điển hình).
Chúng ta có
thể xác định một lớp các trò chơi trong đó cân bằng Nash luôn luôn không chỉ
cần mà còn đủ như là một khái niệm giải pháp. Đây là những trò chơi thuộc loại
thông tin hoàn hảo hữu hạn; đó cũng là loại tổng bằng không (zero-sum). Trò chơi zero-sum (trong
trường hợp một trò chơi chỉ có hai người chơi) là một trò chơi mà trong đó một
người chơi chỉ có thể cải thiện lối chơi bằng cách làm cho người chơi khác chơi
tồi hơn. Tic-tac-toe là một ví dụ giảm đơn về một trò chơi như vậy: bất cứ vận
động nào đưa tôi đến gần với chiến thắng thì cũng đưa bạn gần đến với chiến
bại, và ngược lại). Chúng ta có thể xác định xem một trò chơi có phải là một
trò zero-sum không bằng cách xác định các hàm tiện ích của người chơi: trong
trò chơi zero-sum các hàm này sẽ là những hình ảnh gương của một hàm khác,
những kết quả ở thứ hạng cao của một người chơi lại là thứ hạng thấp đối với
người kia và ngược lại. Trong một trò chơi như vậy, nếu tôi đang chơi một chiến
lược như một chiến lược nhất định của bạn, tôi không thể làm được bất cứ điều
gì tốt hơn, và nếu bạn cũng đang chơi một chiến lược như vậy thì vì bất cứ sự
thay đổi chiến lược nào của tôi cũng sẽ phải làm cho bạn chơi tồi đi và ngược
lại, kết quả là cuộc chơi của tôi có thể không có được giải pháp tương hợp với
tính duy lý chung trừ tính cân bằng Nash duy nhất của nó. Chúng ta có thể đưa
ra một tình huống khác: trong một trò chơi zero-sum tôi chơi một chiến lược mà
chiến lược đó tối đa hóa cái khoản phải trả tối thiểu của tôi nếu bạn chơi tốt
hết sức và hành động của bạn đồng thời làm nên cùng một kết quả, thì nó thực sự
tương đương với toàn bộ chiến lược chơi
tốt nhất của chúng ta, vì vậy cặp thủ tục “tối đa hóa” này được đảm bảo để phát
hiện ra giải pháp duy nhất đối với trò chơi, đó là tính cân bằng Nash duy nhất
của nó. (Trong trò chơi Tic-tac-toe thì như vậy là hòa. Bạn không thể làm gì
tốt hơn hòa, cả tôi cũng không thể làm gì hơn, nếu cả hai chúng ta đều cố gắng
chiến thắng và cố gắng để không bị thua).
Tuy nhiên
hầu hết các trò chơi đều không có thuộc tính này. Trong một bài viết như thế
này chúng ta không thể kê ra tất cả
những cách thức mà các trò chơi có thể có vấn đề từ quan điểm của những giải
pháp khả thể. (Có một vấn đề rất khác, đó là các lý thuyết gia đã phát hiện
được toàn bộ những vấn đề khả thể!). Tuy nhiên, chúng ta cố gắng khái quát hóa
các vấn đề một chút.
Trước tiên
có một vấn đề là trong hầu hết các trò chơi phi-zero-sum số cân bằng Nash lớn
hơn một, nhưng không phải tất cả mọi cân bằng Nash đều có vẻ hợp lý như những
giải pháp mà các tay chơi duy lý sẽ chạm phải về phương diện chiến lược. Hãy
xem xét trò chơi dạng chiến lược dưới đây (lấy ra từ Kreps 1990, trang 403):
Hình 6
Trò chơi này
có hai cân bằng Nash: s1-t1 và s2-t2. (Lưu ý rằng không phải các hàng và cột
thống trị một cách nghiêm nhặt ở đây. Nhưng nếu người chơi I đang chơi s1 thì
người chơi II có thể thực hiện không tốt hơn t1, và ngược lại; và tương tự như
vậy đối với cặp s2-t2). Nếu cân bằng Nash là khái niệm giải pháp duy nhất của
chúng ta thì chúng ta buộc phải nói rằng cả những kết quả này cũng có sức
thuyết phục như một giải pháp vậy. Tuy nhiên nếu lý thuyết trò chơi được coi là
một lý thuyết giải thích và/hoặc định chuẩn về sự suy lý chiến lược thì điều đó
hình như là bỏ quên một cái gì đó: những người chơi duy lý chắc chắn có thông
tin hoàn hảo sẽ hội tụ vào s1-t1? (Xin lưu ý rằng điều này không giống với tình huống trong trò chơi PD, trong đó tình huống
cao hơn về phương diện xã hội là không thể đạt được vì đó không phải là một cân
bằng Nash. Trong trường hợp trò chơi ở trên cả hai người chơi, mỗi người đều có
một lý do để cố gắng hội tụ vào cân bằng Nash trong đó họ là những người chơi
tốt hơn).
Điều này
minh họa cho một sự thật là cân bằng Nash là một khái niệm giải pháp tương đối yếu (về mặt logic) thường không dự đoán
trước được các giải pháp nhạy cảm về mặt trực giác vì nếu được áp dụng đơn độc
thì nó sẽ không cho phép những người chơi sử dụng các nguyên tắc của lựa chọn
cân bằng mà sự lựa chọn đó nếu không được
yêu cầu bằng tính duy lý thì ít nhất cũng không phải là phi lý. Hãy xem xét một ví dụ khác của
Kreps (1990, trang 397):
Hình 7
Trong trường
hợp này không có chiến lược nào thống trị nghiêm nhặt một chiến lược khác. Tuy
nhiên, hàng trên cùng của người chơi I, s1, thống trị yếu s2, vì người chơi I ít nhất cũng sử dụng s1 làm s2 vì bất cứ
một phản ứng nào bởi người chơi số II, và về một phản ứng của người chơi số II
(t2), thì số I thực hiện tốt hơn. Vì vậy phải chăng cả những người chơi lẫn
người phân tích đều không nên xóa đi hàng số s2 bị thống trị yếu? Khi họ làm
như vậy thì cột t1 được thống trị nghiêm nhặt, và cân bằng Nash s1-t2 được chọn
là giải pháp duy nhất.
Tuy nhiên
như Kreps đã tiếp tục chỉ rõ việc sử dụng ví dụ này, thì cái ý tưởng là các
chiến lược thống trị nên được loại bỏ hệt như là những chiến lược nghiêm nhặt
có những kết quả bổ sung. Hãy giả định chúng ta thay đổi các khoản phải trả của
trò chơi chỉ một chút thôi như sau:
Hình 8
s2 vẫn bị
thống trị yếu như trước; nhưng thuộc về 2 cân bằng Nash của chúng ta, s2 – t1
giờ đây là hấp dẫn nhất đối với cả hai người chơi; vậy thì tại sao các nhà phân
tích lại muốn loại bỏ khả năng của nó? (Lưu ý rằng trò chơi này không sao chép
lại logic của trò PD. Tại đó nó tạo ra ý nghĩa để loại bỏ cái kết quả hấp dẫn
nhất, việc cùng từ chối nhận tội, vì cả hai người chơi đều có động cơ để đơn
phương đi chệch hướng khỏi nó, vì vậy đó không phải là một cân bằng Nash. Đó
không thực sự thuộc về s2-t1 của trò chơi này. Bạn nên bắt đầu nhận ra một cách
rõ ràng tại sao chúng tôi lại gọi trò chơi PD là “không điển hình”). Lý lẽ cho
việc loại bỏ các chiến lược thống trị yếu là ở chỗ người chơi I có thể nóng vội
khi sợ rằng người chơi II không hoàn toàn chắc
chắn là duy lý (hoặc người chơi II sợ rằng người chơi I không hoàn toàn duy
lý, và cứ như thế cho đến vô cùng) và vì vậy có thể chơi t2 bằng một xác suất
dương. Nếu khả năng xuất phát điểm từ tính duy lý được thực hiện một cách
nghiêm nhặt thì chúng ta có một lý lẽ về việc loại bỏ các chiến lược thống trị
yếu: vì vậy người chơi I tự đảm bảo cho cái kết quả thấp nhất của mình, s2-t2.
Tất nhiên người đó phải trả giá cho sự đảm bảo này, bằng cách giảm khoản nhận
được mong muốn từ 10 xuống 5. Một mặt chúng ta có thể hình dung rằng những
người chơi có thể giao tiếp với nhau trước khi chơi, và đồng ý chơi các chiến
lược tương quan sao cho có thể điều phối được s2-t1 bằng cách loại bỏ một số,
hầu hết hoặc toàn bộ tính chất không chắc chắn nào tạo điều kiện cho việc loại
bỏ hàng thống trị yếu s1, và thay vào đó, loại bỏ s1-t2 với tư cách là một cân
bằng Nash vững chắc!
Bất cứ
nguyên tắc nào được đề xuất cho việc giải quyết các trò chơi mà có tác động
loại bỏ một hoặc nhiều cân bằng Nash khỏi sự xem xét thì đều được coi là bộ lọc
của cân bằng Nash. Trong trường hợp vừa mới thảo luận thì việc loại bỏ các
chiến lược thống trị yếu chính là một bộ lọc khả hữu vì nó lọc đi cân bằng Nash
s2-t1, và tương quan là một cân bằng khác, vì thay vào đó nó lọc cân bằng Nash
khác s2-t1. Vậy thì bộ lọc nào thích hợp với tư cách là một khái niệm giải
pháp? Những ai nghĩ về lý thuyết trò chơi như một lý thuyết định chuẩn và/hoặc
giải thích có tính duy lý chiến lược thì đều tạo ra một văn liệu bản chất trong
đó những ưu khuyết điểm của một số lượng lớn các bộ lọc đều cần phải bàn thêm.
Về nguyên tắc dường như không có giới hạn đối với số bộ lọc là cái có thể được
xem xét, vì có thể cũng không có giới hạn về tập trực giác triết học về những
nguyên tắc nào mà một tác nhân duy lý có thể hoặc không thể nhận thấy là thích
hợp để theo hoặc để e ngại, hoặc hy vọng rằng những người chơi khác đang theo.
Các nhà hành
vi luận bảo lưu một quan điểm rất mơ hồ về hành động này. Họ coi công việc của
lý thuyết trò chơi là để tiên đoán các kết quả đem đến một sự phân phối nào đó
về những sắp xếp chiến lược và một sự phân phối nào đó về những mong muốn liên
quan đến những sắp xếp chiến lược của những người khác, là những thứ được tạo
nên bởi những quá trình thể chế và/hoặc sự lựa chọn tiến hóa (xem phần 7 để
thảo luận thêm). Về quan điểm các cân bằng Nash có thể tồn tại vững chắc trong
một trò chơi có thể được xác định bằng những động thái cơ sở là thứ trang bị
cho những người chơi với những sắp xếp tiên thiên đối với một trò chơi. Các bản
chất chiến lược của người chơi vì vậy được đối xử như một tập đầu vào ngoại
sinh cho trò chơi, hệt như những hàm tiện ích vậy. Vì vậy các nhà hành vi luận
nghiêng về phía tìm kiếm những bộ lọc chung của bản thân khái niệm cân bằng chí
ít cũng đến mức mà những bộ lọc này tham gia vào việc xây dựng mô hình của
những thể hiện duy lý tính tinh vi hơn
đối với việc kiên định tối đa hóa tiện ích. Các nhà hành vi luận thường nghiêng
về phía nghi ngờ rằng mục đích của việc tìm kiếm một lý thuyết tổng quát của tính duy lý tạo nên ý
nghĩa như một dự án. Các thể chế và các quá trình tiến hóa xây dựng nhiều môi
trường và cái được coi là một thủ tục duy lý trong một môi trường có thể lại
không được ưa thích trong một môi trường khác. Tính duy lý kinh tế chỉ đòi hỏi
rằng các tác nhân có những sở thích ổn định, tức là những sở thích không ưu
tiên a hơn b và b hơn c và c
hơn a. Một trong những sự sắp xếp
chiến lược lớn tương hợp với yêu cầu tối thiểu này và các quá trình tiến hóa
hoặc thể chế có thể tạo ra những trò chơi trong bất cứ quá trình nào của chúng.
Về phương diện này thì các cân bằng Nash là một khái niệm cân bằng vững chắc vì
nếu những người chơi phát triển những chiến lược trong các môi trường cạnh
tranh, là những môi trường mà những ai không thực hiện những chiến lược tối ưu
nhất định của những người khác trong môi
trường riêng biệt đó sẽ bị bật khỏi quá trình cạnh tranh và sự lựa chọn như
vậy cũng sẽ loại bỏ chúng hoặc cổ vũ việc tìm hiểu những sắp xếp mới. Không có
nhiều khái niệm duy lý “được lọc” có thể quan niệm là thật nói chung; và vậy là theo các nhà hành vi luận những bộ lọc Nash
dựa trên các bộ lọc của tính duy lý cũng có vẻ như thuộc về mối quan tâm tình
cờ.
Điều này
không có nghĩa là các nhà hành vi luận tuyên bố từ bỏ mọi cách giới hạn các tập
cân bằng Nash vào các tập con hợp lý. Đặc biệt họ định thông cảm với những cách
tiếp cận thay đổi trung tâm điểm từ bản thân tính duy lý sang những mối quan
tâm về các động thái thông tin của các trò chơi. Có lẽ chúng ta không có gì
phải ngạc nhiên là phân tích cân bằng Nash tự thân nó thường thất bại không thể
nói được gì nhiều cho chúng ta về mối quan tâm đến các trò chơi dạng chiến lược
(chẳng hạn Hình. 6 ở trên), trong đó cấu trúc thông tin bị chặn. Những vấn đề
lựa chọn cân bằng thường được thể hiện một cách hiệu quả trong bối cảnh các trò
chơi dạng mở rộng.
2.6. Tính duy lý đơn nguyên và Sự
hoàn hảo của trò chơi phụ
Để làm sâu sắc hơn nữa hiểu biết của chúng ta về các trò chơi dạng mở
rộng, chúng ta cần một ví dụ với một cấu trúc thú vị hơn là cái mà trò chơi PD
đưa ra. Hãy xem xét
trò chơi được mô tả theo hình cây dưới đây:
Hình 9
Trò chơi này không nhằm làm tương hợp với một tình huống bất kỳ tiền nhận
thức nào đó; nó đơn giản là một đối tượng toán tìm cách để ứng dụng. (L và R ở
đây chỉ xác định “trái” và “phải” tương ứng). Bây giờ chúng ta hãy xem xét dạng chiến lược của trò chơi này:
Hình 10
(Nếu bạn bị
bối rối với ma trận này thì chỉ cần nhớ rằng một chiến lược cần phải nói cho
người chơi phải làm gì ở mỗi tập
thông tin mà trong đó người chơi thực hiện một hành động. Vì mỗi người chơi lựa
chọn giữa hai hành động ở hai tập thông tin một, nên tổng cộng mỗi người chơi
có 4 chiến lược. Chữ cái thứ nhất trong mỗi thiết kế chiến lược nói với mỗi
người chơi cái mà họ phải làm nếu họ có được tập thông tin đầu tiên của mình,
thứ hai là cái mà họ phải làm khi họ có được tập thông tin thứ hai. I.e., LR
đối với người chơi II nói với II phải chơi L nếu có được tập thông tin 5, và
chơi R nếu có được tập thông tin 6). Nếu bạn xem xét kỹ ma trận này bạn sẽ phát
hiện ra rằng (LL, RL) là nằm trong số các cân bằng Nash. Trong trường hợp này
có một chút rắc rối, bởi vì nếu người chơi I có được tập thông tin (7) trong
trò chơi dạng mở rộng thì tôi sẽ khó lòng mà mong muốn chơi L ở đó; người đó
thu được một khoản được trả cao hơn bằng cách chơi ở nút 7. Phép phân tích cân
bằng Nash duy nhất không lưu ý đến điều này vì cân bằng Nash khuyến khích cái
xảy ra bên ngoài đường dẫn của trò chơi.
Người chơi I khi chọn L ở nút 4 đảm bảo rằng sẽ tới được nút 7; điều đó có
nghĩa là đó là “bên ngoài quĩ đạo chơi”. Tuy nhiên khi phân tích các trò chơi
dạng mở rộng chúng ta xem cái gì sẽ
xảy ra bên ngoài đường dẫn của trò chơi, vì công việc xem xét này là có tính
quyết định đối với cái xảy ra trong đường dẫn của trò chơi. Chẳng hạn sự thật
là người chơi I sẽ chơi R nếu tới được nút 7, làm cho người chơi II chơi L nếu
đến được nút 6, và đó chính là lý do tại sao người chơi I sẽ không chọn R ở nút
4. Chúng ta đang vứt bỏ lượng thông tin liên quan đến các giải pháp trò chơi
nếu chúng ta bỏ qua những sản phẩm bên ngoài đường dẫn khi phân tích cân bằng
Nash thuần túy đã làm. Cần lưu ý rằng lý do để nghi ngờ rằng cân bằng Nash
không phải là một khái niệm cân bằng tổng thể hoàn toàn thỏa đáng, tự thân đã
không liên quan gì đến các trực giác về lý tính như trong trường hợp các khái
niệm bộ lọc đã được thảo luận ở phần 2.5.
Giờ đây hãy
áp dụng thuật toán Zermelo vào loại hình tăng cường của ví dụ hiện thời của
chúng ta. Chúng ta lại bắt đầu với trò chơi phụ cuối cùng, trò chơi đi xuống từ
nút 7. Đây là vận động của người chơi I, và người đó chọn R vì thích khoản được
trả của mình là 5 so với được trả 4 mà cô/anh ta nhận được bằng cách chơi L. Vì
vậy chúng ta chỉ định khoản được trả (5, -1) cho nút 7. Vậy là ở nút 6 người
chơi II đối mặt với lựa chọn giữa (-1, 0) và (5, -1). Người đó chọn L. Tại nút
5, người chơi II chọn R. Vậy thì tại nút 4 người chơi I chọn lựa chọn giữa (0,
5) và (-1, 0), và vì vậy mà chơi L. Nên nhớ rằng vì trong trò chơi PD, một kết
quả xuất hiện ở một nút đầu cuối – (4, 5) từ nút 7 - đó là cân bằng Pareto cao
hơn các cân bằng Nash. Hơn nữa, tuy nhiên, các động thái của trò chơi ngăn cản
nó không tới được.
Sự thật là
thuật toán Zermelo đã chọn lựa vector chiến lược (LR, RL) như là giải pháp duy
nhất cho trò chơi đã cho thấy rằng nó đạt được một cái gì đó khác nữa chứ không
phải chỉ là một cân bằng Nash. Trong thực tế thì nó đang tạo ra sự cân bằng
hoàn hảo của trò chơi phụ (SPE – supgame
perfect equilibrium). Nó đưa đến một kết quả đạt được cân bằng Nash không
chỉ trong toàn bộ trò chơi mà còn cả trong mỗi trò chơi phụ nữa. Đây là một
khái niệm giải pháp có sức thuyết phục vì không giống với những bộ lọc của phần
2.5, nó không đòi hỏi “nhiều” tính duy lý của các tác nhân, mà đòi hỏi ít hơn. (Tuy nhiên người ta cho rằng
những người chơi không chỉ biết mọi thứ về phương diện chiến lược liên quan đến
tình trạng của họ, mà còn sử dụng tất
cả các thông tin đó; chúng ta phải cẩn thận để không lẫn lộn tính duy lý với
khả năng tính toán). Các tác nhân ở mỗi nút chỉ đơn giản lựa chọn đường dẫn nào
đem đến cho họ khoản được trả cao nhất trong
trò chơi phụ bắt nguồn từ nút đó; và sau đó khi giải quyết cuộc chơi, họ
thấy trước rằng họ sẽ thực hiện tất cả những cái đó. Các tác nhân vượt lên theo
cách này được gọi là đơn nguyên duy lý,
có nghĩa là duy lý ngắn hạn ở mỗi bước. Họ không tự tưởng tượng, bằng một trí
tưởng tượng nào đó các quá trình siêu duy lý tính khi tác động trở lại đối với
những sở thích cục bộ vì mục đích của một mục tiêu rộng lớn hơn nào đó. Nên nhớ
rằng như trong trò chơi PD, điều này có thể dẫn đến các kết quả đáng tiếc về
phương diện xã hội. Trong ví dụ hiện thời của chúng ta, người chơi I là tốt
hơn, người chơi II không tồi hơn, ở nút bên tay trái xuất phát từ nút 7 so với
kết quả ở SPE (cân bằng hoàn hảo của trò chơi phụ). Nhưng tính duy lý rất đơn
nguyên của người chơi I và nhận thức của người chơi II về vấn đề đó đã đóng kín
kết quả hữu hiệu về phương diện xã hội. Nếu những người chơi của chúng ta muốn
làm xuất hiện kết quả có tính cân bằng hơn (4,5) thì họ phải làm như vậy bằng
cách tái thiết kế các thể chế của mình sao cho có thể thay đổi được cấu trúc
của các trò chơi mà họ thực hiện. Chỉ mong rằng họ có thể là siêu duy lý theo
cái cách thức dường như không gắn kết chặt chẽ như một cách tiếp cận.
2.7. Tính chất đạo đức và Hiệu quả
trong các Trò chơi
Nhiều người đọc có thể cho rằng kết luận của phần trước đã được thực hiện
dựa trên cơ sở không phòng thủ đầy đủ. Chắc chắn là những người chơi có thể chỉ
thấy rằng kết quả (4,5) là cao hơn về phương diện xã hội và đạo đức; và vì vậy
chúng ta biết họ có thể cũng thấy đường dẫn của các hành động dẫn đến nó, vậy
ai là lý thuyết gia trò chơi để tuyên bố về điều đó trong cái trò chơi mà họ
đang chơi, nó phải chăng là không đạt được? Thực tế thì việc gợi ý rằng tính
siêu duy lý là một ý chí của người chơi là có tính định hướng về phương diện
triết học mặc dù nó thực sự là cái mà các nhà hành vi luận về lý thuyết trò
chơi tin tưởng. Người đọc nào tìm kiếm một sự biện minh triệt để cho niềm tin
này thì đều được qui vào Binmore (1994,1998). Tuy nhiên trước khi chúng ta rời
khỏi những vấn đề ở một điểm có tác dụng làm cân bằng (tại đây), chúng ta cần
phải cẩn thận để không lẫn lộn cái vấn đề đang còn tranh cãi với những kết quả
của một nhầm lẫn kỹ thuật đơn giản. Chúng ta hãy cùng xem lại nan đề người tù.
Chúng ta đã thấy rằng trong cân bằng Nash duy nhất về trò chơi PD, cả hai tay
chơi đều nhận được ít tiện ích hơn họ có thể nhận được thông qua sự hợp tác
chung với nhau. Điều này có thể tác động mạnh đến bạn (hệt như nó đã tác động
đến nhiều nhà bình luận) như là một sự éo le. Chắc chắn bạn có thể nghĩ rằng nó
đơn giản nảy sinh từ một sự kết hợp của tính ích kỷ và bệnh hoang tưởng về phía
những tay chơi. Ngay từ đầu họ đã không quan tâm đến thiện chí về phương diện
xã hội và sau đó họ đã tự bắn vào chân mình bằng cách không đáng để tôn trọng
các thỏa thuận.
Cách tư duy như vậy đã dẫn đến những hiểu lầm tai hại về lý thuyết trò
chơi, và vì vậy những cách hiểu đó phải được loại bỏ. Trước hết chúng tôi xin
phép giới thiệu một vài thuật ngữ để nói về các kết quả. Các nhà kinh tế học
phúc lợi đo lường một cách điển hình hàng hóa xã hội bằng khuôn khổ hiệu xuất Pareto. Một phân phối tiện ích
o thì được
gọi là ưu thế Pareto đối với phân
phối d chỉ trong trường hợp từ trạng thái d có một tái phân phối tiện ích cho o
chẳng hạn như tối thiểu là một tay chơi chơi kém. Thất bại trong việc chuyển
thành một tái phân phối ưu thế Pareto
là thiếu hiệu quả vì sự tồn tại của o như một khả năng logic chỉ rõ rằng trong
d một tiện ích nào đó đang bị bỏ phí. Vậy là kết quả (3,3) thể hiện sự cộng tác
chung trong mô hình của chúng ta về trò chơi PD rõ ràng là ưu thế Pareto đối
với sự phản bội chung; ở (3,3) cả hai tay chơi đều thành công hơn ở (2,2). Vì
vậy sẽ là chân khi trò chơi PDs dẫn đến các kết quả thiếu hiệu quả. Đó cũng là
chân đối với ví dụ của chúng ta trong phần 2.6.
Tuy nhiên,
tính thiếu hiệu quả không nên đi kèm với tính chất phi đạo đức. Một hàm tiện
ích đối với một tay chơi được giả định thể hiện bất cứ cái gì mà tay chơi quan
tâm đến, đó có thể là bất cứ thứ gì. Như chúng tôi đã mô tả tình huống hai
người tù của chúng ta, họ thực sự chỉ quan tâm đến bản án tù riêng đối với họ,
nhưng lại không có cái gì là cốt yếu trong vấn đề này. Cái làm cho một cuộc
chơi trở thành một ví dụ về trò chơi PD thì duy nhất chỉ là cấu trúc khoản phải
trả của nó. Vì vậy chúng ta có thể có hai kiểu loại Mẹ Theresa ở đây, mà cả hai
đều ít quan tâm đến bản thân mình mà chỉ mong được chăm sóc lũ trẻ đói khổ.
Nhưng hãy hình dung là Mẹ Theresa thật mong muốn được chăm bọn trẻ ở Calcutta
trong khi Mẹ Juanita lại muốn chăm sóc bọn trẻ ở Bogota. Và hãy hình dung là cơ
quan trợ giúp quốc tế sẽ tối đa hóa khoản quyên góp của mình nếu hai vị thánh
nữ đó nhắm đến cùng một thành phố; sẽ cho một khoản quyên góp cao thứ nhì nếu
mỗi người nhắm đến thành phố của người kia; và khoản quyên góp thấp nhất nếu
mỗi người đều nhắm đến thành phố riêng của mình. Trong trường hợp này các thánh
nữ của chúng ta đang tham gia một trò chơi PD, mặc dù quá vị kỷ hoặc không bận
tâm đến vấn đề xã hội.
Quay trở lại
với người tù của chúng ta, hãy giả định rằng ngược lại với những định đề của
chúng ta họ tạo ra giá trị cho tình trạng hạnh phúc của mỗi người cũng như cho
riêng bản thân họ. Trong trường hợp này, điều đó phải được phản ánh trong các
hàm tiện ích của họ, và vì vậy mà cả trong khoản nhận được của họ nữa. Nếu cấu
trúc khoản nhận được của họ thay đổi thì họ sẽ không còn tham gia trò chơi nữa.
Nhưng tất cả những cái đó đều chỉ ra rằng không phải mỗi tình huống khả thể đều
là một trò chơi PD; nó không chỉ rõ rằng mối đe dọa của các kết quả thiếu hiệu
quả là một sản phẩm đặc biệt của tính vị kỷ. Nó là logic của tình huống người tù chứ không phải là tâm lý của họ, nó
đánh bẫy họ trong cái kết quả không hiệu quả, và nếu nó thực sự là tình huống
của họ thì họ đang bị mắc kẹt trong đó (trừ những phức tạp hơn sẽ được thảo
luận ở dưới đây). Các tác nhân muốn tránh những kết quả không hiệu quả nên ngăn
chặn sự xuất hiện của bất cứ trò chơi nào; người phòng vệ của khả năng siêu duy
lý thực sự giả định rằng họ cố gắng tự thân phát hiện những trò chơi như vậy
bằng cách tự họ biến thành những loại tác nhân khác.
Vậy là nhìn
chung một trò chơi được định nghiã
một cách cục bộ bằng khoản phải trả được ấn định cho những tay chơi. Nếu một
giải pháp được đề xuất liên quan đến sự thay đổi ngầm những khoản phải trả ấy
thì “giải pháp” này thực sự là một cách trá hình để thay đổi chủ thể.
2.8. Những bàn tay run
Vấn đề vừa
rồi của chúng ta ở trên mở ra cách thức cho một vấn đề rắc rối triết học vẫn
cuốn hút sự chú ý đối với các nền tảng logic về lý thuyết trò chơi. Nó có thể
được nêu ra liên quan đến bất cứ số lượng ví dụ nào, nhưng chúng ta sẽ mượn một
người tao nhã từ C. Bicchieri (1993) đã đưa ra một cách xử lý tăng cường vấn đề
được phát hiện trong các văn liệu. Hãy xem xét trò chơi sau:
Hình 11
Kết quả cân
bằng Nash ở đây thuộc nút đơn xa nhất bên trái từ nút 8 nghiêng xuống. Hãy xem
nút này, lại một qui nạp ngược. Tại nút 10, tay chơi I sẽ đánh L để nhận khoản
được trả là 3, cho tay chơi II khoản được trả là 1. Tay chơi II có thể làm tốt
hơn bằng cách chơi L ở nút 9, cho tay chơi I khoản nhận được là 0. Có một vấn
đề khó xử được Bicchieri nêu lên [cùng các tác giả khác, bao gồm Binmore [1987]
và Pettit & Sugden [1989] bằng cách suy luận sau. Tay chơi I có thể làm tốt
hơn bằng cách chơi L ở nút 8; vậy thì đó chính là điều mà tay chơi I làm và trò
chơi kết thúc mà không có tay chơi II tham gia chơi tiếp. Nhưng lúc này hãy lưu
ý đến sự suy lý cần thiết để hỗ trợ cho sự tiên đoán này. Tay chơi I chơi L ở
nút 8 vì cô/anh ta biết rằng tay chơi II là người duy lý, và vì vậy sẽ chơi L ở
nút 9 vì tay chơi II biết rằng tay chơi I là người duy lý và vì vậy sẽ chơi L ở nút 10. Nhưng chúng ta
lại thấy xuất hiện một nghịch lý tiếp theo tay chơi I phải cho rằng tay chơi II
ở nút 9 sẽ tiên đoán là việc chơi duy lý của I sẽ ở nút 10 mặc dù đã đến một
nút (9) là nút chỉ có thể đến được nếu tay chơi I không duy lý! Nếu tay chơi I
không duy lý thì tay chơi II sẽ không được thanh minh bằng cách tiên đoán rằng
tay chơi I sẽ không chơi R ở nút 10, trong trường hợp này thì không rõ là tay
chơi II sẽ không chơi R ở nút 9; và nếu tay chơi II chơi R ở nút 9 thì tay chơi
I sẽ có một khoản nhận được tốt hơn sau đó cô/anh ta nhận được nếu cô/anh ta
chơi L ở nút 8. Cả hai tay chơi phải sử dụng lối qui nạp ngược đòi hỏi rằng tay
chơi I biết rằng tay chơi II biết tay chơi I là duy lý; nhưng tay chơi II chỉ
có thể giải quyết được cuộc chơi bằng cách sử dụng cái lý lẽ qui nạp ngược là
cái lấy tính phi lý của tay chơi I làm một tiên đề. Đó chính là nghịch lý của cách qui nạp ngược.
Có một cách
chuẩn mực nhất để hiểu được nghịch lý này là viện đến cái gọi là “bàn tay run”
theo Selten [1975]. Tư tưởng này cho rằng một quyết định và hành động hợp lý có
thể “tách ra” khỏi xác suất phi-zero tuy nhỏ. Thế có nghĩa là một tay chơi có
thể muốn thực hiện một hành động nhưng vì mắc lỗi trong khi thực hiện và thay
vào đó đã đưa trò chơi xuống theo một đường dẫn nào đó khác. Nếu thậm chí chỉ
có một chút khả năng một tay chơi có thể mắc lỗi - đó là “bàn tay” cô/anh ta
“có thể run” thì không có mâu thuẫn nào được đưa vào bởi một tay chơi sử dụng
một lý lẽ qui nạp ngược yêu cầu một giả định đề rằng một tay chơi khác đã chiếm
đường dẫn mà một tay chơi duy lý có thể không lựa chọn. Trong ví dụ của chúng
ta tay chơi II có thể suy lý về cái cần làm ở nút 9 phụ thuộc vào định đề cho
rằng tay chơi I chọn L ở nút 8, nhưng sau đó đã bị thất bại.
Có một văn
liệu kỹ thuật cơ bản về cái nghịch lý qui nạp ngược đó mà nguồn tổng hợp có thể
tìm được ở Bicchieri (1993). (Cần lưu ý là Bicchieri không tán thành viện lẽ
vào những bàn tay run như một giải pháp thích hợp. Tuy nhiên việc thảo luận về
đề xuất riêng của bà ở đây có lẽ đã làm cho chúng ta đi quá xa vào những tính
chất kỹ thuật. Người đọc nào chú ý nên nghiên cứu cuốn sách của bà). Thách đố được
giới thiệu ở đây chỉ để xác định rằng những bộ lọc thuộc loại đã được thảo luận
trong phần 2.6 có thể được cổ vũ nhiều hơn là những trực giác thuần túy về khái
niệm tính duy lý. Vì nếu những bàn tay có thể run thì những người chơi thuần
túy duy lý sẽ có động cơ để lo lắng về những xác xuất mà với nó những xuất phát
điểm hiển nhiên từ trò chơi duy lý sẽ được nhận thấy. Chẳng hạn nếu bàn tay đối
thủ của tôi có thể run, thì bàn tay ấy sẽ cho tôi lý do chính đáng để tránh cái
chiến lược thống trị yếu s2 trong ví dụ thứ ba của phần 2.5. Hơn nữa đối thủ
của tôi có thể cam kết chơi t1 trong trò chơi đó và tôi có thể tin vào lời hứa
của anh ta. Nhưng nếu bàn tay của anh ta sau đó cũng run và kết quả là anh ta
sẽ chơi t2, thì tôi phải nhận một khoản nhận được tồi nhất. Nếu tôi đảo ngược
rủi ro thì trong tình huống như vậy dường như tôi có thể gắn với những chiến
lược thống trị yếu.
Nghịch lý
qui nạp ngược, giống như những câu đố đưa ra bởi bộ lọc cân bằng chủ yếu là một
vấn đề cho những ai coi lý thuyết trò chơi như một đóng góp cho một lý thuyết
định chuẩn của tính duy lý (đặc biệt là đóng góp cho lý thuyết lớn, lý thuyết
duy lý chiến lược). Nhà hành vi luận
có thể đưa ra một loại lý giải khác về lối chơi rõ ràng là phi lý và sự thận
trọng mà nó cổ vũ. Điều này liên quan đến việc viện vào một sự kiện kinh nghiệm
chủ nghĩa là các tác nhân thực sự gồm cả những con người phải học những chiến lược cân bằng của các
trò chơi mà họ tham gia, chí ít là bất cứ khi nào những trò chơi đó rơi vào
hoàn cảnh hoàn toàn phức tạp. Công việc nghiên cứu đã chỉ ra rằng ngay cả một
trò chơi đơn giản như trò Nan đề Người tù cũng đòi hỏi người ta phải học
[Ledyard 1995, Sally 1995, Camerer 2003, tr.265]. Ý nghĩa của việc nói rằng con
người cần phải học những chiến lược cân bằng là ở chỗ chúng ta phải có đôi chút
phức tạp hơn là cái đã được chỉ ra ở phần trước trong việc tạo ra các hàm tiện
ích từ hành vi trong việc áp dụng Lý thuyết Bộc lộ Sở
thích (Revealed Preference Theory). Thay cho việc cấu tạo các hàm tiện ích
dựa trên cơ sở những tình tiết đơn, chúng ta phải làm như vậy trên cơ sở của
những hành vi quan sát được khi nó đã ổn
định, bằng cách biểu thị độ chín của việc học đối với các chủ thể được đặt
vấn đề và cái trò chơi được đặt vấn đề. Một lần nữa cần phải nói rằng Nan đề
Người tù cho ta một ví dụ rất tốt. Mọi người đều phải đối mặt với một số Nan đề
Người tù chí ít là một lần trong cuộc sống hàng ngày, nhưng họ phải đối mặt với
nhiều trò chơi PD lặp đi lặp lại với những người không xa lạ. Kết quả là khi bắt
đầu cái định làm như một trò chơi PD một lần duy nhất trong đời trong phòng
thực nghiệm ngay từ đầu người ta đã có ý định chơi cứ như là trò chơi ấy là một
vòng đơn của một trò chơi PD lặp đi lặp lại. Trò PD lặp đi lặp lại đó có nhiều
cân bằng Nash là cái liên quan đến sự hợp tác hơn là đảo ngũ. Vì vậy các chủ
thể kinh nghiệm có ý định hợp tác đầu tiên trong các hoàn cảnh này, nhưng lại
học sau khi một số vòng chơi bị thất bại. Người thực nghiệm có thể suy luận
rằng cô ta đã qui nạp một cách thành công một cuộc chơi PD một lần duy nhất với
cơ cấu thực nghiệm cho đến khi cô ta thấy hành vi này đã ổn định. (Như đã lưu ý
ở phần 2.7 ở trên, nếu nó không ổn định như vậy thì cô ta phải suy luận rằng cô
ta đã thất bại trong việc qui nạp trò chơi PD một lần duy nhất và các chủ thể
của cô ta đang chơi một trò chơi nào đó khác).
Nghịch lý
qui nạp ngược giờ đây đã bị hủy bỏ. Trừ khi các tay chơi đã trải nghiệm lối
chơi cân bằng với một tay chơi khác trong quá khứ, ngay cả khi tất cả họ đều
duy lý và tất cả đều tin tưởng nhau thì chúng ta sẽ tiên đoán rằng họ sẽ gắn
một xác suất dương nào đó vào việc phỏng đoán rằng các bên tương tác đã không
tìm hiểu để biết được toàn bộ các cân bằng. Vậy là điều này lý giải tạo sao các
tác nhân duy lý trừ khi họ thích mạo hiểm, lại có thể chơi cứ như là họ tin vào
những bàn tay run vậy.
Việc tìm
hiểu các cân bằng bởi các tác nhân duy lý có thể có nhiều dạng khác nhau đối
với những tác nhân khác nhau và đối với những trò chơi ở những cấp độ phức tạp
và rủi ro khác nhau. Vì vậy việc tích hợp nó vào các mô hình lý thuyết trò chơi
của các tương tác sẽ giới thiệu một tập kỹ thuật tính mở rộng mới. Vì lý thuyết
tổng quát này đã được phát triển đầy đủ nhất nên người đọc có thể tham khảo
[Fudenberg and Levine 1998].
Còn
nữa…
Tác
giả: Don Ross là Giáo sư Triết học
tại Đại học Alabama
ở Birmingham, Giáo sư Kinh tế học tại Đại học Cape
Town, Nam Phi. Công trình chủ yếu: Economic Theory and Cognitive
Science: Microexplanation (MIT Press, 2005).
Nguyên
văn: Game Theory, The
Stanford Encyclopedia of Philosophy (Fall 2010 Edition), Edward N.
Zalta (ed.), First published Sat Jan
25, 1997; substantive revision Wed May 5, 2010
Tài
liệu dẫn
Baird, D., Gertner, R., and Picker, R.
(1994).
Game Theory and the Law. Cambridge, MA: Harvard University Press.
Binmore,
K., Kirman, A., and Tani, P. (eds.) (1993). Frontiers of Game Theory.
Cambridge, MA: MIT Press
Binmore, K. (1998). Game Theory
and the Social Contract (v. 2): Just Playing. Cambridge, MA: MIT
Press.
Camerer,
C. (2003).
Behavioral Game Theory: Experiments in Strategic Interaction. Princeton:
Princeton University Press.
Danielson, P. (ed.) (1998). Modelling Rationality, Morality and Evolution. Oxford: Oxford University Press.
Fudenberg,
D., and Levine, D. (1998). The Theory of Learning in Games. Cambridge,
MA: MIT Press.
Fudenberg, D., and Tirole, J. (1991). Game Theory.
Cambridge, MA: MIT Press.
Gintis, H. (2004). Towards the Unity of the Human Behavioral
Sciences. In Philosophy, Politics and Economics 31:37-57.
Guala, F. (2005). The
Methodology of Experimental Economics. Cambridge: Cambridge University
Press.
Hofbauer,
J., and Sigmund, K. (1998). Evolutionary Games and Population Dynamics.
Cambridge: Cambridge University Press.
Krebs, J., and Davies, N.(1984). Behavioral
Ecology: An Evolutionary Approach. Second edition. Sunderland: Sinauer.
Kreps, D. (1990). A Course in
Microeconomic Theory. Princeton: Princeton University Press.
Maynard
Smith, J. (1982).
Evolution and the Theory of Games. Cambridge: Cambridge University
Press.
McMillan, J. (1991). Games,
Strategies and Managers. Oxford: Oxford University Press.
Nash,
J. (1950a).
Equilibrium Points in n-Person Games. In PNAS
36:48-49.
Nash, J. (1950b). The Bargaining Problem. In Econometrica
18:155-162.
Nash, J. (1951). Non-cooperative Games. In Annals of
Mathematics Journal 54:286-295.
Ormerod, P. (1994). The Death
of Economics. New York: Wiley.
Rawls, J. (1971). A Theory of
Justice. Cambridge, MA: Harvard University Press.
Robbins, L. (1931). An Essay on
the Nature and Significance of Economic Science. London: Macmillan.
Ross,
D. 2005.
Evolutionary Game Theory and the
Normative Theory of Institutional Design: Binmore and Behavioral Economics. In
Politics, Philosophy and Economics,
forthcoming.
Ross, D., and LaCasse, C. (1995). Towards a New Philosophy of Positive
Economics. In Dialogue 34: 467-493.
Samuelson,
L. (1997).
Evolutionary Games and Equilibrium Selection. Cambridge, MA: MIT Press.
Samuelson, L. (2005). Economic Theory and Experimental Economics.
In Journal of Economic Literature 43:65-107.
Samuelson,
P. (1938).
A Note on the Pure Theory of Consumers'
Behaviour. In Econimica 5:61-71.
Selten, R. (1975). Re-examination of the Perfectness Concept
for Equilibrium Points in Extensive Games. In International Journal of
Game Theory 4:22-55.
Sigmund, K. (1993). Games of
Life. Oxford: Oxford University Press.
Smith, V. (1982). Microeconomic Systems as an Experimental
Science. In American Economic Review 72:923-955.
Sober, E., and Wilson, D.S. (1998). Unto Others.
Cambridge, MA: Harvard University Press.
Tomasello,
M.,
M. Carpenter, J. Call, T. Behne and H. Moll (2004). Understanding and Sharing Intentions: The Origins of Cultural Cognition.
In Behavioral and Brain Sciences, forthcoming.
Vallentyne, P. (ed.). (1991). Contractarianism
and Rational Choice. Cambridge: Cambridge University Press.
von Neumann, J., and Morgenstern, O.,
(1947).
The Theory of Games and Economic Behavior. Princeton: Princeton
University Press, 2nd edition.
Weibull, J. (1995). Evolutionary
Game Theory. Cambridge, MA: MIT Press.
Yaari, M. (1987). The Dual Theory of Choice Under Risk. In
Econometrica 55:95-115.
Young, H.P. (1998). Individual
Strategy and Social Structure. Princeton: Princeton University Press.
Không có nhận xét nào:
Đăng nhận xét