Lý thuyết Trò chơi (V)
Don Ross
Người dịch: Hà Hữu Nga
4.
Những trò chơi lặp lại và việc điều phối
Đến bây giờ chúng ta đã giới hạn sự chú ý của mình
vào trò chơi một lần duy nhất, có nghĩa là những trò chơi trong đó các mối quan
tâm chiến lược của các tay chơi không mở rộng hơn nút cuối của mối tương tác
đơn của họ. Tuy nhiên các trò chơi thường được chơi với các trò chơi tương lai trong tư duy, và điều này có
thể thay thế đáng kể cho những kết quả và các chiến lược cân bằng của họ. Đề tài
của chúng ta trong phần này là những trò
chơi lặp lại, có nghĩa là các trò chơi trong đó các tập hợp tay chơi mong
muốn đối đầu với nhau ở những tình huống tương tự trong nhiều cơ hội. Chúng ta
tiếp cận với những trò chơi này trước hết thông qua cái bối cảnh giới hạn của
các nan đề người tù (PD) được nhắc lại.
Chúng ta đã thấy rằng trong một trò chơi PD một lần
duy nhất thì chỉ có duy nhất một cân bằng Nash NE là sự phản bội chung. Tuy
nhiên điều này có thể không duy trì được nữa khi các tay chơi mong muốn gặp lại
nhau trong các trò chơi PD tương lai. Hãy tưởng tượng rằng bốn công ty khi tất
cả đều thực hiện các cải tiến đồng ý với nhau giữ giá cao bằng cách hạn chế
cung. (Tức là họ thành lập một cartel.) Điều đó sẽ chỉ thực hiện được khi mỗi
công ty duy trì được hạn ngạch xuất đã được thỏa thuận. Một cách rất đặc trưng
là mỗi công ty có thể tối đa hóa lợi nhuận của mình bằng cách không tuân thủ
hạn ngạch đã được cam kết trong khi các công ty khác quan sát được công việc
của họ, vì thế sau đó nó bán nhiều đơn vị ở mức giá thị trường cao hơn mức
cartel qui định hầu như nguyên vẹn đó. Trong trường hợp một lần duy nhất toàn
bộ các công ty sẽ cùng chung động cơ này để bỏ cam kết và cartel ấy sẽ lập tức
sụp đổ. Tuy nhiên các công ty mong muốn đối mặt với nhau trong cạnh tranh trong
một giai đoạn dài. Trong trường hợp này mỗi công ty biết rằng nếu nó vi phạm
thỏa thuận của cartel thì các công ty khác có thể trừng phạt nó bằng cách định
giá dưới giá trong một thời gian dài đủ để loại bỏ cái thắng lợi ngắn hạn của
nó. Tất nhiên các công ty trừng phạt sẽ chịu thiệt thòi ngắn hạn trong giai
đoạn định giá dưới giá. Nhưng những thiệt thòi này cũng đáng để chịu nếu họ
mong muốn tái lập cartel và để tối đa hóa mức giá về lâu dài.
Một
chiến lược đơn giản và rất nổi tiếng (nhưng không nhất thiết là tối ưu, ngược
lại với cái huyền thoại phổ biến rộng khắp) trong việc bảo vệ sự hợp tác trong
các trò chơi PD lặp lại được gọi là tit-for-tat.
Chiến lược này bảo cho mỗi tay chơi cách hành xử như sau:
i) Luôn luôn hợp tác ở vòng đầu
ii) Sau
đó thực hiện bất cứ hành động nào mà đối thủ của bạn thực hiện ở vòng trước.
Một nhóm tay chơi tất cả đều chơi trò tit-for-tat sẽ không bao giờ thấy bất cứ một sự bội ước nào. Vì trong một tập hợp nơi mà những người khác chơi tit-for-tat, thì tit-for-tat đáp trả duy lý đối với mỗi tay chơi, mỗi tay chơi tit-for-tat đều là một cân bằng Nash NE. Bạn vẫn thường thấy một số người biết đôi chút về lý thuyết trò chơi (nhưng không đủ) nói cứ như đây là nơi kết thúc của câu chuyện. Thực ra thì không phải như vậy.
Có
hai điều phức tạp ở đây. Trước hết, các tay chơi phải không chắc chắn về việc
là khi nào thì hành động của họ kết thúc. Giả sử các tay chơi biết khi nào thì
vòng cuối cùng sẽ đến. Trong vòng đó, người chơi sẽ là người duy lý để bội ước,
vì không có sự trừng phạt nào có thể thực hiện được. Bây giờ chúng ta hãy xem
vòng cuối cùng-thứ hai. Trong vòng này, các tay chơi cũng không phải đối mặt
với bất cứ sự đe dọa trừng phạt nào, vì họ biết thế nào họ cũng sẽ bội ước ở
vòng cuối cùng. Vì vậy họ bội ước ở vòng cuối cùng thứ hai. Nhưng điều đó có
nghĩa là họ không phải đối mặt với đe dọa trừng phạt ở vòng cuối cùng thứ ba,
và cũng bội ước ở đó. Chúng ta có thể đơn giản lặp đi lặp lại điều đó qua cây
trò chơi cho đến khi chúng ta đạt được vòng đầu tiên. Vì hợp tác không duy lý
trong vòng đó nên trò chơi tit-for-tat không còn là một chiến lược duy lý, và
chúng ta đạt được cùng một kết quả - sự bội ước chung – như trong trò chơi PD
một lần duy nhất vậy. Vì vậy hợp tác chỉ là có thể trong trò chơi PD lặp lại mà
ở đó số lần lặp lại mong muốn là vô định. (Tất nhiên, điều này áp dụng cho
nhiều trò chơi trong đời thực).
Nhưng giờ đây chúng tôi xin giới thiệu một rắc rối thứ hai. Hãy giả định rằng khả năng của những người chơi để phân biệt sự bội ước khỏi sự hợp tác là không hoàn hảo. Hãy xem xét trường hợp của chúng ta về cái cartel thực hiện các cải tiến đã nói. Giả sử các tay chơi thấy rõ thị trường sản phẩm xuống giá. Có lẽ đó là vì một thành viên trong cartel đã bội ước. Hoặc có lẽ đã nảy sinh ra một tình trạng khủng hoảng cầu ngoại sinh. Nếu các tay chơi tit-for-tat mắc lỗi ở trường hợp thứ hai thay cho trường hợp thứ nhất thì họ sẽ bội ước, vậy là tình trạng tăng phản ứng dây truyền những bội ước chung mà từ đó chúng có thể không bao giờ khôi phục lại được, vì mỗi tay chơi sẽ đáp lại cái bội ước đầu tiên mà họ gặp phải, vậy là bội ước ngày càng tăng thêm, vv....
Nếu
các tay chơi biết rằng có thể xảy ra tình trạng giao tiếp sai lệch như vậy thì
họ phải viện đến các chiến lược tinh vi hơn. Đặc biệt họ cần chuẩn bị để đôi
khi phải liều thực hiện các bội ước để kiểm tra các suy luận của họ. Tuy nhiên
họ không được đối xử quá tha thứ, vì
sợ những tay chơi khác phát hiện được rằng tối ưu duy lý có thể giúp khai thác
thông qua những bội ước cố ý. Nói chung các chiến lược tinh vi đều có vấn đề.
Vì đối với những người chơi khác chúng khó suy luận hơn nên càng ngày họ càng
sử dụng nhiều xác suất giao tiếp sai. Nhưng giao tiếp sai lại là cái tạo ra
những cân bằng hợp tác trong trò chơi lặp lại để tháo gỡ ở ngay vị trí đầu
tiên! Đạo lý của vấn đề này là ở chỗ các trò chơi PD thậm chí ngay cả những trò
chơi lặp lại cũng rất khó thoát ra được. Các tay chơi duy lý tìm mọi cách để tránh các tình huống PD, mà không dựa
vào các mưu chước tinh quái để cố thoát ra khỏi chúng.
Các
màn kịch chính trị xã hội thực và phức tạp đôi khi cũng là những ví dụ rất sáng
rõ cho những trò chơi đơn giản như PD. Hardin (1995) đã đưa ra một phân tích về
hai trường hợp chính trị rất thực (và rất bi kịch) mới đây là cuộc nội chiến
Yugoslavia 1991-1995, và sự diệt chủng tại Rwanda như là những trò chơi PD ẩn
bên trong các trò chơi phối hợp. Một
trò chơi phối hợp xuất hiện khi tiện ích của hai hoặc nhiều tay chơi được tối
đa hóa bằng cách thực hiện cùng một việc, và ở nơi mà đối với họ sự phù hợp quan
trọng hơn cái mà cả hai bên cùng làm.
Một
ví dụ tiêu biểu thể hiện qua các qui tắc đi đường: “Tất cả đều lái xe bên trái”
vừa là những kết quả thuộc các cân bằng Nash, lại vừa không hiệu quả hơn kết
quả khác. Trong các trò chơi phối hợp “thuần túy”, thậm chí việc sử dụng các
tiêu chuẩn cân bằng lựa chọn nhiều hơn cũng không ích gì. Chẳng hạn giả sử rằng
chúng ta yêu cầu các tay chơi suy lý theo qui tắc Bayes (xem phần 3 ở trên).
Trong các hoàn cảnh này, bất cứ chiến lược nào là lời đáp hiệu quả nhất đối với
bất cứ vector nào của các chiến lược hỗn hợp có sẵn trong cân bằng Nash thì đều
được gọi là có thể duy lý hóa. Có nghĩa là một tay chơi có thể phát hiện ra một
tập hệ thống các niềm tin cho những tay chơi khác đến mức mà bất cứ một lịch sử
trò chơi nào đi theo một đường dẫn cân bằng thì cũng đều phù hợp với tập hệ
thống đó. Các trò chơi phối hợp thuần túy đều được đặc trưng bởi những vector
không-duy nhất của các chiến lược có thể duy lý hóa. Trong những tình huống như
vậy, các tay chơi có thể cố tiên đoán những cân bằng bằng cách đi tìm những tiêu điểm, có nghĩa là các đặc điểm của
một vài chiến lược mà họ tin là quan trọng nhất đối với các tay chơi khác, và
họ tin là những tay chơi khác cũng sẽ tin là quan trọng nhất đối với họ. (Chẳng
hạn nếu hai người muốn gặp nhau vào một ngày nhất định trong một thành phố lớn
nhưng lại không thể liên lạc được với nhau để sắp xếp về thời gian và địa điểm,
thì có lẽ cả hai phải rất nhạy bén đi đến các quảng trường nổi tiếng nhất ở
trung tâm thành phố vào buổi trưa). Không may là trong nhiều trò chơi chính trị
và xã hội do con người thực hiện (và đôi khi cả những con thú khác) thì các
thuộc tính bề mặt mang tính sinh học mà con người tự phân loại thành các nhóm
chủng tộc và dân tộc đều tỏ ra có hiệu quả cao như những đặc điểm đó. Phân tích
của Hardin về các cuộc diệt chủng là dựa vào sự thật này.
Theo
Hardin, không phải các thảm họa ở Yugoslavia, cũng không phải các thảm họa ở
Rwanda là những trò chơi mà người ta bắt đầu với chúng. Có nghĩa là không phải
là tình thế, mà là phe phái, chính hầu hết mọi người bắt đầu bằng cách đối
chiếu sự hủy hoại của người khác với sự hợp tác chung. Tuy nhiên cái logic chết
người của sự phối hợp, được tiếp tay làm bậy một cách chu đáo của các chính
khách đã tạo ra các trò chơi PD một
cách sôi động. Một số cá nhân người Serbs (Hutus) đã được cổ vũ để lĩnh hội các
quyền lợi cá nhân như là những gì đúng đắn nhất thông qua việc đồng nhất với
các lợi ích nhóm của người Serbs (Hutus). Có nghĩa là họ nhận thức rằng một số
hoàn cảnh của họ chẳng hạn như những hoàn cảnh liên quan đến cạnh tranh về việc
làm thực sự có hình thức giống hệt các
trò chơi phối hợp. Vì vậy họ đã hành động sao cho có thể tạo ra được các tình
huống mà trong đó điều này cũng là thật đối với những người Serbs (Hutus) khác.
Rốt cuộc, một khi đủ người Surbs đồng nhất tư lợi với quyền lợi nhóm thì sự
đồng nhất đó trở nên hầu như là hoàn toàn chính
xác, vì (1) mục đích quan trọng nhất đối với mỗi người Serb là thực hiện
một cái gì đó na ná như mỗi người Serb khác sẽ làm, và (2) hầu hết những gì mà
người Serb phải làm để có thể phối hợp lại thì chính là loại trừ người Croats
(Tutsi). Có nghĩa là các chiến lược liên quan đến hành vi loại trừ như vậy được
lựa chọn như là một kết quả của việc xác định được các tiêu điểm hiệu quả. Chính
tình huống này đã làm nảy sinh trường hợp là quyền tư lợi của một cá nhân – và
bị đe dọa về phương diện cá nhân - người
Croat (Tutsi) được tối đa hóa một cách tốt nhất bằng việc phối hợp lại dựa trên
bản sắc-nhóm Croat (Tutsi) quả quyết, chính là thứ làm tăng thêm sức ép đối với
người Serbs (Hutus) để họ phối hợp lại, vv….
Cần lưu ý rằng đó không phải là một khía cạnh của việc phân tích này, một khía cạnh mà những người Serbs hoặc Hutus bắt đầu các công việc của họ; quá trình đó có thể hoàn toàn mang tính thuận nghịch (ngay cả khi nó không diễn ra trong thực tế). Nhưng kết quả thì lại thật là khủng khiếp: người Serbs và Croats (Hutus và Tutsis) hình như càng ngày càng đe dọa nhau khi họ cùng chạy đua tự vệ, cho đến khi cả hai đều thấy bắt buộc phải hành động trước để ngăn chặn đối thủ và đánh phủ đầu. Nếu Hardin đúng – và vấn đề ở đây không phải là nhất quyết rằng ông ta đúng hay không, mà điều cần thiết là phải chỉ ra rằng tầm quan trọng mang tính thế giới của việc quyết định xem những tác nhân trò chơi nào thực sự đang chơi – sau đó sự hiện diện duy nhất của một áp lực bên ngoài (NATO?) cũng sẽ không thay đổi được trò chơi, thay đổi được thế cờ mà sự phân tích theo quan niệm của Hobbes, vì áp lực đó có thể đã không đe dọa bên này hai bên kia bằng bất cứ cái gì tồi hơn cái khiến cho tay chơi này e ngại tay chơi kia. Cái cần thiết chính là sự chia lại các thang giá trị của các lợi ích, là thứ (người ta có thể cho rằng) đã xảy ra ở Yugoslavia khi quân đội Croatian bắt đầu chiến thắng một cách quyết định, trong cái thời điểm mà những người Serbs Bosnia quyết định rằng các lợi ích cá nhân/nhóm của họ được đáp ứng tốt nhất bằng sự hiện diện của các lực lượng giữ gìn hòa bình của NATO. Trong khi cuộc xung đột ở Rwanda đã kéo theo vào đó các quốc gia láng giềng (Congo) mà những phát triển chính trị và quân sự đã làm cho nó thay đổi.
Cần lưu ý rằng đó không phải là một khía cạnh của việc phân tích này, một khía cạnh mà những người Serbs hoặc Hutus bắt đầu các công việc của họ; quá trình đó có thể hoàn toàn mang tính thuận nghịch (ngay cả khi nó không diễn ra trong thực tế). Nhưng kết quả thì lại thật là khủng khiếp: người Serbs và Croats (Hutus và Tutsis) hình như càng ngày càng đe dọa nhau khi họ cùng chạy đua tự vệ, cho đến khi cả hai đều thấy bắt buộc phải hành động trước để ngăn chặn đối thủ và đánh phủ đầu. Nếu Hardin đúng – và vấn đề ở đây không phải là nhất quyết rằng ông ta đúng hay không, mà điều cần thiết là phải chỉ ra rằng tầm quan trọng mang tính thế giới của việc quyết định xem những tác nhân trò chơi nào thực sự đang chơi – sau đó sự hiện diện duy nhất của một áp lực bên ngoài (NATO?) cũng sẽ không thay đổi được trò chơi, thay đổi được thế cờ mà sự phân tích theo quan niệm của Hobbes, vì áp lực đó có thể đã không đe dọa bên này hai bên kia bằng bất cứ cái gì tồi hơn cái khiến cho tay chơi này e ngại tay chơi kia. Cái cần thiết chính là sự chia lại các thang giá trị của các lợi ích, là thứ (người ta có thể cho rằng) đã xảy ra ở Yugoslavia khi quân đội Croatian bắt đầu chiến thắng một cách quyết định, trong cái thời điểm mà những người Serbs Bosnia quyết định rằng các lợi ích cá nhân/nhóm của họ được đáp ứng tốt nhất bằng sự hiện diện của các lực lượng giữ gìn hòa bình của NATO. Trong khi cuộc xung đột ở Rwanda đã kéo theo vào đó các quốc gia láng giềng (Congo) mà những phát triển chính trị và quân sự đã làm cho nó thay đổi.
Tất
nhiên vấn đề không phải là ở chỗ hầu hết những trò chơi lặp lại đều dẫn tới
thảm họa. Cơ sở sinh học của tình bạn ở con người và ở động vật có lẽ phần nào
là một hàm logic của các trò chơi lặp lại. Tầm quan trọng của khoản nhận được
thông qua sự hợp tác trong các trò chơi tương lai hướng dẫn những con người
mong muốn tương tác với nhau trở nên ít ích kỷ hơn sự cám dỗ sẽ gợi ý trong các
trò chơi hiện tại. Hơn nữa, việc chăm sóc cho những lợi ích và tình cảm chung
đem đến những mạng lưới của các tâm điểm xung quanh những gì mà sự phối hợp có
thể được tạo thêm điều kiện thuận lợi.
5. Cam kết
Trong
một số trò chơi, các tay chơi cải thiện các kết quả của họ bằng cách thực hiện
các hành động làm cho họ không thể thực hiện được những gì là hành động thành
công nhất của mình trong các trò chơi vận động đồng thời tương ứng. Những hành
động như vậy được coi như là các cam kết, và chúng có thể được coi là các thay
thế cho sự tăng cường ngoại sinh trong các trò chơi gắn chặt với các cân bằng
không hiệu quả-Pareto.
Hãy
xem xét kỹ lưỡng cái ví dụ giả định sau đây (đây không phải là một trò chơi
PD). Giả sử bạn sở hữu một mảnh đất nằm kề một cái mỏ, và tôi muốn mua nó để mở
rộng thêm mảnh đất của tôi. Chẳng may bạn lại không muốn bán với cái giá mà tôi
muốn mua. Nếu chúng ta đồng thời thay đổi – bạn thông báo một giá bán còn tôi
thì cũng độc lập đưa cho nhân viên của tôi một cái giá hỏi mua lúc đầu – sẽ
không có sự mua bán trong trường hợp này. Vì vậy tôi có thể cố gắng thay đổi
các động cơ của tôi bằng cách thực hiện một vận động mở trong đó tôi tuyên bố
rằng tôi sẽ xây dựng một nhà máy xử lý nước thải có mùi thối trên mảnh đất của
tôi, bên cạnh mảnh đất của bạn trừ khi bạn bán miếng đất đó, bằng cách ấy giảm
giá của bạn. Giờ đây chúng ta quay trở lại với trò chơi vận động tuần tự. Tuy
nhiên cho đến bây giờ vận động này vẫn không thay đổi được điều gì cả. Nếu bạn
từ chối ngay cả khi tôi đe dọa, sau đó tôi cũng chẳng quan tâm gì đến vấn đề đó
nữa, bởi vì trong khi phá bạn, tôi cũng phá chính bản thân tôi. Vì khi bạn biết
điều này thì bạn cũng sẽ lờ đi lời đe dọa của tôi. Lời đe dọa của tôi là không đáng tin, một câu chuyện vớ vẩn.
Tuy
nhiên tôi vẫn có thể làm cho câu truyện của mình đáng tin bằng cách cam kết với chính bản thân mình. Tôi có
thể ký một hợp đồng với một số nông dân bằng cách hứa cung cấp cho họ nước thải
đã xử lý (phân bón) từ nhà máy của tôi, nhưng bao gồm một điều khoản thoát
trong hợp đồng giải thoát tôi khỏi trách nhiệm chỉ khi tôi có thể mở rộng gấp
đôi mảnh đất của tôi và đưa nó vào một mục đích sử dụng khác. Giờ đây lời đe
dọa của tôi là đáng tin: nếu bạn không bán, tôi sẽ cam kết xây dựng một nhà máy
xử lý chất thải. Vì bạn biết điều này nên giờ đây bạn có một động cơ để bán mảnh
đất của bạn cho tôi để thoát khỏi sự phá sản đó.
Loại
trường hợp này bộc lộ một trong nhiều khác biệt cơ bản giữa logic của sự tối đa
hóa tham số và phi tham số. Trong các tình huống tham số, một tác nhân có thể
không bao giờ bị chơi xấu bằng cách có nhiều lựa chọn hơn. Nhưng ở đâu các hoàn
cảnh là phi tham số thì chiến lược của một tác nhân có thể bị ảnh hưởng vào sở
thích của người khác nếu các lựa chọn rõ ràng là hạn chế. Sự kiện đốt thuyền
của Cortez (xem phần I) tất nhiên là một ví dụ về trường hợp này, một ví dụ có
thể được sử dụng để tạo ra cái ẩn dụ thông thường.
Một
ví dụ khác sẽ minh họa cho điều này, cũng như minh họa cho tính có thể ứng dụng
của các nguyên tắc các loại trò chơi. Trong trường hợp này chúng ta sẽ xây dựng
một tình huống tưởng tượng, một tình huống không phải là một trò chơi PD – vì
chỉ duy nhất một tay chơi có động cơ để bội ước – nhưng là một song đề xã hội
đến mức mà cân bằng Nash của nó lại không có sự cam kết thì chính là Pareto-cấp
thấp so với một kết quả có thể đạt được với một phương thức cam kết. Hãy giả
định rằng hai chúng ta cố gắng săn trộm một con linh dương hiếm trong một vườn
quốc gia để bán cho nhà trưng bày. Một người trong chúng ta phải lùa con vật
chạy về hướng người kia đang đợi để bắn nó và đưa nó vào một chiếc xe tải. Tất
nhiên bạn hứa chia cho tôi khoản tiền thu được. Tuy nhiên lời hứa của bạn là
không đáng tin cậy. Khi bạn đã nhận được tiền, bạn không có lý do gì để ném món
tiền đi mà lại bỏ được vào túi toàn bộ giá trị của nó. Cuối cùng tôi không thể oán
trách cảnh sát sao lại không bắt giữ cả tôi. Nhưng giờ đây hãy giả sử rằng tôi
bổ sung thêm một vận động tiếp theo vào trò chơi. Trước khi săn tôi lắp vào xe
tải một chiếc chuông báo động mà tôi có thể tắt nó chỉ bằng cách bấm vào một mã
số. Chỉ có mình tôi biết mã số đó. Nếu bạn cố tách ra khỏi tôi thì chuông sẽ
kêu và cả hai chúng ta sẽ bị bắt. Vì biết rõ về điều này nên bạn có động cơ để
đợi tôi. Vấn đề quyết định cần lưu ý trong tình huống này là bạn muốn tôi lắp chuông vì điều đó làm cho
lời hứa chia tiền của bạn cho tôi là đáng tin cậy. Nếu tôi không làm thế bằng
cách làm cho lời hứa của bạn không đáng tin cậy thì chúng ta sẽ không thể đồng
ý để trước hết là thử cái tội lỗi đó, và cả hai chúng ta sẽ bỏ mất một dịp kiếm
được tiền. Vậy là bạn được hưởng lợi từ sự giàng buộc của tôi đối với bạn.
Chúng
ta có thể kết hợp phân tích của mình về PD và các phương cách cam kết trong
thảo luận về việc ứng dụng đầu tiên làm cho lý thuyết trò chơi trở nên nổi
tiếng bên ngoài các cộng đồng học thuật. Tác dụng làm cân bằng hạt nhân giữa
các Siêu cường trong Chiến tranh lạnh đã được nghiên cứu một cách thấu đáo bởi
thế hệ đầu tiên của các nhà lý thuyết trò chơi, trong đó có nhiều người phục vụ
cho Bộ quốc phòng Mỹ. Xem (Poundstone 1992 để biết chi tiết về phương diện lịch
sử). Cả Mỹ và Liên Xô đều duy trì chính sách sau. Nếu một bên tiến hành tấn
công trước thì bên kia đe dọa trả đũa bằng một cuộc phản công hủy diệt. Cặp
chiến lược thuận nghịch này vào cuối những năm 1960s đã có khuynh hướng thực sự
làm cho thế giới căng thẳng theo cách “Sự huỷ diệt Được bảo hiểm Chung -
‘Mutually Assured Destruction’, or ‘MAD’). Các lý thuyết gia trò chơi phản ứng
rằng MAD quá mát (điên) vì nó làm cho Nan đề Người tù trở thành kết quả của một
sự thật là những đe dọa đối địch nhau là không thể tin được. Giả sử Liên Xô
khởi sự tấn công trước chống lại Mỹ. Trong thời điểm đó, tổng thống Mỹ đối mặt
với tình huống sau. Đất nước ông đã bị hủy diệt. Ông không thể làm cho nó hồi
sinh lại được bằng cách làm cho thế giới căng lên, vì vậy ông không có động cơ
để thực hiện lời đe dọa của mình, là thứ mà giờ đây đã thất bại rõ ràng.Vì
người Nga biết rõ điều đó nên họ sẽ phớt lờ lời đe dọa và tấn công trước! Tất
nhiên người Mỹ cũng ở vào tình trạng tương tự. Mỗi cường quốc sẽ nhận ra động
cơ này của phía bên kia, và vậy là sẽ đoán trước được cuộc tấn công nếu họ
không tiến hành trước. Vì vậy cái mà chúng ta sẽ chờ đợi, vì nó là một cân bằng
Nash duy nhất nên nó là cuộc chạy đua giữa hai cường quốc để trở thành kẻ tấn
công đầu tiên.
Việc
phân tích lý thuyết trò chơi đó đã gây ra một nỗi kinh hoàng thực sự và sự
hoảng sợ đối với cả hai bên trong thời gian Chiến tranh lạnh, và được cho là đã
tạo ra một số cố gắng to lớn trong việc xây dựng các phương cách cam kết chiến
lược. Chẳng hạn một số giai thoại ỡm ờ rằng Tổng thống Nixon đã bắt CIA cố gắng
chứng tỏ cho người Nga biết rằng ông ta
điên khùng hoặc say rượu đến mức mà họ tin rằng ông ta sẽ tiến hành tấn công
trả thù ngay cả khi ông ta không hề còn quan tâm đến nó nữa. Tương tự như vậy,
KGB Sôviết cũng tiết lộ để khẳng định rằng đã có những báo cáo chi tiết về y
học thổi phồng tình trạng suy nhược thần kinh tương tự của Brezhnev. Cuối cùng
thì sự cân bằng chiến lược làm cho các nhà phân tích thuộc Lầu năm góc quan tâm
trở nên rất phức tạp và có lẽ đã bị sụp đổ bởi những thay đổi trong các chiến
thuật triển khai tên lửa Mỹ. Họ trang bị cho các hạm đội tàu ngầm với số tên
lửa đủ để phá hủy Liên Xô. Điều này đã làm cho mạng lưới truyền thông của họ ít
tính đáng tin, và bằng cách làm như vậy, họ đã đưa ra được một yếu tố về tính
bất định có liên quan về phương diện chiến lược. Có lẽ tổng thống có thể ít
được đảm bảo tiếp cận được với các hạm đội tàu ngầm và ngừng ra lệnh tấn công
nếu bất cứ tên lửa nào của Liên Xô xuất hiện trên màn hình rađa ở Bắc Canada. Tất
nhiên giá trị của vấn đề này trong việc phá vỡ tính cân bằng tùy thuộc vào việc
người Nga có nhận thức được về vấn đề tiềm tàng hay không. Trong bộ phim kinh
điển của Stanley Kubrick Tiến sĩ
Strangelove, thì thế giới bị phá hủy bởi một sự tình cờ vì người Nga chế
tạo ra một chiếc máy cho ngày phán xử cuối cùng nó sẽ tự động ấn nút phát động
cuộc chiến tranh hủy diệt bất chấp quyết định của người lãnh đạo của đất nước
họ theo đuổi đến cùng đối với răn đe MAD, nhưng
sau đó lại giữ bí mật về nó! Kết quả là khi một đại tá Mỹ rõ ràng là bị
điên đã phóng các tên lửa vào Nga theo ý muốn của anh ta, thì tổng thống Mỹ
phải cố thuyết phục đối tác Sô viết của mình rằng cuộc tấn công đó là không hề
cố ý, và thủ tướng Nga đã bẽn lẽn nói với ông về chiếc máy tự động bí mật của
họ. Giờ đây có thể cả hai lãnh đạo sẽ không làm gì, mà chỉ nhìn vào sự mất hết
tinh thần khi thế giới bị căng cứng sợ hãi vì một sai lầm trong lý thuyết trò
chơi.
(Nên
có một cuộc thảo luận với đầy đủ trách nhiệm về tác dụng cân bằng trong Chiến
tranh lạnh đề cập đến các lý thuyết gia trò chơi đầu tiên hầu như chắc chắn đã
mắc sai lầm trong việc xây dựng mô hình Chiến tranh lạnh như một Nan đề Người
tù một lần duy nhất. Một mặt trò chơi cân bằng hạt nhân bị mắc kẹt trong những
trò chơi lớn hơn có tính chất phức tạp cao hơn. Mặt khác, người ta vẫn chưa
biết rõ là đối với một trong hai siêu cường khi hủy diệt siêu cường kia mà lại
tránh được tự hủy diệt mình trong thực tế là một kết quả được xếp loại cao
nhất. Nếu cả hai trường hợp đều không như vậy thì trò chơi ấy không phải là một
trò PD.
Cam
kết đôi khi có thể được đảm bảo thông qua giá trị đối với một người chơi về tăm tiếng riêng của người đó. Chẳng hạn
một chính phủ liều lĩnh đàm phát với bọn khủng bố để đảm bảo việc giải thoát
con tin trong một tình huống đặc biệt có thể cam kết với một chiến lược “con
đường trên cát” vì mục đích duy trì một tăm tiếng về tính bền bỉ có mục đích
giảm thiểu động cơ các cuộc tấn công trong tương lai. Một ví dụ khác được hãng
hàng không Qantas của Australia cung cấp. Qantas chưa bao giờ phải chịu bất cứ
sự cố nào và nó luôn luôn quảng cáo về vấn đề này. Điều này có nghĩa là các máy
bay của nó an toàn hơn trung bình ngay cả khi cái lợi thế đầu tiên chỉ là một
con toán thống kê, vì giá trị khả năng của nó để khẳng định một kỷ lục hoàn hảo
xuất hiện khi khả năng đó còn tiếp tục, vì vậy mà mang lại cho Hãng các động cơ
liên tục để chịu các chi phí cao hơn trong việc đảm bảo an toàn cho các chuyến
bay của nó.
Bất
cứ điều kiện nào cũng phải đảm bảo nếu các hiệu quả của tăm tiếng là một cam
kết. Trước hết trò chơi phải được lặp lại với tính bất định liên quan đến vòng
chơi nào là cuối cùng. Trò chơi PD lặp lại có thể được sử dụng để minh họa cho
tầm quan trọng của nguyên tắc này. Hợp tác có thể là một chiến lược thống trị
trong các trò chơi PD lặp lại vì một tay chơi có thể đạt được nhiều hơn từ
tiếng tăm của anh ta nhờ hợp tác, thông qua việc kích thích các hy vọng của sự
hợp tác với người khác hơn là anh ta có thể đạt được nhờ sự bội ước chỉ trong
một vòng chơi. Tuy nhiên nếu các tay chơi biết trước vòng chơi nào sẽ là vòng
cuối cùng của họ thì cân bằng đó đã được làm sáng tỏ. Trong vòng cuối cùng, tăm
tiếng không còn giá trị, và vì vậy cả hai tay chơi đều bội ước, vì vậy ở đây
tăm tiếng trở nên vô giá trị và họ sẽ lại bội ước. Điều đó làm cho tăm tiếng
trở nên vô giá trị trong vòng cuối cùng thứ ba, vv….Quá trình đó lặp đi lặp lại
đến vòng đầu tiên, vì vậy không hề có một sự hợp tác nào. Vấn đề này có thể
được khái quát hóa để ấn định điều kiện cơ bản nhất về khả năng đối với việc sử
dụng các hiệu quả tăm tiếng như là những phương thức cam kết: giá trị của tăm
tiếng đối với người vun trồng nó phải lớn hơn cái giá trị mà anh ta hy sinh nó
trong bất cứ vòng nào. Vì vậy các tay chơi có thể thiết lập cam kết bằng việc
giảm giá trị của mỗi vòng sao cho sự cám dỗ bộ ước trong mỗi vòng không bao giờ
đủ cao để làm cho nó trở thành duy lý. Chẳng hạn các bên tham gia một hợp đồng
có thể đổi nghĩa vụ của họ bằng các khoản tiền lãi nhỏ để giảm động cơ bội ước
cho cả hai phía. Vì vậy các nhà xây dựng trong các dự án xây dựng có thể được
thanh toán nhiều lần theo tháng, hoặc theo tuần. Tương tự như vậy Quĩ tiền tệ
Quốc tế thường miễn nợ cho các chính phủ bằng khoản nhỏ, vì vậy giảm được động
cơ của các chính phủ vi phạm các điều kiện cho vay khi tiền đã nằm trong tay
họ; và các chính phủ có thể thực sự thích các cách sắp xếp như vậy để giảm các
sức ép chính trị đối với việc sử dụng không tuân theo các điều khoản qui định.
Còn
nữa…
Tác
giả: Don Ross là Giáo sư Triết học tại Đại học
Alabama ở Birmingham,
Giáo sư Kinh tế học tại Đại học Cape Town, Nam Phi. Công trình chủ yếu: Economic
Theory and Cognitive Science: Microexplanation (MIT Press, 2005).
Nguyên
văn: Game Theory, The
Stanford Encyclopedia of Philosophy (Fall 2010 Edition), Edward N.
Zalta (ed.), First published Sat Jan
25, 1997; substantive revision Wed May 5, 2010
References
Baird, D., Gertner, R., and Picker, R. (1994). Game
Theory and the Law. Cambridge, MA: Harvard University Press.
Binmore, K., Kirman, A., and Tani, P. (eds.) (1993). Frontiers
of Game Theory. Cambridge, MA: MIT Press
Binmore, K. (1998). Game Theory
and the Social Contract (v. 2): Just Playing. Cambridge, MA: MIT
Press.
Camerer C. 2003. Behavioral Game Theory: Experiments in Strategic Interaction. Princeton:
Princeton University Press.
Danielson, P. (ed.) (1998). Modelling Rationality, Morality and Evolution. Oxford: Oxford University Press.
Fudenberg, D., and Tirole, J. (1991). Game
Theory. Cambridge, MA: MIT Press.
Gintis, H. (2004). Towards the Unity of the Human Behavioral
Sciences. In Philosophy, Politics and Economics 31:37-57.
Guala, F. (2005). The
Methodology of Experimental Economics. Cambridge: Cambridge University
Press.
Hofbauer J., Sigmund K. 1998. Evolutionary Games and Population Dynamics. Cambridge: Cambridge University Press.
Hofbauer J., Sigmund K. 1998. Evolutionary Games and Population Dynamics. Cambridge: Cambridge University Press.
Krebs, J., and Davies, N.(1984). Behavioral
Ecology: An Evolutionary Approach. Second edition. Sunderland: Sinauer.
Kreps, D. (1990). A Course in
Microeconomic Theory. Princeton: Princeton University Press.
McMillan, J. (1991). Games,
Strategies and Managers. Oxford: Oxford University Press.
Nash, J. (1950b). The Bargaining Problem. In Econometrica
18:155-162.
Nash, J. (1951). Non-cooperative Games. In Annals of
Mathematics Journal 54:286-295.
Ormerod, P. (1994). The Death
of Economics. New York: Wiley.
Rawls, J. (1971). A Theory of
Justice. Cambridge, MA: Harvard University Press.
Robbins, L. (1931). An Essay on
the Nature and Significance of Economic Science. London: Macmillan.
Ross D. 2005.
Evolutionary Game Theory and the
Normative Theory of Institutional Design: Binmore and Behavioral Economics. In
Politics, Philosophy and Economics,
forthcoming.
Ross D. and LaCasse C. 1995. Towards
a New Philosophy of Positive Economics. In Dialogue 34: 467-493.
Samuelson, L. (2005). Economic Theory and Experimental Economics.
In Journal of Economic Literature 43:65-107.
Selten, R. (1975). Re-examination of the Perfectness Concept
for Equilibrium Points in Extensive Games. In International Journal of
Game Theory 4:22-55.
Sigmund, K. (1993). Games of
Life. Oxford: Oxford University Press.
Smith V. 1982. Microeconomic Systems as an Experimental Science. In American Economic Review 72:923-955.
Sober, E., and Wilson, D.S. (1998). Unto
Others. Cambridge, MA: Harvard University Press.
Tomasello M, M. Carpenter, J. Call, T. Behne and H. Moll (2004). Understanding and Sharing Intentions: The Origins of Cultural Cognition.
In Behavioral and Brain Sciences, forthcoming.
Vallentyne, P. (ed.). (1991). Contractarianism
and Rational Choice. Cambridge: Cambridge University Press.
von Neumann, J., and Morgenstern, O., (1947). The
Theory of Games and Economic Behavior. Princeton: Princeton University
Press, 2nd edition.
Weibull, J. (1995). Evolutionary
Game Theory. Cambridge, MA: MIT Press.
Yaari, M. (1987). The Dual Theory of Choice Under Risk. In
Econometrica 55:95-115.
Young, H.P. (1998). Individual
Strategy and Social Structure. Princeton: Princeton University Press.
Không có nhận xét nào:
Đăng nhận xét