Tiếng vọng KATTIGARA: Lý thuyết Trò chơi (V)

Lý thuyết Trò chơi (V)

Don Ross

Người dịch: Hà Hữu Nga

4. Những trò chơi lặp lại và việc điều phối

Đến bây giờ chúng ta đã giới hạn sự chú ý của mình vào trò chơi một lần duy nhất, có nghĩa là những trò chơi trong đó các mối quan tâm chiến lược của các tay chơi không mở rộng hơn nút cuối của mối tương tác đơn của họ. Tuy nhiên các trò chơi thường được chơi với các trò chơi tương lai trong tư duy, và điều này có thể thay thế đáng kể cho những kết quả và các chiến lược cân bằng của họ. Đề tài của chúng ta trong phần này là những trò chơi lặp lại, có nghĩa là các trò chơi trong đó các tập hợp tay chơi mong muốn đối đầu với nhau ở những tình huống tương tự trong nhiều cơ hội. Chúng ta tiếp cận với những trò chơi này trước hết thông qua cái bối cảnh giới hạn của các nan đề người tù (PD) được nhắc lại.

Chúng ta đã thấy rằng trong một trò chơi PD một lần duy nhất thì chỉ có duy nhất một cân bằng Nash NE là sự phản bội chung. Tuy nhiên điều này có thể không duy trì được nữa khi các tay chơi mong muốn gặp lại nhau trong các trò chơi PD tương lai. Hãy tưởng tượng rằng bốn công ty khi tất cả đều thực hiện các cải tiến đồng ý với nhau giữ giá cao bằng cách hạn chế cung. (Tức là họ thành lập một cartel.) Điều đó sẽ chỉ thực hiện được khi mỗi công ty duy trì được hạn ngạch xuất đã được thỏa thuận. Một cách rất đặc trưng là mỗi công ty có thể tối đa hóa lợi nhuận của mình bằng cách không tuân thủ hạn ngạch đã được cam kết trong khi các công ty khác quan sát được công việc của họ, vì thế sau đó nó bán nhiều đơn vị ở mức giá thị trường cao hơn mức cartel qui định hầu như nguyên vẹn đó. Trong trường hợp một lần duy nhất toàn bộ các công ty sẽ cùng chung động cơ này để bỏ cam kết và cartel ấy sẽ lập tức sụp đổ. Tuy nhiên các công ty mong muốn đối mặt với nhau trong cạnh tranh trong một giai đoạn dài. Trong trường hợp này mỗi công ty biết rằng nếu nó vi phạm thỏa thuận của cartel thì các công ty khác có thể trừng phạt nó bằng cách định giá dưới giá trong một thời gian dài đủ để loại bỏ cái thắng lợi ngắn hạn của nó. Tất nhiên các công ty trừng phạt sẽ chịu thiệt thòi ngắn hạn trong giai đoạn định giá dưới giá. Nhưng những thiệt thòi này cũng đáng để chịu nếu họ mong muốn tái lập cartel và để tối đa hóa mức giá về lâu dài.

Một chiến lược đơn giản và rất nổi tiếng (nhưng không nhất thiết là tối ưu, ngược lại với cái huyền thoại phổ biến rộng khắp) trong việc bảo vệ sự hợp tác trong các trò chơi PD lặp lại được gọi là tit-for-tat. Chiến lược này bảo cho mỗi tay chơi cách hành xử như sau:

i) Luôn luôn hợp tác ở vòng đầu

ii) Sau đó thực hiện bất cứ hành động nào mà đối thủ của bạn thực hiện ở vòng trước.

Một nhóm tay chơi tất cả đều chơi trò tit-for-tat sẽ không bao giờ thấy bất cứ một sự bội ước nào. Vì trong một tập hợp nơi mà những người khác chơi tit-for-tat, thì tit-for-tat đáp trả duy lý đối với mỗi tay chơi, mỗi tay chơi tit-for-tat đều là một cân bằng Nash NE. Bạn vẫn thường thấy một số người biết đôi chút về lý thuyết trò chơi (nhưng không đủ) nói cứ như đây là nơi kết thúc của câu chuyện. Thực ra thì không phải như vậy.

Có hai điều phức tạp ở đây. Trước hết, các tay chơi phải không chắc chắn về việc là khi nào thì hành động của họ kết thúc. Giả sử các tay chơi biết khi nào thì vòng cuối cùng sẽ đến. Trong vòng đó, người chơi sẽ là người duy lý để bội ước, vì không có sự trừng phạt nào có thể thực hiện được. Bây giờ chúng ta hãy xem vòng cuối cùng-thứ hai. Trong vòng này, các tay chơi cũng không phải đối mặt với bất cứ sự đe dọa trừng phạt nào, vì họ biết thế nào họ cũng sẽ bội ước ở vòng cuối cùng. Vì vậy họ bội ước ở vòng cuối cùng thứ hai. Nhưng điều đó có nghĩa là họ không phải đối mặt với đe dọa trừng phạt ở vòng cuối cùng thứ ba, và cũng bội ước ở đó. Chúng ta có thể đơn giản lặp đi lặp lại điều đó qua cây trò chơi cho đến khi chúng ta đạt được vòng đầu tiên. Vì hợp tác không duy lý trong vòng đó nên trò chơi tit-for-tat không còn là một chiến lược duy lý, và chúng ta đạt được cùng một kết quả - sự bội ước chung – như trong trò chơi PD một lần duy nhất vậy. Vì vậy hợp tác chỉ là có thể trong trò chơi PD lặp lại mà ở đó số lần lặp lại mong muốn là vô định. (Tất nhiên, điều này áp dụng cho nhiều trò chơi trong đời thực).

Nhưng giờ đây chúng tôi xin giới thiệu một rắc rối thứ hai. Hãy giả định rằng khả năng của những người chơi để phân biệt sự bội ước khỏi sự hợp tác là không hoàn hảo. Hãy xem xét trường hợp của chúng ta về cái cartel thực hiện các cải tiến đã nói. Giả sử các tay chơi thấy rõ thị trường sản phẩm xuống giá. Có lẽ đó là vì một thành viên trong cartel đã bội ước. Hoặc có lẽ đã nảy sinh ra một tình trạng khủng hoảng cầu ngoại sinh. Nếu các tay chơi tit-for-tat mắc lỗi ở trường hợp thứ hai thay cho trường hợp thứ nhất thì họ sẽ bội ước, vậy là tình trạng tăng phản ứng dây truyền những bội ước chung mà từ đó chúng có thể không bao giờ khôi phục lại được, vì mỗi tay chơi sẽ đáp lại cái bội ước đầu tiên mà họ gặp phải, vậy là bội ước ngày càng tăng thêm, vv....

Nếu các tay chơi biết rằng có thể xảy ra tình trạng giao tiếp sai lệch như vậy thì họ phải viện đến các chiến lược tinh vi hơn. Đặc biệt họ cần chuẩn bị để đôi khi phải liều thực hiện các bội ước để kiểm tra các suy luận của họ. Tuy nhiên họ không được đối xử quá tha thứ, vì sợ những tay chơi khác phát hiện được rằng tối ưu duy lý có thể giúp khai thác thông qua những bội ước cố ý. Nói chung các chiến lược tinh vi đều có vấn đề. Vì đối với những người chơi khác chúng khó suy luận hơn nên càng ngày họ càng sử dụng nhiều xác suất giao tiếp sai. Nhưng giao tiếp sai lại là cái tạo ra những cân bằng hợp tác trong trò chơi lặp lại để tháo gỡ ở ngay vị trí đầu tiên! Đạo lý của vấn đề này là ở chỗ các trò chơi PD thậm chí ngay cả những trò chơi lặp lại cũng rất khó thoát ra được. Các tay chơi duy lý tìm mọi cách để tránh các tình huống PD, mà không dựa vào các mưu chước tinh quái để cố thoát ra khỏi chúng.

Các màn kịch chính trị xã hội thực và phức tạp đôi khi cũng là những ví dụ rất sáng rõ cho những trò chơi đơn giản như PD. Hardin (1995) đã đưa ra một phân tích về hai trường hợp chính trị rất thực (và rất bi kịch) mới đây là cuộc nội chiến Yugoslavia 1991-1995, và sự diệt chủng tại Rwanda như là những trò chơi PD ẩn bên trong các trò chơi phối hợp. Một trò chơi phối hợp xuất hiện khi tiện ích của hai hoặc nhiều tay chơi được tối đa hóa bằng cách thực hiện cùng một việc, và ở nơi mà đối với họ sự phù hợp quan trọng hơn cái mà cả hai bên cùng làm.

Một ví dụ tiêu biểu thể hiện qua các qui tắc đi đường: “Tất cả đều lái xe bên trái” vừa là những kết quả thuộc các cân bằng Nash, lại vừa không hiệu quả hơn kết quả khác. Trong các trò chơi phối hợp “thuần túy”, thậm chí việc sử dụng các tiêu chuẩn cân bằng lựa chọn nhiều hơn cũng không ích gì. Chẳng hạn giả sử rằng chúng ta yêu cầu các tay chơi suy lý theo qui tắc Bayes (xem phần 3 ở trên). Trong các hoàn cảnh này, bất cứ chiến lược nào là lời đáp hiệu quả nhất đối với bất cứ vector nào của các chiến lược hỗn hợp có sẵn trong cân bằng Nash thì đều được gọi là có thể duy lý hóa. Có nghĩa là một tay chơi có thể phát hiện ra một tập hệ thống các niềm tin cho những tay chơi khác đến mức mà bất cứ một lịch sử trò chơi nào đi theo một đường dẫn cân bằng thì cũng đều phù hợp với tập hệ thống đó. Các trò chơi phối hợp thuần túy đều được đặc trưng bởi những vector không-duy nhất của các chiến lược có thể duy lý hóa. Trong những tình huống như vậy, các tay chơi có thể cố tiên đoán những cân bằng bằng cách đi tìm những tiêu điểm, có nghĩa là các đặc điểm của một vài chiến lược mà họ tin là quan trọng nhất đối với các tay chơi khác, và họ tin là những tay chơi khác cũng sẽ tin là quan trọng nhất đối với họ. (Chẳng hạn nếu hai người muốn gặp nhau vào một ngày nhất định trong một thành phố lớn nhưng lại không thể liên lạc được với nhau để sắp xếp về thời gian và địa điểm, thì có lẽ cả hai phải rất nhạy bén đi đến các quảng trường nổi tiếng nhất ở trung tâm thành phố vào buổi trưa). Không may là trong nhiều trò chơi chính trị và xã hội do con người thực hiện (và đôi khi cả những con thú khác) thì các thuộc tính bề mặt mang tính sinh học mà con người tự phân loại thành các nhóm chủng tộc và dân tộc đều tỏ ra có hiệu quả cao như những đặc điểm đó. Phân tích của Hardin về các cuộc diệt chủng là dựa vào sự thật này.

Theo Hardin, không phải các thảm họa ở Yugoslavia, cũng không phải các thảm họa ở Rwanda là những trò chơi mà người ta bắt đầu với chúng. Có nghĩa là không phải là tình thế, mà là phe phái, chính hầu hết mọi người bắt đầu bằng cách đối chiếu sự hủy hoại của người khác với sự hợp tác chung. Tuy nhiên cái logic chết người của sự phối hợp, được tiếp tay làm bậy một cách chu đáo của các chính khách đã tạo ra các trò chơi PD một cách sôi động. Một số cá nhân người Serbs (Hutus) đã được cổ vũ để lĩnh hội các quyền lợi cá nhân như là những gì đúng đắn nhất thông qua việc đồng nhất với các lợi ích nhóm của người Serbs (Hutus). Có nghĩa là họ nhận thức rằng một số hoàn cảnh của họ chẳng hạn như những hoàn cảnh liên quan đến cạnh tranh về việc làm thực sự có hình thức giống hệt các trò chơi phối hợp. Vì vậy họ đã hành động sao cho có thể tạo ra được các tình huống mà trong đó điều này cũng là thật đối với những người Serbs (Hutus) khác. Rốt cuộc, một khi đủ người Surbs đồng nhất tư lợi với quyền lợi nhóm thì sự đồng nhất đó trở nên hầu như là hoàn toàn chính xác, vì (1) mục đích quan trọng nhất đối với mỗi người Serb là thực hiện một cái gì đó na ná như mỗi người Serb khác sẽ làm, và (2) hầu hết những gì mà người Serb phải làm để có thể phối hợp lại thì chính là loại trừ người Croats (Tutsi). Có nghĩa là các chiến lược liên quan đến hành vi loại trừ như vậy được lựa chọn như là một kết quả của việc xác định được các tiêu điểm hiệu quả. Chính tình huống này đã làm nảy sinh trường hợp là quyền tư lợi của một cá nhân – và bị đe dọa về phương diện cá nhân - người Croat (Tutsi) được tối đa hóa một cách tốt nhất bằng việc phối hợp lại dựa trên bản sắc-nhóm Croat (Tutsi) quả quyết, chính là thứ làm tăng thêm sức ép đối với người Serbs (Hutus) để họ phối hợp lại, vv….

Cần lưu ý rằng đó không phải là một khía cạnh của việc phân tích này, một khía cạnh mà những người Serbs hoặc Hutus bắt đầu các công việc của họ; quá trình đó có thể hoàn toàn mang tính thuận nghịch (ngay cả khi nó không diễn ra trong thực tế). Nhưng kết quả thì lại thật là khủng khiếp: người Serbs và Croats (Hutus và Tutsis) hình như càng ngày càng đe dọa nhau khi họ cùng chạy đua tự vệ, cho đến khi cả hai đều thấy bắt buộc phải hành động trước để ngăn chặn đối thủ và đánh phủ đầu. Nếu Hardin đúng – và vấn đề ở đây không phải là nhất quyết rằng ông ta đúng hay không, mà điều cần thiết là phải chỉ ra rằng tầm quan trọng mang tính thế giới của việc quyết định xem những tác nhân trò chơi nào thực sự đang chơi – sau đó sự hiện diện duy nhất của một áp lực bên ngoài (NATO?) cũng sẽ không thay đổi được trò chơi, thay đổi được thế cờ mà sự phân tích theo quan niệm của Hobbes, vì áp lực đó có thể đã không đe dọa bên này hai bên kia bằng bất cứ cái gì tồi hơn cái khiến cho tay chơi này e ngại tay chơi kia. Cái cần thiết chính là sự chia lại các thang giá trị của các lợi ích, là thứ (người ta có thể cho rằng) đã xảy ra ở Yugoslavia khi quân đội Croatian bắt đầu chiến thắng một cách quyết định, trong cái thời điểm mà những người Serbs Bosnia quyết định rằng các lợi ích cá nhân/nhóm của họ được đáp ứng tốt nhất bằng sự hiện diện của các lực lượng giữ gìn hòa bình của NATO. Trong khi cuộc xung đột ở Rwanda đã kéo theo vào đó các quốc gia láng giềng (Congo) mà những phát triển chính trị và quân sự đã làm cho nó thay đổi.

Tất nhiên vấn đề không phải là ở chỗ hầu hết những trò chơi lặp lại đều dẫn tới thảm họa. Cơ sở sinh học của tình bạn ở con người và ở động vật có lẽ phần nào là một hàm logic của các trò chơi lặp lại. Tầm quan trọng của khoản nhận được thông qua sự hợp tác trong các trò chơi tương lai hướng dẫn những con người mong muốn tương tác với nhau trở nên ít ích kỷ hơn sự cám dỗ sẽ gợi ý trong các trò chơi hiện tại. Hơn nữa, việc chăm sóc cho những lợi ích và tình cảm chung đem đến những mạng lưới của các tâm điểm xung quanh những gì mà sự phối hợp có thể được tạo thêm điều kiện thuận lợi.

5. Cam kết

Trong một số trò chơi, các tay chơi cải thiện các kết quả của họ bằng cách thực hiện các hành động làm cho họ không thể thực hiện được những gì là hành động thành công nhất của mình trong các trò chơi vận động đồng thời tương ứng. Những hành động như vậy được coi như là các cam kết, và chúng có thể được coi là các thay thế cho sự tăng cường ngoại sinh trong các trò chơi gắn chặt với các cân bằng không hiệu quả-Pareto.

Hãy xem xét kỹ lưỡng cái ví dụ giả định sau đây (đây không phải là một trò chơi PD). Giả sử bạn sở hữu một mảnh đất nằm kề một cái mỏ, và tôi muốn mua nó để mở rộng thêm mảnh đất của tôi. Chẳng may bạn lại không muốn bán với cái giá mà tôi muốn mua. Nếu chúng ta đồng thời thay đổi – bạn thông báo một giá bán còn tôi thì cũng độc lập đưa cho nhân viên của tôi một cái giá hỏi mua lúc đầu – sẽ không có sự mua bán trong trường hợp này. Vì vậy tôi có thể cố gắng thay đổi các động cơ của tôi bằng cách thực hiện một vận động mở trong đó tôi tuyên bố rằng tôi sẽ xây dựng một nhà máy xử lý nước thải có mùi thối trên mảnh đất của tôi, bên cạnh mảnh đất của bạn trừ khi bạn bán miếng đất đó, bằng cách ấy giảm giá của bạn. Giờ đây chúng ta quay trở lại với trò chơi vận động tuần tự. Tuy nhiên cho đến bây giờ vận động này vẫn không thay đổi được điều gì cả. Nếu bạn từ chối ngay cả khi tôi đe dọa, sau đó tôi cũng chẳng quan tâm gì đến vấn đề đó nữa, bởi vì trong khi phá bạn, tôi cũng phá chính bản thân tôi. Vì khi bạn biết điều này thì bạn cũng sẽ lờ đi lời đe dọa của tôi. Lời đe dọa của tôi là không đáng tin, một câu chuyện vớ vẩn.

Tuy nhiên tôi vẫn có thể làm cho câu truyện của mình đáng tin bằng cách cam kết với chính bản thân mình. Tôi có thể ký một hợp đồng với một số nông dân bằng cách hứa cung cấp cho họ nước thải đã xử lý (phân bón) từ nhà máy của tôi, nhưng bao gồm một điều khoản thoát trong hợp đồng giải thoát tôi khỏi trách nhiệm chỉ khi tôi có thể mở rộng gấp đôi mảnh đất của tôi và đưa nó vào một mục đích sử dụng khác. Giờ đây lời đe dọa của tôi là đáng tin: nếu bạn không bán, tôi sẽ cam kết xây dựng một nhà máy xử lý chất thải. Vì bạn biết điều này nên giờ đây bạn có một động cơ để bán mảnh đất của bạn cho tôi để thoát khỏi sự phá sản đó.

Loại trường hợp này bộc lộ một trong nhiều khác biệt cơ bản giữa logic của sự tối đa hóa tham số và phi tham số. Trong các tình huống tham số, một tác nhân có thể không bao giờ bị chơi xấu bằng cách có nhiều lựa chọn hơn. Nhưng ở đâu các hoàn cảnh là phi tham số thì chiến lược của một tác nhân có thể bị ảnh hưởng vào sở thích của người khác nếu các lựa chọn rõ ràng là hạn chế. Sự kiện đốt thuyền của Cortez (xem phần I) tất nhiên là một ví dụ về trường hợp này, một ví dụ có thể được sử dụng để tạo ra cái ẩn dụ thông thường.

Một ví dụ khác sẽ minh họa cho điều này, cũng như minh họa cho tính có thể ứng dụng của các nguyên tắc các loại trò chơi. Trong trường hợp này chúng ta sẽ xây dựng một tình huống tưởng tượng, một tình huống không phải là một trò chơi PD – vì chỉ duy nhất một tay chơi có động cơ để bội ước – nhưng là một song đề xã hội đến mức mà cân bằng Nash của nó lại không có sự cam kết thì chính là Pareto-cấp thấp so với một kết quả có thể đạt được với một phương thức cam kết. Hãy giả định rằng hai chúng ta cố gắng săn trộm một con linh dương hiếm trong một vườn quốc gia để bán cho nhà trưng bày. Một người trong chúng ta phải lùa con vật chạy về hướng người kia đang đợi để bắn nó và đưa nó vào một chiếc xe tải. Tất nhiên bạn hứa chia cho tôi khoản tiền thu được. Tuy nhiên lời hứa của bạn là không đáng tin cậy. Khi bạn đã nhận được tiền, bạn không có lý do gì để ném món tiền đi mà lại bỏ được vào túi toàn bộ giá trị của nó. Cuối cùng tôi không thể oán trách cảnh sát sao lại không bắt giữ cả tôi. Nhưng giờ đây hãy giả sử rằng tôi bổ sung thêm một vận động tiếp theo vào trò chơi. Trước khi săn tôi lắp vào xe tải một chiếc chuông báo động mà tôi có thể tắt nó chỉ bằng cách bấm vào một mã số. Chỉ có mình tôi biết mã số đó. Nếu bạn cố tách ra khỏi tôi thì chuông sẽ kêu và cả hai chúng ta sẽ bị bắt. Vì biết rõ về điều này nên bạn có động cơ để đợi tôi. Vấn đề quyết định cần lưu ý trong tình huống này là bạn muốn tôi lắp chuông vì điều đó làm cho lời hứa chia tiền của bạn cho tôi là đáng tin cậy. Nếu tôi không làm thế bằng cách làm cho lời hứa của bạn không đáng tin cậy thì chúng ta sẽ không thể đồng ý để trước hết là thử cái tội lỗi đó, và cả hai chúng ta sẽ bỏ mất một dịp kiếm được tiền. Vậy là bạn được hưởng lợi từ sự giàng buộc của tôi đối với bạn.

Chúng ta có thể kết hợp phân tích của mình về PD và các phương cách cam kết trong thảo luận về việc ứng dụng đầu tiên làm cho lý thuyết trò chơi trở nên nổi tiếng bên ngoài các cộng đồng học thuật. Tác dụng làm cân bằng hạt nhân giữa các Siêu cường trong Chiến tranh lạnh đã được nghiên cứu một cách thấu đáo bởi thế hệ đầu tiên của các nhà lý thuyết trò chơi, trong đó có nhiều người phục vụ cho Bộ quốc phòng Mỹ. Xem (Poundstone 1992 để biết chi tiết về phương diện lịch sử). Cả Mỹ và Liên Xô đều duy trì chính sách sau. Nếu một bên tiến hành tấn công trước thì bên kia đe dọa trả đũa bằng một cuộc phản công hủy diệt. Cặp chiến lược thuận nghịch này vào cuối những năm 1960s đã có khuynh hướng thực sự làm cho thế giới căng thẳng theo cách “Sự huỷ diệt Được bảo hiểm Chung - ‘Mutually Assured Destruction’, or ‘MAD’). Các lý thuyết gia trò chơi phản ứng rằng MAD quá mát (điên) vì nó làm cho Nan đề Người tù trở thành kết quả của một sự thật là những đe dọa đối địch nhau là không thể tin được. Giả sử Liên Xô khởi sự tấn công trước chống lại Mỹ. Trong thời điểm đó, tổng thống Mỹ đối mặt với tình huống sau. Đất nước ông đã bị hủy diệt. Ông không thể làm cho nó hồi sinh lại được bằng cách làm cho thế giới căng lên, vì vậy ông không có động cơ để thực hiện lời đe dọa của mình, là thứ mà giờ đây đã thất bại rõ ràng.Vì người Nga biết rõ điều đó nên họ sẽ phớt lờ lời đe dọa và tấn công trước! Tất nhiên người Mỹ cũng ở vào tình trạng tương tự. Mỗi cường quốc sẽ nhận ra động cơ này của phía bên kia, và vậy là sẽ đoán trước được cuộc tấn công nếu họ không tiến hành trước. Vì vậy cái mà chúng ta sẽ chờ đợi, vì nó là một cân bằng Nash duy nhất nên nó là cuộc chạy đua giữa hai cường quốc để trở thành kẻ tấn công đầu tiên.

Việc phân tích lý thuyết trò chơi đó đã gây ra một nỗi kinh hoàng thực sự và sự hoảng sợ đối với cả hai bên trong thời gian Chiến tranh lạnh, và được cho là đã tạo ra một số cố gắng to lớn trong việc xây dựng các phương cách cam kết chiến lược. Chẳng hạn một số giai thoại ỡm ờ rằng Tổng thống Nixon đã bắt CIA cố gắng chứng tỏ cho người Nga biết rằng ông ta điên khùng hoặc say rượu đến mức mà họ tin rằng ông ta sẽ tiến hành tấn công trả thù ngay cả khi ông ta không hề còn quan tâm đến nó nữa. Tương tự như vậy, KGB Sôviết cũng tiết lộ để khẳng định rằng đã có những báo cáo chi tiết về y học thổi phồng tình trạng suy nhược thần kinh tương tự của Brezhnev. Cuối cùng thì sự cân bằng chiến lược làm cho các nhà phân tích thuộc Lầu năm góc quan tâm trở nên rất phức tạp và có lẽ đã bị sụp đổ bởi những thay đổi trong các chiến thuật triển khai tên lửa Mỹ. Họ trang bị cho các hạm đội tàu ngầm với số tên lửa đủ để phá hủy Liên Xô. Điều này đã làm cho mạng lưới truyền thông của họ ít tính đáng tin, và bằng cách làm như vậy, họ đã đưa ra được một yếu tố về tính bất định có liên quan về phương diện chiến lược. Có lẽ tổng thống có thể ít được đảm bảo tiếp cận được với các hạm đội tàu ngầm và ngừng ra lệnh tấn công nếu bất cứ tên lửa nào của Liên Xô xuất hiện trên màn hình rađa ở Bắc Canada. Tất nhiên giá trị của vấn đề này trong việc phá vỡ tính cân bằng tùy thuộc vào việc người Nga có nhận thức được về vấn đề tiềm tàng hay không. Trong bộ phim kinh điển của Stanley Kubrick Tiến sĩ Strangelove, thì thế giới bị phá hủy bởi một sự tình cờ vì người Nga chế tạo ra một chiếc máy cho ngày phán xử cuối cùng nó sẽ tự động ấn nút phát động cuộc chiến tranh hủy diệt bất chấp quyết định của người lãnh đạo của đất nước họ theo đuổi đến cùng đối với răn đe MAD, nhưng sau đó lại giữ bí mật về nó! Kết quả là khi một đại tá Mỹ rõ ràng là bị điên đã phóng các tên lửa vào Nga theo ý muốn của anh ta, thì tổng thống Mỹ phải cố thuyết phục đối tác Sô viết của mình rằng cuộc tấn công đó là không hề cố ý, và thủ tướng Nga đã bẽn lẽn nói với ông về chiếc máy tự động bí mật của họ. Giờ đây có thể cả hai lãnh đạo sẽ không làm gì, mà chỉ nhìn vào sự mất hết tinh thần khi thế giới bị căng cứng sợ hãi vì một sai lầm trong lý thuyết trò chơi.

(Nên có một cuộc thảo luận với đầy đủ trách nhiệm về tác dụng cân bằng trong Chiến tranh lạnh đề cập đến các lý thuyết gia trò chơi đầu tiên hầu như chắc chắn đã mắc sai lầm trong việc xây dựng mô hình Chiến tranh lạnh như một Nan đề Người tù một lần duy nhất. Một mặt trò chơi cân bằng hạt nhân bị mắc kẹt trong những trò chơi lớn hơn có tính chất phức tạp cao hơn. Mặt khác, người ta vẫn chưa biết rõ là đối với một trong hai siêu cường khi hủy diệt siêu cường kia mà lại tránh được tự hủy diệt mình trong thực tế là một kết quả được xếp loại cao nhất. Nếu cả hai trường hợp đều không như vậy thì trò chơi ấy không phải là một trò PD.

Cam kết đôi khi có thể được đảm bảo thông qua giá trị đối với một người chơi về tăm tiếng riêng của người đó. Chẳng hạn một chính phủ liều lĩnh đàm phát với bọn khủng bố để đảm bảo việc giải thoát con tin trong một tình huống đặc biệt có thể cam kết với một chiến lược “con đường trên cát” vì mục đích duy trì một tăm tiếng về tính bền bỉ có mục đích giảm thiểu động cơ các cuộc tấn công trong tương lai. Một ví dụ khác được hãng hàng không Qantas của Australia cung cấp. Qantas chưa bao giờ phải chịu bất cứ sự cố nào và nó luôn luôn quảng cáo về vấn đề này. Điều này có nghĩa là các máy bay của nó an toàn hơn trung bình ngay cả khi cái lợi thế đầu tiên chỉ là một con toán thống kê, vì giá trị khả năng của nó để khẳng định một kỷ lục hoàn hảo xuất hiện khi khả năng đó còn tiếp tục, vì vậy mà mang lại cho Hãng các động cơ liên tục để chịu các chi phí cao hơn trong việc đảm bảo an toàn cho các chuyến bay của nó.

Bất cứ điều kiện nào cũng phải đảm bảo nếu các hiệu quả của tăm tiếng là một cam kết. Trước hết trò chơi phải được lặp lại với tính bất định liên quan đến vòng chơi nào là cuối cùng. Trò chơi PD lặp lại có thể được sử dụng để minh họa cho tầm quan trọng của nguyên tắc này. Hợp tác có thể là một chiến lược thống trị trong các trò chơi PD lặp lại vì một tay chơi có thể đạt được nhiều hơn từ tiếng tăm của anh ta nhờ hợp tác, thông qua việc kích thích các hy vọng của sự hợp tác với người khác hơn là anh ta có thể đạt được nhờ sự bội ước chỉ trong một vòng chơi. Tuy nhiên nếu các tay chơi biết trước vòng chơi nào sẽ là vòng cuối cùng của họ thì cân bằng đó đã được làm sáng tỏ. Trong vòng cuối cùng, tăm tiếng không còn giá trị, và vì vậy cả hai tay chơi đều bội ước, vì vậy ở đây tăm tiếng trở nên vô giá trị và họ sẽ lại bội ước. Điều đó làm cho tăm tiếng trở nên vô giá trị trong vòng cuối cùng thứ ba, vv….Quá trình đó lặp đi lặp lại đến vòng đầu tiên, vì vậy không hề có một sự hợp tác nào. Vấn đề này có thể được khái quát hóa để ấn định điều kiện cơ bản nhất về khả năng đối với việc sử dụng các hiệu quả tăm tiếng như là những phương thức cam kết: giá trị của tăm tiếng đối với người vun trồng nó phải lớn hơn cái giá trị mà anh ta hy sinh nó trong bất cứ vòng nào. Vì vậy các tay chơi có thể thiết lập cam kết bằng việc giảm giá trị của mỗi vòng sao cho sự cám dỗ bộ ước trong mỗi vòng không bao giờ đủ cao để làm cho nó trở thành duy lý. Chẳng hạn các bên tham gia một hợp đồng có thể đổi nghĩa vụ của họ bằng các khoản tiền lãi nhỏ để giảm động cơ bội ước cho cả hai phía. Vì vậy các nhà xây dựng trong các dự án xây dựng có thể được thanh toán nhiều lần theo tháng, hoặc theo tuần. Tương tự như vậy Quĩ tiền tệ Quốc tế thường miễn nợ cho các chính phủ bằng khoản nhỏ, vì vậy giảm được động cơ của các chính phủ vi phạm các điều kiện cho vay khi tiền đã nằm trong tay họ; và các chính phủ có thể thực sự thích các cách sắp xếp như vậy để giảm các sức ép chính trị đối với việc sử dụng không tuân theo các điều khoản qui định.

Còn nữa…

Tác giả: Don Ross là Giáo sư Triết học tại Đại học Alabama ở Birmingham, Giáo sư Kinh tế học tại Đại học Cape Town, Nam Phi. Công trình chủ yếu: Economic Theory and Cognitive Science: Microexplanation (MIT Press, 2005).

Nguyên văn: Game Theory, The Stanford Encyclopedia of Philosophy (Fall 2010 Edition), Edward N. Zalta (ed.), First published Sat Jan 25, 1997; substantive revision Wed May 5, 2010

References

Baird, D., Gertner, R., and Picker, R. (1994). Game Theory and the Law. Cambridge, MA: Harvard University Press.

Binmore, K., Kirman, A., and Tani, P. (eds.) (1993). Frontiers of Game Theory. Cambridge, MA: MIT Press

Binmore, K. (1998). Game Theory and the Social Contract (v. 2): Just Playing. Cambridge, MA: MIT Press.

Camerer C. 2003. Behavioral Game Theory: Experiments in Strategic Interaction. Princeton: Princeton University Press.

Danielson, P. (ed.) (1998). Modelling Rationality, Morality and Evolution. Oxford: Oxford University Press.

Fudenberg D., and Levine D. 1998. The Theory of Learning in Games. Cambridge, MA: MIT Press.

Fudenberg, D., and Tirole, J. (1991). Game Theory. Cambridge, MA: MIT Press.

Gintis, H. (2004). Towards the Unity of the Human Behavioral Sciences. In Philosophy, Politics and Economics 31:37-57.

Guala, F. (2005). The Methodology of Experimental Economics. Cambridge: Cambridge University Press.

Hofbauer J., Sigmund K. 1998. Evolutionary Games and Population Dynamics. Cambridge: Cambridge University Press.

Krebs, J., and Davies, N.(1984). Behavioral Ecology: An Evolutionary Approach. Second edition. Sunderland: Sinauer.

Kreps, D. (1990). A Course in Microeconomic Theory. Princeton: Princeton University Press.

Maynard Smith J. 1982. Evolution and the Theory of Games. Cambridge: Cambridge University Press.

McMillan, J. (1991). Games, Strategies and Managers. Oxford: Oxford University Press.

Nash J. 1950a. Equilibrium Points in n-Person Games. In PNAS 36:48-49.

Nash, J. (1950b). The Bargaining Problem. In Econometrica 18:155-162.

Nash, J. (1951). Non-cooperative Games. In Annals of Mathematics Journal 54:286-295.

Ormerod, P. (1994). The Death of Economics. New York: Wiley.

Rawls, J. (1971). A Theory of Justice. Cambridge, MA: Harvard University Press.

Robbins, L. (1931). An Essay on the Nature and Significance of Economic Science. London: Macmillan.

Ross D. 2005. Evolutionary Game Theory and the Normative Theory of Institutional Design: Binmore and Behavioral Economics. In Politics, Philosophy and Economics, forthcoming.

Ross D. and LaCasse C. 1995. Towards a New Philosophy of Positive Economics. In Dialogue 34: 467-493.

Samuelson, L. 1997. Evolutionary Games and Equilibrium Selection. Cambridge, MA: MIT Press.

Samuelson, L. (2005). Economic Theory and Experimental Economics. In Journal of Economic Literature 43:65-107.

Samuelson P. 1938. A Note on the Pure Theory of Consumers' Behaviour. In Econimica 5:61-71.

Selten, R. (1975). Re-examination of the Perfectness Concept for Equilibrium Points in Extensive Games. In International Journal of Game Theory 4:22-55.

Sigmund, K. (1993). Games of Life. Oxford: Oxford University Press.

Smith V. 1982. Microeconomic Systems as an Experimental Science. In American Economic Review 72:923-955.

Sober, E., and Wilson, D.S. (1998). Unto Others. Cambridge, MA: Harvard University Press.

Tomasello M, M. Carpenter, J. Call, T. Behne and H. Moll (2004). Understanding and Sharing Intentions: The Origins of Cultural Cognition. In Behavioral and Brain Sciences, forthcoming.

Vallentyne, P. (ed.). (1991). Contractarianism and Rational Choice. Cambridge: Cambridge University Press.

von Neumann, J., and Morgenstern, O., (1947). The Theory of Games and Economic Behavior. Princeton: Princeton University Press, 2nd edition.

Weibull, J. (1995). Evolutionary Game Theory. Cambridge, MA: MIT Press.

Yaari, M. (1987). The Dual Theory of Choice Under Risk. In Econometrica 55:95-115.

Young, H.P. (1998). Individual Strategy and Social Structure. Princeton: Princeton University Press.

Tiếng vọng KATTIGARA

Thứ Sáu, 1 tháng 6, 2012

Lý thuyết Trò chơi (V)

Không có nhận xét nào:

Đăng nhận xét