Tiếng vọng KATTIGARA: Lý thuyết Trò chơi (I)

Don Ross

Người dịch: Hà Hữu Nga

Lý thuyết trò chơi nghiên cứu những cách thức trong đó các tương tác chiến lược giữa những người chơi duy lý tạo ra các sản phẩm liên quan đến các sở thích (hoặc các tiện ích) của những người chơi mà không một sở thích hoặc tiện ích nào có thể được dự định trước bởi bất kỳ người nào trong số những người chơi. Ý nghĩa của đoạn văn này sẽ không thể rõ ràng đối với những ai không phải là chuyên gia chừng nào mỗi từ, mỗi cụm từ in nghiêng chưa được giải thích và nêu ra các đặc điểm bằng những ví dụ. Đây sẽ là nhiệm vụ chính của bài viết này. Tuy nhiên, trước hết chúng tôi xin đưa ra đôi chút ngữ cảnh triết học và lịch sử để tác động đến người đọc trong việc tìm hiểu toàn bộ những công việc mang tính kỹ thuật đang chờ chúng ta ở phía trước.

1. Động cơ lịch sử và Triết học

Lý thuyết toán học về các trò chơi được John von Neumann and Oskar Morgenstern [1944] sáng tạo ra. Vì một số nguyên do sẽ được thảo luận dưới đây, các giới hạn trong khuôn khổ toán học của họ lúc đầu đã tạo dựng một lý thuyết ứng dụng chỉ trong những điều kiện đặc biệt và hạn hẹp. Tình huống này đã dần dần thay đổi, theo những cách thức mà chúng ta sẽ thấy khi chính ta lướt qua một quãng đường dài trên 60 năm lúc mà bộ khung lý thuyết ấy đã trở nên sâu sắc hơn và khái quát hơn rất nhiều. Người ta vẫn không ngừng tiến hành gạn lọc và ở gần cuối bài viết chúng ta sẽ xem xét một số vấn đề triết học nổi bật thể hiện ngay ở tuyến đầu của sự phát triển. Tuy nhiên, chí ít là vào cuối những năm 1970 người ta đã có thể nói một cách chắc chắn rằng lý thuyết trò chơi là một công cụ quan trọng và hữu dụng nhất trong bộ công cụ phân tích ở bất cứ hoàn cảnh nào khi chúng ta phải đối diện với tình huống trong đó cái được coi là một tác nhân năng động nhất [đối với trò chơi đó] thì lại tùy thuộc vào những mong muốn mà một hoặc nhiều tác nhân khác sẽ làm, và cái được coi là những hành động tốt nhất [đối với họ] thì tương tự như vậy, lại phụ thuộc vào những mong muốn về nó.

Mặc dù trên thực tế thì lý thuyết trò chơi mới đây đã được biểu diễn dưới hình thức toán học và logic học một cách hệ thống, tuy nhiên tri thức về lý thuyết trò chơi thì lại có thể đã được phát hiện ra từ các nhà bình luận chính trị và các nhà triết học thời cổ đại. Chẳng hạn trong hai văn bản của Plato, Laches [Sao nhãng] và Symposium [Bàn trà], Socrates đã làm cho ta nhớ lại một đoạn từ cuốn Trận chiến Delium liên quan đến tình huống dưới đây. Hãy xem một người lính ở ngoài mặt trận đang đợi chỉ huy của anh ta ra lệnh đánh trả một trận tấn công của kẻ thù. Một điều có thể xảy ra đối với anh ta là nếu trận chiến thành công thì cũng rất có thể không phải công sức đóng góp của riêng cá nhân anh ta mang tính quyết định. Nhưng nếu anh ta trụ lại, anh ta nghĩ về sự kinh khủng của tình trạng bị thương, hay bị giết – hiển nhiên là không vì một lý do gì cả. Mặt khác, nếu kẻ thù sắp chiến thắng thì khả năng anh ta bị giết hoặc bị thương lại còn cao hơn, và giờ đây thì hoàn toàn rõ ràng là không vì nguyên cớ gì cả, vì trận tuyến đã bị áp đảo. Dựa trên lý do này, rõ ràng là tốt hơn hết, người lính nên bỏ chạy, bất kể người sắp chiến thắng là ai. Tất nhiên, nếu mọi người lính đều suy tính theo cách đó – vì tất cả họ hiển nhiên là nên, vì tất cả họ đều ở trong những tình huống giống hệt như nhau – thì điều đó chắc chắn sẽ đưa đến kết quả là cuộc chiến sẽ bị thất bại. Tất nhiên, vấn đề này xảy ra đối với chúng ta, những nhà phân tích, thì cũng có thể xảy ra đối với những người lính. Phải chăng điều đó đem lại cho họ một lý do để trụ lại ở vị trí chiến đấu của họ? Thực sự thì lại trái ngược: nỗi sợ lớn hơn của người lính là ở chỗ trận chiến sẽ thất bại, thì họ lại càng có nhiều động cơ để tránh cho mình khỏi bị hại. Và khi người lính càng tin rằng trận đánh của họ sẽ thắng lợi mà không cần bất cứ sự đóng góp đặc biệt nào của cá nhân thì họ lại càng có ít lý do trụ lại để chiến đấu. Nếu mỗi người lính đều biết trước loại suy lý này cũng có ở những người lính khác, thì tất cả họ sẽ nhanh chóng tự nghĩ về một nỗi sợ hãi, và người chỉ huy đáng sợ của họ sẽ chỉ còn có một đám đông hỗn độn để chỉ huy, ngay cả trước khi kẻ thù khai hỏa.

Từ rất lâu trước khi lý thuyết trò chơi xuất hiện để chỉ cho chúng ta thấy phải suy nghĩ như thế nào về loại vấn đề này một cách hệ thống, thì nó đã xảy ra với các nhà chỉ huy quân sự và tác động ảnh hưởng đến các chiến lược của họ. Vì vậy nhà chinh phục người Tây Ban Nha Cortez, khi đổ bộ lên đất Mexico với một lực lượng nhỏ là người có lý do chính đáng để sợ khả năng của họ khó mà đẩy lùi được cuộc tấn công của đội quân Aztecs đông hơn rất nhiều. Ông đã tránh được cuộc khủng hoảng - trong tình trạng đội quân của ông có thể nghĩ đến cuộc rút lui - bằng cách đốt hết những con tàu mà họ đã dùng để đổ bộ vào mảnh đất đó. Biết là không còn đường lui nữa, những người lính Tây Ban Nha đã không còn cách nào khác ngoài cách trụ lại chiến đấu, và họ lại chiến đấu quyết liệt hơn bao giờ hết. Hơn nữa, theo quan điểm của Cortez, hành động của ông đã có một hiệu quả làm nản lòng người Aztecs. Ông có ý định rõ ràng về việc đốt hết các con tàu của mình làm cho người Aztecs tin chắc rằng ông cương quyết chiến thắng. Vậy là họ suy luận như sau: bất cứ người chỉ huy nào có thể tự tin đến mức chủ tâm phá hủy con đường lui cuối cùng của bản thân mình thì là khôn ngoan. Nếu trận chiến trở nên bất lợi với ông ta thì vị chỉ huy đó phải có những lý do chính đáng mới có thể cực kỳ lạc quan đến mức như vậy. Vì vậy sẽ là không khôn ngoan khi tấn công vào một đối phương có những lý do chính đáng để đảm bảo rằng ông ta không thể bại trận. Chính vì vậy người Aztecs đã lui quân xuống những quả đồi xung quanh , còn Cortez thì đã giành được thắng lợi mà không đổ một giọt máu.

Các tình huống này, như Plato đã nhắc đến và như Cortez đã hành động có chung một logic ngầm và rất thú vị. Nên lưu ý rằng những người lính không có động cơ để chỉ rút lui, hoặc cho dù chủ yếu bằng cách đánh giá duy lý của họ về những hiểm nguy của cuộc chiến và bằng sự tư lợi của họ. Hơn nữa họ đã phát hiện ra một lý do chính đáng để chạy khi nhận rõ rằng cái tạo nên ý nghĩa cho hành động của họ thì lại phụ thuộc vào cái tạo nên ý nghĩa cho người khác để họ hành động và tất cả những người khác có thể cũng lưu ý đến điều đó. Ngay cả một người lính hoàn toàn dũng cảm thì cũng vẫn có thể thích bỏ chạy hơn là chết một cách anh hùng bằng cách cố ngăn cơn triều đang trào đến chỉ bằng có mỗi một bản thân mình. Vì vậy chúng ta có thể hình dung mà không có gì mâu thuẫn rằng một trạng huống mà một đạo quân, gồm tất cả các cá nhân đều rất dũng cảm lại chạy biến đi nhanh như gió trước khi kẻ thù tấn công. Nếu những người lính thực sự là người dũng cảm thì điều này thực sự không phải là kết quả mà bất kỳ ai trong số họ cũng muốn; mỗi người sẽ đều muốn rằng toàn bộ trụ lại và chiến đấu. Vậy thì trường hợp chúng ta đang đề cập ở đây trong đó mối tương tác của nhiều quá trình ra quyết định duy lý về phương diện cá nhân – mỗi người lính một quá trình – thì nó sẽ tạo ra một kết quả mà không ai dự định trước cả. Hầu hết các đạo quân đều cố tránh vấn đề này hệt như Cortez đã làm. Vì họ không thể thường xuyên làm cho việc rút lui về mặt thể chất trở nên không thể, nên họ đã làm cho nó không thể về phương diện kinh tế: họ bắn những kẻ bỏ trốn. Vậy thì việc trụ lại và chiến đấu là quá trình hành động duy lý cá nhân của mỗi người lính đã trở thành lựa chọn đúng đắn, vì cái giá của việc bỏ chạy chắc chắn tối thiểu cũng cao như cái giá của sự trụ lại.

Một câu truyện kinh điển khác gợi lên quá trình suy lý này được phát hiện trong vở kịch “Vua Henry V” của Shakespeare. Trong trận chiến Agincourt, Henry đã quyết định hành quyết các tù binh Pháp trong cái nhìn đầy căn hận của kẻ thù và trong sự ngạc nhiên của đoàn tùy tùng của ông. Họ mô tả hành động như vậy là vô đạo. Những lý lẽ Henry đưa ra ám chỉ đến việc xem xét tham số: ông sợ rằng tù binh có thể bỏ trốn và đe dọa đến địa vị của ông. Tuy nhiên một lý thuyết gia trò chơi có thể đã cung cấp cho ông một lý lẽ chiến lược bổ sung (cũng tương tự như một lý lẽ khôn ngoan chứ có lẽ không phải là đạo đức). Đội quân của ông đã nhìn thấy những tù binh kia đã bị giết, và thấy rằng kẻ thù cũng đã thấy điều đó, vì vậy họ biết số phận nào đang đợi họ trong bàn tay của kẻ thù nếu như họ không thắng. Chỉ là ẩn dụ, nhưng lại rất hiệu quả, các con thuyền của họ đã bị đốt cháy. Người hành quyết tù binh đã khôn khéo gửi một tín hiệu đến những người lính của cả hai bên, vì vậy đã làm thay đổi các động cơ của họ bằng cách chiều theo các viễn tượng chiến thắng của người Anh.

Các ví dụ này có thể được coi là chỉ phù hợp cho những ai tự thấy mình trong những tình huống bần cùng của cuộc cạnh tranh tàn khốc. Có lẽ người ta có thể nghĩ rằng điều đó chỉ hệ trọng đối với các vị tướng, các chính khách, các nhà kinh doanh, và những ai liên quan đến việc điều hành những người khác, còn nhà triết học chỉ nên xót xa cho tính chất đạo đức đáng sợ của nó mà thôi. Tuy nhiên một kết luận như vậy có lẽ còn quá sớm. Công việc nghiên cứu logic thống trị các mối quan hệ trong những động cơ, các tương tác chiến lược và các kết quả là cơ bản trong triết học chính trị hiện đại vì nhiều thế kỷ trước bất kỳ ai cũng đặt được một cái tên rõ ràng cho loại logic này.

Leviathan của Hobbes thường được coi là một công trình đặt nền móng cho triết học chính trị hiện đại, luận văn bắt đầu cái vòng phân tích liên tục về chức năng và tính chính đáng của nhà nước và những hạn chế mà nó áp đặt lên quyền tự do cá nhân. Hạt nhân duy lý của Hobbes có thể tóm gọn như sau. Tình trạng tốt nhất cho tất cả mọi người là một trạng huống mà trong đó mỗi người được tự do làm điều gì mình muốn. Thông thường những người tự do như vậy mong muốn hợp tác với những người khác để tiến hành những dự án mà một cá nhân hành động đơn độc không thể làm được. Nhưng nếu có bất cứ một tác nhân vô đạo hoặc phi đạo đức nào đó xung quanh thì họ sẽ nhận ra ngay lợi ích của họ dễ kiếm được nhất bằng cách thu được lợi ích từ việc hợp tác và không hoàn trả cho người khác. Chẳng hạn chúng ta hãy giả sử là bạn đồng ý giúp tôi xây dựng ngôi nhà của mình, đến lượt mình, tôi hứa giúp bạn xây ngôi nhà của bạn. Sau khi ngôi nhà của tôi hoàn thiện, tôi không còn cần đến sức lao động của bạn nữa và thế là tôi chỉ xử sự đơn giản bằng cách bội ước. Tuy nhiên sau đó tôi nhận ra rằng nếu điều đó làm cho bạn trở nên không nhà thì bạn sẽ có động cơ chiếm ngôi nhà của tôi. Điều đó đẩy tôi đến tình trạng luôn luôn sợ bạn và buộc tôi phải tiêu thời gian, tiền bạc, của cải vào việc bảo vệ tôi chống lại bạn. Cách tốt nhất để tôi giảm đi tối đa khoản chi phí này là bằng cách đánh bạn trước, sau đó thì giết bạn lúc thuận tiện. Tất nhiên bạn có thể biết trước tất cả sự suy lý ấy của tôi, vì vậy mà bạn cũng có lý do chính đáng để đánh tôi. Vì tôi có thể đoán trước được suy lý này của bạn, nên nỗi sợ ban đầu của tôi đối với bạn đã trở nên không còn hoang tưởng nữa; bạn cũng như vậy khi nghĩ về tôi. Trong thực tế thì chúng ta không cần phải trở nên vô đạo đức để rơi vào cái chuỗi suy lý liên miên ấy; chúng ta chỉ cần nghĩ rằng có một khả năng nào đó để người khác có thể cố gian lận chỉ nhằm mặc cả. Khi đã có một nghi ngờ nhỏ xuất hiện trong đầu bất cứ ai, thì động cơ được suy diễn bởi nỗi hoảng sợ về những hậu quả bị chơi trước – bị đánh trước bằng cú đánh phủ đầu – nỗi sợ đó nhanh chóng xâm chiếm cả hai bên. Nếu cả hai chúng ta đều có một chút của cải riêng nào đó mà người khác có thể muốn chiếm, thì cái logic giết người ấy sẽ xâm chiếm chúng ta trước khi chúng ta có thể thẹn thùng nhận ra rằng chúng ta thực sự có thể giao thiệp để giúp đỡ nhau xây dựng những ngôi nhà ngay từ đầu. Trừ những phương thức riêng của mình, các tác nhân duy lý sẽ không bao giờ thu được lợi lộc trong sự hợp tác, và thay vào đó sẽ sống tách biệt khỏi tình trạng ban đầu trong một nhà nước của cuộc chiến của “tất cả mọi người chống lại tất cả mọi người”, theo cách nói của Hobbes. Trong trạng huống đó, toàn bộ cuộc sống của con người như ông đã mô tả một cách sinh động, sẽ là một cuộc sống “đơn độc, nghèo nàn, hiểm ác, hung dữ và đoản mệnh”.

Giải pháp do Hobbes đề xuất cho vấn đề này là chuyên chế. Người ta có thể thuê một tác nhân – một chính phủ để chuyên trừng phạt bất cứ ai bội ước. Chừng nào sự trừng phạt để răn đe trở nên đủ mức tàn khốc – Hobbes nghĩ việc chém đầu nói chung là thích đáng – thì chi phí cho việc bội ước sẽ vượt quá chi phí cho việc giữ đúng lời hứa. Trong trường hợp này rõ ràng logic ấy giống hệt như cái logic do quân đội sử dụng khi nó dọa bắn những người đào ngũ. Nếu tất cả mọi người đều biết rằng các động cơ này là để giữ cho những người khác thì việc hợp tác sẽ không chỉ là có thể mà nó sẽ trở thành một chuẩn mực đáng mong ước, và cuộc chiến của mọi người chống lại tất cả mọi người sẽ trở thành một cuộc thái bình.

Hobbes đã đẩy lập luận lôgic này đến một kết luận rất mạnh mẽ khi cho rằng nó ám chỉ không chỉ một chính phủ có đủ quyền và quyền lực để cưỡng bức hợp tác, mà còn là một chính phủ “không bị chia sẻ” trong đó ý chí độc đoán của một vị thủ lĩnh duy nhất phải ấn định các nghĩa vụ tuyệt đối lên tất cả. Một số lý thuyết gia chính trị hiện đại cho rằng những bước đi đặc biệt mà nhờ đó Hobbes đề xuất con đường đi đến kết luận này của ông vừa hợp lý, vừa có giá trị. Tuy nhiên nếu chỉ bàn về những vấn đề này thì có lẽ chúng ta đã đi chệch ra khỏi để tài chính để dấn sâu vào một vấn đề rất phức tạp của triết học chính trị khế ước. Điều quan trọng trong ngữ cảnh hiện nay là các chi tiết này, như chúng luôn được bàn đến trong các cuộc tranh cãi hiện nay, tất cả đều liên quan đến việc lý giải một cách tinh xảo các vấn đề ấy bằng cách sử dụng các nguồn của lý thuyết trò chơi hiện đại. Hơn nữa, vấn đề cơ bản nhất của Hobbes, cái lý lẽ cơ bản cho cái quyền lực cưỡng bách và những họat động thực tiễn của chính phủ là nhu cầu riêng để tự bảo vệ họ khỏi cái mà các lý thuyết gia trò chơi gọi là “các nan đề xã hội” được nhiều, nếu không nói là tất cả các nhà lý thuyết chính trị chấp nhận. Cần phải lưu ý rằng Hobbes đã không cho rằng chuyên chế là một cái gì tự thân nó là đáng khao khát. Cấu trúc lập luận của ông là ở chỗ logic của các tương tác chiến lược chỉ để lại hai kết quả chính trị khả thể: chuyên chế và vô chính phủ. Vậy là các tác nhân duy lý chọn chuyên chế như là một thứ đỡ xấu hơn trong hai cái xấu.

Suy lý của Cortez, của Henry V và của Hobbes về các tác nhân chính trị có một logic chung, một thứ logic xuất phát từ các tình huống của họ. Trong mỗi trường hợp, khía cạnh môi trường là quan trọng nhất đối với việc tác nhân đạt được các kết quả ưa thích của họ là một tập hợp những mong muốn phản động lực khả thể đối với các chiến lược của các tác nhân khác. Sự khác biệt giữa cách hành động theo thông số về một thế giới thụ động và cách hành động không theo thông số về một thế giới cố gắng hành động bằng sự tiên liệu trước về những hành động này thì sự khác biệt đó là rất cơ bản. Nếu bạn muốn bẩy một hòn đá lăn xuống chân đồi thì bạn chỉ cần quan tâm đến cái khối lượng của hòn đá tương quan với sức bẩy của cơ thể bạn, ở mức độ nào thì nó được đẩy đi với sự trợ giúp của bề mặt đồi, độ dốc của quả đồi, bề mặt của hòn đá, và lực tác động mà chân bạn đẩy hòn đá đi. Các giá trị của toàn bộ các biến số đó đều độc lập với các kế hoạch và ý định của bạn, vì hòn đá không có những lợi ích tự thân của nó, nó không thể hành động để cố gắng trợ giúp cho bạn hoặc cản trở bạn. Ngược lại nếu bạn muốn đẩy một người xuống đồi, trừ khi người ấy không có ý thức, bị trói hoặc bị thiểu năng còn thì bạn sẽ không thể làm được trừ khi bạn che giấu các kế hoạch của mình cho đến khi quá muộn cho người đó để tránh bạn hoặc ngăn chặn hành động của bạn. Vấn đề logic gắn liền với tình huống thứ hai phức tạp hơn nhiều khi chúng ta đưa ra một ví dụ giả định đơn giản để minh họa.

Giả sử bạn muốn đi ngang qua một con sông có ba chiếc cầu (Giả sử việc bơi, lội, đi thuyền đều không thể được). Bạn biết rằng chiếc cầu đầu tiên an toàn và không có trở ngại gì; nếu bạn cố đi qua đó, bạn sẽ thành công. Chiếc cầu thứ hai nằm dưới chân một mỏm đá trên đó có những tảng đá lớn thỉnh thoảng vẫn rơi xuống. Chiếc cầu thứ ba thì có những con rắn hổ mang rất độc sống ở đó. Giờ đây giả sử bạn muốn phân hạng ba chiếc cầu đó theo mức độ ưa thích của bạn. Nhiệm vụ của bạn hoàn toàn là ở phía trước. Chiếc cầu đầu tiên rõ ràng là tốt nhất, vì nó an toàn nhất. Để xếp hạng hai chiếc cầu còn lại bạn cần có thông tin về các cấp độ liên quan đến mức nguy hiểm của nó. Nếu bạn có thể nghiên cứu được tần xuất đá rơi và sự họat động của các con rắn hổ mang thì thì bạn có thể tính được bạn bị đá rơi trúng ở chiếc cầu thứ hai là 10% và bị rắn hổ mang tấn công là 20%. Sự suy lý của bạn ở đây là một sự suy lý thông số chặt chẽ vì không phải là những tảng đá, cũng không phải là những con rắn hổ mang đang cố tác động đến hành động của bạn, bằng cách chẳng hạn như che giấu các mô thức hành vi điển hình có lẽ chúng biết bạn đang nghiên cứu chúng.Cái mà bạn nên làm ở đây là hoàn toàn rõ ràng: đi qua chiếc cầu an toàn. Bây giờ chúng ta hãy phức tạp hóa tình huống lên một chút. Giả sử cây cầu có đá lăn ở ngay trước mặt bạn, trong khi cây cầu an toàn lại ở cách xa một ngày đường đi bộ về phía thượng nguồn. Tình huống ra quyết định của bạn ở đây lại phức tạp hơn một chút. Bạn lại phải quyết định xem liệu chi phí cho cuộc đi bộ ấy có đáng để đổi lấy khoản phạt 10% cơ hội bị đá rơi vào người không. Tuy nhiên đây là toàn bộ những gì mà bạn phải quyết định, và khả năng vượt sông thành công của bạn là hoàn toàn phụ thuộc vào bạn; môi trường không hề quan tâm gì đến kế hoạch của bạn cả.

Tuy nhiên nếu giờ đây chúng ta lại phức tạp hóa tình huống theo hướng phi tham số thì tình hình sẽ trở nên rắc rối hơn nhiều. Giả sử bạn là một loại người trốn chạy nào đó và một người có một khẩu súng đang đợi bạn một bên bờ sông. Bà ta sẽ đuổi kịp, và bắn bạn, chúng ta giả định như vậy, nếu chỉ khi bà ta đợi ở chiếc cầu mà bạn cố vượt qua; nếu không thì bạn đã thoát. Vì bạn suy lý thông qua việc lựa chọn một cây cầu, nên điều xảy đến với bạn là bà ta cứ ở đấy vì đã đoán biết được ý định của bạn. Chắc chắn vấn đề xảy ra là việc lựa chọn cây cầu an toàn để vượt qua sẽ là một sai lầm, vì bà ta chỉ đợi bạn ở đó, và cơ hội chết của bạn là chắc chắn. Vì vậy có lẽ bạn sẽ mạo hiểm với những tảng đá vì lựa chọn này vẫn ổn hơn nhiều. Nhưng chờ đợi…nếu bạn có thể đi tới gần đến kết quả thì người đuổi bạn là một người duy lý và có thông tin chính xác hệt như bạn có thể đoán biết rằng bạn sẽ đến đó và sẽ đợi bạn nếu bạn lẩn tránh những tảng đá.Vì vậy có lẽ bạn phải chớp lấy cơ hội với những con rắn hổ mang. Đó là nơi mà bà ta ít ngờ nhất. Nhưng sau đó, không…nếu bà ta hy vọng rằng bạn sẽ trông mong một điều mà bà ta ít chờ đợi nhất ấy, thì bà ta lại hy vọng vào điều đó nhất. Nan đề này bạn nhận ra với một sự kinh hoàng là như sau: bạn phải làm cái công việc mà người săn đuổi bạn ít trông chờ nhất: nhưng bất cứ cái gì bạn cho là bà ta ít hy vọng nhất thì tự nhiên cái đó bà ta lại hy vọng nhất. Dường như bạn đã bị rơi vào một cái bẫy tình huống không thể quyết định được. Toàn bộ những gì an ủi bạn chỉ là một chút xíu: ở bờ sông bên kia người săn đuổi bạn cũng bị mắc chính vào cái bẫy khó xử đó, không thể quyết định được nên đợi ở cây cầu nào,vì ngay khi bà ta hình dung phải đợi ở cây cầu này thì bà ta lại nhận ra rằng nếu bà ta có thể tìm ra một lý do tốt hơn để chọn được một cây cầu, thì bạn có thể đoán trước được đúng cái lý do đó và để rồi lại tránh bà ta.

Từ kinh nghiệm chúng ta biết được rằng trong các tình huống như thế này, người ta không phải luôn luôn chịu đựng và run sợ vĩnh viễn trong những vòng tròn. Dưới đây chúng ta sẽ thấy có một giải pháp duy lý đó là một hành động duy lý nhất – có sẵn cho cả hai người chơi. Tuy nhiên cho đến những năm 1940s vẫn chưa có nhà triết học hay nhà kinh tế nào biết cách phát hiện ra nó bằng các thuật toán. Kết quả là các nhà kinh tế học buộc phải xử lý các tác động phi-tham số hệt như chúng là những biến tướng của các tác động tham số vậy. Điều này có vẻ như tác động mạnh vào độc giả, vì như ví dụ của chúng ta về vấn đề qua cầu để muốn chỉ ra những đặc trưng phi tham số thường là những đặc trưng cơ bản của các vấn đề ra quyết định. Một phần của lý giải này cho việc tiếp cận tương đối muộn của lý thuyết trò chơi đối với các lĩnh vực nằm trong các vấn đề mà các nhà kinh tế đã quan tâm về phương diện lịch sử. Các nhà kinh tế học cổ điển như Adam Smith và David Ricardo, chủ yếu quan tâm đến vấn đề các tác nhân trong các thị trường rộng lớn – toàn bộ các quốc gia – có thể tương tác sao cho nảy sinh ra sự thịnh vượng tiền tệ tối đa cho chính bản thân các quốc gia đó. Hiểu biết cơ bản của Smith, cái hiệu quả đó đã được tối đa hóa bởi các tác nhân tự do tìm kiếm những thương thảo lợi thế chung, trong thế kỷ XX về phương diện toán học là rất đa dạng. Tuy nhiên biểu hiện của sự kiện này lại chỉ nằm ở các điều kiện của “cạnh tranh hoàn hảo”, nghĩa là khi các công ty đối diện với không phải là những khoản chi phí vào hoặc ra đối với các thị trường, khi không có hiệu quả kinh tế một cách qui mô, và khi không có hành động của các tác nhân có những hiệu ứng phụ không định trước đối với sự thịnh vượng của các tác nhân khác. Các nhà kinh tế luôn luôn nhận ra rằng tập tiền đề này thuần túy là một sự lý tưởng hóa vì các mục đích phân tích mà không phải là một thực trạng sự việc mà bất cứ ai cũng có thể cố (hoặc nên cố thử) để đạt tới. Nhưng cho đến khi toán học về lý thuyết trò chơi chín muồi vào gần cuối những năm 1970s thì các nhà kinh tế học đã phải hy vọng rằng một thị trường càng gần giống với một thị trường cạnh tranh hoàn hảo thì nó càng hiệu quả. Tuy nhiên không phải một hy vọng như vậy về phương diện toán học hay logic có thể được minh xác nói chung; thực sự thì như là một sự khái quát hóa chặt chẽ có thể được chứng tỏ là giả.

Bài viết này không phải để nói về những cơ sở của triết học, nhưng việc tìm hiểu về các nguồn gốc và phạm vi của lý thuyết trò chơi lại rất quan trọng để biết được rằng những thị trường cạnh tranh hoàn hảo đã biến chúng thành một đặc điểm miêu tả chúng là nhậy cảm đối với phép phân tích hình tháp. Vì các tác nhân không có cách tiếp cận chi phí đối với thị trường nên họ phải mở cửa hàng ở bất cứ thị trường nhất định nào họ đến khi cạnh tranh biến tất cả các lợi nhuận thành số không. Điều này ẩn ý một khoản tiền thưởng nếu các khoản chi phí và nhu cầu là cố định thì các tác nhân không có sự lựa chọn về vấn đề phải sản xuất bao nhiêu nếu họ cố tối đa hóa các khác biệt giữa chi phí và doanh thu của họ. Các mức sản xuất này có thể được xác định riêng biệt đối với mỗi tác nhân, vậy là không có tác nhân nào cần chú ý đến cái mà những tác nhân khác đang thực hiện; mỗi tác nhân cư xử với các đối tác của mình như là những đặc điểm thụ động của môi trường. Loại tình huống khác mà các phân tích kinh tế cổ diển có thể ứng dụng mà không cần trông cậy vào lý thuyết trò chơi là tình huống độc quyền. Trong trường hợp này hoàn toàn rõ ràng là những xem xét phi tham số phải bỏ dở chừng, vì chỉ có một tác nhân được nghiên cứu. Tuy nhiên kể cả cạnh tranh độc tài lẫn hoàn hảo đều là những sắp xếp thị trường rất đặc biệt và khác thường. Vì vậy, trước khi xuất hiện lý thuyết trò chơi các nhà kinh tế học đã bị giới hạn một cách chặt chẽ vào lớp các trường hợp mà đối với nó họ có thể áp dụng các mô hình của họ một cách gọn gàng.

Các nhà triết học có chung với các nhà kinh tế một mối quan tâm về các điều kiện và kỹ thuật cho việc tối đa hóa phúc lợi của con người. Hơn nữa các nhà triết học lại có mối quan tâm đặc biệt đối với những lý lẽ logic của các hành động, và thông thường các hành động phải được biện hộ bằng cách qui chiếu vào các kết quả đáng mong đợi của chúng. Không có lý thuyết trò chơi tất cả các vấn đề này đều ngược lại với sự phân tích mà bất cứ ở đâu các khía cạnh phi tham số cũng đều thích hợp. Chúng ta sẽ thể hiện điều này một cách vắn tắt bằng cách qui chiếu vào trò chơi nổi tiếng nhất (mặc dù không phải là điển hình nhất), đó là trò chơi Nan đề của hai người tù, và qui chiếu vào những trò chơi điển hình hơn. Bằng cách làm như vậy, chúng ta sẽ cần phải giới thiệu, định nghĩa và minh họa những yếu tố cơ bản và các kỹ thuật của lý thuyết trò chơi. Chúng ta sẽ quay trở lại với vấn đề này ngay dưới đây.

2. Các Định đề của Lý thuyết Trò chơi

2.1. Tiện ích

Theo định nghĩa, một tác nhân là một thực thể có các sở thích. Các lý thuyết gia trò chơi, như các nhà kinh tế học và triết học khi nghiên cứu việc ra quyết định, mô tả những sở thích này bằng một phương tiện khái niệm được gọi là tiện ích. Điều này gắn liền với một số “phúc lợi” mà một tác nhân thu được từ một đối tượng hoặc một sự kiện. Bằng khái niệm phúc lợi, chúng tôi muốn nói đến một chỉ số định chuẩn nào đó của tình trạng hạnh phúc tương đối, được biện hộ bởi việc viện tới một khung cơ sở nào đó. Chẳng hạn chúng ta có thể đánh giá phúc lợi tương đối của các nước (mà chúng ta có thể xây dựng mô hình như là một tác nhân cho những mục đích nào đó) bằng cách xem xét các khoản thu nhập tính trên đầu người của họ, và chúng ta có thể đánh giá phúc lợi tương đối của một động vật trong bối cảnh tiên liệu trước và lý giải cấu trúc hành vi của nó, bằng cách xem xét tình trạng sức khỏe đáng mong muốn của nó. Trong trường hợp con người, điển hình nhất là trong kinh tế học và các ứng dụng lý thuyết trò chơi để đánh giá phúc lợi tương đối của họ bằng cách xem xét những phán đoán ẩn hoặc hiện về nó. Vì vậy một người rất mê vị của các loại dưa chua, nhưng lại không thích hành nên kết hợp tiện ích cao hơn với các quốc gia trên thế giới trong đó tất cả mọi thứ khác đều tương đương, ở đó bà ta tiêu thụ nhiều loại dưa chua hơn và ít hành hơn so với các quốc gia mà bà ta tiêu thụ nhiều hành, nhưng lại ít dưa chua hơn. Những ví dụ như vậy gợi ý rằng “tiện ích” bao hàm một cách đo mức độ thực hành tâm lý của chủ thể, và đó thực sự là cách thức lý giải chung (mặc dù không phải luôn luôn như vậy) khái niệm này trước những năm 1930s. Tuy nhiên trong thập kỷ này các nhà kinh tế và các nhà triết học chịu ảnh hưởng của hành vi luận đã phản đối việc sử dụng một cách lý thuyết các thực thể không thể quan sát được là “các thương số thực hành tâm lý”. Vì vậy nhà kinh tế học Paul Samuelson (1938) đã bắt đầu định nghĩa tiện ích với tư cách là một khái niệm thuần túy kỹ thuật. Tức là khi chúng ta nói rằng một tác nhân hành động sao cho có thể tối đa hóa cái tiện ích của tác nhân đó, chúng tôi muốn nói rằng bằng khái niệm “tiện ích” đơn giản là bất cứ cái gì mà hành vi của tác nhân gợi lên cho mình khiến cho tác nhân đó mong muốn một cách thích hợp. Các lý thuyết gia theo Samuelson có ý định tuyên bố “các tác nhân hành động sao cho có thể tối đa hóa tiện ích của họ” như một lặp thừa. Giống như những phép lặp thừa khác đang xuất hiện trong các cơ sở của các lý thuyết khoa học, nó là hữu dụng không phải tự thân nó, mà vì nó giúp cố định các ngữ cảnh của chúng ta về vấn đề đặt ra.

Mặc dù chúng ta có thể không còn bị ảnh hưởng bởi những đắn đo cân nhắc xuất phát từ hành vi luận tâm lý, thì nhiều lý thuyết gia vẫn tiếp tục theo cách của Samuelson trong việc tìm hiểu tiện ích vì họ nghĩ nó quan trọng đến mức là lý thuyết trò chơi áp dụng vào bất cứ tác nhân nào – một con người, một con ong, một công ty, hoặc một quốc gia – và không chỉ vào các tác nhân có tư duy của con người. Khi những lý thuyết gia ấy nói rằng các tác nhân hành động sao cho có thể tối đa hóa tiện ích của họ thì có nghĩa là họ muốn điều này trở thành một bộ phận của cái định nghĩa về một tác nhân, mà không phải là một khẳng định về những tình trạng và động cơ khả thể bên trong. Quan niệm của Samuelson về tiện ích được định nghiã theo cách của Thuyết ưa chuộng bộc lộ (RPT – Revealed Preference Theory) được đưa ra trong một bài viết kinh điển của ông (Samuelson 1938) đã thỏa mãn được yêu cầu này. Một số lý thuyết gia khác hiểu về lý thuyết trò chơi theo những cách khác nhau. Họ nhìn lý thuyết trò chơi như là một nguồn cung cấp một cách lý giải về sự suy lý chiến lược. Vì tư tưởng này có thể áp dụng nên chúng tôi phải giả định rằng các tác nhân đôi khi ít nhất cũng làm cái điều mà họ làm trong những môi trường phi tham số vì logic lý thuyết trò chơi khuyến cáo về bất cứ một hành động nào với tư cách là những hành động duy lý. Vẫn có một số lý thuyết gia giải thích lý thuyết trò chơi theo cách định chuẩn, khi khuyên các tác nhân cần làm gì trong các bối cảnh chiến lược để họ có thể tối đa hóa tiện ích của mình. Rất may cho các mục đích của chúng ta là toàn bộ những cách suy nghĩ như vậy về những cách có thể sử dụng lý thuyết trò chơi đều tương hợp với sự giải thích theo phép lặp thừa về việc tối đa hóa các tiện ích. Tuy nhiên những khác biệt triết học không phải là vô ích nhìn từ quan điểm của một lý thuyết gia trò chơi đang thao tác. Như chúng ta sẽ thấy trong phần dưới đây, những ai hy vọng sử dụng lý thuyết trò chơi để lý giải sự suy lý chiến lược khi đối diện với một hành vi chiến lược duy nhất lại phải đương đầu với một số vấn đề thực tiễn và triết học đặc biệt.

Vì lý thuyết trò chơi liên quan đến sự suy lý hình thức nên chúng ta phải có một phương cách tư duy về sự tối đa hóa các tiện ích bằng các thuật ngữ toán học. Phương cách như vậy được gọi là hàm tiện ích. Bản đồ tiện ích cho một tác nhân được gọi là một “hàm” vì nó mô tả những sở thích theo trật tự những con số thực. Giả sử tác nhân x thích chùm a trên chùm b và chùm b trên chùm c. Sau đó chúng ta vẽ bản đồ các chùm này theo một trật tự các con số, mà ở đó hàm mô tả chùm có trật tự cao nhất lên trên con số lớn nhất trong trật tự, chùm cao thứ hai lên trên con số lớn nhất tiếp theo trong trật tự, vv..., vậy là

Chùm a >>3

Chùm b >>2

Chùm c >>1

Thuộc tính duy nhất được mô tả bằng hàm này là trật tự. Giá trị tuyệt đối của những con số này là không liên quan; có nghĩa là người ta nhất định không thể suy luận được rằng x nhận được tiện ích nhiều tới 3 lần từ chùm a cũng như bà ta đã nhận được từ chùm c. Vì vậy chúng ta có thể thể hiện một cách chính xác cùng một hàm tiện ích như ở trên bằng

Chùm a >>7,326

Chùm b>>12.6

Chùm c>>1,000,000

Vì vậy những con số mô tả đặc điểm trong một hàm tiện ích theo thứ tự không đo đếm bất cứ một định lượng của bất cứ cái gì cả. Một hàm tiện ích trong đó các giá trị tuyệt đối tạo ra vấn đề thì được gọi là hàm “bản số”. Bất cứ khi nào một ai đó qui chiếu vào một hàm bản số mà không xác định muốn đề cập đến loại nào thì bạn có thể cho rằng đó là dãy số thứ tự. Đó chính là loại mà chúng ta cần, một tập trò chơi đầu tiên mà chúng ta xem xét. Sau đó, khi chúng ta bắt đầu xem phải giải quyết những trò chơi ngẫu nhiên hóa này như thế nào – trò chơi qua sông của chúng ta ở Phần I ở trên chẳng hạn – chúng ta sẽ cần phải xây dựng các hàm tiện ích bản số. Kỹ thuật để thực hiện trò chơi này đã được von Neumann & Morgenstern (1947) đưa ra và là một thuộc tính thiết yếu của sự can thiệp trong lý thuyết trò chơi của họ. Tuy nhiên trong lúc này chúng ta chỉ cần các hàm thứ tự mà thôi.

2.2. Trò chơi và Thông tin

Toàn bộ các trạng huống trong đó ít nhất là một tác nhân có thể hành động đơn độc để tối đa hóa tiện ích của ông ta thông qua việc đoán biết trước (có thể có ý thức hoặc vô thức trong hành vi của ông ta) thì những phản ứng đối với hành động của ông ta bởi một hoặc nhiều tác nhân khác được gọi là một trò chơi. Các tác nhân tham gia vào trò chơi được gọi là các tay chơi. Nếu tất cả các tác nhân đều có những hành động tối ưu bất chấp cái mà tác nhân khác thực hiện như trong các tình huống hoặc điều kiện thuần túy tham số của sự độc quyền hoặc cạnh tranh hoàn hảo (xem phần 1 ở trên) thì chúng ta có thể xây dựng mô hình này mà không cần viện đến lý thuyết trò chơi; nếu không thì chúng ta lại cần tới nó.

Chúng ta cho rằng các tay chơi là những người duy lý về phương diện kinh tế. Có nghĩa là một tay chơi có thể (i) đánh giá các kết quả, (ii) tính toán các con đường để đến được với các kết quả; và (iii) chọn các hành động để đạt được những kết quả ưa thích nhất, những hành động nhất định của các tay chơi khác. Trong một vài trường hợp, tính duy lý này có thể được tác nhân tự tính toán. Trong những trường hợp khác, nó đơn giản được bao hàm trong những cấu trúc hành vi được tạo dựng bởi sự chọn lọc kinh tế, văn hóa hoặc tự nhiên. Đặc biệt, trong khi tìm kiếm một hành động “được lựa chọn” chúng tôi ngụ ý về một sự thận trọng không cần thiết, dù có ý thức hay không. Chúng tôi chỉ muốn nói rằng hành động đó được thực hiện khi có sẵn một hành động thay thế, theo một nghĩa nào đó của từ “có sẵn” được thiết lập một cách chính thường bởi bối cảnh của sự phân tích đặc biệt. Trong một trò chơi mỗi tay chơi đối diện với một lựa chọn giữa hai hay nhiều chiến lược khả dĩ hơn. Một chiến lược là một “chương trình chơi” được quyết định trước, chương trình đó nói với tay chơi cần phải thực hiện hành động nào để đáp trả mỗi chiến lược có thể mà tay chơi kia sử dụng. Ý nghĩa của cụm từ in nghiêng trên đây sẽ trở nên rõ ràng khi chúng ta đưa ra một số mẫu trò chơi dưới đây.

Một khía cạnh quyết định của việc xác định một trò chơi liên quan đến thông tin mà các tay chơi có khi họ lựa chọn các chiến lược. Những trò chơi đơn giản nhất (theo quan điểm cấu trúc logic) là những trò chơi mà các tác nhân có một nguồn thông tin hoàn hảo, có nghĩa là tại mỗi điểm, mỗi chiến lược của tác nhân nói cho tác nhân biết cần phải hành động, tác nhân đó biết mọi thứ xảy ra trong trò chơi cho đến thời điểm đó. Một trò chơi lớn tiếp theo trong đó tất cả các tay chơi đều quan sát toàn bộ hành động (và biết các luật chơi chung), chẳng hạn như luật chơi cờ, là một ví dụ về một trò chơi như vậy. Ngược lại, ví dụ về trò chơi qua cầu ở phần I đã minh họa một trò chơi có thông tin hoàn hảo, vì người trốn chạy phải chọn một chiếc cầu để qua mà không biết rằng chiếc cầu nào có người săn đuổi đang vác súng đợi anh ta ở đó, cũng tương tự như vậy, người săn đuổi thực hiện các quyết định mà không hề biết các động thái đá rơi ở mỏ đá. Vì lý thuyết trò chơi đề cập đến các hành động duy lý mà những hành động nhất định có ý nghĩa chiến lược của những tác nhân khác, bạn sẽ không ngạc nhiên khi người ta nói rằng cái mà các tác nhân trong trò chơi biết hoặc không biết, về mỗi hành động của tác nhân khác tạo ra một sự khác biệt đối với logic của các phân tích của chúng ta như chúng ta sẽ thấy dưới đây.

Còn nữa...

Tác giả: Don Ross là Giáo sư Triết học tại Đại học Alabama ở Birmingham, Giáo sư Kinh tế học tại Đại học Cape Town, Nam Phi. Công trình chủ yếu: Economic Theory and Cognitive Science: Microexplanation (MIT Press, 2005).

Nguyên văn: Game Theory, The Stanford Encyclopedia of Philosophy (Fall 2010 Edition), Edward N. Zalta (ed.), First published Sat Jan 25, 1997; substantive revision Wed May 5, 2010

References

Baird, D., Gertner, R., and Picker, R. (1994). Game Theory and the Law. Cambridge, MA: Harvard University Press.

Binmore, K., Kirman, A., and Tani, P. (eds.) (1993). Frontiers of Game Theory. Cambridge, MA: MIT Press

Binmore, K. (1998). Game Theory and the Social Contract (v. 2): Just Playing. Cambridge, MA: MIT Press.

Camerer, C. (2003). Behavioral Game Theory: Experiments in Strategic Interaction. Princeton: Princeton University Press.

Danielson, P. (ed.) (1998). Modelling Rationality, Morality and Evolution. Oxford: Oxford University Press.

Fudenberg, D., and Levine, D. (1998). The Theory of Learning in Games. Cambridge, MA: MIT Press.

Fudenberg, D., and Tirole, J. (1991). Game Theory. Cambridge, MA: MIT Press.

Gintis, H. (2004). Towards the Unity of the Human Behavioral Sciences. In Philosophy, Politics and Economics 31:37-57.

Guala, F. (2005). The Methodology of Experimental Economics. Cambridge: Cambridge University Press.

Hofbauer, J., and Sigmund, K. (1998). Evolutionary Games and Population Dynamics. Cambridge: Cambridge University Press.

Krebs, J., and Davies, N.(1984). Behavioral Ecology: An Evolutionary Approach. Second edition. Sunderland: Sinauer.

Kreps, D. (1990). A Course in Microeconomic Theory. Princeton: Princeton University Press.

Maynard Smith, J. (1982). Evolution and the Theory of Games. Cambridge: Cambridge University Press.

McMillan, J. (1991). Games, Strategies and Managers. Oxford: Oxford University Press.

Nash, J. (1950a). Equilibrium Points in n-Person Games. In PNAS 36:48-49.

Nash, J. (1950b). The Bargaining Problem. In Econometrica 18:155-162.

Nash, J. (1951). Non-cooperative Games. In Annals of Mathematics Journal 54:286-295.

Ormerod, P. (1994). The Death of Economics. New York: Wiley.

Rawls, J. (1971). A Theory of Justice. Cambridge, MA: Harvard University Press.

Robbins, L. (1931). An Essay on the Nature and Significance of Economic Science. London: Macmillan.

Ross, D. 2005. Evolutionary Game Theory and the Normative Theory of Institutional Design: Binmore and Behavioral Economics. In Politics, Philosophy and Economics, forthcoming.

Ross, D., and LaCasse, C. (1995). Towards a New Philosophy of Positive Economics. In Dialogue 34: 467-493.

Samuelson, L. (1997). Evolutionary Games and Equilibrium Selection. Cambridge, MA: MIT Press.

Samuelson, L. (2005). Economic Theory and Experimental Economics. In Journal of Economic Literature 43:65-107.

Samuelson, P. (1938). A Note on the Pure Theory of Consumers' Behaviour. In Econimica 5:61-71.

Selten, R. (1975). Re-examination of the Perfectness Concept for Equilibrium Points in Extensive Games. In International Journal of Game Theory 4:22-55.

Sigmund, K. (1993). Games of Life. Oxford: Oxford University Press.

Smith, V. (1982). Microeconomic Systems as an Experimental Science. In American Economic Review 72:923-955.

Sober, E., and Wilson, D.S. (1998). Unto Others. Cambridge, MA: Harvard University Press.

Tomasello, M., M. Carpenter, J. Call, T. Behne and H. Moll (2004). Understanding and Sharing Intentions: The Origins of Cultural Cognition. In Behavioral and Brain Sciences, forthcoming.

Vallentyne, P. (ed.). (1991). Contractarianism and Rational Choice. Cambridge: Cambridge University Press.

von Neumann, J., and Morgenstern, O., (1947). The Theory of Games and Economic Behavior. Princeton: Princeton University Press, 2nd edition.

Weibull, J. (1995). Evolutionary Game Theory. Cambridge, MA: MIT Press.

Yaari, M. (1987). The Dual Theory of Choice Under Risk. In Econometrica 55:95-115.

Young, H.P. (1998). Individual Strategy and Social Structure. Princeton: Princeton University Press.

Tiếng vọng KATTIGARA

Thứ Ba, 17 tháng 4, 2012

Lý thuyết Trò chơi (I)

1 nhận xét: