Các dạng chiến lược trong Lý thuyết trò chơi

Hôm trước mình có nói qua về Lý thuyết trò chơi, và có đề cập đến "Cân bằng NASH", nhưng thực tế đây không phải là chiến lược duy nhất. Vì vậy hôm nay mình sẽ viết về các loại chiến lược này dựa trên những kiến thức mình được học ở trường.

(Để ảnh của Nhà toán học John Nash vì sau khi xem bộ phim "A beautiful mind" về cuộc đời của ông mình mới có động lực viết bài viết này)

(Cách trình bày đã được sửa một chút. Credit: #Hoàngtử_boycodon :p)

Hãy cùng xét ví dụ sau:

Hãng A và hãng B cùng bán 1 loại sản phẩm và đang quyết định xem có nên tiến hành chiến dịch quảng cáo không. Ma trận lợi ích được biểu diễn như sau:

(Quy ước: hành động và payoff của A sẽ luôn được viết trước hành động và payoff của B. Ví dụ: (Ad; Not Ad) sẽ hiểu là A chọn Ad, B chọn Not Ad, (10; 5) sẽ hiểu là A được 10, B được 5. Tất nhiên để lượng hóa được mức lợi ích của mỗi người cũng là cả 1 quá trình rồi. Ở đây trò chơi gồm 2 người chơi, đối vơi trò chơi nhiều người cũng làm tương tự.)

Chúng ta có 5 cách để xác định chiến lược cân bằng của trò chơi này, với đặc điểm chung là mỗi người sẽ tính đến lợi ích của mình trước, không quan tâm lợi ích của đối thủ như thế nào. Ngoại trừ cân bằng NASH, vì có thể có nhiều cân bằng, nên mới có cơ hội để tính đến lợi ích của đối thủ.

1. Sử dụng phương pháp chiến lược trội: Là chiến lược tối ưu mang lại lợi ích lớn nhất cho mỗi người chơi cho dù hành vi của đối thủ như thế nào.

- Với A: Nếu chọn "Ad" thì payoff là 10 (Nếu B chọn Ad), hoặc 15 (Nếu B chọn Not Ad). Nếu chọn "Not Ad" thì payoff là 6 (Nếu B chọn Ad), hoặc 9 (Nếu B chọn Not Ad).

Vì 10 > 6 và 15 > 9. Nên chiến lược trội của A sẽ là "Ad" (để có được mức payoff cao nhất là 10 hoặc 15) cho dù B chọn thế nào.

- Tương tự với B: Nếu chọn "Ad" thì payoff là 5 hoặc 8. Nếu chọn "Not Ad" thì payoff là 0 hoặc 2.

Vì 5 > 0 và 8 > 2 nên chiến lược trội của B sẽ là "Ad" (để có được mức payoff cao nhất là 5 hoặc 8) cho dù A chọn thế nào.

Cuối cùng, cân bằng của trò chơi khi sử dụng chiến lược trội là tập hợp các chiến lược trội của các người chơi, ở đây là (Ad; Ad) tương ứng với mức payoff (10; 5)

2. Sử dụng chiến lược bị áp đảo: Là chiến lược mà luôn tồn tại một chiến lược khác cho lợi ích lớn hơn cho dủ hành vi của đối thủ như thế nào. Xác định chiến lược bị áp đảo giúp loại bỏ những chiến lược không tốt để đưa trò chơi về dạng đơn giản hơn. Mọi chiến lược không phải là chiến lược trội thì đều là chiến lược bị áp đảo, một trò chơi không có chiến lược trội thì cũng không có chiến lược bị áp đảo.

3. Sử dụng chiến lược cực đại tối thiểu: Là chiến lược mà người chơi lựa chọn dựa trên kỳ vọng tối thiểu lớn nhất.

- Với A: Nếu chọn "Ad" thì payoff nhỏ nhất có thể đạt được là 10. Nếu chọn "Not Ad" thì payoff nhỏ nhất có thể đạt được là 6. Vì 10 > 6 nên chiến lược cực đại của A sẽ là "Ad" để trong trường hợp xấu nhất mức payoff sẽ là 10.

- Tương tự với B: Nếu chọn "Ad" thì payoff nhỏ nhất có thể đạt được là 5. Nếu chọn "Not Ad" thì payoff nhỏ nhất có thể đạt được là 0. Vì 5 > 0 nên chiến lược cực đại của A sẽ là "Ad" để trong trường hợp xấu nhất mức payoff sẽ là 5.

Cân bằng của trò chơi khi sử dụng chiến lược cực đại tối thiểu cũng là (Ad; Ad)

4. Sử dụng chiến lược cân bằng NASH: (Được đặt dựa theo tên của nhà toán học John Nash, nhưng mình hay thích viết thành NASH :p) Là chiến lược tối ưu mang lại lợi ích lớn nhất cho mỗi người chơi dựa trên những hành vi của đối thủ. Mỗi cân bằng có được khi sử dụng cân bằng NASH được gọi là một NE. Một trò chơi có thể có nhiều NE. Một cân bằng theo chiến lược trội là một NE, điều ngược lại không đúng.

- Nếu A đi trước:

A chọn Ad thì B sẽ được 5 hoặc 0, nên B sẽ chọn Ad để được 5 => cân bằng là (Ad; Ad), tương ứng với (10; 5)

Nếu A chọn Not Ad thì B sẽ được 8 hoặc 2, nên B sẽ chọn Ad để được 8 => cân bằng là (Ad; Not Ad), tương ứng với (15; 0)

- Nếu B đi trước:

B chọn Ad thì A sẽ được 10 hoặc 6, nên A sẽ chọn Ad để được 10 => cân bằng là (Ad; Ad), tương ứng với (10; 5)

Nếu B chọn Not Ad thì A sẽ được 15 hoặc 10, nên A sẽ chọn Ad để được 15 => cân bằng là (Ad; Not Ad), tương ứng với (15; 0)

Trong trò chơi đồng thời (2 người phải ra quyết định cùng 1 lúc), cân bằng cuối cùng được xác định bằng cách so sánh các cân bằng trong chiến lược của mỗi người ở trên. Có thể thấy (Ad; Ad) và (Ad; Not Ad) cùng xuất hiện, nên cân bằng của trò chơi khi sử dụng cân bằng NASH sẽ là (Ad; Ad) và (Ad; Not Ad), tương ứng với (10; 5) và (15; 0). Để chọn được 1 cân bằng cuối cùng thì đòi hỏi một người chơi cần phải bật tín hiệu đáng tin cậy cho người còn lại, ví dụ nếu B thấy A thuê thêm nhân viên Marketing, thì có thể A sẽ chọn Ad, thấy vậy B cũng sẽ chọn Ad.

Trong trò chơi tuần tự (tức là có 1 người đi trước và 1 người đi sau), người đi trước có thể (chỉ là có thể thôi) sẽ có lợi thế hơn để tối đa hóa lợi ích của mình và khiến đối thủ có mức lợi ích thấp hơn. Trong ví dụ trên, giả sử B được quyền đi trước, nhìn tổng thể, mức payoff cao nhất của B có thể đạt được là 8 nếu A chọn Not Ad và B chọn Ad. Nhưng đời không như mơ, B biết rằng nếu mình chọn Ad thì A sẽ chọn Ad, cân bằng sẽ là (Ad; Ad) ứng với (10; 5), còn nếu mình chọn Not Ad thì A sẽ chọn Ad, cân bằng sẽ là (Ad; Not Ad) ứng với (15; 0). Nên khả năng cao là để có mức lợi ích cao hơn, B chọn Ad, và A cũng chọn Ad, cân bằng sẽ là (Ad; Ad), ứng với (10; 5).

5. Chiến lược hỗn hợp: Là chiến lược tối đa lợi ích kỳ vọng dựa vào xác suất hành động của đối thủ (cách sử dụng cũng giống như áp dụng vào bài toán tình yêu ở đây, nhưng xin phép được không nói kỹ trong bài này :<). Một trò chơi có thể không có NE trong chiến lược thuần nhưng chắc chắn sẽ có NE trong chiến lược hỗn hợp.

Nói chung là chỉ có vậy, hy vọng mọi người cảm thấy dễ hiểu với cách trình bày của mình, và nếu có thể cảm thấy áp dụng trong việc ra các quyết định trong cuộc sống thì càng tốt :p

Đọc thêm:

Lý thuyết trò chơi trong thực tế - Phần 1: Keynes nghĩ ai là người đẹp nhất?
Bài viết gửi bởi Bourbon trong mục Khoa học - Công nghệspiderum.com

Tâm lý học thường ngày

Hoàng tử

26 tháng 2 2017

Anh xin ý kiến một chút: 1, Về cách trình bày: Theo anh em nên đặt ví dụ bài toán ở đầu tiên. Khi đi vào định nghĩa từng chiến lược thì lôi bài toán ban đầu vào để ví dụ cho chiến lược đó. Anh nghĩ trình bày vậy dễ theo dõi hơn. 2, Chiến lược trội theo anh hiểu là chiến lược luôn đem lại lợi ích lớn hơn những người chơi khác, bất chấp người chơi khác sử dụng chiến lược gì. Thế nên anh nghĩ, ở ví dụ trên, chiến lược áp đảo của A sẽ là Ad (bất chấp B làm gì lợi ích cũng sẽ kém A). Và B không có chiến lược trội (Chọn kiểu gì thì A cũng sẽ chọn Ad và A thắng). 3, Em có thể trình bày cụ thể và dễ hiểu hơn cân bằng Nash? Theo anh biết ngoài cân bằng Nash còn các cân bằng khác, nó khác nhau thế nào?

Báo cáo

Trả lời

Hachane

Đã chỉnh sửa 12 tháng 7 2021

1. Em đã sửa cách trình bày, cảm ơn anh :p 2. Như em đã nói ở trên, chiến lược trội là mỗi người chơi luôn muốn lợi ích lớn nhất cho mình, nhưng khi cả 2 người cùng làm vậy thì cân bằng lại không phải là lợi ích lớn nhất cho mình, giống như trong bài toán người tù ấy ạ! 3. Em không hiểu ý anh lắm, anh muốn nói là các dạng của cân bằng NASH ấy ạ?

27 tháng 2 2017

Ý 2 nhé: Ý anh là chiến lược trội là chiến lược giúp người chơi kiểu gì cũng thắng đối phương (lợi ích lớn hơn đối phương), chứ không phải lợi ích lớn nhất cho mình. Theo anh trong ví dụ của em thì A có chiến lược trội còn B thì không có. Anh đọc gọi là "Chiến lược áp đảo", không biết đây có phải cùng 1 chiến lược với chiến lược trội không? Ý 3: anh không hiểu chiến lược cân bằng Nash và trạng thái cân bằng của trò chơi.

Chiến lược trội cũng chính là chiến lược áp đảo ạ. A có chiến lược trội hay không thì cũng không liên quan đến việc B có chiến lược trội hay không. Anh hiểu theo ý khác thì có thể lấy dẫn chứng nguồn cho em tham khảo được không :p Cân bằng NASH em sửa rồi, anh đọc lại xem dễ hiểu hơn chưa ạ :'<

Có lẽ anh hiểu sai. Theo ý anh hiểu là A và B tham gia trò chơi. Chiến lược áp đảo là chiến lược giúp A kiểu gì cũng thắng B chứ không phải là chiến lược giúp A có lợi ích lớn hơn. Trong một trò chơi 2 người không thể có chuyện A và B cùng áp đảo đối phương được. Chỗ ví dụ của em em đang so là khi A chọn Ad em có lợi nhuận của A là 10 > 6 hoặc 15 > 9. Theo anh so vậy không đúng bản chất. Nó phải là khi A chọn Ad, lợi nhuận của A luôn lớn hơn B: 10 > 5 hoặc 15 > 0. Vì B không có giải pháp nào giống như thế, do đó trong trò chơi của em B luôn bị áp đảo không có chiến lược áp đảo. Thế nên ở trò chơi ví dụ của em B sẽ phải áp dụng chiến lược cực đại tối thiểu để tăng tối đa lợi nhuận cho mình. Đấy là cách anh hiểu, không biết có phải anh hiểu sai không? Link thì anh đọc lâu rồi nên không nhớ nguồn đâu.

Theo dõi cuộc trò chuyện

Viet Anh Tran

Anh thấy ví dụ em đưa ra mới chỉ nói đến payoff mà không nói đến cost (chẳng hạn để Ad thì phải mất bao nhiêu?). Anh nghĩ khi có thêm yếu tố này thì người đọc sẽ dễ hình dung hơn về chuyện được - mất nhỉ? Hay đó là một trường hợp phức tạp hơn nữa?

Theo tao biết thì cái payoff ấy là tính tất tần tật chi phí bỏ ra các thứ để tính ra lợi nhuận gộp rồi.

Nếu thế thì cảm thấy lựa chọn có vẻ đơn giản quá nhỉ :-? không khó khăn như Prisoners' dilemma

Lily09

Bài hay, upvote

Nếu các cá nhân ra quyết định thì việc lựa chọn chiến lược còn nói lên bản chất con người của họ nữa :))

Cái này thì em không chắc lắm, nhưng chắc chắn là nó còn phụ thuộc vào trò chơi là đồng thời hay tuần tự nữa ạ

chinchinway

Cách đây hai hôm mình vừa được nghe một bài giảng lí thuyết trò chơi, rất hay, của một giáo sư người Đức. Hay quá hôm nay lại đọc được bài của bạn, bằng tiếng Việt 💌

Bạn chia sẻ thêm về bài giảng đó được không :))

Hex

29 tháng 4 2017

Mình nghĩ Hachane nên nói rõ khi cả hai đều chọn "not ad" thì tuy payoff giảm nhưng họ cũng giảm bớt được các chi phí cũng như các áp lực từ đó lợi nhuận vẫn cao nếu thị trường ổn định và đối thủ cũng chọn "not ad". Vì thế đôi khi các công ti vẫn chọn "not ad" khi đối thủ cũng "not ad". Vậy thì người đọc mới không bị định kiến hành động trong cuộc sống :v ai cũng muốn là người ra tay trước thế thì xã hội sẽ rơi vào "bi kịch mảnh đất công".

7 tháng 6 2019

Cảm ơn Hex. Nhưng hình như mình quên nói 1 điều là để đơn giản hóa, bài toán ở đây giả thiết mọi người luôn muốn tối đa hóa lợi ích của mình. Payofff ở đây là lợi ích cuối cùng sau khi xét đến cả yếu tố chi phí rồi.

little_hama

4 tháng 6 2019

Chào bạn, trong cân bằng Nash, Nếu A chọn trước và A chọn Not Ad thì B chọn Ad=8 hoặc Not ad=2, và để max lợi ích của mình B chọn Ad=8 thì cân bằng Nash sẽ là (Not Ad; Ad) = (6;8) phải không bạn? Mình thấy bạn ghi là (15;0).

Mình đã đọc lại và thấy hình như mình viết nhầm thật. Chỗ đó phải là (Not Ad, Ad)=(6,

như bạn nói mới đúng. Cảm ơn bạn nha.

Hi, cảm ơn bài viết của bạn nên mình mới hiểu LTTT và làm bài thi tốt :)))

Ngọc Châu

24 tháng 8 2020

cho mình hỏi vậy có 3 cân bằng Nash đúng k ạ?

Tải thêm bình luận

Các dạng chiến lược trong Lý thuyết trò chơi

Thí nghiệm tâm lý gây sốc nhất trong lịch sử Tâm Lý Học

JEFFREY DAHMER: NGUYÊN NHÂN ĐẰNG SAU TỘI ÁC KINH HOÀNG NÚP BÓNG TÌNH YÊU

Làm thế nào để tự học hiệu quả (phần 1)

Hãy trở thành người bạn ghét | Tâm lý học (Shadow) - Phần 1

12 NĂNG LỰC CỦA TÂM TRÍ - PHẦN 1: XẢ BỎ