ألعاب محصلتها صفر وشروط كاروش كون تاكر

في هذه المقالة ، أتعامل مع مشكلة إيجاد إستراتيجيات مختلطة متوازنة باستخدام ألعاب معادية كمثال.


يجب أن يكون هناك لاعبان ، A و B ، يلعبان بشكل متكرر لعبة معينة. يلتزم كل لاعب في كل سحب بإحدى الإستراتيجيات العديدة - من أجل البساطة ، نفترض أن عدد الإستراتيجيات لكل من اللاعبين يتطابق ويتساوىn. عند الاختيارiاستراتيجية اللاعب الأول و jاستراتيجية اللاعب الثاني ، سيحصل اللاعب الأول على فوز aijواللاعب الثاني سيحصل على نفس الخسارة - هكذا يتم ترتيب المباريات العدائية. يمكن كتابة هذه الانتصارات كمصفوفة مربعةA:


A=aij,1i,jn


يلعب اللاعبون اللعبة بشكل متكرر ويمكنهم استخدام استراتيجيات مختلفة في مسابقات يانصيب مختلفة. الإستراتيجية المختلطة هي ناقل للاحتمالات المرتبطة بكل من إستراتيجيات اللاعب الخالصة . يختار كل لاعب إحدى الإستراتيجيات في السحب التالي وفقًا للاحتمال المحدد لها من خلال استراتيجيته المختلطة. إذا أشار إليهp و qإستراتيجيات مختلطة للاعبين ، فإن التوقعات الرياضية للفوز باللاعب الأول ستكون


f(p,q)=(Ap,q)=i=1nj=1npiqjaij


يسمى زوج من الاستراتيجيات المختلطة التوازن إذا لم يتمكن أي لاعب من زيادة مكاسبه عن طريق تغيير استراتيجيته. وبعبارة أخرى ، لأي زوج آخر من الاستراتيجياتp، qتم التنفيذ:


(Ap,q)(Ap,q)(Ap,q)


هنا نحن نبحث الآن عن مثل هذا التوازن.


1. التوازن


لذلك ، يشكل زوج من الاستراتيجيات المختلطة توازنًا إذا كان تغيير الاستراتيجية المختلطة للاعب الأول لا يمكن أن يزيد من مكاسبه ، ولا يمكن لتغيير الاستراتيجية المختلطة للاعب الثاني أن يقلل من خسارته.


على سبيل المثال ، ضع في اعتبارك مصفوفة الدفع هذه:


A=(2341)


. , , . : (2 3). , , : (4 1). , , : (1 4). , . , , .


. , (1/2,1/2), (1/2,1/2). 2.5.


, , , . , .


pq, :


p=argmaxp(Ap,q),q=argminq(Ap,q)


:


pi0,qj0,1i,jn


i=1npi=j=1nqj=1


, . - : , .


, , :


A=(312231223)


, ,


i=1npi=j=1nqj=1



p=(0.74,0,29,0.03)


- , . - --.


2. --


-, , 1951- , , 1939- .


:


minxRf(x)


, :


hi(x)0,1im


lj(x)=0,1jr


, , , --:


x(f(x)i=1mλihi(x)j=1rμjlj(x))=0


λihi(x)=0,1im


λi0,1im


hi(x)0,1im


lj(x)=0,1jr


; .


— . :


  • hi(x)=0,
  • - hi(x)<0, λi=0.

, , , . , :


  • 2 λi;
  • 2, 1 5 ;
  • , 3 4;
  • 2 ;
  • , .

, . .


3.


. , , « ».


p:


  • (Ap,q)min
  • pi0,1in
  • j=1npi1=0

q:


  • (Ap,q)min
  • qj0,1jn
  • j=1nqj1=0

:


L1(p)=(Ap,q)+i=1nαipiβ(i=1npi1)


L2(q)=(Ap,q)+j=1nλjqjμ(j=1nqj1)


:


L1(p)pi=j=1naijqj+αiβ


L2(q)qj=i=1naijpi+λjμ


--, . p:


  • αipi=0,1in
  • αi0,1in
  • i=1npi=1
  • pi0,1in

q:


  • λjqj=0,1jn
  • λj0,1jn
  • j=1nqj=1
  • qj0,1jn

, :


j=1naijqjαi+β=0,1in


i=1naijpi+λjμ=0,1jn


i=1npi=1,j=1nqj=1


4n+22n+2. :


  • αipi=0,1in
  • λjqj=0,1jn

pi, αi, qj, λj. , 22n2n. 22n, 2n+22n+2( ).


, --:


αi,pi,λj,qj0,1i,jn


.


, . i:


j=1naijqjαi+β=0


, αi,


j=1naijqj+β=0


αi, qβ:


αi=j=1naijqj+β


, : A. , αi, λj: , ; . :


j=1naijqj+β=0,1in


i=1naijpiμ=0,1jn


i=1npi=1,j=1nqj=1


:


pi,qj0,1i,jn


, n+1n+1. .


5.


: , . . , p, q, p, q:


(Ap,q)(Ap,q)(Ap,q)


, , . , . , . : p1,q1;p2,q2;...;pk,qk— . p,q,


i1,...,k:(Api,q)(Ap,q)(Ap,qi)


6.


GitHub: https://github.com/ashagraev/zero_sum_game


matrix.h : , , . . , .


kkt.cpp. . , callback'.


يمكن أن يكون هناك أكثر من توازن واحد في اللعبة ؛ علاوة على ذلك ، يمكن أن يكون هناك الكثير منها بلا حدود. على أي حال ، يجب أن تكون مستعدًا لحقيقة أن الخوارزمية ستنتج أكثر من حل واحد (وستكون المجموعة الكاملة من الحلول عبارة عن غلاف خطي فوق الحلول المشتقة). لذلك ، يفترض توقيع الوظيفة أن النتيجة هي ناقل الاستراتيجيات وليس استراتيجية واحدة. وبشكل رئيسي ، وفقًا لذلك ، يتم عرض جميع هذه المتجهات .


توجد أمثلة لمصفوفات الإدخال للبرنامج في input.txt ، ونتائج تشغيل البرنامج على هذه الأمثلة موجودة في ملف output.txt .


All Articles