Բանտարկյալի դիլեմա

Բանտարկյալի դիլեմա (անգլ.՝ Prisoner's dilemma, ավելի հազվադեպ օգտագործվում է որպես «ավազակի դիլեմա»), խաղի տեսության հիմնարար խնդիր, որի համաձայն ռացիոնալ խաղացողները միշտ չէ, որ համագործակցելու են միմյանց հետ, նույնիսկ եթե դա իրենց շահերից է բխում։ Ենթադրվում է, որ խաղացողը («բանտարկյալը») առավելագույնի է հասցնելու իր սեփական շահը՝ առանց ուրիշների շահի մասին հոգ տանելու։

Խնդրի էությունը ձևակերպել են Մերիլ Ֆլադը և Մելվին Դրեշերը 1950 թվականին։ Դիլեմայի անունը տվել է մաթեմատիկոս Ալբերտ Թաքերը։

Բանտարկյալի դիլեմայում դավաճանությունը խստորեն գերակշռում է համագործակցությանը, ուստի միակ հնարավոր հավասարակշռությունը երկու մասնակիցների դավաճանությունն է։ Պարզ ասած, ինչպիսին էլ լինի մյուս խաղացողի պահվածքը, բոլորը ավելի շատ կշահեն, եթե դավաճանեն։ Քանի որ ցանկացած իրավիճակում դավաճանությունն ավելի ձեռնտու է, քան համագործակցությունը, բոլոր ռացիոնալ խաղացողները կընտրեն դավաճանությունը։

Դիլեման այն է, որ բանտարկյալներն առանձին-առանձին ռացիոնալ որոշում կայացնելով՝ միասին գալիս են իռացիոնալ որոշման․ եթե երկուսն էլ դավաճանեն, նրանք ընդհանուր առմամբ ավելի քիչ շահում կստանան, քան եթե համագործակցեին (այս խաղի միակ հավասարակշռությունը չի հանգեցնում Պարետո արդյունավետ լուծման)։ Բանտարկյալի կրկնվող դիլեմայում խաղը տեղի է ունենում պարբերաբար, և յուրաքանչյուր խաղացող կարող է «պատժել» մյուսին ավելի վաղ չհամագործակցելու համար։ Նման խաղում համագործակցությունը կարող է դառնալ հավասարակշռություն, և դավաճանելու խթանը կարող է գերակշռել պատժի սպառնալիքով (կրկնությունների թվի աճով, Նեշի հավասարակշռությունը ձգտում է Պարետո արդյունավետության)։

Դասական բանտարկյալի դիլեմա

Բոլոր դատական համակարգերում ավազակության (կազմակերպված խմբի կազմում հանցագործություններ կատարելը) համար պատիժը շատ ավելի կոշտ է, քան միայնակ կատարված նույն հանցագործությունների համար (այստեղից էլ կոչվում է «ավազակի դիլեմա»)։

Բանտարկյալի դիլեմայի դասական ձևակերպումը հետևյալն է․

Երկու հանցագործներ՝ Ա-ն և Բ-ն, բռնվել են մոտավորապես նույն ժամանակ նմանատիպ հանցագործությունների ժամանակ։ Հիմքեր կան ենթադրելու, որ նրանք գործել են դավադրաբար, և ոստիկանությունը, նրանց մեկուսացնելով միմյանցից, առաջարկում է նույն գործարքը. եթե մեկը վկայում է մյուսի դեմ, իսկ մյուսը լռում է, ապա առաջինն ազատվում է հետաքննությանը օգնելու համար, իսկ երկրորդը ստանում է ազատազրկման առավելագույն ժամկետ (10 տարի)։ Եթե երկուսն էլ լռում են, նրանց արարքն անցնում է ավելի թեթև հոդվածով, և նրանցից յուրաքանչյուրը դատապարտվում է կես տարվա ազատազրկման։ Եթե երկուսն էլ վկայում են միմյանց դեմ, ապա նրանք ստանում են նվազագույն ժամկետ (յուրաքանչյուրը 2 տարի)։ Յուրաքանչյուր բանտարկյալ ընտրում է՝ լռել, թե վկայել մյուսի դեմ։ Այնուամենայնիվ, նրանցից ոչ մեկը հստակ չգիտի, թե ինչ է անելու մյուսը։ Ի՞նչ կլինի։

Խաղը կարելի է ներկայացնել հետևյալ աղյուսակով․

Բանտարկյալ Բ Բանտարկյալ Ա	Բանտարկյալ Բ-ն լռում է (համագործակցություն)	Բանտարկյալ Բ-ն վկայում է (դավաճանություն)
Բանտարկյալ Ա-ն լռում է (համագործակցություն)	Յուրաքանչյուրն ազատազրկվում է 1 տարով	Բանտարկյալ Ա՝ 3 տարի Բանտարկյալ Բ-ն ազատ է արձակվում
Բանտարկյալ Ա-ն վկայում է (դավաճանություն)	Բանտարկյալ Ա-ն ազատ է արձակվում Բանտարկյալ Բ-ն՝ 3 տարի	Յուրաքանչյուրն ազատազրկվում է 2 տարով

Դիլեման հայտնվում է, եթե ենթադրենք, որ երկուսն էլ մտածում են միայն իրենց ազատազրկման ժամկետը նվազագույնի հասցնելու մասին։

Ներկայացնենք բանտարկյալներից մեկի դատողությունը։ Եթե գործընկերը լռում է, ապա ավելի լավ է դավաճանել նրան և ազատ արձակվել նրան (հակառակ դեպքում՝ վեց ամիս ազատազրկում)։ Եթե գործընկերը վկայում է, ապա ավելի լավ է նաև վկայել նրա դեմ՝ 2 տարի (հակառակ դեպքում՝ 10 տարի) ազատազրկում ստանալու համար։ «Վկայելու» ռազմավարությունը խստորեն գերակշռում է «լռելու» ռազմավարությանը։ Նմանապես, մյուս բանտարկյալ գալիս է նույն եզրակացության։

Խմբի (այս երկու բանտարկյալների) տեսանկյունից ավելի լավ է համագործակցել միմյանց հետ, լռել և վեց ամիս ստանալ, քանի որ դա նվազեցնելու է բանտարկության ընդհանուր ժամկետը։ Ցանկացած այլ լուծում կլինի ավելի քիչ շահավետ։ Սա շատ հստակ ցույց է տալիս, որ ոչ զրոյական գումարով խաղում Պարետո արդյունավետությունը կարող է հակառակ լինել Նեշի հավասարակշռությանը։

Ընդհանրացված ձև

Հնարավոր է ձևափոխել խաղի սխեման՝ աբստրահվելով բանտարկյալների ենթատեքստից։ Խաղի ընդհանրացված ձևը հաճախ օգտագործվում է փորձարարական տնտեսագիտության մեջ։ Հետևյալ կանոնները տալիս են խաղի տիպիկ իրականացում․

Խաղում կա երկու խաղացող և բանկիր։ Յուրաքանչյուր խաղացող պահում է 2 քարտ՝ մեկի վրա գրված է «համագործակցել», մյուսի վրա գրված է «դավաճանել» (սա խաղի ստանդարտ տերմինաբանությունն է)։ Յուրաքանչյուր խաղացող բանկիրի առջև դնում է մեկ քարտ (այսինքն՝ ոչ ոք չգիտի մյուսի որոշումը, չնայած մյուսի որոշումն իմանալը չի ազդում գերիշխանության վերլուծության վրա)^[1]։ Բանկիրը բացում է քարտերը և տալիս շահումները։
Եթե երկուսն էլ ընտրել են «համագործակցել», երկուսն էլ ստանում են C։ Եթե մեկը ընտրել է «դավաճանել», մյուսը ՝ «համագործակցել», առաջինը ստանում է D, երկրորդը՝ с: Եթե երկուսն էլ ընտրել են «դավաճանել», երկուսն էլ ստանում են d:
C, D, c, d փոփոխականների արժեքները կարող են լինել ցանկացած նշան (վերը նշված օրինակում ամեն ինչ փոքր է կամ հավասար է 0-ի)։ D > C > d > c անհավասարությունը պետք է պահպանվի, որպեսզի խաղը դառնա «բանտարկյալի դիլեմա»։
Եթե խաղը կրկնվում է, այսինքն՝ անընդմեջ խաղում են ավելի քան 1 անգամ, համագործակցության ընդհանուր շահումը պետք է լինի ավելի մեծ, քան ընդհանուր շահումը այն իրավիճակում, երբ մեկը դավաճանում է, իսկ մյուսը՝ ոչ, այսինքն՝ 2C > D + c: այս անհավասարությունը ցույց է տալիս, որ փոխադարձ համագործակցության դեպքում ձեռք է բերվում խիստ Պարետո արդյունավետ իրավիճակ, երբ ցանկացած այլընտրանք բերում է առնվազն մեկ խաղացողի շահումի նվազեցմանը։

Այս կանոնները սահմանվել են Դուգլաս Հոֆշտադտերի կողմից և կազմում են բանտարկյալի դիլեմայի կանոնական նկարագրությունը։

Այլընտրանքային ձևակերպում

Հոֆշտադտերը ենթադրել է^[2], որ մարդիկ ավելի հեշտ են հասկանում այնպիսի խնդիրներ, ինչպիսիք են բանտարկյալի դիլեման, եթե այն ներկայացվում է որպես առանձին խաղ կամ առևտրի գործընթաց։ Օրինակներից մեկը «փակ պայուսակների փոխանակումն է». երկու հոգի հանդիպում և փոխանակում են փակ պայուսակներ՝ հասկանալով, որ դրանցից մեկը փող է պարունակում, մյուսը՝ ապրանք։ Յուրաքանչյուր խաղացող կարող է հարգել գործարքը և պայուսակի մեջ դնել այն, ինչ պայմանավորվել են, կամ խաբել զուգընկերոջը՝ տալով դատարկ պայուսակ։

Այս խաղում խաբեությունը միշտ լուծում կլինի առավելագույն կարճաժամկետ նյութական օգուտով։

Օրինակներ իրական կյանքից

Որոշ հեռուստատեսային վիկտորինաներում նման սկզբունքը օգտագործվում է ռաունդի կամ եզրափակչի հաղթողներին որոշելու համար։ Դիլեմայի օրինակը ցուցադրվել է 2012 թվականին բրիտանական The Bank Job հեռուստավիկտորինայի յուրաքանչյուր մրցաշրջանի եզրափակչում։ Եզրափակիչ անցած երկու խաղացողներ պետք է որոշում կայացնեին, թե ինչպես տնօրինել շահումը։ Խաղարկված ընդհանուր ջեքփոթի կեսը դրված է «CASH» մակագրությամբ ճամպրուկներում, մյուս երկուսում թերթերի գրություններ են՝ «TRASH» մակագրությամբ (ամեն խաղացողն ունի յուրաքանչյուր տեսակի մեկ ճամպրուկ)։ Յուրաքանչյուր խաղացող իր ճամպրուկներից մեկը պետք է փոխանցի մյուսին։ Եթե երկու խաղացողներն էլ ստանում են «CASH» ճամպրուկներ, ապա շահումը հավասար կիսում են։ Եթե միայն մեկը տալիս է «TRASH» ճամպրուկը աղբարկղ, ապա նա վերցնում է խաղի ամբողջ բանկը։ Եթե երկուսն էլ «TRASH» ճամպրուկ են տալիս, երկուսն էլ են կորցնում են ամբողջ գումարը, և ամբողջ գումարը ստանում են եզրափակչի նախորդ փուլերում դուրս մնացած խաղացողները։

Բանտարկյալների, թղթախաղի և փակ պայուսակների փոխանակման օրինակները կարող են մտացածին թվալ, բայց իրականում կան մարդկանց և կենդանիների փոխազդեցության բազմաթիվ օրինակներ, որոնք ունեն նույն շահումների մատրիցը։ Հետևաբար, բանտարկյալի դիլեման հետաքրքիր է այնպիսի սոցիալական գիտությունների համար, ինչպիսիք են տնտեսագիտությունը, քաղաքագիտությունը և հասարակագիտությունը, ինչպես նաև կենսաբանության՝ էթոլոգիա և էվոլյուցիոն կենսաբանություն բաժինների։ Բազմաթիվ բնական գործընթացներ ամփոփվել են մի մոդելում, որոնցում կենդանի էակները մասնակցում են բանտարկյալի դիլեմայի տեսակի անվերջ խաղերին։ Դիլմեայի նման լայն կիրառելիությունը զգալի կարևորություն է տալիս այս խաղին^[3]։

Քաղաքական ռեալիզմի մեջ, օրինակ, դիլեմայի սցենարը հաճախ օգտագործվում է սպառազինության մրցավազքում ներգրավված երկու պետությունների խնդիրը պատկերելու համար։ Երկու պետություններն էլ հայտարարելու են, որ ունեն երկու հնարավորություն՝ կամ ավելացնել ռազմական ծախսերը, կամ կրճատել սպառազինությունը։ Այս դեպքում ակնհայտորեն կատարվում են բանտարկյալի դիլեմայի պոստուլատները (D > C > d > c)^[4]․

D՝ «մենք զինվել ենք, իսկ հակառակորդը՝ ոչ» (լավագույն տարբերակ՝ ամենամեծ անվտանգություն)։
C՝ «ոչ ոք չի զինվել» (հաջորդ նախընտրելի տարբերակ)։
d՝ «երկուսն էլ զինվել են» (վատ, բայց ոչ աղետալի տարբերակ)։
c՝ «մենք չենք զինվել, իսկ հակառակորդը զինվել է» (աղետալի տարբերակ)։

Ա կողմի տեսանկյունից, Եթե Բ կողմը չի զինվում, ապա A-ի համար ընտրությունը D–ի և C–ի միջև է, այսինքն ավելի լավ է զինվել։ Իսկ եթե Բ–ն է զինվում, ապա A–ի համար է ընտրությունը d–ի և c–ի միջև է՝ կրկին ավելի ձեռնտու է զինվել։ Այսպիսով, Բ-ի ցանկացած ընտրության դեպքում Ա կողմի համար ավելի ձեռնտու է զինվել։ Իրավիճակը Բ կողմի համար միանգամայն նույնն է, և արդյունքում երկու կողմերն էլ կձգտեն ռազմական էքսպանսիայի։

Ուիլյամ Փաունդսթոունը բանտարկյալի դիլեմայի մասին գրքում նկարագրում է Նոր Զելանդիայում տիրող իրավիճակը, որտեղ թերթերի արկղերը բաց են մնում։ Թերթը կարելի է վերցնել առանց դրա համար վճարելու, բայց քչերն են դա անում, քանի որ շատերը գիտակցում են այն վնասը, որը կլիներ, եթե բոլորը գողանային թերթերը։ Քանի որ բանտարկյալի դիլեման միաժամանակ բոլոր խաղացողների համար է (ոչ ոք չի կարող ազդել ուրիշների որոշումների վրա), պատճառաբանության այս ընդհանուր գիծը կոչվում է «մոգական մտածողություն»։ Լինելով մանր գողության բացակայության բացատրություն՝ մոգական մտածողությունը բացատրում է ընտրություններում կամավոր քվեարկությունը։ Որպես այլընտրանք՝ այս վարքագիծը կարող է բացատրվել ապագա գործողությունների ակնկալիքով (և կապ չպահանջել «մոգական մտածողության» հետ)։ Ապագա գործողությունների մոդելավորումը պահանջում է ժամանակի չափման ավելացում, որն արվում է կրկնվող դիլեմայի մեջ^[5]։

Դիլեմայի տեսական եզրակացությունը պատճառներից մեկն է, թե ինչու շատ երկրներում մեղքի խոստովանության գործարքն արգելված է։ Հաճախ դիլեմայի սցենարը կրկնվում է շատ ճշգրիտ. երկու կասկածյալների շահերից է բխում խոստովանել և վկայել մյուս կասկածյալի դեմ, նույնիսկ եթե երկուսն էլ անմեղ են։ Թերևս ամենավատ դեպքն այն է, երբ միայն մեկն է մեղավոր, այս դեպքում անմեղը դժվար ինչ–որ բան խոստովանի, իսկ մեղավորը գնալու է դրան և ցուցմունք է տալու անմեղի դեմ։

Իրական կյանքում շատ դիլեմաներ ներառում են բազմաթիվ խաղացողներ։ Թեև փոխաբերական, Հարդինի «համայնքների ողբերգությունը» կարելի է համարել որպես մի շարք խաղացողների համար դիլեմայի ընդհանրացում։ Համայնքի յուրաքանչյուր բնակիչ ընտրում է՝ արածեցնել անասունները ընդհանուր արոտավայրում և օգուտ ստանալ ՝ սպառելով դրա ռեսուրսները, թե սահմանափակել իր եկամուտը։ Արոտավայրի համընդհանուր (կամ հաճախակի) առավելագույն օգտագործման հավաքական արդյունքը ցածր եկամուտն է (որը հանգեցնում է համայնքի ոչնչացմանը)։ Այնուամենայնիվ, նման խաղը ֆորմալ չէ, քանի որ այն կարող է բաժանվել դասական խաղերի հաջորդականության՝ 2 մասնակիցով։

Բանտարկյալի կրկնվող դիլեմա

1984 թվականին հրատարակած «Համագործակցության էվոլյուցիա» գրքում Ռոբերտ Աքսելրոդը ուսումնասիրել է դիլեմայի սցենարի ընդլայնումը, որը նա անվանել է բանտարկյալի կրկնվող դիլեմա (ԲԿԴ)։ Դրանում մասնակիցները կրկին ընտրություն են կատարում և հիշում են նախորդ արդյունքները։ Աքսելրոդը հրավիրել է ամբողջ աշխարհից ակադեմիական գործընկերներին՝ մշակելու համակարգչային ռազմավարություններ՝ ԲԿԴ առաջնությունում մրցելու համար։ Դրա մեջ ներառված ծրագրերը տարբերվել են ալգորիթմական բարդությունով, նախնական թշնամանքով, ներման ունակությամբ և այլն։

Աքսելրոդը հայտնաբերել է, որ եթե խաղը երկար ժամանակ կրկնվել է տարբեր ռազմավարություններ ունեցած բազմաթիվ խաղացողների շրջանում, «ագահ» ռազմավարությունները երկարաժամկետ հեռանկարում վատ արդյունքներ են տվել, մինչդեռ ավելի «այլասիրական» ռազմավարությունները ավելի լավ էին աշխատում՝ սեփական շահումի տեսանկյունից։

Լավագույն դետերմինիստական ռազմավարությունը «Ակն ընդ ական»–ն է, որը մշակել և առաջնության է ներկայացրել Անատոլի Ռապոպորտը։ Այն մասնակից բոլոր ծրագրերից ամենապարզն է եղել, բաղկացած էր Basic լեզվով ընդամենը 4 տող կոդից։ Ռազմավարությունը պարզ է. համագործակցել խաղի առաջին իրավիճակում, որից հետո անել նույնը, ինչ արել է հակառակորդը նախորդ քայլում։ Մի փոքր ավելի լավ է աշխատում «Ակն ընդ ական ներողամտությամբ» ռազմավարությունը։ Երբ հակառակորդը դավաճանում է, հաջորդ քայլում խաղացողը երբեմն, անկախ նախորդ քայլից, համագործակցում է փոքր հավանականությամբ (1-5%)։ Սա թույլ է տալիս պատահականորեն դուրս գալ փոխադարձ դավաճանության ցիկլից։ Այն լավագույնս աշխատում է, երբ խաղի մեջ թյուրիմացություն է մտցվում, երբ մեկ խաղացողի որոշումը սխալ է հաղորդվում մյուսին։

Վերլուծելով լավագույն արդյունքների հասած ռազմավարությունները՝ Աքսելրոդը նշել է մի քանի պայմաններ, որոնք անհրաժեշտ են բարձր արդյունք ստանալու ռազմավարության համար․

Բարի. Ամենակարևոր պայմանն այն է, որ ռազմավարությունը պետք է լինի «բարի», այսինքն՝ չդավաճանել, քանի դեռ դա չի արել հակառակորդը։ Գրեթե բոլոր հաղթանակած ռազմավարությունները բարի են։ Հետևաբար զուտ եսասիրական ռազմավարությունը զուտ եսասիրական պատճառներով առաջինը չի «հարվածելու» մրցակցին։
Վրեժխնդիր. Հաջող ռազմավարությունը չպետք է կույր լավատես լինի։ Նա միշտ պետք է վրեժխնդիր լինի։ Ներողամիտ ռազմավարության օրինակ է միշտ համագործակցելը։ Սա շատ վատ ընտրություն է, քանի որ «ստոր» ռազմավարությունները կօգտվեն դրանից։
Ներողամիտ. Հաջող ռազմավարությունների մեկ այլ կարևոր որակ՝ ներելու կարողությունն է։ Վրեժ լուծելուց հետո նրանք պետք է վերադառնան համագործակցության, եթե հակառակորդը չի շարունակում դավաճանել։ Սա կանխում է միմյանց անվերջ վրեժխնդրությունը և առավելագույնի հասցնում շահույթը։
Աննախանձ․ Վերջին որակը նախանձ չլինելն է, այսինքն՝ չփորձել ավելի շատ միավորներ հավաքել, քան հակառակորդը։

Այսպիսով՝ Աքսելրոդը եկել է ուտոպիստական եզրակացության, որ եսասեր անհատները, իրենց իսկ եսասիրական բարիքի համար, ձգտելու են լինել բարի, ներողամիտ և աննախանձ։

Կրկին դիտարկենք սպառազինության մրցավազքի մոդելը։ Եզրակացվել է, որ միակ ռացիոնալ ռազմավարությունը զինվելն է, նույնիսկ եթե երկու երկրներն էլ ցանկանային ՀՆԱ-ն ծախսել յուղի վրա, այլ ոչ թե թնդանոթների^[6]։ Հետաքրքիր է, որ փորձերը ցույց տալու, որ դիլեմայի եզրակացությունը գործնականում գործում է, հաճախ ցույց են տալիս, որ նման վարքագիծ տեղի չի ունենում (օրինակ՝ հունական և թուրքական ռազմական ծախսերը փոխվում են ոչ թե «ակն ընդ ական» ռազմավարությանը համապատասխան, այլ, ամենայն հավանականությամբ, հետևում են ներքին քաղաքականությանը)։ Սա կարող է լինել ռացիոնալ վարքի օրինակ, որը տարբերվում է մեկ քայլի ընտրությամբ և բազմաքայլ խաղերից։

Եթե մեկ քայլի ընտրությամբ խաղում, ամեն դեպքում, գերակշռում է դավաճանելու ռազմավարությունը, ապա բազմաքայլում օպտիմալ ռազմավարությունը կախված է այլ մասնակիցների պահվածքից։ Օրինակ, եթե բնակչության շրջանում բոլորը խաբում են միմյանց, և մեկն իրեն պահում է «ակն ընդ ական» սկզբունքով, նա հայտնվում է փոքր կորստի մեջ՝ առաջին քայլում կորստի պատճառով։ Նման բնակչության մեջ օպտիմալ ռազմավարությունը միշտ դավաճանելն է։ Եթե «ակն ընդ ական» սկզբունքին հետևողների թիվն ավելի մեծ է, ապա արդյունքն արդեն կախված է հասարակության մեջ նրանց մասնաբաժնից։

Դուք կարող եք որոշել օպտիմալ ռազմավարությունը երկու եղանակով։

Բայես–Նեշի հավասարակշռություն՝ եթե որոշված է հանդիպող վարքագծի վիճակագրական բաշխումը (օրինակ․ 33%՝ ակն ընդ ական, 33%՝ միշտ խաբում են, իսկ 33%՝ միշտ համագործակցում են), ապա ռազմավարությունը կարելի է հաշվարկվել մաթեմատիկորեն^[7]։ Էվոլյուցիոն դինամիկայի տեսությունը մանրամասնորեն զբաղվում է դրանով։
ըստ Մոնտե Կառլոյի մեթոդի, կատարվել են բնակչության սիմուլյացիաներ, որտեղ ցածր արդյունքներ ունեցող անհատները վերացել են, իսկ բարձր արդյուքներով մասնակիցները՝ վերարտադրվել (օգտագործվել է գենետիկ ալգորիթմ ՝ օպտիմալ էվոլյուցիոն կայուն ռազմավարություն գտնելու համար)։

Թեև «ակն ընդ ական» ռազմավարությունը համարվել է ամենահաջողված պարզ ռազմավարությունը, Սաութհեմփթոնի համալսարանի թիմը՝ պրոֆեսոր Նիկոլաս Ջենինգսի գլխավորությամբ^[8], ներկայացրել է նոր ռազմավարություն ԲԿԴ առաջնության 20-րդ տարեդարձի համար։ Այս ռազմավարությունն ավելի հաջող է ստացվել, քան «ակն ընդ ական»-ը։ Այն հիմնված է եղել ծրագրերի միջև փոխգործակցության վրա՝ դրանցից մեկի համար առավելագույն հաշիվ ստանալու համար։ Համալսարանն առաջնության է ներկայացրել 60 ծրագիր, որոնք առաջին 5-10 քայլերի ընթացքում ճանաչել են միմյանց մի շարք գործողություններով։ Իմանալով մյուսին՝ մի ծրագիրը միշտ համագործակցել է, իսկ մյուսը դավաճանել է, ինչը առավելագույն միավոր է տվել դավաճանին։ Երբ ծրագիրը հասկացել է, որ մրցակիցը սաութհեմփթոնյան չի, ապա անընդհատ դավաճանել է նրան՝ նվազագույնի հասցնելու հակառակորդի արդյունքը։ Արդյունքում, այս ռազմավարությունը գրավել է մրցույթի առաջին երեք տեղերը^[9]։

Չնայած այս էվոլյուցիոն կայուն ռազմավարությունը ավելի արդյունավետ է հանդես եկել մրցույթում, դա ձեռք է բերվել այն բանի շնորհիվ, որ թիմը մասնակցել է միանգամից մի քանի ծրագրերով։ Եթե խաղացողը կարող է վերահսկել միայն մեկ ծրագիր, ապա «ակն ընդ ական» ռազմավարությունը լավագույնն է։ Այն նաև հետևում է խաղացողների միջև հաղորդակցությունն արգելելու կանոնին։ Այն, որ Սաութհեմփթոնի ծրագրերը «ծիսական պար» են կատարել առաջին 10 քայլերում՝ միմյանց ճանաչելու համար, միայն հաստատում է, թե որքան կարևոր է հաղորդակցությունը խաղի հավասարակշռության փոփոխության մեջ։

Բանտարկյալի դիլեման հիմնարար է մարդկանց փոխազդեցության և վստահության վերաբերյալ որոշ տեսությունների համար։ Դիլեմայի մոդելի ենթադրությունից, որ երկու մարդկանց միջև գործարքը պահանջում է վստահություն, պոպուլյացիաներում վստահության վարքագիծը կարող է մոդելավորվել՝ օգտագործելով խաղի բազմախաղացող կրկնվող տարբերակը։ Սա տարիներ շարունակ ոգեշնչել է շատ գիտնականների։ 1975 թվականին Հոֆմանը և Փուլը գնահատել են այս թեմային նվիրված աշխատանքների քանակը մոտ 2000-ով։

Ուսուցման հոգեբանություն և խաղերի տեսություն

Եթե խաղացողները կարող են գնահատել այլ խաղացողների կողմից դավաճանության հնարավորությունը, նրանց վարքի վրա ազդում է փորձը։ Պարզ վիճակագրությունը ցույց է տալիս, որ անփորձ խաղացողները սովորաբար իրենց չափազանց լավ կամ վատ են պահում։ Եթե նրանք անընդհատ այդպես վարվեն, կպարտվեն իրենց չափազանց ագրեսիվության կամ չափազանց բարության պատճառով։ Ավելի մեծ փորձ ձեռք բերելով՝ նրանք ավելի իրական են գնահատում դավաճանության հավանականությունը և հասնում ավելի լավ արդյունքների։ Վաղ գործողություններն ավելի ուժեղ են ազդում անփորձ խաղացողների վրա, քան ավելի ուշ գործողությունները՝ փորձառուների վրա։ շ

Դուք կարող եք նվազեցնել բնակչության հետ դավաճանության հավանականությունը վաղ խաղերում համագործակցությամբ՝ թույլ տալով ամրապնդել վստահությունը^[10]։ Հետևաբար, անձնազոհությունը որոշ իրավիճակներում կարող է ուժեղացնել խմբի ոգին։ Եթե խումբը փոքր է, դրական վարքագիծը, ամենայն հավանականությամբ, դրական պատասխան կստանա, ինչը խրախուսելու է անհատներին համագործակցել։

Այս գործընթացները փոխադարձ այլասիրության, խմբային ընտրության, ընտանեկան ընտրության և էթիկայի հետաքրքրության հիմնական դաշտն են։

Կրոնի ազդեցություն

Կրոնական ներկայացուցչությունները զգալիորեն բարձրացնում են խաղացողների միջև համագործակցության աստիճանը։ Կատարված ուսումնասիրություններում նույնիսկ կրոնական բառերի անուղղակի հիշատակումը նախախաղային առաջադրանքում հանգեցրել է պրոսոցիալական վարքի էական աճի^[11]։

Տես նաև

Ծանոթագրություններ

↑ Подсказка, что, например, красный игрок собирается играть картой «сотрудничать» не меняет того факта, что «предать» является строго доминирующей стратегией. Если рассматривать только игру, возможность коммуникации не играет какой-либо роли. Однако если игра играется в реальной жизни, рассуждения, лежащие вне самой игры, могут привести к тому, что сотрудничество произойдёт. Это очень важный момент в выводах игры, что если нам не нужно принимать во внимание посторонние факторы, одноразовая «дилемма заключённого» не меняется от коммуникации.
↑ Хофштадтер, Дуглас Глава 29 // Метамагические вопросы: в поиске сущности сознания и шаблона = Metamagical Themas: questing for the essence of mind and pattern. — Bantam Dell Pub Group, 1985. — ISBN 0-465-04566-9
↑ Dal Bó, Pedro; Fréchette, Guillaume R. (2019). «Strategy Choice in the Infinitely Repeated Prisoner's Dilemma». American Economic Review (անգլերեն). 109 (11): 3929–3952. doi:10.1257/aer.20181480. ISSN 0002-8282. S2CID 216726890.
↑ Genie Baker. The Harmony of Interests Revisited Արխիվացված 2010-06-12 Wayback Machine. // Market Realism: Differentially Risky Currencies and the Gains from Trade under the Liberal Economic Order.(անգլ.)
↑ Tobin, James. «The Prisoner's Dilemma». University of Michigan Heritage Project (ամերիկյան անգլերեն). Վերցված է 2024 թ․ հունվարի 26-ին.
↑ В экономических учебниках кривая производственных возможностей иллюстрируется выбором между всего двумя товарами: маслом и пушками.
↑ «Равновесие Байеса-Нэша; статистический тест гипотезы» Արխիվացված 2005-10-02 Wayback Machine
↑ Professor Nick Jennings Արխիվացված 2006-04-10 Wayback Machine(անգլ.)
↑ Результаты турнира по Дилемме заключённого 2004 Արխիվացված 2006-08-29 Wayback Machine(անգլ.) показывают, что команда университета Саутгемптона заняла первые три места, хотя имела меньше выигрышей, чем стратегия GRIM (в турнире нужно было выигрывать не отдельные матчи; это достижимо и простым частым предательством). И без подразумеваемого сговора между стратегиями, которым злоупотребила саутгемптонская команда, «око за око» не всегда является абсолютным победителем любого соревнования. Иными словами, в долгосрочном периоде в ряде разных чемпионатов она покажет лучшие результаты, чем соперники, а в отдельно взятом чемпионате стратегию можно немного лучше подстроить к соревнованию, чем «око за око». То же самое относится и к ОЗО с прощением: в отдельно взятом соревновании она может проиграть специально заточенным стратегиям. Альтернативой является использование симуляции эволюции. В ней ОЗО придёт к доминированию, а злые стратегии будут от случая к случаю появляться и исчезать из популяции. Ричард Докинз показал, что нет статической комбинации стратегий, которая была бы стабильным равновесием, и система будет колебаться между границами.
↑ Аргумент о развитии сотрудничества через доверие приводится в книге «Мудрость толп» Джеймса Суровецки, где утверждается, что в долгосрочном периоде капитализм смог организоваться вокруг ядра квакеров, которые всегда работали честно со своими партнёрами (вместо того, чтобы обманывать и нарушать обещания — явление, которое останавливало более ранние заключения долгосрочных добровольных международных контактов). Утверждается, что сделки с надёжными купцами позволили культуре честного поведения (сотрудничества) распространиться среди других торговцев, которые распространяли её дальше, пока не стало выгодно вообще быть честным.
↑ Ali M. Ahmed, Osvaldo Salas Implicit influences of Christian religious representations on dictator and prisoner's dilemma game decisions // The Journal of Socio-Economics. — 2011-05-01. — В. 3. — Т. 40. — С. 242–246. — doi:10.1016/j.socec.2010.12.013 Архивировано из первоисточника 25 Օգոստոսի 2011.

Գրականություն

Axelrod, Robert and Hamilton, William D. (1981). «The Evolution of Cooperation». Science, 211 : 1390—1396.
Համագործակցության էվոլյուցիա, Ռոբերտ Աքսելրոդ, Basic Books, ISBN 0-465-02121-2
Axelrod, Robert (1997). The Complexity of Cooperation. Princeton University Press. ISBN 0-691-01567-8.
Եսասեր գեն, Ռիչարդ Դոքինզ (1990), ISBN 0-19-286092-5
Grofman and Pool (1975). «Bayesian Models for Iterated Prisoner’s Dilemma Games». General Systems 20 : 185—94.
Hardin, Garrett (1968). «The Tragedy of the Commons». Science, 162 : 1243—1248.
Kreps, David, Robert Wilson, Paul Milgrom, and John Roberts (1982). «Rational Cooperation in the Finitely Repeated Prisoners' Dilemma.» Journal of Economic Theory 27(2) : 245—52.
Milgrom, Paul (1984). «Axelrod’s The Evolution of Cooperation.» Rand Journal of Economics 15(2) : 30—59.
Poundstone, William (1992). Prisoner’s Dilemma: John von Neumann, Game Theory, and the Puzzle of the Bomb. Doubleday. ISBN 0-385-41567-2.
Rapoport, Anatol and Chammah, Albert M. (1965). Prisoner’s Dilemma. University of Michigan Press.
Verhoeff, Tom (1998). «The Trader’s Dilemma: A Continuous Version of the Prisoner’s Dilemma». Computing Science Notes 93/02
New Tack Wins Prisoner’s Dilemma

Արտաքին հղումներ

Repeated Prisoner’s Dilemma Applet Արխիվացված 2003-02-11 Wayback Machine(անգլ.)
Play the prisoner’s dilemma game Արխիվացված 2012-03-20 Wayback Machine(անգլ.)
The Prisoner’s Dilemma(անգլ.)

Վիքիպահեստն ունի նյութեր, որոնք վերաբերում են «Բանտարկյալի դիլեմա» հոդվածին։

[otkr_karty-1] Подсказка, что, например, красный игрок собирается играть картой «сотрудничать» не меняет того факта, что «предать» является строго доминирующей стратегией. Если рассматривать только игру, возможность коммуникации не играет какой-либо роли. Однако если игра играется в реальной жизни, рассуждения, лежащие вне самой игры, могут привести к тому, что сотрудничество произойдёт. Это очень важный момент в выводах игры, что если нам не нужно принимать во внимание посторонние факторы, одноразовая «дилемма заключённого» не меняется от коммуникации.

[hofstadter-2] Хофштадтер, Дуглас Глава 29 // Метамагические вопросы: в поиске сущности сознания и шаблона = Metamagical Themas: questing for the essence of mind and pattern. — Bantam Dell Pub Group, 1985. — ISBN 0-465-04566-9

[3] Dal Bó, Pedro; Fréchette, Guillaume R. (2019). «Strategy Choice in the Infinitely Repeated Prisoner's Dilemma». American Economic Review (անգլերեն). 109 (11): 3929–3952. doi:10.1257/aer.20181480. ISSN 0002-8282. S2CID 216726890.

[4] Genie Baker. The Harmony of Interests Revisited Արխիվացված 2010-06-12 Wayback Machine. // Market Realism: Differentially Risky Currencies and the Gains from Trade under the Liberal Economic Order.(անգլ.)

[5] Tobin, James. «The Prisoner's Dilemma». University of Michigan Heritage Project (ամերիկյան անգլերեն). Վերցված է 2024 թ․ հունվարի 26-ին.

[butter_guns-6] В экономических учебниках кривая производственных возможностей иллюстрируется выбором между всего двумя товарами: маслом и пушками.

[bayesian-7] «Равновесие Байеса-Нэша; статистический тест гипотезы» Արխիվացված 2005-10-02 Wayback Machine

[8] Professor Nick Jennings Արխիվացված 2006-04-10 Wayback Machine(անգլ.)

[results-9] Результаты турнира по Дилемме заключённого 2004 Արխիվացված 2006-08-29 Wayback Machine(անգլ.) показывают, что команда университета Саутгемптона заняла первые три места, хотя имела меньше выигрышей, чем стратегия GRIM (в турнире нужно было выигрывать не отдельные матчи; это достижимо и простым частым предательством). И без подразумеваемого сговора между стратегиями, которым злоупотребила саутгемптонская команда, «око за око» не всегда является абсолютным победителем любого соревнования. Иными словами, в долгосрочном периоде в ряде разных чемпионатов она покажет лучшие результаты, чем соперники, а в отдельно взятом чемпионате стратегию можно немного лучше подстроить к соревнованию, чем «око за око». То же самое относится и к ОЗО с прощением: в отдельно взятом соревновании она может проиграть специально заточенным стратегиям. Альтернативой является использование симуляции эволюции. В ней ОЗО придёт к доминированию, а злые стратегии будут от случая к случаю появляться и исчезать из популяции. Ричард Докинз показал, что нет статической комбинации стратегий, которая была бы стабильным равновесием, и система будет колебаться между границами.

[wisdom_of_crowds-10] Аргумент о развитии сотрудничества через доверие приводится в книге «Мудрость толп» Джеймса Суровецки, где утверждается, что в долгосрочном периоде капитализм смог организоваться вокруг ядра квакеров, которые всегда работали честно со своими партнёрами (вместо того, чтобы обманывать и нарушать обещания — явление, которое останавливало более ранние заключения долгосрочных добровольных международных контактов). Утверждается, что сделки с надёжными купцами позволили культуре честного поведения (сотрудничества) распространиться среди других торговцев, которые распространяли её дальше, пока не стало выгодно вообще быть честным.

[11] Ali M. Ahmed, Osvaldo Salas Implicit influences of Christian religious representations on dictator and prisoner's dilemma game decisions // The Journal of Socio-Economics. — 2011-05-01. — В. 3. — Т. 40. — С. 242–246. — doi:10.1016/j.socec.2010.12.013 Архивировано из первоисточника 25 Օգոստոսի 2011.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]