«Ամրապնդման ուսուցումը» (անգլ.՝ Reinforcement learning) մեքենայական ուսուցման ոլորտ է, որը կոնկրետ իրավիճակում պարգևատրումը առավելագույնի հասցնելու համար կոնկրետ գործողություններ է ձեռնարկում։ Ամրապնդման ուսուցումը մեքենայական ուսուցման երեք հիմնական օրինակներից մեկն է՝ վերահսկվող ուսուցման և չվերահսկվող ուսուցման հետ մեկտեղ։

Ի՞նչ է ԱՈՒ-ն խմբագրել

Ամրապնդման ուսուցումը տարբերվում է վերահսկվող ուսուցումից նրանով, որ կարիք չկա պիտակավորված մուտքային/ելքային զույգերի ներկայացման և ոչ օպտիմալ գործողությունների հստակ ուղղման կարիք։ Փոխարենը շեշտը դրվում է հետախուզման (չարտացվող տարածքի) և շահագործման (ներկայիս գիտելիքների) միջև հավասարակշռություն գտնելու վրա։ Մասամբ վերահսկվող ԱՈւ ալգորիթմները կարող են համատեղել վերահսկվող և ԱՈւ ալգորիթմների առավելությունները։

Շրջակա միջավայրը սովորաբար նշվում է Մարկովի որոշման գործընթացի (MDP) տեսքով, քանի որ այս համատեքստում ուժեղացման ուսուցման շատ ալգորիթմներ օգտագործում են դինամիկ ծրագրավորման տեխնիկա։ Դասական դինամիկ ծրագրավորման մեթոդների և ամրապնդման ուսուցման ալգորիթմների միջև հիմնական տարբերությունն այն է, որ վերջիններս չեն ենթադրում MDP-ի ճշգրիտ մաթեմատիկական մոդելի իմացություն և թիրախավորում են խոշոր MDP-ներին, որտեղ ճշգրիտ մեթոդները դառնում են անիրագործելի[1]։

ԱՈՒ օրինակ խմբագրել

 
Robot example

Խնդիրը հետևյալն է. մենք ունենք գործակալ և պարգև, որոնց միջև կան բազմաթիվ խոչընդոտներ։ Գործակալը պետք է գտնի մրցանակին հասնելու լավագույն հնարավոր ճանապարհը։ Հաջորդող օրինակը ավելի հեշտությամբ է բացատրում խնդիրը։

Վերոնշյալ պատկերը ցույց է տալիս ռոբոտը, ադամանդը և կրակը։ Ռոբոտի նպատակն է ստանալ պարգևը, որը ադամանդն է և խուսափել կրակի խոչընդոտներից։ Ռոբոտը սովորում է՝ փորձելով բոլոր հնարավոր ուղիները, այնուհետև ընտրելով այն ճանապարհը, որը նրան պարգևատրում է նվազագույն խոչընդոտներով։ Յուրաքանչյուր ճիշտ քայլ ռոբոտին պարգև կտա, իսկ յուրաքանչյուր սխալ քայլը կհանի ռոբոտի պարգևը։ Ընդհանուր պարգևը կհաշվարկվի, երբ այն հասնի վերջնական նպատակին[2]։

ԱՈՒ օգտագործման ոլորտներ խմբագրել

ԱՈՒ-ի հայտնիության հիմնական գրավականը դա սովորական ալգորիթմ է, որն օգտագործվում է տարբեր խաղեր լուծելու և երբեմն գերմարդկային կատարողականության հասնելու համար։

  • Համակարգչային կլաստերներում[3] ռեսուրսների կառավարում

Տարբեր առաջադրանքներին սահմանափակ ռեսուրսներ բաշխելու ալգորիթմների նախագծումը դժվար է և պահանջում է մարդու կողմից ստեղծված էվրիստիկա։

  • Վեբ համակարգերի կոնֆիգուրացիա

Վեբ համակարգում կան 100-ից ավելի կարգավորելի պարամետրեր, և պարամետրերի ճշգրտման գործընթացը պահանջում է որակավորված օպերատոր և որոշ թեստեր։

ԱՈՒ-ն կարող է կիրառվել նաև քիմիական ռեակցիաներն օպտիմալացնելու համար։ Հետազոտողները ցույց են տվել, որ իրենց մոդելը գերազանցել է ժամանակակից ալգորիթմը և ընդհանրացվել է տարբեր հիմքում ընկած մեխանիզմների վրա՝ «Քիմիական ռեակցիաների օպտիմիզացում խորը ամրապնդման ուսուցմամբ» հոդվածում։

Ծանոթագրություններ խմբագրել

  1. Osiński, Błażej; Budek, Konrad (2018 թ․ հուլիսի 5). «What is reinforcement learning? The complete guide». deepsense.ai (ամերիկյան անգլերեն). Արխիվացված է օրիգինալից 2021 թ․ նոյեմբերի 1-ին. Վերցված է 2021 թ․ նոյեմբերի 1-ին.
  2. «Reinforcement learning». GeeksforGeeks (ամերիկյան անգլերեն). 2018 թ․ ապրիլի 25. Վերցված է 2021 թ․ նոյեմբերի 1-ին.
  3. «Կլաստերային համակարգեր։ Mechatronics ընկերությունը։ Beowulf կամ Computing Power». newtravelers.ru. Վերցված է 2021 թ․ նոյեմբերի 1-ին.

Արտաքին հղումներ խմբագրել

Գրականություն խմբագրել