Ամրապնդման ուսուցում

«Ամրապնդման ուսուցումը» (անգլ.՝ Reinforcement learning) մեքենայական ուսուցման ոլորտ է, որը կոնկրետ իրավիճակում պարգևատրումը առավելագույնի հասցնելու համար կոնկրետ գործողություններ է ձեռնարկում։ Ամրապնդման ուսուցումը մեքենայական ուսուցման երեք հիմնական օրինակներից մեկն է՝ վերահսկվող ուսուցման և չվերահսկվող ուսուցման հետ մեկտեղ։

Ի՞նչ է ԱՈՒ-նԽմբագրել

Ամրապնդման ուսուցումը տարբերվում է վերահսկվող ուսուցումից նրանով, որ կարիք չկա պիտակավորված մուտքային/ելքային զույգերի ներկայացման և ոչ օպտիմալ գործողությունների հստակ ուղղման կարիք։ Փոխարենը շեշտը դրվում է հետախուզման (չարտացվող տարածքի) և շահագործման (ներկայիս գիտելիքների) միջև հավասարակշռություն գտնելու վրա։ Մասամբ վերահսկվող ԱՈւ ալգորիթմները կարող են համատեղել վերահսկվող և ԱՈւ ալգորիթմների առավելությունները։

Շրջակա միջավայրը սովորաբար նշվում է Մարկովի որոշման գործընթացի (MDP) տեսքով, քանի որ այս համատեքստում ուժեղացման ուսուցման շատ ալգորիթմներ օգտագործում են դինամիկ ծրագրավորման տեխնիկա։ Դասական դինամիկ ծրագրավորման մեթոդների և ամրապնդման ուսուցման ալգորիթմների միջև հիմնական տարբերությունն այն է, որ վերջիններս չեն ենթադրում MDP-ի ճշգրիտ մաթեմատիկական մոդելի իմացություն և թիրախավորում են խոշոր MDP-ներին, որտեղ ճշգրիտ մեթոդները դառնում են անիրագործելի[1]։

ԱՈՒ օրինակԽմբագրել

 
Robot example

Խնդիրը հետևյալն է. մենք ունենք գործակալ և պարգև, որոնց միջև կան բազմաթիվ խոչընդոտներ։ Գործակալը պետք է գտնի մրցանակին հասնելու լավագույն հնարավոր ճանապարհը։ Հաջորդող օրինակը ավելի հեշտությամբ է բացատրում խնդիրը։

Վերոնշյալ պատկերը ցույց է տալիս ռոբոտը, ադամանդը և կրակը։ Ռոբոտի նպատակն է ստանալ պարգևը, որը ադամանդն է և խուսափել կրակի խոչընդոտներից։ Ռոբոտը սովորում է՝ փորձելով բոլոր հնարավոր ուղիները, այնուհետև ընտրելով այն ճանապարհը, որը նրան պարգևատրում է նվազագույն խոչընդոտներով։ Յուրաքանչյուր ճիշտ քայլ ռոբոտին պարգև կտա, իսկ յուրաքանչյուր սխալ քայլը կհանի ռոբոտի պարգևը։ Ընդհանուր պարգևը կհաշվարկվի, երբ այն հասնի վերջնական նպատակին[2]։

ԱՈՒ օգտագործման ոլորտներԽմբագրել

ԱՈՒ-ի հայտնիության հիմնական գրավականը դա սովորական ալգորիթմ է, որն օգտագործվում է տարբեր խաղեր լուծելու և երբեմն գերմարդկային կատարողականության հասնելու համար։

  • Համակարգչային կլաստերներում[3] ռեսուրսների կառավարում

Տարբեր առաջադրանքներին սահմանափակ ռեսուրսներ բաշխելու ալգորիթմների նախագծումը դժվար է և պահանջում է մարդու կողմից ստեղծված էվրիստիկա։

  • Վեբ համակարգերի կոնֆիգուրացիա

Վեբ համակարգում կան 100-ից ավելի կարգավորելի պարամետրեր, և պարամետրերի ճշգրտման գործընթացը պահանջում է որակավորված օպերատոր և որոշ թեստեր։

ԱՈՒ-ն կարող է կիրառվել նաև քիմիական ռեակցիաներն օպտիմալացնելու համար։ Հետազոտողները ցույց են տվել, որ իրենց մոդելը գերազանցել է ժամանակակից ալգորիթմը և ընդհանրացվել է տարբեր հիմքում ընկած մեխանիզմների վրա՝ «Քիմիական ռեակցիաների օպտիմիզացում խորը ամրապնդման ուսուցմամբ» հոդվածում։

ԾանոթագրություններԽմբագրել

  1. Osiński Błażej, Budek Konrad (2018-07-05)։ «What is reinforcement learning? The complete guide»։ deepsense.ai (en-US)։ Վերցված է 2021-11-01 
  2. «Reinforcement learning»։ GeeksforGeeks (en-us)։ 2018-04-25։ Վերցված է 2021-11-01 
  3. «Կլաստերային համակարգեր։ Mechatronics ընկերությունը։ Beowulf կամ Computing Power»։ newtravelers.ru։ Վերցված է 2021-11-01 

Արտաքին հղումներԽմբագրել

ԳրականությունԽմբագրել