Վիճակագրական դասակարգում

Վիճակագրական դասակարգում, դասակարգում մեքենայական ուսուցման և վիճակագրության մեջ, որի խնդիրն է պարզել, թե որ կատեգորիաներին են պատկանում նոր դիտարկումները՝ հիմնվելով վերապատրաստման տվյալների վրա, որոնք պատկանում են արդեն իսկ հայտնի կատեգորիաների։ Այդպիսի դասակարգում է էլեկտրոնային նամակների դասակարգումը սպամի և ոչ սպամի, որտեղ «սպամը» կամ «ոչ սպամը» կատեգորիաներն են։ Մեկ այլ օրինակ է հիվանդների դասակարգումը ըստ տարբեր դասակարգիչների, ինչպիսիք են սեռը, արյան ճնշումը, որոշակի ախտանիշների առկայությունը կամ բացակայությունը և այլն)։ Դասակարգումը օրինաչափությունների ճանաչման ձևերից է։

Մեքենայական ուսուցման տերմինաբանության մեջ[1] դասակարգումը համարվում է վերահսկվող ուսուցման օրինակ։ Դա նշանակում է, որ կատեգորիաները նախապես հայտնի են, և անհրաժեշտ է նոր դիտարկումները դասակարգել ըստ այդ կատեգորիաների կամ դասերի։ Չվերահսկվող ուսուցման մեջ դասակարգմանը համապատասխանում է կլաստերային անալիզը, որի ժամանակ կլաստերները նախապես հայտնի չեն։ Կլաստերային անալիզի ժամանակ տվյալները բաժանվում են կատեգորիաների ըստ որոշակի նմանությունների կամ տարբերությունների։

Դիտարկումները հաճախ բաժանվում են խնբերի ըստ հատկությունների, որոնց անվանում են բացատրող փոփոխականներ կամ առանձնահատկություններ։ Այս հատկությունները կարող են լինել մի քանի տեսակի` կատեգորիկ (օր.՝ արյան տիպերը ), օրդինալ (օր.՝ «մեծ», «միջին» կամ «փոքր»), ամբողջ թվով արտահայտված (օր.՝ որևէ բառի կրկնությունների քանակը տեքստում), իրական թվով արտահայտված (օրինակ՝ արյան ճնշման չափում)։ Այլ դասակարգիչներ համեմատում են ներկա դիտարկումները նախորդ դիտարկումների հետ նմանության կամ հեռավորության/տարբերության միջոցով։

Ալգորիթմը, որն իրականացնում է դասակարգումը, կոչվում է դասակարգիչ:

Տերմինները իմաստային տեսանկյունից կարող են տարբերվել տարբեր ոլորտներում։ Վիճակագրության մեջ, որտեղ դասակարգումը հաճախ կատարվում է լոգիստիկ ռեգրեսիայի կամ նմանատիպ ընթացակարգի միջոցով, դիտարկումների հատկությունները կոչվում են բացատրական փոփոխականներ (կամ անկախ փոփոխականներ, ռեգրեսորներ և այլն), իսկ կանխատեսվող կատեգորիաները կոչվում են արդյունքներ, որոնք կարող են լինել կախյալ փոփոխականի հնարավոր արժեքներ։ Մեքենայական ուսուցման մեջ բացատրող փոփոխականները կոչվում են առանձնահատկություններ (խմբավորվում են հատկությունների վեկտորի մեջ), իսկ կանխատեսվող հավանական կատեգորիաները՝ դասեր։ Այլ բնագավառներում դրանք կարող են այլ իմաստ ունենալ։

Կապն այլ խնդիրների հետ խմբագրել

Դասակարգումը և կլաստերային անալիզը օրինաչափությունների ճանաչման առավել հայտնի ձևեր են։ Մյուս ձևերից մեկը ռեգրեսիան է, որը յուրաքանչյուր մուտքագրված արժեքին վերագրում է գնահատված արժեք։ Մյուս ձևը շարահյուսական վերլուծությունն է մեքենայական ուսուցման մեջ, որը մուտքագրված նախադասությունը վերագրում է ծառի՝ նկարագրելով նախադասության սինտակտային կառուցվածքը։

Դասակարգման ենթաճյուղ է հավանականային դասակարգումը։ Այս բնույթի ալգորիթմներում օգտագործվում է վիճակագրական եզրահանգման գործընթացը տվյալ դեպքի համար լավագույն դասը գտնելու համար։ Ի տարբերություն այլ ալգորիթմների, որոնք պարզապես առանձնացնում են «լավագույն» դասը, հավանականային ալգորիթմները ցույց են տալիս, թե վերջնարդյունքը հնարավոր դասերից որ դասին ինչ հավանականությամբ է պատկանում։ Այնուհետև որպես լավագույն դաս սովորաբար ընտրվում է այն, որին պատկանելու հավանականությունը ամենամեծն է։ Նման ալգորիթմը ունի բազմաթիվ առավելություններ ոչ հավանականային դասակարգիչների նկատմամբ.

  • Նրա վերջնարդյունքը կարող է լինել վստահության արժեք՝ կապված իր ընտրության հետ (ընդհանուր առմամբ, դասակարգիչը, որը կարող է դա անել, հայտնի է որպես վստահության կշռված դասակարգիչ
  • Համապատասխանաբար, այն կարող է ձեռնպահ մնալ, երբ նրա՝ ընտրություն կատարելու վստահելիությունը չափազանց ցածր է։
  • Ստեղծված հավանականությունների պատճառով հավանականաին դասակարգիչները կարող են ավելի արդյունավետորեն կատարել մեքենայական ուսուցման ավելի մեծ առաջադրանքներ, այնպես, որ մասամբ կամ ամբողջովին խուսափեն սխալի տարածման խնդրից։

Հաճախակի ընթացակարգեր խմբագրել

Վիճակագրական դասակարգման վերաբերյալ վաղ աշխատանքներ ստեղծվել են Ֆիշերի կողմից[2][3], ինչի շնորհիվ Ֆիշերի գծային տարբերակիչ ֆունկցիան դարձել է նոր դիտարկումները որևէ խմբի վերագրելու կանոն[4]։ Այս աշխատանքը ենթադրում էր, որ երկու խմբի ներսում տվյալներն ունեն նորմալ բաշխում։ Երկուսից ավելի խմբերի դեպքում ևս կիրառվում էր այս ենթադրությունը այն պայմանով, որ դասակարգման կանոնը պետք է լինի գծային[5]։ Հետագա տարիներին բազմափոփոխական նորմալ բաշխման վերաբերյալ աշխատանքները թույլ տվեցին, որ դասակարգիչը լինի ոչ գծային[6]։ Դասակարգման մի քանի կանոններ կարող են բխել Mahalanobis հեռավորության տարբեր ճշգրտումների հիման վրա, ընդ որում նոր դիտարկումը դասվում է այն խմբին, որի կենտրոնն ունի ամենացածր ճշգրտված հեռավորությունը դիտարկումից։

Բայեսյան ընթացակարգեր խմբագրել

Ի տարբերություն մյուս ընթացակարգերի, բայեսյան դասակարգման ընթացակարգերը ապահովում են, որ տարբեր խմբերի չափերի մասին հասանելի տեղեկատվությունը հաշվի առնվի ամբողջ տվյալներում[7]։ Բայեսյան ընթացակարգերը համակարգչային հաշվարկային տեսանկյունից բարդ են, և մինչ Մարկովյան շղթա, Մարկով Կարլոյի հաշվարկման մեթոդների առաջացումը, բայեսյան կլաստերային կանոնները մոտարկվել էին[8]։

Բայեզյան որոշ ընթացակարգեր ներառում են խմբին անդամակցության հավանականությունների հաշվարկը, ինչը կարող է դիտվել որպես տվյալների վերլուծության ավելի ինֆորմատիվ արդյունք, քան յուրաքանչյուր նոր դիտարկման համար մեկ խմբի վերագրումը։

Երկուական և բազմապրոֆիլ դասակարգում խմբագրել

Դասակարգումը կարող է ունենալ երկու առանձին խնդիր` երկուական դասակարգում և բազմապրոֆիլ դասակարգում։ Պարզ երկուական դասակարգման դեպքում ներգրավված են ընդամենը երկու դաս, մինչդեռ բազմապրոֆիլ դասակարգումը ենթադրում է օբյեկտի վերագրումը մի քանի դասերից մեկին։ Քանի որ դասակարգման շատ մեթոդներ մշակվել են հենց երկուական դասակարգման համար, բազմապրոֆիլ դասակարգումը հաճախ պահանջում է երկուական դասակարգիչների համակցված օգտագործումը։

Անկախ փոփոխականների վեկտորներ խմբագրել

Փոփոխականները կարող են լինել երկուական (օրինակ ՝ «միացված» կամ «անջատ»); կատեգորիկ (օրինակ արյան տիպերի համար ); օրդինալ (օր. ՝ «մեծ», «միջին» կամ «փոքր»); ամբողջ թվերով արտահայտված (օրինակ՝ տեքստում որևէ բառի կրկնությունների քանակը); կամ իրական թվերով արտահայտված (օրինակ՝ արյան ճնշման չափում)։ Եթե խոսենք նկարի մասին, ապա ամենայն հավանականությամբ արժեքները համապատասխանում են նկարի պիքսելներին. եթե օրինակ տեքստ է, հնարավոր արժեքները կարող են լինել տարբեր բառերի կրկնվելու հաճախականությունները։ Որոշ ալգորիթմներ գործում են միայն դիսկրետ տվյալների համար և պահանջում են, որ իրական կամ ամբողջ թվերով արտահայտված տվյալները դիսկրետացվեն խմբերի մեջ (օրինակ՝ 5-ից պակաս, 5-ից 10-ի միջև կամ 10-ից ավելի)։

Գծային դասակարգիչներ խմբագրել

Դասակարգման շատ ալգորիթմներ կարելի է ձևակերպել գծային ֆունկցիայի միջոցով, որը, միավորելով տարբերության/հեռավորության փոփոխականների վեկտորը կշիռների վեկտորի հետ կետային արտադրյալըի միջոցով, միավոր է տալիս յուրաքանչյուր հավանական k կատեգորային։ Կանխատեսվում է այն կատեգորիան, որի միավորներն ամենաբարձրն են։ Այսպիսի ֆունկցիան հայտնի է որպես գծային կանխատեսման ֆունկցիա և ունի հետևյալ ընդհանուր ձևը.

 

որտեղ X i -ն առանձնահատկություների վեկտորն է, βk կշիռների վեկտորն է համապատասխան k կատեգորիայի համար, score (Xi, k) միավորն է, որը տրվում է i-րդ նմուշը k-րդ կատեգորիային վերագրելիս։ Դիսկրետ ընտրության տեսության մեջ, որտեղ նմուշները մարդիկ, իսկ կատեգորիաները՝ նրանց նախընտրությունները, միավորը օգտակարությունն է, որը կապված է i-րդ մարդու k-րդ կատեգորիան ընտրելու հետ։

Այսպիսի տարրական ալգորիթմները հայտնի են որպես գծային դասակարգիչներ։ Նրանց առանձնացնում է օպտիմալ կշիռների / գործակիցների որոշման (վերապատրաստման) կարգը և միավորի ներկայացման եղանակը։

Այսպիդի ալգորիթմների օրինակներ են՝

  • Լոգիստիկ ռեգրեսիան և բազմանդամ լոգիստիկ ռեգրեսիան
  • Պրոբիտ ռեգրեսիան
  • Պերսեպտրոնի ալգորիթմը
  • Oժանդակ վեկտորային մեքենաները
  • Գծային որոշչային վերլուծությունը։

Ալգորիթմներ խմբագրել

Չվերահսկվող ուսուցման մեջ դասակարգիչները կազմում են կլաստերի վերլուծության հիմքը, իսկ վերահսկվող կամ կիսավերահսկվող ուսուցման մեջ դասակարգիչները ցույց են տալիս, թե ինչպես է համակարգը բնութագրում և գնահատում չպիտակավորված տվյալները։ Բոլոր դեպքերում, դասակարգիչները ունեն կանոններ, որոնք ներառում են մեկնաբանման ընթացակարգ, որպեսզի կարողանան անորոշ կամ անհայտ արժեքները կարգավորել, բոլորը հարմարեցվեն ուսումնասիրվող մուտքերի տեսակին[9]։

Քանի որ դասակարգման ոչ մի ձև չի կարող օգտագործվել տվյալների բոլոր խմբերի համար, մշակվել է դասակարգման ալգորիթմների մեծ գործիքակազմ։ Առավել հաճախ օգտագործվողներն են՝

  • Գծային դասակարգիչներ
    • Ֆիշերի գծային տարբերակիչ/դիսկրիմինանտ
    • Լոգիստիկ ռեգրեսիա
    • Նաիվ Բայես դասակարգիչ
    • Պերսեպտրոն
  • Օժանդակ վեկտորային մեքենաներ
    • Նվազագույն քառակուսիների օժանդակ վեկտորային մեքենաներ
  • Քառաչափ դասակարգիչները
  • Կեռնելի մոտարկում
    • k- ամենամոտ հարևանը
  • Բուսթինգ (մետա-ալգորիթմ)
  • Որոշման ծառեր
    • Պատահական անտառներ
  • Նեյրոնային ցանցեր
  • Ուսուցման վեկտորի քանակականացում

Գնահատում խմբագրել

Դասակարգչի աշխատանքը մեծապես կախված է դասակարգված տվյալների բնութագրերից։ Չկա մի դասակարգիչ, որը լավագույնս աշխատի բոլոր տրված խնդիրների վրա (մի երևույթ, որը կարող է բացատրվել no-free-lunch թեորեմի միջոցով)։ Կատարվել են տարատեսակ էմպիրիկ թեստեր`դասակարգչի կատարողականությունը համեմատելու համար, ինչպես նաև գտնելու այն տվյալների բնութագրիչները, որոնք որոշում են դասակարգչի կատարողականությունը։

դասակարգման որակը գնահատելու համար օգտագործվում են ճշգրտումը և հետկանչումը (precision and recall) չափումները։ Ճիշտ-դրական և կեղծ-դրական գնահատականների միջև հարաբերակցությունը գնահատելու համար օգտագործում են կառավարվող բնութագրիչերի (ROC) կորերը։

Որպես կատարողականության չափման միավոր անորոշության գործակիցը (uncertainty coefficient) առավելություն ունի պարզ ճշգրտության (accuracy) նկատմամբ, քանի որ նրա վրա չեն ազդում կլասների չափերը[10]։ Ավելին, այն ալգորիթմի վրա ՛՛տույժ՛՛ չի կիրառի կլասները պարզապես վերադասավորելու համար։

Օգտագործման ոլորտներ խմբագրել

Դասակարգումն ունի բազմաթիվ ծրագրեր։ Դրանցից ոմանց մեջ այն օգտագործվում է որպես տվյալների հետազոտման կարգ, իսկ մյուսներում իրականացվում է ավելի մանրամասն վիճակագրական մոդելավորում։

Ծանոթագրություններ խմբագրել

  1. Alpaydin, Ethem (2010). Introduction to Machine Learning. MIT Press. էջ 9. ISBN 978-0-262-01243-0.
  2. Fisher R.A. (1936) " The use of multiple measurements in taxonomic problems", Annals of Eugenics, 7, 179–188
  3. Fisher R.A. (1938) " The statistical utilization of multiple measurements", Annals of Eugenics, 8, 376–386
  4. Gnanadesikan, R. (1977) Methods for Statistical Data Analysis of Multivariate Observations, Wiley. 0-471-30845-5 (p. 83–86)
  5. Rao, C.R. (1952) Advanced Statistical Methods in Multivariate Analysis, Wiley. (Section 9c)
  6. Anderson, T.W. (1958) An Introduction to Multivariate Statistical Analysis, Wiley.
  7. Binder, D.A. (1978) "Bayesian cluster analysis", Biometrika, 65, 31–38.
  8. Binder, D.A. (1981) "Approximations to Bayesian clustering rules", Biometrika, 68, 275–285.
  9. «What is a Classifier in Machine Learning?».
  10. Peter Mills (2011). «Efficient statistical classification of satellite measurements». International Journal of Remote Sensing. 32 (21): 6109–6132. arXiv:1202.2194. doi:10.1080/01431161.2010.507795.