Գծային ռեգրեսիա

Վիճակագրության մեջ գծային ռեգրեսիան կախյալ և անկախ (բացատրող) փոփոխականների միջև գծային կապի մոդելավորումն է։ Եթե առկա է մեկ բացատրող փոփոխական, ապա այն անվանում են պարզ գծային ռեգրեսիա, իսկ մեկից ավելի բացատրող փոփոխականներ պարունակողը՝ բազմագործոն գծային ռեգրեսիա^[1]։ Վերջինս տարբերվում է բազմագործոն ընդհանրացված ռեգրեսիայից, որտեղ կանխատեսվում են միմյանցից կախվածություն ունեցող մի քանի փոփոխականներ^[2]։

Գծային ռեգրեսիայում փոփոխականների միջև կապն արտահայտվում է գծային ֆունկցիաների միջոցով, որոնց անհայտ պարամետրերը գնահատվում են տվյալների հիման վրա։ Նման մոդելները կոչվում են գծային մոդելներ^[3]։ Տրված բացատրող փոփոխականների պարագայում կախյալ փոփոխականի արժեքների պայմանական միջինը համարվում է այդ փոփոխականների աֆինական ֆունկցիան։ Պայմանական միջինի փոխարեն երբեմն կարող է օգտագործվել է պայմանական մեդիանը կամ որոշ այլ բաժանագծեր (քվանտիլ)։ Ռեգրեսիայի վերլուծության բոլոր ձևերի պես, գծային ռեգրեսիան կենտրոնանում է տրված բացատրող փոփոխականների դեպքում պատասխանի պայմանական հավանականությունների բաշխման վրա, ոչ թե բոլոր այս փոփոխականների համատեղ հավանականությունների բաշխման վրա, ինչը բազմագործոն վերլուծության տիրույթից է։

Գծային ռեգրեսիան ռեգրեսիոն վերլուծության առաջին տեսակն էր, որը խորապես ուսումնասիրվեց և լայն կիրառություն ստացավ^[4]։ Դրա հիմնական պատճառն այն էր, որ մոդելները, որոնք գծայնորեն են կախված իրենց անհայտ պարամետրերից, ավելի հեշտ են ադապտացվել(fit), քան այն մոդելները, որոնք ոչ գծային կախվածություն ունեն իրենց պարամետրերից, ինչպես նաև այն պատճառով, որ արդյունքում ստացված գնահատիչների(estimator) վիճակագրական հատկությունները ավելի հեշտ են որոշել։

Գծային ռեգրեսիան ունի շատ գործնական կիրառություններ։ Կիրառությունները մեծ հաշվով կարելի է բաժանել հետևյալ երկու խմբերի.

Եթե նպատակը կանխատեսումն է կամ սխալի նվազեցումը, գծային ռեգրեսիան կարող է օգտագործվել կանխատեսող մոդելը դիտարկված բացատրող և բացատրվող փոփոխականի արժեքների ամբողջության մեջ ադապտացնելու(ֆիթ անելու) համար։ Նման մոդելի մշակումից հետո, եթե բացատրական փոփոխականների լրացուցիչ արժեքներիի ավելացումը չի փոխում կամ աննշան է փոխում բացատրվող փոփոխականի արժեքը, ապա ադապտացված մոդելը կարող է օգտագործվել կանխատեսելու համար բացատրվող փոփոխականը։
Եթե նպատակը բացատրվող փոփոխականի արժեքների փոփոխությունները բացատրելն է, ապա գծային ռեգրեսիոն վերլուծությունը կարող է կիրառվել բացատրող և բացատրվող փոփոխականների միջև կապի ամրությունը որոշելու համար, մասնավորապես`որոշել, թե արդյոք որոշ բացատրող փոփոխականներ որևէ գծային կապ ունեն բացատրվողի հետ, կամ պարզել, թե բացատրական փոփոխականներից որոնք կարող են պարունակել ավելորդ տեղեկատվություն բացատրվողի վերաբերյալ։

Գծային ռեգրեսիայի մոդելները հաճախ ադապտացվում են փոքրագույն քառակուսիների եղանակով, բայց դրանք կարող են ադապտացվել նաև այլ եղանակներով, օրինակ նվազագույնի հասցնելով ՙՙտույժի՚՚ չափը ինչպես ռիջ ռեգրեսիայի (ridge regression, L ² -norm տույժ) և Լասսոյի (Lasso, L ¹ -norm տույժ) դեպքում։ Ինչպես նաև, նվազագույն քառակուսիների եղանակը կարող է օգտագործվել ոչ գծային մոդելների ադապտացման համար։ Այսպիսով, չնայած «նվազագույն քառակունիների եղանակը» սերտորեն կապված է «գծային մոդել» տերմինի հետ, դրանք միմյանց հոմանիշ չեն։

Ներածություն խմբագրել

Ենթադրվում է, որ գծային ռեգրեսիայի դիտարկումները (կարմիր) արդյունք են պատահական շեղումների (կանաչ) հիմքում ընկած կախյալ փոփոխականի (y) և անկախ փոփոխականի (x) հարաբերությունների (կապույտ).

Տրված n վիճակագրական միավորների $\{y_{i},\,x_{i1},\ldots ,x_{ip}\}_{i=1}^{n}$ համար գծային ռեգրեսիոն մոդելը ենթադրում է, որ կախյալ փոփոխական y -ի և x ռեգրեսորների վեկտորի միջև կապը գծային է։ Այս կապը մոդելավորվում է սխալի՝ ε պատահական մեծության միջոցով։ Վերջինս «աղմուկ» է ավելացնում կախյալ փոփոխականի և ռեգրեսորների միջև գծային կապի մեջ։ Այսպիսով, մոդելն ունի հետևյալ տեսքը.

y_{i}=\beta _{0}+\beta _{1}x_{i1}+\cdots +\beta _{p}x_{ip}+\varepsilon _{i}=\mathbf {x} _{i}^{\mathsf {T}}{\boldsymbol {\beta }}+\varepsilon _{i},\qquad i=1,\ldots ,n,

որտեղ ^{T- ը} նշանակում է փոխակերպում/տրանսպոնացում, այնպես որ x_i^Tβ- ը x_i և β վեկտորների ներքին արտադրյալն է։

Հաճախ այդ n հավասարումները հավաքվում են միասին և գրվում են մատրիցային տեսքով՝

\mathbf {y} =X{\boldsymbol {\beta }}+{\boldsymbol {\varepsilon }},\,

որտեղ՝

\mathbf {y} ={\begin{pmatrix}y_{1}\\y_{2}\\\vdots \\y_{n}\end{pmatrix}},\quad

X={\begin{pmatrix}\mathbf {x} _{1}^{\mathsf {T}}\\\mathbf {x} _{2}^{\mathsf {T}}\\\vdots \\\mathbf {x} _{n}^{\mathsf {T}}\end{pmatrix}}={\begin{pmatrix}1&x_{11}&\cdots &x_{1p}\\1&x_{21}&\cdots &x_{2p}\\\vdots &\vdots &\ddots &\vdots \\1&x_{n1}&\cdots &x_{np}\end{pmatrix}},

{\boldsymbol {\beta }}={\begin{pmatrix}\beta _{0}\\\beta _{1}\\\beta _{2}\\\vdots \\\beta _{p}\end{pmatrix}},\quad {\boldsymbol {\varepsilon }}={\begin{pmatrix}\varepsilon _{1}\\\varepsilon _{2}\\\vdots \\\varepsilon _{n}\end{pmatrix}}.

$\mathbf {y}$ -ը դիտարկված արժեքների` $y_{i}\ (i=1,\ldots ,n)$ վեկտոր է։ y-ը անվանում են ռեգրեսանտ, բացատրվող փոփոխական կամ կախյալ փոփոխական։ Այս փոփոխականը երբեմն հայտնի է նաև որպես կանխատեսված փոփոխական, բայց դա չպետք է շփոթել կանխատեսվող արժեքների հետ, որոնք նշվում են ${\hat {y}}$ ։ Որպեսզի որոշենք, թե որն է կախյալ փոփոխականը և որոնք անկախները, պետք է հասկանալ, թե որ փոփոխականի արժեքն է ստացվում մյուսից կամ որն է ուղղակիորեն ազդում մյուսի վրա։
$X$ կարող է դիտվել որպես տողի արժեքների վեկտորների մատրիցա $\mathbf {x} _{i}$ կամ n- չափանի սյուների արժեքների վեկտորներից $X_{j}$ , որոնք հայտնի են որպես ռեգրեսորներ, էկզոգեն փոփոխականներ, բացատրող փոփոխականներ, մուտքային փոփոխականներ կամ անկախ փոփոխականներ (չխառնել անկախ պատահական փոփոխականների հասկացության հետ)։
- Սովորաբար հաստատունը համարվում է ռեգրեսորներից մեկը։ Մասնավորապես, $\mathbf {x} _{i0}=1$ , երբ $i=1,\ldots ,n$ ։ β – ի համապատասխան տարրը կոչվում է հաստատուն։ Գծային շատ մոդելների համար հաստատունի առկայությունը պարտադիր է, ուստի այն հաճախ ներառվում է, նույնիսկ եթե տեսական նկատառումները հուշում են, որ դրա արժեքը պետք է լինի զրո։
- Երբեմն ռեգրեսորներից մեկը կարող է լինել մեկ այլ ռեգրեսորի հետ ոչ գծային կախվածության մեջ, ինչպես բազմագործոն ռեգրեսիայի դեպքում։ Մոդելը մնում է գծային, քանի դեռ գծային է β պարամետրերի վեկտորի դեպքում։
- x _ij արժեքները կարող են դիտվել որպես X _J պատահական փոփոխականների դիտարկված արժեքներ կամ որպես ֆիքսված արժեքներ, որոնք ընտրված են մինչև կախյալ փոփոխականը դիտարկելը։ Այս երկու մեկնաբանությունները կարող են տեղին լինել տարբեր դեպքերում, և դրանք հիմնականում հանգեցնում են նույն գնահատման ընթացակարգերի. այնուամենայնիվ, այս երկու իրավիճակներում օգտագործվում են ասիմպտոտիկ վերլուծության տարբեր մոտեցումներ։
${\boldsymbol {\beta }}$ -ն $(p+1)$ - չափանի պարամետրերի վեկտոր է, որտեղ $\beta _{0}$ հաստատունն է (եթե այն ներառված է մոդելում, հակառակ դեպքում ${\boldsymbol {\beta }}$ վեկտորը p –չափանի է)։ Դրա տարրերը կոչվում են ռեգրեսիայի գործակիցներ/կոեֆիցիենտներ։ Գծային ռեգրեսիայի մեջ վիճակագրական գնահատումը և եզրակացությունը կենտրոնանում են β-ի վրա։ Այս վեկտորի տարրերը մեկնաբանվում են որպես կախյալ փոփոխականի մասնակի ածանցյալներ ըստ անկախ փոփոխականների։
${\boldsymbol {\varepsilon }}$ -ը $\varepsilon _{i}$ արժեքների վեկտոր է։ Մոդելի այս հատվածը կոչվում է սխալ, շեղում կամ երբեմն աղմուկ։ Այս փոփոխական ներառում է բոլոր այն գործոնները, որոնք ազդում են կախյալ փոփոխական y-ի վրա, բացառությամբ ռեգրեսորներ X-ը։ Սխալի և ռեգրեսորների միջև կապը, օրինակ՝ դրանց կոռելյացիան, կարևոր է գծային ռեգրեսիայի մոդելի ձևավորման հարցում, քանի որ այն որոշում է գնահատման համապատասխան մեթոդը։

Ենթադրություններ խմբագրել

Ստանդարտ գծային ռեգրեսիայի մոդելները, որոնք ունեն գնահատման տեխնիկա, մի շարք ենթադրություններ են առաջ քաշում կանխատեսող փոփոխականների, կախյալ փոփոխականների և դրանց փոխհարաբերությունների վերաբերյալ։ Բազմաթիվ փոփոխություններ են մշակվել, որոնք թույլ են տալիս այս ենթադրություններից յուրաքանչյուրը ՙՙմեղմել՚՚, իսկ որոշ դեպքերում վերացնել ամբողջությամբ։ Ընդհանրապես, այդ ընդարձակումները գնահատման կարգը դարձնում են ավելի բարդ և ժամանակատար, և կարող են պահանջվել նաև ավելի շատ տվյալներ՝ հավասարազոր ճշգրիտ մոդել կազմելու համար։

Խորանարդային պոլինոմիալ ռեգրեսիայի օրինակ, որը գծային ռեգրեսիայի տեսակ է:

Ստորև ստանդարտ գնահատման տեխնիկայով (օրինակ՝ սովորական նվազագույն քառակուսիները) ստանդարտ գծային ռեգրեսիայի մոդելների կատարված հիմնական ենթադրություններն են.

Թույլ էկզոգենություն։ Սա, ըստ էության, նշանակում է, որ անկախ փոփոխական x- երը կարող են համարվել ֆիքսված արժեքների, այլ ոչ թե պատահական փոփոխականների։ Չնայած այս ենթադրությունը շատ պարամետրերով իրատեսական չէ, այս ենթադրության բացակայությունը հանգեցնում է զգալիորեն ավելի բարդ մոդելների, որոնք փոփոխականներում կան սխալներ։
Գծայնություն։ Սա նշանակում է, որ կախյալ փոփոխականը կոեֆիցիենտների և անկախ փոփոխականների գծային կախվածությունն է։ Քանի որ կանխատեսող փոփոխականները համարվում են հաստատուն (ինչպես նշվեց վերևում), գծայինությունը միայն պարամետրերի վրա է սահմանափակում դնում։ Կանխատեսող փոփոխականներն իրենք կարող են կամայականորեն վերափոխվել, կարող են ավելացվել նույն հիմքով կանխատեսող փոփոխականի մի քանի օրինակներ, որոնցից յուրաքանչյուրը տարբեր կերպ է փոխակերպվում։ Այս տեխնիկան օգտագործվում է, օրինակ, պոլինոմիական ռեգրեսիայի մեջ, որը գծային ռեգրեսիան դարձնում է եզրակացություն կատարելու հզոր մեթոդ։ Ավելին, բազմագործոն ռեգրեսիայի նման մոդելները հաճախ «չափազանց հզոր են», քանի որ դրանք հակված են գերակատարելուն (overfit)։ Արդյունքում, անհրաժեշտ է լինում օգտագործել որևէկարգավորում/ռեգուլարիզացիա դրանից խուսափելու համար։ Ընդհանուր օրինակներ են ռիջի և լասոյի ռեգրեսիաները։ Կարող է օգտագործվել նաև բայեսյան գծային ռեգրեսիա, որն իր բնույթով քիչ թե շատ կանխում է գերակատարումը։ Ընդ որում, ռիջի և լասոյի ռեգրեսիաները կարող են դիտվել որպես բայեսյան գծային ռեգրեսիայի հատուկ դեպքեր։
Մշտական վարիացիա (a.k.a. homoscedasticity/հոմսկեդաստիկություն)։ Սա նշանակում է, որ կախյալ փոփոխականի տարբեր արժեքները ունեն իրենց սխալների վարիացիան՝ անկախ կանխատեսող փոփոխականների արժեքներից։ Գործնականում այս ենթադրությունն անվավեր է (այսինքն ՝ սխալները հետերոսկեդաստիկ են), եթե կախյալ փոփոխականը կարող է տատանվել ավելի լայն մասշտաբով։ Պարզ գծային ռեգրեսիայի գնահատման մեթոդների դեպքում պարամետրերի գնահատականները ոչ այնքան ճշգրիտ են հետերոսկեդաստիկության առկայության դեպքում։ Այնուամենայնիվ, գնահատման տարբեր մեթոդներ (օրինակ ՝ կշռված նվազագույն քառակուսիները) կարող են կարգավորել հետերոսկեդաստիկությունը միանգամայն ընդհանուր եղանակով։ Բայեսյան գծային ռեգրեսիայի տեխնիկան նույնպես կարող է օգտագործվել այն դեպքում, երբ ենթադրվում է, որ վարիացիան ֆունկցիա է կախված միջինից։ Որոշ դեպքերում խնդիրը հնարավոր է շտկել`կիրառելով կախյալ փոփոխականի փոխակերպումներ(օրինակ` կախյալ փոփոխականը լոգարիթմել, որի դեպքում այն կունենա լոգ-նորմալ բաշխում, նորմալ բաշխման փոխարեն )։
Սխալների անկախություն։ Սա ենթադրում է, որ կախյալ փոփոխականների սխալները միմյանց հետ կապված չեն։ Որոշ մեթոդներ (օր.՝ ընդհանրացված փոքրագույն քառակուսիները) ունակ են վերահսկել կոռելացված սխալներ, չնայած դրանք սովորաբար պահանջում են զգալիորեն ավելի շատ տվյալներ, եթե որոշ տեսակի կարգավորում/ռեգուլարիզացիա չի կիրառվել։ Բայեսյան գծային ռեգրեսիան այս հարցը լուծելու ընդհանուր միջոցներից է։
Կանխատեսող փոփոխականներում կատարյալ բազմակոլինեարության բացակայություն։ Փոքրագույն քառակուսիների գնահատման սովորական մեթոդների համար X մատրիցը պետք է ունենա սյունակի ամբողջական ռանգ՝ p ; Հակառակ դեպքում կանխատեսող փոփոխականներում ունենք կատարյալ բազմակոլինեարություն։ Դա կարող է առաջանալ կանխատեսող երկու կամ ավելի կատարյալ փոխկապակցված փոփոխականներ ունենալու պատճառով (օրինակ, եթե նույն կանխատեսող փոփոխականը սխալմամբ տրվում է երկու անգամ նույն տեսքով)։ Դա կարող է պատահել նաև, եթե շատ քիչ տվյալներ կան, որոնք պարամետրեր, որոնք պետք է գնահատվեն։ Կատարյալ բազմակոլինեարության դեպքում պարամետրերի β վեկտորը չի ունենա եզակի լուծում։ Մշակվել են բազմակոլինեարությամբ գծային մոդելների ադապտացման(fitting) մեթոդներ.^[5]^[6]^[7]^[8] որոշները պահանջում են լրացուցիչ ենթադրություններ, ինչպիսիք են ՝ «էֆեկտի նոսրությունը», այսինքն էֆեկտների մեծ մասը հավասար է զրոյի։

Այս ենթադրություններից բացի, տվյալների մի քանի այլ վիճակագրական հատկություններ ևս խստորեն ազդում են գնահատման տարբեր մեթոդների կատարողականության վրա.

Սխալների և ռեգրեսորների միջև վիճակագրական կապը կարևոր դեր ունի որոշելու համար, թե արդյոք գնահատման ձևն ունի ցանկալի ընտրանքային հատկություններ, ինչպիսիք են անկողմնապահությունը և հետևողականությունը։
x փոփոխականների հավանականությունների բաշխումը մեծ ազդեցություն ունի β-ի գնահատակաների ճշգրտության վրա։ Ընտրանքի ստացումը և ձևավորումը վիճակագրության զարգացած ենթաճյուղեր են, որոնք օգնում են տվյալներ հավաքագրելիս այնպես, որ ստացվի β ճշգրիտ գնահատական։

Մեկնաբանություն խմբագրել

Anscombe- ի քառյակի/քվարտետի տվյալները նախագծված են այնպես, որ ունենան մոտավորապես նույն գծային ռեգրեսիայի գիծը (ինչպես նաև գրեթե նույնական միջիններ, ստանդարտ շեղումներ և կոռելյացիաներ), բայց գրաֆիկական առումով շատ տարբեր են: Սա ցույց է տալիս, թե որքան սխալ է փոփոխականների միջև կախվածությունը հասկանալու համար հիմնվել միայն ադապտացված մոդելի վրա:

Ադապտացված գծային ռեգրեսիոն մոդելը կարող է օգտագործվել որևէ x_j անկախ և y կախյալ փոփոխականների միջև կապը գտնելու համար, երբ մնացած անկախ փոփոխականները ֆիքսված են։ Մասնավորապես, β_j ցույց է տալիս x_j -ի միավոր փոփոխության դեպքում y -ի սպասվող փոփոխության չափը, երբ մնացածները անփոփոխ են։ Այսինքն, y -ի մասնակի ածանցյալը ըստ x_j -ի։ y-ի վրա xj-ի սահմանային ազդեցությունը կարելի է գնահատել կոռելյացիայի գործակցի կամ պարզ գծային ռեգրեսիայի մոդելի միջոցով, որը վերաբերում է միայն x_j -ին և y-ին։ Այն y-ի ընդհանուր ածանցյալն է ըստ x_j -ի։

Ռեգրեսիայի արդյունքները մեկնաբանելիս պետք է զգույշ լինել, քանի որ ռեգրեսորներից որոշները կարող են թույլ չտալ սահմանային փոփոխություններ (օրինակ ՝ կեղծ փոփոխականները կամ հաստատուն արժեքը՝ β₀), իսկ մյուսները չեն կարող ֆիքսվել (անհնար կլինի պահել t _i ֆիքսված և միևնույն ժամանակ փոխել t _i ^2- ի արժեքը)։

Ընդլայնումներ խմբագրել

Մշակվել են գծային ռեգրեսիայի բազմաթիվ ընդլայնումներ, որոնք թույլ են մոդելի հիմքում ընկած որոշ ենթադրություններ կամ բոլոր ենթադրությունները ՙՙթեթևացնել՚՚։

Պարզ(միագործոն) և բազմագործոն գծային ռեգրեսիա խմբագրել

Պարզ գծային ռեգրեսիայի օրինակ, որն ունի մեկ անկախ փոփոխական

Պարզ կամ միագործոն գծային ռեգրեսիան y- ի կախվածությունն է մեկ x փոփոխականից։ y- ի կախվածությունը մի քանի x փոփոխականից(կամ X անկախ փոփոխականների վեկտորից) կոչվում է բազմակի գծային ռեգրեսիա, որը նաև հայտնի է որպես բազմագործոն գծային ռեգրեսիա։ Իրական աշխարհում ռեգրեսիայի գրեթե բոլոր մոդելները ներառում են բազմաթիվ կանխատեսող փոփոխականներ, և գծային ռեգրեսիայի հիմնական նկարագրությունները հաճախ արտահայտվում են բազմագործոն ռեգրեսիայի մոդելով։ y փոփոխականը այս դեպքում ևս մնում է սկալյար։ - ն առայժմ մասշտաբ է։ Մեկ այլ տերմին՝ բազմագործոն գծային ռեգրեսիան վերաբերում է այն դեպքերին, երբ y- ը վեկտոր է, այսինքն՝ նույնը, ինչ ընդհանուր գծային ռեգրեսիան։

Ընդհանուր գծային մոդելներ խմբագրել

Ընդհանուր գծային մոդելը հաշվի է առնում այն իրավիճակը, երբ կախյալ փոփոխականը ոչ թե սկալյար է (յուրաքանչյուր դիտարկման համար), այլ վեկտոր՝ y _i։ Ենթադրվում է, որ կա պայմանական գծայնություն՝ $E(\mathbf {y} \mid \mathbf {x} _{i})=\mathbf {x} _{i}^{\mathsf {T}}B$ , B մատրիցը փոխարինում է դասական գծային ռեգրեսիայի մոդելի β վեկտորին։ Մշակվել են սովորական փոքրագույն քառակուսիների (OLS) և ընդհանրացված փոքրագույն քառակուսիների (GLS) բազմաբնույթ անալոգներ։ «Ընդհանուր գծային մոդելները» կոչվում են նաև «բազմաբնույթ գծային մոդելներ»։ Բազմագործոն գծային մոդելները (որոնք նաև կոչվում են «բազմակի գծային մոդելներ») և բազմաբնույթ գծային մոդելները միմյանցից տարբեր են։

Հետերոսկեդաստիկ մոդելներ խմբագրել

Ստեղծվել են տարատեսակ մոդելներ, որոնք թույլ են տալիս հետերոսկեդաստիկություն, այսինքն՝ տարբեր կախյալ փոփոխականների սխալները կարող են ունենալ տարբեր վարիացիաներ։ Օրինակ՝ կշռված փոքրագույն քառակուսիները գծային ռեգրեսիայի մոդելները գնահատելու մեթոդ է, երբ կախյալ փոփոխականները ունեն տարբեր սխալի վարիացիաներ, հնարավոր է՝ կոռելացված սխալների հետ։ (Տե՛ս նաև Կշռված գծային փոքրագույն քառակուսիները և ընդհանրացված նվազագույն հրապարակները)։ Կայուն հետերոսկեդաստիկությունը ստանդարտ սխալները բարելավված մեթոդ է, որն օգտագործվում է չկոռելացված, բայց պոտենցիալ հետերոսկեդաստիկ սխալների հետ։

Ընդհանրացված գծային մոդելներ խմբագրել

Ընդհանրացված գծային մոդելները (GLM) հանդիսանում են շրջանակ դիսկրետ կախյալ փոփոխականները մոդելավորելու համար։ Սա օգտագործվում է, երբ՝

մոդելավորվում են դրական քանակություններ (օրինակ՝ գներ կամ բնակչություն), որոնք մեծ մասշտաբներում տատանվում են, և որոնք ավելի լավ են նկարագրվում սքյուդ բաշխման միջոցով, ինչպիսիք են լոգ-նորմալ բաշխումը կամ Պուասոնի (Poisson) բաշխումը (չնայած GLM- ները չեն օգտագործվում լոգ-նորմալ բաշխված տվյալների համար, փոխարենը կախյալ փոփոխականն է վերափոխվում՝ լոգարիթմելու միջոցով);
կատեգորիկ տվյալների մոդելավորման ժամանակ, ինչպիսիք են ընտրություններում տվյալ թեկնածուի ընտրությունը (որն ավելի լավ է նկարագրվում Բեռնուլիի (Bernoulli) բաշխման / բինոմական բաշխման միջոցով՝ երկուական ընտրության համար, իսկ բազմակի ընտրության համար օգտագործվում են կատեգորիկ բաշխումը / բազմանոմիալ բաշխումը, որտեղ կան ընտրությունների ֆիքսված քանակ, որը չի կարող իմաստալից դասակարգվել;
Օրդինալ տվյալների մոդելավորման ժամանակ, օրինակ՝ 0-ից 5 սանդղակով գնահատականների, որտեղ տարբեր արդյունքները կարելի է դասակարգել, բայց որտեղ քանակը ինքնին չի կարող ունենալ որևէ նշանակալի իմաստ (օր.՝ 4 գնահատականը չի կարող լինել «երկու անգամ լավ» 2 գնահատականից, բայց պարզապես ցույց է տալիս, որ այն ավելի լավն է, քան 2 կամ 3, բայց ոչ այնքան լավ, որքան 5)։

Ընդհանրացված գծային մոդելները թույլ են տալիս մի ֆունկցիա՝ g, որը կախյալ փոփոխական(ներ)ի միջինը կապում է անկախներին՝ $E(Y)=g^{-1}(XB)$ ։ Այս ֆունկցիան հաճախ կապված է կախյալ փոփոխականի բաշխման հետ։

GLM- ների որոշ օրինակներ են՝

Պուասոնի ռեգրեսիա՝ ոչ բացասական ամբողջ թվերով տվյալների համար։
Երկուական տվյալների համար լոգիստիկ ռեգրեսիա և պրոբիթ ռեգրեսիա։
Կատեգորիկ տվյալների համար բազմանոմիալ լոգիստիկ ռեգրեսիա և բազմանոմիալ պրոբիթ ռեգրեսիա։
Դասակարգված լոջիթ (ordered logit) և դասակարգված պրոբիթ (ordered probit) ռեգրեսիա`օրդինալ տվյալների համար։

Գնահատման/մոտարկման մեթոդներ խմբագրել

Պարամետրերի գնահատման և գծային ռեգրեսիայի մշակվել են մեծ թվով ընթացակարգեր։ Այս մեթոդները տարբերվում են ալգորիթմների հաշվարկային պարզությամբ, փակ ձևի լուծման առկայությամբ, տեսական ենթադրություններով, որոնք անհրաժեշտ են ցանկալի վիճակագրական հատկությունները հաստատելու համար, ինչպիսիք են հետևողականությունը և ասիմպտոտիկ արդյունավետությունը և այլն։

Ստորև բերված են գծային ռեգրեսիայի գնահատման ավելի տարածված մեթոդներ։

Փոքրագույն քառակուսիների եղանակը և հարակից տեխնիկան խմբագրել

Ֆրենսիս Գալթոնի՝ 1875-ի նկարազարդումը մեծահասակների և նրանց ծնողների հասակների հարաբերակցության միջև: Այն հանգամանքը, որ չափահաս երեխաների հասակները հակված են ավելի քիչ շեղվել միջին հասակից, քան նրանց ծնողներինը, հանգեցնում է «ռեգրեսիա միջինի շուրջը» գաղափարին՝ ռեգրեսիային տալով իր անունը: Հորիզոնական շոշափման կետերի ուղիղը, որն անցնում է օվալի աջակողմյան և ձախակողմյան կետերով, ցույց է տալիս ծնողների հասակների՝ ըստ երեխաների հասակների կատարված ռեգրեսիայի՝ ՓՔԵ ստացված գնահատականը: Ուղղահայաց շոշափման կետերի ուղիղը ցույց է տալիս երեխաների հասակների՝ ըստ ծնողների հասակների կատարված ռեգրեսիայի՝ ՓՔԵ ստացված գնահատականը:

Ենթադրենք, որ ${\vec {x}}=[x_{1},x_{2},\dots ,x_{m}]$ անկախ փոփոխականն է, իսկ մոդելի պարամետրն է՝ ${\vec {\beta }}=[\beta _{0},\beta _{1},\cdots ,\beta _{m}]$ , այդ դեպքում մոդելի կանխատեսումը կլինի՝ $y\approx \beta _{0}+\sum _{i=1}^{m}\beta _{i}\times x_{i}$ ։ Եթե ${\vec {x}}=[1,x_{1},x_{2},\dots ,x_{m}]$ , ապա $y$ կլինի պարամետրի և անկախ փոփոխականի կետային արտադրյալ, այսինքն $y\approx \sum _{i=0}^{m}\beta _{i}\times x_{i}={\vec {\beta }}\,\,.\,{\vec {x}}$ ։ Փոքրագույն քառակուսիների դեպքում օպտիմալ պարամետրը սահմանվում է այնպես, որը նվազագույնի է հասցնում միջին քառակուսների կորստի գումարը.

${\vec {\hat {\beta }}}={\underset {\vec {\beta }}{\mbox{arg min}}}\,L(D,{\vec {\beta }})={\underset {\vec {\beta }}{\mbox{arg min}}}\sum _{i=1}^{n}({\vec {\beta }}\,.\,{\vec {x_{i}}}-y_{i})^{2}$

Այժմ դնելով անկախ և կախված փոփոխականները համապատասխանաբար $X$ և $Y$ մատրիցներում, կորստի ֆունկցիան կունենա հետևյալ տեսքը.

${\begin{aligned}L(D,{\vec {\beta }})&=||X{\vec {\beta }}-Y||^{2}\\&=(X{\vec {\beta }}-Y)^{T}(X{\vec {\beta }}-Y)\\&=Y^{T}Y-Y^{T}X{\vec {\beta }}-{\vec {\beta }}^{T}X^{T}Y+{\vec {\beta }}^{T}X^{T}X{\vec {\beta }}\end{aligned}}$

Քանի որ կորուստը ուռուցիկ է, օպտիմալ լուծումը ընկնում է զրո գրադիենտի վրա։ Կորուստի ֆունկցիայի գրադիենտը ունի հետևյալ տեսքը.

${\begin{aligned}{\frac {\partial L(D,{\vec {\beta }})}{\partial {\vec {\beta }}}}&={\frac {\partial \left(Y^{T}Y-Y^{T}X{\vec {\beta }}-{\vec {\beta }}^{T}X^{T}Y+{\vec {\beta }}^{T}X^{T}X{\vec {\beta }}\right)}{\partial {\vec {\beta }}}}\\&=-2Y^{T}X+2{\vec {\beta }}^{T}X^{T}X\end{aligned}}$

Գրադիենտը զրո դարձնելու դեպքում ստանում ենք օպտիմալ պարամետր.

${\begin{aligned}-2Y^{T}X+2{\vec {\beta }}^{T}X^{T}X=0\\&\Rightarrow Y^{T}X={\vec {\beta }}^{T}X^{T}X\\&\Rightarrow X^{T}Y=X^{T}X{\vec {\beta }}\\&\Rightarrow {\vec {\hat {\beta }}}=(X^{T}X)^{-1}X^{T}Y\end{aligned}}$

Գծային փոքրագույն քառակուսիների մեթոդները հիմնականում ներառում են.

Սովորական փոքրագույն քառակուսիները
Կշռված փոքրագույն քառակուսիները
Ընդհանրացված փոքրագույն քառակուսիները

Մաքսիմում ճշմարտանմանության մեթոդ և հարակից տեխնիկա խմբագրել

Առավելագույն ճշմարտանմանության մեթոդը (MLE or Maximum-likelihood estimation) կարող է կիրառվել, երբ սխալի բաշխումը պատկանում է հավանականությունների բաշխումից որոշակի ƒ_θ պարամետրային ընտանիքի^[9]։ Երբ f _θ- ն պատկանում է նորմալ բաշխման զրո միջինով և θ վարիացիայով, արդյունքում ստացված գնահատումը նույնական է ՓՔԵ-ի գնահատմանը։ GLS-ի գնահատումները առավելագույն ճշմարտանմանության գնահատումներ են, երբ ε- ն ունի նորմալ բաշխում և հայտնի կովարիացիոն մատրից։
Ridge-ի ռեգրեսիան^[10]^[11]^[12] և ՙՙտուգանքների՚՚ գնահատման այլ ձևերը, ինչպիսիք են Lasso-ի ռեգրեսիան^[5], միտումնավոր կողմնակալություն են մտցնում β- ի գնահատման մեջ, որպեսզի նվազեցնեն գնահատականի փոփոխականությունը։ Ստացվող գնահատականները սովորաբար ունենում են ավելի փոքր միջին քառակուսային շեղում, քան ՓՔԵ գնահատականները, հատկապես, երբ առկա է բազմակոլինեարություն կամ գերակատարում։ Նրանք հիմնականում օգտագործվում են այն ժամանակ, երբ նպատակն է կանխատեսել y կախյալ փոփոխականի արժեքը տրված x արժեքների համար, որոնք դեռ չեն դիտարկվել։ Այս մեթոդները այնքան էլ հաճախ չեն օգտագործվում, երբ նպատակը եզրակացություն կատարելն է, քանի որ դժվար է կողմնակալությունը հաշվի առնել։
Նվազագույն բացարձակ շեղման (LAD) ռեգրեսիան գնահատման տեխնիկա է, որը ավելի քիչ զգայուն է հեռու ընկած կետերի (outlier) նկատմամբ, քան ՓՔԵ-ն (բայց ավելի քիչ արդյունավետ է, քան ՓՔԵ-ն, երբ առկա չեն հեռու ընկած կետեր)։ Այն համարժեք է առավելագույն ճշմարտանմանության գնահատմանը՝ ε- ովLaplace բաշխման մոդելի ներքո^[13]։
Հարմարվող մոտարկում (Adaptive estimation)։ Եթե ենթադրենք, որ սխալները անկախ են ռեգրեսորներից՝ $\varepsilon _{i}\perp \mathbf {x} _{i}$ , ապա օպտիմալ գնահատականը 2-քայլանոց MLE- ն է, որտեղ առաջին քայլով որոշվում է ոչ պարամետրային ձևով սխալի բաշխման մոտարկումը^[14]։

Մոտարկման այլ մեթոդներ խմբագրել

Theil-Sen- ի գնահատականի (սև) և պարզ գծային ռեգրեսիայի (կապույտ) համեմատությունը մի շարք կետերի համար, որոնք պարունակում են նաև հեռու ընկած կետեր:

Բայեսյան գծային ռեգրեսիա
Քվանտիլային ռեգրեսիա (Quantile regression)
Խառը մոդելները (Mix models)
Հիմնական բաղադրիչի ռեգրեսիա (PCR - principle component regression)^[7]^[8]
Փոքրագույն անկյունային ռեգրեսիա^[6]
Theil-Sen-ի գնահատական^[15]
Գնահատման այլ մեթոդներ

Օգտագործումը խմբագրել

Գծային ռեգրեսիան լայնորեն կիրառվում է կենսաբանական, վարքային և սոցիալական գիտություններում `փոփոխականների միջև հնարավոր փոխհարաբերությունները նկարագրելու համար։ Այն համարվում է այս ոլորտներում օգտագործվող ամենակարևոր գործիքներից մեկը։

Ֆինանսներ խմբագրել

Կապիտալ ակտիվների գնագոյացման մոդելը օգտագործում է ինչպես գծային ռեգրեսիա, այնպես էլ բետա հասկացությունը ներդրումների ռիսկը վերլուծելու և քանակականացնելու համար։ Սա ուղղակիորեն գալիս է գծային ռեգրեսիայի մոդելի բետա գործակցից, որը կապում է ներդրումների վերադարձը բոլոր ռիսկային ակտիվների վերադարձի հետ։

Տնտեսագիտություն խմբագրել

Գծային ռեգրեսիան տնտեսագիտության էմպիրիկ գործիքներից է։ Օրինակ, այն օգտագործվում է կանխատեսելու համար սպառողական ծախսերը^[16], ֆիքսված ներդրումային ծախսերը, գույքագրման ներդրումները, երկրի արտահանումը, ներմուծման ծախսերը^[17], իրացվելի ակտիվներ պահելու պահանջարկը^[18], աշխատուժի պահանջարկը, և աշխատուժի առաջարկը^[19]։

Բնագիտություն խմբագրել

Գծային ռեգրեսիան կիրառություն է գտնում նաև բնագիտության մեջ։ Կանադայում շրջակա միջավայրի վրա ազդեցության մոնիտորինգի ծրագիրը օգտագործում է ձկների և բենթիկական հետազոտությունների վերաբերյալ վիճակագրական վերլուծություններ՝ ջրային էկոհամակարգի վրա մետաղի հանքավայրի արտանետումների ազդեցությունը չափելու համար։

Մեքենայական ուսուցում խմբագրել

Գծային ռեգրեսիան կարևոր դեր է խաղում արհեստական ինտելեկտի բնագավառում, ինչպիսին է մեքենայական ուսումը։ Գծային ռեգրեսիայի ալգորիթմը հարաբերական պարզության և հայտնի հատկությունների շնորհիվ վերահսկվող մեքենայական ուսուցման հիմնարար ալգորիթմներից մեկն է^[20]։

Ծանոթագրություններ խմբագրել

↑ David A. Freedman (2009). Statistical Models: Theory and Practice. Cambridge University Press. էջ 26. «A simple regression equation has on the right hand side an intercept and an explanatory variable with a slope coefficient. A multiple regression equation has two or more explanatory variables on the right hand side, each with its own slope coefficient»
↑ Rencher, Alvin C.; Christensen, William F. (2012), «Chapter 10, Multivariate regression – Section 10.1, Introduction», Methods of Multivariate Analysis, Wiley Series in Probability and Statistics, vol. 709 (3rd ed.), John Wiley & Sons, էջ 19, ISBN 9781118391679.
↑ Hilary L. Seal (1967). «The historical development of the Gauss linear model». Biometrika. 54 (1/2): 1–24. doi:10.1093/biomet/54.1-2.1. JSTOR 2333849.
↑ Yan, Xin (2009), Linear Regression Analysis: Theory and Computing, World Scientific, էջեր 1–2, ISBN 9789812834119, «Regression analysis ... is probably one of the oldest topics in mathematical statistics dating back to about two hundred years ago. The earliest form of the linear regression was the least squares method, which was published by Legendre in 1805, and by Gauss in 1809 ... Legendre and Gauss both applied the method to the problem of determining, from astronomical observations, the orbits of bodies about the sun.»
↑ ^5,0 ^5,1 Tibshirani, Robert (1996). «Regression Shrinkage and Selection via the Lasso». Journal of the Royal Statistical Society, Series B. 58 (1): 267–288. JSTOR 2346178.
↑ ^6,0 ^6,1 Efron, Bradley; Hastie, Trevor; Johnstone, Iain; Tibshirani, Robert (2004). «Least Angle Regression». The Annals of Statistics. 32 (2): 407–451. arXiv:math/0406456. doi:10.1214/009053604000000067. JSTOR 3448465.
↑ ^7,0 ^7,1 Hawkins, Douglas M. (1973). «On the Investigation of Alternative Regressions by Principal Component Analysis». Journal of the Royal Statistical Society, Series C. 22 (3): 275–286. JSTOR 2346776.
↑ ^8,0 ^8,1 Jolliffe, Ian T. (1982). «A Note on the Use of Principal Components in Regression». Journal of the Royal Statistical Society, Series C. 31 (3): 300–303. JSTOR 2348005.
↑ Lange, Kenneth L.; Little, Roderick J. A.; Taylor, Jeremy M. G. (1989). «Robust Statistical Modeling Using the t Distribution» (PDF). Journal of the American Statistical Association. 84 (408): 881–896. doi:10.2307/2290063. JSTOR 2290063.
↑ Swindel, Benee F. (1981). «Geometry of Ridge Regression Illustrated». The American Statistician. 35 (1): 12–15. doi:10.2307/2683577. JSTOR 2683577.
↑ Draper, Norman R.; van Nostrand; R. Craig (1979). «Ridge Regression and James-Stein Estimation: Review and Comments». Technometrics. 21 (4): 451–466. doi:10.2307/1268284. JSTOR 1268284.
↑ Hoerl, Arthur E.; Kennard, Robert W.; Hoerl, Roger W. (1985). «Practical Use of Ridge Regression: A Challenge Met». Journal of the Royal Statistical Society, Series C. 34 (2): 114–120. JSTOR 2347363.
↑ Narula, Subhash C.; Wellington, John F. (1982). «The Minimum Sum of Absolute Errors Regression: A State of the Art Survey». International Statistical Review. 50 (3): 317–326. doi:10.2307/1402501. JSTOR 1402501.
↑ Stone, C. J. (1975). «Adaptive maximum likelihood estimators of a location parameter». The Annals of Statistics. 3 (2): 267–284. doi:10.1214/aos/1176343056. JSTOR 2958945.
↑ Theil, H. (1950). «A rank-invariant method of linear and polynomial regression analysis. I, II, III». Nederl. Akad. Wetensch., Proc. 53: 386–392, 521–525, 1397–1412. MR 0036489.; Sen, Pranab Kumar (1968). «Estimates of the regression coefficient based on Kendall's tau». Journal of the American Statistical Association. 63 (324): 1379–1389. doi:10.2307/2285891. JSTOR 2285891. MR 0258201..
↑ Deaton, Angus (1992). Understanding Consumption. Oxford University Press. ISBN 978-0-19-828824-4.
↑ Krugman, Paul R.; Obstfeld, M.; Melitz, Marc J. (2012). International Economics: Theory and Policy (9th global ed.). Harlow: Pearson. ISBN 9780273754091.
↑ Laidler, David E. W. (1993). The Demand for Money: Theories, Evidence, and Problems (4th ed.). New York: Harper Collins. ISBN 978-0065010985.
↑ Ehrenberg; Smith (2008). Modern Labor Economics (10th international ed.). London: Addison-Wesley. ISBN 9780321538963.
↑ «Linear Regression (Machine Learning)» (PDF). University of Pittsburgh.

[Freedman09-1] David A. Freedman (2009). Statistical Models: Theory and Practice. Cambridge University Press. էջ 26. «A simple regression equation has on the right hand side an intercept and an explanatory variable with a slope coefficient. A multiple regression equation has two or more explanatory variables on the right hand side, each with its own slope coefficient»

[2] Rencher, Alvin C.; Christensen, William F. (2012), «Chapter 10, Multivariate regression – Section 10.1, Introduction», Methods of Multivariate Analysis, Wiley Series in Probability and Statistics, vol. 709 (3rd ed.), John Wiley & Sons, էջ 19, ISBN 9781118391679.

[3] Hilary L. Seal (1967). «The historical development of the Gauss linear model». Biometrika. 54 (1/2): 1–24. doi:10.1093/biomet/54.1-2.1. JSTOR 2333849.

[4] Yan, Xin (2009), Linear Regression Analysis: Theory and Computing, World Scientific, էջեր 1–2, ISBN 9789812834119, «Regression analysis ... is probably one of the oldest topics in mathematical statistics dating back to about two hundred years ago. The earliest form of the linear regression was the least squares method, which was published by Legendre in 1805, and by Gauss in 1809 ... Legendre and Gauss both applied the method to the problem of determining, from astronomical observations, the orbits of bodies about the sun.»

[tibs_lasso-5] 5,0 ^5,1 Tibshirani, Robert (1996). «Regression Shrinkage and Selection via the Lasso». Journal of the Royal Statistical Society, Series B. 58 (1): 267–288. JSTOR 2346178.

[efron_lars-6] 6,0 ^6,1 Efron, Bradley; Hastie, Trevor; Johnstone, Iain; Tibshirani, Robert (2004). «Least Angle Regression». The Annals of Statistics. 32 (2): 407–451. arXiv:math/0406456. doi:10.1214/009053604000000067. JSTOR 3448465.

[hawkins_pcr-7] 7,0 ^7,1 Hawkins, Douglas M. (1973). «On the Investigation of Alternative Regressions by Principal Component Analysis». Journal of the Royal Statistical Society, Series C. 22 (3): 275–286. JSTOR 2346776.

[joliffe_pcr-8] 8,0 ^8,1 Jolliffe, Ian T. (1982). «A Note on the Use of Principal Components in Regression». Journal of the Royal Statistical Society, Series C. 31 (3): 300–303. JSTOR 2348005.

[9] Lange, Kenneth L.; Little, Roderick J. A.; Taylor, Jeremy M. G. (1989). «Robust Statistical Modeling Using the t Distribution» (PDF). Journal of the American Statistical Association. 84 (408): 881–896. doi:10.2307/2290063. JSTOR 2290063.

[10] Swindel, Benee F. (1981). «Geometry of Ridge Regression Illustrated». The American Statistician. 35 (1): 12–15. doi:10.2307/2683577. JSTOR 2683577.

[11] Draper, Norman R.; van Nostrand; R. Craig (1979). «Ridge Regression and James-Stein Estimation: Review and Comments». Technometrics. 21 (4): 451–466. doi:10.2307/1268284. JSTOR 1268284.

[12] Hoerl, Arthur E.; Kennard, Robert W.; Hoerl, Roger W. (1985). «Practical Use of Ridge Regression: A Challenge Met». Journal of the Royal Statistical Society, Series C. 34 (2): 114–120. JSTOR 2347363.

[13] Narula, Subhash C.; Wellington, John F. (1982). «The Minimum Sum of Absolute Errors Regression: A State of the Art Survey». International Statistical Review. 50 (3): 317–326. doi:10.2307/1402501. JSTOR 1402501.

[14] Stone, C. J. (1975). «Adaptive maximum likelihood estimators of a location parameter». The Annals of Statistics. 3 (2): 267–284. doi:10.1214/aos/1176343056. JSTOR 2958945.

[15] Theil, H. (1950). «A rank-invariant method of linear and polynomial regression analysis. I, II, III». Nederl. Akad. Wetensch., Proc. 53: 386–392, 521–525, 1397–1412. MR 0036489.; Sen, Pranab Kumar (1968). «Estimates of the regression coefficient based on Kendall's tau». Journal of the American Statistical Association. 63 (324): 1379–1389. doi:10.2307/2285891. JSTOR 2285891. MR 0258201..

[16] Deaton, Angus (1992). Understanding Consumption. Oxford University Press. ISBN 978-0-19-828824-4.

[Krugman-17] Krugman, Paul R.; Obstfeld, M.; Melitz, Marc J. (2012). International Economics: Theory and Policy (9th global ed.). Harlow: Pearson. ISBN 9780273754091.

[18] Laidler, David E. W. (1993). The Demand for Money: Theories, Evidence, and Problems (4th ed.). New York: Harper Collins. ISBN 978-0065010985.

[Ehrenberg-19] Ehrenberg; Smith (2008). Modern Labor Economics (10th international ed.). London: Addison-Wesley. ISBN 9780321538963.

[20] «Linear Regression (Machine Learning)» (PDF). University of Pittsburgh.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]