Բրիտանական ազգային կորպուս

Բրիտանական ազգային կորպուս (ԲԱԿ) բազմաթիվ աղբյուրներից հավաքագրված անգլերեն գրավոր և բանավոր տեքստերի 100 միլիոն բառածավալով կորպուս[1]։ Այն ուսումնասիրում է 20-րդ դարի վերջի բրիտանական անգլերենն ըստ տարբեր ոճերի, որպեսզի ներկայացնի այդ ժամանակվա բրիտանական անգլերենի բանավոր ու գրավոր խոսքից գրառված նմուշներ։

Պատմություն խմբագրել

Բրիտանիայի ազգային կորպուսի նախագիծը երեք հրատարակիչների (Օքսֆորդի համալսարանական լրագիրը՝ որպես գլխավոր համագործակից, Լոնգմանը ու Չեյբըրսը), երկու համալսարանների (Օքսֆորդի համալսարան և Լանքասթերի համալսարան) և Բրիտանական գրադարանի համագործակցության արդյունք է[2]։ Կորպուսի սկիզբը դրվել է 1991 թվականին Բրիտանիայի Ազգային Կորպուսի ասոցիացիայի ղեկավարության ներքո, իսկ նախագիծն ավարտին է հասցվել 1994 թվականին։ 1994 թվականից ի վեր նոր տեքստերի որևէ ավելացում չի գրանցվել, սակայն ԲԱԿ-ը չնչին վերանայումներ է իրականացրել նախքան երկրորդ՝ «BNC World» (2001 թվական) և երրորդ խմբագրումը՝ «BNC XML Edition» (2007 թվական)[3]։

ԲԱԿ-ը հաշվողական լեզվաբանների գաղափարն էր, որոնց նպատակը համակարգչի կողմից վերլուծվող խոսքի կամ տեքստի արտահայտմամբ ժամանակակից, բնական լեզվի կորպուսի ստեղծումն էր։ Այսպիսով, այն ի սկզբանե կազմված է եղել այնպես, որ հնարավոր դարձնի ավտոմատ որոնումներն ու կորպուսային լեզվաբանության մշակման գործընթացները։ Գոյություն ունեցող այլ կորպուսներից տարբերակվելու հազարավոր ուղիներից մեկն այդժամ տվյալների անարգել տրամադրումն էր, ոչ միայն ակադեմիական ուսումնասիրությանն առնչվող տվյալների, այլև գովազդներում ու կրթության մեջ կիրառելի տվյալների[4]։

Կորպուսը սահմանափակվում էր բրիտանական անգլերենով և չէր ընդգրկում անգլերենի այլ տարբերակները։ Սա մասամբ այն պատճառով, որ նախագծի ծախսերի զգալի մասը Բրիտանիայի Կառավարության կողմից էր ֆինանսավորվում, որն անառարկելիորեն հետաքրքրված էր իր իսկ լեզվի լեզվաբանական բազմազանության փաստագրման ֆինանսավորմամբ[4]։ Իր նախատեսված աննախադեպ մասշտաբի պատճառով ԲԱԿ-ը կարիք ուներ առևտրային և ակադեմիական հաստատությունների ֆինանսական աջակցության։ Աջակցության շնոհիվ ԲԱԿ-ի տվյալներն այնուհետև հասանելի էին առևտրային և ակադեմիական ուսումնասիրությունների համար[4]։

Ընդհանուր բնութագիր խմբագրել

ԲԱԿ-ը միալեզվյան կորպուս է, քանզի այն գրառում է տեքստեր միմիայն բրիտանական անգլերենով, թեպետ երբեմն այլ լեզուներից էլ են բառեր և բառակապակցություններ հանդիպում։ Այն համաժամանակյա կորպուս է, քանի որ միայն 20-րդ դարավերջի լեզվական կիրառումն է ներկայացված, և քանի որ ԲԱԿ-ը նախատեսված չէ բրիտանական անգլերենի պատմական զարգացումը գրառելու համար[3]։ Ի սկզբանե նրանք, ովքեր ներգրավված էին տվյալների հավաքագրման մեջ, ձգտում էին ԲԱԿ-ը դարձնել բալանսավորված կորպուս, ուստի տեքստերն ընդգրկում էին տարբեր աղբյուներից[4]։

Կառուցածք և բովանդակություն խմբագրել

ԲԱԿ-ի 90%-ը գրավոր խոսքի կիրառման տեքստեր են, որոնք դուրս են բերվել տարածաշրջանային ու ազգային թերթերից, տարբեր ակադեմիական ոլորտներից հրատարակված հետազոտական ամսագրերից կամ պարբերականներից, գեղարվեստական կամ ոչ գեղարվեստական գրքերից, այլ հրատարակված և չհրատարակված նյութերից, ինչպիսիք են՝ թռուցիկներ, բրոշյուրներ, նամակներ, տարբեր ակադեմիական մակարդակի ուսանողների կողմից գրված էսսեներ, ելույթներ, սցենարներ և այլ տարբեր տիպի տեքստեր[5]։

ԲԱԿ-ի մնացյալ 10%-ը բանավոր խոսքի կիրառման նմուշներ են։ Դրանք ներկայացված և գրառված են վերծանումների տեսքով։ Բանավոր խոսքի կորպուսը բաղկացած է 2 մասից՝ առաջին մասը ներառում է բանավոր սպոնտան խոսքի վերծանում՝ տարբեր տարիքային խմբերի, սոցիալական դասերի և տարբեր շրջաններից կամավորների մասնակցությամբ։ Այս զրույցները տեղի էին ունենում տարբեր իրավիճակներում և ներառում էին բիզնես կամ կառավարչական հանդիպումներից մինչև ռադիո հաղորդումներ և հեռախոսազանգեր[5]։ Այս զրույցների գրառման նպատակը ազգային լեզվի բանավոր խոսքի և դրա համատեքստային տարբերակների լեզվաբանական վերլուծությունն էր[6]։

Մյուս մասը ներառում է համատեքստային նմուշներ, ինչպիսիք են բացառիկ հանդիպումների ընթացքում կատարված ձայնագությունների վերծանումները։ Այն բոլոր ինքնատիպ ձայնագրությունները, որոնք նախատեսված էին ԲԱԿ-ում ներառվելու համար, պահպանված են Բրիտանական գրադարանի հնչյունային արխիվում։ Ձայնագրությունների մեծամասնությունը հասանելի են Օքսֆորդի հնչյունաբանական լաբորատորիայում։

Ենթակորպուսներ և պիտակավորում խմբագրել

Երկու ենթակորպուսներ են թողարկվել (ԲԱԿ-ի տվյալների քաղվածքները)՝ «BNC Baby» և «BNC Sampler»։ Այս երկու ենթակորպուսները կարող են օնլայն կիրառվել ԲԱԿ-ի վեբ կայքի միջոցով[7]։ «BNC Baby»-ն բաղկացած է նմուշների 4 խմբից, որոնցից յուրաքանչյուրը ներառում է ԲԱԿ-ում պիտակավորված մեկ միլիոն բառ։ Յուրաքանչյուր նմուշային խմբի բառերը հապատասխանում են հատուկ ոճական պիտակի։ Մեկ նմուշային խումբը բաղկացած է բանավոր խոսքի օրինակներից, իսկ մնացած 3 նմուշային խմբերը ներառում են գրավոր խոսքի տեքստեր՝ ակադեմիական գրություն, գեղարվեստական գրականություն և թերթեր, համապատասխանաբար[8]։ Ամենավերջին (երրորդ) խմբագրությունը թողարկվել և ներկայացվել է «XML» ֆորմատով[9]։ «BNC Sampler»-ը երկու մասից բաղկացած ենթակորպուս է, այն ներառում է մեկ միլիոն բառից բաղկացած գրավոր ու բանավոր խոսքի տվյալներ։ «BNC Sampler»-ն ի սկզբանե կիրառվել է մի նախագծում, որը ձգտում էր բարելավվել ԲԱԿ-ի պիտակավորման գործընթացը, ինչն ի վերջո հանգեցրեց «BNC World»-ի խմբագրմանը։ Նախագծի շրջանակներում «BNC Sampler»-ը բարելավվել է աճող փորձառության ու հմտության շնորհիվ, ինչի արդյունքում պիտակավորումը ներկայիս ձևն է ստացել[10]։

ԲԱԿ կորպուսը պիտակավորվել է քերականական տեղեկատվության համար (խոսքի մասեր)։ Պիտակավորման համակարգը՝ «CLAWS» անվամբ, որոշակի փոփոխությունների ենթարկվեց, ինչի արդյունքում ԲԱԿ-ը պիտակավորելու նպատակով ստեղծվեց «CLAWS4» համակարգը։ «CLAWS1»-ի հիմքում թաքնված էր «MARKOV»-ի մոդելը,և երբ դա կիրառվում է ավտոմատացված պիտակավորման ժամանակ, կարող է հաջողությամբ պիտակավորել յուրաքանչյուր վերլուծված տեքստի 96-97%-ը։ «CLAWS1»-ը փոխարինվեց «CLAWS2»-ով, որում հեռացվեց ձեռքով տեքստը ավտոմատ պիտակավորելու հնարավորությունը։ Ամենավերջին թարմացումը` «CLAWS4»-ը, փոփոխություններ է ներառում, ինչպիսիք են բառիմաստի հստակության ավելի ճկուն հնարավորությունն ու տարբեր տիպի ուղղագրական տեքստերի, լեզվի ծրագրավորման հնարավորություննները։ Այնուհետև վերափոխումները վերաբերում էին ավտոմատ պիտակավորման մեջ բազմաթիվ հաջողություններ գրանցելուն ու ձեռքով աշխատանքի նվազեցմանը` միևնույն ժամանակ որոշակի ծրագրերի կիրառմամբ պահպանելով արդյունավետությունը[2][11]։ Հետևաբար, «Template Tagger» անվամբ նոր ծրագիր ներկայացվեց՝ ճշտումներ կատարելու գործառույթով։ Բազմիմաստություն ցույց տվող պիտակներն ավելի ուշ են ավելացվել։ Ձեռքով պիտակավորումը դեռևս անհրաժեշտ է, քանզի «CLAWS4»-ը չի վերծանում օտար բառերը[12][13]։

Տեքստի կոդավորում և հասանելիություն խմբագրել

Կորպուսը գործում է Տեքստի կոդավորման հրահանգներով և ներառում է լեզվաբանական ամբողջական ծանոթագրություն և համատեքստային տեղեկատվություն[14]։ «CLAWS4»-ի խոսքիմասային պիտակի թույլտվությունը կարող է գնվել պիտակիչը կիրառելու նպատակով[15]։ Պիտակավորման այլընտրանքային ծառայություն է առաջարկում Լանքասթերի համալսարանը[16]։ ԲԱԿ-ն ինքնին կարող է պատվիրվել կա՛մ անհատական, կա՛մ որևէ հաստատության թույլտվությամբ։ Հասանելի խմբագրումը ԲԱԿ «XML» խմբագրումն է, որը ներկայացվում է «XAIRA» որոնողական համակարգի ծրագրով։ Պատվերն իրականացվում է ԲԱԿ-ի վեբ կայքի միջոցով[17]։ Օնլայն կորպուսային մենեջերը՝ «BNCweb»-ը, փոփոխության է ենթարկվել «BNC XML»-ի խմբագրման համար։ Ինտերֆեյսն այնպես է ձևավորված, որպեսզի դյուրին լինի կիրառումը, իսկ ահա ծրագիրն առաջարկում է կորպուսային վերլուծության վերաբերյալ հարց տալու և գործառույթների հնարավորություն։ Օգտվողները կարող են վերհանել տվյալները որոնումների ու վերլուծությունների արդյունքում[18]։

Մուտքի հասանելիություն խմբագրել

ԲԱԿ-ն իր չափի առաջին տեքստային կորպուսն էր, որը լայնորեն հասանելի դարձավ։ Սա կարող է պայմանավորված լինել պայմանագրի ստանդարտ ձևերով՝ մի կողմից իրավատերերի ու ասոցիացիայի միջև, իսկ մյուս կողմից կորպուսից օգտվողների ու Ասոցիացիայի միջև։ Մտավոր սեփականության իրավունքի սեփականատերերին որոնում էին ստանդարտ թույլտվությամբ պայմանագրի համար, ներառյալ` իրենց նյութերը կորպուսում անվճար ներմուծելու հոժարակամությունը։ Այս պայմանավորվածությունը գուցե հեշտացվել է գաղափարի ինքնատիպության և ծրագրի հետ կապված կարևորության շնորհիվ։ Այնուամենայնիվ, աջակիցների ինքնությունը ծածուկ պահելը մարտահրավեր էր, քանի որ խրթին էր նրանց նշանակալի աշխատանքի մասին լռելը։ Աջակիցների ինքնության վերաբերյալ որևէ ակնարկ միանգամից հեռացվում էր։ Քննարկվում էր աջակցի ինքնությունը կեղծ անվամբ փոխարինելու այլընտրանքային լուծումը, ինչն իրագործելի չհամարվեց[6]։

Բացի այդ, աջակիցներին ավելի վաղ հորդորում էին միայն ներառել իրենց խոսքի վերծանումները և ոչ թե խոսքն ինքնին։ Չնայած սկզբնական աջակիցներից կրկին թույլտվություն էին խնդրում, այնուամենայնիվ, անանունացման գործընթացում հաջողության չհասնելը նշանակում էր, որ դժվար կլիներ սկզբնական աջակիցներից նյութ փնտրել։ Միաժամանակ երկու գործոն նպաստեց, որ իրավատերերը չէին կամենում նվիրաբերել իրենց նյութերը. ամբողջական տեքստերը պետք է բացառվեին, և նրանց համար որևէ դրդապատճառ չկար կորպուսի կիրառմամբ տեղեկություն տարածելու, մանավանդ երբ կորպուսը գործում է ոչ առևտրային հիմունքներով[6]։

Խնդիրներ ու սահմանափակումներ խմբագրել

Կատեգորիաներ խմբագրել

Մինչ 2001 թվականը ԲԱԿ-ը դեռ չուներ գրավոր տեքստերի տեքստային դասակարգում և ոչ էլ բանավոր տեքստերի, բացառությամբ ըստ համատեքստի՝ ժողովրդագրական կամ սոցիալ-տնտեսական դասերը։ Օրինակ, ԲԱԿ-ում ընդգրկված էին բազմաթիվ գրականական տեքստեր (վեպեր, կարճ պատմվածքներ, բանաստեղծություններ և թատերային սցենարներ), բայց այդպիսի ներառումները համարվեցին անօգուտ, քանի որ հետազոտողները չէին կարողանում հեշտությամբ վերադառնալ ենթատեսակներ, որոնց վրա ցանկանում էին աշխատել (օր., պոեզիա)։ Քանի որ այս մետատվյալները բաց էին թողնված ֆայլերի վերնագրերում և ԲԱԿ-ի բոլոր փաստաթղթերում, ոչ մի կերպ հնարավոր չէր իմանալ, թե արդյոք «գրականական» տեքստը իրականում վերցվել է վեպից, կարճ պատմվածքից, թատերական սցենարից, թե բանաստեղծությունների հավաքածուից, եթե վերնագիրը չէր ներառում այնպիսի բառեր, ինչպիսիք են «վեպ»-ը կամ «պոեմ»-ը[19]։

2002-ին նոր տարբերակի `«BNC World Edition»-ի ներդրմամբ, ԲԱԿ-ը փորձեց զբաղվել այս խնդրով։ Դոմեյնից բացի, այժմ 70 կարգեր կան ինչպես խոսակցական, այնպես էլ գրավոր տվյալների համար, ուստի հետազոտողներն այժմ կարող են գտնել տեքստերն ըստ տեսակի։ Այնուամենայնիվ, նույնիսկ այս փոփոխություններից հետո իրագործումը դեռ անավարտ է, քանի որ տեքստի պատկանումը որևէ տեսակի կամ ենթատեսակի հեշտ չէ։ Բանավոր խոսքի տվյալների դասակարգումը պակաս պարզ է, քան գրավոր տվյալներինը, քանի որ թեմաների և օգտագործման մեջ ավելի շատ բազմազանություն է նկատվում։ Բացի այդ, միշտ կլինեն յուրաքանչյուր ենթատեսակի տեսակների հնարավոր ենթախմբեր։ Թե ինչպես են ենթատեսակները բաժանվում, նախապես որոշվում է ձախողումից, բայց հետազոտողները հնարավորություն ունեն բաժիններն ավելի ընդհանուր կամ մասնակի դարձնել՝ ըստ իրենց տեսակների։ Դասակարգումը նույնպես խնդիր է, քանի որ որոշ տեքստեր, չնայած համարվում են, որ պատկանում են միջգիտակարգային տեսակին, ինչպիսին է լեզվաբանությունը, ներկայացված է բովանդակությամբ, որը դասակարգվում է կամ արվեստի, կամ գիտության կարգերին՝ իրենց բովանդակության բնույթից ելնելով[20]։

Դասակարգում և խոսույթ խմբագրել

Որոշ տեքստեր դասակարգվել են սխալ կարգի տակ, սովորաբար շփոթեցնող վերնագրի պատճառով։ Օգտվողները չեն կարող միշտ վստահել ֆայլերի վերնագրերին՝ որպես դրանց իրական բովանդակության ցուցիչներ. Օրինակ՝ շատ տեքստեր, որոնց վերնագրում կա «դասախոսություն» բառը, իրականում դասարանային քննարկումներ են կամ ուսուցողական սեմինարներ, որոնցում ներգրավված է մարդկանց շատ փոքր խումբ, կամ հայտնի դասախոսություններ են (հասցեագրված ընդհանուր լսարանին, այլ ոչ թե բուհի ուսանողներին)[19]։ Պատճառներից մեկն այն է, որ տեսակի և ենթատեսակի պիտակները կարող են վերագրվել կատեգորիայի տեքստերի մեծամասնությանը։ Տեսակների մեջ կան ենթատեսակներ, և յուրաքանչյուր տեքստի համար բովանդակությունը կարող է տարբերվել և կարող է ընդգրկել բազմաթիվ ենթատեսակներ։ Բացի այդ, արտադրական ճնշումները, զուգորդված անբավարար տեղեկատվությամբ, հանգեցրին հապճեպ որոշումների, ինչի արդյունքում գրառումներում նկատվում էին անճշտություն և անհամապատասխանություն[20]։ Բացի այդ, արտադրական ճնշումները, զուգորդված անբավարար տեղեկատվությամբ, հանգեցրին հապճեպ որոշումների, ինչի արդյունքում գրառումներում նկատվում էին անճշտություն և անհամապատասխանություն[6]։

Գրավոր ու բանավոր խոսքի տեքստերի հարաբերությունը ԲԱԿ-ում 10:1 է, ինչը խոսակցական նյութերը պակաս ներկայանալի է դարձնում։ Դա պայմանավորված է նրանով, որ առօրյա խոսքում հանդիպող մեկ միլիոն բառի հավաքագրման և վերծանման դեպքերն առնվազն 10 անգամ ավելին են, քան թերթի տեքստում ևս մեկ միլիոն բառ ավելացնելու դեպքերը։ Որոշ լեզվաբաններ պնդում են, որ անհամաչափություն է դիտարկելի, քանի որ բանավոր ու գրավոր խոսքը հավասարապես կարևոր են լեզվում[6]։ ԲԱԿ-ն իդեալական չէ բանավոր խոսքի խոսույթային առանձնահատկությունների ուսումնասիրման համար, քանի որ դրա վերծանումների մեծ մասը ուղղագրական է։ Բանավոր խոսքի ոչ լեզվական առանձնահատկությունները միայն մասամբ են նշված[21]։

Սահմանափակումներ և անհամապատասխանություններ խմբագրել

Չնայած բառային տեղեկության գերազանց աղբյուր լինելուն՝ ԲԱԿ-ը միայն կարող է կիրառվել քերականական կաղապարների սահմանափակ խումբ ուսումնասիրելու համար, մասնավորապես այնպիսի խմբեր, որոնք ունեն տարբերակիչ բառային կապակցություններ։ Թեպետ բավական հեշտ է գտնել «վայելել» բառի բոլոր կիրառումները և դրանք դասակարգել ըստ հետևյալ բառի խոսքիմասային կարգի, լրացուցիչ աշխատանք է պահանջվում՝ գտնելու գերունդից հետո բայերի բոլոր դեպքերը, քանի որ ԲԱԿ-ի «SARA» ինդեքսը չի պարունակում խոսքիմասային կարգեր, ինչպիսիք են `«բոլոր բայերը» կամ «բոլոր բայերի -ing ձևերը»[21]։

Որոշ բառակապակցություններ նույնպես երկիմաստ են հարցումների մեջ կիրառվելուհամար. Սահմանափակող հարաբերական նախադասությունների ցանկացած որոնում օգտվողին կտրամադրի անհամապատասխան տվյալներ՝ հաշվի առնելով wh-ով դերանունների այլ գործածությունների քանակը և այդ դերանունների քանակը լեզվում (ինչպես նաև հարաբերական նախադասությունների նույնացման անհնարինությունը դերանվան բացակայության դեպքում, ինչպես օրինակ,՝ «the man I saw» ): Հատուկ իմաստաբանական և գործաբանական կատեգորիաները (կասկած, ճանաչողություն, տարաձայնություններ, կրճատումներ և այլն) դժվար են նույնացվում միևնույն պատճառով։ Սա նշանակում է, որ չնայած կարելի է համեմատել տղամարդու և կնոջ խոսքը, բայց չենք կարող համեմատել կանանց և տղամարդկանց հասցեագրված խոսքը[21]։

ԲԱԿ-ի՝ որպես մեծ, բազմաշերտ կորպուսի բնույթն այն անպատեհ է դարձնում առանձնահատուկ տեքստի կամ տեսակների ուսումնասիրությունը, քանի որ հնարավոր է, որ դրանցից որևէ մեկը սխալ ներկայացված լինի և կարող է անճանաչելի լինի կոդավորման պատճառով։ Օրինակ, ԲԱԿ-ում շատ քիչ բիզնես նամակներ և ծառայական հանդիպումներ կան, և նրանք, ովքեր ցանկանում են ուսումնասիրել իրենց պայմանագրերը, ավելի լավ կլինի կազմեն փոքր կորպուս, որում ներառված կլինեն միայն այդ տեսակին պատկանող տեքստերը[21]։

Կիրառման ոլորտներ խմբագրել

Անգլերեն լեզվի ուսուցում խմբագրել

Գոյություն ունեն երկու ընդհանուր ձև, որոնցով կորպուսային նյութը կարող է կիրառվել լեզվի ուսուցման մեջ[21]։

Նախևառաջ, հրատարակիչներն ու հետազոտողները կարող էին օգտագործել կորպուսի նմուշները լեզու սովորելու, հղումներ, ուսումնական պլաններ և դրան վերաբերող այլ գործիքներ կամ նյութեր ստեղծելու համար։ Օրինակ, ԲԱԿ-ը մի խումբ ճապոնացի հետազոտողների կողմից օգտագործվել է որպես գործիք անգլերենի ուսուցման կայքի ստեղծման համար. անգլերենը հատուկ նպատակներով սովորողների համար ստեղծված ուսուցողական վեբ կայք[22]։ Կայքը հնարավորություն ընձեռեց անգլալեզու սովորողներին ներբեռնել հաճախ լսվող և կիրառվող նախադասությունների օրինաչափությունները, այնուհետև այս նախադասությունների օրինաչափությունների հիման վրա սկսել կիրառել անգլերենը։ ԲԱԿ-ը ծառայում էր որպես աղբյուր, որից դուրս էին բերվում հաճախ օգտագործվող արտահայտությունները։ Այս կայքն օգտագործելիս օգտվողներն այսպիսով ապավինում էին ԲԱԿ-ի տեղեկատու նմուշներին՝ նրանց անգլերեն լեզվի ուսուցման ընթացքում ուղղորդելու համար։ Լեզվի ուսուցումը հեշտացնող նյութերի ստեղծումը սովորաբար ներառում է շատ մեծ կորպուսների կիրառում (համեմատելի ԲԱԿ-ի չափի հետ), ինչպես նաև ժամանակակից ծրագրերի և տեխնոլոգիայի օգտագործում։ Հաշվողական լեզվաբանության ոլորտում մեծ քանակությամբ գումար, ժամանակ և փորձ է ներդրվում լեզվի ուսուցմանը առնչվող նյութերի մշակման համար[21]։

Բացի այդ, կորպուսի վերլուծությունը կարող է ուղղակիորեն կիրառվել լեզվի դասավանդման և ձեռքբերման ոլորտում։ Այս մեթոդով լեզու սովորողներին հնարավորություն է տրվում կորպուսից դասակարգել լեզվական տվյալները և հետագայում նրանց դասակարգումից եզրակացություններ կատարել ուսումնասիրող լեզվի օրինաչափությունների և առանձնահատկությունների վերաբերյալ։ Այս մեթոդը ենթադրում է ավելի մեծ աշխատանք լեզուն ուսումնասիրողի մոտ և Թիմ Ջոնսի կողմից անվանվում է որպես «տվյալների վրա հիմնված ուսուցում»։ Կորպուսային տվյալները, որոնք կիրառվում են տվյալների հիման վրա ուսուցման համար, համեմատաբար ավելի քիչ են, և, հետևաբար, ուսումնասիրվող լեզվի վերաբերյալ արված ընդհանրացումները կարող են լինել սահմանափակ արժեքի[21]։ Ընդհանուր առմամբ, ԲԱԿ-ը կիրառելի է որպես հղումային աղբյուր՝ տեքստի վերարտադրման և ընկալման նպատակներով։ ԲԱԿ-ը կարող է օգտագործվել որպես հղումային աղբյուր տարբեր համատեքստերում առանձին բառերի գործածությունն ուսումնասիրելիս, որպեսզի սովորողները ծանոթանան համապատասխան համատեքստերում որոշակի բառերի գործածության տարբեր ձևերին[21]։ Լեզվին առնչվող տեղեկությունից բացի, հանրագիտարանային տեղեկատվությունը նույնպես հանդիպում է ԲԱԿ-ում։ ԲԱԿ-ի տվյալներն ուսումնասիրողներին ներկայացվում են նաև բրիտանական մշակութային առանձնահատկությունները և կարծրատիպերը[21]։

Երկլեզու բառարաններ, փորձարկումներ և գնահատում խմբագրել

ԲԱԿ-ն ավելի քան 12,000 բառերի և արտահայտությունների աղբյուր էր, որոնք օգտագործվել են 2012 թվականին Հնդկաստանում մի շարք երկլեզու բառարանների վերարտադրման համար` 22 տեղական լեզուներ թարգմանելով անգլերեն։ Սա մաս էր կազմում ավելի մեծ շարժման՝ կրթության կատարելագործման, Հնդկաստանի ազգային լեզուների պահպանման և թարգմանչական աշխատանքի զարգացման համար[23]։ ԲԱԿ-ի մեծ մասը լայնածավալ ռեսուրս է ապահովում, որով կարելի է փորձարկել ծրագրերը[24] : Այն օգտագործվել է որպես փորձարկման վայր «Տեքստային Կոդավորման Նախաձեռնության» (ՏԿՆ) ուղեցույցների համար։ ԲԱԿ-ը օգտագործվել է նաև 20 միլիոն բառ տրամադրելու համար, որպեսզի գնահատեն «Senseval» նախաձեռնության ու իմաստի հաշվարկային վերլուծության համար անգլերենի ենթակարգայնացման ձեռքբերման համակարգերը[25]։

Ուսումնասիրություն խմբագրել

Կոլոկացիաները Բրիտանական ազգային կորպուսում խմբագրել

Հոֆմենն ու Լեմենը (2000 թվական) ուսումնասիրել են բանախոսների` կոլոկացիաների իրենց մեծ պաշարները շահարկելու ունակության հիմքում ընկած մեխանիզմները։ Կոլոկացիաները պատրաստ են օգտագործման և կարող են հեշտությամբ ընդլայնվել քերականորեն կամ շարահյուսորեն` հարմարվելով ներկայիս խոսքի իրավիճակին։ Ոչ հաճախ հանդիպող բառակապակցությունները դուրս են բերվել ԲԱԿ-ից՝ դրա վերաբերյալ ավելի խորը պատկերացում կազմելու համար[26]։

Տղամարդու և կնոջ կոլոկացիոն վարք խմբագրել

Փիրսը (2008 թվական) ուսումնասիրեց տղամարդկանց և կանանց վարքերն այս կորպուսում` օգտագործելով «Sketch Engine»-ը։ Կորպուսի հարցման գործիքն օգտագործվել է «տղամարդ» և «կին» գոյականական բառահիմքերի քերականական վարքն ուսումնասիրելու համար (այսինքն՝ «տղամարդ» / «տղամարդիկ» և «կին» / «կանայք» գոյականները)[27]։

Ասույթներ. Կորպուսային ուսումնասիրություն խմբագրել

Ֆերնանդեսը և Գինցբուրգը (2002 թվական) ԲԱԿ-ի կիրառմամբ ուսումնասիրեցին երկխոսության ասույթները[28]։

Կորպուսի վրա հիմնված ակադեմիական նպատակներով անգլերենի դասընթաց «NNS» դոկտորանտ ուսանողների համար խմբագրել

Լին ու Սուեյլզը (2006 թվական) ԱՄՆ-ի Միչիգանի համալսարանի Անգլերեն լեզվի ինստիտուտի դոկտորանտ ուսանողների համար նախագծեցին կորպուսում ամրագրված ակադեմիական նպատակներին ծառայող անգլերենի փորձարարական դասընթաց[29]։

Մասնակիցները որպես իրենց ուսումնասիրությունների հիմք օգտագործեցին երեք հիմնական կորպուսներ.՝ «Hyland's Research Article Corpus»-ը, «Michigan Corpus of Academic Spoken English (MICASE)»-ը և ակադեմիական տեքստեր ԲԱԿ-ից[29]։

Հետագա աշխատանքներ խմբագրել

Ձևաբանական մշակում խմբագրել

Որպես ձևաբանական մշակման ուղղությամբ կատարվող աշխատանքների մի մաս, որպես բնական լեզվի մշակման կարևորագույն հարթակ՝ ԲԱԿ-ի տվյալներն օգտագործվել են ստուգելու համար հաշվարկային գործիքների ճշգրտությունը, հուսալիությունը և արագությունը։ Հաշվարկային գործիքները մշակվել էին այնպես, որ հեշտացնեն բրիտանական անգլերենում ձևաբանական ցուցիչների վերլուծությունն ու մշակումը[30]։ Այդ գործիքները ներառում էին մի ծրագիր, որը հնարավորություն ընձեռեց բրիտանական անգլերենով բառափոխության վերրլուծության (հայտնի է որպես վերլուծիչ) և վերլուծիչից ստացված վերլուծության հիման վրա ձևաբանական նշումներից առաջացած ծրագիր։ ԲԱԿ-ի տվյալները օգտագործվել են նաև բրիտանական անգլերենում ձևաբանական ցուցիչնների վերաբերյալ տեղեկության լայն պաշար ստեղծելու համար։ Մասնավորապես, ԲԱԿ-ից դուրս է բերվել մոտ 1100 բառահիմք և կազմվել է ստուգաթերթիկ, որում ձևաբանական գեներատորից առաջ տեղ են գտել բայեր, որոնցում բաղաձայն իկրկնությունը ճշգրտորեն շեղվել է[30]։ Քանի որ ԲԱԿ-ը զգալի ջանք է ցուցաբերում այսպիսի մեծ քանակությամբ տվյալներ հավաքել ու և հետագայում մշակելու համար, այն դարձել է ոլորտում ազդեցիկ նախահայրը և այն մոդելը կամ օրինակելի կորպուսը, ինչի վրա հիմնված էր հետագա կորպուսների զարգացումը[31]։

ԲԱԿ 2014 խմբագրել

2014 թվականի հուլիսին Քեմբրիջի համալսարանի լրագիրը և Հասարակական գիտությունների կորպուսային մոտեցումների կենտրոնը Լանքասթերի համալսարանում հայտարարեցին, որ նոր Բրիտանական ազգային կորպուսը՝ ԲԱԿ 2014-ը[32], ձևավորման փուլում է[33]։ Երկու հաստատությունների միջև համագործակցության ծրագրի առաջին փուլը 2010-ականների սկզբից մինչև կեսերին բրիտանական անգլերենի նոր բանավոր խոսքի կորպուսի ձևավորումն էր[34]։ 11.5 միլիոն բառից բաղկացած Բրիտանիայի Ազգային Խոսակցական Կորպուսը (2014 թվական) հանրությանը ներկայացվեց 2017 թվականի սեպտեմբերի 25-ին[35]։ 2014 թվականի ԲԱԿ-ի 100 միլիոն բառածավալով գրավոր տեքստերի կորպուսը ներկայումս կազմման փուլում է և պլանավորվում է հանրության դատին հանձնվել 2018 թվականի աշնանը[36]։

Տես նաև խմբագրել

Ծանոթագրություններ խմբագրել

  1. Burnard, Lou; Aston, Guy (1998). The BNC handbook: exploring the British National Corpus. Edinburgh: Edinburgh University Press. էջ xiii. ISBN 0-7486-1055-3.
  2. 2,0 2,1 Leech, Geoffrey; Garside, Roger; Bryant, Michael (1994). «Corpus-based research into language: in honour of Jan Aarts». In N. Oostdjik & P. Haan (ed.). The large-scale grammatical tagging of text: Experience with the British National Corpus. Netherlands: Rodopi Publishers. էջեր 47–63.
  3. 3,0 3,1 What is the BNC?. Retrieved 12 March 2012.
  4. 4,0 4,1 4,2 4,3 Leech, Geoffrey (1993). «100 million words of English». English Today. 9 (1): 9–15. doi:10.1017/S0266078400006854.
  5. 5,0 5,1 British National Corpus. Retrieved 12 March 2012.
  6. 6,0 6,1 6,2 6,3 6,4 Burnard, Lou (2002). «Where did we go wrong? A retrospective look at the British National Corpus» (PDF). Արխիվացված է օրիգինալից (PDF) 2016 թ․ մարտի 4-ին. Վերցված է 2012 թ․ մարտի 14-ին.
  7. «BNC Products». Վերցված է 2012 թ․ մարտի 18-ին.
  8. Burnard, Lou (2003). «Reference Guide for BNC-baby». Վերցված է 2012 թ․ մարտի 18-ին.
  9. «New edition of BNC Baby available». Վերցված է 2012 թ․ մարտի 19-ին.
  10. «BNC Sampler: XML edition» (PDF). 2008. Վերցված է 2012 թ․ մարտի 18-ին.
  11. Leech, Geoffrey; Garside, Roger; Bryant, Michael (1994). «Claws4: The Tagging Of The British National Corpus». Paper given at COLING'94, Lancaster: UK. CiteSeerX 10.1.1.13.3622. {{cite journal}}: Cite journal requires |journal= (օգնություն)
  12. Leech, Geoffrey; Smith, Nicholas (2000). «The British National Corpus (Version 2) with Improved Word-class Tagging». UCREL, Lancaster University, UK. Վերցված է 2012 թ․ մարտի 17-ին.
  13. Leech, Geoffrey; Smith, Nicholas (2000). «Automatic POS-Tagging of the Corpus». UCREL, Lancaster University, UK. Վերցված է 2012 թ․ մարտի 17-ին.
  14. Burnard, Lou (1995). «Users Reference Guide for the British National Corpus» (PDF). Վերցված է 2012 թ․ մարտի 18-ին.
  15. «Obtaining a license for the CLAWS tagger». UCREL, Lancaster University, UK. Վերցված է 2012 թ․ մարտի 17-ին.
  16. «The CLAWS tagging service». UCREL, Lancaster University, UK. Վերցված է 2012 թ․ մարտի 17-ին.
  17. «How to order». Վերցված է 2012 թ․ մարտի 17-ին.
  18. Hoffmann, Sebastian; Evert, Stefan (2008). Corpus linguistics with BNCweb: a practical guide. Peter Lang. ISBN 978-3-631-56315-1.
  19. 19,0 19,1 Lee, David (2001). «GENRES, REGISTERS, TEXT TYPES, DOMAINS, AND STYLES» (PDF). 5 (3): 37–72. Վերցված է 2012 թ․ մարտի 15-ին. {{cite journal}}: Cite journal requires |journal= (օգնություն)
  20. 20,0 20,1 Lee, David (2002). «NOTES TO ACCOMPANY THE BNC WORLD EDITION (BIBLIOGRAPHICAL) INDEX» (PDF). Արխիվացված է օրիգինալից (PDF) 2013 թ․ սեպտեմբերի 23-ին. Վերցված է 2012 թ․ մարտի 17-ին.
  21. 21,0 21,1 21,2 21,3 21,4 21,5 21,6 21,7 21,8 Aston, Guy (1998). «Learning English with the British National Corpus». Paper given at 6th Jornada de Corpus, Barcelona: UPF. Արխիվացված է օրիգինալից 2009 թ․ դեկտեմբերի 25-ին. Վերցված է 2012 թ․ մարտի 16-ին.
  22. Minn, Danny; Sano, Hiroshi; Ino, Marie; Nakamura, Takahiro (2005). «Using the BNC to create and develop educational materials and a website for learners of English» (PDF). ICAME Journal. 29: 99–113. Վերցված է 2012 թ․ մարտի 12-ին.
  23. «Bilingual dictionaries to promote India's mother tongues». Times of Oman. 2012 թ․ մարտի 14. Արխիվացված է օրիգինալից 2010 թ․ դեկտեմբերի 31-ին. Վերցված է 2012 թ․ մարտի 17-ին.
  24. «What can I do with the BNC?». Վերցված է 2012 թ․ մարտի 18-ին.
  25. Korhonen, Anna (2002). «EVALUATION RESOURCES for English Subcategorization Acquisition Systems». Արխիվացված է օրիգինալից 2012 թ․ դեկտեմբերի 13-ին. Վերցված է 2012 թ․ մարտի 18-ին.
  26. Hoffman, Sebastian; Lehmann, Hans Martin (2000). «Collocational Evidence from the British National Corpus». In Kirk, John M. (ed.). Corpora Galore: Analyses and Techniques in Describing English. Amsterdam: Rodopi. ISBN 9789042004191.
  27. Pearce, Michael (2008 թ․ նոյեմբեր). «Investigating the collocational behaviour of MAN and WOMAN in the BNC using Sketch Engine» (PDF). Corpora. 3 (1): 1–29. doi:10.3366/E174950320800004X. Արխիվացված է օրիգինալից (PDF) 2015 թ․ հունիսի 27-ին.
  28. Fernandez, Raquel; Jonathan Ginzburg (2002 թ․ հունիսի 29). «Non-sentential utterances: A corpus study» (PDF). Արխիվացված է օրիգինալից (PDF) 2015 թ․ հունիսի 27-ին. {{cite journal}}: Cite journal requires |journal= (օգնություն)
  29. 29,0 29,1 Lee, David; John Swales (2006). «A corpus-based EAP course for NNS doctoral students: Moving from available specialized corpora to self-compiled corpora». English for Specific Purposes. 25 (1): 56–75. doi:10.1016/j.esp.2005.02.010.
  30. 30,0 30,1 Minnen, Guido; Carroll, John; Pearce, Darren (2001). «Applied Morphological Processing of English» (PDF). Natural Language Engineering. 7 (3): 207–223. doi:10.1017/s1351324901002728.
  31. Čermák, František (2003). «Today's Corpus Linguistics: Some Open Questions». International Journal of Corpus Linguistics. 7 (2): 265–282. doi:10.1075/ijcl.7.2.06cer.
  32. «British National Corpus 2014».
  33. ESRC Centre for Corpus Approaches to Social Science (CASS) (2014 թ․ հուլիսի 28). «Spoken BNC2014 project announcement». Վերցված է 2016 թ․ հոկտեմբերի 7-ին.
  34. "Centre for Corpus Approaches to Social Science". Retrieved 17 March 2015.
  35. «John Benjamins Publishing».
  36. «British National Corpus 2014».

Արտաքին հղումներ խմբագրել