Կորպուսային լեզվաբանություն

Կորպուսային լեզվաբանությունը տեքստային կորպուսի միջոցով բնական լեզվի ուսումնասիրությունն է։ Համաձայն կորպուսային լեզվաբանության՝ հուսալի ուսումնասիրությունն առավել իրագործելի է բնական համատեքստում հավաքագրված կորպուսների միջոցով՝ արտաքին նվազագույն միջամտությամբ։

Տեքստային կորպուսի մեթոդը ներառում է մի շարք վերացական կանոններ, որոնք այդ լեզվի տեքստերի միջոցով ներկայացնում են բնական լեզուն։ Այս մեթոդն ուսումնասիրում է, թե ինչպես է տվյալ լեզուն հարաբերվում այլ լեզուների հետ։ Ելակետային տեքստերից կորպուսի ձևավորումը սկզբնական շրջանոմ կատարվել է ձեռքով, իսկ այժմ գործընթացն ավտոմատացված է։

Կորպուսները միմիայն լեզվաբանական ուսումնաիրությունների նպատակով չեն կիրառվել, այլև բառարանագրության (առաջինը՝ «The American Heritage Dictionary of the English Language», 1969 թվական), ինչպես քերականության ուղեցույցներ կազմելու նպատակով, ինչպես օրինակ՝ «A Comprehensive Grammar of the English Language»՝ հրատարակված 1985 թվականին։

Ոլորտի մասնագետները տարբեր դիրքորոշումներ ունեն կորպուսի ծանոթագրության առնչությամբ։ Տեսակետները տարբերվում են. Ջոն ՄըքՀարդի Սինքլեիրը նախապատվությունը տալիս է նվազագույն ծանոթագրության գաղափարին՝ թողնելով[1], որ տեքստերը ներկայացնեն իրենք իրենց, մինչդեռ «Survey of English Usage» խումբը (Լոնդոնի համալսարանական քոլեջ) առավել կարևորում է ծանոթագրության նշանակությունը՝ համարելով, որ այն ճշգրիտ գրառման միջոցով ապահովում է լեզվաբանական ավելի մեծ ըմբռնում[2]։

Պատմություն խմբագրել

Քերականության նկարագրության որոշ նախնական փորձեր մասամբ հիմնված էին որոշակի կրոնական կամ մշակութային նշանակության կորպուսների վրա։ Օրինակ՝ պրատիշախյայի գրականությունը նկարագրում էր սանսկրիտի հնչյունային օրինաչափությունները , ինչպես որ Վեդասում, իսկ Պանինիի դասական սանսկրիտի քերականությունը գրեթե մասամբ հիմնված էր միևնույն կորպուսի վերլուծության վրա։ Նմանապես վաղ արաբ քերականագետները հատուկ ուշադրություն էին դարձնում Ղուրանի լեզվի վրա։ Արևմտյան եվրոպական ավանդույթի հետևորդ գիտնականները բառացանկ կազմեցին՝ հնարավոր դարձնելով Աստվածաշնչի և այլ նմանաբնույթ տեքստերի լեզվի մանրակրկիտ ուսումնասիրությունը։

Անգլերենի կորպուսներ խմբագրել

Ժամանակակից կորպուսային լեզվաբանության մեջ կարևոր դեր խաղաց 1967 թվականին «Ժամանակակից ամերիկյան անգլերենի համակարգչային ուսումնասիրություն» վերնագրով աշխատության հրատարակումը։ Հեղինակներն էին Հենրի Կուչերան ու Նելսոն Ֆրենսիսը։ Աշխատությունը հիմված էր Բրաունյան Կորպուսի ուսումնասիրության վրա։ Այն տարբեր աղբյուրներից ընտրված շուրջ մեկ միլիոն ժամանակակից ամերիկյան անգլերեն բառերի հավաքածու էր[3]։ Կուչերան և Ֆրենսիսը տարաբնույթ և մանրամասն վերլուծության ենթարկեցին Բրաունյան կորպուսը և այնուհետև մեկտեղեցին լեզվաբանության, լեզվի ուսուցման, հոգեբանության, վիճակագրության ու հասարակագիտության հիմնական մոտեցումները, որպեսզի ստեղծեն հարուստ և համապարփակ աշխատություն[4]։ Հաջորդը Ռանդոլֆ Քվիրկի «Անգլերենի կիրառման նկարագրություն» նշանակալի աշխատությունն էր՝ հրատարակված 1960 թվականին և հիմնված անգլերենի կիրառական կողմի հետազոտության վրա։

Դրանից անմիջապես հետո Բոսթոնի հրատարակիչ Հոութըն-Միֆֆլին դիմում է Կուչերային, որպեսզի վերջինս մեկ միլիոն բառանյութով, եռատող մեջբերմամբ համակարգ ստեղծի իր նոր Բառարանի համար՝ «American Heritage Dictionary»: Սա առաջին բառարանն էր՝ կազմված կորպուսային լեզվաբանության հիման վրա։ Առաջին անգամ նորարարական քայլ ձեռնարկվեց՝ համատեղելով երկու մոտեցում՝ թե ինչպես պետք է լեզուն կիրառվի ու թե այն իրականում ինչպես է կիրառվում։

Մյուս հրատարակիչները ևս հետևեցին այդ օրինակին։ Բրիտանական «Collins» հրատարակչատան «COBUILD monolingual learner's dictionary» բառարանը, նախատեսված անգլերենը՝ որպես օտար լեզու սովորողների համար, ստեղծվեց «Bank of English» կորպուսի կիրառմամբ։ «Survey of English Usage» կորպուսը դրվեց կորպուսի վրա հիմնված քերականության մշակման հիմքում, որը գրվել է Քվիրկի և այլոց կողմից ու հրատարակվել է 1985 թվականին՝ «A Comprehensive Grammar of the English Language»[5]։

Բրաունյան Կորպուսի հիման վրա ստեղծվել են նմանատիպ կառուցվածք ունեցող մի շարք այլ կորպուսներ՝ «LOB» կորպուսը (1960-ականներ, բրիտանական անգլերեն), «Kolhapur»(հնդկական անգլերեն), «Wellington» (Նորզելանդական անգլերեն), «Australian Corpus of English» (Ավստրալիական անգլերեն), «Frown Corpus» (վաղ 1990-ականներ, ամերիկյան անգլերեն) և «FLOB Corpus» (1990-ականներ, բրիտանական անգլերեն)։ Այլ կորպուսներ ներկայանում են տարբեր լեզուներով, տարատեսակներով ու ոճերով, այդ թվում՝ Անգլերենի Միջազգային Կորպուսը, Բրիտանական Ազգային Կորպուսը, որը մի շարք բանավոր ու գրավոր տեքստերից բաղկացած 100 միլիոնանոց բառերի հավաքածու է՝ ստեղծված 1990-ականներին հրատարակիչների, համալսարանների (Օքսֆորդ և Լանքասթեր) ու Բրիտանական Ազգային Կորպուսի համահեղինակությամբ։ Ամերիկյան Ազգային Կորպուսում աշխատանքը դադարեցվել է ժամանակակից ամերիկյան անգլերենի համար, ու այժմ Ժամանակակից Ամերիկյան Անգլերենի Կորպուսում (1990–մինչ օրերս) 400 միլիոնից ավելի բառ է հասանելի վեբ ինթերֆեյսի միջոցով։

Բանավոր խոսքի առաջին համակարգչային կորպուսը ստեղծվել է 1971 թվականին «Montreal French» նախագծի կողմից[6]։ Այն կազմված է մեկ միլիոն բառից, և այն ոգեշնչեց Շանա Պոպլակին՝ Օտտավա-Հալի շրջանում ստեղծելու խոսակցական ֆրասներենի ավելի մեծ կորպուս[7]։

Բազմալեզվյան կորպուսներ խմբագրել

1990-ականներին բնական լեզվով ծրագրավորման մեջ կիրառելի վիճակագրական մեթոդների վաղ, նշանակալի հաջողություններից շատերը գրանցվել են մեքենայական թարգմանության ոլորտում, մասնավորապես «IBM Research»-ի աշխատանքների շնորհիվ։ Այս համակարգերը կարող էին օգտվել գոյություն ունեցող բազմալեզվյան տեքստային կորպուսներից, որոնք ստեղծվել էին Կանադայի խորհրդարանի ու Եվրամիության կողմից այն օրենքների արդյունքում, որոնք կոչ էին անում թարգմանել բոլոր կառավարական վարույթները կառավարության համապատասխան համակարգերի պաշտոնական բոլոր լեզուներով։

Հին լեզուների կորպուսներ խմբագրել

Բացի կենդանի լեզուների կորպուսներից՝ համակարգչային կորպուսներ են նաև ստեղծվել հին լեզուներով տեքստերի հավաքագրմամբ։ Որպես օրինակ եբրայերեն Աստվածաշնչի շտեմարանն է՝ կազմված Անդերսեն-Ֆորբսի կողմից՝ 1970-ականներից ի վեր, որում յուրաքանչյուր բաղադրիչ նախադասություն վերլուծվում է՝ օգտագործելով մինչև յոթ շարահյուսական մակարդակների հասնող գծագրեր, ու յուրաքանչյուր հատված պիտակավորված է յոթ տեսակի տեղեկույթով[8][9]։ Արաբերեն Ղուրանի կորպուսը դասական արաբերենով պիտակավորված կորպուս է։ Սա վերջին նախագիծն է պիտակավորման բազմաթիվ շերտերով՝ ներառյալ ձևաբանական հատույթավորումը, խոսքիմասային պիտակավորումը և շարահյուսական վերլուծությունը՝ կախումների ծառի տեսքով[10]։

Մասնագիտական կորպուսներ խմբագրել

Բացի լոկ լեզվաբանական ուսումնասիրությունից` հետազոտողները սկսել էին կիրառել կորպուսային լեզվաբանությունը այլ ակադեմիական ու մասնագիտական ոլորտներում, արդյունքում ձևավորվում են միջգիտակարգային կապեր, օրինակ՝ օրենք ու կորպուսային լեզվաբանություն, որի նպատակն է հասկանալ իրավական տեքստերը՝ կիրառելով կորպուսային տվյալներն ու գործիքները։

Մեթոդներ խմբագրել

Կորպուսային լեզվաբանությունը սկիզբ է դրել ուսումնասիրության մի շարք մեթոդների՝ ապահովելով տեսության և տվյալների կապը։ Վոլիսն ու Նելսոնը (2001)[11] առաջինն էին, որ ներկայացրին 3Ա-ի մոտեցումը՝ աննոտացիա (պիտակավորում, ծանոթագրություն), աբստրակցիա (ընդհանրացում, վերացարկում) ու անալիզ (վերլուծություն

  • Պիտակավորումը սխեմայի կիրառումն է տեքստի նկատմամբ։ Պիտակները կարող են ընդգրկել կառուցվածքային նշում, խոսքիմասային պիտակավորում, շարահյուսական վերլուծություն և բազմաթիվ այլ նկարագրական տվյալներ։
  • Ընդհանրացումը սխեմայի եզրույթների թարգմանությունն է (քարտեզագրում) և տեսականորեն հիմնավորված կաղապարի կամ տվյալների շարքի թարգմանությունը։
  • Վերլուծությունը ներառում է տվյալների շտեմարանի հիման վրա վիճակագրական ուսումնասիրություն, խոսողի և լսողի նպատակադրում և ընդհանրացում։ Այն կարող է ընդգրկել վիճակագրական գնահատում, կանոնի վրա հիմնված կամ գիտելիքի բացահայտման մեթոդների օպտիմալացում։

Այսօր շատ բառագիտական կորպուսներ խոսքիմասային պիտակավորման տեսակին են պատկանում։ Այնուամենայնիվ, նույնիսկ կորպուսային լեզվաբանները, որոնք աշխատում են չպիտակավորված, պարզունակ տեքստերի հետ, անխուսափելիորեն կիրառում են որևէ մեթոդ՝ առանձնացնելու կարևոր եզրույթները։ Այսպիսի դեպքերում պիտակավորումն ու վերացարկումը մեկտեղվում են բառային որոնման մեջ։

Պիտակավորված կորպուսի առավելությունն այն է, որ օգտվողները կարող են տարբեր հետազոտություններ իրականացնել կորպուսի միջոցով։ Անկախ կորպուսի ստեղծողների լեզվաբանական հայացքներից՝ տարբերվող հետաքրքրություններ ու տեսակետներ ունեցող բոլոր լեզվաբանները կարող են կիրառել կորպուսը։ Տվյալների փոխանակման միջոցով կորպուսային լեզվաբանները կարող են դարձնել կորպուսը լեզվաբանական քննարկումների ու ուսումնասիրությունների առարկա[12]։

Տես նաև խմբագրել

Ծանոթագրություն խմբագրել

  1. Sinclair, J. 'The automatic analysis of corpora', in Svartvik, J. (ed.) Directions in Corpus Linguistics (Proceedings of Nobel Symposium 82). Berlin: Mouton de Gruyter. 1992.
  2. Wallis, S. 'Annotation, Retrieval and Experimentation', in Meurman-Solin, A. & Nurmi, A.A. (ed.) Annotating Variation and Change. Helsinki: Varieng, [University of Helsinki]. 2007. e-Published
  3. Francis, W. Nelson; Kučera, Henry (1967 թ․ հունիսի 1). Computational Analysis of Present-Day American English. Providence: Brown University Press. ISBN 978-0870571053.
  4. Quirk, Randolph (November 1960). «Towards a description of English Usage». Transactions of the Philological Society. 59 (1): 40–61.
  5. Quirk, Randolph; Greenbaum, Sidney; Leech, Geoffrey; Svartvik, Jan (1985). A Comprehensive Grammar of the English Language. London: Longman. ISBN 978-0582517349.
  6. Sankoff, David; Sankoff, Gillian (1973). Darnell, R. (ed.). «Sample survey methods and computer-assisted analysis in the study of grammatical variation». Canadian Languages in their Social Context. Edmonton: Linguistic Research Incorporated: 7–63.
  7. Poplack, Shana (1989). Fasold, R.; Schiffrin, D. (eds.). «The care and handling of a mega-corpus». Language Change and Variation. Amsterdam: Benjamins: 411–451.
  8. Andersen, Francis I.; Forbes, A. Dean (2003), «Hebrew Grammar Visualized: I. Syntax», Ancient Near Eastern Studies, vol. 40, էջեր 43–61 [45]
  9. Eyland, E. Ann (1987), «Revelations from Word Counts», in Newing, Edward G.; Conrad, Edgar W. (eds.), Perspectives on Language and Text: Essays and Poems in Honor of Francis I. Andersen's Sixtieth Birthday, July 28, 1985, Winona Lake, IN: Eisenbrauns, էջ 51, ISBN 0-931464-26-9
  10. Dukes, K., Atwell, E. and Habash, N. 'Supervised Collaboration for Syntactic Annotation of Quranic Arabic'. Language Resources and Evaluation Journal. 2011.
  11. Wallis, S. and Nelson G. Knowledge discovery in grammatically analysed corpora. Data Mining and Knowledge Discovery, 5: 307–340. 2001.
  12. Baker, Paul; Egbert, Jesse, eds. (2016). Triangulating Methodological Approaches in Corpus-Linguistic Research. New York: Routledge.

Հետագա ընթերցանություն խմբագրել

Գրքեր խմբագրել

  • Biber, D., Conrad, S., Reppen R. Corpus Linguistics, Investigating Language Structure and Use, Cambridge: Cambridge UP, 1998. 0-521-49957-7
  • McCarthy, D., and Sampson G. Corpus Linguistics: Readings in a Widening Discipline, Continuum, 2005. 0-8264-8803-X
  • Facchinetti, R. Theoretical Description and Practical Applications of Linguistic Corpora. Verona: QuiEdit, 2007 978-88-89480-37-3
  • Facchinetti, R. (ed.) Corpus Linguistics 25 Years on. New York/Amsterdam: Rodopi, 2007 978-90-420-2195-2
  • Facchinetti, R. and Rissanen M. (eds.) Corpus-based Studies of Diachronic English. Bern: Peter Lang, 2006 3-03910-851-4
  • Lenders, W. Computational lexicography and corpus linguistics until ca. 1970/1980, in: Gouws, R. H., Heid, U., Schweickard, W., Wiegand, H. E. (eds.) Dictionaries - An International Encyclopedia of Lexicography. Supplementary Volume: Recent Developments with Focus on Electronic and Computational Lexicography. Berlin: De Gruyter Mouton, 2013 978-3112146651
  • Fuß, Eric et al. (Eds.): Grammar and Corpora 2016, Heidelberg: Heidelberg University Publishing, 2018. doi:10.17885/heiup.361.509 (digital open access).
  • Stefanowitsch A. 2020. Corpus linguistics: A guide to the methodology. Berlin: Language Science Press. 978-3-96110-225-9, doi:10.5281/zenodo.3735822 Open Access https://langsci-press.org/catalog/book/148.

Գրքաշարեր խմբագրել

Այս ոլորտի գրքաշարերը ներառում են.

Ամսագրեր խմբագրել

Կան կորպուսային լեզվաբանությանը նվիրված մի շարք միջազգային գրախոսվող ամսագրեր, ինչպիսիք են՝

Արտաքին հղումներ խմբագրել