Բրաունյան Կորպուս

Բրաուն համալսարանին կից ժամանակակից ամերիկյան անգլերենի ստանդարտ կորպուս (կամ պարզապես Բրաունյան Կորպուս), ամերիկյան անգլերենով տեքստերի էլեկտրոնային հավաքածու, առաջին խոշորագույն կորպուսը։ Այս կորպուսը սկզբնական շրջանում ուսումնասիրում էր առօրյա լեզվում բառային կարգերի հաճախականությունն ու բաշխումը։ Այն կազմվել է Ռոդ Այլենդի Բրաուն համալսարանում Հենրի Կուչերայի ու Նելսոն Ֆրենսիսի կողմից։ Այն ընդհանուր լեզվի կորպուս է՝ բաղկացած ԱՄՆ-ում 1961 թվականին հրատարակված անգլերեն 500 տեքստերից՝ մոտ մեկ միլիոն ընդհանուր բառածավալով։

Պատմություն

1967 թվականին Կուչերան և Ֆրենսիսը հրատարակեցին իրենց առաջին աշխատությունը՝ «Computational Analysis of Present-Day American English»-ը, որում ներկայացված է Բրաունյան Կորպուսի հիմնական վիճակագրությունը^[1]։

Բրաունյան կորպուսը համաժամանակյա ամերիկյան անգլերենով կազմված տեքստերի հավաքածու էր, որում տեղ էին գտել բազմաթիվ աղբյուրներից հավաքագրված մոտ մեկ միլիոն բառ։ Կուչերան և Ֆրենսիսը կորպուսը ենթարկել են թազմաթիվ հաշվարկային վերլուծությունների, որոնց հիման վրա կազմվել են հարուստ ու համապարփակ աշխատություններ, որոնցում մեկտեղվել են տարրեր լեզվաբանությունից, հոգեբանությունից, վիճակագրությունից և հասարակագիտությունից։ Այս կորպուսը լայնորեն տարածված է համակարգչային (հաշվողական) լեզվաբանության մեջ և այդ ոլորտում ամենահաճախ մեջբերվող աղբույրներից է համարվում^[2]։

Առաջին բառավիճակագրական վերլուծության հրատարակումից անմիջապես հետո Բոստոնի հրատարակիչ Հոութըն-Միֆֆլին դիմում է Կուչերային, որպեսզի վերջինս մեկ միլիոն բառանյութով, եռատող մեջբերմամբ համակարգ ստեղծի իր նոր բառարանի համար՝«American Heritage Dictionary»: Այս նորաստեղծ, 1969 թվականին ի հայտ եկած բառարանն առաջինն էր՝ կորպուսային լեզվաբանության հիմքի վրա՝ ստեղծված բառի հաճախականության ու այլ հատկանիշների վերաբերյալ տեղեկություն տրամադրելու նպատակով։

Սկզբնական շրջանում Բրաունյան կորպուսը միմիայն բառերից էր բաղկացած, որոնցից յուրաքանչյուրին կցված էր համատեքստային օրինակ։ Հետագա մի քանի տարիների ընթացքում ավելացվել են խոսքիմասային պիտակներ։ Գրինի ու Ռուբինի պիտակավորման ծրագրերը (տե՛ս խոսքիմասային պիտակավորում) զգալիորեն նպաստեցին պիտակների ստեղծմանը, սակայն մեծաքանակ սխալների հաճախականությունը հանգեցրեց սրբագրման ավանդական ձեռքով տարբերակին։

Պիտակավորված Բրաունյան կորպուսը ներառում էր շուրջ 80 խոսքի մասերից բաղկացած հավաքածու, ինչպես նաև հատուկ պիտակներ բաղադրյալ, կրճատված, օտար բառերի և մի քանի այլ երևույթների համար և օրինակ էր ծառայում այլ, ավելի ուշ ստեղծված կորպուսների համար, ինպիսիք են «Lancaster-Oslo-Bergen Corpus»-ը (1990-ականների սկիզբ, բրիտանական անգլերեն) ու «Freiburg-Brown Corpus of American English»-ը (1990-ականների սկիզբ, ամերիկյան անգլերեն)^[3]^[4]։ Կորպուսի պիտակավորումը մեծ հնարավորություն ընձեռեց ընդգրկուն վիճակագրական վերլուծության համար, ինչպես օրինակ՝ Անդրյու Մեքիի կողմից ծրագրավորված աշխատության ուղղությամբ, ինչը նաև կիրառված է անգլերենի քերականության գրքերում^[5]։

Հետաքրքրականն այն է, որ նույնիսկ բավականին մեծ նմուշների համար բառերի գծապատկերումը՝ կիրառման հաճախականության նվազման կարգով, հիպերբոլ է ներկայացնում. N-րդ ամենատարածված բառի հաճախականությունը մոտավորապես համաչափ է 1/N-րդին։ Այսպիսով, «the» հոդը կազմում է Բրաունյան կորպուսի գրեթե 7%-ը, «to»-ն և «of»-ը՝ ավելի քան 3%, մինչդեռ շուրջ 50,000 բառերի ընդհանուր բառացանկի մոտավորապես կեսը միայն մեկ անգամ են հանդիպում կորպուսում^[6]։ Այս պարզագույն դաս-հաճախականություն հարաբերությունը Ջորջ Քինգզլի Զիֆի կողմից է նշվել երևույթների արտասովոր բազմազանության պատճառով և հայտնի է որպես Զիֆի օրենք։

Թեպետ Բրաունյան կորպուսն առաջատար էր կորպուսային լեզվաբանության ոլորտում, այժմ նմանատիպ կորպուսները (օրինակ՝ «Corpus of Contemporary American English», «the British National Corpus» կամ «the International Corpus of English») ավելի ընդգրկուն են՝ 100 միլիոն բառածավալով։

Նմուշների բաշխում

Կորպուսը բաղկացած է 500 տեքստերից, որոնք բաշխված են 15 կարգերում՝ գրեթե համապատասխանելով 1961 թվականին հրատարակված կարգերին։ Նմուշառված աշխատանքները հրատարակվեցին 1961 թվականին (կարելի է ասել, որ դրանք առաջին անգամ էին հրատարակվում) և գրված էին ամերիկյան անգլերենի լեզվակիրների կողմից։

Յուրաքանչյուր տեքստ սկզբնականում նեկայացվում էր 2000 բառածավալով։ Շատ քիչ դեպքերում սխալ հաշվարկները հանգեցրել էին 2000-ից պակաս բառածավալով տեքստերի։

Նախնական տվյալների մուտքագրումը կատարվել է մեծատառով և տպագրական մեքենայի միջոցով, մեծատառերըշ նշվում էին դրանց նախորդող աստղանիշերով, և բազում այլ տարրեր, ինչպիսիք բանաձևերն են, նույնպես ունեին հատուկ ծածկագրեր։

Կորպուսն ի սկզբանե ընդգրկում էր 1 014 312 բառեր, որոնք նմուշագրված էին ըստ 15 տեքստային կարգերի՝

Ա. ՄԱՄՈՒԼ։ Հաղորդում (44 տեքստ)
- Քաղաքական
- Սպորտային
- Հասարակական
- Այժմյա նորություններ
- Ֆինանսական
- Մշակութային
Բ. ՄԱՄՈՒԼ։ Խմբագրական (27 տեքստ)
- Ինստիտուցիոնալ ամենօրյա լուրեր
- Անձնական
- Նամակներ խմբագրին
Գ. ՄԱՄՈՒԼ։ Դիտարկումներ (17 տեքստ)
- թատրոն
- գրքեր
- երաժշտություն
- պար
Դ. ԿՐՈՆ (17 տեքստ)
- Գրքեր
- Պարբերականներ
- Տրակտատներ
Ե. ՀՄՏՈւԹՅՈւՆ Ու ՆԱԽԱՍԻՐՈւԹՅՈւՆՆԵՐ (36 տեքստ)
- Գրքեր
- Պարբերականներ
Զ. ՀԱՅՏՆԻ ՈԼՈՐՏՆԵՐ (48 տեքստ)
- Գրքեր
- Պարբերականներ
է. ԳԵՂԱՐՎԵՍՏԱԿԱՆ ԱՐՁԱԿ ԳՐԱԿԱՆՈւԹՅՈւՆ՝ Կենսագրություն, Հուշագրություն և այլն (75 տեքստ)
- Գրքեր
- Պարբերականներ
Ը. ՏԱՐԲԵՐ։ ԱՄՆ-ի կառավարության ու Սպիտակ տան մարմիններ (30 տեքստ)
- Կառավարական Փաստաթղթեր
- Հիմնադրամի Զեկույցներ
- Արդյունաբերական Զեկույցներ
- Կրթական Պլան
- Արդյունաբերական մարմին
Թ. ԿՐԹՈւԹՅՈւՆ (80 տեքստ)
- Բնական Գիտություններ
- Բժշկություն
- Մաթեմատիկա
- Հասարակական Գիտություններ
- Քաղաքագիտություն, Իրավաբանություն, Կրթություն
- Հումանիտար Գիտություններ
- ՏՏ ոլորտ և Ճարտարագիտություն
Ժ. ԳԵՂԱՐՎԵՍՏԱԿԱՆ ԳՐԱԿԱՆՈւԹՅՈւՆ (29 տեքստ)
- Վեպեր
- Կարճ Պատմվածքներ
Ի. ԱՌԵՂԾՎԱԾԱՅԻՆ ու ԴԵՏԵԿՏԻՎ ԳՐԱԿԱՆՈւԹՅՈՒՆ (24 տեքստ)
- Վեպեր
- Կարճ Պատմվածքներ
Լ. ԳԵՂԱՐՎԵՍՏԱԿԱՆ ԳՐԱԿԱՆՈւԹՅՈւՆ։ Գիտություն (6 տեքստ)
- Վեպեր
- Կարճ Պատմվածքներ
Խ. ԱՐևՄՏՅԱՆ ԱՐԿԱԾԱՅԻՆ ԳՐԱԿԱՆՈւԹՅՈւՆ (29 տեքստ)
- Վեպեր
- Կարճ Պատմվածքներ
Ծ. ՍԻՐԱՎԵՊ և ՍԻՐԱՅԻՆ ՊԱՏՄՎԱԾՔՆԵՐ (29 տեքստ)
- Վեպեր
- Կարճ Պատմվածքներ
Կ. ԶՎԱՐՃԱԽՈՍՈՒԹՅՈՒՆ (9 տեքստ)
- Վեպեր
- Էսսեներ

Կիրառելի խոսքիմասային պիտակներ

Պիտակ	Սահմանում
.	նախադասություն (. ; ? *)
(	ձախակողմյան միջադաս նախադասություն
)	աջակողմյան միջադաս նախադասություն
*	not, n't
--	մեջտեղի գծեր
,	ստորակետ
:	վերջակետ
ABL	նախաորակիչ (quite, rather)
ABN	նախաքանակիչ (half, all)
ABX	նախաքանակիչ (both)
AP	հետորոշիչ (many, several, next)
AT	հոդ (a, the, no)
BE	be
BED	were
BEDZ	was
BEG	being
BEM	am
BEN	been
BER	are, art
BBB	is
CC	համադասական շաղկապներ (and, or)
CD	քանակական թվականներ (one, two, 2, etc.)
CS	ստորադասական շաղկապներ (if, although)
DO	do
DOD	did
DOZ	does
DT	եզակի թվով ցուցական դերանուններ (this, that)
DTI	եզակի կամ հոգնակի թվով անորոշ դերանուններ (some, any)
DTS	հոգնակի թվով ցուցական դերանուններ (these, those)
DTX	զուգադիր շաղկապներ (either)
EX	գոյութենականthere
FW	օտար բառ (գծանշված մինչև կանոնավոր նշում)
HL	Վերնագիր (գծանշված կանոնավոր նշումից հետո)
HV	have
HVD	had անցյալ կատարյալ
HVG	having
HVN	had դերբայական ձև
HVZ	has
IN	նախդիր
JJ	ածական
JJR	բաղդատական աստիճանի ածական
JJS	իմաստաբանորեն գերադրական աստիճանի ածականներ (chief, top)
JJT	ձևաբանորեն գերադրական աստիճանի ածականներ (biggest)
MD	մոդալ բայեր (can, should, will)
NC	մեջբերվող բառ (գծանշված կանոնավոր նշումից հետո)
NN	եզակի թվով կամ հավաքական գոյական
NN$	ստացական հոլովով ու եզակի թվով գոյական
NNS	հոգնակի թվով գոյական
NNS$	ստացական հոլովով ու հոգնակի թվով գոյական
NP	հատուկ անուն կամ անուն պարունակող բառակապացության մաս
NP$	ստացական հոլովով հատուկ գոյական
NPS	հոգնակի թվով հատուկ գոյական
NPS$	հոգնակի թվով հատուկ անուն
NR	մակբայաձև գոյական (home, today, west)
NRS	հոգնակի թվով մակբայաձև գոյական
OD	դասական թվական (first, 2nd)
PN	անվանական դերանուն (everybody, nothing)
PN$	անվանական դերանունները ստացական հոլովով
PP$	անձնական դերանուններ ստացական հոլովով (my, our)
PP$$	երկրորդ (անվանական) դերանունները ստացական հոլովով (mine, ours)
PPL	Անդրադարձ անձնական դերանունները եզակի թվով (myself)
PPLS	Անդրադարձ անձնական դերանունները հոգնակի թվով (ourselves)
PPO	անձնական դերանուն տրական հոլովով (me, him, it, them)
PPS	3-րդ եզակի անվանական դերանուն (he, she, it, one)
PPSS	այլ անվանական անձնական դերանուններ (I, we, they, you)
QL	որակիչ (very, fairly)
QLP	նախաորակիչ (enough, indeed)
RB	մակբայ
RBR	համեմատական աստիճանի մակբայ
RBT	գերադրական աստիճանի մակբայ
RN	անվանական մակբայ (here, then, indoors)
RP	մակբայ/մասնիկ (about, off, up)
TL	Վերնագիր (գծանշված կանոնավոր նշումից հետո)
TO	ինֆինիտիվի նշիչ
UH	կոչական, ձայնարկություն
VB	բայահիմք
VBD	բայի անցյալ ժամանակ
VBG	բայի ներկա ժամանակ,գերունդ
VBN	բայի դերբայական ձև
VBP	ներկա ժամանակի, եզակի թվի, ոչ 3-րդ դեմքի բայ
VBZ	ներկա ժամանակի, եզակի թվի, 3-րդ դեմքի բայ
WDT	wh-որոշյալ (what, which)
WP$	wh-ստացական դերանվան ստացական հոլով
WPO	wh-դերանվան տրական հոլով
WPS	wh-դերանվան անվանական հոլով (who, which, that)
WQL	wh-որակիչ
WRB	wh-մակբայ (how, where, when)

Նշենք, որ պիտակավորված Բրաունյան կորպուսի որոշ տարբերակներ պարունակում են համակցված պիտակներ։ Օրինակ՝ «wanna» բառը պիտակավորված է որպես VB+TO, քանի որ այն երկու բառերի կաղապարված ձևն է, want/VB և to/TO: Որոշակի պիտակներ կարող են ժխտվել, օրինակ՝ «aren’t»-ը կպիտակավորվի որպես «BER*», որը ժխտման նշանակություն ունի։ Ավելին՝ պիտակները կարող են գծեր պարունակել՝ –HL պիտակը գծանշվում է խորագրերում առկա բառերի պիտակներին։ -TL պիտակը գծանշվում է վերնագրերում առկա բառերի պիտակներին։ -NC գծանիշը նշանակում է շեշտավորված բառ։ Երբեմն պիտակը պարունակում է FW- նախածանց, որը նշանակում է օտար բառ։

Տես նաև

Բրիտանական Ազգային Կորպուս

Ծանոթագրություններ

↑ Francis, W. Nelson & Henry Kucera. 1967. Computational Analysis of Present-Day American English. Providence, RI: Brown University Press.
↑ Francis, W. Nelson & Henry Kucera. 1979. BROWN CORPUS MANUAL: Manual of Information to Accompany a Standard Corpus of Present-Day Edited American English for Use with Digital Computers. http://icame.uib.no/brown/bcm.html.
↑ Hundt, Marianne, Andrea Sand & Rainer Siemund. 1998. Manual of Information to Accompany the Freiburg-Brown Corpus of American English (FROWN). http://khnt.hit.uib.no/icame/manuals/frown/INDEX.HTM Արխիվացված 2014-04-03 Wayback Machine
↑ Leech, Geoffrey & Nicholas Smith. 2005. Extending the possibilities of corpus-based research on English in the twentieth century: A prequel to LOB and FLOB. ICAME Journal 29. 83–98.
↑ Winthrop Nelson Francis and Henry Kučera. 1983. Frequency Analysis of English Usage: Lexicon and Grammar, Houghton Mifflin.
↑ Kirsten Malmkjær, The Linguistics Encyclopedia, 2nd ed, Routledge, 2002, 0-415-22210-9, p. 87.

Արտաքին հղումներ

[1] Francis, W. Nelson & Henry Kucera. 1967. Computational Analysis of Present-Day American English. Providence, RI: Brown University Press.

[2] Francis, W. Nelson & Henry Kucera. 1979. BROWN CORPUS MANUAL: Manual of Information to Accompany a Standard Corpus of Present-Day Edited American English for Use with Digital Computers. http://icame.uib.no/brown/bcm.html.

[3] Hundt, Marianne, Andrea Sand & Rainer Siemund. 1998. Manual of Information to Accompany the Freiburg-Brown Corpus of American English (FROWN). http://khnt.hit.uib.no/icame/manuals/frown/INDEX.HTM Արխիվացված 2014-04-03 Wayback Machine

[4] Leech, Geoffrey & Nicholas Smith. 2005. Extending the possibilities of corpus-based research on English in the twentieth century: A prequel to LOB and FLOB. ICAME Journal 29. 83–98.

[5] Winthrop Nelson Francis and Henry Kučera. 1983. Frequency Analysis of English Usage: Lexicon and Grammar, Houghton Mifflin.

[6] Kirsten Malmkjær, The Linguistics Encyclopedia, 2nd ed, Routledge, 2002, 0-415-22210-9, p. 87.

[1]

[2]

[3]

[4]

[5]

[6]