Բրաուն համալսարանին կից ժամանակակից ամերիկյան անգլերենի ստանդարտ կորպուս (կամ պարզապես Բրաունյան Կորպուս), ամերիկյան անգլերենով տեքստերի էլեկտրոնային հավաքածու, առաջին խոշորագույն կորպուսը։ Այս կորպուսը սկզբնական շրջանում ուսումնասիրում էր առօրյա լեզվում բառային կարգերի հաճախականությունն ու բաշխումը։ Այն կազմվել է Ռոդ Այլենդի Բրաուն համալսարանում Հենրի Կուչերայի ու Նելսոն Ֆրենսիսի կողմից։ Այն ընդհանուր լեզվի կորպուս է՝ բաղկացած ԱՄՆ-ում 1961 թվականին հրատարակված անգլերեն 500 տեքստերից՝ մոտ մեկ միլիոն ընդհանուր բառածավալով։

Պատմություն խմբագրել

1967 թվականին Կուչերան և Ֆրենսիսը հրատարակեցին իրենց առաջին աշխատությունը՝ «Computational Analysis of Present-Day American English»-ը, որում ներկայացված է Բրաունյան Կորպուսի հիմնական վիճակագրությունը[1]։

Բրաունյան կորպուսը համաժամանակյա ամերիկյան անգլերենով կազմված տեքստերի հավաքածու էր, որում տեղ էին գտել բազմաթիվ աղբյուրներից հավաքագրված մոտ մեկ միլիոն բառ։ Կուչերան և Ֆրենսիսը կորպուսը ենթարկել են թազմաթիվ հաշվարկային վերլուծությունների, որոնց հիման վրա կազմվել են հարուստ ու համապարփակ աշխատություններ, որոնցում մեկտեղվել են տարրեր լեզվաբանությունից, հոգեբանությունից, վիճակագրությունից և հասարակագիտությունից։ Այս կորպուսը լայնորեն տարածված է համակարգչային (հաշվողական) լեզվաբանության մեջ և այդ ոլորտում ամենահաճախ մեջբերվող աղբույրներից է համարվում[2]։

Առաջին բառավիճակագրական վերլուծության հրատարակումից անմիջապես հետո Բոստոնի հրատարակիչ Հոութըն-Միֆֆլին դիմում է Կուչերային, որպեսզի վերջինս մեկ միլիոն բառանյութով, եռատող մեջբերմամբ համակարգ ստեղծի իր նոր բառարանի համար՝«American Heritage Dictionary»: Այս նորաստեղծ, 1969 թվականին ի հայտ եկած բառարանն առաջինն էր՝ կորպուսային լեզվաբանության հիմքի վրա՝ ստեղծված բառի հաճախականության ու այլ հատկանիշների վերաբերյալ տեղեկություն տրամադրելու նպատակով։

Սկզբնական շրջանում Բրաունյան կորպուսը միմիայն բառերից էր բաղկացած, որոնցից յուրաքանչյուրին կցված էր համատեքստային օրինակ։ Հետագա մի քանի տարիների ընթացքում ավելացվել են խոսքիմասային պիտակներ։ Գրինի ու Ռուբինի պիտակավորման ծրագրերը (տե՛ս խոսքիմասային պիտակավորում) զգալիորեն նպաստեցին պիտակների ստեղծմանը, սակայն մեծաքանակ սխալների հաճախականությունը հանգեցրեց սրբագրման ավանդական ձեռքով տարբերակին։

Պիտակավորված Բրաունյան կորպուսը ներառում էր շուրջ 80 խոսքի մասերից բաղկացած հավաքածու, ինչպես նաև հատուկ պիտակներ բաղադրյալ, կրճատված, օտար բառերի և մի քանի այլ երևույթների համար և օրինակ էր ծառայում այլ, ավելի ուշ ստեղծված կորպուսների համար, ինպիսիք են «Lancaster-Oslo-Bergen Corpus»-ը (1990-ականների սկիզբ, բրիտանական անգլերեն) ու «Freiburg-Brown Corpus of American English»-ը (1990-ականների սկիզբ, ամերիկյան անգլերեն)[3][4]։ Կորպուսի պիտակավորումը մեծ հնարավորություն ընձեռեց ընդգրկուն վիճակագրական վերլուծության համար, ինչպես օրինակ՝ Անդրյու Մեքիի կողմից ծրագրավորված աշխատության ուղղությամբ, ինչը նաև կիրառված է անգլերենի քերականության գրքերում[5]։

Հետաքրքրականն այն է, որ նույնիսկ բավականին մեծ նմուշների համար բառերի գծապատկերումը՝ կիրառման հաճախականության նվազման կարգով, հիպերբոլ է ներկայացնում. N-րդ ամենատարածված բառի հաճախականությունը մոտավորապես համաչափ է 1/N-րդին։ Այսպիսով, «the» հոդը կազմում է Բրաունյան կորպուսի գրեթե 7%-ը, «to»-ն և «of»-ը՝ ավելի քան 3%, մինչդեռ շուրջ 50,000 բառերի ընդհանուր բառացանկի մոտավորապես կեսը միայն մեկ անգամ են հանդիպում կորպուսում[6]։ Այս պարզագույն դաս-հաճախականություն հարաբերությունը Ջորջ Քինգզլի Զիֆի կողմից է նշվել երևույթների արտասովոր բազմազանության պատճառով և հայտնի է որպես Զիֆի օրենք։

Թեպետ Բրաունյան կորպուսն առաջատար էր կորպուսային լեզվաբանության ոլորտում, այժմ նմանատիպ կորպուսները (օրինակ՝ «Corpus of Contemporary American English», «the British National Corpus» կամ «the International Corpus of English») ավելի ընդգրկուն են՝ 100 միլիոն բառածավալով։

Նմուշների բաշխում խմբագրել

Կորպուսը բաղկացած է 500 տեքստերից, որոնք բաշխված են 15 կարգերում՝ գրեթե համապատասխանելով 1961 թվականին հրատարակված կարգերին։ Նմուշառված աշխատանքները հրատարակվեցին 1961 թվականին (կարելի է ասել, որ դրանք առաջին անգամ էին հրատարակվում) և գրված էին ամերիկյան անգլերենի լեզվակիրների կողմից։

Յուրաքանչյուր տեքստ սկզբնականում նեկայացվում էր 2000 բառածավալով։ Շատ քիչ դեպքերում սխալ հաշվարկները հանգեցրել էին 2000-ից պակաս բառածավալով տեքստերի։

Նախնական տվյալների մուտքագրումը կատարվել է մեծատառով և տպագրական մեքենայի միջոցով, մեծատառերըշ նշվում էին դրանց նախորդող աստղանիշերով, և բազում այլ տարրեր, ինչպիսիք բանաձևերն են, նույնպես ունեին հատուկ ծածկագրեր։

Կորպուսն ի սկզբանե ընդգրկում էր 1 014 312 բառեր, որոնք նմուշագրված էին ըստ 15 տեքստային կարգերի՝

  • Ա. ՄԱՄՈՒԼ։ Հաղորդում (44 տեքստ)
    • Քաղաքական
    • Սպորտային
    • Հասարակական
    • Այժմյա նորություններ
    • Ֆինանսական
    • Մշակութային
  • Բ. ՄԱՄՈՒԼ։ Խմբագրական (27 տեքստ)
    • Ինստիտուցիոնալ ամենօրյա լուրեր
    • Անձնական
    • Նամակներ խմբագրին
  • Գ. ՄԱՄՈՒԼ։ Դիտարկումներ (17 տեքստ)
    • թատրոն
    • գրքեր
    • երաժշտություն
    • պար
  • Դ. ԿՐՈՆ (17 տեքստ)
    • Գրքեր
    • Պարբերականներ
    • Տրակտատներ
  • Ե. ՀՄՏՈւԹՅՈւՆ Ու ՆԱԽԱՍԻՐՈւԹՅՈւՆՆԵՐ (36 տեքստ)
    • Գրքեր
    • Պարբերականներ
  • Զ. ՀԱՅՏՆԻ ՈԼՈՐՏՆԵՐ (48 տեքստ)
    • Գրքեր
    • Պարբերականներ
  • է. ԳԵՂԱՐՎԵՍՏԱԿԱՆ ԱՐՁԱԿ ԳՐԱԿԱՆՈւԹՅՈւՆ՝ Կենսագրություն, Հուշագրություն և այլն (75 տեքստ)
    • Գրքեր
    • Պարբերականներ
  • Ը. ՏԱՐԲԵՐ։ ԱՄՆ-ի կառավարության ու Սպիտակ տան մարմիններ (30 տեքստ)
    • Կառավարական Փաստաթղթեր
    • Հիմնադրամի Զեկույցներ
    • Արդյունաբերական Զեկույցներ
    • Կրթական Պլան
    • Արդյունաբերական մարմին
  • Թ. ԿՐԹՈւԹՅՈւՆ (80 տեքստ)
    • Բնական Գիտություններ
    • Բժշկություն
    • Մաթեմատիկա
    • Հասարակական Գիտություններ
    • Քաղաքագիտություն, Իրավաբանություն, Կրթություն
    • Հումանիտար Գիտություններ
    • ՏՏ ոլորտ և Ճարտարագիտություն
  • Ժ. ԳԵՂԱՐՎԵՍՏԱԿԱՆ ԳՐԱԿԱՆՈւԹՅՈւՆ (29 տեքստ)
    • Վեպեր
    • Կարճ Պատմվածքներ
  • Ի. ԱՌԵՂԾՎԱԾԱՅԻՆ ու ԴԵՏԵԿՏԻՎ ԳՐԱԿԱՆՈւԹՅՈՒՆ (24 տեքստ)
    • Վեպեր
    • Կարճ Պատմվածքներ
  • Լ. ԳԵՂԱՐՎԵՍՏԱԿԱՆ ԳՐԱԿԱՆՈւԹՅՈւՆ։ Գիտություն (6 տեքստ)
    • Վեպեր
    • Կարճ Պատմվածքներ
  • Խ. ԱՐևՄՏՅԱՆ ԱՐԿԱԾԱՅԻՆ ԳՐԱԿԱՆՈւԹՅՈւՆ (29 տեքստ)
    • Վեպեր
    • Կարճ Պատմվածքներ
  • Ծ. ՍԻՐԱՎԵՊ և ՍԻՐԱՅԻՆ ՊԱՏՄՎԱԾՔՆԵՐ (29 տեքստ)
    • Վեպեր
    • Կարճ Պատմվածքներ
  • Կ. ԶՎԱՐՃԱԽՈՍՈՒԹՅՈՒՆ (9 տեքստ)
    • Վեպեր
    • Էսսեներ

Կիրառելի խոսքիմասային պիտակներ խմբագրել

Պիտակ Սահմանում
. նախադասություն (. ; ? *)
( ձախակողմյան միջադաս նախադասություն
) աջակողմյան միջադաս նախադասություն
* not, n't
-- մեջտեղի գծեր
, ստորակետ
: վերջակետ
ABL նախաորակիչ (quite, rather)
ABN նախաքանակիչ (half, all)
ABX նախաքանակիչ (both)
AP հետորոշիչ (many, several, next)
AT հոդ (a, the, no)
BE be
BED were
BEDZ was
BEG being
BEM am
BEN been
BER are, art
BBB is
CC համադասական շաղկապներ (and, or)
CD քանակական թվականներ (one, two, 2, etc.)
CS ստորադասական շաղկապներ (if, although)
DO do
DOD did
DOZ does
DT եզակի թվով ցուցական դերանուններ (this, that)
DTI եզակի կամ հոգնակի թվով անորոշ դերանուններ (some, any)
DTS հոգնակի թվով ցուցական դերանուններ (these, those)
DTX զուգադիր շաղկապներ (either)
EX գոյութենականthere
FW օտար բառ (գծանշված մինչև կանոնավոր նշում)
HL Վերնագիր (գծանշված կանոնավոր նշումից հետո)
HV have
HVD had անցյալ կատարյալ
HVG having
HVN had դերբայական ձև
HVZ has
IN նախդիր
JJ ածական
JJR բաղդատական աստիճանի ածական
JJS իմաստաբանորեն գերադրական աստիճանի ածականներ (chief, top)
JJT ձևաբանորեն գերադրական աստիճանի ածականներ (biggest)
MD մոդալ բայեր (can, should, will)
NC մեջբերվող բառ (գծանշված կանոնավոր նշումից հետո)
NN եզակի թվով կամ հավաքական գոյական
NN$ ստացական հոլովով ու եզակի թվով գոյական
NNS հոգնակի թվով գոյական
NNS$ ստացական հոլովով ու հոգնակի թվով գոյական
NP հատուկ անուն կամ անուն պարունակող բառակապացության մաս
NP$ ստացական հոլովով հատուկ գոյական
NPS հոգնակի թվով հատուկ գոյական
NPS$ հոգնակի թվով հատուկ անուն
NR մակբայաձև գոյական (home, today, west)
NRS հոգնակի թվով մակբայաձև գոյական
OD դասական թվական (first, 2nd)
PN անվանական դերանուն (everybody, nothing)
PN$ անվանական դերանունները ստացական հոլովով
PP$ անձնական դերանուններ ստացական հոլովով (my, our)
PP$$ երկրորդ (անվանական) դերանունները ստացական հոլովով (mine, ours)
PPL Անդրադարձ անձնական դերանունները եզակի թվով (myself)
PPLS Անդրադարձ անձնական դերանունները հոգնակի թվով (ourselves)
PPO անձնական դերանուն տրական հոլովով (me, him, it, them)
PPS 3-րդ եզակի անվանական դերանուն (he, she, it, one)
PPSS այլ անվանական անձնական դերանուններ (I, we, they, you)
QL որակիչ (very, fairly)
QLP նախաորակիչ (enough, indeed)
RB մակբայ
RBR համեմատական աստիճանի մակբայ
RBT գերադրական աստիճանի մակբայ
RN անվանական մակբայ (here, then, indoors)
RP մակբայ/մասնիկ (about, off, up)
TL Վերնագիր (գծանշված կանոնավոր նշումից հետո)
TO ինֆինիտիվի նշիչ
UH կոչական, ձայնարկություն
VB բայահիմք
VBD բայի անցյալ ժամանակ
VBG բայի ներկա ժամանակ,գերունդ
VBN բայի դերբայական ձև
VBP ներկա ժամանակի, եզակի թվի, ոչ 3-րդ դեմքի բայ
VBZ ներկա ժամանակի, եզակի թվի, 3-րդ դեմքի բայ
WDT wh-որոշյալ (what, which)
WP$ wh-ստացական դերանվան ստացական հոլով
WPO wh-դերանվան տրական հոլով
WPS wh-դերանվան անվանական հոլով (who, which, that)
WQL wh-որակիչ
WRB wh-մակբայ (how, where, when)

Նշենք, որ պիտակավորված Բրաունյան կորպուսի որոշ տարբերակներ պարունակում են համակցված պիտակներ։ Օրինակ՝ «wanna» բառը պիտակավորված է որպես VB+TO, քանի որ այն երկու բառերի կաղապարված ձևն է, want/VB և to/TO: Որոշակի պիտակներ կարող են ժխտվել, օրինակ՝ «aren’t»-ը կպիտակավորվի որպես «BER*», որը ժխտման նշանակություն ունի։ Ավելին՝ պիտակները կարող են գծեր պարունակել՝ –HL պիտակը գծանշվում է խորագրերում առկա բառերի պիտակներին։ -TL պիտակը գծանշվում է վերնագրերում առկա բառերի պիտակներին։ -NC գծանիշը նշանակում է շեշտավորված բառ։ Երբեմն պիտակը պարունակում է FW- նախածանց, որը նշանակում է օտար բառ։

Տես նաև խմբագրել

Ծանոթագրություններ խմբագրել

  1. Francis, W. Nelson & Henry Kucera. 1967. Computational Analysis of Present-Day American English. Providence, RI: Brown University Press.
  2. Francis, W. Nelson & Henry Kucera. 1979. BROWN CORPUS MANUAL: Manual of Information to Accompany a Standard Corpus of Present-Day Edited American English for Use with Digital Computers. http://icame.uib.no/brown/bcm.html.
  3. Hundt, Marianne, Andrea Sand & Rainer Siemund. 1998. Manual of Information to Accompany the Freiburg-Brown Corpus of American English (FROWN). http://khnt.hit.uib.no/icame/manuals/frown/INDEX.HTM Արխիվացված 2014-04-03 Wayback Machine
  4. Leech, Geoffrey & Nicholas Smith. 2005. Extending the possibilities of corpus-based research on English in the twentieth century: A prequel to LOB and FLOB. ICAME Journal 29. 83–98.
  5. Winthrop Nelson Francis and Henry Kučera. 1983. Frequency Analysis of English Usage: Lexicon and Grammar, Houghton Mifflin.
  6. Kirsten Malmkjær, The Linguistics Encyclopedia, 2nd ed, Routledge, 2002, 0-415-22210-9, p. 87.

Արտաքին հղումներ խմբագրել