Բանավոր խոսքի կորպուս

Խոսքի կորպուս (կամ խոսակցական կորպուս)՝ խոսքի աուդիո ֆայլերի և տեքստերի տառադարձումների շտեմարան։ Խոսքը ուսումնասիրող տեխնոլոգիաներում խոսքի կորպուսները, ի թիվս այլ նպատակների, օգտագործվում են ձայնային մոդելներ ստեղծելու համար (որոնք այնուհետև կարող են օգտագործվել խոսքի ճանաչման կամ խոսողի ճանաչման պրոցեսների համար)^[1]։ Լեզվաբանության մեջ բանավոր խոսքի կորպուսները օգտագործվում են հնչյունաբանական, հաղորդակցական վերլուծության, բարբառագիտության և այլ ուղղություններով հետազոտություններ կատարելու համար։

Կորպուսը նման տվյալների բազաներից մեկն է (հոգն․ corpora, այն է շտեմարանային ցանց)։

Խոսքի Կորպուսները երկուսն են՝

1․ Ընթերցվող խոսքի վերծանում, որը ներառում է.

Գրքերի հատվածներ
Հեռարձակվող նորություններ
Բառացուցակներ
Թվերի հաջորդականություններ
2․ Հանպատրաստից խոսք, որը ներառում է.
Երկխոսություն - երկու կամ ավելի մարդկանց միջև (ներառում է հանդիպումներ)
Պատմվածքներ - անձը ներկայացնում է որևէ պատմություն (այդպիսի կորպուսներից մեկը Buckeye Corpus- ն է)
Քարտեզ-առաջադրանքներ - Անձը քարտեզի հիման վրա երթուղին բացատրում է մյուսին.
Պայմանավորվածություն արտահայտող խոսք - Երկու մարդ փորձում են գտնել հանդիպման հարմար ժամանակ ՝ հիմնվելով անձնականն ժամանակացույցի վրա։

Բանավոր խոսքի կորպուսներին հատուկ տեսակ են ոչ բնիկների խոսքի շտեմարանները, որոնք արտացոլում են խոսք՝ օտար լեզվակրի հնչողությամբ։

Ծանոթագրություններ խմբագրել

↑ Langslow, D.R. 2002 "Approaching bilingualism in corpus languages" in James Noel Adams, Mark Janse, Simon Swain (edd.) Bilingualism in Ancient Society: Language Contact and the Written Text Oxford: OUP

[1] Langslow, D.R. 2002 "Approaching bilingualism in corpus languages" in James Noel Adams, Mark Janse, Simon Swain (edd.) Bilingualism in Ancient Society: Language Contact and the Written Text Oxford: OUP

[1]