Բանավոր խոսքի կորպուս
Խոսքի կորպուս (կամ խոսակցական կորպուս)՝ խոսքի աուդիո ֆայլերի և տեքստերի տառադարձումների շտեմարան։ Խոսքը ուսումնասիրող տեխնոլոգիաներում խոսքի կորպուսները, ի թիվս այլ նպատակների, օգտագործվում են ձայնային մոդելներ ստեղծելու համար (որոնք այնուհետև կարող են օգտագործվել խոսքի ճանաչման կամ խոսողի ճանաչման պրոցեսների համար)[1]։ Լեզվաբանության մեջ բանավոր խոսքի կորպուսները օգտագործվում են հնչյունաբանական, հաղորդակցական վերլուծության, բարբառագիտության և այլ ուղղություններով հետազոտություններ կատարելու համար։
Կորպուսը նման տվյալների բազաներից մեկն է (հոգն․ corpora, այն է շտեմարանային ցանց)։
Խոսքի Կորպուսները երկուսն են՝
1․ Ընթերցվող խոսքի վերծանում, որը ներառում է.
- Գրքերի հատվածներ
- Հեռարձակվող նորություններ
- Բառացուցակներ
- Թվերի հաջորդականություններ
2․ Հանպատրաստից խոսք, որը ներառում է. - Երկխոսություն - երկու կամ ավելի մարդկանց միջև (ներառում է հանդիպումներ)
- Պատմվածքներ - անձը ներկայացնում է որևէ պատմություն (այդպիսի կորպուսներից մեկը Buckeye Corpus- ն է)
- Քարտեզ-առաջադրանքներ - Անձը քարտեզի հիման վրա երթուղին բացատրում է մյուսին.
- Պայմանավորվածություն արտահայտող խոսք - Երկու մարդ փորձում են գտնել հանդիպման հարմար ժամանակ ՝ հիմնվելով անձնականն ժամանակացույցի վրա։
Բանավոր խոսքի կորպուսներին հատուկ տեսակ են ոչ բնիկների խոսքի շտեմարանները, որոնք արտացոլում են խոսք՝ օտար լեզվակրի հնչողությամբ։
Ծանոթագրություններ խմբագրել
- ↑ Langslow, D.R. 2002 "Approaching bilingualism in corpus languages" in James Noel Adams, Mark Janse, Simon Swain (edd.) Bilingualism in Ancient Society: Language Contact and the Written Text Oxford: OUP