Խոսքի կորպուս (կամ խոսակցական կորպուս)՝ խոսքի աուդիո ֆայլերի և տեքստերի տառադարձումների շտեմարան։ Խոսքը ուսումնասիրող տեխնոլոգիաներում խոսքի կորպուսները, ի թիվս այլ նպատակների, օգտագործվում են ձայնային մոդելներ ստեղծելու համար (որոնք այնուհետև կարող են օգտագործվել խոսքի ճանաչման կամ խոսողի ճանաչման պրոցեսների համար)[1]։ Լեզվաբանության մեջ բանավոր խոսքի կորպուսները օգտագործվում են հնչյունաբանական, հաղորդակցական վերլուծության, բարբառագիտության և այլ ուղղություններով հետազոտություններ կատարելու համար։

Կորպուսը նման տվյալների բազաներից մեկն է (հոգն․ corpora, այն է շտեմարանային ցանց)։

Խոսքի Կորպուսները երկուսն են՝

1․ Ընթերցվող խոսքի վերծանում, որը ներառում է.

  • Գրքերի հատվածներ
  • Հեռարձակվող նորություններ
  • Բառացուցակներ
  • Թվերի հաջորդականություններ
    2․ Հանպատրաստից խոսք, որը ներառում է.
  • Երկխոսություն - երկու կամ ավելի մարդկանց միջև (ներառում է հանդիպումներ)
  • Պատմվածքներ - անձը ներկայացնում է որևէ պատմություն (այդպիսի կորպուսներից մեկը Buckeye Corpus- ն է)
  • Քարտեզ-առաջադրանքներ - Անձը քարտեզի հիման վրա երթուղին բացատրում է մյուսին.
  • Պայմանավորվածություն արտահայտող խոսք - Երկու մարդ փորձում են գտնել հանդիպման հարմար ժամանակ ՝ հիմնվելով անձնականն ժամանակացույցի վրա։

Բանավոր խոսքի կորպուսներին հատուկ տեսակ են ոչ բնիկների խոսքի շտեմարանները, որոնք արտացոլում են խոսք՝ օտար լեզվակրի հնչողությամբ։

Ծանոթագրություններ խմբագրել

  1. Langslow, D.R. 2002 "Approaching bilingualism in corpus languages" in James Noel Adams, Mark Janse, Simon Swain (edd.) Bilingualism in Ancient Society: Language Contact and the Written Text Oxford: OUP