Խոսքի ճանաչումը մեքենայական ուսուցման կիրառության գլխավորագույն ոլորտներից է,որը խոսքի ազդանշանը փոխակերպում է թվայնացված տեղեկատվության (օրինակ, տեքստային տվյալների):Այն նաև հայտնի է որպես խոսքի ավտոմատ ճանաչում (անգլ.՝ ASR), համակարգչային խոսքի ճանաչում անվանումներով։ Այն ներառում է գիտելիքների և հետազոտությունների լեզվաբանությունը, համակարգչային գիտությունները և էլեկտրատեխնիկայի ոլորտները։

Խոսքի ճանաչման կիրառությունները ներառում են ձայնային օգտագործման ինտերֆեյսներ, ինչպիսիք են ձայնային հավաքումը (օրինակ` « զանգահարել տուն »), դոմոգրաֆիկ սարքերի հսկողություն, որոնում, պարզ տվյալների մուտքագրում (օրինակ` բանկային քարտի համարը), կազմաձևված փաստաթղթերի պատրաստում, որոշող խոսնակների բնութագրերը, խոսքի տեքստերի վերամշակումը (օրինակ` բառի պրոցեսորներ կամ էլեկտրոնային նամակագրություններ) եւ ինքնաթիռներ (սովորաբար կոչվում է ուղղակի ձայնային մուտքագրում)։ Խոսքի ճանաչումը, ինչպես նաև խոսքի սինթեզը, խոսնակի նույնականացումը կամ խոսնակի ստուգումը, խոսքի մշակման տեխնիկայի մաս են կազմում։

Պատմություն Խմբագրել

Ամեն ինչ սկսվել է 1952 թվականից:Այդ ժամանակ Bell Labs երեք ընկերության հետազոտողները, Սթիվեն Բալաշեկը,Ռ. Բիդըլֆֆը և Ք.Հ. Դեւիսը ստեղծել են մի համակարգ, որը կոչվում էր «Աուդրի»:Դա մի ավտոմատ թվանշանի ճանաչող համակարգ է,որը ստեղծվել է միայնակախոսի համարանիշի ճանաչման համար։ Նրանց համակարգը աշխատել է ամեն մի խոսքի ուժի սպեկտրում տեղադրելու համար։

Այնուհետև, 1962 թվականին Աշխարհի տոնավաճառում IBM-ը ցույց տվեց 16 բառանոց իր մեքենայի խոսքի ճանաչման ունակությունը, որը կոչվում էր «Շոեբոքս».

Հետո,1970 թ. Լեոնարդ Բաումը մշակում է Մարկովի թաքնված մոդելը, որը լայնորեն կիրառվում է ձայնային ճանաչման մեջ:Մեկ տարի անց, 1971 թ.-ին DARPA-ն ֆինանսավորել է խոսքի ճանաչման հնգամյա հետազոտությունը` 1000 բառի նվազագույն բառապաշարի չափով։ Ենթադրվում էր, որ խոսքի հասկացությունը կդառնա գլխավոր բանալին խոսքի ճանաչման գործում առաջընթացի համար, բայց հետագայուն պարզվեց, որ դա սխալմունք էր։ BBN, IBM-ը, Carnegie Mellon-ը[1] և Stanford Research Institute-ը մասնակցեցին այս ծրագրին:Կառավարությունը ֆինանսավորում է Ջոն Պիերսի նամակից հետո վերանայված խոսքի ճանաչման հետազոտությունները, որոնք մեծ մասամբ լքված էին Միացյալ Նահանգներում։

1972 թվականաին խոսքի ճանաչման սարքերը առաջին անգամ շուկա դուրս եկան:Չորս տարի անց առաջին ICASSP-ը անցկացվեց Ֆիլադելֆիայում, որն այն ժամանակից ի վեր խոսքի ճանաչման վերաբերյալ հետազոտության հրատարակման համար հիմնական վայր է եղել։

Lernout & Hauspie, բելգիական ճանաչված ընկերություն, ձեռք է բերում մի շարք այլ ընկերություններ, այդ թվում `1997 թ. Kurzweil Applied Intelligence ըկերությունը և Dragon Systems-ը 2000 թ.-ին։ L & H- ի խոսակցական տեխնոլոգիան ձեռք է բերել ScanSoft- ի կողմից, որը դարձել էր Nuance 2005 թվականին։ Apple- ը Նյուանսից սկզբնապես լիցենզավորված ծրագրեր էր տրամադրել խոսքի ճանաչման հնարավորությունը իր թվային օգնական Սիրիին։

Արդեն 20 տարի է, որ խոսքի ճանաչումը մտել է մեր առօրյայի մեջ, թեպետ ով կմտածեր, որ հնարավոր է մարդկային խոսքը թվայնացնել։

Դասակարգում Խմբագրել

Խոսքի ճանաչման համակարգերը կարող են դասակարգվել ըստ մի քանի առանցքներ՝

  • ազդանշանի տեսակը. աղմկոտ ազդանշան կամ ոչ աղմկոտ ազդանշան (օրինակ, ականջակալի խոսափողը աղմուկի նվազեցմամբ), հեռախոսային ազդանշանը (ֆիքսված կամ բջջային հեռախոս) կամ լայնաշերտ
  • սեղմված ազդանշան կամ ոչ
  • ակուստիկ մոդելի տեսակը, միայնակախոս մոդելը (օրինակ` ձայնային թելադրանք), բազմակողմանի մոդել
  • ձայնագրությունների բնույթը` տեքստի թելադրություն, ձայնային հրաման, մարդ-մեքենա երկխոսություն, հեռախոսային հաղորդագրություն, ռադիո, հեռուստատեսություն և այլն։

Լեզուների չափը եւ լեզվական մոդելի բարդությունը անմիջականորեն կապված են վերամշակված տվյալների լեզվի եւ բնույթի հետ, ձայնային հրամանների մի քանի տասնյակ բառերից մինչեւ հարյուր հազարավոր բառեր` տարբեր լոզուներով գրելու համար։

Կիրառություններ Խմբագրել

  • Ձայնի վերահսկում
  • Ձայնային հրամաններ
  • Ձայնային տեքստի մուտքագրում
  • Ձայնի որոնում

Գրականություն Խմբագրել

Տես նաև Խմբագրել

Արտաքին հղումներ Խմբագրել

Ծանոթագրություններ Խմբագրել

  1. «Carnegie Mellon School of Computer Science»։ Carnegie Mellon School of Computer Science (անգլերեն)։ Վերցված է 2018-10-30