Խոսքի ճանաչում
Առաջարկվում է այս և Խոսքի (ձայնի) ճանաչում հոդվածները միացնել իրար: (քննարկում) |
Առաջարկվում է այս և Խոսքի Ճանաչում հոդվածները միացնել իրար: (քննարկում) |
Այս հոդվածն աղբյուրների կարիք ունի։ Դուք կարող եք բարելավել հոդվածը՝ գտնելով բերված տեղեկությունների հաստատումը վստահելի աղբյուրներում և ավելացնելով դրանց հղումները հոդվածին։ Անհիմն հղումները ենթակա են հեռացման։ |
Այս հոդվածը կարող է վիքիֆիկացման կարիք ունենալ Վիքիպեդիայի որակի չափանիշներին համապատասխանելու համար։ Դուք կարող եք օգնել հոդվածի բարելավմանը՝ ավելացնելով համապատասխան ներքին հղումներ և շտկելով բաժինների դասավորությունը, ինչպես նաև վիքիչափանիշներին համապատասխան այլ գործողություններ կատարելով։ |
Խոսքի ճանաչումը մեքենայական ուսուցման կիրառության գլխավորագույն ոլորտներից է,որը խոսքի ազդանշանը փոխակերպում է թվայնացված տեղեկատվության (օրինակ, տեքստային տվյալների):Այն նաև հայտնի է որպես խոսքի ավտոմատ ճանաչում (անգլ.՝ ASR), համակարգչային խոսքի ճանաչում անվանումներով։ Այն ներառում է գիտելիքների և հետազոտությունների լեզվաբանությունը, համակարգչային գիտությունները և էլեկտրատեխնիկայի ոլորտները։
Խոսքի ճանաչման կիրառությունները ներառում են ձայնային օգտագործման ինտերֆեյսներ, ինչպիսիք են ձայնային հավաքումը (օրինակ` « զանգահարել տուն »), դոմոգրաֆիկ սարքերի հսկողություն, որոնում, պարզ տվյալների մուտքագրում (օրինակ` բանկային քարտի համարը), կազմաձևված փաստաթղթերի պատրաստում, որոշող խոսնակների բնութագրերը, խոսքի տեքստերի վերամշակումը (օրինակ` բառի պրոցեսորներ կամ էլեկտրոնային նամակագրություններ) եւ ինքնաթիռներ (սովորաբար կոչվում է ուղղակի ձայնային մուտքագրում)։ Խոսքի ճանաչումը, ինչպես նաև խոսքի սինթեզը, խոսնակի նույնականացումը կամ խոսնակի ստուգումը, խոսքի մշակման տեխնիկայի մաս են կազմում։
Պատմություն Խմբագրել
Ամեն ինչ սկսվել է 1952 թվականից:Այդ ժամանակ Bell Labs երեք ընկերության հետազոտողները, Սթիվեն Բալաշեկը,Ռ. Բիդըլֆֆը և Ք.Հ. Դեւիսը ստեղծել են մի համակարգ, որը կոչվում էր «Աուդրի»:Դա մի ավտոմատ թվանշանի ճանաչող համակարգ է,որը ստեղծվել է միայնակախոսի համարանիշի ճանաչման համար։ Նրանց համակարգը աշխատել է ամեն մի խոսքի ուժի սպեկտրում տեղադրելու համար։
Այնուհետև, 1962 թվականին Աշխարհի տոնավաճառում IBM-ը ցույց տվեց 16 բառանոց իր մեքենայի խոսքի ճանաչման ունակությունը, որը կոչվում էր «Շոեբոքս».
Հետո,1970 թ. Լեոնարդ Բաումը մշակում է Մարկովի թաքնված մոդելը, որը լայնորեն կիրառվում է ձայնային ճանաչման մեջ:Մեկ տարի անց, 1971 թ.-ին DARPA-ն ֆինանսավորել է խոսքի ճանաչման հնգամյա հետազոտությունը` 1000 բառի նվազագույն բառապաշարի չափով։ Ենթադրվում էր, որ խոսքի հասկացությունը կդառնա գլխավոր բանալին խոսքի ճանաչման գործում առաջընթացի համար, բայց հետագայուն պարզվեց, որ դա սխալմունք էր։ BBN, IBM-ը, Carnegie Mellon-ը[1] և Stanford Research Institute-ը մասնակցեցին այս ծրագրին:Կառավարությունը ֆինանսավորում է Ջոն Պիերսի նամակից հետո վերանայված խոսքի ճանաչման հետազոտությունները, որոնք մեծ մասամբ լքված էին Միացյալ Նահանգներում։
1972 թվականաին խոսքի ճանաչման սարքերը առաջին անգամ շուկա դուրս եկան:Չորս տարի անց առաջին ICASSP-ը անցկացվեց Ֆիլադելֆիայում, որն այն ժամանակից ի վեր խոսքի ճանաչման վերաբերյալ հետազոտության հրատարակման համար հիմնական վայր է եղել։
Lernout & Hauspie, բելգիական ճանաչված ընկերություն, ձեռք է բերում մի շարք այլ ընկերություններ, այդ թվում `1997 թ. Kurzweil Applied Intelligence ըկերությունը և Dragon Systems-ը 2000 թ.-ին։ L & H- ի խոսակցական տեխնոլոգիան ձեռք է բերել ScanSoft- ի կողմից, որը դարձել էր Nuance 2005 թվականին։ Apple- ը Նյուանսից սկզբնապես լիցենզավորված ծրագրեր էր տրամադրել խոսքի ճանաչման հնարավորությունը իր թվային օգնական Սիրիին։
Արդեն 20 տարի է, որ խոսքի ճանաչումը մտել է մեր առօրյայի մեջ, թեպետ ով կմտածեր, որ հնարավոր է մարդկային խոսքը թվայնացնել։
Դասակարգում Խմբագրել
Խոսքի ճանաչման համակարգերը կարող են դասակարգվել ըստ մի քանի առանցքներ՝
- ազդանշանի տեսակը. աղմկոտ ազդանշան կամ ոչ աղմկոտ ազդանշան (օրինակ, ականջակալի խոսափողը աղմուկի նվազեցմամբ), հեռախոսային ազդանշանը (ֆիքսված կամ բջջային հեռախոս) կամ լայնաշերտ
- սեղմված ազդանշան կամ ոչ
- ակուստիկ մոդելի տեսակը, միայնակախոս մոդելը (օրինակ` ձայնային թելադրանք), բազմակողմանի մոդել
- ձայնագրությունների բնույթը` տեքստի թելադրություն, ձայնային հրաման, մարդ-մեքենա երկխոսություն, հեռախոսային հաղորդագրություն, ռադիո, հեռուստատեսություն և այլն։
Լեզուների չափը եւ լեզվական մոդելի բարդությունը անմիջականորեն կապված են վերամշակված տվյալների լեզվի եւ բնույթի հետ, ձայնային հրամանների մի քանի տասնյակ բառերից մինչեւ հարյուր հազարավոր բառեր` տարբեր լոզուներով գրելու համար։
Կիրառություններ Խմբագրել
- Ձայնի վերահսկում
- Ձայնային հրամաններ
- Ձայնային տեքստի մուտքագրում
- Ձայնի որոնում
Գրականություն Խմբագրել
- Mehryar Mohri, Afshin Rostamizadeh, Ameet Talwalkar (2012). Foundations of Machine Learning
- Claudio Becchetti, Lucio Prina Ricott Speech Recognition: Theory and C++ Implementation(չաշխատող հղում)
- Dong Yu Li Deng Speech Recognition: A Deep Learning Approach(չաշխատող հղում)
- Fundamentals of Speech Recognition 1st Edition
- Martine Cooke,Phil Green,Lyubomir Josifovski,Ascension Vizinho Robust Automatic Speech Recognition Archived 2020-10-24 at the Wayback Machine.
- Daniel Jurafsky,James H. Martin Speech and Language Processing Archived 2018-12-06 at the Wayback Machine.
- Xuedong Huang,Li Deng An Overview of Modern Speech Recognition
- Steve Renals,February 1998 SPEECH RECOGNITION
Տես նաև Խմբագրել
Արտաքին հղումներ Խմբագրել
Ծանոթագրություններ Խմբագրել
- ↑ «Carnegie Mellon School of Computer Science»։ Carnegie Mellon School of Computer Science (անգլերեն)։ Վերցված է 2018-10-30