UTF-8 (անգլ.՝ UTF-8 «Unicode Transformation Format – 8-bit») Յունիկոդ սիմվոլների կոդավորման ստանդարտ է։ Այն կարող է ներկայացնել մինչեւ 1,112,064 հատ վավեր յունիկոդի սիմվոլ 4 բայթով[1]։

Կոդավորումը նախագծվել է Քեն Թոմփսոնի եւ Ռոբ Փայկի կողմից, առաջին իրականացումը եղել է նրանց Plan 9 օպերացիոն համակարգում 1992 թվականի սեպտեմբերին[2][3]։

Կոդավորումը խմբագրել

Առաջին 128 համարները (առաջին բայթը) զբաղեցնում են ASCII կոդերը, որի շնորհիվ ASCII կոդավորումով տեքստերը համատեղելի են UTF-8 -ի հետ։ Հաջորդ 1,920 համարներում գրված են գրեթե բոլոր լատինատառ այբուբենները, նաեւ IPA ընդլայնումները, հունարենի, հայերենի, կյուրեղագիր այբուբենները։

UTF-8 -ում սիմվոլի առաջին բայթի սկզբում եղած 1 -երի քանակը ցույց է տալիս, թե քանի բայթ հիշողություն է զբաղեցնում տվյալ սիմվոլը։ Շարունակվող բայթերը սկզբից ունենում են 10 բիթերը, որից հետո գրվում է սիմվոլի համարի մաս կազմող բիթերը։ Ներքեւում բերված աղյուսակում x -ով նշված են այն բիթերը, որոնք օգտագործվում են սիմվոլի համարը գրելու նպատակով։

Սիմվոլի համարից ↔ UTF-8 ձեւափոխումը
Առաջին համար Վերջին համար Բայթ 1 Բայթ 2 Բայթ 3 Բայթ 4
U+0000 U+007F 0xxxxxxx
U+0080 U+07FF 110xxxxx 10xxxxxx
U+0800 U+FFFF 1110xxxx 10xxxxxx 10xxxxxx
U+10000 U+10FFFF 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

Նախկինում UTF-8 -ը կարող էր օգտագործել նայեւ 5 եւ 6 բայթերը սիմվոլի կոդը գրելու համար, բայց 2003 թվականին RFC 3629 ստանդարտով utf-8-ը սահմանափակվեց 4 բայթում։ Փոփոխության նպատակն էր պահպանել համատեղելիություն UTF-16 -ի հետ։ Ստանդարտում կա հնարավորություն սիմվոլների, որոնք զբաղեցնում են 4 -ից ավելի բայթ, դրանց դեպքում կատարվում է սիմվոլների միավորում. օրինակ երկրների դրոշները նշվում են 2 սիմվոլ միացնելով։

Տարածվածությունը խմբագրել

Սկսած 2008 թվականից UTF-8 -ը դարձել է ամենատարածված կոդավորումը web -ում։ 2024 թվականի փետրվարի դրությամբ կայքերի 98.1% -ը ունեն UTF-8 կոդավորում[4]։ Բազմաթիվ ստանդարտներ՝ օրինակ JSON տվյալների փոխանակումը պարտադրում է օգտագործել UTF-8։

Ծանոթագրություններ խմբագրել

  1. «UTF-8, a transformation format of ISO 10646».
  2. «UTF-8 History».
  3. Pike, Rob; Thompson, Ken (1993). «Hello World or Καλημέρα κόσμε or こんにちは 世界» (PDF). Proceedings of the Winter 1993 USENIX Conference.
  4. «Usage Survey of Character Encodings broken down by Ranking». W3Techs (անգլերեն). Վերցված է 2024 թ․ փետրվարի 2-ին.