UTF-8

UTF-8 (անգլ.՝ UTF-8 «Unicode Transformation Format – 8-bit») Յունիկոդ սիմվոլների կոդավորման ստանդարտ է։ Այն կարող է ներկայացնել մինչեւ 1,112,064 հատ վավեր յունիկոդի սիմվոլ 4 բայթով^[1]։

Կոդավորումը նախագծվել է Քեն Թոմփսոնի եւ Ռոբ Փայկի կողմից, առաջին իրականացումը եղել է նրանց Plan 9 օպերացիոն համակարգում 1992 թվականի սեպտեմբերին^[2]^[3]։

Կոդավորումը

Առաջին 128 համարները (առաջին բայթը) զբաղեցնում են ASCII կոդերը, որի շնորհիվ ASCII կոդավորումով տեքստերը համատեղելի են UTF-8 -ի հետ։ Հաջորդ 1,920 համարներում գրված են գրեթե բոլոր լատինատառ այբուբենները, նաեւ IPA ընդլայնումները, հունարենի, հայերենի, կյուրեղագիր այբուբենները։

UTF-8 -ում սիմվոլի առաջին բայթի սկզբում եղած 1 -երի քանակը ցույց է տալիս, թե քանի բայթ հիշողություն է զբաղեցնում տվյալ սիմվոլը։ Շարունակվող բայթերը սկզբից ունենում են 10 բիթերը, որից հետո գրվում է սիմվոլի համարի մաս կազմող բիթերը։ Ներքեւում բերված աղյուսակում x -ով նշված են այն բիթերը, որոնք օգտագործվում են սիմվոլի համարը գրելու նպատակով։

Սիմվոլի համարից ↔ UTF-8 ձեւափոխումը
Առաջին համար	Վերջին համար	Բայթ 1	Բայթ 2	Բայթ 3	Բայթ 4
U+0000	U+007F	0xxxxxxx
U+0080	U+07FF	110xxxxx	10xxxxxx
U+0800	U+FFFF	1110xxxx	10xxxxxx	10xxxxxx
U+10000	U+10FFFF	11110xxx	10xxxxxx	10xxxxxx	10xxxxxx

Նախկինում UTF-8 -ը կարող էր օգտագործել նայեւ 5 եւ 6 բայթերը սիմվոլի կոդը գրելու համար, բայց 2003 թվականին RFC 3629 ստանդարտով utf-8-ը սահմանափակվեց 4 բայթում։ Փոփոխության նպատակն էր պահպանել համատեղելիություն UTF-16 -ի հետ։ Ստանդարտում կա հնարավորություն սիմվոլների, որոնք զբաղեցնում են 4 -ից ավելի բայթ, դրանց դեպքում կատարվում է սիմվոլների միավորում. օրինակ երկրների դրոշները նշվում են 2 սիմվոլ միացնելով։

Տարածվածությունը

Սկսած 2008 թվականից UTF-8 -ը դարձել է ամենատարածված կոդավորումը web -ում։ 2024 թվականի փետրվարի դրությամբ կայքերի 98.1% -ը ունեն UTF-8 կոդավորում^[4]։ Բազմաթիվ ստանդարտներ՝ օրինակ JSON տվյալների փոխանակումը պարտադրում է օգտագործել UTF-8։

Ծանոթագրություններ

↑ «UTF-8, a transformation format of ISO 10646».
↑ «UTF-8 History».
↑ Pike, Rob; Thompson, Ken (1993). «Hello World or Καλημέρα κόσμε or こんにちは世界» (PDF). Proceedings of the Winter 1993 USENIX Conference.
↑ «Usage Survey of Character Encodings broken down by Ranking». W3Techs (անգլերեն). Վերցված է 2024 թ․ փետրվարի 2-ին.

[1] «UTF-8, a transformation format of ISO 10646».

[2] «UTF-8 History».

[3] Pike, Rob; Thompson, Ken (1993). «Hello World or Καλημέρα κόσμε or こんにちは世界» (PDF). Proceedings of the Winter 1993 USENIX Conference.

[W3TechsWebEncoding-4] «Usage Survey of Character Encodings broken down by Ranking». W3Techs (անգլերեն). Վերցված է 2024 թ․ փետրվարի 2-ին.

[1]

[2]

[3]

[4]