UTF-32

UTF-32 je Unicode shema za kodiranje stalne dolžine. Predstavitev vsakega znaka je preprosto številka tega znaka, pretvorjena v 32-bitno dvojiško število. Vodilne ničle uporabimo, če število ne obsega dovolj bitov (enako kot predstavimo 254, kot 4-mestno desetiško število – 0254). V računalništvu predstavlja 32 bitov lepo, okroglo število, ki ga pogosto imenujemo beseda (ang. word). To je lahko malce zavajajoče, saj lahko v besede shranjujemo UTF-32 znake s katerimi predstavljamo slovenske besede.

Na primer, znak H je v UTF-32 predstavljen takole:

00000000 00000000 00000000 01001000

Znak $ pa je v UTF-32 predstavljen takole:

00000000 00000000 00000000 00100100

In znak 犬 (pes po kitajsko) je v UTF-32 predstavljen takole:

00000000 00000000 01110010 10101100

Interaktivni pretvornik ti omogoča pretvarjanje Unicode znaka v njegovo UTF-32 predstavitev. Prikazana je tudi številka Unicode znaka. Biti predstavljajo le številko znaka v dvojiški obliki.

Unicode številka

Unicode znak

Dvojiška predstavitev

Vaja

Predstavi svoje ime z UTF-32.

Predstavi vsak znak svojega imena z UTF-32.
Preveri, koliko bitov potrebuješ za predstavitev imena in pojasni, zakaj toliko (ne pozabi, da za predstavitev vakega znaka potrebuješ 32 bitov).
Pojasni, postopek predstavitve vsakega znaka. Tudi, če uporabljaš interaktivni pretvornik, moraš postopek razložiti z dvojiškimi števili.

ASCII pravzaprav uporablja isti pristop. Vsak ASCII znak je oštevilčen s številko med 0 in 255, predstavitev znaka pa je ta številka, pretvorjena v 8-bitno dvojiško število. Tudi ASCII je shema za kodiranje stalne dolžine – vsak ASCII znak je predstavljen z 8 biti.

V praksi UTF-32 uporabljamo zelo redko, saj je zelo potraten s prostorom – uporablja zelo veliko vodilnih ničel. Veliko pogostejša je uporaba bolj razširjenih shem za kodiranje UTF-8 in UTF-16, spremenljive dolžine, ki si ju bomo ogledali v nadaljevanju.