UTF-32

UTF-32 je Unicode shema za kodiranje stalne dolžine. Predstavitev vsakega znaka je preprosto številka tega znaka, pretvorjena v 32-bitno dvojiško število. Vodilne ničle uporabimo, če število ne obsega dovolj bitov (enako kot predstavimo 254, kot 4-mestno desetiško število – 0254). V računalništvu predstavlja 32 bitov lepo, okroglo število, ki ga pogosto imenujemo beseda (ang. word). To je lahko malce zavajajoče, saj lahko v besede shranjujemo UTF-32 znake s katerimi predstavljamo slovenske besede.

Na primer, znak H je v UTF-32 predstavljen takole:

00000000 00000000 00000000 01001000

Znak $ pa je v UTF-32 predstavljen takole:

00000000 00000000 00000000 00100100

In znak 犬 (pes po kitajsko) je v UTF-32 predstavljen takole:

00000000 00000000 01110010 10101100

Interaktivni pretvornik ti omogoča pretvarjanje Unicode znaka v njegovo UTF-32 predstavitev. Prikazana je tudi številka Unicode znaka. Biti predstavljajo le številko znaka v dvojiški obliki.


Vaja

ASCII pravzaprav uporablja isti pristop. Vsak ASCII znak je oštevilčen s številko med 0 in 255, predstavitev znaka pa je ta številka, pretvorjena v 8-bitno dvojiško število. Tudi ASCII je shema za kodiranje stalne dolžine – vsak ASCII znak je predstavljen z 8 biti.

V praksi UTF-32 uporabljamo zelo redko, saj je zelo potraten s prostorom – uporablja zelo veliko vodilnih ničel. Veliko pogostejša je uporaba bolj razširjenih shem za kodiranje UTF-8 in UTF-16, spremenljive dolžine, ki si ju bomo ogledali v nadaljevanju.