UTF-16

Kot UTF-8 je tudi UTF-16 shema za kodiranje spremenljive dolžine. Ker je veliko bolj zapletena kot UTF-8, ne bomo podrobno razlagali, kako deluje.

Kljub temu lahko uporabiš interaktivni pretvornik za pretvarjanje Unicode znaka v njegovo UTF-16 predstavitev. Poizkusi pretvoriti angleške črke, slovenske šumnike in kakšno kitajsko ali japonsko pismenko. Primerjaj predstavitve teh znakov s predstavitvami, ki jih dobiš pri shemi UTF-8.

Primerjava različnih predstavitev besedila

Do zdaj smo si ogledali ASCII, UTF-32, UTF-8 in UTF-16. Spodnja tabela povzema ključne lastnosti vsake predstavitve.

Predstavitev Dolžina Bitov Uporaba v praksi
ASCII Stalna dolžina 8 Ni več pogosto uporabljena
UTF-8 Spremenljiva dolžina 8, 16, 24 ali 32 Zelo pogosto uporabljena
UTF-16 Spremenljiva dolžina 16 ali 32 Pogosto uporabljena
UTF-32 Stalna dolžina 32 Redko uporabljena

Če želimo različne predstavitve primerjati in ovrednotiti, se moramo najprej odločiti, kaj pomeni »dobra« predstavitev. Dve koristni merili sta:

  1. Predstavitev lahko predstavlja vse znake, ne glede na jezik.
  2. Predstavitev lahko predstavlja del besedila z uporabo čim manjšega števila bitov.

Vemo, da lahko z UTF-8, UTF-16 in UTF-32 predstavljajo vse znake, z ASCII pa le znake angleške abecede. Zato ASCII ne izpolnjuje prvega merila. Drugo merilo pa ni tako preprosto.

Spodnja interaktivnost omogoča ugotavljanje dolžine kosov besedila, ki so predstavljeni z uporabo UTF-8, UTF-16 ali UTF-32. Poišči nekaj vzorcev slovenskega in azijskega besedila (dobro je pogledati na različne forume ali prevajalska spletišča) in preveri, kako dolgi so različni vzorci, ko so kodirani z vsako od treh predstavitev. Besedilo vnesi v polje ali pa ga kopiraj in prilepi.

V splošnem velja, da je UTF-8 primernejši za angleška, slovenska in druga besedila, ki uporabljajo latinico. UTF-16 pa je primernejši za azijska besedila. UTF-32 vedno zahteva 32 bitov za predstavitev vsakega znaka, zato se v praksi redko uporablja.