Kot UTF-8 je tudi UTF-16 shema za kodiranje spremenljive dolžine. Ker je veliko bolj zapletena kot UTF-8, ne bomo podrobno razlagali, kako deluje.
Kljub temu lahko uporabiš interaktivni pretvornik za pretvarjanje Unicode znaka v njegovo UTF-16 predstavitev. Poizkusi pretvoriti angleške črke, slovenske šumnike in kakšno kitajsko ali japonsko pismenko. Primerjaj predstavitve teh znakov s predstavitvami, ki jih dobiš pri shemi UTF-8.
Do zdaj smo si ogledali ASCII, UTF-32, UTF-8 in UTF-16. Spodnja tabela povzema ključne lastnosti vsake predstavitve.
Predstavitev | Dolžina | Bitov | Uporaba v praksi |
---|---|---|---|
ASCII | Stalna dolžina | 8 | Ni več pogosto uporabljena |
UTF-8 | Spremenljiva dolžina | 8, 16, 24 ali 32 | Zelo pogosto uporabljena |
UTF-16 | Spremenljiva dolžina | 16 ali 32 | Pogosto uporabljena |
UTF-32 | Stalna dolžina | 32 | Redko uporabljena |
Če želimo različne predstavitve primerjati in ovrednotiti, se moramo najprej odločiti, kaj pomeni »dobra« predstavitev. Dve koristni merili sta:
Vemo, da lahko z UTF-8, UTF-16 in UTF-32 predstavljajo vse znake, z ASCII pa le znake angleške abecede. Zato ASCII ne izpolnjuje prvega merila. Drugo merilo pa ni tako preprosto.
Spodnja interaktivnost omogoča ugotavljanje dolžine kosov besedila, ki so predstavljeni z uporabo UTF-8, UTF-16 ali UTF-32. Poišči nekaj vzorcev slovenskega in azijskega besedila (dobro je pogledati na različne forume ali prevajalska spletišča) in preveri, kako dolgi so različni vzorci, ko so kodirani z vsako od treh predstavitev. Besedilo vnesi v polje ali pa ga kopiraj in prilepi.
Vnesi besedilo za izračun dolžine kodiranja:
Izračunaj dolžino kodiranjaDolžina kodiranja:
UTF-8: 0 bitov
UTF-16: 0 bitov
UTF-32: 0 bitov
V splošnem velja, da je UTF-8 primernejši za angleška, slovenska in druga besedila, ki uporabljajo latinico. UTF-16 pa je primernejši za azijska besedila. UTF-32 vedno zahteva 32 bitov za predstavitev vsakega znaka, zato se v praksi redko uporablja.