Uvod v Unicode®

Angleška besedila in besedila drugih evropskih jezikov lahko enostavno predstavimo z osnovnim ali razširjenim standardom ASCII. Kako pa je z jeziki, kot je na primer kitajski, ki vsebujejo na tisoče različnih znakov? Gotovo ni presenetljivo, da 128 oziroma 256 vzorcev niti slučajno ni dovolj za predstavitev takšnih jezikov. Zaradi tega standard ASCII ni tako uporaben v praksi in njegova uporaba ni več tako razširjena. V nadaljevanju si bomo ogledali standard Unicode in njegove predstavitve. Te rešujejo probleme predstavitve ne-angleških znakov.

V praksi moramo predstaviti tudi druge znake, ki niso del angleške abecede. Da rešimo ta problem, uporabimo standard Unicode®, ki ga je razvila organizacija »The Unicode Consortium«. Unicode predstavlja množico znakov in vsebuje okoli 120.000 različnih znakov iz veliko različnih jezikov, tako sedanjih, kot zgodovinskih. Vsak znak ima določeno edinstveno številko, s čimer vsak znak lažje identificiramo.

Unicode sam po sebi ni predstavitev – je le množica znakov. Če želimo Unicode znake predstaviti kot bite, moramo uporabiti ustrezno Unicode shemo za kodiranje. Unicode shema za kodiranje nam pove, kako naj vsako številko (ki ustreza Unicode znaku) predstavimo z vzorcem bitov.

Naslednja interaktivna vaja ti omogoča raziskovanje množice znakov Unicode. Vnesi številko v polje na levi, da se bo prikazal ustrezen znak Unicode, ali pa vnesi znak v polje na desni, da se bo prikazala Unicode številka tega znaka. Prilepiš lahko tudi znak iz tujejezične spletne strani, da vidiš kaj se zgodi z ne-angleškimi znaki.


Najbolj uporabljane Unicode sheme za kodiranje se imenujejo UTF-8, UTF-16 in UTF-32; ta imena pogosto opazimo v glavah elektronske pošte ali pri opisih besedilnih datotek. Nekatere Unicode sheme za kodiranje so stalne dolžine, nekatere pa so spremenljive dolžine. Stalna dolžina pomeni, da je vsak znak predstavljen z istim številom bitov. Spremenljiva dolžina pomeni, da nekatere znake predstavimo z manjšim številom bitov, kot druge.

Bolje je uporabljati predstavitve s spremenljivo dolžino, saj to zagotavlja, da bomo za bolj pogoste znake porabili manj bitov, kot za manj pogoste znake. Seveda znak, ki je zelo pogost v angleščini, ni nujno zelo pogost v japonščini. Morda se sprašuješ, zakaj obstaja toliko Unicode shem za kodiranje. Izkaže se, da so nekatere boljše za predstavitev besedil v angleškem jeziku, druge pa za predstavitev besedil v azijskih jezikih.

V nadaljevanju si bomo podrobno ogledali Unicode sheme za kodiranje, da bo bolj razumljivo, kako jih uporabljamo in zakaj so v določenih primerih ene boljše od drugih.