Om Unicode
På en god dag, menneskeheten oppfunnet elektroniske datamaskiner. De wereadopted som et nyttig verktøy av ulike mennesker over hele verden.Alle var glade.
Men så, disse menneskene ønsket å sende sitt arbeid, historier og funnyjokes til hverandre i form av tekst. Og dessverre, disse sillypeople aldri klart å bli enige om å bruke ett språk, og å skrive system.Det er ok, men de hadde ikke avtalt på ved hjelp av en encodingformat for deres tekst.,
Legacy Kodinger
Du ser, datamaskiner tror ikke bokstaver og linjer, men i biter, bytesand tall. Så vi mennesker hadde til å komme opp med en måte å representere textas en haug med tall… Lett! Bare kart et symbol fra writingsystem av valg til et tall som datamaskinen kan håndtere. For eksempel,i den teksten du leser akkurat nå, små latinske alfabetet, ato z, er caried av tall-97 til 122 inclusive. Men ikke everyonewith en datamaskin kan lese latin., Disse gutta bruke skript som Kyrillisk,gresk, arabisk, Han, Katanka og Kanji, og de brukte samenumbertrick til å kode teksten. For eksempel, den Kyrilliske bokstaven Д(De) er kodet som nummer 196 i Windows-1251-koding hvor inthe Utvidet ASCII-koding det er ‘─’, en vertikal linje som brukes til å drawboxes.
Så før du åpner en tekstfil som sendes fra din venn på den andre siden ofthe verden, må du først vite hvilken koding som de brukte til å writethat fil. Du kan gjette, men det er mange av disse gamle standarden,nesten 60!, Så når du åpner filen, kan det se ut som noe likethis:
Den korrekte betegnelsen for dette er mojibake.
UTF-8
Så hvordan kan vi løse problemet med å ha alle disse forskjellige kodinger?Vel, svaret er ganske enkelt: bare lage én stor encodingthat inneholder alle ting og symboler. Dette er Unicode. Unicodespecifies områder av såkalt code-poeng eller tegn. Det isnot det faktiske koding i seg selv, som ville være en av de formater usedto kode Unicode-poeng. De mest brukte Unicode-format isUTF-8., Det er andre formater som UTF-16 og UTF-32, men UTF-8 er themost awesome format for Unicode fordi:
- Den kan lagre noe.
Gamle kodinger ville kreve at hele dokumentet skal skrives usingthe samme koding og dermed skrive system, begrenser brukeren fromusing flere skriftsystemer i et enkelt dokument. Med UTF-8users kan. - Den bruker en variabel karakter lengde.
Unicode har plass til opp til 4,294,967,296 (4 byte = 32 bits = 2^32)kode-poeng. Dokumenter og nettsteder ville bli fire ganger aslarge når hver karakter er 4 bytes stor., UTF-8 vil bruke bare onebyte for de fleste latinske tegn, og opp til fire byte for mindre commoncharacters. - Det er bakover kompatibel med ASCII
De første 255 kode-poeng kodet med UTF-8 er nøyaktig de samme asASCII. ASCII ble et mye brukt format før UTF-8 ble popular.By å være bakover kompatibel med UTF-8-programmer kan håndtere filesencoded i ASCII-uten å måtte re-kode dem.
Du kan fortsatt møte dokumenter eller nettsider som ikke bruker UTF-8.Mest sannsynlig på nettsteder som bruker en østlig språk som Mandarin.Hvorfor?, Fordi nettside eiere ikke ønsker å blåse pengene sine onbandwidth kostnader. Høres det rart ut? Vel, la meg forklare. Dokumenter med mye pugging av latinske tegn er mindre i størrelse siden de fleste commoncharacters er bare én byte som er stor. Andre skriftsystemer er kodet inUnicode områder der en enkelt bokstav kan være opp til fire byte stor! Sothese dokumenter er bare større enn dokumenter som er skrevet i en languagethat bruker latinske tegn. Et eksempel på dette fenomenet er theRussian sosiale nettstedet, vk.com., Dette nettstedet bruker Windows-1251encoding siden det blir det Kyrilliske skrive system i én byte widecharacters, sparer båndbredde.
i Dag, UTF-8 er den mest brukte tekst-format på internett.Det er også bærere av dette nettsted, uten Unicode, Lenny og alleden andre dongers vil trolig være begrenset til ASCII characterrange.
Leave a Reply