Tietoja Unicode
yksi hyvä päivä, ihmiskunta keksi elektroniset tietokoneet. Eri ihmiset ympäri maailmaa ottivat ne hyödylliseksi työkaluksi.Kaikki olivat onnellisia.
Mutta sitten, nämä ihmiset halusivat lähettää työnsä, tarinoita ja funnyjokes toisiaan muodossa tekstiä. Ja valitettavasti nämä ihmiset eivät koskaan onnistuneet sopimaan yhden kielen ja kirjoitusjärjestelmän käytöstä.Ei se mitään, mutta he eivät myöskään sopineet yhden koodausformaatin käyttämisestä tekstiinsä.,
Legacy Koodauksia
katso, tietokoneet eivät ajattele kirjaimia ja viivoja, mutta bits, bytesand numerot. Joten meidän ihmisten piti keksiä tapa esittää tekstareita joukko numeroita … helppoa! Voit vain kartoittaa symbolin valitsemastasi kirjoitusjärjestelmästä numeroon, jonka tietokone voi käsitellä. Esimerkiksi tekstiä luet juuri nyt, pienet latinalaiset aakkoset, ato z, on caried numerot 97-122 inclusive. Mutta jokainen tietokone ei osaa lukea latinaa., He käyttävät komentosarjoja, kuten kyrillistä, Kreikkaa, arabiaa, Hania, Katankaa ja kanjia, ja he koodasivat tekstinsä samenumbertrickin avulla. Esimerkiksi Kyrillinen kirjain Д(De) on koodattu numero 196 Windows-1251 koodaus, jossa inthe Laajennettu ASCII-koodausta se on ’─’, pystysuora viiva käytetään drawboxes.
joten ennen kuin avaat ystäväsi toisella puolella maailmaa lähettämän tekstitiedoston, sinun on ensin tiedettävä, mitä koodausta he käyttivät tiedoston kirjoittamiseen. Voit arvata, mutta näitä vanhoja koodauksia on paljon,lähes 60!, Joten, kun avaat tiedoston, se voisi näyttää jotain likethis:
oikea termi tähän on mojibake.
UTF-8
Joten miten korjaamme kaikkien näiden eri koodausten ongelman?No, vastaus on melko yksinkertainen: vain luoda yksi iso encodingthat sisältää kaikki asiat ja symbolit. Tämä on Unicode. Unicodespecifioi niin sanottujen koodipisteiden tai merkkien alueita. Se ei ole varsinainen koodaus itse, että olisi yksi muodoissa joskus koodaa Unicode-pistettä. Yleisimmin käytetty Unicode-formaatti onutf-8., On olemassa muita formaatteja, kuten UTF-16 ja UTF-32, mutta UTF-8 on maailman mahtava-muodossa Unicode, koska:
- Se voi tallentaa mitään.
Vanhat koodaukset edellyttäisivät, että koko asiakirja kirjoitettaisiin käyttäen samaa koodausta ja siten kirjoitusjärjestelmää estäen käyttäjää käyttämästä useita kirjoitusjärjestelmiä yhdessä asiakirjassa. Kanssa UTF-8users voi. - se käyttää vaihtelevaa merkin pituutta.
Unicode on tilaa jopa 4,294,967,296 (4 tavua = 32 bittiä = 2^32)koodi-pistettä. Asiakirjat ja sivustot tulisi neljä kertaa suuremmaksi, kun jokainen merkki on 4 tavua suuri., UTF-8 käyttää vain onebyte useimmille Latinalaisen merkkiä ja jopa neljä tavua harvinaisempia characters. - Se on taaksepäin yhteensopiva ASCII
255 ensimmäistä koodi-pistettä koodattu UTF-8 ovat täsmälleen samat asASCII. ASCII-oli laajalti käytetty formaatti, ennen kuin UTF-8 tuli popular.By on taaksepäin yhteensopiva, UTF-8-ohjelmat voivat käsitellä filesencoded ASCII ilman uudelleen koodata ne.
saatat silti törmätä asiakirjoihin tai verkkosivustoihin, jotka eivät käytä UTF-8: aa.Todennäköisesti sivustoilla, jotka käyttävät Itäistä kieltä kuten mandariinia.Miksi?, Koska sivuston omistajat eivät halua räjäyttää rahojaan onbandwidth kustannuksia. Kuulostaako oudolta? Anna kun selitän. Latinalaisilla kirjaimilla kirjoitettavat dokumentit ovat kooltaan pienempiä, sillä yleisimmät kirjoitusmerkit ovat vain yhden tavun kokoisia. Muut kirjoitusjärjestelmät koodataan inUnicode alueet, joissa yksi merkki voi olla jopa neljä tavua iso! Sothese documents are just bigger than documents written in a languagethat uses Latin characters. Esimerkki tästä ilmiöstä on preussilainen sosiaalinen verkkosivusto, vk.com., Tämä sivusto käyttää Windows-1251-koodausta, koska se koodaa kyrillistä kirjoitusjärjestelmää yhden tavun widecharactereilla, mikä säästää kaistanleveyttä.
Nykyään UTF-8 on yleisimmin käytetty teksti-muodossa internetissä.Se on myös selkäranka tällä sivustolla, ilman Unicode, Lenny ja kaikki muut dongers olisi todennäköisesti ainoastaan ASCII-characterrange.
Leave a Reply