A Unicode-ról
egy jó napon az emberiség feltalálta az elektronikus számítógépeket. A világ minden tájáról különböző emberek hasznos eszközként használták őket.Mindenki boldog volt.
de aztán ezek az emberek szöveg formájában akarták elküldeni egymásnak a munkájukat, történeteiket és vicceiket. És sajnos ezeknek a sillypeople-knek soha nem sikerült megegyezniük egy nyelv és írásrendszer használatában.Ez rendben van, de nem egyeztek meg abban sem, hogy egy kódolást használnak a szövegükhöz.,
Legacy Encodings
látod, a számítógépek nem betűkkel és sorokkal gondolkodnak, hanem bitekben, bytesand számokban. Tehát nekünk, embereknek kellett kitalálnunk egy módot, hogy képviseljük a szövegeketmint egy csomó szám … könnyű! Csak térképezzen egy szimbólumot az írásodbóla választott rendszer egy olyan számra, amelyet a számítógép képes kezelni. Például a most olvasott szövegben a kisbetűs latin ábécét, az ato z-t a 97-122-es számok tartalmazzák. De nem mindenki tud olvasni latinul., Ezek a srácok olyan szkripteket használnak, mint a cirill, görög, arab, Han, Katanka és Kanji, és ugyanazt használták a szöveg kódolásához. Például a Cirill betű Д(De) van kódolva, mint a szám 196 a Windows-1251 kódolás, ahol a Kiterjesztett ASCII kódolás, mert─’, egy függőleges vonal használt drawboxes.
tehát mielőtt megnyit egy szöveges fájlt, amelyet a barátja küldött a világ másik felén, először tudnia kell, hogy melyik kódolást használták a fájl írásához. Kitalálhatod, de sok ilyen régi kódolás van,majdnem 60!, Tehát a fájl megnyitásakor valami hasonlónak tűnhetez:
a helyes kifejezés erre a mojibake.
UTF-8
tehát hogyan oldjuk meg azt a problémát, hogy mindezen különböző kódolások vannak?Nos, a válasz nagyon egyszerű: csak hozzon létre egy nagy kódolásamely tartalmazza az összes dolgot, szimbólumot. Ez Unicode. A unicodes az úgynevezett Kódpontok vagy karakterek tartományait határozza meg. Ez nem maga a tényleges kódolás, ez lenne az egyik használt formátuma Unicode pontok kódolásához. A leggyakrabban használt Unicode formátumautf-8., Vannak más formátumok, mint az UTF-16 és UTF-32, de UTF-8 themost félelmetes formátum Unicode mert:
- tud tárolni semmit.
Régi kódolások lenne szükség az egész dokumentum írásos kapunk azonos kódolást, így az írás rendszer, gátolja a felhasználó fromusing több írás rendszerek egyetlen dokumentumban. A UTF-8users lehet. - változó karakterhosszt használ.
Unicode van hely akár 4,294,967,296 (4 bájt = 32 bit = 2^32)kód-pont. A dokumentumok és a weboldalak négyszeresére nőnének, ha minden karakter 4 bájt nagy lenne., Az UTF-8 csak az onebyte-t fogja használni a legtöbb latin karakterhez, legfeljebb négy bájtot a kevésbé gyakoriakarakterek. - visszafelé kompatibilis ASCII
az UTF-8 által kódolt első 255 kódpont pontosan ugyanaz, mint az ASCII. Az ASCII széles körben használt formátum volt, mielőtt az UTF-8 lett popular.By mivel visszafelé kompatibilis, UTF-8 programok képes kezelni filesencoded ASCII anélkül, hogy újra kódolni őket.
továbbra is találkozhat olyan dokumentumokkal vagy webhelyekkel, amelyek nem használják az UTF-8-at.Valószínűleg olyan weboldalakon, amelyek Keleti nyelvet használnak, mint a Mandarin.Miért?, Mivel a weboldal tulajdonosai nem akarják felrobbantani a pénzüketbandwidth költségek. Furcsán hangzik? Hadd magyarázzam meg. A sok latin karakterrel rendelkező dokumentumok kisebbek, mivel a leggyakoribbakkarakterek csak egy bájt nagyok. Más írási rendszerek be vannak kódolvaunicode tartományok, ahol egyetlen karakter lehet akár négy bájt nagy! Tehát ezek a dokumentumok csak nagyobbak, mint a nyelven írt dokumentumok, amelyek Latin karaktereket használnak. Erre a jelenségre példa aOrosz szociális weboldal, vk.com., Ez a weboldal A Windows-1251encoding-ot használja, mivel a cirill írási rendszert egy bájtos widecharacters-ben kódolja, sávszélességet takarít meg.
manapság az UTF-8 A leggyakrabban használt szövegformátum a internet.It ez a weboldal gerince is, Unicode, Lenny és allthe other dongers nélkül valószínűleg az ASCII characterrange-re korlátozódna.
Leave a Reply