despre Unicode
într-o zi bună, omenirea a inventat calculatoare electronice. Ei au fostadoptați ca un instrument util de către diverși oameni din întreaga lume.Toată lumea era fericită.
dar apoi, acești oameni au vrut să-și trimită munca, poveștile și amuzantelejocuri între ele sub formă de text. Și, din păcate, acești prostioamenii nu au reușit niciodată să fie de acord cu utilizarea unui sistem de limbă și scriere.Asta e bine, dar ei, de asemenea, nu au fost de acord cu utilizarea unui codificareformat pentru textul lor.,vedeți, computerele nu gândesc în litere și linii, ci în biți, bytesand numere. Așa că noi oamenii a trebuit să vină cu o modalitate de a reprezenta textca o grămadă de numere… ușor! Doar cartografiați un simbol din scrissistem de alegere la un număr pe care un computer îl poate gestiona. De exemplu, în textul pe care îl citiți chiar acum, alfabetul latin cu litere mici, ato z, este cariat de numerele 97 până la 122 inclusiv. Dar nu toată lumea cu un computer poate citi limba latină., Tipii ăștia folosi script-uri ca Chirilică,greacă, arabă, Han, iacă-tă și Kanji, și au folosit samenumbertrick pentru a codifica textul lor. De exemplu, litera chirilică Д (de) este codificată ca numărul 196 în codificarea Windows-1251 unde codificarea extinsă ASCII este”─”, o linie verticală folosită pentru cutii de desen.deci, înainte de a deschide un fișier text trimis de prietenul tău din cealaltă parte a lumii, trebuie mai întâi să știi ce codificare au folosit pentru a scrie acel fișier. Puteți ghici, dar există o mulțime de aceste codificări vechi, aproape 60!, Deci, atunci când deschideți fișierul, ar putea arăta ceva de genul acest lucruacest lucru:
termenul corect pentru acest lucru este mojibake.
UTF-8
deci, cum putem rezolva problema de a avea toate aceste codificări diferite?Ei bine, răspunsul este destul de simplu: creați doar o singură codificare marecare conține toate lucrurile și simbolurile. Aici Unicode. Unicodespecifies intervale de așa-numitele Cod-puncte sau caractere. Nu este codificarea propriu-zisă, acesta ar fi unul dintre formatele utilizatepentru a codifica punctele Unicode. Cel mai frecvent utilizat format Unicode esteutf-8., Există și alte formate precum UTF-16 și UTF-32, dar UTF-8 este cel mai minunat format pentru Unicode deoarece:
- poate stoca orice.
codificările vechi ar necesita scrierea întregului document folosind același sistem de codificare și deci de scriere, inhibând utilizatorul să folosească mai multe sisteme de scriere într-un singur document. Cu UTF-8UTILIZATORII pot. - utilizează o lungime variabilă a caracterelor.
Unicode are loc până la 4,294,967,296 (4 octeți = 32 biți = 2^32)Cod-puncte. Documentele și site-urile web ar deveni de patru ori mai mari atunci când fiecare caracter este de 4 octeți mari., UTF-8 va folosi doar onebyte pentru cele mai multe caractere latine și până la patru octeți pentru mai puțin commoncharacters. - este compatibil cu ASCII
primele 255 de puncte codificate de UTF-8 sunt exact aceleași asASCII. ASCII a fost un format utilizat pe scară largă înainte de UTF-8 a devenit popular.By fiind compatibil, UTF-8 programe pot ocupa filesencoded în ASCII, fără a fi nevoie să le re-encode.este posibil să întâlniți în continuare documente sau site-uri web care nu utilizează UTF-8.Cel mai probabil pe site-urile web care folosesc o limbă estică precum mandarina.De ce?, Deoarece proprietarii de site-uri web nu doresc să-și arunce banii pe costurile de lățime de bandă. Sună ciudat? Lasă-mă să-ți explic. Documentele cu o mulțime de caractere latine sunt mai mici, deoarece cele mai comunecaracterele sunt doar un octet mare. Alte sisteme de scriere sunt codificate înunicode în care un singur caracter poate fi de până la patru octeți mari! Deci, aceste documente sunt doar mai mari decât documentele scrise într-o limbăcare utilizează caractere latine. Un exemplu al acestui fenomen estesite-ul social rusesc, vk.com., Acest site utilizează codificarea Windows-1251, deoarece codifică sistemul de scriere chirilică într-un singur octet, economisind lățimea de bandă.în zilele noastre, UTF-8 este cel mai folosit format text de pe internet.Este, de asemenea, coloana vertebrală a acestui site, fără Unicode, Lenny și toate celelalte dongers ar fi probabil limitat la ASCII characterrange.
Leave a Reply