Unicode
Sur un bon jour, l’humanité a inventé les ordinateurs électroniques. Ils ont été adoptés comme un outil utile par diverses personnes du monde entier.Tout le monde était heureux.
Mais alors, ces gens voulaient s’envoyer leur travail, leurs histoires et leurs blagues sous forme de texte. Et malheureusement, ces sillles gens n’ont jamais réussi à s’entendre sur l’utilisation d’une langue et d’un système d’écriture.C’est bien, mais ils n’ont pas non plus convenu d’utiliser un encodingformat pour leur texte.,
encodages hérités
vous voyez, les ordinateurs ne pensent pas en Lettres et en lignes, mais en bits, en octets et en chiffres. Nous, les humains, avons donc dû trouver un moyen de représenter du textecomme un tas de chiffres Easy facile! Il suffit de mapper un symbole de votre écritsystème de choix à un nombre qu’un ordinateur peut gérer. Par exemple, dans le texte que vous lisez en ce moment, l’alphabet latin minuscule, ato z, est carié par les chiffres 97 à 122 inclus. Mais pas tout le mondeavec un ordinateur peut lire le latin., Ces gars utilisent des scripts comme Cyrillique, grec, arabe, Han, Katanka et Kanji, et ils ont utilisé le samenumbertrick pour encoder leur texte. Par exemple, la lettre cyrillique к(De) est codée comme le nombre 196 dans le codage Windows-1251 où dans le codage étendu ASCII, il est’─’, une ligne verticale utilisée pour drawboxes.
donc, avant d’ouvrir un fichier texte envoyé par votre ami de l’autre côté du monde, vous devez d’abord savoir quel encodage ils ont utilisé pour écrire ce fichier. Vous pouvez deviner, mais il y a beaucoup de ces vieux encodages,presque 60!, Donc, lorsque vous ouvrez le fichier, cela peut ressembler à ceci:
le terme correct pour cela est mojibake.
UTF-8
Donc, comment pouvons-nous résoudre le problème de tous ces différents codages?Eh bien, la réponse est assez simple: il suffit de créer un seul gros encodage qui contient toutes les choses et les symboles. C’est de l’Unicode. Unicodespécifie les plages de ce qu’on appelle des points de code ou des caractères. Ce n’est pas le codage réel lui-même, ce serait l’un des formats utilisés pour encoder des points Unicode. Le format Unicode le plus couramment utilisé estutf-8., Il existe d’autres formats comme UTF-16 et UTF-32, mais UTF-8 est le format le plus génial pour Unicode car:
- Il peut stocker n’importe quoi.
Les anciens encodages nécessiteraient que le document entier soit écrit en utilisant le même système d’encodage et donc d’écriture, empêchant l’utilisateur d’utiliser plusieurs systèmes d’écriture dans un seul document. Avec l’encodage UTF-8users peut. - Il utilise une longueur de caractère variable.
Unicode peut contenir jusqu’à 4 294 967 296 (4 octets = 32 bits = 2^32)points de code. Les Documents et les sites Web deviendraient quatre fois plus grands lorsque chaque caractère est de 4 octets., UTF – 8 n’utilisera qu’un octet pour la plupart des caractères latins et jusqu’à quatre octets pour les caractères moins courants. - Il est rétrocompatible avec ASCII
Les 255 premiers points de code codés par UTF-8 sont exactement les mêmes asASCII. ASCII était un format largement utilisé avant UTF – 8 est devenu popular.By étant rétrocompatibles, les programmes UTF-8 peuvent gérer les fichiers codés en ASCII sans avoir à les réencoder.
Vous pouvez toujours rencontrer des documents ou des sites Web qui n’utilisent pas UTF-8.Très probablement sur les sites Web qui utilisent une langue orientale comme le Mandarin.Pourquoi?, Parce que les propriétaires de sites web ne veulent pas souffler leur argent surles coûts de largeur de bande. Des sons étranges? Eh bien, laissez-moi vous expliquer. Les Documents avec beaucoup de caractères latins sont de plus petite taille car les plus courantsles caractères ne sont que d’un octet. D’autres systèmes d’écriture sont codés dansdes plages d’un code où un seul caractère peut atteindre quatre octets! Ces documents sont donc plus volumineux que les documents écrits dans une langue qui utilise des caractères latins. Un exemple de ce phénomène est le site web social russe, vk.com., Ce site utilise Windows-1251encoding car il Code le système D’écriture cyrillique en caractères larges d’un octet, économisant ainsi la bande passante.
de nos jours, UTF-8 est le format de texte le plus couramment utilisé sur le internet.It est également l’épine dorsale de ce site Web, sans Unicode, Lenny et tous les autres dongers seraient probablement limités à la plage de caractères ASCII.
Leave a Reply