Über Unicode
An einem guten Tag, die Menschheit erfand elektronischen Computer. Sie wurden von verschiedenen Menschen auf der ganzen Welt als nützliches Werkzeug angeboten.Alle waren glücklich.
Aber dann wollten diese Leute ihre Arbeit, Geschichten und Funnyjokes in Form von Text aneinander senden. Und leider haben es diese Sillypeople nie geschafft, sich auf die Verwendung einer Sprache und eines Schreibsystems zu einigen.Das ist in Ordnung, aber sie haben sich auch nicht darauf geeinigt, ein Encodingformat für ihren Text zu verwenden.,
Legacy-Codierungen
Sie sehen, Computer denken nicht in Buchstaben und Zeilen, sondern in Bits, Bytesund Zahlen. Also mussten wir Menschen einen Weg finden, Textas eine Reihe von Zahlen darzustellen… Einfach! Ordnen Sie einfach ein Symbol aus Ihrem Schreibsystem Ihrer Wahl einer Zahl zu, mit der ein Computer umgehen kann. Zum Beispiel wird in dem Text, den Sie gerade lesen, das lateinische Kleinbuchstabenalphabet ato z mit den Zahlen 97 bis 122 einschließlich kariert. Aber nicht jeder Computer kann Latein lesen., Diese Jungs verwenden Skripte wie Kyrillisch, Griechisch, Arabisch, Han, Katanka und Kanji, und sie verwendeten den samenumbertrick, um ihren Text zu kodieren. Zum Beispiel wird der kyrillische Buchstabe Д(De) als die Zahl 196 in der Windows-1251-Codierung codiert, wobei inder ASCII-erweiterten Codierung “ ─ “ ist, eine vertikale Linie, die zum Zeichnen von Feldern verwendet wird.
Bevor Sie also eine von Ihrem Freund auf der anderen Seite der Welt gesendete Textdatei öffnen, müssen Sie zuerst wissen, mit welcher Codierung sie diese Datei geschrieben haben. Sie können erraten,aber es gibt viele dieser alten Kodierungen, fast 60!, Wenn Sie also die Datei öffnen, sieht sie möglicherweise so aus:
Der richtige Begriff dafür ist mojibake.
UTF-8
Wie beheben wir das Problem, all diese verschiedenen Codierungen zu haben?Nun, die Antwort ist ganz einfach: Erstellen Sie einfach eine einzige große Codierungdas enthält alle Dinge und Symbole. Dies ist Unicode. Unicodespecifies Bereiche von sogenannten Codepunkten oder Zeichen. Es ist nicht die eigentliche Codierung selbst, das wäre eines der Formate verwendet Unicode-Punkte zu kodieren. Das am häufigsten verwendete Unicode-Format istutf-8., Es gibt andere Formate wie UTF-16 und UTF-32, aber UTF-8 ist das ehrfürchtigste Format für Unicode, weil:
- Es kann alles speichern.
Alte Kodierungen würden erfordern, dass das gesamte Dokument mit demselben Kodierungs-und damit Schreibsystem geschrieben wird, wodurch der Benutzer daran gehindert wird, mehrere Schreibsysteme in einem einzigen Dokument zu verwenden. Mit UTF-8users können. - Es verwendet eine variable Zeichenlänge.
Unicode-bietet Platz für bis zu 4,294,967,296 (4 bytes = 32 bit = 2^32)code-Punkte. Dokumente und Websites würden viermal so groß werden, wenn jedes Zeichen 4 Byte groß ist., UTF-8 verwendet nur ein Byte für die meisten lateinischen Zeichen und bis zu vier Bytes für weniger häufige Zeichen. - Es ist abwärtskompatibel mit ASCII
Die ersten 255 von UTF-8 codierten Codepunkte sind genau die gleichen ASCII. ASCII war ein weit verbreitetes Format, bevor UTF-8 wurde popular.By UTF-8-Programme sind abwärtskompatibel und können in ASCII codierte Dateien verarbeiten, ohne sie neu codieren zu müssen.
Möglicherweise finden Sie weiterhin Dokumente oder Websites, die UTF-8 nicht verwenden.Höchstwahrscheinlich auf Websites, die eine östliche Sprache wie Mandarin verwenden.Warum?, Denn die Websitebesitzer wollen ihr Geld nicht in die Kassen spülen. Klingt seltsam? Nun, lassen Sie mich erklären. Dokumente mit vielen lateinischen Zeichen sind kleiner, da die Häufigstenzeichen sind nur ein Byte groß. Andere Schreibsysteme sind inUnicode-Bereiche codiert, in denen ein einzelnes Zeichen bis zu vier Bytes groß sein kann! Sothese Dokumente sind nur größer als Dokumente in einer Sprache geschrieben, die lateinische Zeichen verwendet. Ein Beispiel für dieses Phänomen ist dieRussische soziale Website, vk.com., Diese Website verwendet die Windows-1251encoding, da sie das kyrillische Schreibsystem in Ein-Byte-Widecharacters codiert, wodurch Bandbreite gespart wird.
UTF-8 ist heutzutage das am häufigsten verwendete Textformat auf der internet.It ist auch das Rückgrat dieser Website, ohne Unicode, Lenny und alleDie anderen Dongers wären wahrscheinlich auf den ASCII-Zeichenbereich beschränkt.
Leave a Reply