Unicode
dobrý den, lidstvo vynalezl elektronických počítačů. Byli považováni za užitečný nástroj různých lidí po celém světě.Všichni byli šťastní.
ale pak, tito lidé chtěli poslat svou práci, příběhy a funnyjokes k sobě ve formě textu. A bohužel se tito sillypeople nikdy nedokázali dohodnout na používání jednoho jazyka a psacího systému.To je v pořádku, ale také se nedohodli na použití jednoho enkodingformatu pro svůj text.,
starší kódování
vidíte, počítače nemyslí písmeny a řádky, ale v bitech, bytesand čísla. Takže my lidé jsme museli přijít s tím, jak reprezentovat textyjako spoustu čísel … snadné! Stačí zmapovat symbol z vašeho psanísystém výběru na číslo, které může počítač zvládnout. Například v textu, který právě čtete, je malá latinská abeceda, ato z, caried čísly 97 až 122 včetně. Ale ne každý s počítačem umí číst latinu., Tito lidé používají skripty jako cyrilice, řečtina, arabština, Han, Katanka a Kanji, a oni používali samenumbertrick kódovat jejich text. Například, Cyrilice dopis Д(De) je kódován jako číslo 196 ve Windows-1251 kódování, kde v ASCII Rozšířené kódování je ‚─‘, vertikální linka používá se k drawboxes.
takže před otevřením textového souboru odeslaného vaším přítelem na druhé straně světa musíte nejprve vědět, které kódování použili k napsánítento soubor. Můžete hádat,ale existuje mnoho těchto starých kódování, téměř 60!, Takže když otevřete soubor, může to vypadat podobnětoto:
správný termín pro toto je mojibake.
UTF-8
Jak tedy vyřešíme problém se všemi těmito různými kódování?No, odpověď je poměrně jednoduchá: stačí vytvořit jeden velký kódováníkterý obsahuje všechny věci a symboly. Tohle je Unicode. Unicodespecifies rozsahy tzv kódových bodů nebo znaků. Není to samotné kódování, to by byl jeden z použitých formátů pro kódování bodů Unicode. Nejčastěji používaný formát Unicode jeutf-8., Existují i jiné formáty, jako UTF-16 a UTF-32, ale UTF-8 je těch nejvíce úžasné formátu Unicode, protože:
- Je možné uložit cokoliv.
Staré kódování by vyžadovalo celý dokument musí být napsán pomocí stejného kódování, a tedy psaní systém, inhibuje uživatel odpomocí více psaní systémy v jediném dokumentu. S UTF – 8uživatelé mohou. - používá proměnnou délku znaku.
Unicode má prostor až pro 4,294,967,296 (4 bajty = 32 bitů = 2^32)Kódové body. Dokumenty a webové stránky by se staly čtyřikrát aslarge když každý znak je 4 bajty velký., UTF-8 bude používat jen onebyte pro většinu latinských znaků a až čtyři bajty pro méně běžnécharacters. - je zpětně kompatibilní s ASCII
prvních 255 kódových bodů kódovaných UTF-8 je přesně stejných asASCII. ASCII byl široce používaný formát, než se UTF-8 stal popular.By programy UTF-8, které jsou zpětně kompatibilní, mohou zpracovávat soubory kódované v ASCII, aniž by je musely znovu zakódovat.
stále se můžete setkat s dokumenty nebo webovými stránkami, které UTF-8 nepoužívají.S největší pravděpodobností na webových stránkách, které používají východní jazyk, jako je Mandarin.Proč?, Protože majitelé webových stránek nechtějí vyhodit své penízenáklady na šířku. Zní to divně? Nech mě to vysvětlit. Dokumenty se spoustou latinských znaků jsou menší, protože nejběžnějšíchpostavy jsou pouze jeden bajt velký. Ostatní psací systémy jsou kódovány inUnicode rozsahy, kde jeden znak může být až čtyři bajty velký! Takže tyto dokumenty jsou jen větší než dokumenty napsané v jazykuže používá latinské znaky. Příkladem tohoto jevu jeRuská sociální webová stránka, vk.com., Tento web používá Windows-1251kódování, protože kóduje systém psaní cyrilice v widecharacterech s jedním bajtem a šetří šířku pásma.
v Dnešní době, UTF-8 je nejvíce běžně používaný formát textu na internetu.To je také páteří této webové stránky, bez Unicode, Lenny a všechny ostatní dongers by pravděpodobně být omezen na ASCII characterrange.
Leave a Reply