Informazioni su Unicode
In un buon giorno, l’umanità ha inventato i computer elettronici. Sono stati adottati come strumento utile da varie persone in tutto il mondo.Tutti erano felici.
Ma poi, queste persone volevano inviare il loro lavoro, storie e funnyjokes l’un l’altro sotto forma di testo. E sfortunatamente, questi stupidile persone non sono mai riuscite a concordare l’uso di una lingua e di un sistema di scrittura.Va bene, ma non hanno nemmeno concordato di utilizzare un encodingformat per il loro testo.,
Codifiche legacy
Vedete, i computer non pensano in lettere e linee, ma in bit, byte e numeri. Quindi noi umani abbiamo dovuto trovare un modo per rappresentare il testocome un mucchio di numeri Easy Facile! Basta mappare un simbolo dal tuo writingsystem di scelta a un numero che un computer può gestire. Ad esempio, nel testo che stai leggendo in questo momento, l’alfabeto latino minuscolo, ato z, è cariato dai numeri da 97 a 122 inclusi. Ma non tutticon un computer può leggere il latino., Questi ragazzi usano script come cirillico, greco, arabo, Han, Katanka e Kanji, e hanno usato lo stesso numerotrick per codificare il loro testo. Ad esempio, la lettera cirillica Д(De) è codificata come il numero 196 nella codifica Windows-1251 dove inla codifica estesa ASCII è’─’, una linea verticale utilizzata per disegnare caselle.
Quindi prima di aprire un file di testo inviato dal tuo amico dall’altra parte del mondo, devi prima sapere quale codifica hanno usato per scrivere quel file. Puoi indovinare, ma ci sono molte di queste vecchie codifiche, quasi 60!, Quindi, quando apri il file, potrebbe sembrare qualcosa di similequesto:
Il termine corretto per questo è mojibake.
UTF-8
Quindi come risolviamo il problema di avere tutte queste diverse codifiche?Beh, la risposta è abbastanza semplice: basta creare un unico grande codificache contiene tutte le cose e simboli. Questo è Unicode. Unicodespecifica intervalli di cosiddetti code-point o caratteri. Non è la codifica effettiva stessa, che sarebbe uno dei formati utilizzati per codificare i punti Unicode. Il formato Unicode più comunemente usato ÈUTF-8., Ci sono altri formati come UTF-16 e UTF-32, ma UTF-8 è il formato più fantastico per Unicode perché:
- Può memorizzare qualsiasi cosa.
Le vecchie codifiche richiederebbero che l’intero documento venga scritto utilizzando la stessa codifica e quindi il sistema di scrittura, inibendo l’utente dall’utilizzo di più sistemi di scrittura in un singolo documento. Con UTF-8 gli utenti possono. - Utilizza una lunghezza di carattere variabile.
Unicode ha spazio per un massimo di 4.294.967.296 (4 byte = 32 bit = 2^32)punti di codice. Documenti e siti Web diventerebbero quattro volte più grandi quando ogni carattere è grande 4 byte., UTF-8 utilizzerà solo onebyte per la maggior parte dei caratteri latini e fino a quattro byte per caratteri meno comuni. - È retrocompatibile con ASCII
I primi 255 punti di codice codificati da UTF-8 sono esattamente gli stessi di ASCII. ASCII era un formato ampiamente utilizzato prima che UTF-8 diventasse popular.By essendo retrocompatibili, i programmi UTF-8 possono gestire filesencoded in ASCII senza doverli ricodificare.
Si possono ancora incontrare documenti o siti web che non utilizzano UTF-8.Molto probabilmente su siti web che utilizzano una lingua orientale come il mandarino.Perché?, Perché i proprietari del sito web non vogliono soffiare i loro soldi sui costi di larghezza di banda. Suona strano? Beh, lascia che ti spieghi. I documenti con un sacco di caratteri latini sono di dimensioni più piccole poiché i caratteri più comuni sono grandi solo un byte. Altri sistemi di scrittura sono codificati ingamme di codici univoci in cui un singolo carattere può essere grande fino a quattro byte! Sothese documenti sono solo più grande di documenti scritti in un languagethat utilizza caratteri latini. Un esempio di questo fenomeno è ilsito sociale russo, vk.com., Questo sito web utilizza Windows-1251encoding poiché codifica il sistema di scrittura cirillico in caratteri widecharacters a un byte, risparmiando larghezza di banda.
Al giorno d’oggi, UTF-8 è il formato di testo più comunemente usato sul internet.It è anche la spina dorsale di questo sito web, senza Unicode, Lenny e tutti gli altri donger sarebbero probabilmente limitati al characterrange ASCII.
Leave a Reply