acerca de Unicode
en un buen día, la humanidad inventó las computadoras electrónicas. Fueron adoptados como una herramienta útil por varias personas en todo el mundo.Todos estaban felices.
pero entonces, estas personas querían enviar su trabajo, historias y bromas divertidas entre sí en forma de texto. Y desafortunadamente, estas personas estúpidas nunca lograron ponerse de acuerdo sobre el uso de un solo lenguaje y sistema de escritura.Eso está bien, pero tampoco estuvieron de acuerdo en usar un formato de codificación para su texto.,
codificaciones heredadas
verá, las computadoras no piensan en letras y líneas, sino en bits, bytes y números. Así que los humanos tuvimos que idear una forma de representar textos como un montón de números Easy ¡fácil! Simplemente asigne un símbolo de su sistema de escritura de su elección a un número que un equipo pueda manejar. Por ejemplo, en el texto que está leyendo en este momento, el alfabeto latino en minúsculas, ato z, está marcado por los números del 97 al 122 inclusive. Pero no todo el mundo con una computadora puede leer latín., Estos tipos usan scripts como cirílico, griego, árabe, Han, Katanka y Kanji, y usaron el samenumbertrick para codificar su texto. Por ejemplo, la letra cirílica Д(De) está codificada como el número 196 en la codificación de Windows-1251, donde en la codificación ASCII extendida es’─’, una línea vertical utilizada para las cajas de dibujo.
así que antes de abrir un archivo de texto enviado por tu amigo al otro lado del mundo, primero tienes que saber qué codificación usaron para escribir ese archivo. Usted puede adivinar,pero hay un montón de estas codificaciones antiguas, casi 60!, Así que cuando abres el archivo, podría verse algo así:
el término correcto para esto es mojibake.
UTF-8
entonces, ¿cómo solucionamos el problema de tener todas estas codificaciones diferentes?Bueno, la respuesta es bastante simple: simplemente cree una única codificación grande que contenga todas las cosas y símbolos. Esto es Unicode. Unicodespecifica rangos de los llamados puntos de código o caracteres. No es la codificación en sí misma, que sería uno de los formatos utilizados para codificar puntos Unicode. El formato Unicode más utilizado esutf-8., Hay otros formatos como UTF-16 y UTF-32, pero UTF-8 es el formato más impresionante para Unicode porque:
- Puede almacenar cualquier cosa.
Las codificaciones antiguas requerían que todo el documento se escribiera usando la misma codificación y, por lo tanto, el sistema de escritura, inhibiendo al usuario de usar múltiples sistemas de escritura en un solo documento. Con UTF-8Los usuarios pueden. - Utiliza una longitud de caracteres variable.Unicode tiene espacio para hasta 4.294.967.296 (4 bytes = 32 bits = 2^32)puntos de código. Los documentos y los sitios web se convertirían en cuatro veces más grandes cuando cada carácter es de 4 bytes de tamaño., UTF-8 utilizará solo unbyte para la mayoría de los caracteres latinos y hasta cuatro bytes para caracteres menos comunes.
- es retrocompatible con ASCII
Los primeros 255 puntos codificados por UTF-8 son exactamente los mismos asASCII. ASCII era un formato ampliamente utilizado antes de que UTF-8 se convirtiera en popular.By al ser compatibles con versiones anteriores, los programas UTF-8 pueden manejar archivos codificados en ASCII sin tener que recodificarlos.
todavía puede encontrar documentos o sitios web que no utilizan UTF-8.Lo más probable es que en sitios web que utilizan un idioma oriental como el mandarín.¿Por qué?, Porque los propietarios de sitios web no quieren gastar su dinero en costos de ancho de banda. Suena extraño? Bueno, déjame explicarte. Los documentos con muchos caracteres latinos son más pequeños en tamaño ya que los caracteres más comunes son de solo un byte de tamaño. Otros sistemas de escritura están codificados en rangos de código único donde un solo carácter puede ser de hasta cuatro bytes de tamaño! Por lo tanto, estos documentos son simplemente más grandes que los documentos escritos en un idioma que utiliza caracteres latinos. Un ejemplo de este fenómeno es el sitio web social ruso, vk.com., Este sitio web utiliza Windows-1251encoding ya que codifica el sistema de escritura cirílica en caracteres anchos de un byte, ahorrando ancho de banda.
hoy en día, UTF-8 es el formato de texto más utilizado en el internet.It es también la columna vertebral de este sitio web, sin Unicode, Lenny y todos los demás dongers probablemente estarían limitados a la gama de caracteres ASCII.
Leave a Reply