Unicode 소개
어느 좋은 날에 인류는 전자 컴퓨터를 발명했습니다. 그들은 전 세계의 다양한 사람들이 유용한 도구로 사용했습니다.모두가 행복했습니다.
그러나,이 사람들은 텍스트의 형태로 자신의 작품,이야기 및 funnyjokes 를 서로에게 보내고 싶었습니다. 그리고 불행히도,이 사람들은사람들은 결코 하나의 언어와 글쓰기 시스템을 사용하는 것에 동의 할 수 없었습니다.그건 괜찮아,하지만 그들은 또한 자신의 텍스트에 대한 하나의 encodingformat 사용에 동의하지 않았다.,
레거시 인코딩
보시다시피 컴퓨터는 문자와 줄로 생각하지 않지만 비트,바이트 및 숫자로 생각합니다. 그래서 우리 인간은 textas 에게 숫자의 무리를 표현하는 방법을 마련했다… 그냥 컴퓨터가 처리 할 수있는 숫자에 선택의 writingsystem 에서 기호를 매핑합니다. 예를 들어,지금 읽고있는 텍스트에서 소문자 라틴 알파벳 인 ato z 는 97 에서 122 까지의 숫자를 포함합니다. 그러나 모든 사람이컴퓨터에서 라틴어를 읽을 수 있습니다., 이 사람은 스크립트를 사용하여 다음과 같 키릴 문자,그리스어,아랍어,한 Katanka 와 한자들이 사용 samenumbertrick 인코딩하는 자신의 텍스트입니다. 예를 들어,키릴 문자 Д(De)인코딩으로 수 196Windows-1251 인코딩 어디에서 ASCII 확장 encoding 그것은’─’,수직 라인을 사용하 drawboxes.
그 열기 전에는 텍스트 파일을 전송하여 당신의 친구는 다른 측면에서의 세계로,당신은 당신이 알고 있는 그들은 인코딩하는 데 사용 writethat 파일입니다. 당신은 추측 할 수 있지만,거의 60 이 오래된 인코딩이 많이 있습니다!, 따라서 파일을 열 때 다음과 같이 보일 수 있습니다.이:
이것에 대한 올바른 용어는 mojibake 입니다.
UTF-8
그렇다면이 모든 다른 인코딩을 갖는 문제를 어떻게 해결합니까?글쎄,대답은 아주 간단합니다:단지 하나의 큰 인코딩을 만드십시오.그것은 모든 것들과 기호들을 포함합니다. 이것은 유니 코드입니다. 유니코드는 소위 코드 포인트 또는 문자의 범위를 지정합니다. 실제 인코딩 자체가 아니라 유니 코드 포인트를 인코딩하는 데 사용되는 형식 중 하나입니다. 가장 일반적으로 사용되는 유니 코드 형식은 다음과 같습니다.utf-8., UTF-16 및 UTF-32 와 같은 다른 형식이 있지만 Utf-8 은 유니 코드에 대한 가장 멋진 형식입니다.
- 그것은 무엇이든 저장할 수 있습니다.
전 인코딩 필요로 하는 전체 문서를 작성할을 사용하여 동일한 인코딩하고 따라서 쓰는 시스템을 억제하는 사용자 fromusing 여러 개의 작성 시스템에서 하나의 문서입니다. Utf-8 사용자 수와 함께. - 가변 문자 길이를 사용합니다.
유니 코드에는 최대 4,294,967,296(4 바이트=32 비트=2^32)코드 포인트를위한 공간이 있습니다. 문서와 웹 사이트는 각 문자가 4 바이트 큰 경우 4 배가됩니다., UTF-8 은 대부분의 라틴 문자에 대해 onebyte 만 사용하고 덜 일반적인 문자에는 최대 4 바이트를 사용합니다. - ASCII
utf-8 로 인코딩 된 첫 번째 255 코드 포인트는 ascii 와 정확히 동일합니다. ASCII 었 널리 사용되는 형식기 전에 UTF-8 되었다 popular.By 되는 하위 호환성,UTF-8 프로그램을 처리할 수 있 filesencoded ASCII 하지 않고도 다시 인코딩합니다.
UTF-8 을 사용하지 않는 문서 나 웹 사이트가 여전히 발생할 수 있습니다.만다린과 같은 동부 언어를 사용하는 웹 사이트에서 가장 가능성이 높습니다.왜?, 웹 사이트 소유자가 자신의 돈을 날려 버리고 싶지 않기 때문에밴드 비용. 이상하게 들리는가? 글쎄,내가 설명하자. 라틴 문자가 많은 문서는 가장 일반적이기 때문에 크기가 더 작습니다.문자는 단지 1 바이트 큽니다. 다른 쓰기 시스템은단일 문자가 최대 4 바이트까지 커질 수있는 유니 코드 범위! 소세지 문서는 언어로 작성된 문서보다 큽니다.라틴 문자를 사용합니다. 이 현상의 예는러시아 사회 웹 사이트,vk.com., 이 웹 사이트는 키릴 문자 쓰기 시스템을 1 바이트 widecharacters 로 인코딩하므로 Windows-1251encoding 을 사용하여 대역폭을 절약합니다.
요즘,UTF-8 는 가장 일반적으로 사용되는 텍스트 형식으로 인터넷에 있습니다.그것은 또한 중추를 이 웹사이트의없이,유니코드,Lenny 고 모든 다른 dongers 것에 한정되 ASCII characterrange.피>
Leave a Reply