Чтобы правильно отобразить html-страницу, браузеру необходимо знать какая кодировка использовалась при создании страницы.
Первой кодировкой для раннего интернета был ASCII. Эта кодировка поддерживала цифры от 1 до 9, строчные и прописные буквы латинского алфавита и некоторые специальные символы.
Во многих странах используются символы, которые не входят в стандарт ASCII, поэтому для современных браузеров кодировкой по умолчанию является ISO-8859-1.
При использовании кодировки страницы, отличной от ISO-8859-1, вам необходимо указать это в теге meta.
Кодировка ISO
Это Организация Международных стандартов (International Standards Organization), которая определяет стандартные кодировки для различных алфавитов/языков.
Различные кодировки, используемые по всему миру, перечислены в таблице ниже:
Кодировка | Описание | Использование |
---|---|---|
ISO-8859-1 | Латинский алфавит часть 1 | Северная Америка, Западная Европа, Латинская Америка, Каррибские острова, Канада, Африка |
ISO-8859-2 | Латинский алфавит часть 2 | Восточная Европа |
ISO-8859-3 | Латинский алфавит часть 3 | Турецкий, мальтийский языки и эсперанто |
ISO-8859-4 | Латинский алфавит часть 4 | Скандинавия и Балтика |
ISO-8859-5 | Латинский алфавит/Кириллица часть 5 | Языки, использующие в письме кириллицу (русский, болгарский, белорусский и македонский) |
ISO-8859-6 | Латинский/Арабский алфавит часть 6 | Языки, использующие в письме арабский алфавит |
ISO-8859-7 | Латинский/Греческий алфавит часть 7 | Греческий язык |
ISO-8859-8 | Латинский/Иврит | Иврит |
ISO-8859-9 | Вариант Латинского алфавита-1 | Турецкий, курдский язык |
ISO-8859-10 | Вариант Латинского алфавита-4 | Скандинавские языки |
ISO-8859-15 | Латинский 9 | Финский, французский и эстонский языки, знак евро |
ISO-2022-JP | Латинский/Японский алфавит часть 1 | Японский язык |
ISO-2022-JP-2 | Латинский/Японский алфавит часть 2 | Японский язык |
ISO-2022-KR | Латинский/Корейский алфавит часть 1 | Корейский язык |
Стандарт Unicode
Поскольку кодировки, перечисленные выше, ограничены по размеру и не совместимы с многоязычной средой, Консорциум Unicode разрабатывал свой стандарт.
Стандарт Unicode включает в себя все символы, используемые в мире.
Стандарт Unicode позволяет обрабатывать, хранить и обмениваться текстовой информацией независимо от платформы, программного обеспечения и языка.
Консорциум Unicode
Консорциум Unicode разработал стандарт Unicode. Цель консорциума — заменить существующие кодировки своим стандартным Форматом Преобразования Unicode (Unicode Transformation Format — UTF).
Стандарт Unicode был успешно введен в XML, Java, ECMAScript (JavaScript), LDAP, CORBA 3.0, WML и т.д. Кроме того, станрадт Unicode поддерживается во многих операционных системах и современных браузерах.
Консорциум Unicode сотрудничает с ведущими организациями по разработке стандартов, такими как ISO, W3C и ECMA.
Чаще всего используют кодировки Unicode UTF-8 и UTF-16:
Кодировка | Описание |
---|---|
UTF-8 | Символы в UTF-8 могут быть длиной от 1 до 4 байт. С помощью этой кодировки можно отобразить любой символ. UTF-8 обратно совместим со стандартом ASCII. UTF-8 — рекомендованная кодировка для электронной почты и веб-страниц. |
UTF-16 | 16-битный формат преобразования Unicode позволяет кодировать любые символы переменной длины. Эта кодировка используется в основных операционных системах и средах разработки, таких как Microsoft Windows 2000/XP/2003/Vista/CE, Java и .NET. |
Совет: первые 256 символов кодировок Unicode соответствуют 256 символам ISO-8859-1.
Совет: HTML 4 уже поддерживает UTF-8, а XHTML и XML — поддерживают UTF-8 и UTF-16!