Кодировки html документов // Вебшкола онлайн

 back-4115780 next-5259466

Чтобы правильно отобразить html-страницу, браузеру необходимо знать какая кодировка использовалась при создании страницы.

Первой кодировкой для раннего интернета был ASCII. Эта кодировка поддерживала цифры от 1 до 9, строчные и прописные буквы латинского алфавита и некоторые специальные символы.

Полная справка по ASCII

Во многих странах используются символы, которые не входят в стандарт ASCII, поэтому для современных браузеров кодировкой по умолчанию является ISO-8859-1.

Полная справка по ISO-8859-1

При использовании кодировки страницы, отличной от ISO-8859-1, вам необходимо указать это в теге meta.

Кодировка ISO

Это Организация Международных стандартов (International Standards Organization), которая определяет стандартные кодировки для различных алфавитов/языков.

Различные кодировки, используемые по всему миру, перечислены в таблице ниже:

Кодировка Описание Использование
ISO-8859-1 Латинский алфавит часть 1 Северная Америка, Западная Европа, Латинская Америка, Каррибские острова, Канада, Африка
ISO-8859-2 Латинский алфавит часть 2 Восточная Европа
ISO-8859-3 Латинский алфавит часть 3 Турецкий, мальтийский языки и эсперанто
ISO-8859-4 Латинский алфавит часть 4 Скандинавия и Балтика
ISO-8859-5 Латинский алфавит/Кириллица часть 5 Языки, использующие в письме кириллицу (русский, болгарский, белорусский и македонский)
ISO-8859-6 Латинский/Арабский алфавит часть 6 Языки, использующие в письме арабский алфавит
ISO-8859-7 Латинский/Греческий алфавит часть 7 Греческий язык
ISO-8859-8 Латинский/Иврит Иврит
ISO-8859-9 Вариант Латинского алфавита-1 Турецкий, курдский язык
ISO-8859-10 Вариант Латинского алфавита-4 Скандинавские языки
ISO-8859-15 Латинский 9 Финский, французский и эстонский языки, знак евро
ISO-2022-JP Латинский/Японский алфавит часть 1 Японский язык
ISO-2022-JP-2 Латинский/Японский алфавит часть 2 Японский язык
ISO-2022-KR Латинский/Корейский алфавит часть 1 Корейский язык

Стандарт Unicode

Поскольку кодировки, перечисленные выше, ограничены по размеру и не совместимы с многоязычной средой, Консорциум Unicode разрабатывал свой стандарт.

Стандарт Unicode включает в себя все символы, используемые в мире.

Стандарт Unicode позволяет обрабатывать, хранить и обмениваться текстовой информацией независимо от платформы, программного обеспечения и языка.

Консорциум Unicode

Консорциум Unicode разработал стандарт Unicode. Цель консорциума — заменить существующие кодировки своим стандартным Форматом Преобразования Unicode (Unicode Transformation Format — UTF).

Стандарт Unicode был успешно введен в XML, Java, ECMAScript (JavaScript), LDAP, CORBA 3.0, WML и т.д. Кроме того, станрадт Unicode поддерживается во многих операционных системах и современных браузерах.

Консорциум Unicode сотрудничает с ведущими организациями по разработке стандартов, такими как ISO, W3C и ECMA.

Чаще всего используют кодировки Unicode UTF-8 и UTF-16:

Кодировка Описание
UTF-8 Символы в UTF-8 могут быть длиной от 1 до 4 байт. С помощью этой кодировки можно отобразить любой символ. UTF-8 обратно совместим со стандартом ASCII. UTF-8 — рекомендованная кодировка для электронной почты и веб-страниц.
UTF-16 16-битный формат преобразования Unicode позволяет кодировать любые символы переменной длины. Эта кодировка используется в основных операционных системах и средах разработки, таких как Microsoft Windows 2000/XP/2003/Vista/CE, Java и .NET.

Совет: первые 256 символов кодировок Unicode соответствуют 256 символам ISO-8859-1.

Совет: HTML 4 уже поддерживает UTF-8, а XHTML и XML — поддерживают UTF-8 и UTF-16!

back-4115780 next-5259466 cc081cc9461cc13_20131202130315-7938668