Веб-школа - Разметка страниц - Кодировки html документов // Вебшкола онлайн

Чтобы правильно отобразить html-страницу, браузеру необходимо знать какая кодировка использовалась при создании страницы.

Первой кодировкой для раннего интернета был ASCII. Эта кодировка поддерживала цифры от 1 до 9, строчные и прописные буквы латинского алфавита и некоторые специальные символы.

Полная справка по ASCII

Во многих странах используются символы, которые не входят в стандарт ASCII, поэтому для современных браузеров кодировкой по умолчанию является ISO-8859-1.

Полная справка по ISO-8859-1

При использовании кодировки страницы, отличной от ISO-8859-1, вам необходимо указать это в теге meta.

Кодировка ISO

Это Организация Международных стандартов (International Standards Organization), которая определяет стандартные кодировки для различных алфавитов/языков.

Различные кодировки, используемые по всему миру, перечислены в таблице ниже:

Кодировка	Описание	Использование
ISO-8859-1	Латинский алфавит часть 1	Северная Америка, Западная Европа, Латинская Америка, Каррибские острова, Канада, Африка
ISO-8859-2	Латинский алфавит часть 2	Восточная Европа
ISO-8859-3	Латинский алфавит часть 3	Турецкий, мальтийский языки и эсперанто
ISO-8859-4	Латинский алфавит часть 4	Скандинавия и Балтика
ISO-8859-5	Латинский алфавит/Кириллица часть 5	Языки, использующие в письме кириллицу (русский, болгарский, белорусский и македонский)
ISO-8859-6	Латинский/Арабский алфавит часть 6	Языки, использующие в письме арабский алфавит
ISO-8859-7	Латинский/Греческий алфавит часть 7	Греческий язык
ISO-8859-8	Латинский/Иврит	Иврит
ISO-8859-9	Вариант Латинского алфавита-1	Турецкий, курдский язык
ISO-8859-10	Вариант Латинского алфавита-4	Скандинавские языки
ISO-8859-15	Латинский 9	Финский, французский и эстонский языки, знак евро
ISO-2022-JP	Латинский/Японский алфавит часть 1	Японский язык
ISO-2022-JP-2	Латинский/Японский алфавит часть 2	Японский язык
ISO-2022-KR	Латинский/Корейский алфавит часть 1	Корейский язык

Стандарт Unicode

Поскольку кодировки, перечисленные выше, ограничены по размеру и не совместимы с многоязычной средой, Консорциум Unicode разрабатывал свой стандарт.

Стандарт Unicode включает в себя все символы, используемые в мире.

Стандарт Unicode позволяет обрабатывать, хранить и обмениваться текстовой информацией независимо от платформы, программного обеспечения и языка.

Консорциум Unicode

Консорциум Unicode разработал стандарт Unicode. Цель консорциума — заменить существующие кодировки своим стандартным Форматом Преобразования Unicode (Unicode Transformation Format — UTF).

Стандарт Unicode был успешно введен в XML, Java, ECMAScript (JavaScript), LDAP, CORBA 3.0, WML и т.д. Кроме того, станрадт Unicode поддерживается во многих операционных системах и современных браузерах.

Консорциум Unicode сотрудничает с ведущими организациями по разработке стандартов, такими как ISO, W3C и ECMA.

Чаще всего используют кодировки Unicode UTF-8 и UTF-16:

Кодировка	Описание
UTF-8	Символы в UTF-8 могут быть длиной от 1 до 4 байт. С помощью этой кодировки можно отобразить любой символ. UTF-8 обратно совместим со стандартом ASCII. UTF-8 — рекомендованная кодировка для электронной почты и веб-страниц.
UTF-16	16-битный формат преобразования Unicode позволяет кодировать любые символы переменной длины. Эта кодировка используется в основных операционных системах и средах разработки, таких как Microsoft Windows 2000/XP/2003/Vista/CE, Java и .NET.

Совет: первые 256 символов кодировок Unicode соответствуют 256 символам ISO-8859-1.

Совет: HTML 4 уже поддерживает UTF-8, а XHTML и XML — поддерживают UTF-8 и UTF-16!