Язык, используемый по умолчанию в приложениях, запущенных на
компьютере, указывается при установке операционной системы. Язык по
умолчанию определяет раскладку клавиатуры, кодовую страницу системы,
вид кодировки HTML, используемый установленными на компьютере
приложениями. Кодовые страницы и виды кодировок могут применяться к
различным языкам.
В России на компьютерах используется
кодировка Windows-1251. В этой кодировке содержится большое
число языков (русский, английский, азербайджанский, узбекский и
другие).
Кодировка
-
Однобайтная кодировка используется для представления в компьютере
текстовых данных.
-
Семи- или восьмибитная таблица ASCII позволяет
закодировать 128 или 256 разных знаков.
-
Стандартная кодировка ASCII
использует 7 битов для представления всех прописных и строчных букв, чисел
от 0 до 9, знаков препинания и специальных управляющих символов,
применяемых в английской раскладке для США.
-
Современные системы на базе
процессоров x86 поддерживают расширенную кодировку ASCII.
-
Расширенная
кодировка использует восьмой бит каждого кода для представления 128
дополнительных специальных символов, букв различных алфавитов и
графических знаков.
Кодовая страница
Средство поддержки наборов символов и раскладок клавиатуры для различных
стран и регионов.
Кодовая страница
Таблица, связывающая используемые
программой коды символов с клавишами клавиатуры и знаками на экране.
Служит для поддержки наборов символов и раскладок клавиатуры для различных
стран и регионов.
Юникод
-
Стандарт кодировки знаков, разработанный организацией Unicode Consortium,
который позволяет представить знаки практически всех письменных языков.
-
Набор знаков в кодировке Юникод имеет несколько форм представления,
включая UTF-8, UTF-16 и UTF-32. В большинстве интерфейсов Windows
используется форма UTF-16.
-
При создании новой веб-страницы кодировка и язык новых страниц, как
правило, определяется установками языка клавиатуры. Кодировка определяет
способ сохранения данных в файле. Символы, не принадлежащие к текущей
кодировке, сохраняются как числовые ссылки в формате Юникод (например,
AC;). Использование числовых ссылок в формате Юникод увеличивает
размер файла и затрудняет читаемость HTML-кода.
-
Кодировка страницы для русского языка, по умолчанию, указывается с помощью
следующего HTML-тега:
<meta http-equiv="Content-Type"
content="text/html; charset=windows-1251">
-
для английского языка, как правило, используется:
<meta http-equiv="Content-Type"
content="text/html; charset=windows-1252">
-
для
центральноевропейских языков:
<meta http-equiv="Content-Type"
content="text/html; charset=windows-1250">
-
Язык страницы не влияет на способ сохранения информации, но указывает,
какой шрифт будет использован в веб-обозревателях при отображении
страницы, и помогает поисковым машинам определить язык страницы. Язык
страницы указывается с помощью следующего HTML-тега:
<meta http-equiv="Content-Language"
content="ru">
Язык страницы |
Обозначение |
Язык страницы |
Обозначение |
Азербайджанский (кириллица) |
az-az-cyrl |
Каннада |
kn |
Азербайджанский
(латиница) |
az-az-latn |
Каталанский |
ca |
Английский
(Австралия) |
en-au |
Китайский
(Гонконг) |
zh-hk |
Английский
(Белиз) |
en-bz |
Китайский
(КНР) |
zh-cn |
Английский
(Великобритания) |
en-gb |
Китайский
(Сингапур) |
zh-sg |
Английский
(Зимбабве) |
en-zw |
Китайский
(Тайвань) |
zh-tw |
Английский
(Ирландия) |
en-ie |
Конкани |
kok |
Английский
(Канада) |
en-ca |
Корейский |
ko |
Английский
(Новая Зеландия) |
en-nz |
Коса |
xh |
Английский (США) |
en-us |
Латышский |
lv |
Английский (Тринидад) |
en-tt |
Литовский |
lt |
Английский (Филиппины) |
en-ph |
Лужицкий |
sb |
Английский (ЮАР) |
en-za |
Македонский |
mk |
Английский (Ямайка) |
en-jm |
Малайский |
ms |
Арабский (Алжир) |
ar-dz |
Малаялам |
ml |
Арабский (Бахрейн) |
ar-bh |
Мальдивский |
div |
Арабский (Египет) |
ar-eg |
Мальтийский |
mt |
Арабский (Иордания) |
ar-jo |
Маратхи |
mr |
Арабский (Ирак) |
ar-iq |
Немецкий
(Австрия) |
de-at |
Арабский (Йемен) |
ar-ye |
Немецкий
(Лихтенштейн) |
de-li |
Арабский (Катар) |
ar-qa |
Немецкий
(Люксембург) |
de-lu |
Арабский
(Кувейт) |
ar-kw |
Немецкий
(стандартный) |
de |
Арабский (Ливан) |
ar-lb |
Немецкий
(Швейцария) |
de-ch |
Арабский (Ливия) |
ar-ly |
Непальский |
ne |
Арабский (Марокко) |
ar-ma |
Нидерландский
(Бельгия) |
nl-be |
Арабский (ОАЭ) |
ar-ae |
Нидерландский
(стандартный) |
nl |
Арабский (Оман) |
ar-om |
Норвежский (букмол) |
no-bok |
Арабский (Саудовская Аравия) |
ar-sa |
Норвежский (нюнорск) |
no-nyn |
Арабский (Сирия) |
ar-sy |
Ория |
or |
Арабский (Тунис) |
ar-tn |
Панджабский |
pa |
Армянский |
hy |
Персидский |
fa |
Ассамский |
as |
Польский |
pl |
Баскский |
eu |
Португальский
(Бразилия) |
pt-br |
Белорусский |
be |
Португальский
(Португалия) |
pt |
Бенгальский |
bn |
Ретороманский |
rm |
Болгарский |
bg |
Румынский |
ro |
Валлийский |
cy |
Румынский
(Молдавия) |
ro-mo |
Венгерский |
hu |
Русский |
ru |
Вьетнамский |
vi |
Русский
(Молдавия) |
ru-mo |
Галисийский |
gl |
Санкрит |
sa |
Гаэльский |
ga |
Сербский
(кириллица) |
sr |
Гаэльский (Шотландия) |
gd |
Сербский
(латиница) |
sr |
Греческий |
el |
Сирийский |
syr |
Грузинский |
ka |
Словацкий |
sk |
Гуджарати |
gu |
Словенский |
sl |
Датский |
da |
Суахили |
sw |
Зулусский |
zu |
Суто |
sx |
Иврит |
he |
Тайский |
th |
Индиш |
ji |
Тамильский |
ta |
Индонезийский |
id |
Татарский |
tt |
Исландский |
is |
Телугу |
te |
Испанский (Аргентина) |
es-ar |
Тсвана |
tn |
Испанский (Боливия) |
es-bo |
Тсонга |
ts |
Испанский (Венесуэлла) |
es-ve |
Турецкий |
tr |
Испанский (Гватемала) |
es-gt |
Узбекский (кирилица) |
uz-uz-cyrl |
Испанский (Гондурас) |
es-hn |
Узбекский
(латиница) |
uz-uz-latn |
Испанский (Доминиканская
республика) |
es-do |
Украинский |
uk |
Испанский (Колумбия) |
es-co |
Урду |
ur |
Испанский (Коста-Рика) |
es-cr |
Фарерский |
fo |
Испанский (Мексика) |
es-mx |
Финский |
fi |
Испанский (Никарагуа) |
es-ni |
Французский
(Бельгия) |
fr-be |
Испанский (Панама) |
es-pa |
Французский
(Канада) |
fr-ca |
Испанский (Парагвай) |
es-py |
Французский
(Люксембург) |
fr-lu |
Испанский (Перу) |
es-pe |
Фанцузский
(Монако) |
fr-mc |
Испанский (Пуэрто-Рико) |
es-pr |
Французский
(стандартный) |
fr |
Испанский (Сальвадор) |
es-sv |
Французский
(Швейцария) |
fr-ch |
Испанский (современная
сортировка) |
es |
Хинди |
hi |
Испанский (Уругвай) |
es-uy |
Хорватский |
hr |
Испанский (Чили) |
es-cl |
Чешский |
cs |
Испанский (Эквадор) |
es-ec |
Шведский |
sv |
Итальянский (стандартный) |
it |
Шведский
(Финляндия) |
sv-fi |
Итальянский (Швейцария) |
it-ch |
Эстонский |
et |
Казахский |
kk |
Японский |
ja |
Простейший путь создания веб-страниц на нескольких языках — это изменение
языковых настроек клавиатуры, при котором автоматически устанавливаются
язык и кодировка для всех создаваемых страниц.
Установив дополнительные
раскладки клавиатуры и кодовые страницы, можно создавать страницы на
языках, которые иначе могут не поддерживаться компьютером.
Справка
-
Информация, включая текстовую, хранится в компьютере в виде двоичных чисел
(кодов).
-
Основа кодовых таблиц это ASCII - Американский Стандартный Код
для Обмена Информацией.
-
Код ASCII первоначально семибитный и
включал в себя символы с кодами 32 - 128, кодам 0 - 31 соответствовали
неотражаемые служебные символы-команды, типа код 10 - "перевод строки" и
т.п.
-
Для отображения символов национальных алфавитов, псевдографики и
других служебных символов таблица ASCII-кода была расширена до 8 бит,
а получившийся код стал называться "расширенным ASCII-кодом".
-
В зависимости
от состава символов, включенных в верхнюю часть кодовой таблицы (128 -
255), и их расположения различают кодовые таблицы для разных систем и
национальных языков.
Кодовые таблицы идентифицируются названием и номером,
например: Windows-1251, KOI-8, DOS-866 и т.п. При работе в графическом
режиме каждый текстовый символ прорисовывается на экране монитора попиксельно, "по точкам".
Шрифтом устанавливается зависимость
между соответствующими кодами таблицы и внешним видом символа.
Чтобы текстовый документ, подготовленный на одном компьютере, мог быть
прочитан и обработан на другом, необходимо либо использование одной и той
же кодовой таблицы, либо перекодировать документ.
Для обеспечения
одинакового вида представления документа на различных машинах необходимо
наличие на этих компьютерах одного и того же набора шрифтов.
-
В настоящий
момент принят еще один стандарт кодирования Unicode, разработанный
Консорциумом Unicode для определения символов вне зависимости от
национальной принадлежности.
-
Этот стандарт использует 16-битное
кодирование символов (в отличие от 8-битного в ASCII).
-
Это позволяет
определить 65536 разных символов (в ASCII- 256), что оказывается
достаточным для всех существующих языков, математических, служебных
символов и других знаков.
-
Со временем к стандарту Unicode добавились
свойства другого многобайтного стандарта - ISO 10646. Все индексы в
стандарте разделены на группы и страницы, по 256 символов в каждой, причем
часть индексного пространства оставлена для будущего развития. Первые 256
индексов полностью совместимы со стандартом ASCII.
|