Кодировка символов
Кодировка символов (часто называемая также кодовой страницей) — это набор числовых значений, которые ставятся в соответствие группе алфавитно-цифровых символов, знаков пунктуации и специальных символов.
Рис. 5.3. Вкладка Общие (General) окна Язык и стандарты (Regional Options) |
Однобайтные кодировки используют 8 бит и позволяют закодировать до 256 различных символов. В Windows первые 128 символов всех кодовых страниц состоят из стандартного набора символов ASCII. Символы с номерами от 128 до 255 представляют дополнительные символы и варьируются в зависимости от набора скриптов, представленных кодировкой символов (полный набор таблиц кодировки можно найти в книге
"Developing International Software for Windows 95 and Windows NT",
опубликованной Microsoft Press). Двухбайтные кодировки, применяющиеся в Windows для азиатских языков, используют для кодирования каждого символа от 8 до 16 бит. Компьютеры обмениваются информацией в виде закодированных символов. На экране эта информация визуализируется с использованием шрифтов.
Windows 2000 поддерживает кодовые страницы OEM (изначально разработанные для MS-DOS), кодовые страницы ANSI (появившиеся с выходом Windows 3.1) и Unicode. Unicode представляет собой 16-битную кодировку символов, которая позволяет охватить все широко используемые на сегодняшний день скрипты (более подробную информацию о стандарте Unicode можно найти по адресу
http://www.unicode.org).
Windows 2000 использует Unicode в качестве основной кодировки символов. Это означает, что все
строки, обрабатываемые в системе, включая строки в файлах ресурсов Windows (RES-файлы), кодируются в Unicode. Windows 2000 также поддерживает кодировки символов ANSI. Каждый API, принимающий строки в качестве параметров, имеет две точки входа —. 'А' или ANSI и 'W (wide-character) — для Unicode.
Windows 2000 поддерживает дополнительные кодовые страницы для трансляции данных в Unicode и обратно, в том числе — для кодировок Macintosh, EBCDIC и ISO. Кроме того, Windows 2000 содержит таблицы трансляции для стандартов UTF-7 и UTF-8, которые широко используются для передачи данных Unicode через сети, в частности, через Интернет.