Linuxtopia - Debian GNU/Linux Reference - 9.7.3 Introduction aux locales

Debian GNU/Linux Reference Guide
Prev	Home	Next

9.7.3 Introduction aux locales

La description compl�te d'une locale comprend trois parties : xx_YY.ZZZZ.

xx : code de la langue ISO 639 (minuscule)
YY : code du pays ISO 3166 (majuscule)
ZZZZ : table du code, c-�-d table des caract�res ou identificateur de codage.

Pour les codes de langue et de pays, voir l'information de info gettext.

Veuillez noter que la partie table du code peut �tre normalis�e de fa�on interne pour obtenir une compatibilit� inter-plateformes en enlevant tous les - et en convertissant tous les caract�res en minuscules. Voici les tables de code typiques :

UTF-8 : Unicode pour toutes les r�gions, principalement en 1-3 octets (nouveau standard de fait)
ISO-8859-1 : Europe de l'ouest (ancien standard de fait)
ISO-8859-2 : Europe de l'est (Bosniaque, Croate, Tch�que, Hongrois, Polonais, Roumain, Serbe, Slovaque, Slov�ne)
ISO-8859-3 : Malte
ISO-8859-5 : Mac�donien, Serbe
ISO-8859-6 : Arabe
ISO-8859-7 : Grec
ISO-8859-8 : H�breux
ISO-8859-9 : Turc
ISO-8859-11 : Thai (=TIS-620)
ISO-8859-13 : L�ton, Lithuanien, Maori
ISO-8859-14 : Gallois
ISO-8859-15 : Europe de l'ouest avec l'euro
KOI8-R : Russe
KOI8-U : Ukrainien
CP1250 : Tch�que, Hongrois, Polonais (sur MS Windows � l'origine)
CP1251 : bulgare, Bi�lorusse (sur MS Windows � l'origine)
eucJP : Japonais fa�on Unix (=ujis)
eucKR : Cor�en fa�on Unix
GB2312 : Chinois Simplifi� fa�on Unix (=GB, =eucCN) pour zh_CN
Big5 : Chinois Traditionel pour zh_TW
sjis : Japonais fa�on Microsoft (Shift-JIS)

Et voici la signification du jargon des syst�mes de codage :

ASCII : 7 bits (0-0x7f)
ISO-8859-? : 8 bits (0-0xff)
ISO-10646-1 : Universal Character Set (UCS) (31 bits, 0-0x7fffffff)
UCS-2 : 16 premiers bits de UCS comme 2 octets simples (Unicode: 0-0xffff)
UCS-4 : UCS comme 4 octets simples (UCS : 0-0x7fffffff)
UTF-8 : UCS cod� sur 1-6 octets (g�n�ralement 3 octets)
ISO-2022 : 7 bits (0-0xff) avec la s�quence d'�chappement ; c'est le codage japonais le plus populaire pour le courrier �lectronique
EUC : 8 bits + 16 bits (0-0xff), fa�on Unix
Shift-JIS : 8 bits + 16 bits (0-0xff), fa�on Microsoft

ISO-8859-?, EUC, ISO-10646-1, UCS-2, UCS-4 et UTF-8 partagent le m�me code qu'ASCII pour les caract�res de 7 bits. EUC ou Shift-JIS utilisent des caract�res de bit haut (0x80-0xff) pour indiquer qu'une partie du codage est sur 16 bits. UTF-8 utilise aussi des caract�res de bit haut (0x80-0xff) pour indiquer les s�quences de caract�res sur plus de 7 bits. C'est le syst�me de codage le plus intelligent pour g�rer les caract�res non-ASCII.

Veuillez noter la diff�rence d'ordre des octets des impl�mentations d'Unicode :

Standard UCS-2, UCS-4 : big endian
Microsoft UCS-2, UCS-4 : little endian pour ix86 (d�pend de la machine)

Voir Convertir un fichier texte avec recode, Section 8.6.12 pour convertir entre les jeux de caract�res. Pour plus d'information, consultez Introduction to i18n (en Anglais).

Debian GNU/Linux Reference Guide
Prev	Home	Next