9.7.3 Introduction aux locales
La description compl�te d'une locale comprend trois parties :
xx_YY.ZZZZ.
-
xx : code de la langue ISO 639 (minuscule)
-
YY : code du pays ISO 3166 (majuscule)
-
ZZZZ : table du code, c-�-d table des
caract�res ou identificateur de codage.
Pour les codes de langue et de pays, voir l'information de info
gettext.
Veuillez noter que la partie table du code peut �tre normalis�e de fa�on
interne pour obtenir une compatibilit� inter-plateformes en enlevant tous les
- et en convertissant tous les caract�res en minuscules. Voici
les tables de code typiques :
-
UTF-8 : Unicode pour toutes les r�gions, principalement
en 1-3 octets (nouveau standard de fait)
-
ISO-8859-1 : Europe de l'ouest (ancien standard de fait)
-
ISO-8859-2 : Europe de l'est (Bosniaque, Croate, Tch�que,
Hongrois, Polonais, Roumain, Serbe, Slovaque, Slov�ne)
-
ISO-8859-3 : Malte
-
ISO-8859-5 : Mac�donien, Serbe
-
ISO-8859-6 : Arabe
-
ISO-8859-7 : Grec
-
ISO-8859-8 : H�breux
-
ISO-8859-9 : Turc
-
ISO-8859-11 : Thai (=TIS-620)
-
ISO-8859-13 : L�ton, Lithuanien, Maori
-
ISO-8859-14 : Gallois
-
ISO-8859-15 : Europe de l'ouest avec l'euro
-
KOI8-R : Russe
-
KOI8-U : Ukrainien
-
CP1250 : Tch�que, Hongrois, Polonais (sur MS Windows �
l'origine)
-
CP1251 : bulgare, Bi�lorusse (sur MS Windows � l'origine)
-
eucJP : Japonais fa�on Unix (=ujis)
-
eucKR : Cor�en fa�on Unix
-
GB2312 : Chinois Simplifi� fa�on Unix (=GB, =eucCN) pour
zh_CN
-
Big5 : Chinois Traditionel pour zh_TW
-
sjis : Japonais fa�on Microsoft (Shift-JIS)
Et voici la signification du jargon des syst�mes de codage :
-
ASCII : 7 bits (0-0x7f)
-
ISO-8859-? : 8 bits (0-0xff)
-
ISO-10646-1 : Universal Character Set (UCS) (31 bits,
0-0x7fffffff)
-
UCS-2 : 16 premiers bits de UCS comme 2 octets simples
(Unicode: 0-0xffff)
-
UCS-4 : UCS comme 4 octets simples (UCS :
0-0x7fffffff)
-
UTF-8 : UCS cod� sur 1-6 octets (g�n�ralement 3 octets)
-
ISO-2022 : 7 bits (0-0xff) avec la s�quence
d'�chappement ; c'est le codage japonais le plus populaire pour le
courrier �lectronique
-
EUC : 8 bits + 16 bits (0-0xff), fa�on Unix
-
Shift-JIS : 8 bits + 16 bits (0-0xff), fa�on Microsoft
ISO-8859-?, EUC, ISO-10646-1, UCS-2, UCS-4 et UTF-8 partagent le m�me code
qu'ASCII pour les caract�res de 7 bits. EUC ou Shift-JIS utilisent des
caract�res de bit haut (0x80-0xff) pour indiquer qu'une partie du codage est
sur 16 bits. UTF-8 utilise aussi des caract�res de bit haut (0x80-0xff) pour
indiquer les s�quences de caract�res sur plus de 7 bits. C'est le syst�me de
codage le plus intelligent pour g�rer les caract�res non-ASCII.
Veuillez noter la diff�rence d'ordre des octets des impl�mentations
d'Unicode :
-
Standard UCS-2, UCS-4 : big endian
-
Microsoft UCS-2, UCS-4 : little endian pour ix86 (d�pend
de la machine)
Voir
Convertir un fichier texte avec
recode
, Section 8.6.12 pour convertir entre les jeux de
caract�res. Pour plus d'information, consultez Introduction to
i18n
(en Anglais).