9.7.3 Introduzione ai locale
Una descrizione completa di locale consiste in 3 parti:
xx_YY.ZZZZ.
-
xx: ISO 639 codici lingua (minuscolo)
-
YY: ISO 3166 codici nazione (maiuscolo)
-
ZZZZ: codeset, cio� set di caratteri od
identificatore di codifica.
Per i codici lingua e nazione, vedere una descrizione pertinente in info
gettext.
Notate che la parte codeset pu� venire normalizzata internamente per ottenere
una compatibilit� cross platform rimuovendo tutti i - e
convertendo tutti i caratteri in minuscolo. Codeset tipici sono:
-
UTF-8: Unicode per tutte le regioni, principalmente in Ottetti
1-3 (il nuovo standard di fatto)
-
ISO-8859-1: western Europe (di fatto il vecchio standard)
-
ISO-8859-2: eastern Europe (Bosnian, Croatian, Czech,
Hungarian, Polish, Romanian, Serbian, Slovak, Slovenian)
-
ISO-8859-3: Maltese
-
ISO-8859-5: Macedonian, Serbian
-
ISO-8859-6: Arabic
-
ISO-8859-7: Greek
-
ISO-8859-8: Hebrew
-
ISO-8859-9: Turkish
-
ISO-8859-11: Thai (=TIS-620)
-
ISO-8859-13: Latvian, Lithuanian, Maori
-
ISO-8859-14: Welsh
-
ISO-8859-15: western Europe con euro
-
KOI8-R: Russian
-
KOI8-U: Ukrainian
-
CP1250: Czech, Hungarian, Polish (MS Windows origin)
-
CP1251: Bulgarian, Byelorussian (MS Windows origin)
-
eucJP: Unix style Japanese (=ujis)
-
eucKR: Unix style Korean
-
GB2312: Unix style Simplified Chinese (=GB, =eucCN) for zh_CN
-
Big5: Traditional Chinese for zh_TW
-
sjis: Microsoft style Japanese (Shift-JIS)
Per quanto riguarda il gergo del sistema base di codifica:
-
ASCII: 7 bit (0-0x7f)
-
ISO-8859-?: 8 bit (0-0xff)
-
ISO-10646-1: Universal Character Set (UCS) (31 bit,
0-0x7fffffff)
-
UCS-2: Primi 16 bit di UCS, 2 Ottetti pieni (Unicode:
0-0xffff)
-
UCS-4: UCS 4 Ottetti pieni (UCS: 0-0x7fffffff)
-
UTF-8: UCS codificcato in 1-6 Ottetti (principalmente in 3
Ottetti)
-
ISO-2022: 7 bit (0-0xff) con la sequenza di escape ISO-2022-JP
� la codifica pi� popolare per la posta elettronica in Giapponese.
-
EUC: Combinazione 8 bit + 16 bit (0-0xff), Unix style
-
Shift-JIS: Combinazione 8 bit + 16 bit (0-0xff), Microsoft
style.
ISO-8859-?, EUC, ISO-10646-1, UCS-2, UCS-4, ed UTF-8 condividono lo stesso
codice con ASCII per i caratteri a 7 bit. EUC o Shift-JIS usa caratteri
high-bit (0x80-0xff) per indicare che parte della codifica � a 16 bit. Anche
UTF-8 usa caratteri high-bit (0x80-0xff) per indicare byte con sequenze di
caratteri non a 7 bit, e questo � il sistema di codifica pi� sano per gestire i
caratteri non-ASCII.
Notate la differenza nell'ordine dei byte della implementazione Unicode:
-
Standard UCS-2, UCS-4: big endian
-
Microsoft UCS-2, UCS-4: little endian per ix86
(macchina-dipendente)
Vedere
Convertire un file di testo con
recode
, Sezione 8.6.12 per la conversione fre i vari set di
caratteri. Per maggiori informazioni, vedere Introduzione a
i18n
.