Linuxtopia - Debian GNU/Linux Reference - 9.7.3 Introduzione ai locale

Debian GNU/Linux Reference Guide
Prev	Home	Next

9.7.3 Introduzione ai locale

Una descrizione completa di locale consiste in 3 parti: xx_YY.ZZZZ.

xx: ISO 639 codici lingua (minuscolo)
YY: ISO 3166 codici nazione (maiuscolo)
ZZZZ: codeset, cio� set di caratteri od identificatore di codifica.

Per i codici lingua e nazione, vedere una descrizione pertinente in info gettext.

Notate che la parte codeset pu� venire normalizzata internamente per ottenere una compatibilit� cross platform rimuovendo tutti i - e convertendo tutti i caratteri in minuscolo. Codeset tipici sono:

UTF-8: Unicode per tutte le regioni, principalmente in Ottetti 1-3 (il nuovo standard di fatto)
ISO-8859-1: western Europe (di fatto il vecchio standard)
ISO-8859-2: eastern Europe (Bosnian, Croatian, Czech, Hungarian, Polish, Romanian, Serbian, Slovak, Slovenian)
ISO-8859-3: Maltese
ISO-8859-5: Macedonian, Serbian
ISO-8859-6: Arabic
ISO-8859-7: Greek
ISO-8859-8: Hebrew
ISO-8859-9: Turkish
ISO-8859-11: Thai (=TIS-620)
ISO-8859-13: Latvian, Lithuanian, Maori
ISO-8859-14: Welsh
ISO-8859-15: western Europe con euro
KOI8-R: Russian
KOI8-U: Ukrainian
CP1250: Czech, Hungarian, Polish (MS Windows origin)
CP1251: Bulgarian, Byelorussian (MS Windows origin)
eucJP: Unix style Japanese (=ujis)
eucKR: Unix style Korean
GB2312: Unix style Simplified Chinese (=GB, =eucCN) for zh_CN
Big5: Traditional Chinese for zh_TW
sjis: Microsoft style Japanese (Shift-JIS)

Per quanto riguarda il gergo del sistema base di codifica:

ASCII: 7 bit (0-0x7f)
ISO-8859-?: 8 bit (0-0xff)
ISO-10646-1: Universal Character Set (UCS) (31 bit, 0-0x7fffffff)
UCS-2: Primi 16 bit di UCS, 2 Ottetti pieni (Unicode: 0-0xffff)
UCS-4: UCS 4 Ottetti pieni (UCS: 0-0x7fffffff)
UTF-8: UCS codificcato in 1-6 Ottetti (principalmente in 3 Ottetti)
ISO-2022: 7 bit (0-0xff) con la sequenza di escape ISO-2022-JP � la codifica pi� popolare per la posta elettronica in Giapponese.
EUC: Combinazione 8 bit + 16 bit (0-0xff), Unix style
Shift-JIS: Combinazione 8 bit + 16 bit (0-0xff), Microsoft style.

ISO-8859-?, EUC, ISO-10646-1, UCS-2, UCS-4, ed UTF-8 condividono lo stesso codice con ASCII per i caratteri a 7 bit. EUC o Shift-JIS usa caratteri high-bit (0x80-0xff) per indicare che parte della codifica � a 16 bit. Anche UTF-8 usa caratteri high-bit (0x80-0xff) per indicare byte con sequenze di caratteri non a 7 bit, e questo � il sistema di codifica pi� sano per gestire i caratteri non-ASCII.

Notate la differenza nell'ordine dei byte della implementazione Unicode:

Standard UCS-2, UCS-4: big endian
Microsoft UCS-2, UCS-4: little endian per ix86 (macchina-dipendente)

Vedere Convertire un file di testo con recode, Sezione 8.6.12 per la conversione fre i vari set di caratteri. Per maggiori informazioni, vedere Introduzione a i18n.

Debian GNU/Linux Reference Guide
Prev	Home	Next