ISO 8859-1 - Définition

Source: Wikipédia sous licence CC-BY-SA 3.0.
La liste des auteurs de cet article est disponible ici.

Jeux de caractères codés apparentés

Windows-1252

Dans la page de codes no 1252 définie et utilisée dans Microsoft Windows, quelques caractères ont été assignés aux positions codées dans la plage hexadécimale 0x80 à 0x9F. Cette extension remplace ou annule tous les caractères de contrôle C1 qui sont assignés à ces positions dans le jeu de caractères codés ISO-8859-1 et réservés dans la norme ISO/CEI 8859-1.

Cette page de codes est enregistrée dans la base de données des jeux de caractères codés de l’IANA, pour son usage dans les logiciels et sur Internet, sous le nom Windows-1252.

ISOLatin1Encoding

PostScript prédéfinit une variante de ISO/CEI 8859-1, appelée improprement ISOLatin1Encoding, dans laquelle le caractère codé en position 140 (0x8C en hexadécimal) est l’apostrophe gauche ( ‘ ), au lieu de l’accent grave ( ` ).

Cet encodage n’assigne aucun caractère de contrôle C0 ou C1 dans les positions 0x00 à 0x1F et 0x7F à 0x8F. Cependant, il définit certains caractères supplémentaires dans les positions inutilisées entre 0x90 et 0x9F (mais d’une façon différente de la variante Windows-1252) :

  • à la position 0x90, la lettre minuscule i sans point ( ı ) ;
  • aux positions 0x91 à 0x98, l’accent grave ( ` ), l’accent aigu ( ´ ), l’accent circonflexe ( ˆ ), le tilde en chef ( ˜ ), le macron ( ¯ ), la brève inversée ( ˘ ), le point en chef ( ˙ ) et le tréma ou signe de diérèse ( ¨ ) ;
  • aux positions 0x9B et 0x9C, le rond en chef ( ˚ ) et la cédille ( ¸ ) ;
  • aux positions 0x9D à 0x9F, le double accent aigu ( ˝ ), l’ogonek ( ˛ ) et le caron ( ˇ ).

Tous les diacritiques y sont codés avec leur chasse dans les polices PostScript Type 1 ou Type 3 (leur combinaison ou positionnement relatif avec une lettre de base étant à la charge du logiciel de composition du document PostScript), cependant les polices TrueType ou OpenType encodées avec Unicode (et utilisables dans certains interprètes PostScript) réutilisent souvent les mêmes glyphes pour définir les diacritiques combinants sans chasse.

ISO 8859-15

L'ISO 8859-15, notamment introduite pour prendre en charge le caractère € de l'euro, gère également mieux le français car les caractères ¤, ¦, ¨, ´, ¸, ¼, ½ et ¾ ont été remplacés par €, Š, š, Ž, ž, Œ, œ et Ÿ. En français, l'ISO 8859-1 reste cependant nettement plus utilisée, avec OE et oe au lieu de Œ et œ, alors que le Ÿ n'est utilisé que par quelques noms propres. Le standard Unicode est généralement utilisé lorsqu'il est nécessaire de dépasser les limites de ISO 8859-1, notamment, symboles mathématiques, phonétiques et caractères non-latins.

MacRoman

Les ordinateurs Apple Macintosh les plus anciens utilisent un codage nommé MacRoman, qui diffère de l'ISO 8859-1 de par les 32 premiers et 127 derniers caractères, mais inclut tout de même tous les caractères présents dans l'ISO 8859-1, à l'exception du tiret invisible. En revanche, le MacRoman inclut de nombreux caractères qui ne sont pas dans l'ISO 8859-1. Le glyphe Euro a remplacé le symbole monétaire générique précédent.

ISO/CEI 8859-1 par rapport à ISO-8859-1

L’IANA (en anglais : Internet Assigned Numbers Authority) a validé, pour une utilisation sur Internet, le codage ISO-8859-1 (remarquez le tiret supplémentaire), un sur-ensemble de l'ISO/CEI 8859-1.

Ce jeu de caractères codés, ou page de codes, supplée le jeu de caractère codé ISO/CEI 8859-1 en assignant des caractères de contrôle aux positions hexadécimales des plages 0x00 à 0x1F, et 0x7F à 0x9F. On obtient de cette manière 256 caractères recouvrant toutes les positions possibles codées sur 8 bits.

L’IANA autorise l’utilisation des alias enregistrés suivants pour ISO-8859-1 (la casse mentionnée peut être changée librement car elle n’est pas significative) :

  • ISO_8859-1:1987
  • ISO_8859-1
  • ISO-8859-1
  • iso-ir-100
  • csISOLatin1
  • latin1
  • l1
  • IBM819
  • CP819

Le nom Latin-1 est une appellation informelle non reconnue par les organismes de normalisation ISO, CEI ou IANA, mais utilisée par certains logiciels.

Le tableau suivant montre l’ISO-8859-1, avec les abréviations représentant les caractères de contrôle et les espaces.

ISO-8859-1
  x0 x1 x2 x3 x4 x5 x6 x7 x8 x9 xA xB xC xD xE xF
0x NUL SOH STX ETX EOT ENQ ACK BEL BS HT LF VT FF CR SO SI
1x DLE DC1 DC2 DC3 DC4 NAK SYN ETB CAN EM SUB ESC FS GS RS US
2x  ! " # $  % & ' ( ) * + , - . /
3x 0 1 2 3 4 5 6 7 8 9  :  ; < = >  ?
4x @ A B C D E F G H I J K L M N O
5x P Q R S T U V W X Y Z [ \ ] ^ _
6x ` a b c d e f g h i j k l m n o
7x p q r s t u v w x y z { | } ~ DEL
8x PAD HOP BPH NBH IND NEL SSA ESA HTS HTJ VTS PLD PLU RI SS2 SS3
9x DCS PU1 PU2 STS CCH MW SPA EPA SOS SGCI SCI CSI ST OSC PM APC
Ax NBSP ¡ ¢ £ ¤ ¥ ¦ § ¨ © ª «  ¬ - ® ¯
Bx ° ± ² ³ ´ µ · ¸ ¹ º  » ¼ ½ ¾ ¿
Cx À Á Â Ã Ä Å Æ Ç È É Ê Ë Ì Í Î Ï
Dx Ð Ñ Ò Ó Ô Õ Ö × Ø Ù Ú Û Ü Ý Þ ß
Ex à á â ã ä å æ ç è é ê ë ì í î ï
Fx ð ñ ò ó ô õ ö ÷ ø ù ú û ü ý þ ÿ


Il existe d’autres parties de la norme ISO/CEI 8859 à laquelle correspond un jeu de caractères codé validé par l’IANA, par exemple l’ISO/CEI 8859-10 (alphabet latin no 6) ressemble fortement au jeu de caractères codés ISO-8859-10.

Chacune des parties de la norme ISO/CEI 8859 définit un jeu de caractères codés sur 8 bits de la même manière : elle assigne les caractères graphiques codés sur 7 bits de la norme ISO 646 (dans sa version américaine ASCII la plus courante) aux positions codées dans la plage hexadécimale 0x20 à 0x7E, ainsi que 96 caractères supplémentaires aux positions codées dans la plage hexadécimale de 0xA0 à 0xFF, pour un total de 191 caractères codés.

L’IANA définit les jeux de caractères codés « ISO-8859-x » selon la partie correspondante de la norme ISO/CEI 8859, en assignant en plus tous les caractères de contrôle « C0 » de la norme ISO 646 aux positions de la plage hexadécimale 0x00 à 0x1F et à la position hexadécimale 0x7F, ainsi que des caractères de contrôle « C1 » supplémentaires aux positions de la plage hexadécimale de 0x7F à 0x9F, offrant ainsi un ensemble de 256 caractères codés.

Le jeu de caractères codés ISO-8859-1 est le seul, parmi tous ces ensembles de jeu de caractères codés, dont la codification sur 8 bits soit équivalente aux 256 premiers caractères codés du jeu universel de caractères, défini dans les normes ISO/CEI 10646 et Unicode.

Page générée en 0.103 seconde(s) - site hébergé chez Contabo
Ce site fait l'objet d'une déclaration à la CNIL sous le numéro de dossier 1037632
A propos - Informations légales
Version anglaise | Version allemande | Version espagnole | Version portugaise