ISO 8859-1 - Définition

Source: Wikipédia sous licence CC-BY-SA 3.0.
La liste des auteurs de cet article est disponible ici.

- Introduction - Principe - Jeux de caractères codés apparentés - ISO/CEI 8859-1 par rapport à ISO-8859-1 - Solutions aux limitations du jeu de caractères - Limitations

Introduction

Unicode
Jeux de caractères UCS (ISO/CEI 10646) ISO 646, ASCII ISO 8859-1 WGL4 UniHan
Équivalences normalisées NFC (précomposée) NFD (décomposée) NFKC (compatibilité) NFKD (compatibilité)
Propriétés et algorithmes ISO 15924 Casse Ordonnancement UCA Texte bi-directionnel
Codage UTF-7 UTF-8 CESU-8 UTF-EBCDIC BOCU-1 SCSU UTF-16 UTF-32
Autres transformations Punycode GB 18030
Applications d'échanges de données Courriel et Unicode Unicode et HTML

La norme ISO 8859-1, dont le nom complet est ISO/CEI 8859-1, et qui est souvent appelée Latin-1 ou Europe occidentale, forme la première partie de la norme internationale ISO/CEI 8859, qui est une norme de l'Organisation internationale de normalisation pour le codage des caractères en informatique.
Elle définit ce qu'elle appelle l'alphabet latin numéro 1, qui consiste en 191 caractères de l'alphabet latin, chacun d'entre eux étant codé par un octet (soit 8 bits). ISO 8859-1 reprend le codage des caractères imprimables d'US-ASCII.

Dans les pays occidentaux, cette norme est utilisée par de nombreux systèmes d’exploitation, dont UNIX, Windows ou AmigaOS. Elle a donné lieu à quelques extensions et adaptations, dont Windows-1252 et ISO 8859-15. La distinction entre ASCII, ISO 8859-1, ISO 8859-15, Windows-1252 et MacRoman est une source de confusion parmi les développeurs de programmes informatiques. Le Multinational Character Set créé par Digital Equipment Corporation pour le terminal informatique VT220 est considéré comme à la fois l'ancêtre de l'ISO 8859-1 et de l'Unicode.

Principe

En première approximation, le jeu de caractères codés sur 8 bits de la norme ISO/CEI 8859-1 est une extension le jeu de caractères codés sur 7 bits de la norme américaine US-ASCII (qui est une des variantes de la norme de base ISO 646). Cependant ce codage normalisé au plan mondial par l’ISO et CEI n’assigne aucun caractère de contrôle ni aucun autre caractère dans les positions réservées des plages 0x00 à 0x1F et 0x7F à 0x9F.

Il ajoute de nombreux caractères latins manquant dans l’alphabet latin de base défini dans l’US-ASCII (ce qui a permis de déprécier ou rendre obsolètes de nombreuses variantes nationales de la norme ISO 646), ainsi que quelques autres signes de ponctuation ou symboles, ce qui lui permet de recouvrir les caractères nécessaires à l’écriture de nombreuses langues, pour la nombre d’entre elles des langues d’Europe occidentale, avec parmi elles des langues nationales officielles comme l’albanais, l’allemand, l’anglais, le danois, l’espagnol, le finnois (sauf les lettres « š » et « Š »), le français (sauf les lettres « œ », « Œ », et « Ÿ »), l’islandais (sauf les signes de ponctuation „ et “), le gaélique irlandais, l’italien, le latin liturgique (sans les diacritiques du latin moderne), le luxembourgeois, le néerlandais, le norvégien, le portugais, le romanche, le suédois, et encore de nombreuses autres langues régionales ou minoritaires comme le basque, le bas-saxon, le breton, le catalan, le corse, le féringien, le gallo, le gaélique écossais, le galicien, l’occitan, le picard, le rromani moderne, le sarde, le vénitien, ou le wallon. Des langues d’autres régions du monde sont également couvertes comme l’afrikaans, l’indonésien, le malais, le swahili, ou le wolof, ainsi que la plupart des créoles et pidgins qui se sont développés en grande partie sur les bases des langues précédentes, tels que le bichelamar, le capverdien, le créole haïtien, le filipino (souvent improprement appelé tagalog) ou le mauricien.

Cette norme est donc utilisée sur tous les continents, en Europe de l’Ouest, en Amérique, et dans une grande partie de l'Afrique ou de l’Océanie ainsi que certains pays d’Asie du Sud-Est.

Cependant il ignore quelques caractères européens comme le symbole de l’euro € (qui n’existait pas encore lorsque ce jeu a été normalisé) ou certaines des lettres normalement nécessaires à certaines langues théoriquement couvertes (comme les lettres « œ », « Œ » et « Ÿ » en français, ou les lettres « š » et « Š » en finnois) : le jeu de caractères universel des normes ISO/CEI 10646 et Unicode (ou plus rarement le jeu de caractères codés ISO 8859-15) permet de pallier à ces absences. Les lettres françaises œ et Œ n'ont pas été inclues dans ISO/CEI 8859-1 car les principaux représentants francophones dans le groupe de travail (GT) n’ont pas estimé cela nécessaire : l'un estimait qu'il s'agissait d'une simple ligature typographique (à tort, bien qu’il n’existe aucune possibilité de confusion avec les lettres non ligaturées dans l’orthographe française), et l’autre était employé par un grand fabricant d’imprimantes qui ne les avait pas inclus dans ses imprimantes.

La plupart des 191 caractères codés dans la norme ISO/CEI 8859-1 sont représentés sous forme de glyphes (œil) dans le tableau suivant, à l’exception de trois d’entre eux (décrits après la table). Les titres des lignes et des colonnes indiquent les valeurs hexadécimales correspondant aux positions codées assignées à chaque caractère, par exemple, la valeur hexadécimale de la position codée assignée à la lettre « L » est 0x4C, soit 01001100 en binaire ou 76 en décimal.

ISO/CEI 8859-1
	x0	x1	x2	x3	x4	x5	x6	x7	x8	x9	xA	xB	xC	xD	xE	xF
0x	positions inutilisées
1x	positions inutilisées
2x		!	"	#	$	%	&	'	(	)	*	+	,	-	.	/
3x	0	1	2	3	4	5	6	7	8	9	:	;	<	=	>	?
4x	@	A	B	C	D	E	F	G	H	I	J	K	L	M	N	O
5x	P	Q	R	S	T	U	V	W	X	Y	Z	[	\	]	^	_
6x	`	a	b	c	d	e	f	g	h	i	j	k	l	m	n	o
7x	p	q	r	s	t	u	v	w	x	y	z	{	\|	}	~
8x	positions inutilisées
9x	positions inutilisées
Ax	NBSP	¡	¢	£	¤	¥	¦	§	¨	©	ª	«	¬	-	®	¯
Bx	°	±	²	³	´	µ	¶	·	¸	¹	º	»	¼	½	¾	¿
Cx	À	Á	Â	Ã	Ä	Å	Æ	Ç	È	É	Ê	Ë	Ì	Í	Î	Ï
Dx	Ð	Ñ	Ò	Ó	Ô	Õ	Ö	×	Ø	Ù	Ú	Û	Ü	Ý	Þ	ß
Ex	à	á	â	ã	ä	å	æ	ç	è	é	ê	ë	ì	í	î	ï
Fx	ð	ñ	ò	ó	ô	õ	ö	÷	ø	ù	ú	û	ü	ý	þ	ÿ