Bien que l’extension .doc ait été utilisée dans beaucoup de versions différentes de Word, le format a en réalité existé sous quatre formats de fichier distincts :
La nouvelle extension .docx est représentative des documents exploités par les versions 2007, et 2008 respectivement, pour les plates-formes Windows et Macintosh.
De ce fait, Microsoft ne garantit pas un affichage uniformément correct des documents sur différentes stations de travail même si deux d’entre elles utilisent la même version de Word. En d’autres termes, cela signifie qu’un même document peut très bien ne pas être affiché de manière strictement identique pour l'expéditeur et le destinataire.
Du fait que Word a été le traitement de texte le plus dominant du marché, le format .doc est devenu de facto le standard (non reconnu par la norme ISO) le plus populaire des documents texte. Depuis de la version 97 à ce jour et en combinaison avec la naissance d’Internet, le couple de mots « Format & Word » désigne une appellation de format de fichier par défaut des documents texte échangés entre utilisateurs tout comme le format PDF.
Pour autant, le format PDF est un standard ISO, correspondant à une norme internationalement reconnue, ce qui n'est pas le cas du format Word qui est mal documenté, partiellement soumis à brevets, le rendant difficilement interopérable avec d'autres logiciels que MS-Word. C'est la raison pour laquelle il est déconseillé d'utiliser ce format de fichier pour l'échange de documents entre des utilisateurs qui n'ont pas le même environnement de travail, ce qui est le cas dans la plupart des cas.
Le format binaire est le format des programmes exécutables. Le format .doc est un format partiellement binaire, ce qui fait de ce format l'un des principaux vecteurs de transmission de virus sur internet. Les virus étant également des programmes exécutables, il est donc assez aisé de cacher un virus à l'intérieur d'un fichier au format .doc.
Le format RTF (Rich Text Format) a été quant à lui la première initiative de créer un format non-propriétaire qui permettait de pouvoir échanger des documents formatés entre différentes applications. Ce format est disponible dans les formats de documents enregistrables et permet de préserver le contenu et quasiment toute la mise en forme du document. Ce format est développé par Microsoft, ce qui en fait tout de même de facto un format qui reste propriétaire.
Plusieurs versions de RTF sont utilisées suivant la version de Word:
Version RTF | Version Word |
1.9 | Word 2007/Word 12 |
1.8 | Word 2003/Word 11 |
1.7 | Word 2002/Word 10 |
1.6 | Word 2000/Word 9 |
1.5 | Word 97/Word 8 |
1.4 | Word 95/Word 7 |
1.3 | Word 6 |
Plus tard, juste après l’apparition du langage HTML, Word a pu lui aussi supporter ce format dérivé comme solution complémentaire de préservation du contenu et du format des documents tout comme que le fait le format RTF, mais avec une taille de fichier bien moindre.
Cette solution permit en plus de pouvoir visualiser les documents à partir d’un navigateur Web.
Word 2007 utilise par défaut le format XML ouvert comme format par défaut, mais conserve les anciens formats des versions précédentes afin de préserver la compatibilité. Il offre également la possibilité d’enregistrer (sans pouvoir les modifier par la suite), les documents au format PDF d’Adobe et au format XPS, ce dernier étant voué à concurrencer le format PDF…
Microsoft a publié des pages sur les spécifications techniques des formats binaires des versions 97 à 2007 autant que d’autres pour le format de fichier ouvert Open XML.
Les formats de documents des différentes versions ont changé de façon plus ou moins subtile. Ce format proposé dans cette nouvelle version n’est pas exploitable dans les versions plus anciennes. Toutefois, une certaine forme de compatibilité a perduré entre la version 97 et la version 2003, période pendant laquelle 4 versions de Microsoft Word ont vu le jour.
Le format binaire de Word des versions 97 à 2007 implémente la technologie OLE (Object Linking and Embedding) //de façon structurée de telle sorte à ce ces derniers puissent gérer la structure de celle-ci. OLE se comporte un peu comme le système de fichier d’un disque dur ; il est constitué de plusieurs composants clés.
Chaque document Word est composé de ce que l’on appelle des blocs qui sont presque toujours divisés en portions de 512 octets. C’est pourquoi les documents Word ont toujours des tailles de fichiers qui sont des multiples de 512.
Le stockage de ces blocs est similaire à celui des dossiers d’un disque dur. Le texte d’un document Word est stocké dans la section WordDocument.
Les personnes qui n’utilisent pas Microsoft Office se trouvent souvent confrontées à des difficultés lorsqu’il s’agit de pouvoir lire des documents Word. Plusieurs solutions furent alors mises en place. La première fut la mise à disposition par Microsoft d’une visionneuse Word afin de permettre aux intéressés de pouvoir ouvrir sans les modifier les documents Word sur leur PC dans un environnement Windows. Il a également mis à disposition des utilisateurs, des convertisseurs, nécessitant une version appropriée de Word et permettant de convertir au format voulu, tel ou tel document.
Il existe aujourd’hui toutes les solutions pour ouvrir n’importe quel type de document Word, notamment avec le pack de compatibilité 97-2003 depuis la sortie de Word 2007. Mais déjà avec les versions pour Windows 3.x, (1.0, 2.0 et 6.0), il était possible d’ouvrir et d’enregistrer des documents aux formats des versions précédentes.
D’autres solutions concurrentes cette fois, avec l’utilisation de programmes de traitements de texte gratuits sous licence publique, comme Writer issu de la suite OpenOffice.org et AbiWord, petit traitement de textes d’origine espagnole, gratuit lui aussi dans les mêmes conditions (GNU), qui permettent d’ouvrir et d’enregistrer des documents au format binaire Microsoft Word.
Il y a également la solution Apache Jakarta POI qui est une source ouverte de la librairie Java (Open Source Java library) et qui est à même d’ouvrir et d’enregistrer ce type de documents. Les utilisateurs de Macintosh, quant à eux, pouvaient utiliser le programme MacLinkPro qui avait la faculté de pouvoir ouvrir indifféremment les fichiers de format Word, Works, WordPerfect, NisysWriter et bien d’autres formats encore. La plupart de ces interopérabilités ont pu être menées grâce au procédé de technologie d’ingénierie inversée (reverse engineering). Excepté le format RTF, aucune documentation sur le format Word n’a été rendue publique et disponible avant février 2008.
Le format de Word mentionné ci-dessus est un format binaire. Microsoft a mis en place un format XML ouvert pour ses applications Office avec la version 2007 : Microsoft Office XML Ouvert. Bien que portant ce nom, le format XML de Microsoft Office ne de conforme pas intégralement au standard de la norme XML. Il est toutefois publiquement documenté sous la norme Ecma 376. Cette publication est une première pour Word et le rend ainsi considérablement plus facile pour l’accessibilité des documents que ce soit pour ses concurrents que pour son interopérabilité.
La volonté de le définir comme une norme standard ISO est une vocation de Microsoft, qui voit celle-ci se concrétiser bientôt. Il existe en parallèle un second format XML de base supporté aussi par Word 2003 : ce format est le WordprocessingML qui n’a rien à voir avec le format de fichier ouvert Open XML.
Il est par ailleurs possible (et autorisé) de concevoir des plugins pour Word permettant de pouvoir lire ou enregistrer des documents dotés de format qu’il ne supporte pas nativement.