Introduction
En informatique, la déduplication (également appelée factorisation ou stockage d'instance unique) est une technique de sauvegarde de données, consistant à factoriser des séquences de données identiques afin d'économiser l'espace utilisé.
Chaque fichier est découpé en une multitude de tronçons. À chacun de ces tronçons est associé un identifiant unique, ces identifiants étant stocké dans un index. L'objectif de la déduplication est de ne stocker qu'une seule fois un même tronçon. Aussi, une nouvelle occurrence d'un tronçon déjà présent n'est pas à nouveau sauvegardé, mais remplacé par un pointeur vers l'identifiant correspondant.
La déduplication est utilisée en particulier sur des solutions du type VTL (Virtual Tape Library).
Méthodes de déduplication
Déduplication hors ligne
Les données à sauvegarder sont recopiées sur un espace disque tampon, et dans un deuxième temps une recherche des blocs en double est réalisée. Cette méthode nécessite un espace de stockage important. C'est le principe de la solution Falconstore par exemple.
Déduplication en ligne
Les données à sauvegarder sont analysées "à la volée", et une table d'index des blocs identiques est gérée (solution Data Domain ou Diligent).
Déduplication à la source
Des agents répartis sur les serveurs à sauvegarder analysent les données à la source (solution EMC Avamar notamment)
Exemples
- Exemple de nom de dossier de sauvegarde ; en local et ou non sur le même support :
- Dossier à situé devant une arborescence regroupant plusieurs dossiers ou fichiers d'un même type.
- Nom de dossier et ou méthode de sauvegarde locale utilisée en pratique par certaines personnes.
- Seul&Bis{NomDossier}$
- Seul = Unique hors de ce dossier ; mais à sauvegarder en plus ailleurs = documents privés.
- $ = Présence de sous-dossiers ou d'une structure de stockage à suivre et marque du pluriel.
- Pr{CopierStocker}$
- Stocker = Unique hors de ce dossier ; mais à sauvegarder en plus ailleurs = documents privés.
- $ = Présence de sous-dossiers ou d'une structure de stockage à suivre et marque du pluriel.
- Exemple de nom de fichier utiliser en pratique :
- Bis2NomDeFichier.ext ; Bis2 = 1 double/sauvegarde de NomDeFichier.ext.
- Bis3NomDeFichier.ext ; Bis3 = 2 doubles/sauvegardes de NomDeFichier.ext.
- Ter2NomDeFichier.ext ; Ter2 = 3 doubles/sauvegardes de NomDeFichier.ext.
- Quater2NomDeFichier.ext ; Quater2 = 4 doubles/sauvegardes de NomDeFichier.ext. (/!\ Longueur du nom !)
- Etc.: Source: Bis, ter... et après ?
- En informatique, un double (en) est également un type de donnée similaire au type float mais en double précision.
- Virgule flottante, nombres les plus souvent utilisés dans un ordinateur pour représenter des valeurs non entières.
IEEE 754, standard pour la représentation des nombres à virgule flottante en binaire (page à renommer avec la date). - IEEE 754-1985 (en), standard pour la représentation des nombres à virgule flottante en binaire.
- IEEE 754-2008 (en), révision majeure de la norme IEEE 754-1985 et groupe de travail IEEE 754r.
Principe
L'index créé lors de la sauvegarde est utilisé pour restituer les données au bon endroit. Les fichiers ou les blocs en double dans l'index sont dupliqués au moment de la restauration. L'expérience montre qu'en pratique le taux de déduplication augmente dans le temps, car en pratique peu de données changent entre deux sauvegardes totales. D'autre part le taux de réduction obtenu dépend fortement du type de données traitées.
Inconvénients de la déduplication
- Risque de perte de données car les données ne sont pas en double et donc le support utilisé doit être fiable. La réduction de la taille des sauvegardes est un avantage par rapport à d'autre types de sauvegarde, mais au détriment de la sécurité des données. Par conséquent, il est recommandé de créer des doubles des supports de stockage.
- Perte du format d'origine, ce qui dans certains cas pose des problèmes de conformité aux contraintes légales (par exemple Bâle II). Certaines solution proposent pour cela de générer les données sensibles sur cartouche au format initial, pour s'affranchir d'une éventuelle défaillance de la VTL par exemple.
Avantage de la déduplication
- L'avantage le plus important est la réduction d'espace occupé par les sauvegardes: selon le cabinet Gartner, cette technologie permet de diviser par 20 voire par 30 les besoins en espace de stockage.
- Un avantage indirect, conséquence du précédent, est la diminution de la bande passante nécessaire à la sauvegarde dans le cas de la déduplication à la source.