Hitachi Content Platform est aussi désigné par l'acronyme HCP (anciennement nommé HCAP pour Hitachi Content Archive Platform ). Il s'agit d'une solution logicielle et matérielle dédiée à l'archivage électronique à valeur probante de la société Hitachi Data Systems en réponse à la problématique de stockage WORM sur disque.
La solution est constituée d’un environnement logiciel (WORM) et matériel (RAID-6) répondant aux exigences de conservation sur le long terme des données numériques, mais aussi de sécurité et d’intégrité de ces mêmes données (standard POSIX - Norme ISO 9660). Les accès en lecture (consultation) et écriture (versement/dépôt) se réalisent à travers un réseau IP LAN pour les protocoles NFS, CIFS et un réseau LAN ou WAN pour le protocole HTTP(S).
Cette solution d’archivage, à haute performance, disponibilité et extensibilité, satisfait aux exigences de conformité réglementaire en assurant la préservation sécuritaire à long terme ainsi, que la recherche et la récupération de précieuses informations.
Le modèle de référence OAIS (Open Archival Information Systems) fonde la base de la conception de la plate-forme HCP. Le moteur logiciel interne délivre des services d’archivage définis au niveau Serveur de Stockage dans le modèle de référence OAIS. Le service consultation est assurée par les protocoles NFS, CIFS et HTTP, mais aussi à travers le moteur d'indexation intégré qui indexe le contenu des documents et des métadonnées. Le moteur de recherche propose une interface HTTP. Il est accessible au travers de requêtes XML et propose la génération de liens RSS. Ce moteur intégré est celui de la société FAST Instream qui a été rachetée en 2008 par la société Microsoft.
La représentation schématique du modèle OAIS est structurée au travers de règles générales de gestion des objets correspondant à un plan de conservation, mais aussi des règles d’ingestion et de consultation, proposant de garantir une indépendance aux applications, une conservation dans une infrastructure de stockage et une optimisation des recherches et d’indexation.
Dans la chaine de traitement d'une archive, la solution HCP se positionne au niveau stockage. Du fait de sa conception, HCP ne peut être associé directement à la fonction d'un Collecteur. Le Collecteur est le programme de récupération ou de capture des données à partir de l'application métier ou des environnements informatiques. Sa fonction minimale peut être comparée à de la migration, c'est-à-dire un déplacement de données à partir de règles de poids, de valeurs ou tout simplement de dates. Mais cette capacité de collecte est plus ou moins riche en fonction du type d'application et du niveau fonctionnel du Collecteur. Ainsi, le Collecteur peut être classifié depuis la catégorie HSM (Hierarchical Storage Management) à la catégorie Record Management, ou plus largement, la catégorie GED (Gestion Électronique des Documents).
Dans une architecture informatique, le Collecteur est parfois inutile si l'application cible et l'utilisateur sont en charge de cette fonction. Un premier exemple : le module ILM (Information Lifecycle Managment) de SAP se charge, au travers du protocole WebDAV, de transférer ces objets actifs vers le stockage HCP ou compatible, sans nécessiter de passerelle spécifique autre que le protocole. Un second exemple : une solution de messagerie (MS Exchange, Notes, etc.) peut journaliser tous les messages entrant et sortant vers la solution HCP, au travers du protocole SMTP (Simple Mail Transfer Protocol). Ces deux exemples illustrent la non nécessité, au niveau informatique, d'un Collecteur spécifique.
Dans la majeure partie des infrastructures, le Collecteur est bien présent. En effet, son rôle ne doit pas être négligé. Il apporte de réelles réponses en termes de classification et de validation de l'information, mais aussi pour la gestion et la délégation des droits d'accès. La solution HCP propose un certain nombre de services orientés Archivage, mais son positionnement reste axé sur la prise en charge et la gestion du stockage WORM.
Ce positionnement se décline dans HCP par une forte valeur ajoutée sur la prise en charge des archives, de la gestion des rétentions et des métadonnées. Il s'agit d'une déclinaison de services orienté sur le dépôt et la consultation des archives au travers de standards indépendants du constructeur de la solution. Cette orientation de la solution HCP s'accompagne d'une différenciation conceptuelle, qui dès la première version a pour objectif de respecter certaines règles inhérentes à un projet d'archivage :
HCP se structure physiquement autour d’un réseau IP privé d’échanges, géré par un Switch IP dédié, et de cellules ou nœuds. De base, HCP est bâti par une unité de stockage disque et 2 nœuds (2x2 serveurs en Cluster). Le stockage est soit intégré aux serveurs (architecture RAIN - Redundant Array of Independent Nodes), soit disponible via une ou plusieurs baies de stockage (architecture SAIN - SAN plus Array of Independent Nodes).
Dans le cas d'une architecture SAIN, la liaison entre les serveurs et le stockage est de type SAN FC. Des Switchs FC dédiés complètent l’ensemble en fonction du nombre de serveurs reliés et du niveau de disponibilité requis. Une option de haute disponibilité nommée DAP (Data Access Protection) permet d’augmenter l’accessibilité aux données, par l’installation de deux cartes HBA sur chaque serveur. Ainsi en cas de rupture d’un serveur ou d’une zone de stockage, l’accès matériel est toujours garanti.
En aperçu général, l’environnement logiciel HCP est composé des services et des fonctionnalités suivantes :
La solution HCP est proposée en deux déclinaisons principales :
HCP est une solution résolument ouverte par son concept d’architecture, mais aussi par son mode d’accès en lecture et écriture. Ainsi, un certain nombre de protocoles standards sont disponibles sans option et sans concurrence d’accès. C’est-à-dire que l’entreprise accède à HCP par le ou les protocoles HTTP(s), NFS et CIFS en fonction des besoins de l’architecture métier.