Internet Archive - Définition

Source: Wikipédia sous licence CC-BY-SA 3.0.
La liste des auteurs de cet article est disponible ici.

Introduction

Photo prise à la Bibliotheca Alexandrina : elle contient une copie des documents de l’Internet Archive.

L’Internet Archive (IA) est une organisation à but non lucratif consacrée à l’archivage du Web, située dans le Presidio de San Francisco, en Californie. Le projet sert aussi de bibliothèque numérique. Cette archive est constituée de clichés (copie de pages prises à différents moments) d’Internet, de logiciels, de films, de livres et d’enregistrements audio.

Pour assurer la stabilité et la sécurité des archives, une copie miroir est conservé à la Bibliotheca Alexandrina en Égypte. L’IA rend ses collections disponibles gratuitement aux chercheurs, historiens et universitaires. Elle est membre de l’American Library Association et est officiellement reconnue par l’État de Californie comme une bibliothèque.

Le robot d'indexation utilisé par IA est Heritrix, un logiciel libre. Le logiciel de numérisation de livre, libre également, est Scribe.

Histoire

L'Internet Archive fut fondée en 1996 par Brewster Kahle.

En raison de leurs objectifs, la préservation de la connaissance humaine et l'accessibilité pour tous à ces collections, les fondateurs de l'IA comparent ce projet à celui plus ancien de la Bibliothèque d'Alexandrie.

Archive-It

Les utilisateurs désireux d'archiver en permanence et immédiatement leurs données peuvent utiliser, moyennant un abonnement, le service Archive-It. Les données recueillies sont périodiquement indexées par la Wayback Machine. En décembre 2007, ce service avait créé plus de 230 millions d'URL pour 466 collections publiques, y compris des organismes gouvernementaux, des universités et des institutions culturelles.

Exemple d'organisations participant à Archive-It :

  • Electronic Literature Organization
  • les Archives d'État de Caroline du Nord
  • le Texas State Library and Archives Commission
  • l'Université Stanford
  • la Bibliothèque nationale australienne
  • le Research Libraries Group (RLG).

Wayback Machine

La Wayback Machine est la partie des clichés du Web de l'IA. Elle est mise à jour à partir du contenu d'Alexa Internet. Ce service permet aux utilisateurs de voir les versions archivées de pages Web à travers le temps : c'est l' « index à trois dimensions ».

Les clichés sont disponibles de 6 à 12 mois après leur capture. La fréquence des instantanés est variable, toutes les mises à jour de sites Web ne sont pas enregistrées, et des intervalles de plusieurs semaines peuvent être remarqués (voir par exemple les clichés pour le journal Le Monde).

En 2006, la Wayback Machine contenait près de 2 petaoctets de données. Le volume augmente à un rythme de 20 teraoctets par mois, cela représente une augmentation de deux tiers par rapport aux 12 téraoctets par mois, qui était le taux de croissance en 2003. Cette croissance est supérieure à la quantité de texte contenue dans les plus importantes bibliothèques du monde, notamment la Bibliothèque du Congrès. En 2009 la Wayback Machine contenait près de 3 pétaoctets de données et son augmentation est de 100 téraoctets par mois. Les données sont stockées dans des systèmes fabriqués par Capricorne Technologies, des Petabox rack.

Le nom « Wayback Machine » est une référence à une partie de The Rocky and Bullwinkle Show dans lequel M. Peabody, un chien avec un air professoral et son assistant Sherman (un animal de compagnie humain), utilisent une machine à remonter le temps appelée « WABAC Machine » pour décrire des évènements historiques célèbres.

Un escalator sous l'océan
Il y a 15 heures
Page générée en 0.086 seconde(s) - site hébergé chez Contabo
Ce site fait l'objet d'une déclaration à la CNIL sous le numéro de dossier 1037632
A propos - Informations légales | Partenaire: HD-Numérique
Version anglaise | Version allemande | Version espagnole | Version portugaise