L'Internet Archive est une organisation à but non lucratif consacrée à l'archivage du Web, fondée par Brewster Kahle en 1996, et basée dans le Presidio de San Francisco.
Ses collections incluent :
L’archivage maintient également à jour la Wayback Machine (" machine à remonter le temps ").
Le robot d'indexation utilisé par Internet Archive est Heritrix, un logiciel libre, programmé en Java.