Projet Gutenberg - Définition

Source: Wikipédia sous licence CC-BY-SA 3.0.
La liste des auteurs est disponible ici.

Le projet Gutenberg fut lancé par Michael Hart en 1971 afin d'assurer, à ce qui deviendra plus tard Internet, une bibliothèque de versions électroniques libres (parfois appelés e-texts) de livres physiquement existants. Les textes fournis sont essentiellement du domaine public, soit parce qu'ils n'ont jamais été sous copyright, soit parce que leur copyright a expiré. Il y a également quelques textes sous copyright rendus disponibles par le projet avec la permission de l'auteur. Le projet fut nommé en hommage à l'imprimeur allemand du XV^e siècle Johannes Gutenberg. En février 2006, le projet Gutenberg annonce proposer plus de 18 000 livres dans sa collection.

Information générale

Le slogan du projet, " brisons les barrières de l'ignorance et de l'illettrisme ", a été choisi parce que le projet espère continuer l'œuvre de répandre le lettrisme et le goût pour l'héritage littéraire, ce que commença à faire la bibliothèque publique au début du XX^e siècle.

La plupart des parutions du projet Gutenberg sont en anglais. Mais il y en a maintenant un nombre significatif en allemand, français, italien, espagnol, néerlandais, finnois, chinois, et plus de 40 autres langues.

Tous les textes du projet Gutenberg peuvent être acquis et redistribués par les lecteurs sans aucun frais. Le Projet possède la marque déposée du Projet Gutenberg, et l'utilisation commerciale des e-texts sous marque déposée requiert un droit payable au Projet. L'entête ôté et la marque non utilisée, le texte peut être utilisé sans restrictions (il y a quelques textes sous droit d'auteur dans le Projet, qui ont d'autres restrictions.)

Le projet a fait paraître plus de 18 000 livres électroniques, produits presque entièrement par des volontaires, et demeure en activité. Tout le monde peut devenir correcteur en s'inscrivant sur l'un ou l'autre des sites de " distributed proofreaders ", et en se portant volontaire pour la correction page par page.

Des critiques ont été adressées envers quelques e-texts du Projet Gutenberg concernant leur manque d'érudition, par exemple, le détail insuffisant des éditions utilisées et l'omission des préfaces originelles publiées ainsi que de l'appareil critique. À cause de ces défauts, l'édition électronique n'est pas une copie fidèle d'une édition papier, et elle est inutilisable dans le cadre d'un travail universitaire. La confrontation des premiers e-texts aux nouveaux permet de constater une tendance à la meilleure préservation de tels textes ; la plupart des nouveaux textes conservent l'information et les préfaces de l'édition originale.

Histoire

Le projet a été initié en 1971 par Michael Hart, à l'université de l'Illinois aux États-Unis. Ayant eu à sa disposition, grâce à des amis administrateurs, du temps de calcul sur un ordinateur mainframe estimé à l'époque valoir 100 000 000 dollars, il chercha un moyen de retourner ce qui lui avait été donné. Il estima alors que la plus grande valeur créée par les ordinateurs n'était pas le calcul, mais le stockage, la mise à disposition et la recherche de ce qui était entreposé dans les bibliothèques. En guise de preuve de concept, il saisit une copie de la déclaration de l'indépendance des États-Unis et l'envoya à tous les utilisateurs du réseau informatique de l'université (ancêtre de l'internet moderne). Selon lui, la mise à disposition de ce document pour les utilisateurs présents et futurs des ordinateurs remboursait sa dette morale. Ce document fut le premier document électronique du projet Gutenberg.

Ensuite, le projet se concentra sur des ouvrages en langue anglaise, en particulier des ouvrages de référence. Le projet s'est ensuite diversifié. Diverses langues sont maintenant représentées, et tous les genres sont couverts, du traité scientifique à la littérature de divertissement. Des périodiques sont également mis en ligne.

Un des atouts du projet Gutenberg, qui explique son exceptionnelle longévité, est l'utilisation de textes ASCII, et plus particulièrement de l'ASCII 7 bits. Bien que moins agréables à utiliser, les ouvrages ainsi codés restent lisibles très longtemps et sur toutes les machines. Le projet Gutenberg est ainsi à l'abri de la disparition d'un format, car il est peu probable que l'ASCII disparaisse ou soit radicalement modifié, la base de textes restera donc visible très longtemps. Mais une diversification était indispensable : l'ASCII à 7 bits, en particulier, ne permet pas de noter les caractères accentués, indispensables pour les textes en français, par exemple. On obtient de plus une bien meilleure mise en forme avec un fichier au format HTML. Le projet Gutenberg s'est adapté, et on peut aujourd'hui télécharger la plupart des livres en choisissant son format : ASCII 7 bits, Latin-1, HTML (contenant d'éventuelles illustrations), LaTeX pour les ouvrages scientifiques, etc.

Depuis plusieurs années, on discute sur l'utilisation d'un format XML, mais les progrès sur ce point sont lents. Les formats qui ne sont pas facilement éditables, tels que PDF, sont généralement jugés comme ne correspondant pas aux buts du Projet Gutenberg ; certains cependant ont été utilisés par la collection.

Le projet a été hébergé par plusieurs universités, jusqu'en 2000, où le projet Gutenberg a été officiellement organisé sous la forme d'une entité juridique sans but lucratif (non-profit organization en droit américain), dont le statut correspond à peu près à celui des associations loi de 1901 de droit français. En particulier, les dons fait par les citoyens américains à cette organisation sont déductibles des impôts.

Distributed Proofreaders

Au début, une personne seule soumettait son texte au site ce qui demandait un important travail, mais un système plus perfectionné a été mis en place. Fondé en 2000, Distributed Proofreaders est maintenant la source principale de livres du projet Gutenberg. Certaines personnes s'occupent de scanner les pages et de faire tourner un logiciel de reconnaissance optique de caractères. Puis les textes obtenus sont mis à disposition des autres volontaires qui relisent page par page afin de corriger les différentes erreurs laissées par le logiciel de reconnaissance optique. Chaque page est relue au moins deux fois. Enfin, quelqu'un s'occupe de la mise en page en fichier texte, et de l'éventuelle production d'un fichier HTML.