Web profond - Définition

Source: Wikipédia sous licence CC-BY-SA 3.0.
La liste des auteurs de cet article est disponible ici.

Introduction

Le web profond ou web invisible (en anglais deep web) est la partie du web accessible en ligne, mais non indexée par des moteurs de recherche classiques généralistes; certains moteurs, tels que BASE, prennent cependant en compte cette partie du réseau. La terminologie web profond est opposée à web surfacique.

Il convient de le distinguer du web sombre, lequel désigne les parties du web non accessibles en ligne. Le web profond est un cas particulier du web opaque (indexable, mais non indexé).

Ressources profondes

Les robots d'indexation sont des programmes utilisés par les moteurs de recherche pour parcourir le web. Afin de découvrir de nouvelles pages, ces robots suivent les hyperliens. Les ressources profondes sont celles qui ne peuvent pas être atteintes facilement par les moteurs de recherche.

On peut classifier les ressources du web profond dans une ou plusieurs des catégories suivantes :

  • contenu dynamique : pages dynamiques dont le contenu est généré en réponse aux données entrées dans un formulaire.
  • contenu non lié : pages qui ne sont pas liées par d'autres pages et qui ne peuvent donc pas être découvertes par les robots d'indexation. Ce contenu est connu comme des pages sans backlinks (ou inlinks).
  • contenu à accès limité : pages de sites qui exigent un enregistrement ou imposent un accès limité à leurs pages (par exemple utilisant le standard d'exclusion de robots), ce qui empêche les moteurs de recherche de les explorer et de créer des copies en cache.
  • contenu de script : pages qui ne sont accessibles qu'à travers des liens produits par l'exécution de programmes, par exemple en JavaScript, Ajax ou en Flash.
  • contenu non indexable : documents dans des formats de données non supportés par les robots d'indexation.

Web opaque

Une part très importante du web est théoriquement indexable, mais non indexée de fait par les moteurs. Certains auteurs parlent dans ce cas, pour le web non profond et non indexé, de web opaque (opaque web) ou de web presque visible (nearly visible web).

Le web profond et le web opaque sont accessibles en ligne aux internautes, les deux ne sont pas indexées par les moteurs : le web opaque pourrait être indexé.

Les algorithmes des moteurs étant semblables (par exemple, page rank), les zones indexées se recoupent en partie d'un moteur de recherche à l'autre. Les ressources matérielles des robots d'indexation ne sont pas, malgré des moyens matériels importants, à même de suivre tous les liens théoriquement visibles par eux, que le web (gigantesque) contient.

Une équipe de chercheurs allemands a étudié le comportement des robots d'indexation face à des sites contenant énormément de pages. Ils ont créé un site web composé de 2 147 483 647 pages (231 - 1). Ce site web étant un arbre binaire, il est très profond (il faut au minimum 31 clics pour arriver à certaines pages). Ils ont laissé ce site en ligne, sans le modifier, pendant une année. Les résultats montrent que le nombre de pages indexées pour ce site, dans le meilleur des cas, ne dépasse pas 0,0049%.

Afin de résoudre ce problème de volumétrie de pages à indexer pour un site donné, le moteur Google a introduit en 2005, le protocole sitemap. Il permet, grâce à la mise à disposition du robot d'un fichier sitemap, de gagner en efficacité pour l'indexation. Ce fichier est mis à la racine du site par l'administrateur du site web.

Taille

Une étude de juillet 2001 réalisée par l'entreprise BrightPlanet estime que le web profond pouvait contenir 500 fois plus de ressources que le web indexé par les moteurs de recherche. Ces ressources, en plus d'être volumineuses, sont souvent de très bonne qualité.

Le web surfacique (facilement accessible via des moteurs de recherches, par exemple) a une taille d'environ 167 téraoctets. D'après des études faites à l'Université de Berkeley, la taille du web profond est estimée à environ 91 000 téraoctets.

En 2008, le web dit "invisible" non référencé par les moteurs de recherche représente 70 à 75% de l'ensemble, soit environ un trilliard de pages non indexées.

Page générée en 0.033 seconde(s) - site hébergé chez Contabo
Ce site fait l'objet d'une déclaration à la CNIL sous le numéro de dossier 1037632
A propos - Informations légales | Partenaire: HD-Numérique
Version anglaise | Version allemande | Version espagnole | Version portugaise