Certains sites web offrent un moteur de recherche comme principale fonctionnalité ; on appelle alors moteur de recherche le site lui-même (Dailymotion, YouTube, Google Video, ... sont des moteurs de recherche vidéo).
Outil de recherche sur le web constitué de " robots ", encore appelés spiders, crawlers ou agents qui parcourent les sites à intervalles réguliers et de façon automatique (sans intervention humaine, ce qui les distingue des annuaires) pour découvrir de nouvelles adresses (URL). Ils suivent les liens hypertextes (qui relient les pages les unes aux autres) rencontrés sur chaque page atteinte. Chaque page identifiée est alors indexée dans une base de données, accessible ensuite par les internautes à partir de mots-clés.
Par abus de langage, on appelle également moteurs de recherche :
On trouve également des métamoteurs, c'est-à-dire des sites web où une même recherche est lancée simultanément sur plusieurs moteurs de recherche (les résultats étant ensuite fusionnés pour être présentés à l'internaute) — on peut citer Mamma, Kartoo, Seek.fr, etc.
Plus récemment, on trouve également des annuaires qui exploitent des systèmes de folksonomie à base de tags (ou étiquettes) positionnés par les internautes.
Le fonctionnement d'un moteur de recherche se décompose en trois étapes principales.
Afin d'optimiser les moteurs de recherche, les webmestres insérent des métaéléments (métatags) dans les pages web, dans l'en-tête HTML (head). Ces informations permettent d'optimiser les recherches d'information sur les sites web.
Les sites dont la recherche est le principal service se financent par la vente de technologie et de publicité.
Le financement par la publicité consiste à présenter des publicités correspondant aux mots recherchés par le visiteur. L'annonceur achète des mots-clés : par exemple une agence de voyage peut acheter des mots-clés comme " vacances ", " hôtel " et " plage " ou " Cannes ", " Antibes " et " Nice " si elle est spécialisée dans cette région. Cet achat permet d'obtenir un référencement dit "référencement payant" à distinguer du référencement dit "référencement naturel".
Le moteur de recherche peut afficher la publicité de deux manières : en encart séparé ou en l'intégrant aux résultats de la recherche. Pour le visiteur, l'encart séparé se présente comme une publicité classique. L'intégration aux résultats se fait en revanche au détriment de la pertinence des résultats et peut avoir des retombées négatives sur la qualité perçue du moteur. De ce fait, tous les moteurs ne vendent pas de placement dans les résultats.
Les moteurs de recherche constituent un enjeu économique. La valeur boursière de Google, principal moteur de recherche, est de 165 milliards d'€uros en janvier 2008.
L'importance des enjeux économiques a généré des techniques de détournement malhonnêtes des moteurs de recherche pour obtenir des référencements "naturels", le spamdexing.
Les trois techniques les plus pratiquées de spamdexing sont :
- Le cloaking, qui est une technique permettant de fournir une page différente aux moteurs de recherche de celle visible par un internaute.
- Le zurnisme, qui est la création d'un néologisme pour obtenir une exclusivité de référencement.
- Les sites miroirs, qui sont des copies exactes d'un site internet mais sous une autre adresse.
Les techniques de spamdexing sont pourchassées par les éditeurs de moteurs de recherches, qui constituent des "blacklists" provisoires ou définitives. Toutefois, le zurnisme demeure indétectable, aucun logiciel n'ayant la capacité de discerner le néologisme véritable du faux néologisme construit dans le seul but d'un surréférencement gratuit.
En 2006, François Cazals, professeur à l’ISC Paris, organisait un concours de référencement sur la base du néologisme "zurtouij". Cette technique est améliorée par le zurnisme.
On distingue le spamdexing, détournement malhonnête, du SEO, Search Engine Optimisation. Les techniques de SEO sont commercialisées par des sociétés spécialisées.
Les grandes organisations (entreprises, administrations) disposent généralement de très nombreuses ressources informatiques dans un vaste intranet. Leurs ressources n'étant pas accessibles depuis Internet, elles ne sont pas couvertes par les moteurs de recherche du web. Elles doivent donc installer leur propre moteur si elles veulent mener des recherches dans leurs ressources. Elles constituent donc un marché pour les développeurs de moteurs de recherche.
Il arrive également que des sites web publics utilisent les services d'un moteur de recherche pour étoffer leur offre. Ainsi Yahoo!, spécialiste de l'annuaire web, a utilisé pendant quelques années la technologie de Google pour la recherche, jusqu'à ce qu'elle lance son propre moteur de recherche Yahoo Search Technology en 2004, dont les fondations proviennent de Altavista, Inktomi et Overture, sociétés fondatrices des moteurs de recherche et rachetées par Yahoo!.
Dans la mesure où les producteurs de contenu indexent les bases avec des métadonnées ou des taxinomies (ontologies), les moteurs de recherche vont devoir s'adapter aux analyses sémantiques. Par rapport aux recherches plein texte, les recherches dans le web sémantique sont beaucoup plus efficaces.
Quelques exemples de moteurs de recherche sémantiques :
Selon une étude du cabinet Comscore réalisée en août 2007[1]: