Moteur de recherche - Définition

Source: Wikipédia sous licence CC-BY-SA 3.0.
La liste des auteurs de cet article est disponible ici.

Évolution vers le web sémantique

De plus en plus de producteurs de contenu, à la suite des recommandations du W3C sur le Web sémantique, indexent leurs bases avec des métadonnées ou des taxinomies (ontologies), en vue de permettre aux moteurs de recherche (La recherche scientifique désigne en premier lieu l’ensemble des actions entreprises en vue...) de s'adapter aux analyses sémantiques.

Il convient de préciser que ces formes de recherches et d'analyses de corpus d'informations par voie informatique (L´informatique - contraction d´information et automatique - est le domaine...) ne sont encore que des potentialités. De nombreux algorithmes ou méthodes de travail devront être mis au point (Graphie) avant de pouvoir créer un système de recherche d'information véritablement sémantique.

En effet, par comparaison avec des recherches plein texte, de véritables recherches réalisées sur le web sémantique (Le Web sémantique désigne un ensemble de technologies visant à rendre le contenu des...) devraient être beaucoup plus conviviales pour l'utilisateur: contrairement à un moteur (Un moteur est un dispositif transformant une énergie non-mécanique (éolienne, chimique,...) interrogé en mode similarité (requête par mot clé appelant la fourniture de documents pertinents) un système sémantique n'impose pas à l'utilisateur de fournir les éléments de la réponses sous forme de mots clés.

  • L'utilisateur d'un système sémantique doit pouvoir directement poser sa question en langue naturelle.
  • Un véritable moteur de recherche (Un moteur de recherche est une application permettant de retrouver des ressources (pages Web,...) sémantique ne fournit pas de liste de pages répondant à une question mais la réponse précise.

Il n'existe pas encore à proprement parler de moteur (Un moteur (du latin mōtor : « celui qui remue ») est un dispositif...) de recherche sémantique. Mettre au point un véritable moteur de recherche capable de comprendre et de fournir du sens (SENS (Strategies for Engineered Negligible Senescence) est un projet scientifique qui a pour but...) et capable de comprendre une question en langue naturelle ou d'adapter une réponse en fonction d'un ensemble (En théorie des ensembles, un ensemble désigne intuitivement une collection...) d'information) est encore difficile. Quelques tentatives existent néanmoins pour chercher à répondre par des formes intermédiaires à cette problématique du sens dans la recherche d'information:

  • Powerset de Microsoft (Microsoft Corporation (NASDAQ : MSFT) est une multinationale américaine de solutions...), qui répond aux questions en langue naturelle
  • NLGbAse, qui permet d'interroger une ontologie extraite depuis Wikipedia
  • Le projet (Un projet est un engagement irréversible de résultat incertain, non reproductible a...) de recherche Edelweiss (L'Edelweiss (Leontopodium alpinum), pied-de-lion, Gnaphale à pied de lion dans le Tyrol,...), de l'INRIA qui développe des outils exploitant les triplets RDF.
  • KartOO (Le métamoteur de recherche KartOO fournit une représentation cartographique des résultats de la...) de la société Kartoo qui affichait des graphes sémantiques dans le cadre de ses cartes de recherche (fermé en 2010)
  • Sinequa (Sinequa est l’éditeur du progiciel Sinequa CS, une solution de recherche et de navigation...) CS de Sinequa qui fût l'un des premiers moteurs de réponses implémenté en situation (En géographie, la situation est un concept spatial permettant la localisation relative d'un...) réelle, sur le site institutionnel de Gaz de France (Gaz de France est un ancien groupe énergétique français, spécialisé dans...).

Optimisation pour les moteurs de recherche

Afin d'optimiser les moteurs de recherche, les webmestres insèrent des métaéléments (métatags) dans les pages web, dans l'en-tête HTML (head). Ces informations permettent d'optimiser les recherches d'information sur les sites web.

Financement

Les sites dont la recherche est le principal service se financent par la vente de technologie (Le mot technologie possède deux acceptions de fait :) et de publicité (Bien que le terme (Werbung en allemand, Publicity et Advertising en anglais) désignât d'abord le...).

Le financement par la publicité consiste à présenter des publicités correspondant aux mots recherchés par le visiteur. L'annonceur achète des mots-clés : par exemple une agence de voyage (Un voyage est un déplacement effectué vers un point plus ou moins éloigné dans un but personnel...) peut acheter des mots-clés comme « vacances », « hôtel » et « plage » ou « Cannes », « Antibes » et « Nice » si elle est spécialisée dans cette région. Cet achat permet d'obtenir un référencement (Le référencement est l'action de référencer, c'est-à-dire mentionner...) dit "référencement payant" à distinguer du référencement dit "référencement naturel".

Le moteur de recherche peut afficher la publicité de deux manières : en encart séparé ou en l'intégrant aux résultats de la recherche. Pour le visiteur, l'encart séparé se présente comme une publicité classique. L'intégration aux résultats se fait en revanche au détriment de la pertinence des résultats et peut avoir des retombées négatives sur la qualité perçue du moteur. De ce fait, tous les moteurs ne vendent pas de placement dans les résultats.

Les moteurs de recherche constituent un enjeu économique. La valeur boursière de Google (Google, Inc. est une société fondée le 7 septembre 1998 dans la Silicon Valley en Californie par...), principal moteur de recherche, est de 165 milliards d'euros en janvier 2008.

Techniques de détournement

L'importance des enjeux économiques a généré des techniques de détournement malhonnêtes des moteurs de recherche pour obtenir des référencements "naturels", le spamdexing (Spamdexing est un néologisme anglais composé du substantif spam et du suffixe dexing pris sur le...).

Les techniques les plus pratiquées de spamdexing sont :

  • Le cloaking, qui est une technique permettant de fournir une page différente (En mathématiques, la différente est définie en théorie algébrique des...) aux moteurs de recherche de celle visible par un internaute (Un internaute est un utilisateur du réseau Internet.).
  • Les sites miroirs, qui sont des copies exactes d'un site Internet (Internet est le réseau informatique mondial qui rend accessibles au public des services...) mais sous une autre adresse (Les adresses forment une notion importante en communication, elles permettent à une entité de...).
  • Le zurnisme, qui est la création d'un néologisme pour obtenir une exclusivité de référencement. Le mot zurnisme est lui-même un zurnisme, qui a été créé en 2007 par un blog (Un blog ou blogue est un site Web constitué par la réunion de billets...) français.

Les techniques de spamdexing sont pourchassées par les éditeurs de moteurs de recherches, qui constituent des "blacklists" provisoires ou définitives.

On distingue le spamdexing, détournement malhonnête, du SEO, Search Engine Optimisation. Les techniques de SEO sont commercialisées par des sociétés spécialisées.

Vente de technologie

Les grandes organisations (entreprises, administrations) disposent généralement de très nombreuses ressources informatiques dans un vaste intranet. Leurs ressources n'étant pas accessibles depuis Internet, elles ne sont pas couvertes par les moteurs de recherche du web. Elles doivent donc installer leur propre moteur si elles veulent mener des recherches dans leurs ressources. Elles constituent donc un marché pour les développeurs de moteurs de recherche.

Il arrive également que des sites web publics utilisent les services d'un moteur de recherche pour étoffer leur offre. On parle alors de SiteSearch. Ces logiciels permettent la recherche de contenus dans un ou plusieurs groupes de sites. Ces technologies sont particulièrement exploitées sur les sites de contenus et les sites de vente en ligne. La particularité de ces outils est souvent la complexité (La complexité est une notion utilisée en philosophie, épistémologie (par...) de mise en œuvre et les ressources techniques nécessaires disponibles.

Il arrive aussi que les grands portails exploitent la technologie des moteurs de recherche. Ainsi Yahoo! (Yahoo!,Inc. est une société américaine de services sur Internet opérant...), spécialiste de l'annuaire (Un annuaire est une publication (imprimée ou électronique) mise à jour chaque année qui...) web, a utilisé pendant quelques années la technologie de Google pour la recherche, jusqu'à ce qu'elle lance son propre moteur de recherche Yahoo Search Technology en 2004, dont les fondations (Les fondations d'un ouvrage assurent la transmission et la répartition des charges (poids propre...) proviennent de Altavista (AltaVista (littéralement « vue d'en haut ») est un moteur de recherche du World Wide Web. Il...), Inktomi et Overture, sociétés fondatrices des moteurs de recherche et rachetées par Yahoo!.

Page générée en 0.114 seconde(s) - site hébergé chez Contabo
Ce site fait l'objet d'une déclaration à la CNIL sous le numéro de dossier 1037632
A propos - Informations légales | Partenaire: HD-Numérique
Version anglaise | Version allemande | Version espagnole | Version portugaise