Les Web Analytics regroupent la mesure, la collecte, l'analyse et la présentation de données provenant d'Internet utilisées à fin de comprendre et d'optimiser l'utilisation du Web.
Dans un contexte de vente en ligne, les Web Analytics font référence à la mesure d'aspects d'un site web liés à la stratégie commerciale de l'entreprise comme, par exemple, quelles sont les pages web ayant conduit au plus grand nombre d'achats en ligne?
Un log (anglicisme) est un fichier texte regroupant l’ensemble des événements survenus sur un serveur web incluant les requêtes et les réponses. Les fichiers logs sont des fichiers générés par les serveurs web à chacune de leurs transactions. On peut en modifier le format pour les rendre plus compatibles avec les différents outils d'analyse.
Le manque de précision de l'analyse des logs ont conduit au développement des technologies de marqueurs, appelés en anglais 'tags' [1] Les marqueurs ou 'tags' sont généralement des appels d'images invoqués par Javascript dans le code de la page web. ( à compléter )
Les logs sont générés par défaut par le serveur web. Ils suivent [#Liens_externes différents formats] relativement standardisés. Ils enregistrent
Les tags utilisent Javascript pour définir des variables ou des évènements à traquer. Comme le code Javascript est exécuté à chaque visualisation de la page web, on court-circuite ainsi le système de cache du navigateur en rendant plus exhaustif le suivi du trafic, des variables et des évenements.
Certains outils de web Analytics, comme Webtrends, utilisent une méthode hybride qui consiste à insérer par Javascript (via un serveur séparé) les informations correspondants au tags dans les logs.
L'analyse de trames réseau (en anglais packet sniffing), permet d'observer l'activité réseau d'un serveur web et d'en déduire son traffic. A l'instar d'une solution de type logs, on y perd les notions d'évènements et d'interactivité.
Les logs sont générés automatiquement par le serveur web mais peuvent, au bout d'un certain temps, représenter une masse de données assez considérable (plusieurs gigaoctets. Il devient préférable de générer des logs par semaine ou par mois de l'année. Ces logs doivent être stockés et pouvoir être aussi accessibles et transférables que possible.
Les méthodes à base de tags stockent souvent leurs informations directement dans une base de données qui sert par la suite à générer les rapports.
Le caractère unique vient de l'attribution d'un identifiant unique: numéro de session (log) ou cookie.
Deux attributs caractérisent un cookie en termes de web analytics: son domaine et sa date d'expiration. C'est d'ailleurs très souvent la date d'expiration du cookie qui détermine l'unicité d'un visiteur.
Si le domaine est le même que celui du site qui est consulté, on parle de cookie d'origine (en anglais: first-party cookie). En revanche, si le domaine est différent du site consulté, on parle de cookie tiers (en anglais: third-party cookie). La plupart des cookies tiers sont générés par des sites d'annonceurs publicitaires ou de ciblage d'audience Internet.
Les cookies tiers sont très souvent la cible d'outils ou de filtres anti-spyware ou anti-publicitaires qui bloquent la création de ces cookies. En ajoutant à cela les différents mécanismes d'effacement des cookies, les chiffres concernant les visiteurs uniques peuvent être réduits de 5% à 40%. Ce grand écart est une estimation car il est extrêmement difficile d'évaluer avec précision le taux de blocage et/ou d'effacement des cookies.
De manière générale, les cookies d'origine sont moins sujets au blocage car jugés moins intrusifs que les cookies tiers mais demeurent quand même sensibles à l'effacement.