Analyse de la variance - Définition et Explications

Source: Wikipédia sous licence CC-BY-SA 3.0.
La liste des auteurs de cet article est disponible ici.

Introduction

L'analyse de la variance (terme souvent abrégé par le terme anglais ANOVA : ANalysis Of VAriance) est un test statistique permettant de vérifier que plusieurs échantillons sont issus d'une même population.

Ce test s'applique lorsque l'on mesure une ou plusieurs variables explicatives catégorielles (appelées alors facteurs de variabilité, leurs différentes modalités étant parfois appelées « niveaux ») qui influence sur la distribution d'une variable (En mathématiques et en logique, une variable est représentée par un symbole. Elle est utilisée pour marquer un rôle dans une formule, un prédicat ou...) continue à expliquer. On parle d'analyse à un facteur, lorsque l'analyse porte sur un modèle décrit par un facteur de variabilité, d'analyse à deux facteurs ou d'analyse multifactorielle.

Principe

L'analyse de la variance (L'analyse de la variance (terme souvent abrégé par le terme anglais ANOVA : ANalysis Of VAriance) est un test statistique permettant de vérifier que plusieurs échantillons sont issus...) permet d'étudier le comportement d'une variable à expliquer continue en fonction d'une ou plusieurs variables explicatives catégorielle. Lorsque l'on souhaite étudier le comportement de plusieurs variables à expliquer en même temps (Le temps est un concept développé par l'être humain pour appréhender le changement dans le monde.), on utilisera une analyse de la variance ( En statistique et en probabilité, variance En thermodynamique, variance ) multiple (MANOVA). Si un modèle contient des variables explicatives catégorielles et continues et que l'on souhaite étudier les lois liant (Un liant est un produit liquide qui agglomère des particules solides sous forme de poudre. Dans le domaine de la peinture, il permet au pigment d'une peinture de coller sur le support, il est...) les variables explicatives continues avec la variable à expliquer en fonction de chaque modalité des variables catégorielles, on utilisera alors une analyse de la covariance (Pour le principe physique, voir Principe de covariance générale.) (ANCOVA).

Modèle

La première étape d'une analyse de la variance consiste à écrire le modèle théorique en fonction de la problématique à étudier. Il est souvent possible d'écrire plusieurs modèles pour un même problème, en fonction des éléments que l'on souhaite intégrer dans l'étude.

Le modèle général s'écrit :

y_{ijk...} = \mu + f(i, j, k, ...) + \epsilon ~

avec Yijk... la variable à expliquer, μ une constante, f() une relation entre les variables explicatives et ε l'erreur de mesure. On pose l'hypothèse fondamentale (En musique, le mot fondamentale peut renvoyer à plusieurs sens.) que l'erreur suit une loi normale : ε = N(0,σ2).

Variables explicatives

On distingue deux types de variables catégorielles : avec ou sans effet aléatoire.

Pour une variable à effet fixe, pour chaque modalité, il existe une valeur fixe correspondante. Elles s'écrivent dans le modèle théorique avec une lettre majuscule :

y_i = \mu + A_i + \epsilon_i ~

avec A = A0 pour i=0, A = A1 pour i=1, etc.

Dans le cas d'une variable à effet aléatoire, la variable est issue d'une loi supposée normale qui s'ajoute à la valeur fixe. Elles s'écrivent dans le modèle théorique avec une lettre grecque minuscule :

y_i = \mu + \alpha_i + \epsilon_i ~

avec αi = μa + εα et \epsilon_\alpha = N(0, \sigma_\alpha^2)

Un modèle basé seulement sur des variables explicatives à effets fixes et effets aléatoires est appelé modèle mixte.

Hypothèses fondamentales

La forme générale de l'analyse de variance repose sur le test de Fisher et donc sur la normalité des distributions et l'indépendance des échantillons.

  • Normalité de la distribution : on suppose, sous l'hypothèse nulle, que les échantillons sont issus d'une même population et suivent une loi normale (En probabilité, on dit qu'une variable aléatoire réelle X suit une loi normale (ou loi normale gaussienne, loi de Laplace-Gauss)...). Il est donc nécessaire de vérifier la normalité des distributions et l'homoscédasticité (homogénéité des variances, par des tests de Bartlett ou de Levene par exemple). Dans le cas contraire, on pourra utiliser les variantes non paramétriques de l'analyse de variance (ANOVA de Kruskal-Wallis ou ANOVA de Friedman).
  • Indépendance des échantillons : on suppose que chaque échantillon (De manière générale, un échantillon est une petite quantité d'une matière, d'information, ou d'une solution. Le mot est utilisé dans différents domaines :) analysé est indépendant des autres échantillons. En pratique, c'est la problématique qui permet de supposer que les échantillons sont indépendants. Un exemple fréquent d'échantillons dépendants est le cas des mesures avec répétitions (chaque échantillon est analysé plusieurs fois). Pour les échantillons dépendants, on utilisera l'analyse de variance à mesures répétées ou l'ANOVA de Friedman pour les cas non paramétriques.

Hypothèses à tester

L'hypothèse nulle correspond au cas où les distributions suivent la même loi normale.

L'hypothèse alternative est qu'il existe au moins une distribution dont la moyenne (La moyenne est une mesure statistique caractérisant les éléments d'un ensemble de quantités : elle exprime la grandeur qu'auraient chacun des membres de l'ensemble s'ils étaient...) s'écarte des autres moyennes :

\begin{cases} {H_0~:~m_{1}=m_{2}=...=m_{k}=m} \\ {H_1~:~\exists (i,j)~\text{tel que}~m_i \neq m_j} \end{cases}.

Décomposition (En biologie, la décomposition est le processus par lequel des corps organisés, qu'ils soient d'origine animale ou végétale dès...) de la variance

La première étape de l'analyse de la variance consiste à expliquer la variance totale sur l'ensemble (En théorie des ensembles, un ensemble désigne intuitivement une collection d’objets (les éléments de l'ensemble), « une multitude qui peut...) des échantillons en fonction de la variance due aux facteurs (la variance expliquée par le modèle), de la variance due à l'interaction (Une interaction est un échange d'information, d'affects ou d'énergie entre deux agents au sein d'un système. C'est une action réciproque qui suppose l'entrée en contact de sujets.) entre les facteurs et de la variance résiduelle aléatoire (la variance non expliquée par le modèle). S_n^2 étant un estimateur biaisé de la variance, on utilise la somme des carrés des écarts (SCE en français, SS pour Sum Square en anglais) pour les calculs et l'estimateur non biaisé de la variance S_{n-1}^2 (également appelé carré moyen ou CM).

L'écart (sous entendu l'écart à la moyenne) d'une mesure est la différence entre cette mesure et la moyenne :

e = y_{ijk...} - \overline{y}.

La somme des carrés des écarts SCE et l'estimateur S_{n-1}^2 se calculent à partir des formules :

SCE = \sum_{ijk...} (y_{ijk...} - \overline{y})^2 \qquad \text{et} \qquad S_{n-1}^2 = \frac{SCE}{n-1}

Il est alors possible d'écrire la somme des carrés des écarts total ( Total est la qualité de ce qui est complet, sans exception. D'un point de vue comptable, un total est le résultat d'une addition, c'est-à-dire une somme. Exemple : "Le total des dettes"....) SCEtotal comme étant une composition linéaire de la somme des carrés des écarts de chaque variable explicative SCEfactor et de la somme des carrés des écarts pour chaque interaction SCEinteraction :

SCE_\text{total} = \sum_i { SCE_{\text{facteur}_i} } + \sum_{ij} { SCE_{\text{interaction}_{ij}} }

Cette décomposition de la variance est toujours valable, même si les variables ne suivent pas de loi normale.

Test de Fisher

Par hypothèse, la variable observée yi suit une loi normale. La loi du χ² à k degrés de liberté étant définie comme étant la somme de k lois normales au carré, les sommes des carrés des écarts SCE suivent des lois du χ², avec DDL le nombre (La notion de nombre en linguistique est traitée à l’article « Nombre grammatical ».) de degrés de liberté :

SCE \sim \chi^2(DDL)~

La loi de Fisher est définie comme le rapport de deux lois du χ². Dans le cas de l'hypothèse nulle H0, le rapport entre deux estimateurs non biaisés de la variance S_{DDL}^2~ doit donc suivre une Loi de Fisher :

F = \frac {S^2_1} {S^2_2} = \frac {\dfrac {SCE_1} {DDL_1}} {\dfrac {SCE_2} {DDL_2}} \sim F(DDL_1, DDL_2)

Si la valeur de F n'est pas compatible avec cette loi de Fisher (c'est-à-dire que la valeur de F est supérieure au seuil de rejet), alors on rejette l'hypothèse nulle : on conclut qu'il existe une différence statistiquement significative entre les distributions. Le facteur de variabilité ne sépare pas la population étudiée en groupes identiques. Pour rappel, la valeur de seuil de rejet Fα(DDL1,DDL2) est précalculée dans les tables de référence, en fonction du risque de première espèce (Dans les sciences du vivant, l’espèce (du latin species, « type » ou « apparence ») est le taxon de base de la systématique....) α et des deux degrés de libertés DDl1 et DDL2.

Tests « post-hoc »

L'analyse de variance permet simplement de répondre à la question de savoir si tous les échantillons suivent une même loi normale. Dans le cas où l'on rejette l'hypothèse nulle, cette analyse ne permet pas de savoir quels sont les échantillons qui s'écartent de cette loi.

Pour identifier les échantillons correspondant, on utilise différents tests «post-hoc» (ou tests de comparaisons multiples, MCP pour Multiple Comparison Test). Ces tests obligent en général à augmenter les risques de l'analyse (en termes de risque statistique). Il s'agit d'une généralisation (La généralisation est un procédé qui consiste à abstraire un ensemble de concepts ou d'objets en négligeant les détails de façon à ce...) à k populations du test t de Student de comparaison de moyennes de deux échantillons avec ajustement de l'erreur (FDR, FWER, etc.) Par exemple : les tests LSD (Le LSD est un psychotrope hallucinogène puissant, de très petites doses suffisent à entraîner des changements de la perception, de l'humeur et de la pensée. Son principe actif est le...) de Ficher, les tests de Newman-Keuls, les tests HSD de Tukey, les tests de Bonferroni et Sheffé.

Dans la biologie (La biologie, appelée couramment la « bio », est la science du vivant. Prise au sens large de science du vivant, elle recouvre une...) moderne, notamment, des tests MCP permettent de prendre en compte le risque de façon correcte malgré le grand nombre de tests effectués (par exemple pour l'analyse de biopuces).

Pourquoi ne pas faire directement ces tests, sans passer (Le genre Passer a été créé par le zoologiste français Mathurin Jacques Brisson (1723-1806) en 1760.) par une analyse de la variance avant ?

Lorsque l'on analyse plusieurs variables explicatives ayant plusieurs modalités chacune, le nombre de combinaison (Une combinaison peut être :) possible devient rapidement très grand.

Page générée en 0.290 seconde(s) - site hébergé chez Amen
Ce site fait l'objet d'une déclaration à la CNIL sous le numéro de dossier 1037632
Ce site est édité par Techno-Science.net - A propos - Informations légales
Partenaire: HD-Numérique