Méthode des moindres carrés - Définition

Source: Wikipédia sous licence CC-BY-SA 3.0.
La liste des auteurs de cet article est disponible ici.

Histoire

Carl Friedrich Gauss.

Le jour du Nouvel An de 1801, l'astronome italien Giuseppe Piazzi a découvert l'astéroïde Cérès. Il a alors pu suivre sa trajectoire jusqu'au 14 février 1801. Durant cette année, plusieurs scientifiques ont tenté de prédire sa trajectoire sur la base des observations de Piazzi (à cette époque, la résolution des équations non linéaires de Kepler de la cinématique est un problème très difficile). La plupart des prédictions furent erronées; et le seul calcul suffisamment précis pour permettre à Zach, un astronome allemand, de localiser à nouveau Cérès à la fin de l'année, fut celui de Carl Friedrich Gauss, alors âgé de 24 ans (il avait déjà réalisé l'élaboration des concepts fondamentaux en 1795, lorsqu'il était alors âgé de 18 ans). Mais sa méthode des moindres carrés ne fut publiée qu'en 1809, lorsqu'elle parut dans le tome 2 de ses travaux sur la Mécanique céleste , Theoria Motus Corporum Coelestium in sectionibus conicis solem ambientium. Le mathématicien français Adrien-Marie Legendre a développé indépendamment la même méthode en 1805. Le mathématicien américain Robert Adrain a publié en 1808 une formulation de la méthode.

En 1829, Gauss a pu donner les raisons de l'efficacité de cette méthode ; en effet, la méthode des moindres carrés est justement optimale à l'égard de bien des critères. Cet argument est maintenant connu sous le nom du théorème de Gauss-Markov.

Robustesse

Sensibilité aux points aberrants

Techniques de robustification

Articles connexes

  • La méthode des doubles moindres carrés
  • Test du χ²
  • Loi du χ²
  • Apprentissage supervisé
  • Simulation de profil
  • M-estimateur

Interprétation statistique

Estimation statistique

Modèle standard: moindres carrés ordinaires

Pour le modèle matriciel

\mathbf{y} = \mathbf{X} \boldsymbol{\beta} + \boldsymbol{\varepsilon}

on conserve les hypothèses conventionnelles que \operatorname{E}(\boldsymbol{\varepsilon})=\mathbf{0} et que \operatorname{E} (\boldsymbol{\varepsilon} \boldsymbol{\varepsilon}^T) = \sigma^2 I_n , où In est la matrice d'identité. Dans ce cas, l'estimateur par moindres carrés ordinaire (MCO) est

\boldsymbol{\widehat{\beta}} = (\mathbf{X}^T \mathbf{X})^{-1} \mathbf{X}^T \mathbf{y}

Une formalisation supplémentaire (on suppose par exemple en plus que les aléas sont normaux) permet d'obtenir les propriétés asymptotiques de l'estimateur:

\boldsymbol{\widehat{\beta}} \sim N \left(\boldsymbol{\beta}_0 ; \sigma_0^2 (\mathbf{X}^T \mathbf{X})^{-1} \right)

Les indices 0 indiquent qu'il s'agit de la vraie valeur des paramètres.

Moindres carrés généralisés

Lorsqu'on relâche (un peu) l'hypothèse sur la structure de la matrice de variance-covariance des erreurs, on peut toujours obtenir un estimateur par moindre-carré. On suppose donc que \operatorname{E} (\boldsymbol{\varepsilon} \boldsymbol{\varepsilon}^T) = \boldsymbol{\Omega} , où cette dernière matrice est connue. L'estimateur par moindres carrés (dit par moindres carrés généralisé, GLS) s'écrit toujours:

\boldsymbol{\widehat{\beta}} = (\mathbf{X}^T \mathbf{X})^{-1} \mathbf{X}^T \mathbf{y}

Les propriétés asymptotiques changent par rapport au cas standard:

\boldsymbol{\widehat{\beta}} \sim N \left(\boldsymbol{\beta}_0 ; (\mathbf{X}^T \mathbf{X})^{-1} \mathbf{X}^T \boldsymbol{\Omega} \mathbf{X} (\mathbf{X}^T \mathbf{X})^{-1}\right)

Moindres carrés pondérés

Si l'on connaît parfaitement la matrice de variance-covariance \boldsymbol{\Omega} , on peut considérer la méthode des moindres carrés pondérés. Pour cela, on considère la décomposition de Cholesky de cette matrice: \mathbf{P}^T \mathbf{P} = \boldsymbol{\Omega}^{-1} et on prémultiplie chaque membre de la régression par \mathbf{P}^T , pour obtenir

\mathbf{y}^\ast = \mathbf{X}^\ast \boldsymbol{\beta} + \boldsymbol{\varepsilon}^\ast

avec \mathbf{y}^\ast = \mathbf{P}^T\mathbf{y} , \mathbf{X}^\ast = \mathbf{P}^T\mathbf{X} et \boldsymbol{\varepsilon}^\ast = \mathbf{P}^T \boldsymbol{\varepsilon} . Ainsi transformé, ce modèle vérifie toutes les hypothèses requises par les MCO et l'estimateur en résultant présentera toutes les bonnes propriétés (notamment du point de vue de la matrice de variance-covariance):

\boldsymbol{\widehat{\beta}} = (\mathbf{X}^T \boldsymbol{\Omega}^{-1} \mathbf{X})^{-1} \mathbf{X}^T \boldsymbol{\Omega}^{-1}\mathbf{y}

La distribution asymptotique sera:

\boldsymbol{\widehat{\beta}} \sim N \left(\boldsymbol{\beta}_0 ; (\mathbf{X}^T \boldsymbol{\Omega}^{-1} \mathbf{X})^{-1}\right)

Le critère du χ²

Optimalité de la méthode des moindres carrés

Dans la régression linéaire classique,

\mathbf{y} = \mathbf{X}\boldsymbol{\beta} + \boldsymbol{\varepsilon}

On suppose généralement que \operatorname{E}(\boldsymbol{\varepsilon})=\mathbf{0} et que \operatorname{E} (\boldsymbol{\varepsilon} \boldsymbol{\varepsilon}^T) = \sigma^2 I_n , où In est la matrice d'identité. La dernière hypothèse porte sur la structure de variance-covariance des aléas: on suppose que pour tout i, \operatorname{Var}(\varepsilon_i) = \sigma^2_i (homoscédasticité) et que \operatorname{cov}(\varepsilon_i,\varepsilon_j) = 0 pour i \neq j (indépendance).

L'estimation par moindres carrés ordinaires (MCO) est

\boldsymbol{\widehat{\beta}} = (\mathbf{X}^T \mathbf{X})^{-1} \mathbf{X}^T \mathbf{y}

Sous les hypothèses précédentes, cet estimateur est connu pour être le meilleur estimateur linéaire sans biais (voir le Théorème de Gauss-Markov): cela signifie que parmi les estimateurs du type \boldsymbol{\tilde{\beta}} = \mathbf{B} \mathbf{y} non biaisé, l'estimateur MCO présente une variance minimale.

Enfin, si on suppose de plus que les aléas sont gaussiens, le modèle peut s'estimer par la Maximum de vraisemblance . Cet estimateur se trouve être celui par moindres carrés MCO et atteignant la borne de Cramer-Rao.

Enfin, sous les hypothèses du paragraphe sur les moindres carrés généralisés, l'estimateur reste BLUE.

Page générée en 0.106 seconde(s) - site hébergé chez Contabo
Ce site fait l'objet d'une déclaration à la CNIL sous le numéro de dossier 1037632
A propos - Informations légales
Version anglaise | Version allemande | Version espagnole | Version portugaise