Régression linéaire multiple - Définition

Source: Wikipédia sous licence CC-BY-SA 3.0.
La liste des auteurs de cet article est disponible ici.

Modèle théorique

La régression linéaire multiple est une généralisation, à p variables explicatives, de la régression linéaire simple.

Nous sommes toujours dans le cadre de la régression mathématique : étant donné un échantillon  (Y_i, X_{i1}, \ldots, X_{ip}), \, i = 1, \ldots, n nous cherchons à expliquer, avec le plus de précision possible, les valeurs prises par Yi, dite variable endogène, à partir d'une série de variables explicatives  X_{i1}, \ldots, X_{ip} . Le modèle théorique, formulé en termes de variables aléatoires, prend la forme

 Y_i = a_o + a_1 X_{i1} + a_2 X_{i2} + \ldots +  a_p X_{ip} + \varepsilon_i, \qquad i = 1, \ldots, n

 \varepsilon_i est l'erreur du modèle qui exprime, ou résume, l'information manquante dans l'explication linéaire des valeurs de Yi à partir des  X_{i1}, \ldots, X_{ip} (problème de spécifications, variables non prises en compte, etc.).  a_0, a_1, \ldots, a_p sont les paramètres à estimer.

Exemple

Nous relevons 20 fois les paramètres suivants : la demande totale en électricité (ce sera notre yi, i étant compris entre 1 et 20) la température extérieure (ce sera notre xi1) l'heure à laquelle les données sont prises (ce sera notre xi2)

Faire une régression linéaire revient à déterminer les ao, a1 et a2 et \varepsilon_i tels que, quelle que soit la mesure prise, on ait :  y_i = a_o + a_{1} x_{i1} + a_{2} x_{i2} + \varepsilon_i

Estimation

Lorsque nous disposons de n observations  (y_i, x_{i1}, \ldots, x_{ip}), \, i = 1, \ldots, n , qui sont des réalisations des variables aléatoires  (Y_i, X_{i1}, \ldots, X_{ip}) , l'équation de régression s'écrit

 y_i = a_o + a_{1} x_{i1} + \ldots +  a_p x_{ip} + \varepsilon_i \qquad i = 1, \ldots, n \,


La problématique reste la même que pour la régression simple :

  • estimer les paramètres ai en exploitant les observations ;
  • évaluer la précision de ces estimateurs ;
  • mesurer le pouvoir explicatif du modèle ;
  • évaluer l'influence des variables dans le modèle :
    • globalement (les p variables en bloc) et,
    • individuellement (chaque variable) ;
  • évaluer la qualité du modèle lors de la prédiction (intervalle de prédiction) ;
  • détecter les observations qui peuvent influencer exagérément les résultats (points atypiques).

Notation matricielle

Nous pouvons adopter une écriture condensée qui rend la lecture et la manipulation de l'ensemble plus facile. Les équations suivantes

 \begin{cases} y_1 = a_0 + a_1 x_{1,1} + \ldots + a_p x_{1,p} + \varepsilon_1\\ y_2 = a_0 + a_1 x_{2,1} + \ldots + a_p x_{2,p} + \varepsilon_2\\ \cdots\\ y_n = a_0 + a_1 x_{n,1} + \ldots + a_p x_{n,p} + \varepsilon_n \end{cases}

peuvent être résumées avec la notation matricielle

 \begin{pmatrix} y_1   \\ \vdots\\ y_n \end{pmatrix}  = \begin{pmatrix} 1 & x_{1,1} & \cdots & x_{1,p} \\  \vdots & \vdots & \ddots & \vdots\\  1 & x_{n,1} & \cdots & x_{n,p}  \end{pmatrix}  \begin{pmatrix} a_0\\ a_1\\ \vdots\\ a_p\\ \end{pmatrix} + \begin{pmatrix} \epsilon_1\\ \vdots\\ \epsilon_n\\ \end{pmatrix}

Soit de manière compacte:  y = Xa + \epsilon \,

avec

  • y est de dimension (n, 1)
  • X est de dimension (n, p + 1)
  • a est de dimension (p+1, 1)
  • ε est de dimension (n, 1)
  • la première colonne sert à indiquer que nous procédons à une régression avec constante.

Hypothèses

Comme en régression simple, les hypothèses permettent de déterminer : les propriétés des estimateurs (biais, convergence) ; et leurs lois de distributions (pour les estimations par intervalle et les tests d'hypothèses).

Il existe principalement deux catégories d'hypothèses :

Hypothèses stochastiques
  •  \mathrm{H_{1}: }\, Les X j sont aléatoires, j = 1, …, p ;
  •  \mathrm{H_{2}: } \ E(\epsilon_i) = 0 \, Le modèle est bien spécifié en moyenne ;
  •  \mathrm{H_{3}: } \ V(\epsilon_i) = \sigma^2 \ \forall{i} \, Homoscedasticité (en) des erreurs (variance constante)
  •  \mathrm{H_{4}: } \ \mathrm{cov}(\epsilon_i, \epsilon_j) = 0 \ \forall{i \neq j} \, Pas d'autocorrélation des erreurs.
  •  \mathrm{H_{5}: } \ \mathrm{cov}(X_i, \epsilon_j) = 0 \ \forall{i \neq j} \, Les erreurs sont linéairement indépendantes des variables exogènes.
  •  \mathrm{H_{6}: } \ \epsilon \sim \mathcal{N}_n(0,\sigma^2 I_n) \, Les erreurs suivent une loi normale multidimensionnelle (H6 implique les hypothèses H2, H3 et H4 la réciproque étant fausse car les 3 hypothèses réunies n'impliquent pas que  \ \epsilon \ soit un vecteur gaussien).
Hypothèses structurelles
  •  \mathrm{H_{7}: }\, absence de colinéarité entre les variables explicatives, i.e. X 'X est régulière, det(X 'X) ≠ 0 et (X 'X)-1 existe (remarque : c'est équivalent à rang(X) = rang(X 'X) = p + 1) ;
  •  \mathrm{H_{8}: }\, \frac{X'X}{n} tend vers une matrice finie non singulière lorsque n → +∞ ;
  •  \mathrm{H_{9}: } \ n >p+1\, Le nombre d'observations est supérieur au nombre de variables + 1 (la constante). S'il y avait égalité, le nombre d'équations serait égal au nombre d'inconnues aj, la droite de régression passerait par tous les points, nous serions face à un problème d'interpolation linéaire (voir Interpolation numérique).
Écriture matricielle de l'hypothèse H6

 \mathrm{H_{2}:} \ E(\epsilon) = E \begin{pmatrix} \epsilon_1\\ \vdots\\ \epsilon_n \end{pmatrix} = \begin{pmatrix} 0\\ \vdots\\ 0 \end{pmatrix}

Sous l'hypothèse d'homoscedasticité et d'absence d'auto-corrélation, la matrice de variance-covariance du vecteur des erreurs peut s'écrire:

 \mathrm{H_{3} \ \mbox{et} \ H_{4}:}\ \mathrm{cov}(\epsilon) = \sigma ^2 I_n  = \sigma ^2 \begin{pmatrix}  1 & 0 & \cdots &0 \\ 0 & 1 & \cdots &0 \\ \vdots & & \ddots& \vdots \\  0 & \cdots &\cdots&1 \end{pmatrix}  =  \begin{pmatrix}  \sigma^2 & 0 & \cdots &0 \\ 0 & \sigma^2 & \cdots &0 \\ \vdots & & \ddots& \vdots \\  0 & \cdots &\cdots&\sigma ^2 \end{pmatrix}

Régresseurs stochastiques

Dans certains cas, l'hypothèse (H1) est intenable : les régresseurs X sont supposés aléatoires. Mais dans ce cas, on suppose que X est aléatoire mais est indépendant de l'aléa \varepsilon. On remplace alors l'hypothèse (H2) par une hypothèse sur l'espérance conditionnelle:

 \mathrm{H_{2}: } \ E(\epsilon_i \mid X) = 0 \,

De même, il faudrait changer en conséquence les hypothèses (H3), (H4) et aussi (H5).

Page générée en 1.160 seconde(s) - site hébergé chez Contabo
Ce site fait l'objet d'une déclaration à la CNIL sous le numéro de dossier 1037632
A propos - Informations légales | Partenaire: HD-Numérique
Version anglaise | Version allemande | Version espagnole | Version portugaise