Régression linéaire multiple - Définition

Source: Wikipédia sous licence CC-BY-SA 3.0.
La liste des auteurs de cet article est disponible ici.

- Modèle théorique - Évaluation - La méthode des moindres carrés ordinaires - Régression de séries temporelles - Un exemple

Modèle théorique

La régression linéaire multiple est une généralisation, à p variables explicatives, de la régression linéaire simple.

Nous sommes toujours dans le cadre de la régression mathématique : étant donné un échantillon $(Y_i, X_{i1}, \ldots, X_{ip}), \, i = 1, \ldots, n$ nous cherchons à expliquer, avec le plus de précision possible, les valeurs prises par $Y i$ , dite variable endogène, à partir d'une série de variables explicatives $X_{i1}, \ldots, X_{ip}$ . Le modèle théorique, formulé en termes de variables aléatoires, prend la forme

$Y_i = a_o + a_1 X_{i1} + a_2 X_{i2} + \ldots + a_p X_{ip} + \varepsilon_i, \qquad i = 1, \ldots, n$

où $\varepsilon_i$ est l'erreur du modèle qui exprime, ou résume, l'information manquante dans l'explication linéaire des valeurs de $Y i$ à partir des $X_{i1}, \ldots, X_{ip}$ (problème de spécifications, variables non prises en compte, etc.). $a_0, a_1, \ldots, a_p$ sont les paramètres à estimer.

Exemple

Nous relevons 20 fois les paramètres suivants : la demande totale en électricité (ce sera notre $y i$ , i étant compris entre 1 et 20) la température extérieure (ce sera notre $x i 1$ ) l'heure à laquelle les données sont prises (ce sera notre $x i 2$ )

Faire une régression linéaire revient à déterminer les $a o$ , $a 1$ et $a 2$ et $\varepsilon_i$ tels que, quelle que soit la mesure prise, on ait : $y_i = a_o + a_{1} x_{i1} + a_{2} x_{i2} + \varepsilon_i$

Estimation

Lorsque nous disposons de n observations $(y_i, x_{i1}, \ldots, x_{ip}), \, i = 1, \ldots, n$ , qui sont des réalisations des variables aléatoires $(Y_i, X_{i1}, \ldots, X_{ip})$ , l'équation de régression s'écrit

$y_i = a_o + a_{1} x_{i1} + \ldots + a_p x_{ip} + \varepsilon_i \qquad i = 1, \ldots, n \,$

La problématique reste la même que pour la régression simple :

estimer les paramètres $a i$ en exploitant les observations ;
évaluer la précision de ces estimateurs ;
mesurer le pouvoir explicatif du modèle ;
évaluer l'influence des variables dans le modèle :
- globalement (les p variables en bloc) et,
- individuellement (chaque variable) ;
évaluer la qualité du modèle lors de la prédiction (intervalle de prédiction) ;
détecter les observations qui peuvent influencer exagérément les résultats (points atypiques).

Notation matricielle

Nous pouvons adopter une écriture condensée qui rend la lecture et la manipulation de l'ensemble plus facile. Les équations suivantes

$\begin{cases} y_1 = a_0 + a_1 x_{1,1} + \ldots + a_p x_{1,p} + \varepsilon_1\\ y_2 = a_0 + a_1 x_{2,1} + \ldots + a_p x_{2,p} + \varepsilon_2\\ \cdots\\ y_n = a_0 + a_1 x_{n,1} + \ldots + a_p x_{n,p} + \varepsilon_n \end{cases}$

peuvent être résumées avec la notation matricielle

$\begin{pmatrix} y_1 \\ \vdots\\ y_n \end{pmatrix} = \begin{pmatrix} 1 & x_{1,1} & \cdots & x_{1,p} \\ \vdots & \vdots & \ddots & \vdots\\ 1 & x_{n,1} & \cdots & x_{n,p} \end{pmatrix} \begin{pmatrix} a_0\\ a_1\\ \vdots\\ a_p\\ \end{pmatrix} + \begin{pmatrix} \epsilon_1\\ \vdots\\ \epsilon_n\\ \end{pmatrix}$

Soit de manière compacte: $y = Xa + \epsilon \,$

avec

y est de dimension (n, 1)
X est de dimension (n, p + 1)
a est de dimension (p+1, 1)
ε est de dimension (n, 1)
la première colonne sert à indiquer que nous procédons à une régression avec constante.

Hypothèses

Comme en régression simple, les hypothèses permettent de déterminer : les propriétés des estimateurs (biais, convergence) ; et leurs lois de distributions (pour les estimations par intervalle et les tests d'hypothèses).

Il existe principalement deux catégories d'hypothèses :

Hypothèses stochastiques

$\mathrm{H_{1}: }\,$ Les X_j sont aléatoires, j = 1, …, p ;
$\mathrm{H_{2}: } \ E(\epsilon_i) = 0 \,$ Le modèle est bien spécifié en moyenne ;
$\mathrm{H_{3}: } \ V(\epsilon_i) = \sigma^2 \ \forall{i} \,$ Homoscedasticité (en) des erreurs (variance constante)
$\mathrm{H_{4}: } \ \mathrm{cov}(\epsilon_i, \epsilon_j) = 0 \ \forall{i \neq j} \,$ Pas d'autocorrélation des erreurs.
$\mathrm{H_{5}: } \ \mathrm{cov}(X_i, \epsilon_j) = 0 \ \forall{i \neq j} \,$ Les erreurs sont linéairement indépendantes des variables exogènes.
$\mathrm{H_{6}: } \ \epsilon \sim \mathcal{N}_n(0,\sigma^2 I_n) \,$ Les erreurs suivent une loi normale multidimensionnelle ( $H 6$ implique les hypothèses $H 2$ , $H 3$ et $H 4$ la réciproque étant fausse car les 3 hypothèses réunies n'impliquent pas que $\ \epsilon \$ soit un vecteur gaussien).

Hypothèses structurelles

$\mathrm{H_{7}: }\,$ absence de colinéarité entre les variables explicatives, i.e. X 'X est régulière, det(X 'X) ≠ 0 et (X 'X)^-1 existe (remarque : c'est équivalent à rang(X) = rang(X 'X) = p + 1) ;
$\mathrm{H_{8}: }\, \frac{X'X}{n}$ tend vers une matrice finie non singulière lorsque n → +∞ ;
$\mathrm{H_{9}: } \ n >p+1\,$ Le nombre d'observations est supérieur au nombre de variables + 1 (la constante). S'il y avait égalité, le nombre d'équations serait égal au nombre d'inconnues a_j, la droite de régression passerait par tous les points, nous serions face à un problème d'interpolation linéaire (voir Interpolation numérique).

Écriture matricielle de l'hypothèse $H 6$

$\mathrm{H_{2}:} \ E(\epsilon) = E \begin{pmatrix} \epsilon_1\\ \vdots\\ \epsilon_n \end{pmatrix} = \begin{pmatrix} 0\\ \vdots\\ 0 \end{pmatrix}$

Sous l'hypothèse d'homoscedasticité et d'absence d'auto-corrélation, la matrice de variance-covariance du vecteur des erreurs peut s'écrire:

$\mathrm{H_{3} \ \mbox{et} \ H_{4}:}\ \mathrm{cov}(\epsilon) = \sigma ^2 I_n = \sigma ^2 \begin{pmatrix} 1 & 0 & \cdots &0 \\ 0 & 1 & \cdots &0 \\ \vdots & & \ddots& \vdots \\ 0 & \cdots &\cdots&1 \end{pmatrix} = \begin{pmatrix} \sigma^2 & 0 & \cdots &0 \\ 0 & \sigma^2 & \cdots &0 \\ \vdots & & \ddots& \vdots \\ 0 & \cdots &\cdots&\sigma ^2 \end{pmatrix}$

Régresseurs stochastiques

Dans certains cas, l'hypothèse (H1) est intenable : les régresseurs X sont supposés aléatoires. Mais dans ce cas, on suppose que X est aléatoire mais est indépendant de l'aléa $\varepsilon$ . On remplace alors l'hypothèse (H2) par une hypothèse sur l'espérance conditionnelle:

$\mathrm{H_{2}: } \ E(\epsilon_i \mid X) = 0 \,$

De même, il faudrait changer en conséquence les hypothèses (H3), (H4) et aussi (H5).

Évaluation

- Modèle théorique - Évaluation - La méthode des moindres carrés ordinaires - Régression de séries temporelles - Un exemple

Cette rupture technologique pourrait décupler la capacité des disques durs

Il y a 4 heures

Cycle menstruel: une étude scientifique établit un lien avec la Lune

Il y a 4 heures

Quand un trio d'étoiles devient un couple: une histoire cataclysmique retracée

Il y a 6 heures

Ce petit ver possède des yeux immenses: pourquoi ?

Il y a 6 heures

D'où vient cette structure fractale observée dans une bactérie ?

Il y a 23 heures

Découverte majeure dans les allergies respiratoires

Il y a 23 heures

Voici ce qui a produit la lumière la plus lumineuse jamais détectée dans l'Univers

Il y a 1 jour

Propagation inquiétante de la "mouche noire" suceuse de sang en Allemagne

Il y a 1 jour

Le hasard confère le prix Turing et 1 million de dollars au mathématicien Avi Wigderson

Il y a 1 jour

AI Act: comment encadrer l'intelligence artificielle en Europe ?

Il y a 1 jour

Quelle est cette forme étrange photographiée près de la Lune ?

Il y a 1 jour

Si vous avez déjà eu une entorse de la cheville, attention à ceci

Il y a 1 jour

Démonstration d'une nouvelle technologie de lévitation, stable et sans supraconductivité

Il y a 2 jours

Ces indices d'une rupture imminente de la faille de San Andreas

Il y a 2 jours

Cet effet inattendu de la musculation sur la mémoire

Il y a 2 jours

Les géantes Uranus et Neptune ne seraient pas faites comme nous l'imaginions

Il y a 2 jours

Parker Solar Probe se prépare à battre le record de vitesse de l'humanité

Il y a 2 jours

Nos ancêtres à l'époque des dinosaures

Il y a 2 jours

Observer directement le Big Bang avec un télescope plus puissant que le James Webb ?

Il y a 3 jours

Découverte de 17 variants génétiques liés à la maladie d'Alzheimer

Il y a 3 jours

Un immense glacier du Groenland est littéralement en train de fondre sous nos yeux

Il y a 3 jours

Découverte: des bactéries anticholestérol dans notre intestin

Il y a 3 jours

Des dinosaures aux oiseaux: cette anomalie de l'ADN a trompé les scientifiques

Il y a 3 jours

De la vie cachée 800 mètres sous terre: comment est-ce possible ?

Il y a 3 jours

Analyse d'un signal radio inhabituel, en provenance de cet objet spatial extrême

Il y a 4 jours

Ce liquide est programmable, pouvant changer de consistance et de couleur

Il y a 4 jours

Un trou noir trop léger, ou une étoile à neutrons trop lourde ? L'objet qui intrigue les scientifiques

Il y a 4 jours

Un lien démontré entre vapotage, petit-déjeuner et maux de tête

Il y a 4 jours

Un immense "arc-en-ciel" détecté sur une exoplanète

Il y a 5 jours

Des scientifiques étudient 40 ans de vie marine dans... des conserves de saumon

Il y a 5 jours

Cette innovation va améliorer significativement la sensibilité des détecteurs d'ondes gravitationnelles

Il y a 5 jours

Découverte d'une ingénierie humaine vieille de... 300 000 ans

Il y a 5 jours

Psyche: une mission à la découverte de ce très mystérieux objet spatial

Il y a 6 jours

Peur généralisée: des scientifiques découvrent comment ne pas être tétanisé par la peur

Il y a 6 jours

Découverte accidentelle d'une mémoire quantique au potentiel énorme

Il y a 6 jours

Des chercheurs ont créé artificiellement des "minifoies"

Il y a 6 jours

Surprise: la surface lunaire a "coulé" sous la croûte

Il y a 6 jours

Un curieux "point de bascule" découvert dans l'évolution des champignons

Il y a 6 jours

Des humains préhistoriques ont gravé ces traces de dinosaures

Il y a 7 jours

Ralentissement significatif d'importants courants océaniques: des répercussions graves ?

Il y a 7 jours

Les étoiles à neutrons, des aspirateurs de matière noire ?

Il y a 7 jours

Greffer de la peau de porc pour soigner les plaies

Il y a 7 jours

Le secret d'une jeunesse éternelle à proximité du trou noir de notre Voie Lactée

Il y a 7 jours

Une quantité phénoménale de volcans cachés sous l'Antarctique: des risques d'éruption ?

Il y a 7 jours

Une mission spatiale dans l'espace interstellaire, à 1000 unités astronomiques ?

Il y a 8 jours

Ce régime montre une efficacité contre la maladie d'Alzheimer

Il y a 8 jours

Les dinosaures contredisent ce principe scientifique

Il y a 8 jours

Sentons-nous le goût des aliments uniquement avec notre langue ?

Il y a 8 jours

Nova: une rare et impressionnante explosion stellaire bientôt visible dans le ciel

Il y a 8 jours

Découverte d'une importante vertu anti-vieillissement à cette vitamine

Il y a 8 jours

Populaires

Cette rupture technologique pourrait décupler la capacité des disques durs

Cycle menstruel: une étude scientifique établit un lien avec la Lune

Voici ce qui a produit la lumière la plus lumineuse jamais détectée dans l'Univers

Parker Solar Probe se prépare à battre le record de vitesse de l'humanité

Ces indices d'une rupture imminente de la faille de San Andreas

Ce petit ver possède des yeux immenses: pourquoi ?

Toutes les ventes flash et Codes Promos Amazon

Cdiscount: les meilleures réductions actuelles

Page générée en 1.160 seconde(s) - site hébergé chez Contabo
Ce site fait l'objet d'une déclaration à la CNIL sous le numéro de dossier 1037632
A propos - Informations légales | Partenaire: HD-Numérique
Version anglaise | Version allemande | Version espagnole | Version portugaise