Régression logistique - Définition

Source: Wikipédia sous licence CC-BY-SA 3.0.
La liste des auteurs de cet article est disponible ici.

Lecture des résultats

Les résultats sont consignés dans le tableau suivant.

  • Dans la matrice de confusion, nous lisons que sur les données en apprentissage, le modèle de prédiction réalise 10 + 39 = 49 mauvaises prédictions. Le taux d’erreur en resubstitution est de 49/190 = 25,78%
  • La statistique du rapport de vraisemblance LAMBDA est égale à 31.77, la probabilité critique associée est 0. Le modèle est donc globalement très significatif, il existe bien une relation entre les variables explicatives et la variable expliquée.
  • En étudiant individuellement les coefficients liés à chaque variable explicative, au risque de 5%, nous constatons que FUME, PREM et HT sont néfastes au poids du bébé à la naissance (entraînent un faible poids du bébé) ; PDSM et SCOL en revanche semblent jouer dans le sens d’un poids plus élevé du bébé. VISITE et AGE ne semblent pas jouer de rôle significatif dans cette analyse.


Cette première analyse peut être affinée en procédant à une sélection de variables, en étudiant le rôle concomittant de certaines variables, etc. Le succès de la régression logistique repose justement en grande partie sur la multiplicité des outils d’interprétations qu’elle propose. Avec les notions d’odds, d’odds ratios et de risque relatif, calculés sur les variables dichotomiques, continues ou sur des combinaisons de variables, le statisticien peut analyser finement les causalités et mettre en évidence les facteurs qui pèsent réellement sur la variable à expliquer.

Autres évaluations

D’autres procédures d’évaluation sont couramment citées s’agissant de la régression logistique. Nous noterons entre autres le test de Hosmer-Lemeshow qui s’appuie sur le « score » (la probabilité d’affectation à un groupe) pour ordonner les observations. En cela, elle se rapproche d’autres procédés d’évaluation de l’apprentissage telles que les courbes ROC qui sont nettement plus riches d’informations que la simple matrice de confusion et le taux d’erreur associé.

Un exemple

À partir des données disponibles sur le site du cours en ligne de Régression logistique (Paul-Marie Bernard, Université du Québec – Chapitre 5), nous avons construit un modèle de prédiction qui vise à expliquer le « Faible Poids (Oui/Non) » d’un bébé à la naissance. Les variables explicatives sont : FUME (le fait de fumer ou pas pendant la grossesse), PREM (historique de prématurés aux accouchements antérieurs), HT (historique de l’hypertension), VISITE (nombre de visites chez le médecin durant le premier trimestre de grossesse), AGE (âge de la mère), PDSM (poids de la mère durant les périodes des dernières menstruations), SCOL (niveau de scolarité de la mère : =1: <12 ans, =2: 12-15 ans, =3: >15 ans).

Toutes les variables explicatives ont été considérées continues dans cette analyse. Dans certains cas, SCOL par exemple, il serait peut être plus judicieux de les coder en variables indicatrices.

Redressement

La règle d’affectation ci-dessus est valide si l’échantillon est issu d’un tirage au hasard dans la population. Ce n’est pas toujours le cas. Dans de nombreux domaines, nous fixons au préalable les effectifs des classes Y = 1 et Y = 0, puis nous procédons au recueil des données dans chacun des groupes. On parle alors de tirage rétrospectif. Il est dès lors nécessaire de procéder à un redressement. Si les coefficients associés aux variables de la fonction logit ne sont pas modifiés, la constante en revanche doit être corrigée en tenant compte des effectifs dans chaque classe (n1 et n0) et des vraies probabilités a priori p(1) et p(0) (cf. les références ci-dessous).

Variantes

La régression logistique s’applique directement lorsque les variables explicatives sont continues ou dichotomiques. Lorsqu’elles sont catégorielles, il est nécessaire de procéder à un recodage. Le plus simple est le codage binaire. Prenons l’exemple d’une variable habitat prenons trois modalités {ville, périphérie, autres}. Nous créerons alors deux variables binaires : « habitat_ville », « habitat_périphérie ». La dernière modalité se déduit des deux autres, lorsque les deux variables prennent simultanément la valeur 0, cela indique que l’observation correspond à « habitat = autres ».


Enfin, il est possible de réaliser une régression logistique pour prédire les valeurs d’une variable catégorielle comportant K (K > 2) modalités. On parle de régression logistique polytomique. La procédure repose sur la désignation d’un groupe de référence, elle produit alors (K-1) combinaisons linéaires pour la prédiction. L’interprétation des coefficients est moins évidente dans ce cas.

Références

  • M. Bardos, Analyse Discriminante - Application au risque et scoring financier, Dunod, 2001. (chapitre 3)
  • Bernard, P.-M., "Analyse des tableaux de contingence en épidémiologie", Les Presses de l'Université du Québec, 2004
  • Bouyer J., Hémon D., Cordier S., Derriennic F., Stücker I., Stengel B., Clavel J., Epidémiologie - Principes et méthodes quantitatives, Les Éditions INSERM, 1993
  • Hosmer D.W., Lemeshow S., Applied logistic regression, Wiley Series in Probability and Mathematical Statistics, 2000
  • Kleinbaum D.G., Logistic regression. A self-learning text, Springer-Verlag, 1994.
  • Kleinbaum D.G., Kupper L.L., Muller E.M., Applied regression analysis and other multivariate methods, PWS-KENT Publishing Company, Boston, 1988.
  • J.P. Nakache, J. Confais, Statistique Explicative Appliquée, Technip, 2003 (Partie 2)
  • Pierre-François Verhulst, « Recherches mathématiques sur la loi d'accroissement de la population », dans Nouveaux Mémoires de l'Académie Royale des Sciences et Belles-Lettres de Bruxelles, no 18, 1845, p. 1-42  
  • R. Rakotomalala, Pratique de la régression logistique - Régression logistique binaire et polytomique, Université Lumière Lyon 2.

Logiciels

Page générée en 0.107 seconde(s) - site hébergé chez Contabo
Ce site fait l'objet d'une déclaration à la CNIL sous le numéro de dossier 1037632
A propos - Informations légales
Version anglaise | Version allemande | Version espagnole | Version portugaise