Modèle de mélanges gaussiens - Définition

Source: Wikipédia sous licence CC-BY-SA 3.0.
La liste des auteurs est disponible ici.

Dans les modèles de mélanges, fréquemment utilisées en classification automatique, on considère qu'un échantillon de données suit, non pas une loi de probabilité usuelle, mais une loi dont la fonction de densité est une densité mélange.

Bien que n'importe quelle loi puisse être utilisée, la plus courante est la loi normale dont la fonction de densité est une gaussienne. On parle alors de mélange gaussien.

Utilisation en classification automatique

Le problème classique de la classification automatique est de considérer qu'un échantillon de données provienne d'un nombre de groupes inconnus a priori qu'il faut retrouver. Lorsqu'on part du postulat que ces groupes suivent une loi de probabilité (quelconque), alors on se place nécessairement dans le cadre des modèles de mélanges. Si en plus, on considère que les lois que suivent les individus sont normales, alors on se place dans le cadre des modèles de mélanges gaussiens.

Par la suite, on notera $\mathbf{x}\,$ un échantillon composé de n individus $\left(\boldsymbol{x}_1,\dots,\boldsymbol{x}_n\right)$ appartenant à $\mathbb{R}^p$ (i.e. caractérisés par p variables continues). Dans le cadre des modèles de mélanges, on considère que ces individus appartiennent chacun à un des g (g étant fixé a priori) $G_1,\dots,G_g$ suivant chacun une loi normale de moyenne $\boldsymbol{\mu}_k\,$ $\left(k=1,\dots,g\right)$ et de matrice de variance-covariance $\boldsymbol{\Sigma}_k\,$ . D'autre part, en notant $\pi_1,\dots,\pi_g$ les proportions des différents groupes, $\boldsymbol{\theta}_k=\left(\boldsymbol{\mu_k},\boldsymbol{\Sigma_k}\right)$ le paramètre de chaque loi normale et $\boldsymbol{\Phi}=\left(\pi_1,\dots,\pi_g,\boldsymbol{\theta}_1,\dots,\boldsymbol{\theta}_g\right)$ le paramètre global du mélange, la loi mélange que suit l'échantillon peut s'écrire

avec $f(\boldsymbol{x},\boldsymbol{\theta}_k)\,$ la loi normale multidimensionnelle paramétrée par $\boldsymbol{\theta}_k\,$ .

La principale difficulté de cette approche consiste à déterminer le meilleur paramètre $\boldsymbol{\Phi}$ . Pour cela, on cherche habituellement le paramètre qui maximise la vraisemblance, donnée dans ce cas, par

$L\left(\mathbf{x};\boldsymbol{\Phi}\right)=\sum_{i=1}^n\log\left(\sum_{k=1}^g\pi_kf(\boldsymbol{x}_i,\boldsymbol{\theta}_k)\right).$

Bien que ce problème puisse sembler particulièrement hardu, l'algorithme EM permet de lever cette difficulté.

Une fois l'estimation effectuée, il s'agit d'attribuer à chaque individu la classe à laquelle il appartient le plus probablement. Pour cela, on utilise la règle d'inversion de Bayes. D'après celle-ci, on a

$P\left(\boldsymbol{x}\in G_k\right)=\frac{P\left(\boldsymbol{x}|\boldsymbol{x}\in G_k\right).P\left(\boldsymbol{x}\in G_k\right)}{P(x)},$

ce qui se traduit, dans notre cas, par

$P\left(\boldsymbol{x}_i\in G_k\right)=\frac{\pi_kf\left(\boldsymbol{x}_i,\boldsymbol{\theta}_k\right)}{\sum_{\ell=1}^g\pi_\ell f\left(\boldsymbol{x}_i,\boldsymbol{\theta}_\ell\right)}.$

Il suffit alors d'attribuer chaque individu $\boldsymbol{x}_i$ à la classe pour laquelle la probabilité a posteriori $P\left(\boldsymbol{x}_i\in G_k\right)$ est la plus grande.

Modèles parcimonieux

Un problème qu'on peut rencontrer lors de la mise en œuvre des modèles de mélange concerne la taille du vecteur de paramètres à estimer. Dans le cas d'un mélange gaussien de g composantes de dimension p le paramètre est de dimension $k (1 + p + p 2) - 1$ . La quantité de données nécessaire à une estimation fiable peut alors être trop importante par rapport au coût de leur recueil.

Une solution couramment employée est de déterminer quelles sont, parmi toutes les variables disponibles, celles qui apporteront le plus d'information à l'analyse et d'éliminer les variables ne présentant que peu d'intérêt. Cette technique, très employée dans des problèmes de discrimination l'est moins dans les problèmes de classification.

Une méthode alternative consiste à considérer des modèles dits parcimonieux dans lesquels on contraint le modèle initial de manière à n'estimer qu'un nombre plus restreint de paramètres. Dans le cas gaussien, la paramétrisation synthétique des lois de probabilités grâce à deux ensembles $\boldsymbol{\mu}_k$ et $\boldsymbol{\Sigma}_k$ de paramètres permet des ajouts de contraintes relativement simples. Le plus souvent, ces contraintes ont une signification géométrique en terme de volumes, d'orientation et de forme.

En notant $B k$ la matrice des valeurs propres de $\boldsymbol{\Sigma}_k$ et $D k$ la matrice de ses vecteurs propres, on peut noter

$\boldsymbol{\Sigma}_k=D_kB_kD_k^{-1}.$

D'autre part, $B k$ peut également être décomposée en $B k = λ k A k$ où $λ k$ est un réel et $A k$ une matrice dont le déterminant vaut 1. En utilisant ces notations, on peut considérer que $λ k$ représente le volume de la classe, la matrice $A k$ représente sa forme et $D k$ son orientation.

Il est alors possible d'ajouter des hypothèses sur formes, des volumes ou les orientations des classe:

Formes quelconques: En fixant des contraintes d'égalité entre les $A k$ , les $D k$ ou les $λ k$ , on peut générer 8 modèles différends. On peut par exemple considérer des volumes et des formes identiques mais orientées différemment, ou encore des formes et orientations identiques avec des volumes différents, etc.
Formes diagonales: En considérant que les matrices $D k$ sont diagonales, on oblige les classes à être alignées sur les axes. Il s'agit en fait de l'hypothèse d'indépendance conditionnelle dans laquelle les variables sont indépendantes entre elles à l'intérieur d'une même classe.
Formes sphériques: En fixant $A k = I$ , on se place dans le cas ou les classes sont de formes sphériques, c’est-à-dire que les variances de toutes les variables sont égales à l'intérieur d'une même classe.

Voici ce qui a causé les toutes premières inégalités de richesse 💰

Quelle est cette zone étrange dans l'Atlantique Nord ? 🌊

Cette planète orbite à angle droit autour de deux étoiles, une première ! 🔭

Des cellules solaires flexibles battent des records d'efficacité ⚡

Ce dispositif reproduit les trous noirs et trous blancs en laboratoire 🌀

Record établi pour un transistor en diamant 💎

Les sursauts radio rapides trahissent enfin leur origine cosmique 📡

Ces biomarqueurs sanguins prédisent la démence 10 ans à l'avance 🧠

Découverte majeure: des médicaments 23 fois plus efficaces contre le cancer 💊

Les oscillations collectives des foules humaines denses 🔁

Une forme inconnue de la matière détectée au LHC ? ⚛️

Le sel, un facteur méconnu de l'obésité ? 🧂

L'Univers en rotation, une réponse élégante à ce problème astrophysique majeur 🌀

Découverte tectonique majeure sous les Petites Antilles 🌍

Peut-on geler en chauffant ? ❄️

Une peau électronique pour doter les robots du sens du toucher 👌

Invention d'un bois semi-transparent avec une technique...surprenante ! 🌳

Le cancer inscrit dans nos gènes dès la naissance ? 🧬

Des supernovae à l'origine de deux extinctions massives sur Terre ? 💥

Le passé verdoyant du plus grand désert du monde 🐪

Après les campagnes antivaccins, la rougeole revient en force aux États-Unis 😷

Des puces quantiques plus proches que jamais ⚡

Pourrons-nous bientôt communiquer avec les dauphins grâce à l'IA ? 🐬

En déplaçant deux atomes, des chercheurs transforment le LSD en médicament surpuissant 💊

Des scientifiques parviennent à produire efficacement du carburant à partir de monoxyde de carbone 🛢️

Que nous apprend la découverte de cet insecte de 16 millions d'années ? 🐜

Avec 91km, l'accélérateur FCC fera passer le LHC pour un jouet ⚛️

Cette vitamine développe les fonctions cognitives du cerveau 🧠

Comment des impacts géants vaporisent les corps planétaires ☄️

Les Américains riches vivent moins longtemps que les Européens pauvres 💰

Attention à ce riz naturellement riche en arsenic 🍚

L'intelligence artificielle contre la mort subite 💀

L'inévitable formation d'un océan de magma basal sur Terre 🔥

Découverte d'une plante étrange sans chlorophylle 🌱

Existe-t-il des mélodies naturelles ? 🎶

Cette exoplanète présente une signature de vie bien plus forte que celle de la Terre 👽

L'origine énigmatique des rayons cosmiques les plus énergétiques ⚡

Le diagnostic de l'autisme remis en cause par l'intelligence artificielle 🩺

Imprimer en 3D avec la lumière du soleil ☀️

La pollution atmosphérique nuit gravement au cerveau 🧠

Le trou noir supermassif Ansky vient de se réveiller ⚫

Voici ce qui rend notre cerveau vraiment unique 🧠

Asymétrie matière-antimatière: une nouvelle pièce du puzzle dévoilée 🧩

Neige en inuit, goût en japonais... comment les langues décomposent la réalité ? 💬

La physique révèle les secrets d'un strike parfait au bowling 🎳

Le TDAH associé à la démence 🧠

Découverte d'une nouvelle forme d'intrication quantique, une première en 20 ans ⚛️

Le régime cétogène montre des surprises sur le cholestérol 🧐

Un tango observationnel révèle une Super-Terre 🔭

Cette expérience montre que la graisse brune augmente fortement la longévité 🕒

Page générée en 0.101 seconde(s) - site hébergé chez Contabo
Ce site fait l'objet d'une déclaration à la CNIL sous le numéro de dossier 1037632
A propos - Informations légales
Version anglaise | Version allemande | Version espagnole | Version portugaise