Rétropropagation du gradient - Définition

Source: Wikipédia sous licence CC-BY-SA 3.0.
La liste des auteurs est disponible ici.

La technique de rétropropagation du gradient (Backpropagation en anglais) est une méthode qui permet de calculer le gradient de l'erreur pour chaque neurone du réseau, de la dernière couche vers la première. De façon abusive, on appelle souvent technique de rétropropagation du gradient l'algorithme classique de correction des erreurs basé sur le calcul du gradient grâce à la rétropropagation et c'est cette méthode qui est présentée ici. En vérité, la correction des erreurs peut se faire selon d'autres méthodes, en particulier le calcul de la dérivée seconde.

Cette technique consiste à corriger les erreurs selon l'importance des éléments qui ont justement participé à la réalisation de ces erreurs. Dans le cas des réseaux de neurones, les poids synaptiques qui contribuent à engendrer une erreur importante se verront modifiés de manière plus significative que les poids qui ont engendré une erreur marginale.

Ce principe fonde les méthodes de type descente de gradient, qui sont efficacement utilisées dans des réseaux de neurones multicouches comme les perceptrons multicouches (MLP pour " multi-layers perceptrons "). Les descentes de gradient ont pour but de converger de manière itérative vers une configuration optimisée des poids synaptiques. Cet état peut être un minimum local de la fonction à optimiser et idéalement, un minimum global de cette fonction (dite fonction de coût).

Normalement, la fonction de coût est non-linéaire au regard des poids synaptiques. Elle dispose également d'une borne inférieure et moyennant quelques précautions lors de l'apprentissage, les procédures d'optimisation finissent par aboutir à une configuration stable au sein du réseau de neurones.

Utilisation au sein d'un apprentissage supervisé

Dans le cas d'un apprentissage supervisé, des données sont présentées à l'entrée du réseau de neurones et celui-ci produit des sorties. La valeur des sorties dépend des paramètres liés à la structure du réseau de neurones : connectique entre neurones, fonctions d'agrégation et d'activation ainsi que les poids synaptiques.

Les différences entre ces sorties et les sorties désirées forment des erreurs qui sont corrigées via la rétropropagation, les poids du réseau de neurones sont alors changés. La manière de quantifier cette erreur peut varier selon le type d'apprentissage à effectuer. En appliquant cette étape plusieurs fois, l'erreur tend à diminuer et le réseau offre une meilleure prédiction. Il se peut toutefois qu'il ne parvienne pas à échapper à un minimum local, c'est pourquoi on ajoute en général un terme d'inertie (momentum) à la formule de la rétropropagation pour aider la descente de gradient à sortir de ces minimums locaux.

Algorithme

Les poids dans le réseau de neurones sont au préalable initialisés avec des valeurs aléatoires. On considère ensuite un ensemble de données qui vont servir à l'apprentissage. Chaque échantillon possède ses valeurs cibles qui sont celles que le réseau de neurones doit à terme prédire lorsque on lui présente le même échantillon. L'algorithme se présente comme ceci :

Soit un échantillon $\vec{x}$ que l'on met à l'entrée du réseau de neurones et la sortie recherchée pour cet échantillon $\vec{t}$
On propage le signal en avant dans les couches du réseau de neurones : $x_k^{(n-1)}\mapsto x_j^{(n)}$
La propagation vers l'avant se calcule à l'aide la fonction d'activation $g$ , de la fonction d'agrégation $h$ (souvent un produit scalaire entre les poids et les entrées du neurone) et des poids synaptiques $\vec{w}_{jk}$ entre le neurone $x_k^{(n-1)}$ et le neurone $x_j^{(n)}$ . Attention au passage à cette notation qui est inversée, $\vec{w}_{jk}$ indique bien un poids de $k$ vers $j$ .

Lorsque la propagation vers l'avant est terminée, on obtient à la sortie le résultat $\vec{y}$
On calcule alors l'erreur entre la sortie donnée par le réseau $\vec{y}$ et le vecteur $\vec{t}$ désiré à la sortie pour cet échantillon. Pour chaque neurone $i$ dans la couche de sortie, on calcule :

On propage l'erreur vers l'arrière $e_i^{(n)} \mapsto e_j^{(n-1)}$ grâce à la formule suivante :

On met à jour les poids dans toutes les couches :

où

λ

représente le taux d'apprentissage (de faible magnitude et inférieur à 1.0)

Implémentation

L'algorithme présenté ici est de type " online ", c'est à dit que l'on met à jour les poids pour chaque échantillon d'apprentissage présenté dans le réseau de neurones. Une autre méthode est dite en " batch ", c'est-à-dire que l'on calcule d'abord les erreurs pour tous les échantillons sans mettre à jour les poids (on additionne les erreurs) et lorsque l'ensemble des données est passé une fois dans le réseau, on applique la rétropropagation en utilisant l'erreur totale. Cette façon de faire est préférée pour des raisons de rapidité et de convergence.

L'algorithme est itératif et la correction s'applique autant de fois que nécessaire pour obtenir une bonne prédiction. Il faut cependant veiller aux problèmes de surapprentissage liés à un mauvais dimensionnement du réseau ou un apprentissage trop poussé.

Ajout d'inertie

Pour éviter les problèmes liés à une stabilisation dans un minimum local, on ajoute un terme d'inertie (momentum). Celui-ci permet de sortir des minimums locaux dans la mesure du possible et de poursuivre la descente de la fonction d'erreur. À chaque itération, le changement de poids conserve les informations des changements précédents. Cet effet de mémoire permet d'éviter les oscillations et accélère l'optimisation du réseau. Par rapport à la formule de modification des poids présentée auparavant, le changement des poids avec inertie au temps $t$ se traduit par :

avec $α$ un paramètre compris entre 0 et 1.0.

Le trou noir supermassif Ansky vient de se réveiller ⚫

Voici ce qui rend notre cerveau vraiment unique 🧠

Asymétrie matière-antimatière: une nouvelle pièce du puzzle dévoilée 🧩

Neige en inuit, goût en japonais... comment les langues décomposent la réalité ? 💬

La physique révèle les secrets d'un strike parfait au bowling 🎳

Le TDAH associé à la démence 🧠

Découverte d'une nouvelle forme d'intrication quantique, une première en 20 ans ⚛️

Le régime cétogène montre des surprises sur le cholestérol 🧐

Un tango observationnel révèle une Super-Terre 🔭

Cette expérience montre que la graisse brune augmente fortement la longévité 🕒

L'Univers comme jamais vu auparavant: les révélations du fond diffus cosmologique 🔭

C'est sérieux: de la bave pourrait révolutionner la conception de bioplastiques 🪱

Découverte: le trou noir central de notre galaxie pourrait anéantir la vie sur Terre 💥

Etude scientifique: ces aliments nous font vieillir 🍽️

Pourquoi notre visage est-il plus petit et délicat que celui des Néandertaliens ? 🤔

A 18 ans, il découvre 1,5 million d'objets célestes inconnus avec son algorithme d'IA 🌟

Que sont ces objets rouges et aplatis, qualifiés d'UFOs par les astronomes ? 🔭

Une méthode simple pour améliorer les performances en mathématiques 🧮

Que sont ces étranges éclairs rouges photographiés au-dessus de l'Himalaya ? ⚡

Nous descendons non pas d'un, mais d'au moins deux groupes anciens 🧬

Un nuage géant de 160 000 soleils découvert dans notre Voie lactée 🔭

Connaissez-vous le rat-kangourou musqué, ce marsupial à la démarche unique ? 🦘

Comment une poignée de traders a fait s'effondrer deux cryptomonnaies 📉

Première cartographie titanesque d'un cerveau, avec 500 millions de connexions neuronales 🧠

Cette double supernovae proche est inexorable, voici la date... qui va vous surprendre 💥

Un océan phosphorescent: comment s'explique ce phénomène rare et féerique ? 🌊

L'ELT pourrait-il découvrir une vie extraterrestre dès 2028 ? 🔭

Cet édulcorant tue les superbactéries résistantes 🍬

Les neutrinos, la clé de la gravité quantique ? 👀

En Italie, les éruptions explosives de ce volcan déjouent les pronostics 🌋

Que sont ces spaghettis au cœur de notre galaxie ? 🔭

Des scientifiques ont créé une "bombe intelligente" contre le cancer 🎯

Les nanoplastiques, l'amiante du 21ème siècle ? 🔬

Compétition cellulaire: des forces sculptent nos tissus 🛠️

Le climat en Europe et au États-Unis pourrait changer bien plus radicalement que supposé 🌍

Découverte: ce dinosaure avait des poches d'air dans les os 🦴

La vie sur Titan, si elle existe, ressemblerait à quoi ? 🪐

Magnétisme et biologie s'allient contre le cancer 🧲

WR 104: on en sait plus sur cette "étoile de la mort" qui menace la Terre ☄️

Découverte: des bactéries respiraient de l'oxygène 1 milliard d'années avant la Grande Oxydation 🫧

Découverte d'un nouveau type de vent solaire rapide ☀️

Les dinosaures n'étaient pas en déclin avant l'astéroïde 🦖

Ce robot-cheval est véritablement tout-terrain 🐎

Comment un mauvais sommeil peut endommager votre cerveau ? 🧠

Découverte de microbes cachés qui purifient l'eau sans que nous le sachions 💧

Bonne nouvelle pour les enfants de la Lune 🌙

Du CO2 détecté dans l'atmosphère d'une exoplanète proche 🔭

Le café et le thé impactent le cancer, mais dans quel sens ? ☕

Une IA révèle des bulles cosmiques dans notre galaxie 🫧

Lorsque l'alcool stimule ses phéromones sexuelles et rend plus séduisant 🍷

Page générée en 0.100 seconde(s) - site hébergé chez Contabo
Ce site fait l'objet d'une déclaration à la CNIL sous le numéro de dossier 1037632
A propos - Informations légales
Version anglaise | Version allemande | Version espagnole | Version portugaise