
We are searching data for your request:
Upon completion, a link will appear to access the found materials.
Dérivation de la règle delta
Sur la base de la dérivation classique de la règle de rétropropagation, la règle delta dans les réseaux à un seul étage avec des fonctions d'activation linéaires est également considérée ici (dans cette dérivation même avec l'identité comme fonction d'activation) :
Avec la règle de la chaîne, il suit :
Il s'ensuit alors :
Comme il n'y a que des unités linéaires, la relation suivante s'applique :
Ainsi, brancher les équations et dans l'équation donne l'équation.
Il en résulte ce qui suit comme règle de modification :
Veuillez noter qu'il s'agit d'un processus d'apprentissage par lots ou hors ligne, c'est-à-dire que tous les échantillons doivent être présentés au système avant que les poids puissent être modifiés en une seule étape. Un problème avec cette méthode est que les changements doit être stocké et additionné pour chaque poids dans une variable et de nouveaux modèles ne peuvent pas simplement être recyclés dans ce processus.
Dans la simulation pratique, une méthode d'entraînement en ligne est généralement utilisée à la place, dans laquelle le poids est modifié directement après la création de chaque modèle individuel :
Cette règle est appelée règle delta ou règle Widrow-Hoff. Non seulement il nécessite un peu moins d'espace de stockage, puisque la variable auxiliaire d'addition des n'est requis pour aucun poids, mais pour la plupart des applications, il nécessite également moins de formation que la version par lots de la règle delta.Les méthodes en ligne basées sur le principe de la descente de gradient sont souvent également appelées méthodes de gradient stochastique.