next up previous contents
suivant: Références générales monter: Cadre général de l'apprentissage précédent: Cadre général de l'apprentissage   Table des matières

Le mécanisme d'AR schématisé - les termes clés

Le contexte général de l'AR est l'apprentissage de la ``meilleure'' association possible perception/action, suivant un objectif donné. Cet apprentissage est guidé par un signal pauvre, appelé signal de renforcement, qui indique à tout moment la qualité de l'action qui vient d'être exécutée par rapport à l'objectif. Typiquement, ce signal est binaire: ``l'objectif est atteint'' ou ``l'objectif n'est pas atteint''. La figure 1.1 schématise le système d'AR.

Figure: Schéma général d'un agent apprenant par renforcement
\includegraphics[]{fig/ar.eps}
À chaque pas de temps t, l'agent prend connaissance du vecteur d'entrée X(t) et délivre une action a(t) en fonction de X(t). Au pas de temps suivant, la réaction de l'environnement provoque l'envoi du signal de renforcement r(t+1), dont la valeur dépend de la qualité de l'action a(t) par rapport à un objectif fixé a priori.

L'agent subit un apprentissage tout au long de sa vie. L'objectif est de pouvoir faire face à un changement éventuel de l'environnement et de s'y adapter (caractéristiques d'incrémentalité): les algorithmes d'AR sont donc itératifs et sont utilisés ``en ligne''. Des termes clé seront utilisés par la suite. Nous les définissons ici: Les paramètres de l'agent sont initialisés au début de la phase d'apprentissage et sont modifiés à chaque itération, sans être réinitialisés au début de chaque essai.

Figure 1.2: Algorithme de haut niveau d'un essai d'AR
\includegraphics[]{fig/alg_ar.eps}


next up previous contents
suivant: Références générales monter: Cadre général de l'apprentissage précédent: Cadre général de l'apprentissage   Table des matières
2002-03-01