Le mécanisme d'AR schématisé

suivant: Références générales monter: Cadre général de l'apprentissage précédent: Cadre général de l'apprentissage Table des matières

Le mécanisme d'AR schématisé - les termes clés

Le contexte général de l'AR est l'apprentissage de la ``meilleure'' association possible perception/action, suivant un objectif donné. Cet apprentissage est guidé par un signal pauvre, appelé signal de renforcement, qui indique à tout moment la qualité de l'action qui vient d'être exécutée par rapport à l'objectif. Typiquement, ce signal est binaire: ``l'objectif est atteint'' ou ``l'objectif n'est pas atteint''. La figure 1.1 schématise le système d'AR.

**Figure:** Schéma général d'un agent apprenant par renforcement
$\includegraphics[]{fig/ar.eps}$ À chaque pas de temps t, l'agent prend connaissance du vecteur d'entrée X(t) et délivre une action a(t) en fonction de X(t). Au pas de temps suivant, la réaction de l'environnement provoque l'envoi du signal de renforcement r(t+1), dont la valeur dépend de la qualité de l'action a(t) par rapport à un objectif fixé a priori.

L'agent subit un apprentissage tout au long de sa vie. L'objectif est de pouvoir faire face à un changement éventuel de l'environnement et de s'y adapter (caractéristiques d'incrémentalité): les algorithmes d'AR sont donc itératifs et sont utilisés ``en ligne''. Des termes clé seront utilisés par la suite. Nous les définissons ici:

une itération de l'algorithme d'AR correspond au réflexe perception/action décrit dans le schéma 1.1, pour un pas de temps. Elle comprend également l'adaptation des paramètres de l'agent apprenant face à la donnée du signal de renforcement.
un essai est une suite d'itérations de l'algorithme d'AR, commencée en fixant l'état initial de l'agent et terminée lorsque le signal de renforcement prend une certaine valeur (par exemple, l'objectif est atteint) ou qu'une durée arbitrairement choisie avant l'expérience est atteinte. L'algorithme de haut niveau est donné par la figure 1.2.
la durée d'apprentissage est l'ensemble des essais nécessaires pour atteindre l'objectif. Si, au bout d'un certain nombre d'essais (fixé arbitrairement a priori), l'objectif n'est pas atteint, on considère que l'apprentissage a échoué.

Les paramètres de l'agent sont initialisés au début de la phase d'apprentissage et sont modifiés à chaque itération, sans être réinitialisés au début de chaque essai.

**Figure 1.2:** Algorithme de haut niveau d'un essai d'AR
$\includegraphics[]{fig/alg_ar.eps}$

suivant: Références générales monter: Cadre général de l'apprentissage précédent: Cadre général de l'apprentissage Table des matières

2002-03-01