À chaque pas de temps t, l'agent prend connaissance du vecteur
d'entrée X(t) et délivre une action a(t) en fonction de X(t). Au
pas de temps suivant, la réaction de l'environnement provoque
l'envoi du signal de renforcement r(t+1), dont la valeur dépend de
la qualité de l'action a(t) par rapport à un objectif fixé a
priori. |