suivant: Expériences autour du pendule
monter: Techniques d'apprentissage par renforcement
précédent: Avertissement - remerciements
  Table des matières
Architecture et algorithme Q-Learning
L'algorithme Q-Learning est un exemple d'algorithme utilisant
l'itération sur les valeurs qualité associées à chaque état
(figure A.2). L'algorithme A.1 est celui
de
. Les paramètres internes sont
,
et
. Un paramètre est également introduit dans le mécanisme
de choix d'action (le facteur de température T, s'il s'agit d'une
méthode ``à la Boltzmann'').
est un vecteur représentant
la trace d'éligibilité. Celle-ci peut s'exprimer de deux manières
différentes, selon les équations suivantes:
- éligibilité accumulatrice:
- éligibilité remplaçante:
Figure:
Architecture pour l'itération sur les valeurs
|
2002-03-01