Architecture et algorithme Q-Learning

suivant: Expériences autour du pendule monter: Techniques d'apprentissage par renforcement précédent: Avertissement - remerciements Table des matières

Architecture et algorithme Q-Learning

L'algorithme Q-Learning est un exemple d'algorithme utilisant l'itération sur les valeurs qualité associées à chaque état (figure A.2). L'algorithme A.1 est celui de $Q(\lambda )$ . Les paramètres internes sont $\gamma$ , $\lambda$ et $\beta$ . Un paramètre est également introduit dans le mécanisme de choix d'action (le facteur de température T, s'il s'agit d'une méthode ``à la Boltzmann''). $e_{t}$ est un vecteur représentant la trace d'éligibilité. Celle-ci peut s'exprimer de deux manières différentes, selon les équations suivantes:

éligibilité accumulatrice:

$\displaystyle e_{t}(x,a) = \left\{ \begin{array}{ll} 1 + \gamma \lambda e_{t-1... ...: et\:\: a=a_{t}\\ \gamma \lambda e_{t-1}(x,a) & sinon\\ \end{array}\right.$
éligibilité remplaçante:

$\displaystyle e_{t}(x,a) = \left\{ \begin{array}{ll} 1 & si\:\: x=x_{t}\:\: et\:\: a=a_{t}\\ \gamma \lambda e_{t-1}(x,a) & sinon\\ \end{array}\right.$

$\begin{algo} % latex2html id marker 7419 \hspace*{1cm}t=0, Q(x,a)=0,$e_{t}(x,a... ...usqu'à une condition d'arrêt \caption{Algorithme du $Q(\lambda)$} \end{algo}$

**Figure:** Architecture pour l'itération sur les valeurs
$\includegraphics[]{fig/qlearning.eps}$

2002-03-01