next up previous contents
suivant: Expériences autour du pendule monter: Techniques d'apprentissage par renforcement précédent: Avertissement - remerciements   Table des matières


Architecture et algorithme Q-Learning

L'algorithme Q-Learning est un exemple d'algorithme utilisant l'itération sur les valeurs qualité associées à chaque état (figure A.2). L'algorithme A.1 est celui de $ Q(\lambda )$. Les paramètres internes sont $ \gamma$, $ \lambda$ et $ \beta$. Un paramètre est également introduit dans le mécanisme de choix d'action (le facteur de température T, s'il s'agit d'une méthode ``à la Boltzmann''). $ e_{t}$ est un vecteur représentant la trace d'éligibilité. Celle-ci peut s'exprimer de deux manières différentes, selon les équations suivantes:
  1. éligibilité accumulatrice:

    $\displaystyle e_{t}(x,a) = \left\{ \begin{array}{ll}
 1 + \gamma \lambda e_{t-1...
...: et\:\: a=a_{t}\\ 
 \gamma \lambda e_{t-1}(x,a) & sinon\\ 
 \end{array}\right.$    

  2. éligibilité remplaçante:

    $\displaystyle e_{t}(x,a) = \left\{ \begin{array}{ll}
 1 & si\:\: x=x_{t}\:\: et\:\: a=a_{t}\\ 
 \gamma \lambda e_{t-1}(x,a) & sinon\\ 
 \end{array}\right.$    


\begin{algo}
% latex2html id marker 7419
\hspace*{1cm}t=0, Q(x,a)=0,$e_{t}(x,a...
...usqu'à une condition d'arrêt
\caption{Algorithme du $Q(\lambda)$}
\end{algo}

Figure: Architecture pour l'itération sur les valeurs
\includegraphics[]{fig/qlearning.eps}



2002-03-01