next up previous contents
suivant: Analyse des mesures et monter: Expérimentations autour du problème précédent: Analyse préliminaire des résultats   Table des matières

Protocole expérimental

Nous utiliserons la modélisation du flux d'erreurs dû au contexte d'apprentissage, induit par l'hypothèse ``(H)'' (voir la sous-section 1.3.9).
Pour répondre à la problématique de fiabilité posée dans la sous-section précédente, nous sommes amené à reconsidérer la durée limite de viabilité (fixée arbitrairement) pour laquelle on suppose qu'un essai est réussi. Nous l'avons fixée à 100 millions d'itérations. Si (H) est respectée, l'observation d'un essai réussi permet de majorer $ \epsilon $ avec une confiance de 0.99:

$\displaystyle \epsilon \leq 10^{-9}$    

Grâce à l'expression $ E[S_{n}]$, on en déduit une majoration du nombre moyen d'erreurs par an de 1.5 .
Dans cette série d'expériences, nous reprenons la topologie des états constitués dans
[Barto et al., 1983], qui découpe l'espace d'états généré par les quatre variables d'état $ x,\dot{x},\theta,\dot{\theta}$ en 162 boîtes (voir la figure 1.9 pour les coupes selon les axes $ \theta,x$ puis selon les axes $ \dot{\theta},\dot{x}$).

Figure: Coupes du découpage de l'espace d'état pour le problème du pendule inversé
\includegraphics[]{fig/dec_pendule.eps}
La zone hachurée du graphique de gauche correspond à une non-viabilité du système. Les traits en pointillés marquent les zones frontières entre les boîtes (pour la figure de gauche, les axes sont des frontières).

Pour chaque essai, l'initialisation du système s'effectue en choisissant aléatoirement le quadruplet $ (x,\dot{x},\theta,\dot{\theta})$ dans l'hypercube [-0.8,0.8]$ \times$[-0.5,0.5]$ \times$[-6°,6°]$ \times$[-0.87,0.87]. Ce domaine est choisi classiquement en AR pour le problème du pendule inversé. Un essai est stoppé lorsque le système est resté viable pendant 100 millions d'itérations consécutives ou lorsque le système est sorti de sa zone de viabilité.
Un apprentissage comporte une série de 2000 essais, sauf mention contraire. La technique d'apprentissage choisie est le Q-Learning avec trace d'éligibilité (voir les algorithmes en annexe). La méthode AHC n'est pas considérée dans le corps de ce document, car elle est reconnue comme étant instable dans le cas du pendule inversé ([Watkins, 1989], [Pendrith, 1994]), même lorsque les données d'entrée sont parfaites.
Nous avons effectué plusieurs essais préliminaires avant de déterminer la politique de choix d'action. Nous avons retenu une méthode pseudo-exhaustive: on a une probabilité P de choisir la meilleure action (P décroît suivant le temps d'une manière linéaire) et 1 - P de choisir l'autre. Nous avons choisi cette méthode car elle semble donner de meilleurs résultats que la méthode basée sur la distribution de Boltzmann.
Les mesures de $ H_{1}$ et $ H_{2}$ sont effectuées suivant le protocole décrit par l'algorithme 1.1 [*] (paragraphe 1.3.8, page [*]).
Dans les expériences présentées ci-dessous, on teste différents modèles de bruit de mesure, les autres paramètres restants inchangés.
next up previous contents
suivant: Analyse des mesures et monter: Expérimentations autour du problème précédent: Analyse préliminaire des résultats   Table des matières
2002-03-01