Nous utiliserons la modélisation du flux d'erreurs dû au contexte
d'apprentissage, induit par l'hypothèse ``(H)'' (voir la sous-section
1.3.9).
Pour répondre à la problématique de fiabilité posée dans la
sous-section précédente, nous sommes amené à reconsidérer la durée
limite de viabilité (fixée arbitrairement) pour laquelle on
suppose qu'un essai est réussi. Nous l'avons fixée à 100 millions
d'itérations. Si (H) est respectée, l'observation d'un essai
réussi permet de majorer avec une confiance de 0.99:
Grâce à l'expression , on en déduit une majoration du nombre
moyen d'erreurs par an de 1.5 .
Dans cette série d'expériences, nous reprenons la topologie des états
constitués dans
[Barto et al., 1983], qui découpe l'espace d'états généré
par les quatre variables d'état
en 162
boîtes (voir la figure 1.9 pour les coupes selon les
axes puis selon les axes
).
Figure:
Coupes du découpage de
l'espace d'état pour le problème du pendule inversé
La zone hachurée du graphique de gauche correspond à une
non-viabilité du système. Les traits en pointillés marquent les
zones frontières entre les boîtes (pour la figure de gauche, les
axes sont des frontières).
Pour chaque essai, l'initialisation du système s'effectue en
choisissant aléatoirement le quadruplet
dans l'hypercube [-0.8,0.8][-0.5,0.5][-6°,6°][-0.87,0.87].
Ce domaine est choisi classiquement en AR pour le problème du pendule inversé.
Un essai est stoppé lorsque le système est resté viable pendant 100 millions
d'itérations consécutives ou lorsque le système est sorti de sa zone de viabilité.
Un apprentissage comporte une série de 2000 essais, sauf mention contraire.
La technique d'apprentissage choisie est le Q-Learning avec trace
d'éligibilité (voir les algorithmes en annexe). La méthode AHC n'est
pas considérée dans le corps de ce document, car elle est reconnue comme
étant instable dans le cas du pendule inversé ([Watkins, 1989],
[Pendrith, 1994]), même lorsque les données d'entrée sont parfaites.
Nous avons effectué plusieurs essais préliminaires avant de déterminer
la politique de choix d'action. Nous avons retenu une méthode
pseudo-exhaustive: on a une probabilité P de choisir la meilleure
action (P décroît suivant le temps d'une manière linéaire) et 1 - P
de choisir l'autre. Nous avons choisi cette méthode car elle semble
donner de meilleurs résultats que la méthode basée sur la distribution
de Boltzmann.
Les mesures de et sont effectuées suivant le protocole
décrit par l'algorithme 1.1 (paragraphe 1.3.8, page ).
Dans les expériences présentées ci-dessous, on teste différents
modèles de bruit de mesure, les autres paramètres restants
inchangés.
données d'entrée parfaites. La connaissance des états du système
est absolue
données d'entrée artificiellement bruitées avec un bruit gaussien,
d'amplitude
données d'entrée possédant un certain taux de valeurs aberrantes
introduction d'un état choisi aléatoirement, avec un taux