Analyse préliminaire des résultats antérieures sur l'influence du bruit de mesure sur l'apprentissage par AR

suivant: Protocole expérimental monter: Expérimentations autour du problème précédent: Objectif Table des matières

Analyse préliminaire des résultats antérieures sur l'influence du bruit de mesure sur l'apprentissage par AR

Peu de travaux existent, qualifiant précisément l'influence du bruit de mesure sur l'AR. Nous choisissons de mentionner l'étude de Pendrith (voir [Pendrith, 1994]). Comme le montrent d'autres de ses publications ([Pendrith et McGarity, 1998], [Pendrith, 1999]), les efforts de Pendrith se sont centrés sur la réduction des effets néfastes des bruits de mesures sur l'apprentissage, dans des conditions réelles. Son rapport interne de 1994 est une base de travail intéressante pour nous, car Pendrith y a étudié minutieusement l'influence du bruit de mesure sur les algorithmes AHC et Q-Learning, en comparaison avec ses propres algorithmes P-Trace et Q-Trace. Le banc d'essai était le pendule inversé (en simulation), avec le découpage indiqué dans [Barto et al., 1983].
Voici les conditions expérimentales. Pendrith définit le temps d'apprentissage comme le nombre moyen d'essais nécessaires pour aboutir au premier succès de la politique de commande apprise. Il défini ce succès en fonction du nombre d'itérations consécutives pour lesquelles le système reste viable, et fixe ce nombre à 10.000 .
Au début de chaque essai, l'état du système est choisi au hasard dans une zone de l'espace d'états . L'algorithme de choix de la commande utilise la loi de probabilité de Boltzmann (voir [Lin, 1992]), avec un paramètre de température T choisi au début de chaque essai dans l'intervalle ]0,0.1].
Lorsqu'un essai est réussi, Pendrith fixe la politique de commande du système et la teste à partir de 20 positions initiales différentes du chariot et du pendule. Sur ces 20 tests, il compte le nombre de tests ayant aboutit à un succès (c'est-à-dire 10.000 itérations consécutives sans échec), ce qui qualifie le ``score'' de l'apprentissage avec une note de 0 à 20.
Pendrith introduit des bruits de mesure suivant une loi uniforme. Ces bruits sont de deux types:

type 1: l'amplitude maximum du bruit est proportionnelle à la valeur de la variable (donc, peu de bruit pour un système proche de l'équilibre: un biais très faible est rajouté pour que le bruit ne soit pas nul à l'équilibre)
type 2: l'amplitude maximum du bruit est constante, quelle que soit la valeur de la variable considérée

Il spécifie les amplitudes de bruit, allant de 0% (pas de bruit) à 8% (amplitude maximum pour les tests de Pendrith).
Les résultats que Pendrith obtient pour les méthodes AHC et Q-Learning sont résumés dans le tableau 1.1. Nous n'indiquons que ceux obtenus pour les bruits de type 1. Des résultats analogues sont trouvés pour les bruits de type 2. Ils font apparaître les éléments suivants:

le score sans bruit est loin d'être maximum
les algorithmes AHC et Q-Learning sont très sensibles aux bruits de mesure, ce qui se traduit par une augmentation très nette du nombre d'essais avant que l'apprentissage soit réussi et une diminution du score d'apprentissage
la variance du nombre d'essais nécessaires à la réussite de l'apprentissage est importante

Pendrith note également que la plupart des essais sont réussis.

Tableau: Résultats obtenus par Pendrith pour les méthodes AHC et Q-Learning (bruit de type 1)

Bruit (%)	Score AHC	Score Q-L	NME AHC (ENE AHC)	NME Q-L (ENE Q-L)
0	9.6	10.1	56.3 (20.6)	403.6 (184.3)
1	9.7	8.1	61.5 (36.4)	503.0 (267.3)
2	8.1	11.9	57.9 (16.3)	690.9 (504.6)
3	7.0	10.1	137.2 (252.0)	1080.6 (688.9)
4	4.9	6.8	100.9 (79.7)	1905.0 (1484.3)
5	4.7	6.3	473.3 (857.5)	7949.3 (8576.8)
6	2.8	2.0	125.5 (111.4)	22937.5 (18037.4)
7	1.6	1.0	58001.6 (251354.0)	97301.6 (95936.6)
8	0.4	0.4	1900.9 (5970.7)	867567.4 (845976.0)

NME représente le Nombre Moyen d'Essais avant la réussite de l'apprentissage
ENE représente l'Écart-type du Nombre d'Essais avant la réussite de l'apprentissage
Q-L est l'abréviation de Q-Learning

Nous pouvons faire quelques remarques sur ces résultats. En premier lieu, le fait que la majorité des apprentissages se terminent par un succès n'est pas surprenant. Nous avons obtenu des résultats similaires en choisissant au hasard, pour chaque état du système (voir la description du problème du pendule inversé), la commande à appliquer, puis en testant cette politique de commande. Il ressort de cette expérience que le fait de trouver au hasard une politique de commande satisfaisant le critère de réussite de Pendrith n'est pas un événement rare (il faut effectuer quelques millions d'essais pour cela ). Quels scores Pendrith aurait-il obtenu si le critère de réussite avait été 100.000 itérations consécutives ou davantage ? Il n'est pas garanti que le résultat aurait été similaire à celui présenté dans la table 1.1.
En second lieu, on remarque que les scores d'apprentissage sans bruit de mesure sont médiocres (à peine la moitié des tests s'achèvent par un succès). On peut expliquer ce mauvais résultat par un manque d'exploration de certains états dans lesquels le système est initialisé au début de chaque essai. Cette explication est plausible, mais on peut en trouver d'autres:

la zone d'initialisation du système au début de chaque essai comporte des régions à partir desquelles le système ne peut pas rester viable très longtemps.
le mécanisme de choix d'action, utilisation une loi de probabilité de Boltzmann, possède un paramètre température T que Pendrith choisit au début de chaque essai dans l'intervalle ]0,0.1]. Ce paramètre permet de choisir une commande possédant une qualité non maximum, ce qui induit une exploration plus complète des états du système et évite que l'apprentissage tombe dans un ``minimum local''. Lorsque les qualités associées à chaque commande sont très proches et que la température est élevée, l'algorithme de choix de commande effectue en quelque sorte un tirage aléatoire des commandes. Or, il apparaît que pour le problème du pendule inversé, ce choix aléatoire au niveau des zones de l'espace d'états proche du point d'équilibre est favorable au maintien du système en équilibre. Dans la phase de tests, une seule commande par état est choisie (celle qui est associée à la meilleure qualité), ce qui est forcément moins favorable (la vitesse angulaire du pendule ou la vitesse du chariot peuvent être beaucoup plus importantes que prévu à la sortie de l'état lorsqu'une commande unique y est exécutée.).

Enfin, l'écart-type associé au nombre d'essais nécessaires avant la réussite de l'apprentissage est de l'ordre de grandeur du nombre moyen d'essais. Il y a donc une grande variabilité des paramètres fondamentaux de l'apprentissage: le temps d'apprentissage avant l'obtention d'un succès et le score d'apprentissage. Nos interrogations sont destinées à sensibiliser le lecteur sur le fait que le résultat d'un apprentissage d'AR n'est que peu prédictible, et que l'absence de fiabilité de la politique de commande obtenue après apprentissage est difficilement explicable. Les causes de cette non fiabilité et de cette non prédictibilité proviennent du contexte de l'apprentissage: algorithme de choix de la commande, zone d'initialisation du système, critère d'arrêt de l'apprentissage.
L'objectif de notre exemple applicatif est de répondre à certaines des questions que nous avons posées, sans avoir trouvé de réponse dans le travail de Pendrith:

l'AR peut-il engendrer une politique de commande fiable, dans le cas du pendule inversé ?
Peut-on préciser les causes d'une non fiabilité ?
Peut-on prévoir, avant l'apprentissage, la nature de son résultat ?

Pour répondre à ces questions, nous utiliserons les outils que nous avons présentés dans la section précédente.

suivant: Protocole expérimental monter: Expérimentations autour du problème précédent: Objectif Table des matières

2002-03-01