next up previous contents
suivant: Protocole expérimental monter: Expérimentations autour du problème précédent: Objectif   Table des matières

Analyse préliminaire des résultats antérieures sur l'influence du bruit de mesure sur l'apprentissage par AR

Peu de travaux existent, qualifiant précisément l'influence du bruit de mesure sur l'AR. Nous choisissons de mentionner l'étude de Pendrith (voir [Pendrith, 1994]). Comme le montrent d'autres de ses publications ([Pendrith et McGarity, 1998], [Pendrith, 1999]), les efforts de Pendrith se sont centrés sur la réduction des effets néfastes des bruits de mesures sur l'apprentissage, dans des conditions réelles. Son rapport interne de 1994 est une base de travail intéressante pour nous, car Pendrith y a étudié minutieusement l'influence du bruit de mesure sur les algorithmes AHC et Q-Learning, en comparaison avec ses propres algorithmes P-Trace et Q-Trace. Le banc d'essai était le pendule inversé (en simulation), avec le découpage indiqué dans [Barto et al., 1983].
Voici les conditions expérimentales. Pendrith définit le temps d'apprentissage comme le nombre moyen d'essais nécessaires pour aboutir au premier succès de la politique de commande apprise. Il défini ce succès en fonction du nombre d'itérations consécutives pour lesquelles le système reste viable, et fixe ce nombre à 10.000 .
Au début de chaque essai, l'état du système est choisi au hasard dans une zone de l'espace d'états [*]. L'algorithme de choix de la commande utilise la loi de probabilité de Boltzmann (voir [Lin, 1992]), avec un paramètre de température T choisi au début de chaque essai dans l'intervalle ]0,0.1].
Lorsqu'un essai est réussi, Pendrith fixe la politique de commande du système [*] et la teste à partir de 20 positions initiales différentes du chariot et du pendule. Sur ces 20 tests, il compte le nombre de tests ayant aboutit à un succès (c'est-à-dire 10.000 itérations consécutives sans échec), ce qui qualifie le ``score'' de l'apprentissage avec une note de 0 à 20.
Pendrith introduit des bruits de mesure suivant une loi uniforme. Ces bruits sont de deux types: Il spécifie les amplitudes de bruit, allant de 0% (pas de bruit) à 8% (amplitude maximum pour les tests de Pendrith).
Les résultats que Pendrith obtient pour les méthodes AHC et Q-Learning sont résumés dans le tableau 1.1. Nous n'indiquons que ceux obtenus pour les bruits de type 1. Des résultats analogues sont trouvés pour les bruits de type 2. Ils font apparaître les éléments suivants: Pendrith note également que la plupart des essais sont réussis.

Tableau: Résultats obtenus par Pendrith pour les méthodes AHC et Q-Learning (bruit de type 1)
Bruit (%) Score AHC Score Q-L NME AHC (ENE AHC) NME Q-L (ENE Q-L)
0 9.6 10.1 56.3 (20.6) 403.6 (184.3)
1 9.7 8.1 61.5 (36.4) 503.0 (267.3)
2 8.1 11.9 57.9 (16.3) 690.9 (504.6)
3 7.0 10.1 137.2 (252.0) 1080.6 (688.9)
4 4.9 6.8 100.9 (79.7) 1905.0 (1484.3)
5 4.7 6.3 473.3 (857.5) 7949.3 (8576.8)
6 2.8 2.0 125.5 (111.4) 22937.5 (18037.4)
7 1.6 1.0 58001.6 (251354.0) 97301.6 (95936.6)
8 0.4 0.4 1900.9 (5970.7) 867567.4 (845976.0)

NME représente le Nombre Moyen d'Essais avant la réussite de l'apprentissage
ENE représente l'Écart-type du Nombre d'Essais avant la réussite de l'apprentissage
Q-L est l'abréviation de Q-Learning


Nous pouvons faire quelques remarques sur ces résultats. En premier lieu, le fait que la majorité des apprentissages se terminent par un succès n'est pas surprenant. Nous avons obtenu des résultats similaires en choisissant au hasard, pour chaque état du système (voir la description du problème du pendule inversé), la commande à appliquer, puis en testant cette politique de commande. Il ressort de cette expérience que le fait de trouver au hasard une politique de commande satisfaisant le critère de réussite de Pendrith n'est pas un événement rare (il faut effectuer quelques millions d'essais pour cela [*]). Quels scores Pendrith aurait-il obtenu si le critère de réussite avait été 100.000 itérations consécutives ou davantage ? Il n'est pas garanti que le résultat aurait été similaire à celui présenté dans la table 1.1.
En second lieu, on remarque que les scores d'apprentissage sans bruit de mesure sont médiocres (à peine la moitié des tests s'achèvent par un succès). On peut expliquer ce mauvais résultat par un manque d'exploration de certains états dans lesquels le système est initialisé au début de chaque essai. Cette explication est plausible, mais on peut en trouver d'autres: Enfin, l'écart-type associé au nombre d'essais nécessaires avant la réussite de l'apprentissage est de l'ordre de grandeur du nombre moyen d'essais. Il y a donc une grande variabilité des paramètres fondamentaux de l'apprentissage: le temps d'apprentissage avant l'obtention d'un succès et le score d'apprentissage. Nos interrogations sont destinées à sensibiliser le lecteur sur le fait que le résultat d'un apprentissage d'AR n'est que peu prédictible, et que l'absence de fiabilité de la politique de commande obtenue après apprentissage est difficilement explicable. Les causes de cette non fiabilité et de cette non prédictibilité proviennent du contexte de l'apprentissage: algorithme de choix de la commande, zone d'initialisation du système, critère d'arrêt de l'apprentissage.
L'objectif de notre exemple applicatif est de répondre à certaines des questions que nous avons posées, sans avoir trouvé de réponse dans le travail de Pendrith: Pour répondre à ces questions, nous utiliserons les outils que nous avons présentés dans la section précédente.
next up previous contents
suivant: Protocole expérimental monter: Expérimentations autour du problème précédent: Objectif   Table des matières
2002-03-01