next up previous contents
suivant: Analyse préliminaire des résultats monter: Expérimentations autour du problème précédent: Expérimentations autour du problème   Table des matières

Objectif

Le problème du pendule inversé fait partie des bancs d'essais les plus utilisés en AR. L'article de référence de Barto et Sutton l'utilise et beaucoup de techniques d'AR ont été testées grâce à celui-ci (voir la présentation du problème en annexe A.2.1).
Une caractéristique de ce problème est que l'emploi de deux ou trois mauvaises commandes consécutives peut suffire à faire sortir le système de sa zone de viabilité. Or, on sait que l'AR en lui-même doit permettre d'établir une politique de commande correcte dans le sens où si l'état courant est toujours parfaitement identifié et si la topologie des état est bien formée, alors on saura appliquer la bonne commande après apprentissage [*].
Nous avons donné les sources d'incertitude sur la qualité de la politique de commande trouvée après l'apprentissage. Celles-ci sont difficilement maîtrisables et rendent l'interprétation des résultats d'apprentissage délicate: on sent intuitivement que cela peut rendre le système non fiable et le résultat non prédictible, mais il est difficile de trouver la cause d'un résultat d'apprentissage (qu'il soit bon ou mauvais).
Pour un problème de viabilité, l'expérimentateur peut choisir comme critère de réussite de l'apprentissage un nombre arbitraire d'itérations consécutives sans échec. Il est clair que si le problème respecte l'hypothèse (H) que nous avons introduite dans la sous-section 1.3.9, les performances de l'algorithme d'AR déduites de ce critère dépendent de la valeur de ce nombre limite. La qualité des résultats d'apprentissage n'a donc qu'une valeur relative.
La sous-section suivante présente les résultats d'un des rares travaux en AR concernant l'influence d'une dégradation de la qualité des données sur la qualité de l'apprentissage et sur la durée d'apprentissage. Ils constituent une base pour notre analyse et mettent en évidence des interrogations.
Comment peut-on interpréter un résultat d'AR ? Quelles sont les causes de l'échec ou de la réussite d'un apprentissage ? Comment peut-on introduire la notion de fiabilité d'une politique de commande issue de l'AR ? L'objectif de cette section est de donner des éléments de réponse à ces questions autour des problématiques de fiabilité et de prédictibilité. Pour cela, nous utiliserons les outils de mesure définis dans la section précédente.
next up previous contents
suivant: Analyse préliminaire des résultats monter: Expérimentations autour du problème précédent: Expérimentations autour du problème   Table des matières
2002-03-01