suivant: Analyse préliminaire des résultats
monter: Expérimentations autour du problème
précédent: Expérimentations autour du problème
  Table des matières
Le problème du pendule inversé fait partie des bancs d'essais
les plus utilisés en AR. L'article de référence de Barto et
Sutton l'utilise et beaucoup de techniques d'AR ont été testées
grâce à celui-ci (voir la présentation du problème en annexe A.2.1).
Une caractéristique de ce problème est que l'emploi de deux ou
trois mauvaises commandes consécutives peut suffire à faire
sortir le système de sa zone de viabilité. Or, on sait que
l'AR en lui-même doit permettre d'établir une politique de
commande correcte dans le sens où si l'état courant est toujours
parfaitement identifié et si la topologie des état est bien formée,
alors on saura appliquer la bonne commande après apprentissage
.
Nous avons donné les sources d'incertitude sur la qualité de la
politique de commande trouvée après l'apprentissage. Celles-ci
sont difficilement maîtrisables et rendent l'interprétation des
résultats d'apprentissage délicate: on sent intuitivement que
cela peut rendre le système non fiable et le résultat non
prédictible, mais il est difficile de trouver la cause d'un
résultat d'apprentissage (qu'il soit bon ou mauvais).
Pour un problème de viabilité, l'expérimentateur peut choisir
comme critère de réussite de l'apprentissage un nombre arbitraire
d'itérations consécutives sans échec. Il est clair que si le problème
respecte l'hypothèse (H) que nous avons introduite dans la sous-section
1.3.9, les performances de l'algorithme d'AR déduites de ce
critère dépendent de la valeur de ce nombre limite. La qualité des
résultats d'apprentissage n'a donc qu'une valeur relative.
La sous-section suivante présente les résultats d'un des rares travaux
en AR concernant l'influence d'une dégradation de la qualité des
données sur la qualité de l'apprentissage et sur la durée d'apprentissage.
Ils constituent une base pour notre analyse et mettent en évidence des
interrogations.
Comment peut-on interpréter un résultat d'AR ? Quelles sont les
causes de l'échec ou de la réussite d'un apprentissage ? Comment
peut-on introduire la notion de fiabilité d'une politique de
commande issue de l'AR ? L'objectif de cette section est de donner
des éléments de réponse à ces questions autour des problématiques
de fiabilité et de prédictibilité. Pour cela, nous utiliserons les
outils de mesure définis dans la section précédente.
suivant: Analyse préliminaire des résultats
monter: Expérimentations autour du problème
précédent: Expérimentations autour du problème
  Table des matières
2002-03-01