Conclusion

suivant: Algorithme d'AO défini dans monter: Expérimentations autour du problème précédent: Relation entre et Table des matières

Conclusion

Le banc d'essai du pendule inversé nous a permis de mettre en évidence certains mécanismes d'interactions entre l'algorithme d'AR et son contexte. Dans le cas du pendule inversé, nous avons pu valider l'hypothèses (H), proposée dans la sous-section 1.3.9. Nous avons montré que le modèle proposé dans la sous-section 1.3.11 est relativement adapté pour expliquer la répartition des durées de viabilité au cours d'un apprentissage. L'existence d'une telle modélisation implique que l'apprentissage ne garantit pas d'obtenir une politique de commande fiable, et qu'au début d'un essai d'apprentissage, on ne peut pas prédire la nature de son résultat. Néanmoins, on peut caractériser statistiquement les performances de l'apprentissage, en regardant la répartition des durées de viabilité. Nous avons mis en évidence l'existence de deux zones dans lesquelles les durées de viabilité sont cantonnées: chaque zone est associée avec une des deux sources d'erreurs prévues par notre modèle. Nous avons caractérisé la nature probable des deux sources d'erreurs $E_{1}$ et $E_{2}$ : $E_{1}$ , regroupant les essais dont la durée de viabilité est courte (autour de 150 itérations), est probablement due au paramétrage qui règle le dilemme exploration/exploitation, alors que la deuxième source d'erreurs dépend à la fois de la topologie des états du système et de la qualité des données en entrée de celui-ci.
Nous avons complété les observations de Pendrith (rapport interne datant de 1994) et modifié certaines conclusions qu'il avait apportées. En particulier, lorsqu'on augmente beaucoup le nombre d'itérations limite définissant qu'un apprentissage est réussi, on s'aperçoit que peu d'apprentissages le sont et que l'ajout d'un bruit de mesure, même faible, empêche systématiquement la réussite de l'apprentissage.
Enfin, nous avons montré l'utilité des mesures $H_{1}$ et $H_{2}$ , qui permettent effectivement de caractériser la qualité du contexte d'apprentissage et l'influence (ou le peu d'influence) des variables d'entrée. Nous avons prouvé l'existence d'un lien grossièrement fonctionnel et bijectif qui unit $H_{1}$ et la valeur de $\epsilon _{2}$ relatif à la deuxième source d'erreurs: $H_{1}$ = a.log( $\epsilon _{2}$ )+b. Ce lien permet, en théorie, de prévoir l'évolution statistique des durées de viabilité, en connaissant la nature du bruit de mesure et la valeur de $H_{1}$ , qu'on peut déterminer avant le début de l'apprentissage: plus $H_{1}$ est faible, et plus $\epsilon _{2}$ est faible, donc plus la durée de viabilité moyenne est importante. Nous avons aussi montré, grâce à l'évolution de $H_{2}$ et de $H_{1}$ , que la variable $\theta$ est peu discriminante et qu'on peut découper cet axe moins finement que ce qui est choisi d'habitude, ce qui n'est pas un résultat évident a priori.
La découverte du lien entre $H_{1}$ et la qualité du résultat de l'apprentissage renforce notre idée de bâtir l'AP dans l'objectif de minimiser les valeurs de $H_{1}$ et de $H_{2}$ , construisant un contexte idéal pour l'AO (c'est-à-dire respectant la contrainte ( $P_{\epsilon }$ ) ). Le chapitre suivant concerne la construction de l'AO, utilisant comme hypothèse que le contexte d'apprentissage respecte la contrainte ( $P_{\epsilon }$ ).

suivant: Algorithme d'AO défini dans monter: Expérimentations autour du problème précédent: Relation entre et Table des matières

2002-03-01