![]() |
![]() Les graphes (a), (b) et (c) traitent de l'influence de l'exploration sur la qualité de la politique de commande. Les graphes (a) et (b) montrent la politique de commande issue de deux apprentissages différents. Pour (a), on part, au début de l'apprentissage, d'un graphe d'états ne possédant aucune transition (l'exploration au bout de l'apprentissage est donnée par le graphe (b)), alors que pour (c), on part d'un graphe possédant l'intégralité des transitions réalisables. Le résultat est que le graphe (c) donne une politique de commande optimale (nombre minimal de commandes pour rejoindre une des deux cibles à partir de n'importe quel état). Ce n'est pas le cas pour le graphe (a). Les graphes (d) et (e) donnent les politiques de commandes obtenues après apprentissage, en fixant la valeur du paramètre d à 10. Cela signifie qu'un état ne pourra avoir un marquage strictement positif que s'il faut moins de 10 commandes à partir de ce dernier pour atteindre l'objectif. Les différences entre (d) et (e) sont les mêmes qu'entre (a) et (c). Dans ces conditions, le graphe (e) montre une politique de commande optimale (tous les états à partir desquels on peut rejoindre une des deux cibles en moins de 10 commandes possèdent un marquage strictement positif, indiqué par la présence d'au moins une flèche). On voit que cela n'est pas vrai pour le graphe (d). |
![]() Les graphes (a) à (f) montrent la politique de commande obtenue après 500 essais d'apprentissage, pour chaque environnement pris successivement. Le graphe (g) montre un phénomène ``classique'' de l'algorithme CbL: la découverte d'une cible ou d'un mur alors qu'elle n'était pas prévue provoque une modification d'un nombre important de marquages. La majorité des modifications ont lieu juste après l'introduction d'un nouvel élément dans l'environnement, ce qui se traduit par des pics autour des itérations 1, 501, 1001, 2001 et 2501. |