![]() Dans l'ensemble des graphes, les traits fins correspondent à la limitation des cases du labyrinthe, alors que les traits épais signifient la présence d'un mur ou d'une bordure du labyrinthe. La ou les cibles sont représentées par un cercle. Chaque case représente un état du système. Le graphe (a) montre un exemple de politique de commande établie après un apprentissage. Les flèches centrées sur les cases du labyrinthe indiquent les commandes associées à un marquage maximum strictement positif. Dans le cas où une case ne possède pas de flèche, cela signifie que le marquage associé à chacune des commandes issues de cette case est inférieur ou égal à 0. Lorsque plusieurs flèches sont issues du centre d'une case, plusieurs commandes possèdent un marquage maximum, donc plusieurs commandes sont susceptibles d'être exécutées par l'algorithme de choix de la commande. Le graphe (b) est issu du même apprentissage que le graphe (a). Il montre, pour chacun des états, la valeur du marquage qui lui est associé. Le graphe (c) montre l'exploration des états du système après l'apprentissage montré par les graphes (a) et (b). Les flèches centrées sur les cases indiquent que les commandes correspondantes ont été essayées au moins une fois. Les graphes de type (a) ou (c) ayant le même aspect, nous préciserons à chaque fois s'ils représentent la politique de commande ou l'exploration de l'espace d'états. |