next up previous contents
suivant: 4 Détermination de la monter: 1 Problème de respect précédent: 2 Contexte et notations   Table des matières


3 Modélisation du problème

Au début de l'apprentissage, on suppose qu'il n'existe aucune transition entre les états du système et que ceux-ci sont tous marqués à 1, à l'exception de l'état terminal qui est marqué à 0. Par cela, nous signifions que chaque état perceptif peut être exploré a priori. Au cours de l'expérience de l'entité, celle-ci va découvrir les transitions existant entre les états (qui dépendent de la dynamique du problème); certaines d'entre-elles peuvent atteindre l'état terminal eT (figure 4.1). Dans notre modèle, c'est la découverte d'une nouvelle transition qui permettra de modifier, grâce à une loi de cohérence entre états ``voisins'', le marquage des états. L'objectif de ce marquage est d'éviter des choix d'actions pouvant mener à l'état eT (même si cela est statistiquement peu fréquent).
Le problème lié au marquage des états provient de l'ignorance a priori de l'effet des actions sur le passage d'un état à l'autre (on suppose qu'on ne possède pas de modèle de la dynamique du problème). Nous allons considérer que, dans ce cadre, le choix de l'action peut être vu comme un problème de prise de décision associé à un jeu à deux joueurs: un joueur serait le système (qui possède, à chaque pas de temps, q coups possibles), alors que l'autre joueur serait la dynamique du système. À chaque instant, l'objectif du système est d'empêcher son adversaire (la dynamique) de le pousser vers l'état terminal, ce qui signifierait la perte de la partie (échec du respect des contraintes).
Pour cela, nous avons besoin de constituer un graphe d'exploration des possibilités du ``joueur'' système, pour qu'il puisse sélectionner l'action la plus profitable pour lui. Dans ce cadre, nous allons considérer que, au moment où le système choisit l'action ak à entreprendre, alors qu'il est dans l'état ej, il passe dans un état transitoire que nous nommerons ej, k. Notre graphe est donc enrichi d'un ensemble d'états liant un état perceptif et une action entreprise par le système dans cet état (figure 4.2).


next up previous contents
suivant: 4 Détermination de la monter: 1 Problème de respect précédent: 2 Contexte et notations   Table des matières
Frédéric Davesne 2001-07-13