suivant: 3 Modélisation du problème
monter: 1 Problème de respect
précédent: 1 Introduction
  Table des matières
Soit un ensemble de signaux perceptifs
X1, X2,..., Xp, dont les valeurs sont comprises dans l'intervalle [0,1]. Nous supposons que l'entité possède, à tout moment, une information binaire r (signal de renforcement), indiquant si elle respecte ses contraintes (r=0) ou si elle ne les respecte pas (r=-1). On fait l'hypothèse que ces contraintes peuvent s'exprimer grâce à des conditions sur la valeur des signaux perceptifs.
D'autre part, on considère que l'entité possède un ensemble fini A d'actions:
A = {a1, a2,..., aq}. Ces actions lui permettent d'agir sur son environnement.
Enfin, on considère un ensemble fini d'états
e1, e2,..., en spécifiés a priori, plus un état ``terminal'' eT. On suppose qu'il existe un mécanisme permettant, à partir de la valeur des signaux perceptifs
X1, X2,..., Xp, de déterminer exactement, à chaque instant t, l'état dans lequel le système se trouve. Nous précisons que l'objet de cette section n'est pas d'expliciter ce mécanisme 42. Lorsque r vaut 0, le système se trouve dans un des états
e1, e2,..., en, alors que si r vaut -1, le système se trouve dans l'état eT.
L'objectif de l'apprentissage est de découvrir une ou des séquences d'actions permettant d'éviter l'état terminal eT à tout moment. Pour cela, nous nous proposons d'établir un algorithme de marquage binaire des différents états du système. Bien que le choix d'un marquage binaire puisse apparaître extrêmement rudimentaire, nous montrerons qu'il peut s'avérer efficace (dans des cas précis).
suivant: 3 Modélisation du problème
monter: 1 Problème de respect
précédent: 1 Introduction
  Table des matières
Frédéric Davesne
2001-07-13