next up previous contents
suivant: 3 Modélisation du problème monter: 1 Problème de respect précédent: 1 Introduction   Table des matières

2 Contexte et notations

Soit un ensemble de signaux perceptifs X1, X2,..., Xp, dont les valeurs sont comprises dans l'intervalle [0,1]. Nous supposons que l'entité possède, à tout moment, une information binaire r (signal de renforcement), indiquant si elle respecte ses contraintes (r=0) ou si elle ne les respecte pas (r=-1). On fait l'hypothèse que ces contraintes peuvent s'exprimer grâce à des conditions sur la valeur des signaux perceptifs.
D'autre part, on considère que l'entité possède un ensemble fini A d'actions: A = {a1, a2,..., aq}. Ces actions lui permettent d'agir sur son environnement.
Enfin, on considère un ensemble fini d'états e1, e2,..., en spécifiés a priori, plus un état ``terminal'' eT. On suppose qu'il existe un mécanisme permettant, à partir de la valeur des signaux perceptifs X1, X2,..., Xp, de déterminer exactement, à chaque instant t, l'état dans lequel le système se trouve. Nous précisons que l'objet de cette section n'est pas d'expliciter ce mécanisme 42. Lorsque r vaut 0, le système se trouve dans un des états e1, e2,..., en, alors que si r vaut -1, le système se trouve dans l'état eT.
L'objectif de l'apprentissage est de découvrir une ou des séquences d'actions permettant d'éviter l'état terminal eT à tout moment. Pour cela, nous nous proposons d'établir un algorithme de marquage binaire des différents états du système. Bien que le choix d'un marquage binaire puisse apparaître extrêmement rudimentaire, nous montrerons qu'il peut s'avérer efficace (dans des cas précis).


next up previous contents
suivant: 3 Modélisation du problème monter: 1 Problème de respect précédent: 1 Introduction   Table des matières
Frédéric Davesne 2001-07-13