2 Contexte et notations

suivant: 3 Modélisation du problème monter: 1 Problème de respect précédent: 1 Introduction Table des matières

2 Contexte et notations

Soit un ensemble de signaux perceptifs X₁, X₂,..., X_p, dont les valeurs sont comprises dans l'intervalle [0,1]. Nous supposons que l'entité possède, à tout moment, une information binaire r (signal de renforcement), indiquant si elle respecte ses contraintes (r=0) ou si elle ne les respecte pas (r=-1). On fait l'hypothèse que ces contraintes peuvent s'exprimer grâce à des conditions sur la valeur des signaux perceptifs.
D'autre part, on considère que l'entité possède un ensemble fini A d'actions: A = {a₁, a₂,..., a_q}. Ces actions lui permettent d'agir sur son environnement.
Enfin, on considère un ensemble fini d'états e₁, e₂,..., e_n spécifiés a priori, plus un état ``terminal'' e_T. On suppose qu'il existe un mécanisme permettant, à partir de la valeur des signaux perceptifs X₁, X₂,..., X_p, de déterminer exactement, à chaque instant t, l'état dans lequel le système se trouve. Nous précisons que l'objet de cette section n'est pas d'expliciter ce mécanisme ⁴². Lorsque r vaut 0, le système se trouve dans un des états e₁, e₂,..., e_n, alors que si r vaut -1, le système se trouve dans l'état e_T.
L'objectif de l'apprentissage est de découvrir une ou des séquences d'actions permettant d'éviter l'état terminal e_T à tout moment. Pour cela, nous nous proposons d'établir un algorithme de marquage binaire des différents états du système. Bien que le choix d'un marquage binaire puisse apparaître extrêmement rudimentaire, nous montrerons qu'il peut s'avérer efficace (dans des cas précis).

suivant: 3 Modélisation du problème monter: 1 Problème de respect précédent: 1 Introduction Table des matières

Frédéric Davesne 2001-07-13