suivant: Guide de ce chapitre
monter: Introduction
précédent: Idée directrice du chapitre
  Table des matières
Nous allons mettre en pratique la méthodologie que nous avons
expliquée dans l'avant-propos (paragraphe 2.3, page
). Notre algorithme d'apprentissage se nomme CbL,
pour ``Constraint based Learning''. Le terme ``Constraint'' de l'acronyme
CbL nomme la particularité de l'algorithme. L'idée directrice est de
rechercher un ensemble de contraintes à appliquer au système, qui devront
être respectées à chaque pas de temps. Le système est le graphe d'états
associé à la dynamique du problème. Les contraintes s'appliquent donc au
niveau des états et des transitions de ce graphe, sur la qualité qui leur
est associée
.
L'interaction du système avec l'environnement va induire des
modifications sur certaines des qualités, qui pouront provoquer une
rupture transitoire du respect des contraintes du système. En réaction
à cela, ce changement de marquage sera propagé sur une partie du graphe
de manière à rétablir le respect des contraintes sur l'ensemble du graphe.
C'est cette réaction du système à l'environnement qui sera appelée
apprentissage. Il faut bien souligner que cette réaction a
pour unique objectif de rétablir le respect des contraintes. Le fait
que le système puisse développer une politique de commande intéressante
(vis-à-vis de l'objectif sous-tendu par le signal de renforcement) en
utilisant les qualités associées aux états du graphe doit être une
propriété émergente du respect de ces contraintes.
Dans la section suivante, nous spécifions la nature de
l'interaction du système avec son environnement, ainsi qu'une
catégorie de contraintes. À partir de leur connaissance, nous
prouverons l'existence de quelques propriétés émergentes, que nous
pourrons interpréter comme des capacités d'apprentissage.
suivant: Guide de ce chapitre
monter: Introduction
précédent: Idée directrice du chapitre
  Table des matières
2002-03-01