Genèse de l'algorithme CbL - utilisation de notre méthodologie

suivant: Guide de ce chapitre monter: Introduction précédent: Idée directrice du chapitre Table des matières

Genèse de l'algorithme CbL - utilisation de notre méthodologie

Nous allons mettre en pratique la méthodologie que nous avons expliquée dans l'avant-propos (paragraphe 2.3, page

). Notre algorithme d'apprentissage se nomme CbL, pour ``Constraint based Learning''. Le terme ``Constraint'' de l'acronyme CbL nomme la particularité de l'algorithme. L'idée directrice est de rechercher un ensemble de contraintes à appliquer au système, qui devront être respectées à chaque pas de temps. Le système est le graphe d'états associé à la dynamique du problème. Les contraintes s'appliquent donc au niveau des états et des transitions de ce graphe, sur la qualité qui leur est associée .
L'interaction du système avec l'environnement va induire des modifications sur certaines des qualités, qui pouront provoquer une rupture transitoire du respect des contraintes du système. En réaction à cela, ce changement de marquage sera propagé sur une partie du graphe de manière à rétablir le respect des contraintes sur l'ensemble du graphe. C'est cette réaction du système à l'environnement qui sera appelée apprentissage. Il faut bien souligner que cette réaction a pour unique objectif de rétablir le respect des contraintes. Le fait que le système puisse développer une politique de commande intéressante (vis-à-vis de l'objectif sous-tendu par le signal de renforcement) en utilisant les qualités associées aux états du graphe doit être une propriété émergente du respect de ces contraintes.
Dans la section suivante, nous spécifions la nature de l'interaction du système avec son environnement, ainsi qu'une catégorie de contraintes. À partir de leur connaissance, nous prouverons l'existence de quelques propriétés émergentes, que nous pourrons interpréter comme des capacités d'apprentissage.

suivant: Guide de ce chapitre monter: Introduction précédent: Idée directrice du chapitre Table des matières

2002-03-01