suivant: Contraintes du système subissant
monter: Description de l'algorithme CbL
précédent: Notations
  Table des matières
Marquage des états du système
L'objectif de l'apprentissage est de découvrir une ou des séquences
d'actions permettant d'éviter l'état terminal
à tout moment,
pour parvenir à l'état
. Pour cela, nous nous proposons d'établir
un algorithme de marquage utilisant un ensemble fini de symboles S,
comprenant au moins les trois symboles 0,1 et -1, pour marquer les états
du système. Bien que le choix d'un ensemble de marquages fini puisse apparaître
rudimentaire, nous montrerons que cela est suffisant si la propriété
(
) est respectée.
Les états
et
possèdent un marquage fixe (respectivement
égal aux symboles 1 et -1). Le marquage associé aux autres états
(les
et les
) va être déterminé au cours de l'apprentissage
et sera égal à l'un des symboles de S.
L'idée pour fixer le marquage des états est de rétro-propager les
valeurs des états terminaux par l'intermédiaire des transitions
existantes. Ce mécanisme va être fondé sur l'existence d'un
invariant structurel décrit dans le paragraphe qui suit.
2002-03-01