Convergence et prédictibilité de l'algorithme CbL

suivant: Utilisation de l'algorithme CbL() monter: Résultats théoriques concernant l'algorithme précédent: Exploration de l'espace d'états Table des matières

Convergence et prédictibilité de l'algorithme CbL

Le problème de la convergence de l'algorithme d'apprentissage est facilement réglé. En effet, seul l'ajout d'une transition dans le graphe d'états peut modifier la valeur des marquages. Si le nombre d'états est fixé, le nombre de transitions est forcément fini et, lorsque chacune des transitions possibles a été explorée, les marquages n'évoluent plus. Nous pouvons même préciser que la convergence a lieu en temps fini: ce temps est majoré par le temps qu'il faudrait pour visiter l'ensemble des états atteignables du système en exécutant une action au hasard, à chaque pas de temps.
La réelle difficulté est de connaître la nature du résultat de l'apprentissage. La proposition 1 donne l'existence d'un lien fonctionnel entre un graphe d'états déterminé (états de type $e_{i}$ et $e_{i,k}$ , transitions, et états terminaux $E_{E}$ et $E_{S}$ ) et le marquage associé aux états (sous les hypothèses restrictives évoquées pour l'obtention d'un ensemble unique de marquages). Ainsi, si deux apprentissages distincts conduisent à deux graphes d'états identiques, la proposition 1 prouve que les marquages obtenus sont également identiques. La sous-section précédente précise que lorsque l'algorithme d'apprentissage trouve une politique de commande dont l'expérience n'a pas mis en défaut la fiabilité, celle-ci est invariablement répétée. Or, il peut exister plusieurs politiques fiables et la découverte d'une d'entre-elles dépend du tirage aléatoire entre deux commandes de même qualité. Dans ce contexte, il faut abandonner l'idée que l'algorithme peut converger vers une politique de commande unique. Par contre, on peut montrer la proposition suivante:

Proposition _s Pour un ensemble d'états donné, il existe un ensemble d'associations état/commande formant une politique de commande fiable (en terme d'objectif ou de viabilité) si et seulement si l'algorithme d'apprentissage CbL découvre une politique de commande fiable. Ce résultat est valable dans la mesure où les contraintes associées à la proposition 1 sont satisfaites.

La preuve de cette proposition est directement déduite de la proposition 5. Ce résultat est intéressant car il rend l'algorithme CbL prédictible, dans le sens où on sait que si aucune politique fiable n'est découverte, alors il n'en existe pas, du moins en utilisant l'ensemble d'états spécifié a priori. Le fait qu'il existe une politique fiable et qu'aucune n'est trouvée grâce à CbL signifie que les contraintes d'utilisation de l'algorithme ne sont pas satisfaites.

suivant: Utilisation de l'algorithme CbL() monter: Résultats théoriques concernant l'algorithme précédent: Exploration de l'espace d'états Table des matières

2002-03-01