suivant: Apprentissage perceptif (AP) monter: Algorithme d'AO défini dans précédent: Résultats Table des matières

Conclusion

Nous avons construit un algorithme d'AO, appelé CbL pour Constraint based Learning, qui est fondé sur la réaction du système (qui est un graphe d'états possèdant chacun un marquage) à un ensemble de contraintes. Nous avons achevé l'ensemble des étapes de notre méthodologie:

choix d'une contrainte qui s'applique au système d'AO, qui est dérivée de l'algorithme minimax
découverte de la manière d'assurer le respect de cette contrainte à tout moment
preuve que l'interaction avec l'environnement peut s'interpréter comme un apprentissage
preuve que cet apprentissage est prédictible et que, s'il existe une solution à celui-ci, elle est fiable

Les caractéristiques de prédictibilité et de fiabilité sont donc émergentes à partir de la spécification de notre contrainte d'équilibre. L'adaptation du système à une modification de l'environnement est également une propriété de l'algorithme CbL. Cependant, l'ensemble de ces résultats n'est valable que si le contexte de l'AO est idéal (c'est-à-dire s'il vérifie $(P_{\epsilon})$ ). Mais, l'influence du contexte est ici limitée à la topologie des états du système. En effet, l'algorithme CbL ne comporte pas de paramètre susceptible de modifier le résultat de l'apprentissage.
Des exemples applicatifs simples appuient nos résultats théoriques. Nous montrons que l'algorithme CbL converge nettement plus rapidement que l'adatation $Q(\lambda )$ de l'algorithme du Q-Learning (10 fois pour un problème simple et beaucoup plus pour un problème plus complexe). D'autre part, nous en montrons l'incrémentalité. Lorsque la phase d'exploration est complète (toutes les transitions du graphe d'état ont été explorées au moins une fois), la politique de commande est optimale, sauf dans des cas très particuliers qui peuvent être surmontés.
La première partie de notre travail est donc achevée avec succès. Il nous reste à aborder la partie la plus délicate, concernant l'AP. Nous rappellons que l'objectif de celle-ci est de permettre la création d'un contexte idéal (au sens de la contrainte ( $P_{\epsilon }$ ) que nous avons définie dans le premier chapitre.

suivant: Apprentissage perceptif (AP) monter: Algorithme d'AO défini dans précédent: Résultats Table des matières

2002-03-01