next up previous contents
suivant: Lien entre incertitude, imprécision, monter: Cadre général de l'apprentissage précédent: Conditions de convergence des   Table des matières

Causes de difficultés dans l'utilisation des algorithmes d'AR

Dans les sous-sections précédentes, nous avons identifié les mécanismes de haut niveau des algorithmes d'AR et présenté le cadre général pour lequel des preuves de convergence ont été établies. En pratique, des difficultés peuvent apparaître dans les cas suivants: Nous allons développer brièvement les deux premiers points. Pour le dernier, le lecteur pourra se reporter à [Bersini et Gorrini, 1996].
Le premier point est lié au mécanisme d'exploration de l'espace d'états du système, intervenant au moment de choisir l'action à exécuter à l'instant t. Cette problématique est vaste et c'est un des enjeux actuels majeurs dans le domaine de l'AR: le lecteur pourra se reporter à [Wiering, 1999] pour un point de vue complet. En bref, si la nature du problème implique que la probabilité d'atteindre au hasard une solution relativement correcte (qu'on pourra optimiser par la suite) est très faible, le temps (qu'on peut compter en nombre d'essais) pour atteindre cette première solution peut être très important, rendant l'algorithme inutilisable en pratique. Or, dans un problème complexe, l'espace d'états est très souvent grand. Il faut donc guider l'apprentissage. Trois catégories de solutions peuvent être apportées pour réduire cette difficulté: L'hypothèse markovienne est théoriquement essentielle, puisque les résultats de convergence connus jusqu'à présent ne s'appliquent que sur des MDP. Nous rappelons ici que l'hypothèse markovienne impose que la probabilité $ p_{i,j}$ de passage d'un état i à un état j ne dépend que de i; cela signifie que les états du système antérieurement à son arrivée dans i n'interviennent pas dans le calcul de $ p_{i,j}$. Pratiquement, il est difficile de savoir a priori si le problème, en réalité, est ou n'est pas modélisable par un MDP. En effet, cela dépend principalement de deux catégories de facteurs: Le premier point est évident: les données d'entrée doivent être utilisable pour déduire les états du système, directement (modélisation par une chaîne de Markov) ou indirectement (modélisation par une chaîne de Markov cachée). Le second est moins immédiat. Il traduit la capacité de l'expérimentateur à créer un lien entre la réalité de l'expérience et le modèle théorique dont l'algorithme a besoin pour fonctionner correctement: ce lien se traduit précisément par la construction d'un contexte permettant ce bon fonctionnement; il utilise des connaissances a priori. Prenons l'exemple du problème du pendule inversé pour préciser notre pensée. Si l'objectif est de maintenir le pendule proche de l'équilibre et le chariot proche de son point d'origine, on fera en sorte que la majorité des états du système se trouvent dans cette zone d'équilibre. Mais le degré de cette concentration de l'information est contrebalancé par la qualité des données d'entrée du système (position angulaire et vitesse angulaire de la tige, position et vitesse du chariot): un bruit de mesure trop important rend inefficace une politique de regroupement de l'information, car il existe alors trop d'incertitude sur l'état dans lequel se trouve réellement le système, donc sur l'action correcte à exécuter.
Nos remarques soulignent l'importance du contexte de l'algorithme d'AR, c'est-à-dire de ce qui appartient au savoir-faire de l'expérimentateur. Ce contexte permet de rapprocher la réalité expérimentale et le modèle théorique et tourne autour de la spécification des états du système.
next up previous contents
suivant: Lien entre incertitude, imprécision, monter: Cadre général de l'apprentissage précédent: Conditions de convergence des   Table des matières
2002-03-01