next up previous contents
suivant: Orientation de la recherche monter: Problématique précédent: Contexte de la recherche   Table des matières

Constats

L'apprentissage par renforcement (AR) offre un cadre théorique d'optimisation (issu de la Programmation Dynamique [Bellman, 1957]) possèdant des preuves de convergence
[Dayan et Sejnowski, 1994]. Si l'hypothèse markovienne est respectée par le problème de décision perception/action, la théorie montre que l'apprentissage converge (en temps infini) vers une politique de commande optimale. Mais, en pratique, deux difficultés majeures apparaissent. Ainsi, l'hypothèse markovienne n'est, en général, pas respectée dans les problèmes de robotique mobile. D'autre part, la construction de la séquence de commandes permettant d'atteindre l'objectif d'une manière optimale s'effectue en utilisant une première séquence, trouvée par hasard (phase d'exploration): si la probabilité de trouver cette première solution est trop faible, alors la durée de la phase d'exploration est prohibitive et la gestion du dilemme exploration/exploitation est délicate.
Ce constat est connu depuis quelques années. Certains chercheurs ont donné des conséquences possibles d'un non respect de l'hypothèse markovienne: [Bersini et Gorrini, 1996] montre que le réglage des paramètres propres à l'algorithme d'AR peut être délicat, alors que [Pendrith, 1994] souligne l'instabilité des méthodes d'AR dans le cadre applicatif de la robotique mobile.
D'un point de vue pratique, le non respect des hypothèses ne garantit plus, en général, la convergence de la politique de commande vers une politique optimale, ni même vers une politique sous-optimale: la convergence vers une ``bonne'' solution peut alors être considérée comme une chance. Par conséquent, on ne peut, a priori, ni garantir la fiabilité de la solution obtenue après apprentissage, ni même associer une notion de prédictibilité à l'algorithme d'AR.
Le nombre impressionnant de variantes des méthodes de base d'AR (AHC ou Q-Learning) montre que la recherche en AR est très active et qu'elle tente de résoudre les deux types de difficultés que nous avons évoquées: l'hypothèse markovienne et la durée de l'apprentissage. Dans le premier cas, on a utilisé une modélisation par chaînes de Markov cachées, lorsque les états du système ne sont pas directement observables [Wiering et Schmidhuber, 1997]: l'objectif final est de se ramener à un problème markovien, qu'on sait résoudre. Cependant, cette démarche n'est pas nécessairement directement exploitable en robotique mobile. D'un autre coté, on peut accélérer l'apprentissage en le guidant (signal de renforcement continu, introduction de connaissances a priori sur le problème [*]).
Par conséquent, l'idée générale est de se ramener à un problème markovien. Comme nous l'avons déjà indiqué, il est très difficile, voire impossible, de savoir a priori si l'hypothèse markovienne est respectée en pratique, en robotique mobile. Or, pourquoi n'est-elle pas respectée ? L'inertie du robot, l'imperfection ou la multiplicité des données capteurs sont des causes possibles. Ainsi, le point délicat, en pratique, est la manière dont on va associer les valeurs des capteurs (instantanées ou prises au cours du temps) à des états internes du robot. Ce point ne concerne pas, en général, le théoricien en AR: son travail débute lorsque l'état du système lui est fourni. Par contre, il concerne de très près le concepteur d'un robot mobile réel, s'il souhaite utiliser une technique d'AR. Ainsi, le choix d'une bonne association perception/état est un pré-requis indispensable pour que l'algorithme d'AR puisse fonctionner correctement: dans la suite de ce document, nous nommerons ce pré-requis ``contexte d'apprentissage''.
La problématique de l'association perception/état est, au bout du compte, assez comparable à celle de l'association perception/symbole, dont Harnad a montré les difficultés. Le fait de construire a priori un ensemble d'états internes du robot revient à désigner par avance l'ensemble des symboles utilisables dans un problème de reconnaissance. Les possibilités qui s'offrent au concepteur sont les suivantes: Pour le deuxième point , on utilise des heuristiques de découpage (voir, par exemple,
[Munos, 1997]). D'autre part, Touzet a utilisé les cartes auto-organisatrices de Kohonen [Kohonen, 2001] pour partitionner l'espace d'état [Touzet et al., 1995]. Mais, un des risques sous-jacents à l'ensemble de ces possibilités a été identifié par Whitehead [Whitehead, 1992] sous le nom d'aliasing perceptif: dans ce cas, le lien perception/action, déduit par transitivité du double lien perception/état et état/action, n'est pas une fonction en pratique. Le deuxième point est qu'aucune de ces méthodes n'a pour objectif de déterminer un ensemble d'états pour lequel le problème de décision associé respecte l'hypothèse markovienne. D'une certaine manière, les méthodes de catégorisation d'une part et d'AR d'autre part ne sont pas véritablement complémentaires.
next up previous contents
suivant: Orientation de la recherche monter: Problématique précédent: Contexte de la recherche   Table des matières
2002-03-01