suivant: Orientation de la recherche
monter: Problématique
précédent: Contexte de la recherche
  Table des matières
L'apprentissage par renforcement (AR) offre un cadre théorique d'optimisation
(issu de la Programmation Dynamique [Bellman, 1957]) possèdant des preuves
de convergence
[Dayan et Sejnowski, 1994]. Si l'hypothèse markovienne est respectée
par le problème de décision perception/action, la théorie montre que l'apprentissage
converge (en temps infini) vers une politique de commande optimale. Mais,
en pratique, deux difficultés majeures apparaissent. Ainsi, l'hypothèse
markovienne n'est, en général, pas respectée dans les problèmes de robotique mobile.
D'autre part, la construction de la séquence de commandes permettant d'atteindre
l'objectif d'une manière optimale s'effectue en utilisant une première séquence,
trouvée par hasard (phase d'exploration): si la probabilité de trouver cette
première solution est trop faible, alors la durée de la phase d'exploration est
prohibitive et la gestion du dilemme exploration/exploitation est délicate.
Ce constat est connu depuis quelques années. Certains chercheurs ont donné
des conséquences possibles d'un non respect de l'hypothèse markovienne:
[Bersini et Gorrini, 1996] montre que le réglage des paramètres propres à l'algorithme
d'AR peut être délicat, alors que [Pendrith, 1994] souligne l'instabilité des
méthodes d'AR dans le cadre applicatif de la robotique mobile.
D'un point de vue pratique, le non respect des hypothèses ne garantit plus, en
général, la convergence de la politique de commande vers une politique optimale,
ni même vers une politique sous-optimale: la convergence vers une ``bonne''
solution peut alors être considérée comme une chance. Par conséquent, on ne
peut, a priori, ni garantir la fiabilité de la solution obtenue après
apprentissage, ni même associer une notion de prédictibilité à l'algorithme d'AR.
Le nombre impressionnant de variantes des méthodes de base d'AR (AHC ou Q-Learning)
montre que la recherche en AR est très active et qu'elle tente de résoudre les deux
types de difficultés que nous avons évoquées: l'hypothèse markovienne et la durée
de l'apprentissage. Dans le premier cas, on a utilisé une modélisation par chaînes
de Markov cachées, lorsque les états du système ne sont pas directement observables
[Wiering et Schmidhuber, 1997]: l'objectif final est de se ramener à un problème markovien, qu'on
sait résoudre. Cependant, cette démarche n'est pas nécessairement directement
exploitable en robotique mobile. D'un autre coté, on peut accélérer l'apprentissage
en le guidant (signal de renforcement continu, introduction de connaissances
a priori sur le problème
).
Par conséquent, l'idée générale est de se ramener à un problème markovien.
Comme nous l'avons déjà indiqué, il est très difficile, voire impossible, de savoir
a priori si l'hypothèse markovienne est respectée en pratique, en robotique
mobile. Or, pourquoi n'est-elle pas respectée ? L'inertie du robot, l'imperfection
ou la multiplicité des données capteurs sont des causes possibles. Ainsi, le
point délicat, en pratique, est la manière dont on va associer les valeurs des
capteurs (instantanées ou prises au cours du temps) à des états internes du robot.
Ce point ne concerne pas, en général, le théoricien en AR: son travail débute
lorsque l'état du système lui est fourni. Par contre, il concerne de très près
le concepteur d'un robot mobile réel, s'il souhaite utiliser une technique d'AR.
Ainsi, le choix d'une bonne association perception/état est un pré-requis
indispensable pour que l'algorithme d'AR puisse fonctionner correctement: dans
la suite de ce document, nous nommerons ce pré-requis ``contexte
d'apprentissage''.
La problématique de l'association perception/état est, au bout du
compte, assez comparable à celle de l'association
perception/symbole, dont Harnad a montré les difficultés. Le fait
de construire a priori un ensemble d'états internes du robot
revient à désigner par avance l'ensemble des symboles utilisables
dans un problème de reconnaissance. Les possibilités qui s'offrent
au concepteur sont les suivantes:
- construire l'association perception/état ``à la main''
- procéder par découpages successifs d'un espace d'état continu
initial en un ensemble de régions
- utiliser un algorithme d'apprentissage de catégorisation
Pour le deuxième point , on utilise des heuristiques de découpage
(voir, par exemple,
[Munos, 1997]). D'autre part, Touzet a
utilisé les cartes auto-organisatrices de Kohonen
[Kohonen, 2001] pour partitionner l'espace d'état
[Touzet et al., 1995]. Mais, un des risques sous-jacents à l'ensemble
de ces possibilités a été identifié par Whitehead
[Whitehead, 1992] sous le nom d'aliasing perceptif: dans
ce cas, le lien perception/action, déduit par transitivité du
double lien perception/état et état/action, n'est pas une fonction
en pratique. Le deuxième point est qu'aucune de ces méthodes n'a
pour objectif de déterminer un ensemble d'états pour lequel le
problème de décision associé respecte l'hypothèse markovienne.
D'une certaine manière, les méthodes de catégorisation d'une
part et d'AR d'autre part ne sont pas véritablement
complémentaires.
suivant: Orientation de la recherche
monter: Problématique
précédent: Contexte de la recherche
  Table des matières
2002-03-01