[Retour au sommaire] [suivant] [précédent]



1.1.4. Apprentissage par renforcement

Un problème fondamental que posent les méthodes précédentes est l'aspect global de l'apprentissage qui rend difficile l'introduction de connaissance a priori et quasi-impossible l'incrémentalité de l'apprentissage. Il faut que toutes les situations potentielles auxquelles aura à faire face le réseau au cours de son " existence " aient été présentes dans la base d'apprentissage. Il est clair que, face à des problèmes complexes, il est beaucoup plus judicieux de pouvoir apprendre progressivement, de façon incrémentale. Les techniques d'apprentissage par renforcement sont une des rares voies pouvant déboucher sur cette propriété. Mais ces techniques, qu'elles soient basées sur les méthodes d'AHC ou de Q- Learning, souffrent d'une explosion de l'espace de recherche (états et actions) qui est un sérieux handicap pour traiter des problèmes de taille réaliste. C'est pourquoi nous avons repris le problème à la base et travaillons actuellement [DAV-T] sur la minimisation de l'espace de travail, en le construisant au fur et à mesure de l'évolution du système. De bons résultats, obtenus avec un renforcement immédiat, doivent maintenant être confirmés pour des renforcements retardés. Le champ potentiel d'applications de cette approche est très vaste. Les premiers domaines envisagés concernent la fusion de comportements élémentaires pour la navigation d'un robot mobile [DAV99S] et la coopération de plusieurs robots pour l'exécution d'une tâche complexe.



[Retour au sommaire] [suivant] [précédent]