next up previous contents
suivant: Travail de thèse monter: Problématique précédent: Constats   Table des matières

Orientation de la recherche

Peu de chercheurs ont focalisé leur attention sur la cohérence entre la partie ``catégorisation'' et la partie ``décision'' dans la problématique de la robotique mobile. Toutefois, il faut mentionner l'architecture PerAc (pour Perception Action), élaboré par Gaussier
[Gaussier et Zrehen, 1995], qui est dédiée à cette problématique. Il est inspiré de l'étude du vivant et tient sa cohérence de l'utilisation de réseaux de neurones de même nature dans chacune des deux parties. Sa modularité lui permet d'être opérationnel pour un nombre varié de tâches (localisation non métrique, planification, association forme visuelle/action). Néanmoins, le problème d'association perception/catégorie (modules VI, pour Visual Input, et VO pour Visual Output) n'est pas totalement traité automatiquement: la focalisation sur des repères distinctifs intéressants du panorama récupéré par la caméra du robot s'effectue à partir de critères fixés a priori [Gaussier et al., 1997], ce qui semble convenir à une application où le robot se situe dans un environnement d'intérieur, mais qui, dans l'absolu, limite l'étendue de fonctionnement du système.
Face à la problématique de la double association perception/état et état/action, nous choisissons une position radicale. L'objectif de notre recherche à long terme est de déterminer un système global subissant un double apprentissage perception/état et état/action, possédant les trois caractéristiques suivantes:
  1. l'association état/action s'effectue grâce à un signal de renforcement
  2. les hypothèses nécessaires à l'apprentissage de l'association état/action sont satisfaites lorsque l'apprentissage perception/état est réussi
  3. les hypothèses nécessaires à l'apprentissage de l'association perception/état sont assez générales pour qu'elles ne soient pas limitantes dans le cadre d'une application réelle
Cela suppose l'existence d'un apprentissage en deux étapes (voir la figure 1), que nous nommerons dans la suite du document apprentissage perceptif (AP) (association perception/état) et apprentissage d'objectif (AO). Le processus de catégorisation appris par l'AP est une fonctionnalité de bas niveau. Pour être plus précis, il se situe dans la partie inférieure du modèle de Rasmussen (comportements basés sur les réflexes) [Rasmussen, 1986], plus exactement au niveau du processus d'extraction des caractéristiques, directement connecté aux capteurs (voir la figure 2). Les informations sortant de la partie ``extraction des caractéristiques'' sont des catégories. De plus, les signaux sensoriels comprennent également des signaux internes au système: des signaux moteurs et des signaux de renforcement.

Figure: Les deux étapes de l'apprentissage d'actions réflexes
\includegraphics[]{fig/etapes.eps}
L'apprentissage perceptif a pour rôle de construire le processus de catégorisation, qui fournit par la suite des données fiables permettant la réalisation de l'apprentissage d'objectif.

Figure: Modèle de Rasmussen
\includegraphics[]{fig/rasmussen.eps}

La formalisation de notre problématique va dépendre des hypothèses que nous aurons choisies à l'entrée des deux sous-systèmes d'apprentissage. De ce point de vue, notre démarche est originale et ambitieuse, car elle ne vise pas à adapter une formalisation existante (comme c'est la cas pour l'AR), mais à créer une formalisation compatible avec des hypothèses réalistes et générales par rapport à une problématique de robotique mobile.
La conséquence attendue d'une telle démarche est l'obtention d'un système soumis à un apprentissage dont on a la preuve qu'il converge presque sûrement vers une solution ``intéressante'', en pratique, dans le cadre des applications de robotique mobile. Dans ce cas, on pourrait garantir la fiabilité du système englobant les deux associations perception/état et état/action.
Pour parvenir à ce résultats, nous procédons par étapes:
  1. nous créons un modèle paramétrique à deux étages, inspirés de considérations issues du vivant.
  2. pour déterminer la dynamique du système (modification des paramètres internes du modèle), nous nous astreignons à respecter une méthodologie proche de celle qui est employée en physique pour étudier l'évolution d'un système soumis à un ensemble de forces (principe d'action et de réaction). Nous supposons que les sous-systèmes sont soumis à des contraintes internes qui doivent être respectées à tout moment (invariants traduisant l'équilibre système+environnement). La modification de chacun des deux sous-systèmes est déduite de l'interaction avec leur environnement respectif, ayant tendance à rompre les contraintes internes.
  3. l'étude (par le calcul) de l'ensemble des modifications possibles des deux sous-systèmes, dues au respect des contraintes de ceux-ci, fait apparaître des ensembles de modifications pouvant être interprétées a posteriori comme des apprentissages. Or, ces modifications sont directement associées à des ensemble d'environnements, qu'on peut étiqueter comme ``apprenables''. Les hypothèses restrictives appliquées à chacun des deux sous-systèmes caractérisent l'ensemble de ces environnements apprenables.
Le coeur de notre problématique est donc de déterminer de ``bons'' sous-systèmes d'AO et d'AP, associés à de ``bonnes'' contraintes. Les hypothèses restrictives sont déduites par le calcul de ces deux données.
next up previous contents
suivant: Travail de thèse monter: Problématique précédent: Constats   Table des matières
2002-03-01