Peu de chercheurs ont focalisé leur attention sur la cohérence
entre la partie ``catégorisation'' et la partie ``décision''
dans la problématique de la robotique mobile. Toutefois, il faut
mentionner l'architecture PerAc (pour Perception Action), élaboré par
Gaussier
[Gaussier et Zrehen, 1995], qui est dédiée à cette problématique.
Il est inspiré de l'étude du vivant et tient sa cohérence de l'utilisation
de réseaux de neurones de même nature dans chacune des deux parties. Sa
modularité lui permet d'être opérationnel pour un nombre varié de tâches
(localisation non métrique, planification, association forme visuelle/action).
Néanmoins, le problème d'association perception/catégorie (modules VI, pour
Visual Input, et VO pour Visual Output) n'est pas totalement traité
automatiquement: la focalisation sur des repères distinctifs intéressants
du panorama récupéré par la caméra du robot s'effectue à partir de critères
fixés a priori [Gaussier et al., 1997], ce qui semble convenir à une
application où le robot se situe dans un environnement d'intérieur, mais
qui, dans l'absolu, limite l'étendue de fonctionnement du système.
Face à la problématique de la double association
perception/état et état/action, nous choisissons une position
radicale. L'objectif de notre recherche à long terme est de
déterminer un système global subissant un double
apprentissage perception/état et état/action, possédant les trois
caractéristiques suivantes:
l'association état/action s'effectue grâce à un signal de renforcement
les hypothèses nécessaires à l'apprentissage de l'association
état/action sont satisfaites lorsque l'apprentissage perception/état est réussi
les hypothèses nécessaires à l'apprentissage de l'association
perception/état sont assez générales pour qu'elles ne soient pas
limitantes dans le cadre d'une application réelle
Cela suppose l'existence d'un apprentissage en deux étapes
(voir la figure 1), que nous nommerons dans la suite
du document apprentissage perceptif (AP) (association perception/état)
et apprentissage d'objectif (AO). Le processus de catégorisation appris
par l'AP est une fonctionnalité de bas niveau. Pour être plus précis, il se
situe dans la partie inférieure du modèle de Rasmussen (comportements basés
sur les réflexes) [Rasmussen, 1986], plus exactement au niveau du processus
d'extraction des caractéristiques, directement connecté aux capteurs (voir la
figure 2). Les informations sortant de la partie ``extraction
des caractéristiques'' sont des catégories. De plus, les signaux sensoriels
comprennent également des signaux internes au système: des signaux moteurs et
des signaux de renforcement.
Figure:
Les deux étapes de l'apprentissage d'actions réflexes
L'apprentissage perceptif a pour rôle de construire le processus
de catégorisation, qui fournit par la suite des données fiables
permettant la réalisation de l'apprentissage d'objectif.
Figure:
Modèle de Rasmussen
La formalisation de notre problématique va dépendre des hypothèses que
nous aurons choisies à l'entrée des deux sous-systèmes d'apprentissage.
De ce point de vue, notre démarche est originale et ambitieuse, car elle
ne vise pas à adapter une formalisation existante (comme c'est la cas pour
l'AR), mais à créer une formalisation compatible avec des hypothèses
réalistes et générales par rapport à une problématique de robotique mobile.
La conséquence attendue d'une telle démarche est l'obtention
d'un système soumis à un apprentissage dont on a la preuve qu'il
converge presque sûrement vers une solution ``intéressante'', en
pratique, dans le cadre des applications de robotique mobile.
Dans ce cas, on pourrait garantir la fiabilité du système
englobant les deux associations
perception/état et état/action.
Pour parvenir à ce résultats, nous procédons par étapes:
nous créons un modèle paramétrique à deux étages, inspirés de
considérations issues du vivant.
pour déterminer la dynamique du système (modification des paramètres
internes du modèle), nous nous astreignons à respecter une méthodologie
proche de celle qui est employée en physique pour étudier l'évolution d'un
système soumis à un ensemble de forces (principe d'action et de réaction).
Nous supposons que les sous-systèmes sont soumis à des contraintes
internes qui doivent être respectées à tout moment (invariants traduisant
l'équilibre système+environnement). La modification de chacun des deux
sous-systèmes est déduite de l'interaction avec leur environnement respectif,
ayant tendance à rompre les contraintes internes.
l'étude (par le calcul) de l'ensemble des modifications possibles
des deux sous-systèmes, dues au respect des contraintes de ceux-ci, fait
apparaître des ensembles de modifications pouvant être interprétées
a posteriori comme des apprentissages. Or, ces modifications sont
directement associées à des ensemble d'environnements, qu'on peut étiqueter
comme ``apprenables''. Les hypothèses restrictives appliquées à chacun
des deux sous-systèmes caractérisent l'ensemble de ces environnements apprenables.
Le coeur de notre problématique est donc de déterminer de ``bons''
sous-systèmes d'AO et d'AP, associés à de ``bonnes'' contraintes.
Les hypothèses restrictives sont déduites par le calcul de
ces deux données.
suivant:Travail de thèse monter:Problématique précédent:Constats
  Table des matières
2002-03-01