suivant: Liste des figures
monter: Avant-propos
précédent: Introduction à la notion
  Table des matières
Ce document est composée de trois parties indépendantes.
La première partie traite de l'AO. Le chapitre 1
revient en détails, grâce à un exemple d'AR classique (le pendule inversé),
sur les résultats d'un ensemble non cohérent perception/état et état/action.
Il montre au lecteur qu'un algorithme d'apprentissage classique est soumis à
des incertitudes dont on ne maîtrise pas a priori les conséquences. Il
associe les performances d'algorithmes d'apprentissage d'atteinte d'un objectif
à une notion de la qualité du contexte d'apprentissage
qui dépend, en particulier, de la
manière dont l'expérimentateur gère la perception du système (association
perception/état). Une caractérisation d'un type de contexte ``favorable'',
appelé contexte idéal, est donnée. Dans ce contexte, un algorithme
d'apprentissage par renforcement, appelé CbL (pour Constraint based Learning),
est proposé. Nous montrons théoriquement qu'il satisfait nos exigences de fiabilité
et de prédictibilité, dans ce contexte idéal, ce qui induit une hypothèse
limitatrice de fonctionnement de CbL. Nous donnons deux exemples applicatifs:
un problème de navigation d'un robot miniature de type Khepera, ainsi qu'un
problème de type ``labyrinthe''. Cette étude est menée dans le chapitre 2.
Donc, à l'issue de cette première partie, nous obtenons un
algorithme satisfaisant nos exigences, en suivant un raisonnement
contraignant le système, et nous donnons trois idées importantes:
- En premier lieu, un système de catégorisation de la perception
conditionne le résultat d'un apprentissage d'atteinte d'objectif;
si ce système est mal adapté, les résultats seront médiocres.
- D'autre part, si un système de catégorisation est de
``bonne qualité'', l'apprentissage de l'atteinte d'un objectif est
une tâche dont le résultat est prédictible et fiable.
- Enfin, lorsqu'on fixe un système de catégorisation sans en
connaître la qualité (en le programmant ``à la main'', par
exemple), on ne maîtrise ni la prédictibilité du résultat de
l'algorithme d'apprentissage, ni la fiabilité du système obtenu
après apprentissage: cela est dû en particulier au fait qu'on peut
choisir des paramètres mal adaptés (ceux-ci n'étant pas
contraints) pour le problème précis à résoudre, ce qui peut faire
échouer l'apprentissage.
La deuxième partie du document est consacrée à l'étude du processus
de catégorisation (association perception/état)) et des contraintes
qui lui sont appliquées. L'AP sera abordé en guise de perspective
de notre travail. Notre étude porte essentiellement sur des
signaux mono-dimensionnels. Toutefois, nous proposons un fondement
possible d'un mécanisme général fusionnant ces signaux. Le chapitre
1 décrit le processus de catégorisation, introduit
les objets s'intégrant à ce processus et donne un algorithme de
sélection des hypothèses valides, qui n'utilise aucun paramètre
propre. Il exploite une entrée appelée ``mémoire'', qui est
constituée d'un ensemble d'hypothèses sur l'évolution future du
signal (mécanisme d'anticipation). Cette mémoire possède des
paramètres dont la valeur n'est pas précisée a priori:
ceux-ci caractérisent en particulier la nature et la ``forme''
des hypothèses.
Le chapitre suivant se focalise sur cette mémoire. Il montre que
l'ensemble des hypothèses doit respecter des contraintes (contrainte
d'observabilité (CO), contrainte d'unicité (CU)), ce qui permet alors
de donner une relation entre les paramètres des hypothèses. Savoir si
un ensemble (fini ou infini) d'hypothèses respecte les contraintes
(CO) et (CU) est un problème particulièrement difficile. Nous résolvons
mathématiquement le cas d'une mémoire réduite à une hypothèse. Nous
montrons dans ce cas que, si la mémoire est correctement construite,
la détection de l'information perceptive est fiable, même en
présence d'un taux de données aberrantes important; le cas d'une
fiabilité totale ne peut s'obtenir que si la durée d'observation est
infinie. Nous retrouvons en cela la démarche de Shannon dans sa
théorie de la transmission du signal. Nous montrons que, sous certaines
conditions (indépendance des hypothèses constituant la mémoire), les
calculs pour un ensemble fini se ramènent au cas unitaire. Enfin, nous
donnons des éléments numériques de preuve pour un exemple particulier
d'ensemble infini.
En guise de conclusion à ce chapitre et à cette partie, nous donnons
des voies de recherche possibles, permettant d'établir le mécanisme
de réaction de la mémoire, dont on suppose l'existence, qui pourrait
faire émerger l'AP.
Enfin, une troisième partie présente les aspects les plus
importants ayant contribué à l'élaboration de notre travail
préliminaire, dont les grandes lignes sont présentées dans la
section 2. Elle présente une réflexion
informelle que nous avons effectuée en guise de préalable au
travail que nous présentons dans les deux premières parties de ce
document. Nous y expliquons comment nous avons choisi notre voie
de recherche. Les axes de réflexion sont la cohérence de notre
approche au regard des sciences du vivant, ainsi que le
positionnement de notre démarche scientifique.
suivant: Liste des figures
monter: Avant-propos
précédent: Introduction à la notion
  Table des matières
2002-03-01