suivant: Algorithmes de sélection
monter: Conclusion générale des deux
précédent: Méthodologie
  Table des matières
Le cadre applicatif de notre méthodologie est l'établissement d'un
algorithme d'apprentissage d'actions réflexes ayant des propriétés
de fiabilité et de prédictibilité. Nous avons découpé
l'apprentissage en deux étapes:
- l'apprentissage d'objectif (AO), dont la nature est
comparable à celle des techniques d'apprentissage par renforcement
- l'apprentissage perceptif (AP), dont l'objectif est de
fournir un contexte d'apprentissage à l'AO, à partir duquel on a
montré des propriétés de fiabilité et de prédictibilité de l'algorithme d'AO
Nous avons appliqué notre méthodologie avec succès pour établir
un algorithme d'AO, nommé CbL pour Constraint based Learning,
qui ne possède aucun paramètre interne. Nous avons pu prouver que
si la topologie des états du système respecte une certaine contrainte,
nommée (
), alors CbL répond à nos exigences en termes de
prédictibilité et de fiabilité. En outre, dans ce contexte idéal,
l'algorithme CbL montre des performances très supérieures à celle de
la technique du Q-Learning, qui est un algorithme d'apprentissage par
renforcement classique.
L'objectif de l'AP est de fournir, d'une manière fiable, ce contexte
idéal à l'AO, ce qui garantirait la fiabilité du système d'apprentissage
AP+AO, quelle que soit l'interaction du système avec son environnement.
Le processus sécrété par l'AP est appelé processus de catégorisation:
il s'agit d'une fonctionnalité de bas niveau qui traite un signal d'entrée
(provenant de données capteur, par exemple) et qui transmet ce que nous
avons dénommé une information perceptive à l'AO. Notre modélisation
du processus de catégorisation est basée sur les caractéristiques avérées
ou supposées de la perception humaine. Son moteur est un mécanisme de
sélection prédictif, qui filtre des hypothèses d'évolution possibles du
signal sur une plage de temps donnée. Le filtrage consiste à valider ou
invalider, dans le temps, un ensemble d'hypothèses qui constitue ce que
nous appelons la mémoire du système. Le mécanisme de validation
est déterministe et repose sur un paramètre interne à l'hypothèse. La
mémoire possède des caractéristiques prédictives, qui peuvent s'appliquer
simultanément sur plusieurs échelles de temps. Ainsi, le modèle du processus
de catégorisation peut être relié à des techniques existantes du traitement
du signal.
Nous avons utilisé notre méthodologie afin de contraindre les
paramètres internes de la mémoire, de manière à ce que
l'information perceptive détectée soit fiable. Pour cela, nous
supposons que celle-ci possède une caractéristique de rareté, que
nous définissons au début de notre document (cela constitue la
contrainte d'observabilité (CO)). Dans le cas de mémoires simples,
nous avons montré théoriquement que les paramètres de la mémoire
peuvent être effectivement contraints de manière à ce que
l'information perceptive soit fiable.
suivant: Algorithmes de sélection
monter: Conclusion générale des deux
précédent: Méthodologie
  Table des matières
2002-03-01