next up previous contents
suivant: Algorithmes de sélection monter: Conclusion générale des deux précédent: Méthodologie   Table des matières

Résultats théoriques

Le cadre applicatif de notre méthodologie est l'établissement d'un algorithme d'apprentissage d'actions réflexes ayant des propriétés de fiabilité et de prédictibilité. Nous avons découpé l'apprentissage en deux étapes:
  1. l'apprentissage d'objectif (AO), dont la nature est comparable à celle des techniques d'apprentissage par renforcement
  2. l'apprentissage perceptif (AP), dont l'objectif est de fournir un contexte d'apprentissage à l'AO, à partir duquel on a montré des propriétés de fiabilité et de prédictibilité de l'algorithme d'AO
Nous avons appliqué notre méthodologie avec succès pour établir un algorithme d'AO, nommé CbL pour Constraint based Learning, qui ne possède aucun paramètre interne. Nous avons pu prouver que si la topologie des états du système respecte une certaine contrainte, nommée ( $ P_{\epsilon }$), alors CbL répond à nos exigences en termes de prédictibilité et de fiabilité. En outre, dans ce contexte idéal, l'algorithme CbL montre des performances très supérieures à celle de la technique du Q-Learning, qui est un algorithme d'apprentissage par renforcement classique.
L'objectif de l'AP est de fournir, d'une manière fiable, ce contexte idéal à l'AO, ce qui garantirait la fiabilité du système d'apprentissage AP+AO, quelle que soit l'interaction du système avec son environnement. Le processus sécrété par l'AP est appelé processus de catégorisation: il s'agit d'une fonctionnalité de bas niveau qui traite un signal d'entrée (provenant de données capteur, par exemple) et qui transmet ce que nous avons dénommé une information perceptive à l'AO. Notre modélisation du processus de catégorisation est basée sur les caractéristiques avérées ou supposées de la perception humaine. Son moteur est un mécanisme de sélection prédictif, qui filtre des hypothèses d'évolution possibles du signal sur une plage de temps donnée. Le filtrage consiste à valider ou invalider, dans le temps, un ensemble d'hypothèses qui constitue ce que nous appelons la mémoire du système. Le mécanisme de validation est déterministe et repose sur un paramètre interne à l'hypothèse. La mémoire possède des caractéristiques prédictives, qui peuvent s'appliquer simultanément sur plusieurs échelles de temps. Ainsi, le modèle du processus de catégorisation peut être relié à des techniques existantes du traitement du signal.
Nous avons utilisé notre méthodologie afin de contraindre les paramètres internes de la mémoire, de manière à ce que l'information perceptive détectée soit fiable. Pour cela, nous supposons que celle-ci possède une caractéristique de rareté, que nous définissons au début de notre document (cela constitue la contrainte d'observabilité (CO)). Dans le cas de mémoires simples, nous avons montré théoriquement que les paramètres de la mémoire peuvent être effectivement contraints de manière à ce que l'information perceptive soit fiable.
next up previous contents
suivant: Algorithmes de sélection monter: Conclusion générale des deux précédent: Méthodologie   Table des matières
2002-03-01