6 Capacités d'incrémentalité - Mise en place d'un ensemble de ``leçons''

suivant: 7 Utilité de l'apprentissage monter: 2 Exemple d'application: navigation précédent: 5 Évolution du comportement Table des matières

6 Capacités d'incrémentalité - Mise en place d'un ensemble de ``leçons''

Le changement d'environnement ne pose pas de problème (figure 4.8). Dans chacun des cas, le robot Khepera simulé finit par respecter l'intégralité de ses contraintes à chaque pas de temps. En effet, l'idée sous-tendant l'algorithme est que l'apprentissage consiste à intégrer une série de cas particuliers dans un ensemble gardant toujours sa cohérence en fonction de contraintes particulières. Le traitement d'un nouveau cas est effectué dès son apparition (ajout d'une nouvelle connexion dans le graphe perceptif) et peut produire un changement de la qualité de certains états du graphe perceptif. Lorsque ce cas se représentera, aucune modification des qualités ne se reproduira plus (pas d'ajout de connexion, celle-ci existant déjà).
Dans ce contexte, lorsque le robot est placé dans un nouvel environnement, un apprentissage à lieu si cet environnement comporte des cas perceptifs encore jamais rencontrés auparavant (exploration de nouveaux états ou découverte de nouvelles connexions entre des états déjà explorés). Il est important de noter que l'ajout d'un nouveau cas ne provoque pas l'oubli des cas déjà rencontrés: ainsi, si on replace le robot simulé dans un ancien environnement, le robot sera toujours capable de remplir ses contraintes, mais il le fera peut-être d'une manière plus ``prudente''.
Le problème est qu'on ne peut pas savoir si, à un moment donné, le robot simulé a expérimenté l'ensemble des cas perceptifs possibles. Il se peut que l'utilisation d'un environnement unique ne permette pas l'exhaustivité de cette expérience. Mais, nous pouvons utiliser la capacité à accumuler de l'expérience au contact de nouveaux cas perceptifs afin de transformer l'apprentissage en un ensemble d'''exercices'' successifs, obligeant le robot simulé à apprendre à réagir correctement à des catégories de problèmes particuliers, que l'expérimentateur juge pertinents. C'est ce que nous avons réalisé.
Nous avons découpé l'apprentissage d'un suivi de mur en plusieurs phases:

suivi d'un mur continu convexe (figure 4.9 (a))
suivi d'un mur continu quelconque (figure 4.9 (b))
suivi d'un mur dans un environnement possédant des portes (figure 4.9 (c))
suivi d'un mur dans un environnement possédant des couloirs (figure 4.9 (d))
suivi d'un mur possédant de petites aspérités (figure 4.9 (e))
suivi d'un mur possédant de grandes aspérités, pouvant ressembler à des portes ou à des couloirs (figure 4.9 (f))

Cette technique permet de se ``concentrer'' sur un type de perception donné afin d'exercer spécifiquement le robot simulé. Cela ne permet pas de réduire le nombre d'essais de l'apprentissage total, mais de placer rapidement le robot dans une situation particulière, même si celle-ci est peu fréquente dans un environnement ``moyen''. Si cette situation n'est pas maîtrisée, le robot échoue donc après un temps court. La durée de l'exercice va représenter le temps qu'il faut pour résoudre la difficulté spécifique.

**Figure:** Nouvel environnement présenté au robot simulé.
$\includegraphics{fig/fusion.eps}$

**Figure:** Exercices de difficulté progressive proposés au robot simulé.
$\includegraphics{fig/ecole.eps}$

suivant: 7 Utilité de l'apprentissage monter: 2 Exemple d'application: navigation précédent: 5 Évolution du comportement Table des matières

Frédéric Davesne 2001-07-13