next up previous contents
suivant: 4 Durée d'un apprentissage monter: 2 Exemple d'application: navigation précédent: 2 Stratégie de modularisation   Table des matières

3 Protocole d'apprentissage

La phase d'apprentissage est formée d'un ensemble d'essais, conclus soit par l'atteinte de l'objectif, soit par un manquement aux contraintes d'un des modules. L'apprentissage par essais/erreurs est effectué dans l'environnement donné par la figure 4.5. Un essai se termine lorsqu'une erreur survient ou que la cible est atteinte.
On effectue en premier l'apprentissage des agents de plus bas niveau, c'est-à-dire A2 et A2'. Pour cela, on initialise la position du robot d'une manière aléatoire dans l'environnement. Les deux apprentissages sont effectués indépendamment. On stoppe un apprentissage lorsque le robot ne s'est pas cogné pendant 500000 pas de temps. Dans un deuxième temps, on effectue l'apprentissage de A1 et A1' en utilisant les agents A2 et A2'.



Frédéric Davesne 2001-07-13