3 Protocole d'apprentissage

suivant: 4 Durée d'un apprentissage monter: 2 Exemple d'application: navigation précédent: 2 Stratégie de modularisation Table des matières

3 Protocole d'apprentissage

La phase d'apprentissage est formée d'un ensemble d'essais, conclus soit par l'atteinte de l'objectif, soit par un manquement aux contraintes d'un des modules. L'apprentissage par essais/erreurs est effectué dans l'environnement donné par la figure 4.5. Un essai se termine lorsqu'une erreur survient ou que la cible est atteinte.
On effectue en premier l'apprentissage des agents de plus bas niveau, c'est-à-dire A₂ et A₂'. Pour cela, on initialise la position du robot d'une manière aléatoire dans l'environnement. Les deux apprentissages sont effectués indépendamment. On stoppe un apprentissage lorsque le robot ne s'est pas cogné pendant 500000 pas de temps. Dans un deuxième temps, on effectue l'apprentissage de A₁ et A₁' en utilisant les agents A₂ et A₂'.

Frédéric Davesne 2001-07-13