Protocole d'apprentissage

suivant: Résultats monter: Problème du labyrinthe précédent: Position du problème Table des matières

Protocole d'apprentissage

Les termes essai et itération ont une signification similaire à celle définie dans le chapitre 1. Le lecteur pourra s'y référer.
Les performances de l'algorithme CbL seront mesurées avec les indicateurs suivants:

pour s'assurer de la convergence de l'algorithme CbL, nous évaluerons à chaque essai d'apprentissage le nombre d'états dont la qualité a été modifiée .
l'évolution du nombre moyen d'échecs en fonction du numéro de l'essai. Ce nombre moyen est obtenu en considérant l'ensemble des apprentissages effectués
le nombre moyen d'itération, pour chaque essai, avant l'atteinte de l'objectif (si l'objectif n'est pas atteint ou si un obstacle est rencontré, le nombre maximum d'itérations est considéré).

Voici le protocole d'apprentissage. 1000 apprentissages successifs utilisant l'algorithme CbL ou la méthode du Q-Learning seront effectués. Chaque apprentissage comporte 5000 essais. Le nombre maximum d'itération par essai est fixé à 1000. Si le système n'a pas trouvé la cible ou ne s'est pas cogné avant 1000 itérations, l'essai est terminé. L'initialisation de l'état du système au début de chaque essai se fera aléatoirement sur une case ``libre''. Pour le problème de navigation, l'initialisation sera fera toujours au même point.
Le paramètre $\alpha$ de l'algorithme CbL sera fixé à 0.99 . Comme nous l'avons déjà mentionné, ce paramètre n'influe pas sur le résultat de l'apprentissage: l'unique condition est qu'il soit compris dans l'intervalle ]0,1[. D'autre part, nous avons fixé le paramètre d à 100 (le paramètre d indique le nombre de marquages distincts strictement supérieurs à 0: voir la sous-section 2.2.2, page

). Nous verrons l'influence de ce paramètre dans l'expérience du labyrinthe. Les paramètres internes du Q-Learning sont ceux utilisés dans l'application du pendule inversé dans le chapitre 1 (voir l'annexe A.2.2, page

suivant: Résultats monter: Problème du labyrinthe précédent: Position du problème Table des matières

2002-03-01