suivant: Résultats
monter: Problème du labyrinthe
précédent: Position du problème
  Table des matières
Les termes essai et itération ont une signification
similaire à celle définie dans le chapitre 1. Le lecteur pourra s'y référer.
Les performances de l'algorithme CbL seront mesurées avec les
indicateurs suivants:
- pour s'assurer de la convergence de l'algorithme CbL,
nous évaluerons à chaque essai d'apprentissage le nombre d'états
dont la qualité a été modifiée
.
- l'évolution du nombre moyen d'échecs en fonction du numéro de
l'essai. Ce nombre moyen est obtenu en considérant l'ensemble des
apprentissages effectués
- le nombre moyen d'itération, pour chaque essai, avant l'atteinte
de l'objectif (si l'objectif n'est pas atteint ou si un obstacle est
rencontré, le nombre maximum d'itérations est considéré).
Voici le protocole d'apprentissage. 1000 apprentissages successifs
utilisant l'algorithme CbL ou la méthode du Q-Learning seront
effectués. Chaque apprentissage comporte 5000 essais. Le nombre
maximum d'itération par essai est fixé à 1000. Si le système n'a
pas trouvé la cible ou ne s'est pas cogné avant 1000 itérations,
l'essai est terminé. L'initialisation de l'état du système au début
de chaque essai se fera aléatoirement sur une case ``libre''. Pour
le problème de navigation, l'initialisation sera fera toujours au même point.
Le paramètre
de l'algorithme CbL sera fixé à 0.99 . Comme
nous l'avons déjà mentionné, ce paramètre n'influe pas sur le
résultat de l'apprentissage: l'unique condition est qu'il soit
compris dans l'intervalle ]0,1[. D'autre part, nous avons fixé le
paramètre d à 100 (le paramètre d indique le nombre de marquages
distincts strictement supérieurs à 0: voir la sous-section
2.2.2, page
). Nous verrons
l'influence de ce paramètre dans l'expérience du labyrinthe. Les
paramètres internes du Q-Learning sont ceux utilisés dans
l'application du pendule inversé dans le chapitre 1 (voir l'annexe
A.2.2, page
).
suivant: Résultats
monter: Problème du labyrinthe
précédent: Position du problème
  Table des matières
2002-03-01