next up previous contents
suivant: Résultats monter: Problème du labyrinthe précédent: Position du problème   Table des matières

Protocole d'apprentissage

Les termes essai et itération ont une signification similaire à celle définie dans le chapitre 1. Le lecteur pourra s'y référer.
Les performances de l'algorithme CbL seront mesurées avec les indicateurs suivants: Voici le protocole d'apprentissage. 1000 apprentissages successifs utilisant l'algorithme CbL ou la méthode du Q-Learning seront effectués. Chaque apprentissage comporte 5000 essais. Le nombre maximum d'itération par essai est fixé à 1000. Si le système n'a pas trouvé la cible ou ne s'est pas cogné avant 1000 itérations, l'essai est terminé. L'initialisation de l'état du système au début de chaque essai se fera aléatoirement sur une case ``libre''. Pour le problème de navigation, l'initialisation sera fera toujours au même point.
Le paramètre $ \alpha $ de l'algorithme CbL sera fixé à 0.99 . Comme nous l'avons déjà mentionné, ce paramètre n'influe pas sur le résultat de l'apprentissage: l'unique condition est qu'il soit compris dans l'intervalle ]0,1[. D'autre part, nous avons fixé le paramètre d à 100 (le paramètre d indique le nombre de marquages distincts strictement supérieurs à 0: voir la sous-section 2.2.2, page [*]). Nous verrons l'influence de ce paramètre dans l'expérience du labyrinthe. Les paramètres internes du Q-Learning sont ceux utilisés dans l'application du pendule inversé dans le chapitre 1 (voir l'annexe A.2.2, page [*]).
next up previous contents
suivant: Résultats monter: Problème du labyrinthe précédent: Position du problème   Table des matières
2002-03-01