suivant:
Influence du contexte sur
monter:
corpus
précédent:
Liste des figures
 
Table des matières
Apprentissage d'objectif (AO)
Sous-sections
Influence du contexte sur l'apprentissage par renforcement
Introduction
Idées directrices
Guide du chapitre
Cadre général de l'apprentissage par renforcement (AR)
Le mécanisme d'AR schématisé - les termes clés
Références générales
Positionnement de l'AR par rapport à d'autres méthodes d'apprentissage
Problématique et méthodes de résolution liées à l'AR
Conditions de convergence des algorithmes d'AR
Causes de difficultés dans l'utilisation des algorithmes d'AR
Lien entre incertitude, imprécision, fiabilité et prédictibilité
Outils d'étude de l'incertitude due au contexte de l'AR
Introduction
Qu'entendons-nous par ``qualité'' du contexte d'apprentissage ?
Notations
Contexte idéal et quasi-idéal - Propriété (
)
Exemples de contextes vérifiant ou ne vérifiant pas (
)
Information associée à l'exécution d'une action
Mesures utilisant l'entropie de Shannon
Protocole de calcul des mesures
et
Modélisation du flux d'erreurs dû au contexte d'apprentissage
Modélisation d'un flux d'erreurs mono-causal
Modélisation d'un flux d'erreurs bi-causal dépendant de l'état initial du système
Expérimentations autour du problème du pendule inversé
Objectif
Analyse préliminaire des résultats antérieures sur l'influence du bruit de mesure sur l'apprentissage par AR
Protocole expérimental
Analyse des mesures
et
lorsque la qualité des données d'entrée est dégradée
Découverte des sources d'erreur du contexte de l'apprentissage
Relation entre
et
Conclusion
Algorithme d'AO défini dans un contexte idéal
Introduction
Idée directrice du chapitre
Genèse de l'algorithme CbL - utilisation de notre méthodologie
Guide de ce chapitre
Description de l'algorithme CbL
Méthodologie
Notations
Marquage des états du système
Contraintes du système subissant l'AO
Algorithme d'apprentissage CbL
Résultats théoriques concernant l'algorithme CbL(1)
Problèmes théoriques
Convergence de la phase de propagation donnée par l'algorithme 2.1
Cas d'unicité de l'ensemble des valeurs des marquages obtenues grâce à l'algorithme de propagation
Signification de la valeur des marquages
Exploration de l'espace d'états
Convergence et prédictibilité de l'algorithme CbL
Utilisation de l'algorithme CbL(
)
Propriété d'incrémentalité de l'algorithme CbL
Qu'entendons-nous par ``incrémentalité'' ?
Découverte de la suppression d'une cible
Découverte de l'ajout d'une cible
Découverte de la suppression d'un obstacle
Découverte de l'ajout d'un obstacle
Conclusion: lien entre la capacité d'incrémentalité de l'algorithme CbL et l'invariant structurel engendré par (
)
Problème du labyrinthe
Introduction
Position du problème
Protocole d'apprentissage
Résultats
Problème de navigation d'un robot mobile
Introduction
Position du problème
Préparation du contexte d'apprentissage pour le problème de navigation du robot Khepera
Protocole expérimental
Résultats
Conclusion
2002-03-01