suivant:
Avant-propos
monter:
corpus
précédent:
corpus
Table des matières
Avant-propos
Problématique
Contexte de la recherche
Constats
Orientation de la recherche
Travail de thèse
Sources d'inspiration
Modèle d'un système capable d'actions réflexes
Contraintes appliquées au système
Méthodologie d'étude des capacités d'apprentissage du système global
Introduction aux termes clés employés dans ce document
Fiabilité et prédictibilité - lien avec le vivant
Introduction à la notion d'événement rare
Introduction à la notion d'information perceptive
Structuration du document
Liste des figures
Apprentissage d'objectif (AO)
Influence du contexte sur l'apprentissage par renforcement
Introduction
Idées directrices
Guide du chapitre
Cadre général de l'apprentissage par renforcement (AR)
Le mécanisme d'AR schématisé - les termes clés
Références générales
Positionnement de l'AR par rapport à d'autres méthodes d'apprentissage
Problématique et méthodes de résolution liées à l'AR
Conditions de convergence des algorithmes d'AR
Causes de difficultés dans l'utilisation des algorithmes d'AR
Lien entre incertitude, imprécision, fiabilité et prédictibilité
Outils d'étude de l'incertitude due au contexte de l'AR
Introduction
Qu'entendons-nous par ``qualité'' du contexte d'apprentissage ?
Notations
Contexte idéal et quasi-idéal - Propriété (
)
Exemples de contextes vérifiant ou ne vérifiant pas (
)
Information associée à l'exécution d'une action
Mesures utilisant l'entropie de Shannon
Protocole de calcul des mesures
et
Modélisation du flux d'erreurs dû au contexte d'apprentissage
Modélisation d'un flux d'erreurs mono-causal
Modélisation d'un flux d'erreurs bi-causal dépendant de l'état initial du système
Expérimentations autour du problème du pendule inversé
Objectif
Analyse préliminaire des résultats antérieures sur l'influence du bruit de mesure sur l'apprentissage par AR
Protocole expérimental
Analyse des mesures
et
lorsque la qualité des données d'entrée est dégradée
Découverte des sources d'erreur du contexte de l'apprentissage
Relation entre
et
Conclusion
Algorithme d'AO défini dans un contexte idéal
Introduction
Idée directrice du chapitre
Genèse de l'algorithme CbL - utilisation de notre méthodologie
Guide de ce chapitre
Description de l'algorithme CbL
Méthodologie
Notations
Marquage des états du système
Contraintes du système subissant l'AO
Algorithme d'apprentissage CbL
Résultats théoriques concernant l'algorithme CbL(1)
Problèmes théoriques
Convergence de la phase de propagation donnée par l'algorithme 2.1
Cas d'unicité de l'ensemble des valeurs des marquages obtenues grâce à l'algorithme de propagation
Signification de la valeur des marquages
Exploration de l'espace d'états
Convergence et prédictibilité de l'algorithme CbL
Utilisation de l'algorithme CbL(
)
Propriété d'incrémentalité de l'algorithme CbL
Qu'entendons-nous par ``incrémentalité'' ?
Découverte de la suppression d'une cible
Découverte de l'ajout d'une cible
Découverte de la suppression d'un obstacle
Découverte de l'ajout d'un obstacle
Conclusion: lien entre la capacité d'incrémentalité de l'algorithme CbL et l'invariant structurel engendré par (
)
Problème du labyrinthe
Introduction
Position du problème
Protocole d'apprentissage
Résultats
Problème de navigation d'un robot mobile
Introduction
Position du problème
Préparation du contexte d'apprentissage pour le problème de navigation du robot Khepera
Protocole expérimental
Résultats
Conclusion
Apprentissage perceptif (AP)
Modèle paramétrique du processus de catégorisation
Introduction
Cadre de notre étude
Constituants du processus de catégorisation
Introduction
Problématique du processus de catégorisation - définition de l'AP
Vue générale du processus de catégorisation
La mémoire
Sélection des hypothèses valides
Information perceptive et état du système
Relation entre le nombre d'hypothèses de la mémoire et l'impossibilité d'anticiper une évolution précise du signal
Conclusion - degrés de liberté du processus de catégorisation
Algorithme de sélection pour un ensemble fini d'hypothèses
Introduction
Algorithme
Précisions concernant l'algorithme de sélection
Algorithme de sélection pour un ensemble infini d'hypothèses
Introduction
Constitution de la mémoire - notations
Formalisation de l'ensemble S(t) des solutions - résolution d'un problème d'inversion ensembliste
Méthode de résolution sélectionnée
Algorithme
Caractère générique de notre modélisation - Lien avec des modélisations paramétriques existantes
Prédiction: liens avec le filtrage de Kalman
Possibilité d'avoir des hypothèses possédant des valeurs de h différentes: lien avec les approches multi-résolutions
Possibilité de valider simultanément plusieurs hypothèses: lien avec la problématique de la séparation de sources
Conclusion
Résultats obtenus
Travaux à effectuer
Contraintes appliquées à la mémoire du système
Introduction
Contraintes associées à l'information perceptive
Introduction
Le problème ``D''
Extensions du problème ``D''
Contrainte d'observabilité CO, restreignant l'information perceptive - Lien avec l'AP
Contrainte d'unicité (CU) restreignant l'information perceptive
Fiabilité de l'information perceptive
Résolution de CO dans le cas d'une mémoire possédant une hypothèse
Introduction
Notations - Formulation des deux contraintes de CO
Condition d'existence d'une mémoire respectant CO
Comparaison informelle entre CO et la contrainte imposée par le théorème d'échantillonnage de Shannon
Limitations des mémoires à une hypothèse - Extension du résultat d'existence à une catégorie d'ensembles finis d'hypothèses
Conclusion
Conclusion générale des deux premières parties de notre document
Méthodologie
Résultats théoriques
Algorithmes de sélection
Perspectives
Introduction
Conjecture à propos des mémoires possédant un ensemble infini d'hypothèses
Piste de recherche sur l'AP
Généralisation du processus de catégorisation pour l'utilisation de plusieurs signaux d'entrée
Génèse de l'information perceptive à l'aide d'actions réflexes
A parte : Réflexion informelle autour de notre piste de recherche
Faits et hypothèses issues du domaine du vivant
Introduction
Avertissement
Formation d'une base d'observations
Établissement d'un ensemble d'hypothèses fondatrices de notre travail
Caractéristiques de l'apprentissage perceptif
Distinction entre apprentissage perceptif et apprentissage d'objectif
L'AP fournit une information perceptive soumise au paradoxe de l'évidence
Rôle des signaux perceptifs internes
Généralisation de la notion de perception aux signaux internes accompagnant le mouvement
Interconnexion entre perception, mémoire et action réflexe
Utilisation de la mémoire par le processus de perception
Faculté d'anticipation: résultat de l'apprentissage et clé de l'usage des connaissances
Importance des notions de fiabilité et de prédictibilité
Introduction
Nature de la représentation mentale: cohérence entre l'anticipation et le fait observé
Sensation de sécurité comme moteur de l'apprentissage
L'optimisation vue comme une capacité à générer un grand nombre de catégories perceptives
Positionnement de notre démarche scientifique
Introduction
Différentes approches de l'Intelligence
Introduction
Idées fondatrices associées à la machine de Turing - hypothèse béhavioriste
Idées associées à l'approche cognitive de l'intelligence
Idées associées à l'approche biologique de l'intelligence
Réflexion à propos de la démarche fonctionnaliste
Conclusion - Liens avec la biologie et avec le concept de la machine de Turing
Une certaine notion de la réalité
Introduction
Lien entre information perceptive et observation
Notion de la réalité, dérivée de l'information perceptive
Annexes
Techniques d'apprentissage par renforcement
Avertissement - remerciements
Architecture et algorithme Q-Learning
Expériences autour du pendule inversé
Le problème du pendule inversé
Valeur des paramètres internes choisis pour l'algorithme Q-Learning
Éléments de calcul de probabilité
Calcul d'un estimateur
par la méthode du maximum de vraisemblance
Exemple d'information perceptive pour un signal mono-dimensionnel
Introduction et notations
Fiabilité des informations perceptives obtenues
Probabilité de découverte au hasard d'un segment orienté
Découverte de n tendances consécutives pour un signal de densité de probabilité uniforme
Relation entre le paramètre
et le postulat de rareté de l'information perceptive
Preuves concernant la fiabilité de la détection de l'information perceptive
Introduction - Notations
Fiabilité de la détection d'une information perceptive
Preuve de la proposition 9
Preuve de la proposition 7 (paragraphe 2.3.3, page
)
Bibliographie
À propos de ce document...
Sous-sections
Avant-propos
Problématique
Contexte de la recherche
Constats
Orientation de la recherche
Travail de thèse
Sources d'inspiration
Modèle d'un système capable d'actions réflexes
Contraintes appliquées au système
Méthodologie d'étude des capacités d'apprentissage du système global
Introduction aux termes clés employés dans ce document
Fiabilité et prédictibilité - lien avec le vivant
Introduction à la notion d'événement rare
Introduction à la notion d'information perceptive
Structuration du document
2002-03-01