next up previous contents
suivant: Guide du chapitre monter: Introduction précédent: Introduction   Table des matières

Idées directrices

La commande d'un processus peut être facilitée par l'utilisation de techniques d'apprentissage. Cela permet, dans certains cas, d'éviter une modélisation théorique trop complexe, voire impossible à réaliser. Nous avons souligné dans l'avant-propos que les techniques d'apprentissage conventionnelles (supervisé, semi-supervisé ou non supervisé) ne permettent pas de garantir la nature du résultat: un échec de l'algorithme d'apprentissage signifie-t-il qu'il n'existe pas de solutions au problème ? Une réussite de l'apprentissage signifie-t-elle que la solution est fiable ? On ne peut pas répondre à ces questions. Dans les cas d'applications réelles, il est souvent très délicat d'apprécier l'adéquation entre le contexte fourni par l'expérimentateur et l'algorithme d'apprentissage: cela nuit à la prédictibilité du résultat de l'apprentissage ainsi qu'à la fiabilité de la politique de commande obtenue. L'objectif de ce chapitre est de montrer que le contexte de l'algorithme d'apprentissage est responsable de cette incertitude. Nous rassemblons dans le terme ``contexte'' l'ensemble des données et modèles utilisés par la méthode d'apprentissage, sans que celle-ci puisse les modifier au cours de son exécution.
Pour étayer notre propos, nous nous focaliserons sur une méthode d'apprentissage par renforcement (AR) classique: le Q-Learning. Les méthodes d'AR offrent l'avantage de construire, par essais/erreurs successifs, un mécanisme de réflexe perception/action optimal, sans nécessiter l'utilisation d'un modèle: le système doit seulement connaître à tout moment de l'apprentissage si l'objectif est atteint ou non. Notre choix s'est porté sur cette catégorie de méthodes semi-supervisées, car la phase d'apprentissage de l'atteinte d'un objectif (AO) que nous avons considérée dans la partie introductive de notre document, utilise également un signal de retour pauvre. Nous souhaitons ainsi montrer les problèmes que notre système d'apprentissage à deux niveaux devra éviter.
Le contexte particulier aux méthodes d'AR est composé des éléments suivants: Chacun de ceux-ci est une cause potentielle d'échec de l'apprentissage. Nous allons illustrer cela à travers un exemple applicatif simple: le problème du pendule inversé. Nous l'avons choisi parce qu'il est un banc d'essai classique en AR et qu'il est particulièrement sensible à la qualité du contexte d'apprentissage: deux ou trois mauvaises commandes consécutives peuvent mettre le système en échec. Nous nous intéresserons plus particulièrement à l'influence du contexte d'apprentissage sur la fiabilité du système.
Cependant, nous ne limitons pas notre travail à une simple constatation. Nous essayons de préciser les causes possibles des échecs. Pour cela, nous allons considérer le graphe d'états du système (chaque transition correspond au passage du système d'un état $ e_{i}$ à un état $ e_{j}$ par une commande $ a_{k}$). Nous mettons en évidence la relation entre la dégradation des résultats du système et l'augmentation du nombre de transitions différentes, partant du même état $ e_{i}$ en exécutant la même commande $ a_{k}$. Cette dégradation a également un rapport avec l'augmentation du nombre de transitions d'un état $ e_{i}$ vers un état $ e_{j}$ (l'exécution de plusieurs commandes aboutit au même état). Ces deux phénomènes ont un rapport direct avec la quantité d'information (au sens de Shannon) portée par l'exécution d'une commande, connaissant l'état courant (pouvoir discriminant des commandes sur la nature de l'état d'arrivée [*]) et avec la quantité d'information portée par la connaissance de l'état d'arrivée (pouvoir discriminant de la connaissance de l'état d'arrivée pour déterminer l'action $ a_{k}$ qui vient d'être exécutée). Nous utiliserons donc naturellement deux mesures d'entropie $ H_{1}$ et $ H_{2}$ pour quantifier la qualité du contexte d'apprentissage et donner une relation avec le degré de fiabilité du résultat d'apprentissage.
Nous montrons également que certains facteurs du contexte d'apprentissage peuvent être modélisés comme des sources d'erreur, caractérisées par une fréquence d'occurrence des erreurs propre à ces sources.
L'ensemble de cette étude nous permet donc de mieux comprendre par quels mécanismes le contexte influence le résultat de l'apprentissage. Ces résultats nous sont utiles pour définir ce que pourrait être un contexte idéal (minimisant $ H_{1}$ et $ H_{2}$). Nous rappelons ici notre idée générale qu'un système d'apprentissage doit comprendre deux processus inter-connectés: Dans ce cadre, le rôle de l'AP consiste à créer un contexte idéal pour l'AO. Nous montrerons dans le chapitre suivant que ce contexte permet effectivement d'obtenir des propriétés de fiabilité du résultat de l'apprentissage ainsi que de prédictibilité de l'algorithme d'AO. L'AP sera abordé dans la deuxième partie de ce document de thèse.
next up previous contents
suivant: Guide du chapitre monter: Introduction précédent: Introduction   Table des matières
2002-03-01