Découverte des sources d'erreur du contexte de l'apprentissage

suivant: Relation entre et monter: Expérimentations autour du problème précédent: Analyse des mesures et Table des matières

Découverte des sources d'erreur du contexte de l'apprentissage

Nous allons nous intéresser à la répartition des durées de viabilité au cours des essais, lorsqu'on dégrade les données d'entrée du système. L'hypothèse (H) sera mise à l'épreuve.

**Figure:** Graphes associés à la sous-section 1.4.5
$\includegraphics[]{fig/res_viabilite.eps}$ Légende: ``DVE'': Durée de Viabilité en fonction du nombre d'Essais d'apprentissage. ``DVABM'': Durée de Viabilité en fonction de l'Amplitude du Bruit de Mesure. ``FRDV'': Fonction de Répartition des Durées de Viabilité. ``DG'' Données issues de $\theta$ bruitées avec un bruit gaussien, d'amplitude $\sigma$ . ``DVA'' Données issues de $\theta$ possédant un taux de valeurs aberrantes $\tau_{VA}$ . ``EA'' L'état du système peut être choisi aléatoirement, avec une fréquence d'apparition $\tau_{EA}$ . Commantaires: Les graphes (d),(e) et (f) montrent deux droites, calculées selon le critère des moindres carrés. Chaque droite correspond, dans le graphe log/log, à une modélisation du lien entre la durée de viabilité (moyenne ou maximum) et l'amplitude du bruit de mesure, prenant la forme exp(b). $\tau^{a}$ , avec $\tau$ l'amplitude du bruit de mesure, ``a'' la pente de la droite et ``b'' sa valeur à l'origine. Pour des bruits de type DB, DVA et EA, on trouve respectivement $a_{DG}$ =-1.53, $a_{DVA}$ =-1.24 et $a_{EA}$ =-1.30.

Le système, après apprentissage, est-il fiable ? Le graphe (a) de la figure 1.11 montre l'évolution de la durée de viabilité au cours des essais d'apprentissage, lorsque les données d'entrée sont parfaites. La première constatation est que l'apprentissage est réussi pour plusieurs essais. D'autre part, la phase d'apprentissage est nettement visible, puisqu'une progression de la durée de viabilité existe jusque vers l'essai 140 (le graphe (b) de la figure 1.11 montre la partie du graphe (a) pour les essais allant de 1 à 200). Mais, nous constatons que, même lorsque les données d'entrée sont parfaites, le système peut sortir de son domaine de viabilité au bout de très peu d'itérations. Ainsi, on distingue clairement, sur le graphe (a), deux bandes horizontales, correspondant à deux zones dans lesquelles les durées de viabilité se situent majoritairement: une zone se situe autour de 150 itérations et une autre est centrée à, environ, un million d'itérations. Donc, une première réponse à la question posée en début de paragraphe est que le système peut être fiable, mais que nous ne savons pas prédire, au début d'un essai, s'il va se terminer par un succès ou non.
La nature du graphe (a) peut-elle être expliquée en posant l'hypothèse (H) (voir la sous-section 1.3.9) ? Le nombre moyen d'essais se terminant après au moins 100.000 itérations entre deux essais terminés rapidement (moins de 1000 itérations viables) est d'environ 10, avec un écart-type de 20. D'autre part, il y a très peu d'échecs dont le nombre d'itérations est supérieur à 1000 et inférieur à 100.000. L'existence de deux bandes horizontales, qui semblent ne pas évoluer, du moins jusqu'à l'essai 2000, nous montre que la politique de commande paraît avoir convergé. Pour expliquer l'existence de ces deux bandes stationnaires, il est légitime de poser l'hypothèse (H). Dans ce cas, ces deux bandes s'expliquent par la présence de deux sources d'erreurs, dont les fréquences d'apparition sont différentes. L'étude théorique de ce cas est donnée dans la sous-section 1.3.11. La source d'erreurs $E_{1}$ caractérise la bande centrée autour de 150 itérations, alors que la source d'erreurs $E_{2}$ caractérise celle autour de un million d'itérations. À l'initialisation d'un essai d'apprentissage, la probabilité p de faire face à une erreur provenant de $E_{1}$ est égale à 1/10 (d'après les résultats donnés par le graphe (a)). Notre objectif est de déterminer la valeur du paramètre $\epsilon_{1}$ . Pour obtenir un résultat statistiquement valide, nous effectuons un nouvel apprentissage sur 100.000 essais, mais avec un nombre maximum d'itérations de 1000 par essai , pour récupérer les durées de viabilité issues de la source d'erreurs $E_{1}$ . Puis, nous établissons l'histogramme de la répartition des durées de viabilité sur ce nouvel ensemble. Nous supposons alors que celui-ci constitue une observation d'un flux unique, de paramètre $\epsilon_{1}$ . La valeur de $\hat{\epsilon_{1}}$ est donnée par l'équation 1.5, page

[*]

, en connaissant la moyenne des durées de viabilité: nous trouvons $\hat{\epsilon_{1}} = 5.7 10^{-3}$ . Il nous faut, à présent, vérifier que la répartition réelle des durées de viabilité correspond à la théorie: le graphe (c) de la figure 1.11 montre une superposition satisfaisante de l'histogramme issu des observations avec la fonction de répartition théorique. L'hypothèse (H) est donc validée dans le cas du graphe (a), c'est-à-dire lorsque les données d'entrée sont parfaites.
À quoi peut-on relier les sources d'erreurs $E_{1}$ et $E_{2}$ ? D'après notre modèle (voir la sous-section 1.3.11), c'est au moment de l'initialisation d'un essai d'apprentissage que, suivant une probabilité p, la source d'erreur $E_{1}$ est sélectionnée, et suivant une probabilité 1-p, la source $E_{2}$ est choisie. Quel type d'erreurs $E_{1}$ représente-t-elle ? Deux hypothèses sont envisagées:

l'erreur est exclusivement imputable à l'état initial du système, choisi aléatoirement au début de chaque essai. Certains états initiaux conduiraient forcément vers l'extérieur de la zone de viabilité du système, indépendamment de l'algorithme d'apprentissage.
l'erreur est causée par une convergence trop rapide et erronnée des valeurs qualités associées à certains états du système. La non rectification des erreurs portant sur ces qualités serait due à un mauvais paramétrage du dilemme exploration/exploitation gérant le choix d'une commande à tout moment.

Examinons la première hypothèse. Dans ce cas, la probabilité p correspond à la probabilité de choisir un état initial aboutissant forcément à un échec rapide. Si cette hypothèse est valide, le paramètre p doit être une constante qu'on peut retrouver pour tous les apprentissages. Or, cela n'est pas le cas. Les graphes (g) et (i) de la figure 1.11 montrent que le nombre de valeurs de la durée de viabilité se situant autour de 150 itérations n'est pas constant (beaucoup plus important pour le graphe (i) que pour le graphe (g)). La première hypothèse est donc rejetée.
Prenons, à présent, la seconde hypothèse. Il y aurait un manque d'exploration des états du système, dû à l'algorithme de choix de la commande. Cela est probable, car celui-ci privilégie de plus en plus, au fil des essais, une politique gloutonne (choix de la meilleure qualité). Cela permet de diminuer, au fil des essais, le nombre d'erreurs dans le choix de la commande, mais ralentit la mise à jour des qualités de certains états dont la probabilité d'exploration est rendue trop faible. La nature de l'état initial joue un rôle dans cette hypothèse. En effet, au cours de l'apprentissage, des pseudo-cycles états/action sont formés. L'accès à un pseudo-cycle particulier, donc à un ensemble d'états particuliers, dépend de l'état initial du système. Or, si un pseudo-cycle possède un état dont la qualité associée implique le choix d'une commande responsable d'une sortie du domaine de viabilité, la durée de viabilité dépendra de la probabilité d'atteinte de ce pseudo-cycle. Et celle-ci dépend à la fois de l'évolution de l'apprentissage (une qualité est erronnée) et du choix de l'état initial (menant au choix d'une mauvaise commande). La deuxième hypothèse est donc probable. Cependant, elle n'est pas compatible, en théorie, avec l'aspect du graphe (a). En effet, l'algorithme de choix de l'action n'est jamais totalement glouton: il autorise, avec une probabilité non nulle, que la qualité erronnée puisse être rectifiée. Or, cette rectification, lorsqu'elle a lieu, peut avoir un impact sur la valeur de p et sur la durée moyenne de viabilité, ce que ne montre pas le graphe (a). Mais, les graphes (g), (h) et (i) font apparaître plusieurs zones, après ce que nous avions appelé la zone d'apprentissage (les 140 premiers essais), en plus de la zone d'apprentissage: dans chacune de ces zones, on peut remarquer les deux bandes, mais avec une différence au niveau de la valeur de p. Ainsi, dans le graphe (h), il existe deux zones: l'une comprise environ entre l'essai 100 et l'essai 500, et l'autre débutant après l'essai 500. Dans le graphe (i), on constate trois zones: la première est comprise entre les essais 100 et 250, une autre entre les essais 250 et 800, puis enfin la dernière. Nous concluons cette analyse en validant l'hypothèse 2.
Il nous reste à expliquer la cause de la source d'erreurs $E_{2}$ , de paramètre $\epsilon _{2}$ . En comparant les graphes (a), (g), (h) et (i), utilisant respectivement des valeurs d'entrées parfaites, un bruit gaussien d'amplitude $\sigma=0.01$ , un bruit gaussien d'amplitude $\sigma=0.005$ et un bruit gaussien d'amplitude $\sigma=0.0001$ , nous observons deux faits:

les valeurs de $\epsilon _{2}$ associées aux données des quatre graphes sont différentes.
pour les graphes (g),(h) et (i), il n'existe pas de valeur unique pour $\epsilon _{2}$ , mais plusieurs valeurs, qui dépendent des zones dont nous venons de parler ci-dessus.

Nous faisons l'hypothèse que $E_{2}$ regroupe deux causes d'erreurs principales:

l'amplitude du bruit de mesure
la topologie des états du système

Dans le cas du graphe (a), les données d'entrée sont parfaites, ce qui élimine la première cause d'erreurs. La variation de la performance d'un essai à l'autre n'existe que parce que l'état initial du système change, entraînant des trajectoires différentes d'un essai à l'autre. Bien évidemment, si on choisit toujours le même état initial pour le système, et qu'on n'introduit pas de bruit de mesure, les trajectoires d'un essai à l'autre sont identiques au bout d'un certain nombre d'essais (lorsque la probabilité de ne pas appliquer une politique gloutonne devient trop faible).
Abordons, à présent, l'influence d'une dégradation des données sur la durée de viabilité du système. Les graphes (d), (e) et (f) montrent l'évolution de la durée moyenne et de la durée maximum de viabilité en fonction des trois types de bruit de mesure: (d) pour un bruit de mesure gaussien, (e) pour un taux de valeurs aberrantes de $\theta$ et (f) pour un taux de choix aléatoire de l'état courant. Les écarts-types sont représentés par les segments verticaux. Nous constatons que le lien fonctionnel entre la durée de viabilité moyenne, sur les 2000 essais d'un apprentissage, et l'amplitude du bruit de mesure peut être modélisée assez précisément par une fonction du type $exp(b).\tau^{a}$ , $\tau$ représentant l'amplitude du bruit de mesure, ``a'' la pente de la droite figurant sur les graphes (d), (e) et (f) en log/log, et ``b'' la valeur de cette droite à l'origine. Les valeurs du paramètre ``a'' sont peu différentes suivant le type de bruit de mesure (voir les commentaires en bas de la figure 1.11). Donc, si on accepte l'hypothèse (H) et qu'on utilise une modélisation à deux sources d'erreurs, on en déduit que la valeur de $\epsilon _{2}$ croît en fonction de l'amplitude du bruit de mesure, suivant une fonction équivalente à $exp(-b).\tau^{-a}$ . Nous pouvons donc valider partiellement notre interprétation des causes d'erreurs associées à la source $E_{2}$ . Nous disons ``partiellement'' car les graphes (g),(h) et (i) montrent que la valeur de $\epsilon _{2}$ n'est pas constante dans l'absolu (pour un contexte d'apprentissage donné), mais constante par morceaux. L'algorithme de choix de la commande semble être à nouveau la cause de cette instabilité. Pour comprendre ce phénomène, il suffit de regarder les conséquences pratiques de l'application d'un bruit de mesure: la qualité du choix d'une commande pour un état donné est modifiée en fonction de celle de l'état d'arrivée (après exécution de la commande). Or, le bruit peut induire le système en erreur sur la nature exacte de l'état d'arrivé, dont la qualité peut être très différente de celle de l'état d'arrivée réel (que le système aurait découvert s'il n'y avait pas de bruit de mesure). Une mauvaise qualité peut donc être rétro-propagée et l'effet néfaste est amplifié par la trace d'éligibilité (qui va modifier d'une manière erronée l'ensemble des états dans lequel le système s'est trouvé depuis l'initialisation de l'essai).
En résumé, nous avons montré les points suivants:

l'évolution de la durée de viabilité du système au cours des essais d'apprentissage peut être modélisée par deux flux d'erreurs $E_{1}$ et $E_{2}$ , suivant le modèle établi dans la sous-section 1.3.11.
le flux d'erreurs $E_{1}$ est caractérisé par un paramètre $\epsilon_{1}$ élevé, de l'ordre de $5.10^{-3}$ , possédant une faible variabilité suivant les apprentissages, les types de bruit de mesure et l'amplitude de ces bruits. Il est causé principalement par un mauvais paramétrage du dilemme exploration/exploitation gérant le choix d'une commande à tout moment, qui un facteur du contexte de l'apprentissage (le paramètre lié à la résolution du dilemme est régi par une loi d'évolution indépendante de l'état de l'apprentissage). La probabilité p qu'une erreur soit provoquée par $E_{1}$ est variable selon les apprentissages et n'est pas constante dans un même apprentissage (elle est constante par morceaux).
le flux d'erreurs $E_{2}$ est caractérisé par un paramètre $\epsilon _{2}$ , dont la valeur est influencée par la topologie des états du système et par l'amplitude et le type du bruit de mesure. La valeur de $\epsilon _{2}$ est constante par morceaux sur un apprentissage.

Ces points montrent que l'hypothèse (H) est valide. On en déduit que la politique de commande résultant d'un apprentissage n'est pas fiable en général: lorsqu'il existe un bruit de mesure, même faible, les valeurs maximales de la durée de viabilité sont inférieures à 100 millions d'itérations dans tous les cas, ce qui relativise le résultat de Pendrith sur la réussite de pratiquement tous les essais qu'il a effectués (mais celui-ci utilise 10.000 itérations). D'une certaine manière, on peut caractériser la nature des durées de viabilité (existence de deux bandes). Par contre, pour un essai donné, on ne peut pas prédire avec certitude la durée de viabilité qui sera obtenue (on n'obtient qu'un résultat statistique). Nous avons montré, pour notre modélisation, que ce manque de prédictibilité provient de l'influence de l'algorithme qui gère le dilemme exploration/exploitation, corrélée avec le choix aléatoire de l'état initial du système.

suivant: Relation entre et monter: Expérimentations autour du problème précédent: Analyse des mesures et Table des matières

2002-03-01