next up previous contents
suivant: Protocole de calcul des monter: Outils d'étude de l'incertitude précédent: Information associée à l'exécution   Table des matières

Mesures utilisant l'entropie de Shannon

Nous allons nous intéresser à l'information qui peut être dégagée de l'exécution d'une action $ a_{k}$. Intuitivement, on peut relier le fait que $ a_{k}$ agit sur le système avec le changement d'état du système. Dans le cas général, ce changement d'état est soumis à l'incertitude, dans le sens où si on connaît parfaitement $ e_{i}$ et $ a_{k}$, il se peut qu'on puisse ne pas prédire avec certitude la nature de l'état $ e_{j}$ obtenu à l'instant t+h. C'est le sens des probabilités $ p_{i,k,j}$ lorsque i et k sont fixés. De même, si on connaît parfaitement deux états par lequel le système est passé consécutivement, on peut ne pas déduire quelle action $ a_{k}$ a permis le passage d'un état à l'autre: c'est le sens des probabilités $ p_{i,k,j}$ lorsque i et j sont fixés.
Par conséquent, nous avons deux mesures différentes, dont l'objectif est de donner une idée de l'incertitude associée soit à la prédiction de l'état futur, soit à la déduction de l'action exécutée par le système. L'utilisation de l'entropie semble donc adaptée à notre problématique. Pour un état $ e_{i}$ et une action $ a_{k}$ fixés, nous définissons l'entropie $ H(e_{i},a_{k})$ associée à l'incertitude sur l'état suivant comme suit:

$\displaystyle H(e_{i},a_{k}) = - \sum_{j \in \{1,...,n\}, j \neq i} p_{i,k,j} log(p_{i,k,j})$    

De même, pour un état $ e_{i}$ et un état $ e_{j}$, nous spécifions l'entropie $ H(e_{i},e_{j})$ associée à l'incertitude sur l'action qui a permis le passage de l'état $ e_{i}$ à l'état $ e_{j}$.

$\displaystyle H(e_{i},e_{j}) = - \sum_{k \in \{1,...,q\}, j \neq i} p_{i,k,j} log(p_{i,k,j})$    

L'étude détaillée de la fonction H a été effectuée pour la première fois par Shannon dans le cadre de la théorie de l'information [Shannon, 1948]. À partir de cette étude, nous savons que $ H(e_{i},a_{k})$ est minimale et vaut 0 dans le cas où un unique $ p_{i,k,j}$ est non nul et vaut 1 (prédictibilité parfaite du résultat de l'action $ a_{k}$). À l'autre extrême, $ H(e_{i},a_{k})$ est maximale lorsque les $ p_{i,k,j}$ sont tous égaux (incertitude maximale sur le résultat de l'action $ a_{k}$). De même, $ H(e_{i},e_{j})$ est minimale et vaut 0 lorsqu'il existe une action permettant de passer de l'état $ e_{i}$ à l'état $ e_{j}$. Au contraire, $ H(e_{i},e_{j})$ est maximale lorsque touts les actions ont une probabilité égale d'avoir permis le passage de l'état $ e_{i}$ à l'état $ e_{j}$.
On remarque que $ H(e_{i},a_{k})$ est minimale et nulle lorsque l'action $ a_{k}$ est parfaitement discriminante à partir de l'état $ e_{i}$: l'ensemble des probabilités $ p_{i,k,j}$ sont nulles sauf une qui vaut 1 (lorsque i et k sont fixés). De même, $ H(e_{i},e_{j})$ est minimale lorsque les états sont parfaitement discriminants par rapport aux actions. Lorsque ces deux cas sont réunis, l'état $ e_{i}$ vérifie la propriété (P).
À partir des définitions de $ H(e_{i},a_{k})$ et de $ H(e_{i},e_{j})$ pour un état particulier $ e_{i}$, peut-on mesurer le caractère informatif du système total (incluant tous les états et toutes les actions possibles) ? Avant de répondre à cette question, trois contraintes existent: À partir de la première contrainte, l'expression générale de la mesure de la qualité de discrimination des actions est la suivante:

$\displaystyle H = \sum_{i \in \{1,...,n\}, k \in \{1,...,q\}} \alpha_{i,k} H(e_{i},a_{k})$    

avec:

$\displaystyle \forall i \in \{1,...,n\}, k \in \{1,...,q\},\:\:\alpha_{i,k} \in [0,1]$    

et

$\displaystyle \sum_{i \in \{1,...,n\}, k \in \{1,...,q\}} \alpha_{i,k} = 1$    

La dernière contrainte signifie qu'on souhaite pouvoir mesurer la qualité du contexte de l'apprentissage seul. Il ne faut donc pas utiliser l'estimation des $ p_{i,k}$ pour pondérer les $ H(e_{i},a_{k})$, car ces valeurs dépendent de la politique de commande du système (certains états ne seront quasiment jamais visités, alors que d'autres le seront fréquemment).
Une mesure $ H_{1}$ peut être envisagée en donnant autant de poids à chaque $ H(e_{i},a_{k})$: on aura $ \alpha_{i,k}=1/(n.q)$. Il vient:

$\displaystyle H_{1} = \frac{1}{n.q} \sum_{i \in \{1,...,n\}, k \in \{1,...,q\}} H(e_{i},a_{k})$ (1)

Pour répondre à l'exigence de la deuxième contrainte, on pourra modifier le facteur n.q de manière à ne compter que les états $ e_{i,k}$ effectivement atteints. Une mesure $ H_{2}$ est obtenue pareillement, avec $ \alpha_{i,k}=1/(n.(n-1))$:

$\displaystyle H_{2} = \frac{1}{n(n-1)} \sum_{i \in \{1,...,n\}, j
 \in \{1,...,n \}, i \neq j} H(e_{i},e_{j})$ (2)


next up previous contents
suivant: Protocole de calcul des monter: Outils d'étude de l'incertitude précédent: Information associée à l'exécution   Table des matières
2002-03-01