suivant: Problématique et méthodes de
monter: Cadre général de l'apprentissage
précédent: Références générales
  Table des matières
La caractéristique majeure de l'ensemble des techniques que l'AR
englobe est que l'apprentissage est semi-supervisé. Le terme
``semi-supervisé'', par opposition à ``supervisé'' ou ``non-supervisé'',
désigne la nature de l'information qui est transmise au système
apprenant à chaque pas de temps en retour de l'action qu'il vient
d'accomplir. Voici une brève explication des deux termes ``supervisé''
et ``non-supervisé'', ainsi que les outils les plus courants qui leur
sont associés.
Dans le cas ``supervisé'', cette information correspond à l'erreur exacte
entre ce que le système a accompli et ce qu'il aurait dû faire; cela suppose
la connaissance a priori d'un ensemble d'exemples d'associations
perception/action. L'apprentissage revient alors à construire un modèle
général à partir de ces exemples, supposés être représentatifs du
fonctionnement du système. Donc, d'un point de vue pratique, il s'agit
de déterminer les paramètres d'une fonction interpolant ``au mieux'' cette
base d'exemples perception/action. Si on possède uniquement des informations
numériques sur le processus, on pourra utiliser des réseaux de neurones
multi-couches (dont les fonctions de base sont des sigmoïdes
) ou des réseaux RBF
(dont les fonctions de base sont typiquement des
gaussiennes). Par contre, si on possède une information plus qualitative,
on pourra utiliser des techniques de logique floue (systèmes d'inférence
floue).
Dans le cas ``non-supervisé'', une loi d'évolution, fixée a priori,
dirige la modification des paramètres du système apprenant. Les cartes
auto-organisatrices de Kohonen en sont un exemple. L'idée est ici de créer
en ligne un découpage de l'espace, induit par les variables d'entrée du
système en un ensemble de zones élémentaires (assimilables à un pavage de
Voronoï) qui sont chacune sous l'influence d'un vecteur paramètre (neurone).
Les vecteurs paramètres sont modifiés à chaque pas de temps suivant une loi
barycentrique entre le vecteur d'entrée observé et le vecteur paramètre le
plus proche, ainsi que ses voisins (spécifiés par une certaine topologie
définie a priori). Ces zones élémentaires peuvent être regroupées en
classes a posteriori grâce à un algorithme supervisé. Le principe
d'évolution des paramètres permet de resserrer le maillage autour des
zones de l'espace d'entrée ou un maximum de points se concentrent.
L'apprentissage semi-supervisé est, comme son nom l'indique, un
intermédiaire entre les deux approches précédentes. L'idée
principale est de guider l'apprentissage, à chaque pas de temps,
en mesurant la qualité de l'action entreprise au pas de temps
précédent, par rapport à l'atteinte d'un objectif donné; cette
mesure est donnée par un signal de renforcement r(t), que
l'on peut comparer à une récompense (si l'objectif est atteint) ou
à une punition (une erreur est commise). La valeur de ce signal
peut être très pauvre, voire binaire (atteinte oui ou non de
l'objectif à l'instant t). L'objectif de l'apprentissage est
d'estimer, par essais/erreurs successifs, la qualité de chaque
action dont le système dispose à l'instant t, en fonction des
données d'entrées (perception) et de l'objectif à atteindre, afin
de choisir la meilleure.
suivant: Problématique et méthodes de
monter: Cadre général de l'apprentissage
précédent: Références générales
  Table des matières
2002-03-01