next up previous contents
suivant: Problématique et méthodes de monter: Cadre général de l'apprentissage précédent: Références générales   Table des matières

Positionnement de l'AR par rapport à d'autres méthodes d'apprentissage

La caractéristique majeure de l'ensemble des techniques que l'AR englobe est que l'apprentissage est semi-supervisé. Le terme ``semi-supervisé'', par opposition à ``supervisé'' ou ``non-supervisé'', désigne la nature de l'information qui est transmise au système apprenant à chaque pas de temps en retour de l'action qu'il vient d'accomplir. Voici une brève explication des deux termes ``supervisé'' et ``non-supervisé'', ainsi que les outils les plus courants qui leur sont associés.
Dans le cas ``supervisé'', cette information correspond à l'erreur exacte entre ce que le système a accompli et ce qu'il aurait dû faire; cela suppose la connaissance a priori d'un ensemble d'exemples d'associations perception/action. L'apprentissage revient alors à construire un modèle général à partir de ces exemples, supposés être représentatifs du fonctionnement du système. Donc, d'un point de vue pratique, il s'agit de déterminer les paramètres d'une fonction interpolant ``au mieux'' cette base d'exemples perception/action. Si on possède uniquement des informations numériques sur le processus, on pourra utiliser des réseaux de neurones multi-couches (dont les fonctions de base sont des sigmoïdes [*]) ou des réseaux RBF [*] (dont les fonctions de base sont typiquement des gaussiennes). Par contre, si on possède une information plus qualitative, on pourra utiliser des techniques de logique floue (systèmes d'inférence floue).
Dans le cas ``non-supervisé'', une loi d'évolution, fixée a priori, dirige la modification des paramètres du système apprenant. Les cartes auto-organisatrices de Kohonen en sont un exemple. L'idée est ici de créer en ligne un découpage de l'espace, induit par les variables d'entrée du système en un ensemble de zones élémentaires (assimilables à un pavage de Voronoï) qui sont chacune sous l'influence d'un vecteur paramètre (neurone). Les vecteurs paramètres sont modifiés à chaque pas de temps suivant une loi barycentrique entre le vecteur d'entrée observé et le vecteur paramètre le plus proche, ainsi que ses voisins (spécifiés par une certaine topologie définie a priori). Ces zones élémentaires peuvent être regroupées en classes a posteriori grâce à un algorithme supervisé. Le principe d'évolution des paramètres permet de resserrer le maillage autour des zones de l'espace d'entrée ou un maximum de points se concentrent.
L'apprentissage semi-supervisé est, comme son nom l'indique, un intermédiaire entre les deux approches précédentes. L'idée principale est de guider l'apprentissage, à chaque pas de temps, en mesurant la qualité de l'action entreprise au pas de temps précédent, par rapport à l'atteinte d'un objectif donné; cette mesure est donnée par un signal de renforcement r(t), que l'on peut comparer à une récompense (si l'objectif est atteint) ou à une punition (une erreur est commise). La valeur de ce signal peut être très pauvre, voire binaire (atteinte oui ou non de l'objectif à l'instant t). L'objectif de l'apprentissage est d'estimer, par essais/erreurs successifs, la qualité de chaque action dont le système dispose à l'instant t, en fonction des données d'entrées (perception) et de l'objectif à atteindre, afin de choisir la meilleure.
next up previous contents
suivant: Problématique et méthodes de monter: Cadre général de l'apprentissage précédent: Références générales   Table des matières
2002-03-01