Méthodologie d'étude des capacités d'apprentissage du système global
Il nous faut préciser la nature des deux phases d'apprentissage:
l'apprentissage perceptif (association perception/état) et
l'apprentissage d'une action réflexe (association état/action).
L'apprentissage résulte de l'interaction entre le système et son
environnement. Dans ce cadre, nous pensons que le problème de
preuve sur la fiabilité du résultat de l'apprentissage provient du
fait qu'on ne maîtrise pas les propriétés des solutions obtenues.
Ainsi, notre idée pour générer un processus d'apprentissage dont
la fiabilité peut être prouvée est de procéder en deux étapes:
maîtriser les possibilités d'action de l'environnement sur
le système, de manière à ce que celui-ci vérifie à tout moment un ensemble
de propriétés (que nous expliquerons grâce à des contraintes d'équilibre)
avec une probabilité très proche de 1.
en considérant que ces propriétés sont toutes satisfaites (le fait qu'elles
ne le soient pas est un événement rare), les utiliser comme
hypothèses d'un raisonnement prouvant que l'interaction du système
avec son environnement peut être interprétée comme un
apprentissage.
Un système auquel des contraintes d'équilibre s'appliquent peut être
imagé par un solide déformable (voir la figure 5):
Il possède des degrés de liberté, mais les posibilités de déformation
du système sont limitées par les contraintes. Cela se traduit, dans le
cas de la figure 5, par l'existence d'un invariant structurel
de l'objet global: il s'agit toujours d'un parallélogramme, quelle que soit
la nature de la force F.
Figure:
Exemple
d'invariant structurel en mécanique.
L'application d'une force F sur l'objet composé de quatre tiges
rigides de longueur a, en liaison rotule, provoque une
modification de la forme de cet objet. Mais celui-ci sera toujours
un parallélogramme (invariant structurel).
L'avantage de couper en deux notre démarche consiste à isoler la partie
concernant l'émergence de propriétés (qu'on ne peut prouver qu'en utilisant
un raisonnement probabiliste) de l'utilisation de ces propriétés comme
hypothèses de travail pour déterminer des propriétés émergentes de
l'évolution du système. Dans ce dernier point, nous utilisons une démarche
inductive, en faisant l'hypothèse que l'ensemble des propriétés sont
vérifiées (elles le sont pratiquement, mais ne le sont pas forcément
théoriquement, d'après notre définition de la rareté) et nous montrons
par déduction (schéma de preuve classique) l'existence de propriétés
émergentes de l'évolution du système, qu'on pourrait interpréter
comme un apprentissage.
Que faisons-nous en fait ? Au lieu de contraindre l'environnement
(à la manière de l'automaticien), pour prouver la fiabilité du système,
nous contraignons les possibilités d'évolution du système lui-même: nous
l'obligeons à respecter un ensemble de contraintes. Mais, il faut noter
que ces contraintes ne possèdent pas un caractère absolu et déterministe:
nous pensons qu'il est important qu'il existe une probabilité
objective pour que le système puisse échapper à ces contraintes, mais que
cet événement doit être rare. C'est, à notre avis, le prix à payer
pour ne pas avoir besoin de contraindre l'environnement, tout en gardant
une possibilité de preuve sur la fiabilité du système.
L'AO et l'AP sont, à la base, des modélisations paramétriques (comme
tout algorithme d'apprentissage existant actuellement). Nous savons que
ces paramètres constituent des degrés de liberté pour l'expérimentateur,
lui permettant d'aboutir en pratique à une solution fonctionnelle. L'idée
essentielle qui se cache derrière l'emploi de contraintes est de créer
des relations entre ces paramètres, de manière à constituer un ensemble
restreint de paramètres valides (c'est-à-dire qui seront compatibles avec
les contraintes d'équilibre). Nous verrons, grâce aux exemples de l'AP et
de l'AO, que notre démarche permet de constituer des modèles possédant très
peu de paramètres ``libres'' . L'AO donne la meilleure démonstration à cela, puisqu'elle
est réalisée grâce à un algorithme (algorithme CbL) ne possédant aucun
paramètre libre.
En pratique, notre méthodologie est directement inspirée de
l'étude d'un système physique soumis à un ensemble de forces (qui
sont, dans notre cas, appelées ``contraintes''). Notre analyse du
problème d'apprentissage utilise trois étapes successives:
spécification du système et des contraintes d'équilibre
qui s'appliquent à ce système, à tout instant
spécification de l'interaction entre le système et son environnement
preuve que l'interaction peut être interprétée comme un apprentissage