5 Sensation de sécurité comme moteur de l'apprentissage

suivant: 6 Faculté d'anticipation: résultat monter: 3 Faits et hypothèses précédent: 4 Nature de la Table des matières

5 Sensation de sécurité comme moteur de l'apprentissage

Hypothèse _s La recherche de la cohérence (voir l'hypothèse 6) est guidée par un besoin sécuritaire, plutôt que par une volonté d'optimisation. La sensation de sécurité ou d'insécurité est ressentie par l'individu à tout moment. L'objectif de l'apprentissage est d'établir d'une manière permanente cette sensation de sécurité. Cela signifie d'une part que l'apprentissage peut être vu comme un moyen de satisfaire des contraintes précises à tout moment mais aussi, d'autre part, que ces contraintes sont compatibles avec la performance des moyens de perception et d'action que l'individu possède.

Comment cette notion de cohérence se traduit-elle ? Dans ce travail, nous supposons que le moteur de l'apprentissage est la recherche de la sécurité ou du bien-être. Ce point de départ est relativement comparable à celui des travaux de Pavlov, qui sont eux-mêmes le point de départ ``biologique'' des méthodes d'apprentissage par renforcement. Mais, nous ajoutons la notion de certitude: cela signifie que l'objectif de l'apprentissage est l'atteinte à coup sûr d'un objectif.
Cette nouvelle exigence est extraordinairement forte, et impose directement des restrictions sur la nature et la précision de l'objectif à atteindre. La figure 1.10 montre la différence entre l'approche que nous avons adoptée (schéma de droite) et l'approche classique, orientée uniquement par un objectif. Ainsi, nous distinguons la nature de l'objectif (ce qui doit être fait) avec le degré de précision avec lequel il doit être atteint. En effet, cette précision dépend essentiellement des moyens que l'individu possède pour résoudre le problème. En fait, cette distinction importante repose sur la question suivante: les êtres vivants recherchent-ils la meilleure solution à leurs problèmes (optimisation) ou se contentent-ils de solutions satisfaisantes (respectant un certain nombre de contraintes perceptibles) ? Nous posons ainsi le problème de l'adaptation de l'objectif lui-même aux possibilités de l'individu. En ce sens, nous sommes proches des idées développées par [Thagard et Barnes, 1996] et [Thagard et Millgram, 1997] dans l'atteinte d'objectifs de haut niveau²²: l'idée est qu'il est impossible de figer tout à fait un objectif, car il risque de s'avérer incompatible avec la situation ou les possibilités de l'individu, conduisant à un échec; il est donc nécessaire d'entrevoir un système d'aller/retour entre la précision (l'exigence) de l'objectif et les possibilités réelles de la personne. C'est pourquoi nous envisageons l'atteinte d'objectif comme le respect d'un ensemble de contraintes.
Notre choix implique que la recherche de la meilleure solution possible (optimalité) n'a pas de sens, en général, si elle est déconnectée des capacités qui existent effectivement pour obtenir cette solution. Or, les algorithmes d'apprentissage, fondés sur des méthodes d'optimisation, sont basés implicitement sur l'indépendance de la spécification de l'objectif et des moyens pour y parvenir. De plus, les techniques d'optimisation imposent certaines exigences. En particulier, il doit exister un référent unique (une fonction de coût), indépendant des moyens de perception et d'action de l'entité, qui permet finalement de comparer les solutions entre elles grâce à une distance. Or, ce principe de comparaison semble biologiquement peu plausible. Les patients étudiés par Damasio (voir la section 1.3.2) en sont un exemple. Privés du filtrage émotionnel, ils en sont réduits à évaluer chacune des solutions possibles en termes de coût, pour arriver à prendre la meilleure décision: cette technique aboutit à un échec. D'autre part, la notion de distance implique qu'il y ait transitivité: si x est préféré à y et y est préféré à z alors x est préféré à z. Cette propriété, supposée vraie dans la théorie de la décision classique, est souvent violée par les êtres humains; c'est ce que montrent les études menées dans [Kahneman et Tversky, 1979] et [Tversky et Kahneman, 1981]. Dans le même ordre d'idées, la faculté d'attribuer une ``note'' à un fait, donc de pouvoir après coup ordonner ces faits, est très subjective, même si la notation est régie par des prédicats objectifs. Ainsi, une étude menée à Lyon sur la notation de devoirs de mathématiques donnés à des élèves de niveau DEUG a montré que, pour une même copie, des professeurs pouvaient donner des notes dont l'écart est de plusieurs points, alors qu'un barème précis au demi-point leur avait été fixé. D'autre part, un professeur pouvait noter la même copie a des moments différents avec des écarts conséquents.
Tout cela ne signifie pas que l'idée d'optimisation doit être éliminée; celle-ci tient une place importante, mais à un beaucoup plus haut niveau de l'intelligence: en effet, l'optimisation se traduit par la volonté consciente de l'individu d'élaborer une stratégie ou un algorithme précis pour obtenir un résultat le plus performant possible. Or, comme nous l'avons évoqué, l'apprentissage se déroule principalement à un bas niveau. L'hypothèse des marqueurs somatiques formulée par Damasio suggère qu'un filtre émotionnel permet aux possibilités pertinentes ou ``bonnes'' de parvenir au conscient de l'individu lors d'une prise de décision, en écartant les ``mauvaises''. Les solutions jugées ``bonnes'' peuvent, après coup, être traitées consciemment avec une volonté d'optimisation. On voit apparaître l'opposition manichéenne entre le bon et le mauvais. Dans ce cadre, une solution doit pouvoir être jugée d'une manière binaire; toutes celles qui sont étiquetées à ``bon'' sont donc des solutions équivalentes: elles respectent les contraintes du problème. En suivant cette hypothèse, la notion de distance entre deux solutions est donc rendue triviale.
Nous avons vu au début de ce paragraphe que l'opposition entre optimisation et satisfaction de contraintes met en lumière une deuxième question: ``Comment gérer l'incertain ?''. Le formalisme de l'AR, utilisant les chaînes de Markov, donne une réponse à cette interrogation: le choix d'une action est fait par rapport à la fréquence des bonnes réactions qui ont été enregistrées dans le passé. Ainsi, l'individu cherche à maximiser ses chances d'effectuer la meilleure séquence d'actions possible (suivant un objectif précis) en utilisant son expérience passée, sachant qu'il se peut qu'il se trompe complètement dans son choix à un moment donné. Au contraire, l'objectif de respect de contraintes est de choisir une séquence d'actions dont l'individu est certain qu'elle ne mènera pas à un non respect de ces contraintes.
D'un point de vue comportemental, une solution visant l'optimal pourrait être qualifiée de ``raisonnée'', alors que le problème de respect de contraintes est ``sécuritaire''. Comme nous l'avons mentionné au début de cette section, le premier cas est lié davantage à un comportement de ``haut niveau'' alors que le second est plus instinctif. En outre, le second point de vue est connecté à la notion biologique d'homéostasie, c'est-à-dire la caractéristique propre à tous les êtres vivants d'auto-réguler inconsciemment leur métabolisme. En effet, ce dernier peut être vu comme un ensemble de contraintes physiologiques internes à réguler impérativement (fréquence cardiaque, fréquence respiratoire, température, taux de glycémie, etc.). En outre, il existe une interaction entre le circuit homéostatique et les émotions [Damasio, 1999].

**Figure:** Démarches comparées d'atteinte d'objectif
$\includegraphics{fig/securite.eps}$

suivant: 6 Faculté d'anticipation: résultat monter: 3 Faits et hypothèses précédent: 4 Nature de la Table des matières

Frédéric Davesne 2001-07-13