...Barto19831
La première application utilisant les idées de base de l'AR et en particulier de la méthode des différences temporelles est due à [Samuel, 1959], qui a élaboré un joueur d'échec auto-apprenant
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
... atteindre2
Nous entendons par ``objectif'' la réalisation d'une tâche précise, ce qui inclus également les tâches de ``survie'' (rester dans un certain domaine de viabilité)
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
... étendus3
Dans ce cas, on suppose que la connaissance des k derniers états aux instants t-1,t-2,...,t-k rend le problème markovien
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
... (POMDP)4
Un POMDP est un MDP, possédant un ensemble déterminé d'états. La différence avec un MDP réside dans le fait qu'on ne puisse pas forcément observer l'état courant. Cependant, pour combler ce manque, on possède un ensemble d'observations, qui peuvent être d'ordre probabiliste, grâce auxquelles on peut accéder aux états du système. Cela nécessite a priori la connaissance complète du passé du système.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
... Khepera5
Pour une description plus approfondie de ce robot, se reporter au chapitre 4. Une documentation précise est donnée par [Mondada et al., 1994]
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
...simulé6
Pour ces expériences, nous avons utilisé l'environnement de simulation créé par Michel [Michel, 1996].
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
... posé7
Ce sont des zones dans lesquelles la fonction valeur associée à chacune des actions varie très peu, donc pour lesquelles une politique ``gloutonne'' de choix va déterminer une action unique
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
... théorique8
Si on nomme $ \alpha_{n}^{}$ le pas d'apprentissage pour la nième itération, les deux conditions suivantes doivent être respectées: $ \lim_{n \rightarrow \infty}^{}$($ \sum_{k=0}^{n}$$ \alpha_{n}^{}$) = $ \infty$ et $ \lim_{n \rightarrow \infty}^{}$($ \sum_{k=0}^{n}$($ \alpha_{n}^{}$)2) < $ \infty$.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
... Damasio9
Voir la biographie, page [*]
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
... beaucoup10
Cette option scientifique a généré un ensemble d'études sur l'émergence de comportements complexes à partir d'entités dont le fonctionnement intrinsèque est très simple (comportement de groupe des fourmis, par exemple). On postule que la complexité est un résultat global qui résulte d'une interaction adéquate entre ces entités simples, ce qui revient à déplacer le problème au niveau de la communication entre ces entités.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
... ELIZA11
ELIZA est un programme simple qui imite un psychanalyste face à son patient. ELIZA est un exemple de programme qui réussit le test de Turing, sans pour autant implémenter des techniques d'Intelligence Artificielle
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
... vivant)12
Néanmoins, comme l'a fait Descartes, Turing pose le problème de ``l'interfaçage'' entre la pensée abstraite et le corps en pratique, car il convient de la nécessité de pourvoir une machine d'éléments de perception et d'action sur son environnement, afin de reproduire les capacités humaines. Mais il s'avère que l'interfaçage n'est pas un problème mineur, à l'inverse de ce que pensait Turing
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
... connaissances13
Il faut différencier un fait d'une connaissance. Le premier est une donnée qu'on utilise dans un cadre précis, alors que la connaissance s'utilise "selon un mécanisme qui suit les indications données par la connaissance pour aboutir finalement à un résultat" ( [Pitrat, 1990], page 30)
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
... fausse14
La cosmologie a longtemps été inspirée par les idées d'Aristote. L'une d'entre-elles était que le mouvement de tout corps céleste est circulaire. En effet, le cercle était associé à la perfection, donc à l'idée de divinité. Le ciel étant de domaine des dieux, les corps célestes devaient posséder ce mouvement circulaire. Une autre stipulait que la terre était le centre de l'Univers. Dans ce contexte, le référent est la comparaison des trajectoires observées avec les modèles qu'ils avaient élaborés. Or, en utilisant les hypothèses (fausses) d'Aristote, l'approximation de la trajectoire des planètes a donné lieu à des modèles épicycloïdaux, où le mouvement des planètes s'inscrit dans des épicycles s' appuyant sur des cercles qui demeurent centrés sur la Terre. Il est intéressant de constater qu'à partir d'hypothèses fausses (l'hypothèse géocentrique et l'utilisation de trajectoires circulaires imbriquées), les résultats obtenus ont été très satisfaisants. Par contre, les modèles étaient particuliers à chacune des planètes étudiées et étaient très compliqués (la trajectoire de Mars était très bien reproduite avec des modèles contenant jusqu'à une vingtaine d'épicycles imbriquées). C'est ainsi que, à partir du modèle héliocentrique de Copernic, Kepler formule des lois concernant l'évolution des planètes. Cette découverte signifie plus qu'un changement d'hypothèse: le dogme d'Aristote tombe, ainsi que l'idée que la mécanique céleste n'est pas compréhensible intrinsèquement (par la découverte de lois physiques), mais simplement observable. Le référent n'est plus simplement une concordance la plus exacte possible du modèle et de la réalité dans un contexte précis (une planète précise) mais la concordance d'une loi avec les différentes observations (généralisation à un ensemble de planètes). Le mouvement des planètes n'est plus un ensemble de cas particuliers, car les trajectoires sont la manifestation de lois physiques.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
... existent15
Cela ne signifie pas que certaines hypothèses présentées ici ne sont pas critiquables. Nous voulons simplement exprimer que celles-ci ne résultent pas d'une pure spéculation dans la mesure où il existe des indices, plus ou moins importants, tendant à les appuyer.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
...Flatland16
Flatland est raconté par un être imaginaire vivant dans un monde possédant deux dimensions. Faisant en rêve la rencontre avec un être issu d'un monde monodimensionnel, il tente en vain de faire comprendre à celui-ci la possibilité d'exister en deux dimensions. Cette histoire montre très simplement que la possibilité d'appréhender le monde dépend avant tout de ses propres sens.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
... l'objectif17
Par exemple, il a été prouvé que les enfants dont on n'avait pas détecté un défaut de vision avaient plus de mal à apprendre à lire
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
... tâche18
Il faut prendre le terme ``tâche'' dans son acception la plus large, incluant les aspects relationnels
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
... Watzlawick19
Voir la biographie, page [*]
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
... ordre20
Ce que Watzlawick nomme ``réalité de second ordre'' est l'image de la réalité qu'un individu s'est construite et qui lui est propre.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
... parfaitement21
Cela signifie que l'objectif associé à la tâche est atteint d'une manière certaine (en référence aux deux signaux émotionnels dont nous avons parlé à la fin du paragraphe 1.3.2). Toutefois, il ne s'agit pas de voir ici un quelconque caractère d'optimalité.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
... niveau22
Il s'agit de problèmes où l'objectif apparent peut induire des situations de dilemme, n'aboutissant a priori à aucune solution. Mais la transformation de l'objectif initial en un objectif moins ambitieux peut débloquer la situation en engendrant des possibilités de réalisation.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
... Sauvage23
Voir la biographie, page [*]
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
... années24
Plus de 30% par an sur 30 ans, alors que la moyenne est inférieure à 10%
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
... similaire''25
Dans ce cas, nous ne parlons évidemment pas de la probabilité d'obtenir exactement les points du graphe, mais de la probabilité d'avoir, ``à l'oeil nu'', l'impression que les deux graphes sont les mêmes. Nous formaliserons précisément cette ``impression'' dans le chapitre 2.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
... Gamow26
Voir la biographie, page [*]
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
... nulle27
Un calcul portant sur une pièce de 3 m sur 4.5 m avec 3 m de plafond donne un nombre de molécules présentes de l'ordre de 1027 et la probabilité pour chaque molécule d'être d'un coté ou de l'ordre est très voisine de 1/2. Ce qui donne une probabilité d'apparition de l'événement de $ {\frac{1}{2}}$1027 $ \simeq$ 10-3.1026 !
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
... Ameisen28
Voir la biographie, page [*]
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
... quasi-déterministe29
Dans ce cas, la plupart des faits pouvant exister théoriquement à un instant t donné possède une probabilité associée tellement faible qu'elle n'apparaît jamais en réalité.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
... existante30
Dans le cadre des méthodes d'apprentissage par renforcement, nous avons souligné dans les préliminaires que l'intervention du hasard est nécessaire dans la phase d'exploration, pour découvrir une première solution au problème.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
... l'expérience31
C'est-à-dire qu'il intervient, comme dans l'expérience précédente, uniquement pour choisir une réponse au hasard
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
... précédent32
Le problème, tel qu'il est posé jusqu'à présent, possède un univers des possibilités réduit à deux solutions (la personne cobaye répond ``oui, la courbe a été générée aléatoirement'' ou ``non''); cette taille est fixe, quel que soit le nombre de points de la figure, et l'observateur n'en maîtrise pas la valeur.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
... probabilité33
Nous montrerons que le choix de $ \epsilon$ $ \in$ ]0, 1[ et de l au début de l'expérience conditionne directement la valeur des paramètres h,i
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
... [0,1]34
Il est bien évident que si l'univers des possibilités contient l'ensemble des évolutions possibles des points sur h pas de temps (cet ensemble et [0, 1]h sont alors équipotents), y compris celles qui sont issues d'un choix aléatoire des points, le processus d'élagage n'est plus opérant.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
... distinctes35
Cela présuppose une notion d'égalité entre deux suites, qui sera évoquée au cours du chapitre 3.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
... 36
Concernant le passage de la mémoire du focus père vers le focus fils, dans le cas où le focus père posséderait une mémoire dont l'horizon h est supérieur à celui du fils, on recopie simplement les informations relatives à cette mémoire dans la limite de l'horizon de celle du fils, en ``oubliant'' les plus anciennes. Il se peut également que le nouveau focus soit ``mort-né''. En effet, si la mémoire du père fait apparaître un nombre d'erreurs tolérées supérieur aux contraintes du fils, ce dernier ``meurt'' de fait.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
... temps37
d = h.$ \Delta$d
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
... supposition38
Néanmoins, pour des raisons évidentes de temps de calcul, nous n'avons vérifié cela que dans la limite de probabilités voisines de 10-3, pour une unique valeur de l (l=0.1).
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
... t+d)39
Voici l'explication concernant ce fait: il n'est pas bien difficile de constater qu'on peut toujours obtenir au moins un tuyau contenant au moins deux points. Il suffit pour cela de prendre les points obtenus aux instants t et t+d et de choisir le tuyau dont le centre passe par ces deux points.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
... souvenir40
Par analogie avec ce que nous avons déjà vu dans le chapitre 2, concernant la construction ou la non-construction d'une observation en fonction du paramètre $ \epsilon$ associé à la notion de certitude, la constitution ou la non-constitution du souvenir à partir d'une observation va être déduite d'un tel paramètre: ainsi, le fait de dire ``Je ne sait pas'' est une réponse aussi satisfaisante que de dire ``Je sais'', dans le sens où les deux résultats sont donnés avec la même certitude.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
...hyp_uni)41
L'utilisation de cette bande à ``trous'' n'est pas innocente: nous constatons que les deux pôles constitutifs de la mémoire du vivant (le génome au centre des cellules, et le cerveau) sont constitués d'un ensemble importants d'éléments de base ne servant apparemment à rien. C'est par analogie à ces faits que nous avons pensé à cette structure à trous de la mémoire, bien que rien ne prouve que ces éléments biologiques soient réellement tout à fait inutiles en eux-mêmes.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
... mécanisme42
Initialement, ce mécanisme consistait simplement à découper a priori l'espace perceptif, c'est-à-dire [0, 1]p, en un ensemble de ``boîtes'' associée chacune à un état déterminé. Cette démarche était naturellement trop simplificatrice, et cela nous a amené à envisager l'établissement d'un processus global de perception/mémorisation, qui est l'objet des chapitres 2 et 3.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
... elliottiste43
Une théorie proposée par Elliott et vérifiée assez largement dans la réalité stipule que l'évolution d'un marché peut être décomposée en tendances, sous-tendances, etc. qui obéissent à une certaine régularité et qui peuvent s'inscrire dans des cycles de durer variable.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
... -n.(j+1)44
n.(j+1) correspond au nombre total d'états, à l'exclusion de l'état terminal
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.