La figure A.3 montre le système étudié. Il est composé d'un
chariot possédant un degré de liberté (axe des X) et d'un pendule, en liaison
rotule avec le chariot, dont on suppose qu'il possède également un degré de
liberté, symbolisé par l'angle entre la tige et l'axe vertical du chariot.
Figure:
Le problème du pendule inversé
Les équations de la dynamique du système sont reprises de [Anderson, 1989]. Les voici:
La simulation utilise la méthode d'Euler pour intégrer ces
équations, avec un pas d'échantillonnage .
Nous reprenons le problème, tel qu'il a été décrit dans
[Barto et al., 1983], avec les mêmes paramètres physiques (voir la
table A.1). L'objectif est de maintenir à la fois le
chariot entre les limites et et la
position angulaire de la tige dans le cône de viabilité délimité
par
et
, en une des deux actions
suivante à chaque pas de temps: pousser sur le chariot vers la
gauche, avec une force F ou pousser sur la droite, avec une force
F.
Tableau:
Valeur des paramètres physiques du problème du pendule inversé
Masse du chariot m
1 kg
Masse de la tige
0.1 kg
Demi-longueur de la tige l/2
0.5 m
Constante de pesanteur g
9.8 N.
Pas d'échantillonnage
0.02 s
Valeur absolue F de la force appliquée au chariot
10 N
2.4 m
12 deg
Dans [Barto et al., 1983], les données d'entrée sont les quatre
variables d'état , ,
, .
L'espace d'états est découpé en boîtes suivant la table
A.2, ce qui donne 162 boîtes.