1.1.2 Caractérisation des données
La caractérisation des données est devenue depuis quelques années une stratégie prioritaire pour optimiser l'apprentissage. Elle consiste à extraire d'un signal ou d'un ensemble de données les caractéristiques propres du support de ces données afin de se focaliser sur les informations pertinentes. Notre approche est basée sur l'utilisation des méthodes de projection linéaire (ACP, ACI) ou non linéaire (ACC) et de regroupement par quantification vectorielle (LVQs, cartes de Kohonen). Nous avons particulièrement travaillé [VIG97T] sur la méthode ACC qui se distingue des cartes de Kohonen par une plus grande flexibilité dans l'auto-organisation des unités car la topologie n'est pas imposée a priori [VIG96cC]. Ceci permet une mise en forme qui explicite partiellement le problème de reconnaissance dans un espace de représentation nettement plus informatif que l'espace initial. Il en résulte que, par exemple pour des problèmes de classification, ce traitement des données permet une économie considérable sur le développement du classifieur (qui peut être réalisé par un réseau à apprentissage supervisé extrêmement simple).
Ces méthodes offrent l'opportunité, d'une part, de fournir des outils génériques pouvant être potentiellement utilisés dans la plupart des thèmes d'activité des différentes branches du CEMIF et, d'autre part, de permettre le développement d'applications externes diverses.
On peut citer :
Deux autres projets importants sont actuellement en démarrage :
Par ailleurs, en lien avec le thème 1.2 (traitement de données imprécises et incertaines), nous avons débuté un travail sur la classification de données qualitatives par cartes de Kohonen. En effet, extraire de l'information d'un ensemble de données qualitatives provenant d'un tableau de réponses (sondage par exemple) est un problème difficile : les données sont par nature imprécises et faiblement informatives. Les méthodes les plus utilisées sur ce type de problème sont des méthodes de type factorielles, donc des méthodes projectives qui perdent la structure non-linéaire des données. Le but des travaux en cours est d'utiliser des méthodes non-linéaires pour analyser la structure de ces données. On peut relier ces recherches à la classification de données floues. Les premiers tests sur des données économiques ont donné des résultats très encourageants.