Gilbert Saporta

Quelques méthodes "sparse " en analyse des données non supervisée

Résumé

L'analyse en composantes principales (ACP), l'analyse des correspondances (AFC) et l'analyse des correspondances multiples (ACM) sont parmi les techniques les plus efficaces pour visualiser et explorer des données numériques et catégorielles de façon non supervisée. Cependant, dans le cas de données de grande dimension, l'interprétation de combinaisons linéaires de centaines ou de milliers de variables devient très difficile. L'objectif des méthodes sparse est d'obtenir des pseudo-composantes qui sont des combinaisons linéaires d'un petit nombre de variables seulement, et donc de faciliter l'interprétation en mettant en évidence uniquement les caractéristiques les plus importantes. Cette simplification se fait au prix de la perte de propriétés caractéristiques comme l'orthogonalité des composantes et des facteurs. Ceci explique pourquoi il existe plus de 20 variantes d'ACP sparse. Par contre, la "sparsification" de l'analyse des correspondances n'a reçu que peu ou pas d'attention dans la littérature, à l'exception de l'analyse des correspondances multiples. Après un bref survol de l'ACP sparse, nous nous concentrerons sur les variantes sparse de l'analyse des correspondances (AFC) pour les grands tableaux de contingence comme les matrices documents-termes. Nous utilisons le fait que l'AFC est à la fois une ACP ou une SVD pondérée pour développer une AFC sparse en colonnes (ou sparse en lignes) et une AFC doublement sparse pour les lignes et les colonnes.