Chloé Friguet

Inférence simultanée en grande dimension en présence de dépendance

Résumé

Motivé par des applications dans le domaine de l'analyse de données génomiques, nous nous intéressons dans cet exposé à l'étude de l'impact de la dépendance sur les propriétés des procédures de tests multiples en grande dimension. Notre proposition consiste à considérer un modèle d'Analyse en Facteurs pour la structure de dépendance entre les variables. Un algorithme de type EM est présenté pour estimer les paramètres du modèle ainsi qu'une méthode ad hoc pour déterminer le nombre optimal de facteurs à inclure dans le modèle. L'introduction de cette modélisation permet de définir un cadre général pour la prise en compte de la dépendance en inférence simultanée, non pas au niveau de chaque étape des procédures mais globalement. L'estimation du taux de faux-positifs et de la proportion d'hypothèses nulles, paramètre important qui intervient dans le contrôle des taux d'erreurs, sont étudiés plus particulièrement, montrant ainsi l'instabilité des procédures d'inférence simultanée provoquée par la dépendance entre tests. La nouvelle approche présentée a pour objectif de réduire cette dépendance, procurant à la fois une augmentation de la puissance des tests et une diminution de la variabilité des taux d'erreurs. Les extensions de cette approche pour la modélisation de la dépendance pour des problématiques d'inférence sur réseaux géniques ou de sélection de modèle en classification supervisée sont également évoquées. Ces résultats méthodologiques sont illustrés à partir de données génomiques et les résultats des analyses sont obtenus grâce au package FAMT (Factor Analysis for Multiple Testing), qui implémente cette méthodologie dans R (http ://famt.free.fr/).