Mas 2012

Journées MAS 2012

Titre de la session

Statistiques en grande dimension.
Organisateur: Erwan Le Pennec ( Paris Sud, Inria Saclay, IdF)

Orateurs, titres et résumés

Vincent Rivoirard (Dauphine): Les méthodes de type lasso pour les problèmes en grandes dimensions :Panorama non-exhaustif et application pour l’étude des processus de Hawkes multivariés.

Résumé: Dans un premier temps, on expose les raisons de la popularité des procédures par pénalisation 1 pour l’étude des problèmes en grandes dimensions. On décrit les avantages méthodologiques de l’estimateur lasso proposé dans Tibshirani (1996), puis de quelques procédures dérivées du lasso. On présente ensuite les résultats théoriques que ces procédures vérifient en particulier dans le cadre de l’approche oracle en mettant en exergue la nature des hypothèses nécessaires. Les aspects de calibration dans les cadres appliqué et théorique sont également évoqués. Dans un second temps, nous introduisons les processus de Hawkes pour lesquels la valeur de l’intensité en un instant donné dépend des occurrences passées du processus. De tels processus ont servi à modéliserles secousses sismiques d’un tremblement de terre ou plus récemment les occurrences de motifs sur un brin d’ADN. Nous montrons comment les procédures de type lasso peuvent révéler les interactions entre différents types de motifs, illustrant, dans le cadre multivarié, certains aspects décrits dans la première partie.

Mathilde Mougeot (Paris Diderot): Régression en grande dimension et stratégie de regroupement de variables

Résumé: La procédure LOL (Learning Out Of Leaders) permet de résoudre des problèmes de régression en grande dimension, sans phase d’optimisation. Cette procédure, extrêmement simple, est composée de deux seuillages successifs. Le premier seuillage induit une réduction de dimension en sélectionnant les covariables potentiellement intéressantes pour le modèle de régression. Puis, le deuxième seuillage sélectionne les coefficients du modèle à retenir. Sous de conditions de sparsité et de cohérence, cette procédure est consistante et les vitesses de convergence associées sont calculées. Nous montrons dans cet exposé comment cette procédure peut facilement être adaptée pour résoudre des problèmes de régression où les objets considérés ne sont pas des variables individuelles mais des groupes de variables. Lorsque les groupes ne sont pas connus, nous proposons une méthode auto-adaptive qui permet de former automatiquement les groupes de variables (Boosting Grouping). Nous montrons que cette méthode augmente la vitesse de convergence de l’algorithme. Les résultats théoriques sont illustrés à l’aide d’applications et de simulations qui étudient différentes stratégies pour le regroupement de variable et qui démontre l’intérêt du Boosting Grouping.

Stéphane Gaïffas(UPMC)(en collaboration avec E Richard et N Vayatis) : Link Prediction in Graphs with Autoregressive Features.

Résumé : Nous considérons le problème de la prédiction de liens dans des graphes évoluant avec le temps. Nous supposons que certaines caractéristiques du grpahe, comme le degré des noeuds suivent un model autoregressif vectoriel (VAR en anglais)et proposons d’utiliser cette information pour améliorer la précision des prédictions. Notre stratégie implique une procédure d’optimisation jointe sur l’espace des matrices d’adjacence et des matrices VAR qui prend en compte à la fois la parcimonie et le faible rang de ces matrices. Des inégalités oracles sont obtenues, elles illustrent les compromis dans le choix des paramètres de régularisation lorsqu’on modèle l’effet joint des propriétés de parcimonie et de faible rang. L’estimateur est calculé de manière efficace en utilisant une méthode proximale, un algorithme forward-backward généralisé.

Hélène Lescornel (Toulouse): Un modèle de déformation de distributions : estimation paramétriqueavec la distance de Wasserstein.

Résumé : On se place dans le cas où l’on observe des variables aléatoires suivant différentes lois provenant d’une même distribution déformée. Les déformations sont modélisées par des opérateurs paramétriques. Le but est d’estimer les paramètres de déformation et la mesure structurelle afin de pouvoir définir une distribution moyenne. Pour cela, on cherche à aligner les distributions des observations en utilisant un critère basé sur la distance de Wasserstein. On présentera les propriétés asymptotiques de consistance et de convergence en loi des estimateurs qui sont obtenues grâce aux théorèmes de M-estimation.