Créneau
| Sem 4/Sem 6 Lu 8 h 30 - 11 h 15 Sem 6 Lu 8 h 30 - 11 h 15 |
| Aucune |
Prérequis
| Cours de probabilités de première année (1PROB) Cours d'optimisation de première année (1OPTI) Cours de statistiques de deuxième année (STAT) |
Enseignant responsable
|
Badr-Eddine CHERIEF-ABDELLATIF
|
Equipe enseignante
| El Mahdi KHRIBCH |
Objectifs du module
| À l'issue de ce module, les étudiants sauront : 1. Comprendre les problèmes principaux posés par la grande dimension en statistique (" fléau de la dimensionnalité "), ainsi que les nombreux bienfaits de la grande dimension (" bénédiction de la dimensionnalité "). 2. Sélectionner des modèles statistiques pertinents en grande dimension : sparsité, structure de type faible rang, choix du type de régularisation. 3. Analyser la performance statistique des principaux estimateurs utilisés en grande dimension. 4. Implémenter ces méthodes à l'aide de librairies Python, et évaluer la qualité des estimateurs entraînés. |
Programme du module
| 0. Introduction et motivation. Présentation de quelques problèmes de géométrie et de probabilités en grande dimension et du " fléau de la dimensionnalité ". 1. Rappels sur la régression linéaire et sur le maximum de vraisemblance. Étude de la performance de l'estimateur en " petite " dimension. 2. Shrinkage & phénomène de Stein. Analyse de la sous-optimalité du maximum de vraisemblance en grande dimension. 3. Systèmes linéaires indéterminés et sparsité. Introduction à la problématique de la sélection du modèle : principes et théorie. 4. Relaxation convexe. Définition de la procédure Basis Pursuit et de l'esimateur LASSO. Analyse de transitions de phases pour la Basis Pursuit. 5. Étude théorique détaillée du LASSO en régression linéaire pour différents objectifs (prédiction, estimation, sélection de variables). 6. Sur-paramétrisation et sur-apprentissage bénin : le cas de la régression linéaire. Étude de la performance de l'interpolant de norme euclidienne minimale et de l'estimateur Ridge. 7. Extensions : Régression multivariée, Classification supervisée, Analyse en Composantes Principales en Grande Dimension, Clustering, Tests multiples. |
Modalités
| Quatre séances de travaux pratiques d'1h15 et quatre séances de travaux dirigés d'1h15 auront lieu sur les créneaux du cours. Un devoir sera à effectuer à la maison et à rendre à mi-parcours, et un projet en groupe sera proposé avec une courte soutenance (autour de dix minutes) pendant la dernière séance. Le devoir à la maison et le projet de groupe devraient représenter entre 10 et 15 heures de travail chacun. |
Contrôle des connaissances - Règles de validation du module
| 25% de l'évaluation finale couvrira le devoir à rendre à mi-parcours, 25% concernera le projet de groupe, et les 50% restants prendront la forme d'un examen final théorique d'1h30 le jour de la dernière séance. |
Documents pédagogiques - Bibliographie
| Un polycopié est mis à disposition des étudiants. Des slides serviront de support de cours et seront fournis au fur et à mesure. |
Effectif maximal
| Effectif illimité |
Département de rattachement
| Département Ingénierie Mathématique et Informatique |
Nombre de crédits ECTS
| 3 crédits ECTS |
Mise à jour
| 01 Septembre 2024 |
Code
| HISTA |