L'année de formation
Cours fondamentaux
-
Optimisation pour l'apprentissage automatique
Optimisation pour l'apprentissage automatique
Ects : 3
Volume horaire : 18
Compétence à acquérir :
- Identify the characteristics of an optimization problem given its formulation.
- Know the theoretical and practical properties of the most popular optimization techniques.
- Find the best optimization algorithm to handle a particular feature of a machine learning problem.
Mode de contrôle des connaissances :
Written exam.
Pré-requis recommandés :
Fundamentals of linear algebra and real analysis. Experience with Python programming.
Description du contenu de l'enseignement :
Bibliographie, lectures recommandées
Optimization is at the heart of most recent advances in machine learning. Indeed, it not only plays a major role in linear regression, SVM and kernel methods, but it is also the key to the recent explosion of deep learning for supervised and unsupervised problems in imaging, vision and natural language processing. This course will review the mathematical foundations, the underlying algorithmic methods and showcase modern applications of a broad range of optimization techniques.
The course will be composed of classical lectures and numerical sessions in Python. It will begin with the basic components of smooth optimization (optimality conditions, gradient-type methods), then move to methods that are particularly relevant in a machine learning setting such as the celebrated stochastic gradient descent algorithm and its variants. More advanced algorithms related to non-smooth and constrained optimization, that encompass known characteristics of learning problems such as the presence of regularizing terms, will also be described. During lab sessions, the various algorithms studied during the lectures will be implemented and tested on real and synthetic datasets: these sessions will also address several practical features of optimization codes such as automatic differentiation, and built-in optimization routines within popular machine learning libraries such as PyTorch.
Bibliography:
Theory and algorithms:
Convex Optimization, Boyd and Vandenberghe
Introduction to matrix numerical analysis and optimization, Philippe Ciarlet
Proximal algorithms, N. Parikh and S. Boyd
Introduction to Nonlinear Optimization - Theory, Algorithms and Applications, Amir Beck
Numerics:
Pyrthon and Jupyter installation: use only Python 3 with Anaconda distribution.
The Numerical Tours of Signal Processing, Gabriel Peyré
Scikitlearn tutorial #1 and Scikitlearn tutorial #2, Fabian Pedregosa, Jake VanderPlas
Reverse-mode automatic differentiation: a tutorial
Convolutional Neural Networks for Visual Recognition
Christopher Olah, Blog
Enseignant responsable :
- Clement ROYER
-
Optimisation
Optimisation
Ects : 6
Volume horaire : 24
Compétence à acquérir :
L’objectif de ce cours est d’apprendre à reconnaître, manipuler et résoudre une classe relativement large de problèmes convexes émergents dans des domaines comme, par exemple, l’apprentissage, la finance ou le traitement du signal.
Description du contenu de l'enseignement :
This course will review the mathematical foundations for Machine Learning, as well as the underlying algorithmic methods and showcases some modern applications of a broad range of optimization techniques.
Optimization is at the heart of most recent advances in machine learning. This includes of course most basic methods (linear regression, SVM and kernel methods). It is also the key for the recent explosion of deep learning which are state of the art approaches to solve supervised and unsupervised problems in imaging, vision and natural language processing.
This course will review the mathematical foundations, the underlying algorithmic methods and showcases some modern applications of a broad range of optimization techniques. The course will be composed of both classical lectures and numerical sessions in Python. The first part covers the basic methods of smooth optimization (gradient descent) and convex optimization (optimality condition, constrained optimization, duality). The second part will features more advanced methods (non-smooth optimization, SDP programming,interior points and proximal methods). The last part will cover large scale methods (stochastic gradient descent), automatic differentiation (using modern python framework) and their application to neural network (shallow and deep nets).Enseignant responsable :
- ANTONIN CHAMBOLLE
-
Statistiques en grandes dimensions
Statistiques en grandes dimensions
Ects : 4
Volume horaire : 18
Compétence à acquérir :
L’objectif de ce cours de statistique est de présenter les outils mathématiques et les méthodologies dans la situation où le nombre de paramètres à inférer est très élevé, typiquement beaucoup plus important que le nombre d’observations.
Description du contenu de l'enseignement :
Fléau de la dimension et hypothèse de parcimonie pour la régression gaussienne, les modèles linéaires généralisés et les données de comptage.
Ondelettes et estimation par seuillage.
Choix de modèles et sélection de variables.
Estimation par pénalisation convexe : procédure Ridge, lasso, group-lasso…
Liens avec l’approche bayésienne.
Méthodes d’agrégation.
Tests multiplies : procédures FDR, FWER.
Estimation matricielle.Enseignant responsable :
- VINCENT RIVOIRARD
- MARC HOFFMANN
-
Modèles graphiques
Modèles graphiques
Ects : 4
Volume horaire : 18
Compétence à acquérir :
Modélisation probabiliste, apprentissage et inférence sur les modèles graphiques. Les principaux thèmes abordés sont :
Maximum de vraisemblance.
Régression linéaire.
Régression logistique.
Modèle de mélange, partitionnement.
Modèles graphiques.
Familles exponentielles.
Algorithme produit-somme.
Hidden Markov models.
Inférence approximée
Méthodes bayésiennes.
Enseignant responsable :
- FABRICE ROSSI
-
Advanced learning
Advanced learning
Ects : 4
Volume horaire : 23
Compétence à acquérir :
Bases mathématiques pour la modélisation des problèmes d’apprentissage supervisé et l’analyse des algorithmes de classification en grande dimension. Il s’agit de présenter les bases mathématiques pour la modélisation des problèmes d’apprentissage supervisé et l’analyse des algorithmes de classification en grande dimension.
Description du contenu de l'enseignement :
Typologie des problèmes d’apprentissage (supervisé vs. non-supervisé).
Modèle statistique pour la classification binaire : Approches génératives vs. discriminantes.
Algorithmes classiques : méthodes paramétriques, perceptron, méthodes de partitionnement.
Critères de performances : erreur de classification, courbe ROC, AUC.
Convexification du risque : Algorithmes de type boosting et SVM. Mesures de complexité combinatoires, métriques géométriques.
Sélection de modèle et régularisation.
Théorèmes de consistance et vitesses de convergence.
UE Introductifs obligatoires en statistiques bayésienne
-
Introduction à R
Introduction à R
Volume horaire : 3
-
Introduction au Bayesian
Introduction au Bayesian
Volume horaire : 3
-
Introduction à Python
Introduction à Python
Volume horaire : 3
Enseignant responsable :
- DAVID GONTIER
Cours optionnels - 5 cours à choisir parmi :
-
Computational methods and MCMC
Computational methods and MCMC
Ects : 4
Volume horaire : 18
Compétence à acquérir :
Ce cours vise a présenter les bases et les développements récents des méthodes de simulation utilisées en statistique et surtout en statistique bayésienne. Les méthodes de calcul, de maximisation et d’intégration en dimension élevée sont en effet devenues nécessaires pour traiter les modèles complexes envisages dans les disciplines utilisatrices de la statistique, comme l’économétrie, la finance, la génétique, l’écologie ou l’épidémiologie (entre autres !). La principale innovation des dix dernières années est l’introduction de techniques markoviennes pour l’approximation des lois de probabilité (et des intégrales correspondantes). Elle forme donc la partie centrale du cours, mais nous aborderons également les systèmes de particules et les méthodes d’optimisation stochastique comme le recuit simulé.
Description du contenu de l'enseignement :
Motivations
Méthodes de Monte-Carlo
Rappels sur les chaines de Markov
La méthode de Metropolis-Hastings
L’échantillonneur de Gibbs
L’échantillonnage parfait
Méthodes de Monte-Carlo séquentiellesEnseignant responsable :
- CHRISTIAN ROBERT
-
Applied bayesian statistics
Applied bayesian statistics
Ects : 4
Volume horaire : 18
Compétence à acquérir :
During this course, we shall first introduce the main notions of Bayesian Statistics.
Description du contenu de l'enseignement :
We shall put in practice classical models for statistical inference in a Bayesian setting, and implement computational methods. Using real data, we shall study simple and multiple linear regression, model choice with Bayes factor computation, and a probit model. The implementation shall use several algorithms: Markov Chain Monte Carlo, importance sampling, Approximate Bayesian Computation. The course is based on the free software R.
Pre-requisite: Knowledge of the programming language R is essential.
Practical information: all sessions will be held in one of the computer rooms. All computers are installed with Ubuntu, R and RStudio. Students may bring their own laptop, which must have R installed before the first session; I strongly suggest installing RStudio (free) as well.Enseignant responsable :
- ROBIN RYDER
-
Bayesian non parametric and Bayesian Machine Learning
Bayesian non parametric and Bayesian Machine Learning
Ects : 4
Volume horaire : 18
Enseignant responsable :
- JULYAN ARBEL
- JUDITH ROUSSEAU
-
Computational neuroscience
Computational neuroscience
Ects : 4
Volume horaire : 24
Compétence à acquérir :
L'objectif du cours est d'initier les étudiants aux neurosciences computationnelles et d'enseigner les outils quantitatifs utilisés dans l'étude du cerveau
Description du contenu de l'enseignement :
Cette unité d'enseignement présentera le traitement de l'information dans le cerveau d'une perspective mathématique. Nous traiterons en particulier les matières suivantes :
Modélisation de la cognition et du comportement (conditionnement classique ; conditionnement opérant; apprentissage par réenforcement; modèles de prise de décision)
Traitement de l'information (décodage neuronale ; codage par population, traitement sensoriel ; champs récepteurs)
Dynamique et mécanismes (biophysique d'un neurone; réseaux de neurones feedforward et récurrent; mémoires associatives) -
Journalisme et données
Journalisme et données
Ects : 4
Volume horaire : 18
Description du contenu de l'enseignement :
L’objectif de ce cours est de mettre en place une interaction entre des étudiants mathématiciens et journalistes, en collaboration avec l’Institut Pratique du Journalisme. Après des interventions de deux professionnels, les étudiants formeront des groupes de 2 à 4 personnes (en mélangeant M2 MASH/TSI et M2 IPJ) pour analyser en autonomie des jeux de données de leur choix, par exemple en provenance d’Etalab. Ils auront à débroussailler les données, trouver une problématique, proposer et valider des modèles pertinents, effectuer des analyses mathématiques, choisir un angle, élaborer des visualisations de données, et rédiger un rapport accessible au grand public sous forme d’article de presse. Des rendez-vous réguliers seront organisés pour chaque groupe.Enseignant responsable :
- ROBIN RYDER
-
Algorithmique pour le traitement automatique du langage
Algorithmique pour le traitement automatique du langage
Ects : 4
Volume horaire : 24
Description du contenu de l'enseignement :
Speech and natural language processing is a subfield of artificial intelligence used in an increasing number of applications; yet, while some aspects are on par with human performances, others are lagging behind. This course will present the full stack of speech and language technology, from automatic speech recognition to parsing and semantic processing. The course will present, at each level, the key principles, algorithms and mathematical principles behind the state of the art, and confront them with what is know about human speech and language processing. Students will acquire detailed knowledge of the scientific issues and computational techniques in automatic speech and language processing and will have hands on experience in implementing and evaluating the important algorithms. -
Vie privée et données
Vie privée et données
Ects : 4
Volume horaire : 18
Compétence à acquérir :
La protection de la vie privée est devenue un enjeu majeur du développement de l’économie numérique, enjeu tout d’abord en matière de droits fondamentaux des individus, mais qui comporte de multiples dimensions (technique, économique, sociologique, politique, éthique, etc.). L’objectif de ce cours est de présenter ces défis, d’abord sur le plan technique, puis sous différentes perspectives avec des experts des disciplines concernées.
Description du contenu de l'enseignement :
Comment caractériser la notion de vie privée ? Quels sont les risques en la matière et comment s’en prémunir (instruments techniques et juridiques) ?
Économie du numérique, valorisation des données personnelles.
Les réseaux sociaux, les réseaux pair à pair et la vie privée.
Problèmes éthiques posés par le numérique, l’homme augmenté.
Vie privée et pouvoirs régaliens (police, justice, renseignement).
Gouvernance de l’internet, politiques publiques.Enseignant responsable :
- DANIEL LE METAYER
-
Apprentissage par réseaux de neurones profonds
Apprentissage par réseaux de neurones profonds
Ects : 4
Volume horaire : 24
Description du contenu de l'enseignement :
Les réseaux de neurones profonds ont des applications spectaculaires dans des domaines très divers dont la vision par ordinateur, la compréhension de la parole, l’analyse de langages naturels, mais aussi pour la robotique, la prédiction de phénomènes physiques divers, le diagnostic médical ou des jeux de stratégie comme le Go. Ce premier cours sur les réseaux de neurones présente leurs applications, les architectures de ces réseaux, les algorithmes permettant d’optimiser leurs paramètres, et enfin les questions mathématiques sur l’optimisation et la capacité de généralisation des réseaux de neurones. Nous verrons que les théorèmes connus ne répondent à ces questions que dans des cas simplifiés qui sont souvent loin des conditions d’applications de ces réseaux. La compréhension mathématique des réseaux de neurones profonds reste donc essentiellement un problème ouvert. Outre les challenges de données, les séminaires sont dédiés à des applications spécifiques des réseaux de neurones profonds.
Le cours abordera successivement les sujets suivants :
Applications des réseaux de neurones en vision, audition, physique, langage naturel...
Réduction de la dimensionnalité : symétries, décompositions multi-échelles, et parcimonie
Les origines des réseaux de neurones : la cybernétique et le perceptron
Universalité d'un réseau à deux couches
Approximations de fonctions : malédiction de la dimensionnalité
Approximations avec des réseaux multicouches
Apprentissage d'un réseau : fonctions de coûts
Optimisations par descente de gradient stochastique
Algorithme de rétro-propagation
Architecture des réseaux convolutifs
Analyses multi-échelles et ondelettes
Symétries, invariants et parcimonie dans les réseaux profonds -
Introduction à l'apprentissage par renforcement
Introduction à l'apprentissage par renforcement
Ects : 3
Volume horaire : 24
Description du contenu de l'enseignement :
Bibliographie, lectures recommandées
This introductory course will provide the main methodological building blocks of reinforcement learning.
Reinforcement Learning (RL) refers to situations where the learning
algorithm operates in close-loop, simultaneously using past data to adjust
its decisions and taking actions that will influence future observations.
Algorithms based on RL concepts are now commonly used in programmatic
marketing on the web, robotics or in computer game playing. All models for
RL share a common concern that in order to attain one's long-term
optimality goals, it is necessary to reach a proper balance between
exploration (discovery of yet uncertain behaviors) and exploitation
(focusing on the actions that have produced the most relevant results so
far).
This introductory course will provide the main methodological building
blocks of reinforcement learning. Some basic notions in probability theory
are required to follow the course. The course will imply some work on
simple implementations of the algorithms, assuming familiarity with common
scientific computing language.
Program
1. Multiarmed bandits, Markov Decision Processes and other models
2. Planning: finite and infinite horizon problems, the value function,
Bellman equations, dynamic programming, value and policy iteration
3. Probabilistic and statistical tools for RL: Bayesian models, relative
entropy and hypothesis testing, concentration inequalities, linear
regression, the stochastic approximation algorithm
4. RL algorithms for multiarmed bandits: the explore vs. exploit
compromise, bandit algorithms vs. A/B testing, UCB, Thomson sampling,
contextual bandits
5. RL algorithms for Markov Decision Processes: off policy and on policy
learning, Q-learning, SARSA, Monte Carlo tree search
References
M. Puterman. Markov Decision Processes: Discrete Stochastic Dynamic
Programming. John Wiley & Sons, 1994.
R. Sutton and A. Barto. Introduction to Reinforcement Learning. MIT Press,
1998.
C. Szepesvari. Algorithms for Reinforcement Learning. Morgan & Claypool
Publishers, 2010
J. Myles White. Bandit Algorithms for Website Optimization. O'Reilly. 2012
T. Lattimore and C. Szepesvari. Bandit Algorithms. Cambridge University Press. 2019. http://downloads.tor-lattimore.com/banditbook/book.pdf
-
Temps de mélange & chaines de Markov
Temps de mélange & chaines de Markov
Ects : 6
Volume horaire : 24
Description du contenu de l'enseignement :
Bibliographie, lectures recommandées
Combien de fois faut-il battre un paquet de 52 cartes pour que la permutation aléatoire obtenue soit à peu près uniformément distribuée ? Ce cours est une introduction sans pré-requis à la théorie moderne des temps de mélange des chaînes de Markov. Un interêt particulier sera porté au célèbre phénomène de "cutoff", qui est une transition de phase remarquable dans la convergence de certaines chaînes vers leur distribution stationnaire. Parmi les outils abordés figureront les techniques de couplage, l'analyse spectrale, le profil isopérimétrique, ou les inégalités fonctionnelles de type Poincaré. En guise d'illustration, ces méthodes seront appliquées à divers exemples classiques issus de contextes variés: mélange de cartes, marches aléatoires sur les groupes, systèmes de particules en intéraction, algorithmes de Metropolis-Hastings, etc. Une place importante sera accordée aux marches sur graphes et réseaux, qui sont aujourd'hui au coeur des algorithmes d'exploration d'Internet et sont massivement utilisées pour la collecte de données et la hiérarchisation des pages par les moteurs de recherche.
Notes de cours, examen 2019 et correction (J. Salez)
Markov Chains and Mixing Times (D. Levin, Y. Peres & E. Wilmer)
Mathematical Aspects of Mixing Times in Markov Chains (R. Montenegro & P. Tetali)
Mixing Times of Markov Chains: Techniques and Examples (N. Berestycki)
Reversible Markov Chains and Random Walks on Graphs (D. Aldous & J. Fill)
Enseignant responsable :
- JUSTIN SALEZ
-
Transport optimal
Transport optimal
Ects : 4
Volume horaire : 18
Description du contenu de l'enseignement :
Optimal transport (OT) is a fundamental mathematical theory at the interface between optimization, partial differential equations and probability. It has recently emerged as an important tool to tackle a surprisingly large range of problems in data sciences, such as shape registration in medical imaging, structured prediction problems in supervised learning and training deep generative networks.
This course will interleave the description of the mathematical theory with the recent developments of scalable numerical solvers. This will highlight the importance of recent advances in regularized approaches for OT which allow one to tackle high dimensional learning problems.
The course will feature numerical sessions using Python.
Motivations, basics of probabilistic modeling and matching problems.
Monge problem, 1D case, Gaussian distributions.
Kantorovitch formulation, linear programming, metric properties.
Shrödinger problem, Sinkhorn algorithm.
Duality and c-transforms, Brenier’s theory, W1, generative modeling.
Semi-discrete OT, quantization, Sinkhorn dual and divergencesEnseignant responsable :
- GABRIEL PEYRE
-
Object recognition and computer vision
Object recognition and computer vision
Ects : 4
-
Méthode à noyau pour l'apprentissage
Méthode à noyau pour l'apprentissage
Ects : 4
Volume horaire : 18
Compétence à acquérir :
Présenter les bases théoriques et des applications des méthodes à noyaux en apprentissage.
Description du contenu de l'enseignement :
Reproducing kernel Hilbert spaces et le “kernel trick”
Théorème de représentation
Kernel PCA
Kernel ridge regression
Support vector machines
Noyaux sur les semigroupes
Noyaux pour le texte, les graphes, etc.
Mémoire de recherche
Formation année universitaire 2021 - 2022 - sous réserve de modification
Modalités pédagogiques
La formation démarre en septembre, avec une présence en cours obligatoire.
La formation comporte un bloc de six cours fondamentaux en apprentissage statistique, tous obligatoires. Quatre cours optionnels doivent être validés, dont au moins un dans chaque bloc ainsi qu'un stage obligatoire d'au moins quatre mois dans une entreprise ou un laboratoire de recherche.
Organisation des enseignements :
- 24 cours et 2 cours introductifs obligatoires en statistiques bayésienne sont proposées : 16 cours dispensés à Paris Dauphine-PSL et 8 cours sont dispensés à l'ENS ou aux Mines
- Tous les cours sont équivalents à 4 ECTS sauf les deux cours introductifs qui sont à 0 ECTS
- L'étudiant.e doit valider 10 cours (équivalents à 40 ECTS) dont 6 cours fondamentaux obligatoire, et quatre cours parmi les options
- Les cours auxquels l'étudiant.e est inscrit pédagogiquement sont obligatoires et l'abscence à l'un de ces cours fera l'objet d'une sanction sur la note finale
- Un mémoire de recherche ou de stage dont la note finale est supérieure ou égale à 10/20 est validé et conditionne l'obtention de 20 crédits ECTS
Stages et projets tutorés
L'étudiant choisit librement un stage proposé par l'un des enseignants, un stage en entreprise proposé dans le cadre de la "bourse des stages", ou un stage d'origine différente ayant reçu l'agrément du responsable du Master. Le stage doit être effectué après inscription du Master. Il doit présenter un enjeu scientifique réel et le développement applicatif d'un des thèmes développés dans le master.
La durée est de quatre mois minimum, entre avril et septembre de l'année universitaire en cours. Sauf dérogation exceptionnelles, le stage doit se terminer au plus tard fin septembre.
Des programmes nourris par la recherche
Les formations sont construites au contact des programmes de recherche de niveau international de Dauphine, qui leur assure exigence et innovation.
La recherche est organisée autour de 6 disciplines toutes centrées sur les sciences des organisations et de la décision.
En savoir plus sur la recherche à Dauphine