Mathématiques, Apprentissage, Sciences et Humanités - 2ème année de Master

L'année de formation

Cours fondamentaux

  • Apprentissage supervisé

    Apprentissage supervisé

    Ects : 4
    Compétence à acquérir :
    Bases mathématiques pour la modélisation des problèmes d’apprentissage supervisé et l’analyse des algorithmes de classification en grande dimension. Il s’agit de présenter les bases mathématiques pour la modélisation des problèmes d’apprentissage supervisé et l’analyse des algorithmes de classification en grande dimension.

    Description du contenu de l'enseignement :
    Typologie des problèmes d’apprentissage (supervisé vs. non-supervisé).
    Modèle statistique pour la classification binaire : Approches génératives vs. discriminantes.
    Algorithmes classiques : méthodes paramétriques, perceptron, méthodes de partitionnement.
    Critères de performances : erreur de classification, courbe ROC, AUC.
    Convexification du risque : Algorithmes de type boosting et SVM. Mesures de complexité combinatoires, métriques géométriques.
    Sélection de modèle et régularisation.
    Théorèmes de consistance et vitesses de convergence.

  • Méthode à noyau pour l'apprentissage

    Méthode à noyau pour l'apprentissage

    Ects : 4
    Compétence à acquérir :
    Présenter les bases théoriques et des applications des méthodes à noyaux en apprentissage.

    Description du contenu de l'enseignement :
    Reproducing kernel Hilbert spaces et le “kernel trick”
    Théorème de représentation
    Kernel PCA
    Kernel ridge regression
    Support vector machines
    Noyaux sur les semigroupes
    Noyaux pour le texte, les graphes, etc.

  • Optimisation

    Optimisation

    Ects : 4
    Compétence à acquérir :
    L’objectif de ce cours est d’apprendre à reconnaître, manipuler et résoudre une classe relativement large de problèmes convexes émergents dans des domaines comme, par exemple, l’apprentissage, la finance ou le traitement du signal.

    Description du contenu de l'enseignement :
    This course will review the mathematical foundations for Machine Learning, as well as the underlying algorithmic methods and showcases some modern applications of a broad range of optimization techniques.
    Optimization is at the heart of most recent advances in machine learning. This includes of course most basic methods (linear regression, SVM and kernel methods). It is also the key for the recent explosion of deep learning which are state of the art approaches to solve supervised and unsupervised problems in imaging, vision and natural language processing.
    This course will review the mathematical foundations, the underlying algorithmic methods and showcases some modern applications of a broad range of optimization techniques. The course will be composed of both classical lectures and numerical sessions in Python. The first part covers the basic methods of smooth optimization (gradient descent) and convex optimization (optimality condition, constrained optimization, duality). The second part will features more advanced methods (non-smooth optimization, SDP programming,interior points and proximal methods). The last part will cover large scale methods (stochastic gradient descent), automatic differentiation (using modern python framework) and their application to neural network (shallow and deep nets).

  • Projets informatiques

    Projets informatiques

    Ects : 4
  • Statistiques en grandes dimensions

    Statistiques en grandes dimensions

    Ects : 4
    Compétence à acquérir :
    L’objectif de ce cours de statistique est de présenter les outils mathématiques et les méthodologies dans la situation où le nombre de paramètres à inférer est très élevé, typiquement beaucoup plus important que le nombre d’observations.

    Description du contenu de l'enseignement :
    Fléau de la dimension et hypothèse de parcimonie pour la régression gaussienne, les modèles linéaires généralisés et les données de comptage.
    Ondelettes et estimation par seuillage.
    Choix de modèles et sélection de variables.
    Estimation par pénalisation convexe : procédure Ridge, lasso, group-lasso…
    Liens avec l’approche bayésienne.
    Méthodes d’agrégation.
    Tests multiplies : procédures FDR, FWER.
    Estimation matricielle.

UE Introductifs obligatoires en statistiques bayésienne

Cours statistique bayésienne

  • Méthodes de Monte-Carlo par chaine de Markov

    Méthodes de Monte-Carlo par chaine de Markov

    Ects : 4
    Compétence à acquérir :
    Ce cours vise a présenter les bases et les développements récents des méthodes de simulation utilisées en statistique et surtout en statistique bayésienne. Les méthodes de calcul, de maximisation et d’intégration en dimension élevée sont en effet devenues nécessaires pour traiter les modèles complexes envisages dans les disciplines utilisatrices de la statistique, comme l’économétrie, la finance, la génétique, l’écologie ou l’épidémiologie (entre autres !). La principale innovation des dix dernières années est l’introduction de techniques markoviennes pour l’approximation des lois de probabilité (et des intégrales correspondantes). Elle forme donc la partie centrale du cours, mais nous aborderons également les systèmes de particules et les méthodes d’optimisation stochastique comme le recuit simulé.

    Description du contenu de l'enseignement :
    Motivations
    Méthodes de Monte-Carlo
    Rappels sur les chaines de Markov
    La méthode de Metropolis-Hastings
    L’échantillonneur de Gibbs
    L’échantillonnage parfait
    Méthodes de Monte-Carlo séquentielles

  • Bayesian case studies

    Bayesian case studies

    Ects : 4
    Compétence à acquérir :
    During this course, we shall first introduce the main notions of Bayesian Statistics.

    Description du contenu de l'enseignement :
    We shall put in practice classical models for statistical inference in a Bayesian setting, and implement computational methods. Using real data, we shall study simple and multiple linear regression, model choice with Bayes factor computation, and a probit model. The implementation shall use several algorithms: Markov Chain Monte Carlo, importance sampling, Approximate Bayesian Computation. The course is based on the free software R.
    Pre-requisite: Knowledge of the programming language R is essential.
    Practical information: all sessions will be held in one of the computer rooms. All computers are installed with Ubuntu, R and RStudio. Students may bring their own laptop, which must have R installed before the first session; I strongly suggest installing RStudio (free) as well.

  • Bayesian non parametric statistics

    Bayesian non parametric statistics

Cours Sciences et Humanités

  • Applications en journalisme

    Applications en journalisme

    Ects : 4
    Compétence à acquérir :
    L’objectif de ce cours est de mettre en place une interaction entre des étudiants mathématiciens et journalistes, en collaboration avec l’Institut Pratique du Journalisme. Après des interventions de deux professionnels, les étudiants formeront des groupes de 2 à 4 personnes (en mélangeant M2 MASH/TSI et M2 IPJ) pour analyser en autonomie des jeux de données de leur choix, par exemple en provenance d’Etalab. Ils auront à débroussailler les données, trouver une problématique, proposer et valider des modèles pertinents, effectuer des analyses mathématiques, choisir un angle, élaborer des visualisations de données, et rédiger un rapport accessible au grand public sous forme d’article de presse. Des rendez-vous réguliers seront organisés pour chaque groupe.
  • Protection de la vie privée

    Protection de la vie privée

    Ects : 4
    Compétence à acquérir :
    La protection de la vie privée est devenue un enjeu majeur du développement de l’économie numérique, enjeu tout d’abord en matière de droits fondamentaux des individus, mais qui comporte de multiples dimensions (technique, économique, sociologique, politique, éthique, etc.). L’objectif de ce cours est de présenter ces défis, d’abord sur le plan technique, puis sous différentes perspectives avec des experts des disciplines concernées.

    Description du contenu de l'enseignement :
    Comment caractériser la notion de vie privée ? Quels sont les risques en la matière et comment s’en prémunir (instruments techniques et juridiques) ?

    Économie du numérique, valorisation des données personnelles.
    Les réseaux sociaux, les réseaux pair à pair et la vie privée.
    Problèmes éthiques posés par le numérique, l’homme augmenté.
    Vie privée et pouvoirs régaliens (police, justice, renseignement).
    Gouvernance de l’internet, politiques publiques.

  • Modèles graphiques

    Modèles graphiques

    Ects : 4
    Compétence à acquérir :
    Modélisation probabiliste, apprentissage et inférence sur les modèles graphiques. Les principaux thèmes abordés sont :
    Maximum de vraisemblance.
    Régression linéaire.
    Régression logistique.
    Modèle de mélange, partitionnement.
    Modèles graphiques.
    Familles exponentielles.
    Algorithme produit-somme.
    Hidden Markov models.
    Inférence approximée
    Méthodes bayésiennes.
  • Reconnaissance d'objets et vision

    Reconnaissance d'objets et vision

  • Algorithmique pour le traitement automatique du langage

    Algorithmique pour le traitement automatique du langage

  • Apprentissage par réseaux de neurones profonds

    Apprentissage par réseaux de neurones profonds

Mémoire de recherche

Formation année universitaire 2020 - 2021 - sous réserve de modification


Modalités pédagogiques

La formation démarre en septembre, avec une présence en cours obligatoire.

La formation comporte un bloc de six cours fondamentaux en apprentissage statistique, tous obligatoires. Quatre cours optionnels doivent être validés, dont au moins un dans chaque bloc ainsi qu'un stage obligatoire d'au moins quatre mois dans une entreprise ou un laboratoire de recherche.

Organisation des enseignements :

  • 24 cours et 2 cours introductifs obligatoires en statistiques bayésienne sont proposées : 16 cours dispensés à Paris Dauphine-PSL et 8 cours sont dispensés à l'ENS ou aux Mines
  • Tous les cours sont équivalents à 4 ECTS sauf les deux cours introductifs qui sont à 0 ECTS
  • L'étudiant.e doit valider 10 cours (équivalents à 40 ECTS) dont 6 cours fondamentaux obligatoire, et quatre cours parmi les options
  • Les cours auxquels l'étudiant.e est inscrit pédagogiquement sont obligatoires et l'abscence à l'un de ces cours fera l'objet d'une sanction sur la note finale
  • Un mémoire de recherche ou de stage dont la note finale est supérieure ou égale à 10/20 est validé et conditionne l'obtention de 20 crédits ECTS

Stages et projets tutorés

L'étudiant choisit librement un stage proposé par l'un des enseignants, un stage en entreprise proposé dans le cadre de la "bourse des stages", ou un stage d'origine différente ayant reçu l'agrément du responsable du Master. Le stage doit être effectué après inscription du Master. Il doit présenter un enjeu scientifique réel et le développement applicatif d'un des thèmes développés dans le master.
La durée est de quatre mois minimum, entre avril et septembre de l'année universitaire en cours. Sauf dérogation exceptionnelles, le stage doit se terminer au plus tard fin septembre.