Fondements de la science des données 1

Ects : 3

Enseignant responsable :

  • MADALINA OLTEANU

Volume horaire : 36

Description du contenu de l'enseignement :
La diversification foisonnante et la qualité inégale des sources de données, ainsi que les volumes de plus en plus massifs et en libre accès, justifient le recours grandissant aux approches quantitatives et à la science des données. Le but de ce cours est de fournir une introduction à cette dernière, en se focalisant sur la nécessité d'une démarche unifiée, automatisée et reproductible, de la collecte des données et jusqu'à la diffusion des résultats.

En s'appuyant sur le R moderne, et notamment sur Rstudio et tidyverse, ce cours pose les bases d'une démarche quantitative exploratoire. Les étudiants apprendront comment importer des données tabulaires, y compris de sources multiples, comment les manipuler et les mettre en forme, comment les visualiser et les explorer. Une partie significative du cours sera dédiée aux données géo-référencées et à la construction de cartographies. Enfin, la question d'une démarche reproductible et de la diffusion des résultats sera abordée grâce à Rmarkdown.

Pré-requis recommandés :
Notions de base de statistiques, notamment descriptives, et quelques notions de probabilités.
Coefficient : 1
Compétence à acquérir :
- Manipulation de R et Rstudio, et en particulier des univers tidyverse, sf et markdown.
- Importation et mise en forme des données tabulaires.
- Formatage et recodage des variables, y compris textuelles.
- Manipulation et transformations des données.
- Visualisation, y compris des cartographies.
- Production de code et de rapports automatisés et reproductibles.
Mode de contrôle des connaissances :
Réalisation d'une étude exploratoire détaillée sur un jeu de données réelles, spatialisées et portant sur un sujet d'actualité.