Le métier de data scientist
Le data scientist exploite et analyse les données collectées en masse par les entreprises ou les organisations afin d’améliorer les performances de celles-ci.
L’ère du « Big Data » et les évolutions technologiques permettent aux organisations d’étudier plus finement les données grâce aux talents des data scientists. Donner du sens à la donnée s’avère intéressant pour la direction générale, mais aussi pour tous les services comme le marketing, les ressources humaines, le service client ou encore la finance. Sa fonction transverse fait de cet expert en data un collaborateur précieux dans l’activité générale de l’entreprise.
Il est amené à avoir de nombreuses responsabilités. Au sein de l’Université Paris Dauphine – PSL, le Master Informatique et le Master Mathématiques forment les futurs data scientists grâce à des enseignements en informatique ou en mathématiques appliquées et une ouverture sur les sciences des organisations et des données. Quelle est la différence entre un data scientist et un data analyst ? Le data scientist extrait les données brutes pour les rendre exploitables et conçoit des méthodes d'analyse de ces données. Ensuite, le data analyst exploite les données traitées et segmentées pour répondre aux questions ou aux besoins de son organisation.
Paroles d'alumni
"La Data Science est utile partout, ce qui au fur et à mesure
des projets permet d’apprendre énormément sur le business d’une entreprise."
En quoi consiste concrètement le métier de data scientist au quotidien ?
Concrètement un data scientist doit utiliser des méthodes avancées de statistiques/machine learning, en utilisant des données passées de clients pour prédire les comportements futurs de ces mêmes clients.
Le data scientist a beaucoup de tâches à réaliser au cours d’un projet. Son travail ne se limite pas à la modélisation d’un problème business, il est en fait beaucoup plus large et surtout beaucoup plus intéressant, et se déroule en plusieurs étapes :
- Frame the problem : une grosse partie du travail sera fait à l’instant où le Data Scientist comprend les enjeux du projet, ce qu’il doit modéliser. C’est plus difficile qu’il ne paraît, cela passe par de nombreuses discussions avec le « client » : pourquoi veut-on modéliser cela ? Qu’est-ce qu’on fait aujourd’hui ? Qu’est-ce qui s’est passé dans le passé qui peut biaiser nos données ? Qu’est-ce qu’il peut se passer dans le futur qui pourrait altérer notre modèle ? Quelles sont les contraintes et risques légaux de ce projet ?
- Data wrangling : une fois la problématique bien comprise, il faut travailler avec les données à disposition, comprendre lesquelles choisir et pourquoi, les transformer, les encoder… La construction de ce « basefile » est la partie la plus importante de la modélisation, il faut vraiment garantir la bonne qualité de la donnée. En Data Science on dit « Garbage In Garbage Out », si la donnée est mauvaise, peu importe la qualité du modèle, il sera mauvais !
- Modeling : le basefile est prêt, on peut modéliser, chercher les modèles les plus pertinents pour la problématique (Modèle linéaire ? Boosting ? Arbres de décisions ?), travailler sur la robustesse de ce modèle (limiter le surapprentissage, optimiser les hyperparamètres…)
- Validating : c’est pour moi la partie la plus importante du projet. C’est très facile quand on est à l’aise avec les statistiques ou le code de construire un super modèle très prédictif. La partie la plus difficile est de présenter ses résultats au client qui très probablement a des connaissances mathématiques très restreintes. Être capable de présenter ses résultats et convaincre un client de son travail est essentiel dans le travail de data scientist.
- Implementing : le modèle est fini, oui mais il faut l’industrialiser maintenant, et discuter avec les bons interlocuteurs (type data engineers) pour implémenter le modèle en production : c’est bien de faire un beau modèle mais il faut l’utiliser !
- Follow-up : le gros risque est de se dire que le travail est terminé une fois le modèle en production ! Il vient seulement de commencer : il faut mettre en place une stratégie de suivi de ce modèle, être sûr que ce qu’on a prédit se réalise bien, et surtout prévenir une dégradation du modèle qui nécessiterait un update.
Quel aspect de ce métier vous intéresse le plus ?
Pour moi le plus intéressant est le fait de pouvoir avoir de l’impact sur tous les départements d’une entreprise. La Data Science est utile partout, ce qui au fur et à mesure des projets permet d’apprendre énormément sur le business d’une entreprise.
Pourquoi avoir choisi l’Université Paris Dauphine-PSL pour vous former ?
Le Master MASH a pour moi l’avantage de donner de solides capacités techniques, tout en étant ouvert vers l’entreprise. Les projets sur lesquels nous avions travaillé pendant l’année étaient aussi assez pertinents pour en discuter lors des entretiens d’embauche.
Quelle est LA compétence indispensable que vous a apporté le Master 2 MASH que vous avez suivi à Dauphine pour faire carrière dans ce secteur, et qui vous sert encore aujourd’hui ?
Le Master MASH m’a énormément appris théoriquement sur le Machine Learning. Arriver dans une entreprise avec de solides acquis techniques permet de vite progresser sur la partie business ! Au contraire une personne devant monter en compétence techniquement va prendre plus de temps à progresser dans l’entreprise.
AUGUSTIN LEJEUNE
DATA SCIENTIST - L'OLIVIER ASSURANCE
Son parcours :
Master MASH
Rôle et missions du data scientist
Le rôle et les missions du data scientist diffère selon l’entreprise où il exerce et le statut avec lequel il intervient. L’expert en analyse de données pourra être salarié d’une entreprise, d’un cabinet de conseil ou être indépendant. Il travaille en collaboration avec le data scientist Engineer et le data analyst de son équipe.
Missions
quotidiennes
Les principales missions du data scientist sont les suivantes :
- Comprendre les problématiques métier et modéliser des problématiques mathématiques/statistiques afin d’y répondre
- Choisir les outils de collecte, de stockage et d’analyse des données
- Sélectionner des sources de données pertinentes et fiables
- Développer des algorithmes et des modèles prédictifs pour anticiper les tendances et l’évolution des données
- Rendre les données compréhensibles par les managers (data visualisation)
- Émettre des recommandations business aux managers et à la direction afin d’améliorer la prise de décision
- Assurer une veille technologique
Salaires et évolutions de carrière
Le salaire médian d’un data scientist junior à la sortié de l'Université Paris Dauphine-PSL est de 46200€ brut par an. Les écarts de rémunération correspondent aux différents niveaux de responsabilités et du secteur d’activité de son employeur.
Après 5 années d’expérience, le salaire d’un data scientist senior dépasse 70 000€ brut par an.
En début de carrière, le jeune diplômé commence sa carrière comme data analyst. Avec plus d’expérience et de recul sur son rôle, il deviendra data scientist. En développant des compétences managériales, il pourra obtenir le poste Chief data scientist et diriger les équipes Data Sciences.
Compétences
requises
- Excellente maitrise des solutions technologiques et en programmation informatique
- Connaissances avancées en mathématiques appliquées et en statistiques pour concevoir les algorithmes et les analyses prédictives
- Parfaite gestion des bases de données et de la structure de données
- Capacité à synthétiser et restituer l’information
- Compétences managériales et/ou en gestion de projet
Quelles études pour devenir data scientist ?
Le niveau Bac+5 reste un prérequis indispensable pour devenir data scientist. Le cursus universitaire avec un Master en Data Science permet d’atteindre ce niveau académique exigé par les recruteurs.
Formation pour devenir data scientist
à l’Université Paris Dauphine-PSL
Les Masters Informatique et Mathématiques et applications de Dauphine – PSL sont des formations d'excellence permettant de développer toutes les compétences nécessaires à un futur data scientist. Plusieurs parcours de spécialisation offrent la possibilité aux étudiants d’acquérir la compréhension des fondements en informatique ou en mathématiques appliquées ainsi que celle des sciences de la donnée.
- La spécialisation IASD (Intelligence Artificielle, Systèmes, Données) vise à former les étudiants à la conception et aux développements de systèmes d’intelligence artificielle.
- La spécialisation MIAGE-ID (Informatique Décisionnelle) consiste à acquérir des compétences en informatique et en aide à la décision.
- La spécialisation ISF (Ingénierie Statistique et Financière) forme des cadres d’entreprise sachant appliquer des méthodes quantitatives pour répondre à des problématiques métier.
- La spécialisation MASH (Mathématiques, Apprentissage et Sciences Humaines) offre une formation de haut niveau en statistiques avec des applications en économie numérique et en sciences humaines.