Dauphine Numérique - Nos recherches Gestion des données massives

Le Big Data : la mise en données du monde

Dans un monde de plus en plus numérique, les données massives (ou Big Data) et complexes sont désormais au cœur de tout processus de décision.

Organiser ces données pour les requêter efficacement et imaginer de nouveaux paradigmes de programmation est une étape fondamentale à l’extraction des connaissances de ces données, préalable indispensable en science des données (ou Data Science).

Données massives

Semi-structures

Graphes

Workflows

Services web

Intégration

Langages

Crowdsourcing

Provenance

Passage à l’échelle

Des contextes d'application cruciaux

Les types de données étudiés à Dauphine - PSL sont de plus en plus utilisés dans des contextes d’application cruciaux

Gestion de workflow
Réseaux sociaux
Web sémantique
Analyse de trafic
Détection/prévention de fraudes et d’actes criminels
Bioinformatique

Nos recherches dans les laboratoires de l'université

L’objectif des travaux menés à Dauphine est de concevoir, étudier et analyser expérimentalement des techniques de gestion et d’analyse de masses de données semi-structurées, avec un focus particulier sur les données et services du Web et les données à structure de graphe.

Les activités de recherche se déclinent autour des axes suivants :

Recherche d’information agrégative sur les workflow
Traitement sûr et efficace de masses de données graphes
Intégration de masses de données via crowdsourcing
Découverte, composition et exécution fiable de services Web
Recherche agrégée de données et de services pour les données liées

Laboratoire d’Analyse et de Modélisation de Systèmes pour l’Aide à la Décision

LAMSADE

Nos chercheurs

Khalid BELHAJJAME

Maître de conférences LAMSADE

voir son CV

BIOGRAPHIE : Maître de conférences à Dauphine et membre LAMSADE. Intérêts de recherche : gestion de l'information et des connaissances avec contributions dans les domaines de la préparation et l'intégration des données, la e-science, la gestion des workflows scientifiques, les graphes de connaissances et l’anonymisation des données.

MOTS-CLES : Préparation et intégration des masses de données, Web Sémantique/Graphes de connaissances, Provenance, eScience

SELECTION DE PUBLICATIONS :
Belhajjame K. (2020), Lineage-Preserving Anonymization of the Provenance of Collection-Based Workflows, EDBT 2020: 229-240

Farvardin MA., Colazzo D., Belhajjame K., Sartiani C. (2020), Scalable Saturation of Streaming RDF Triples, Trans. Large Scale Data Knowl. Centered Syst. 44 : 1-40

Alper P. , Belhajjame K., Curcin V., Goble CA. (2018), LabelFlow Framework for Annotating Workflow Provenance, Informatics 5(1): 11

Dario COLAZZO

Professeur des Universités LAMSADE

voir son CV

BIOGRAPHIE : Professeur des universités, ses activités de recherche et d'enseignement s'inscrivent dans le cadre du traitement efficace des big data semi-structurées. Il a été responsable du Pôle Data Science au LAMSADE, de 2015 à 2020, et depuis 2019 il dirige le Master Executive Intelligence Artificielle et Science de Données.

MOTS-CLES : Algorithmes complexes, Gestion des big data, Analyse statique

SELECTION DE PUBLICATIONS :
Baazizi MA., Colazzo D., Ghelli G., Sartiani C. (2019), Parametric schema inference for massive JSON datasets, VLDB J. 28(4) : 497-521

Colazzo D., Ghelli G., Sartiani C. (2017), Linear time membership in a class of regular expressions with counting, interleaving, and unordered concatenation. ACM Trans. Database Syst. 42(4) : 24:1-24:44

Camacho-Rodríguez J., Colazzo D., Manolescu I. (2015), PAXQuery : Efficient Parallel Processing of Complex XQuery, IEEE Trans. Knowl. Data Eng. 27(7) : 1977-1991

Daniela GRIGORI

Professeur des Universités LAMSADE

voir son CV

BIOGRAPHIE : Titulaire d’un diplôme d’ingénieur et docteur en informatique, elle est actuellement professeur en informatique et directrice du LAMSADE. Ses thématiques de recherche : sciences des données, process mining, process analytics, gestion et analyse des données de types graphes, intégration de données, web sémantique, automatisation de processus.

MOTS-CLÉS : Sciences des données, Process mining, Automatisation des processus, Analyse prédictive

SÉLECTION DE PUBLICATIONS :
Beheshti SMR., Benatallah B., Sakr S., Grigori D., Motahari-Nezhad HR., Barukh MC., Gâter A., Ryu SH.,

Process Analytics - Concepts and Techniques for Querying and Analyzing Process Data, Springer 2016, ISBN 978-3-319-25036-6, pp. 1-178

Acheli M., Grigori D., Weidlich M., Efficient Discovery of Compact Maximal Behavioral Patterns from Event Logs, CAiSE 2019 : 579-594

Delias P., Lagopoulos A., Tsoumakas G., Grigori D. (2018),Using multi-target feature evaluation to discover factors that affect business process behavior, Comput. Ind. 99 : 253-261

Nos autres chercheurs

Maud Manouvrier, Joyce Elhaddad, Elsa Negre, Marta Rukoz, Michel Zamfiroiu

Exemples de travaux

Baazizi MA., Colazzo D., Ghelli G., Sartiani C. Parametric schema inference for massive JSON datasets. VLDB J. 28(4) : 497-521 (2019)
Baazizi MA., Colazzo D., Ghelli G., Sartiani C. Schemas and Types for JSON Data : From Theory to Practice. SIGMOD Conference 2019: 2060-2063
Alper P., Belhajjame K., Curcin V., Goble CA. LabelFlow Framework for Annotating Workflow Provenance. Informatics 5(1): 11 (2018)
Belhajjame K., Grigori D., Harmassi M., Ben Yahia M. Keyword-Based Search of Workflow Fragments and Their Composition. Trans. Computational Collective Intelligence 26 : 67-90 (2017)
CardinaleJ., El Haddad J., Manouvrier M., Rukoz M. Fuzzy ACID properties for self-adaptive composite cloud services execution. Concurrency and Computation : Practice and Experience 31(2) (2019)