Soutenances de thèse

Application de techniques d'apprentissage automatique multi-paradigmes pour prédire la qualité écologique des environnements marins à l'aide de données d'ADN environnemental

28/04/2026 à 0h00

Mme Houria BRAIKIA présente ses travaux en soutenance le 28/04/2026 à 0h00

À l'adresse suivante : Université Paris Dauphine, Pl. du Maréchal de Lattre de Tassigny, 75016 Paris Salle des thèses - D520

En vue de l'obtention du diplôme : Doctorat en Informatique

La soutenance est publique

Titre des travaux

Application de techniques d'apprentissage automatique multi-paradigmes pour prédire la qualité écologique des environnements marins à l'aide de données d'ADN environnemental

École doctorale

École doctorale Dauphine SDOSE

Équipe de recherche

UMR 7243 - Laboratoire d'Analyse et de Modélisation de Systèmes d'Aide à la Décision

Section CNU

9 - Sciences et technologies de l'information et de la communication

Directeur(s)

Marta RUKOZ

Membres du jury

Nom Qualité Établissement Rôle
Mme Marta RUKOZ Professeur UNIVERSITE PARIS DAUPHINE Directeur de these
Mme Nedra MELLOULI Professeur Université Paris 8/ESILV Rapporteur
M. Mohamed-Amine BAAZIZI Maître de conférences Sorbonne Université Rapporteur
M. Mourad OUZIRI Maître de conférences Université Paris Cité Examinateur
M. YANN CHEVALEYRE Professeur UNIVERSITE PARIS DAUPHINE Examinateur
Mme Sana BEN HAMIDA Maître de conférences UNIVERSITE PARIS DAUPHINE CoDirecteur de these

Résumé

Les écosystèmes marins sont soumis à des pressions anthropiques croissantes liées au changement climatique, à la pollution et à l'enrichissement en nutriments, rendant l'évaluation de leur qualité écologique (Ecological Quality, EQ) un enjeu majeur pour la gestion et la conservation des milieux côtiers. Les cadres réglementaires actuels reposent principalement sur des indices biotiques (Biotic Indices, BI), tels que l'AMBI, traditionnellement basés sur l'identification morphologique des espèces. Cependant, ces approches présentent des limites importantes en termes de coût, de temps, de dépendance à l'expertise taxonomique et de transférabilité entre environnements.

 

Cette thèse s'inscrit dans le contexte de l'essor du métabarcoding environnemental basé sur l'ADN environnemental (eDNA), qui permet une caractérisation fine des communautés microbiennes et benthiques à partir de tables d'unités taxonomiques opérationnelles (OTUs). L'objectif principal est de développer des approches méthodologiques innovantes pour l'évaluation de la qualité écologique marine à partir de données de métabarcoding, en réduisant la dépendance aux annotations taxonomiques complètes et aux jeux de données fortement étiquetés.

 

Dans un premier temps, la thèse propose une revue structurée des indices de qualité écologique, depuis les indices physico-chimiques jusqu'aux indices biotiques, et discute les apports et limites des approches morphologiques, métabarcoding et taxonomie-free. Une attention particulière est portée aux contraintes méthodologiques liées aux données de métabarcoding, notamment leur forte dimensionnalité, la variabilité systématique et les problématiques de normalisation et d'exploration des données.

 

Dans un second temps, des approches d'apprentissage automatique sont introduites pour prédire la qualité écologique à partir des tables d'OTUs. Les méthodes supervisées sont d'abord étudiées afin de prédire des indices biotiques à partir des données de métabarcoding, mettant en évidence leurs performances mais aussi leur forte dépendance à des jeux de données d'apprentissage larges et correctement annotés. Ces limitations motivent ensuite le développement d'approches non supervisées, qui exploitent la structure latente des données afin d'identifier des états écologiques discrets. Ces états sont validés statistiquement et permettent de réduire le besoin en données étiquetées, tout en préservant l'interprétabilité écologique des groupes identifiés.

 

La thèse explore ensuite la question de l'interprétabilité écologique des modèles. Des méthodes d'apprentissage explicables, combinant forêts aléatoires et valeurs SHAP, sont utilisées pour quantifier la contribution relative des OTUs, des variables environnementales et des indices de diversité à la prédiction de la qualité écologique. Ces analyses sont complétées par l'approche classique IndVal afin d'identifier les OTUs réellement indicateurs des différents états écologiques.

 

Enfin, la contribution méthodologique majeure de cette thèse repose sur le développement d'approches semi-supervisées basées sur des graphes. Le cadre Graph-IndVal est proposé pour raffiner les valeurs indicatrices des OTUs au sein d'un environnement donné en modélisant explicitement les relations OTU-échantillon. Ce cadre est ensuite étendu à un contexte multi-environnements, dans lequel chaque environnement est représenté par un graphe, interconnecté via des variables environnementales et des indices de diversité. Cette extension permet la propagation de l'information écologique entre environnements hétérogènes, autorisant la prédiction simultanée des valeurs indicatrices des OTUs et des indices biotiques dans des environnements non annotés, même lorsque les ensembles d'OTUs diffèrent.

 

Dans l'ensemble, cette thèse propose un cadre méthodologique original, flexible et scalable pour l'évaluation de la qualité écologique marine à partir de données de métabarcoding.

Toutes les soutenances de thèse