Soutenances de thèse

Détection de communautés dans les grands réseaux. Application aux réseaux d'interactions de gènes

14/10/2022 à 14h55

Mme Marwa BEN M'BAREK présente ses travaux en soutenance le 14/10/2022 à 14h55

À l'adresse suivante : Université Paris Dauphine Pl. du Maréchal de Lattre de Tassigny, 75016 Paris - Salle des Thèses - D520

En vue de l'obtention du diplôme : Doctorat en Informatique

La soutenance est publique

Titre des travaux

Détection de communautés dans les grands réseaux. Application aux réseaux d'interactions de gènes

École doctorale

École doctorale Dauphine SDOSE

Équipe de recherche

UMR 7243 - Laboratoire d’Analyse et de Modélisation de Systèmes d’Aide à la Décision

Section CNU

27 - Informatique

Directeur(s)

Mme Marta RUKOZ et Mme Amel BORGI

Membres du jury

Nom Qualité Établissement Rôle
Mme Marta RUKOZ Professeur UNIVERSITE PARIS DAUPHINE - PSL Co-directrice de thèse
Mme Amel BORGI Professeur Université de Tunis El Manar Co-directrice de thèse
Mme SANA BEN HMIDA Maître de conférences UNIVERSITE PARIS DAUPHINE - PSL Co-encadrante de thèse
M. Pierre COLLET Professeur Université de Strasbourg Rapporteur
M. Lotfi BEN ROMDHANE Professeur Université de Sousse Rapporteur
M. Jean-François PRADAT-PEYRE Professeur UNIVERSITE PARIS NANTERRE Examinateur
Mme Hajer BAAZAOUI Professeur Université de la Manouba Examinatrice

Résumé

La perception actuelle de la notion de réseau a permis de réaliser des progrès significatifs pour la compréhension des réseaux complexes. L'une des caractéristiques les plus pertinentes des réseaux est l’existence de zones plus densément connectées que d’autres. Ces zones sont habituellement appelées communautés. Une communauté est alors décrite par un ensemble de noeuds intensément liés entre eux, mais faiblement liés au reste du réseau. La détection de communautés est l’un des thèmes de recherche les plus prolifiques en analyse de réseaux. Dans le cadre de cette thèse de doctorat, nous nous intéressons à la détection des communautés de gènes dans les réseaux d’interactions de protéine-protéine. Ces communautés correspondent à des ensembles de gènes qui collaborent à une même fonction cellulaire. Notre objectif consiste à déterminer un groupe ou une communauté de gènes à partir des sources d’annotation en se basant sur l’apprentissage automatique. Pour réaliser ce travail, nous combinons trois niveaux d’informations : i) le niveau sémantique : information contenue dans les ontologies biologiques (gene Ontology), ii) le niveau fonctionnel : information contenue dans des bases de données publiques qui décrivent les interactions des gènes et iii) le niveau réseau : informations contenues dans les bases de voies biologiques. Ce travail est multidisciplinaire, à l'intersection de domaine de l'informatique et de la biologie et il comporte quatre volets. Le premier volet se concentre sur l’extraction des données biologiques utiles pour notre projet et sur l'étude de la similarité sémantique entre des groupes de gènes. Cette dernière sera l’une de caractéristique d’une communauté de gènes. Nous avons proposé, dans le deuxième volet, une approche pour la détection des communautés de gènes basée sur les algorithmes génétiques. Cette approche nommée GA-PPI-Net permet de construire et de détecter des communautés de gènes de tailles variables. GA-PPI-Net permet de maximiser une mesure communautaire qui combine à la fois des informations topologiques entre les gènes et des informations sémantiques. Par ailleurs, nous avons introduit une solution spécifique pour représenter une communauté (=solution) de taille variable et un opérateur de mutation optimisée. Dans le troisième volet, nous nous focalisons sur l'extension et l'amélioration de GA-PPI-Net. La première extension sert à proposer un nouvel opérateur de mutation adaptatif. Cette amélioration a pour objectif d’optimiser l’exploration de l’espace de recherche afin d’améliorer les qualités des communautés obtenues. La deuxième amélioration vise à rendre notre approche générique, Generic GA-PPI-Net, pour construire des communautés de gènes qui sont sémantiquement similaires et/ou sont en interaction. Dans le dernier volet, nous avons étendu ce travail afin de mettre à l’échelle Generic GA-PPI-Net en utilisant le paradigme d’apprentissage actif. Cette extension nous a permis d’utiliser des sources de données volumineuses (la totalité de réseau d’interaction de protéine chez l’être humain) pour construire des communautés évolutives. Elle est basée sur une approche d’échantillonnage adaptative permettant de définir la partie du graphe à explorer par les opérateurs génétiques pendant l’évolution.

Toutes les soutenances de thèse