Détection de communautés dans les grands réseaux. Application aux réseaux d'interactions de gènes
14/10/2022 à 14h55
Mme Marwa BEN M'BAREK présente ses travaux en soutenance le 14/10/2022 à 14h55
À l'adresse suivante : Université Paris Dauphine Pl. du Maréchal de Lattre de Tassigny, 75016 Paris - Salle des Thèses - D520
En vue de l'obtention du diplôme : Doctorat en Informatique
La soutenance est publique
Titre des travaux
Détection de communautés dans les grands réseaux. Application aux réseaux d'interactions de gènes
École doctorale
École doctorale Dauphine SDOSE
Équipe de recherche
UMR 7243 - Laboratoire d’Analyse et de Modélisation de Systèmes d’Aide à la Décision
Section CNU
27 - Informatique
Directeur(s)
Mme Marta RUKOZ et Mme Amel BORGI
Membres du jury
Nom | Qualité | Établissement | Rôle |
---|---|---|---|
Mme Marta RUKOZ | Professeur | UNIVERSITE PARIS DAUPHINE - PSL | Co-directrice de thèse |
Mme Amel BORGI | Professeur | Université de Tunis El Manar | Co-directrice de thèse |
Mme SANA BEN HMIDA | Maître de conférences | UNIVERSITE PARIS DAUPHINE - PSL | Co-encadrante de thèse |
M. Pierre COLLET | Professeur | Université de Strasbourg | Rapporteur |
M. Lotfi BEN ROMDHANE | Professeur | Université de Sousse | Rapporteur |
M. Jean-François PRADAT-PEYRE | Professeur | UNIVERSITE PARIS NANTERRE | Examinateur |
Mme Hajer BAAZAOUI | Professeur | Université de la Manouba | Examinatrice |
Résumé
La perception actuelle de la notion de réseau a permis de réaliser des progrès significatifs pour la compréhension des réseaux complexes. L'une des caractéristiques les plus pertinentes des réseaux est l’existence de zones plus densément connectées que d’autres. Ces zones sont habituellement appelées communautés. Une communauté est alors décrite par un ensemble de noeuds intensément liés entre eux, mais faiblement liés au reste du réseau. La détection de communautés est l’un des thèmes de recherche les plus prolifiques en analyse de réseaux. Dans le cadre de cette thèse de doctorat, nous nous intéressons à la détection des communautés de gènes dans les réseaux d’interactions de protéine-protéine. Ces communautés correspondent à des ensembles de gènes qui collaborent à une même fonction cellulaire. Notre objectif consiste à déterminer un groupe ou une communauté de gènes à partir des sources d’annotation en se basant sur l’apprentissage automatique. Pour réaliser ce travail, nous combinons trois niveaux d’informations : i) le niveau sémantique : information contenue dans les ontologies biologiques (gene Ontology), ii) le niveau fonctionnel : information contenue dans des bases de données publiques qui décrivent les interactions des gènes et iii) le niveau réseau : informations contenues dans les bases de voies biologiques. Ce travail est multidisciplinaire, à l'intersection de domaine de l'informatique et de la biologie et il comporte quatre volets. Le premier volet se concentre sur l’extraction des données biologiques utiles pour notre projet et sur l'étude de la similarité sémantique entre des groupes de gènes. Cette dernière sera l’une de caractéristique d’une communauté de gènes. Nous avons proposé, dans le deuxième volet, une approche pour la détection des communautés de gènes basée sur les algorithmes génétiques. Cette approche nommée GA-PPI-Net permet de construire et de détecter des communautés de gènes de tailles variables. GA-PPI-Net permet de maximiser une mesure communautaire qui combine à la fois des informations topologiques entre les gènes et des informations sémantiques. Par ailleurs, nous avons introduit une solution spécifique pour représenter une communauté (=solution) de taille variable et un opérateur de mutation optimisée. Dans le troisième volet, nous nous focalisons sur l'extension et l'amélioration de GA-PPI-Net. La première extension sert à proposer un nouvel opérateur de mutation adaptatif. Cette amélioration a pour objectif d’optimiser l’exploration de l’espace de recherche afin d’améliorer les qualités des communautés obtenues. La deuxième amélioration vise à rendre notre approche générique, Generic GA-PPI-Net, pour construire des communautés de gènes qui sont sémantiquement similaires et/ou sont en interaction. Dans le dernier volet, nous avons étendu ce travail afin de mettre à l’échelle Generic GA-PPI-Net en utilisant le paradigme d’apprentissage actif. Cette extension nous a permis d’utiliser des sources de données volumineuses (la totalité de réseau d’interaction de protéine chez l’être humain) pour construire des communautés évolutives. Elle est basée sur une approche d’échantillonnage adaptative permettant de définir la partie du graphe à explorer par les opérateurs génétiques pendant l’évolution.