Dossier | Mesure et gouvernance
Aide multicritère à la décision "Il existe des centaines d'agrégations possibles !"
À l'occasion du Séminaire Soutenabilités d'avril 2023, Meltem Öztürk-Escoffier, maître de conférences HDR (LAMSADE) est intervenue sur le sujet « Analyse de l’indice de développement humain (Human Developement Index) du point de vue d’Aide multicritère à la décision ». Entretien.
Dans votre intervention dans le cadre du séminaire Soutenabilités, vous évoquez à plusieurs reprises l’Index de développement humain (IDH), comme exemple d’indicateur agrégeant plusieurs données. Quelles sont ses limites ?
En effet, mon objectif était de montrer qu’au Lamsade (Laboratoire d’Analyse et de Modélisation des Systèmes pour l’Aide à la Décision), nous travaillons sur l’analyse des opérateurs d’agrégation : comment agréger plusieurs données ensemble, comment créer un indicateur composite ?
La première critique que je fais à l’IDH est que sa modélisation est totalement guidée par l’existence des données, pour dire si un pays est développé ou non. Avant tout, il faut se demander : qu’est-ce que signifie « un pays développé » ? Quels composants entrent en jeu ? La santé, l’éducation, les standards de vie, certes, mais peut-être y a-t-il d’autres éléments à y intégrer ? La modélisation de cet indicateur n’a pas été faite de manière méthodologique. Pourtant, il existe des outils permettant d’interagir avec des experts et de trouver les bons ingrédients.
De plus, quand l’on classe les pays dans l’une des quatre catégories, seulement des données statistiques sont utilisées, ce qui revient à dire que le niveau de développement d’un pays est dépendant des autres pays. C’est comme si je vous diagnostiquais une maladie uniquement en regardant vos voisins, par rapport aux données des autres. Cet indicateur peut donc être critiqué, car la méthodologie n’est pas bien définie pour modéliser le problème.
En revanche, un point très positif est que sa méthode est transparente. Il existe peu d’indicateurs où l’on peut comprendre clairement ce qui se passe, où l’on peut récupérer les données brutes et vérifier nous-mêmes les calculs. Cela est possible avec l’IDH. Le modèle est clair et transparent.
Comment peut-on imaginer la construction d’un indicateur le plus pertinent possible ?
Au Lamsade, nous avons des méthodologies précises, qui expliquent comment bien faire la modélisation. Une que je trouve intéressante est la « value-focused thinking » de Ralph Keeney, le fait de réfléchir avec nos valeurs morales et éthiques, en travaillant avec des experts du domaine visé. Il nous appartient alors, en tant que chercheurs, de guider les experts pour trouver ensemble le bon modèle.
Il faut être très attentif aux sous-indicateurs, à la provenance des données et à leur nature. Les données sont-elles ordinales, cardinales ? Avez-vous confiance en ces informations ? Certaines sont-elles manquantes ? Cela est essentiel avant même de pouvoir penser à les agréger.
Ensuite, le modèle d’agrégation dépend évidemment des données qui sont utilisées. Si les données sont ordinales, vous ne pouvez pas faire une somme pondérée. Prenons l'exemple d'un expert qui donne des évaluations sous forme de données qualitatives comme : « c’est bien », « moyen », « pas bien ». Quelles valeurs numériques je vais associer à ces trois données pour les sommer ? (3,2,1), (5, 0, -10), ou encore autre chose ? Selon le choix que nous allons faire, sommer plusieurs évaluations peut donner des résultats différents. Pour nous, il est interdit de faire des choix arbitraires sur le codage des données quantitatives. Or, beaucoup le font. En plus de ça, il y a des contextes où l’on ne peut pas tout agréger.
Nous utilisons des méthodes de modélisation qui demandent du temps et du travail. Pour résumer, il faut d’abord maîtriser les données dont l’on dispose pour chaque sous-indicateur, puis choisir le bon opérateur d’agrégation. Il en existe des centaines possibles !
Vous évoquez durant votre intervention le problème des compensations, largement utilisées dans la plupart des indicateurs…
En effet ! Pour l’expliquer, prenons l’exemple d’une fusée. Imaginons que la construction de notre fusée ne soit pas chère, c’est un bon point sur le critère financier. Cependant, elle comporte de petits soucis de sécurité, c’est un mauvais point sur le critère de sécurité. Avec une approche de type somme pondérée ou moyenne géométrique, ces deux critères peuvent se compenser ! Alors que l’on n’enverra jamais dans l’espace une fusée qui n’est pas sûre…
Un autre exemple : en ce moment, je travaille sur les prisons. Vous ne pouvez pas dire que la situation est fantastique si d’un côté, les prisonniers ont accès à des activités intéressantes, mais de l’autre, il y a des soucis de violence et de torture. De même, je pense que l'on ne peut pas compenser la vie humaine avec un autre critère, comme de l’argent, mais c'est ce qui se passe avec l’IDH, où le PIB peut compenser l'espérance de vie.
Face à cela, on peut utiliser un système de véto. Si un pays est parfait sur quasiment tous les critères, mais que les filles n’ont pas le droit d’aller à l’école, une méthode compensatoire dira qu’il est très bien développé. Le véto va trancher : non, il ne l’est pas. D’autres mécanismes, comme des règles logiques, peuvent aussi réduire cet effet négatif de la compensation entre les critères.
Aujourd’hui, certains veulent chercher des solutions auprès du machine learning. Mais cela ne résoudra rien, car nous ne sommes pas dans un problème de statistiques. Dans les indicateurs d’aide à la décision, nous voulons évaluer les choses, pas produire des valeurs moyennes, des maximums et des minimums. Il faut appliquer la théorie de la décision multi-critères, telle que nous la travaillons au laboratoire.
Comment s’assurer qu’un indicateur fonctionne bien ?
Il existe des analyses de sensibilité, ou de robustesse. Chaque fois que vous choisissez un agrégateur, vous allez faire des choix subjectifs. Il faut alors tester si vos résultats sont très dépendants ou non de ces décisions. Vous modifiez un tout petit peu les valeurs de ces choix subjectifs. S’ils restent les mêmes ou bougent très peu, cela signifie que votre modèle est robuste. Là aussi, nous avons des techniques pour nous en assurer !
Durant votre intervention, vous avez évoqué un indicateur célèbre : le classement de Shanghai. Il est largement remis en question, dans le monde entier. Sa méthodologie touche-t-elle à certains des biais que vous évoquez ?
Tout à fait, méthodologiquement, c’est l’un des pires indicateurs que j’ai pu voir ! On est loin de toute considération fondamentale. Premier problème : la modélisation est totalement dépendante des données existantes sur Internet, qui ne sont ni fiables, ni transparentes. C’est un vrai souci : par exemple, PSL ne peut pas savoir quelles données brutes ont été utilisées pour calculer son score, ce qui empêche toute vérification.
De plus, le classement de Shanghai se contente de quelques critères non normalisés. Résultat, plus vous êtes grand, mieux c’est. On l’a vu tout de suite avec l’Université Paris Dauphine, qui se classe maintenant très bien grâce à la taille de PSL Les classeurs comptent le nombre de publications, sans le diviser par le nombre de chercheurs. Donc si l’on rassemblait fictivement toutes les universités parisiennes, elle serait l’une des meilleures du monde. À la suite des critiques reçues, les concepteurs ont ajouté un dernier critère à leur modèle : un cinquième critère, qui prend les quatre précédents et les normalise. Cependant, il est ensuite ajouté aux quatre précédents, qui ne sont pas normalisés. C'est une façon très étrange de fonctionner, qui est à l'inverse de tous les conseils que l'on peut donner aux concepteurs.
Dernier problème : les valeurs sont calculées par rapport à la meilleure université du monde selon ce ranking, Harvard. Imaginons que pour une année donnée, PSL était derrière Saclay. En ayant exactement les mêmes données l'année d'après, cela pourrait s’inverser, par exemple, juste parce que Harvard a moins de prix Nobel, ou a eu moins de publications. Celle qui était derrière peut passer devant, sans avoir rien changé ! Cela montre que la comparaison entre deux établissements ne dépend pas seulement de leur performance individuelle. La modélisation de l’IDH est sans doute restrictive, ne représente pas toute la réalité, mais elle a un sens. Pas le classement de Shanghai…
Entretien et retranscription par Laura Makary, journaliste indépendante.