Dossier | Les intelligences artificielles génératives : l'envers du décor
L’encadrement des IA Génératives par le règlement européen sur l’IA : un exercice d’équilibrisme
Avec le Règlement européen sur l'IA (RIA) l'UE publie la première réglementation d’envergure encadrant les usages de l'intelligence artificielle générative. Mais comment contrôler sans brider l’innovation ?
Article d'Olivia Tambou, maître de conférences HdR en droit à l'Université Paris Dauphine, PSL, membre du CR2D.
L’UE a est en voie de réussir son pari : adopter la première réglementation d’envergure encadrant les usages de l’intelligence artificielle (ou AI Act). Le règlement sur l’intelligence artificielle (RIA)a fait l’objet d’un accord politique le 8 décembre 2023 avant d’être voté par les eurodéputés le mercredi 13 mars 2024, en attendant le vote en mai par le Conseil de l’UE. Son application entière ne se fera néanmoins pas avant deux ans, soit en 2026. Dans un premier temps, la régulation pourrait se faire essentiellement par des codes de bonne pratique.
Depuis un an, beaucoup ont pu expérimenter les prouesses des outils capables de sortir un texte comme ChatGPT ou une image comme Midjourney à partir de quelques consignes données dans un « prompt ». Est aussi apparue HeyGen, qui permet de créer un avatar vidéo clonant sa propre voix et adaptant le mouvement des lèvres pour parler dans une langue choisie.
“L’espace public regorge d’illustrations des risques générés par l’utilisation de ces applications.”
Google a lancé une IA générative permettant la création d’une musique à partir d’une simple mélodie fredonnée, MusicLM, en attendant Sora, le générateur de vidéos révolutionnaire d’Open AI, créateur de ChatGPT, qui sera bientôt lancé sur le marché et capable de créer sur simple saisie de texte des vidéos réalistes.
L’espace public regorge aussi d’illustrations des risques générés par l’utilisation de ces applications. Aux États-Unis, deux avocats qui s’étaient fait aider par ChatGPT ont pu se retrouver pris au piège et ont fait référence à des jurisprudences qui n’existaient tout simplement pas.
Au-delà des hallucinations, ce sont les risques de désinformation qui inquiètent, surtout en cette année électorale.
Le texte voté propose un encadrement des systèmes d’IA à partir d’une approche par les risques. Certaines IA sont interdites, d’autres ne pourront être commercialisés qu’après avoir subi un examen de leur conformité. L’idée : trouver un compromis entre encadrer les pratiques et ne pas brider l’innovation. C’est sur ce point que la France a cherché à assouplir ce texte. Il s’agit néanmoins là d’un délicat exercice d’équilibrisme.
Une approche par les risques
La création d’un régime spécifique pour les modèles d’IA à usage général (general purpose artificial intelligence en anglais ou GPAI) est sans aucun doute l’une des grandes nouveautés introduites en cours de négociations. Ces modèles sont entraînés sur une grande quantité de données et sont capables d’exécuter un large éventail de tâches et d’être intégrés à de nombreuses variétés de systèmes ou d’application. Ils servent de fondation à d’autres systèmes. Ainsi, ChatGPT constitue une IA générative construite notamment à partir du modèle de langage GPT-4 qui est une GPAI.
Le RIA introduit une nouvelle catégorie, celle de modèles de GPAI susceptibles d’engendrer des risques systémiques. Ce sont ceux dépassant une certaine puissance de calculs ou qui ont aux moins 10 000 utilisateurs professionnels enregistrés, des seuils qui pourront être aménagés par la Commission européenne pour prendre en compte l’évolution du marché.
“La notion de risque systémique renvoie aux modèles susceptibles d’avoir un impact significatif dans l’UE”
La notion de « risque systémique » renvoie, elle, aux modèles qui sont susceptibles d’avoir un impact significatif dans l’UE et « des effets négatifs réels ou raisonnablement prévisibles sur la santé publique, la sûreté, la sécurité publique, les droits fondamentaux ou la société dans son ensemble ». Ils peuvent potentiellement se propager à grande échelle notamment auprès des utilisateurs de ces modèles lorsqu’ils les intègrent dans leurs systèmes ou applications.
Cette approche par la notion de risque systémique est à rapprocher d’un autre texte phare récemment adopté par l’Union européenne, le Digital Service Act (DSA). Celui-ci impose aux très grandes plates-formes et aux très grands moteurs de recherche des obligations supplémentaires, notamment en ce qui concerne des risques systémiques liés à leurs systèmes de modération, de contenus ou de recommandation. La procédure de détermination des modèles de GPAI est similaire à la procédure de désignation des grands acteurs précités dans le DSA : soit les acteurs se désignent eux-mêmes, soit la Commission européenne, assistée par un panel scientifique, pourra les inscrire unilatéralement sur sa liste des modèles de GPAI à risque systémique. Cette liste sera publique.
“La création de la nouvelle catégorie des modèles de GPAI a abouti à leur créer un régime plus arrangeant que celui des systèmes d’IA à haut risque.”
Au-delà de ces analogies, des différences d’importance sont notables. Dans le DSA, il s’agit de renforcer significativement l’encadrement des grands acteurs par rapport aux autres plates-formes en ligne et moteurs de recherche moins puissants. Dans le RIA, la création de la nouvelle catégorie des modèles de GPAI a abouti à leur créer un régime plus arrangeant que celui des systèmes d’IA à haut risque. Autrement dit, il s’agit de rechercher un point d’équilibre entre un encadrement aussi souple que possible et aussi contraignant que nécessaire.
Le régime spécifique des modèles de GPAI repose essentiellement sur une série d’obligations de transparence et non une exigence de conformité préalable à leur mise en service dans le marché intérieur comme pour les SIA à haut risque, ce qui n’est pas sans ambivalences.
Un « résumé suffisamment détaillé »
Le RIA obligera l’ensemble des fournisseurs de modèles de GPAI à établir et à tenir à jour une documentation technique comportant un ensemble d’information précise. Cela permettra notamment de savoir quels corpus de données ont été utilisés pour entraîner le modèle, le tester, le valider et aussi d’où viennent ces données et comment elles ont été collectées. Cette documentation technique doit inclure la consommation d’énergie connue ou estimée du modèle.
Le nouveau texte n’impose pas que cette documentation technique soit rendue publique, mais seulement qu’elle soit transmise aux régulateurs. Seul un « résumé suffisamment détaillé » des contenus utilisés pour entraîner le modèle devra être accessible à tous, formulation ambivalente par excellence.
“À la grande différence du DSA, aucun accès direct de principe à ces données n’est envisagé ni pour les régulateurs ni pour les experts chargés d’auditer ces modèles”
Les pessimistes souligneront que, à la grande différence du DSA, aucun accès direct de principe à ces données n’est envisagé ni pour les régulateurs ni pour les chercheurs ou des experts indépendants chargés d’auditer ces modèles. Autrement dit, la délivrance de ces informations cruciales serait d’abord subordonnée à la bonne foi des acteurs. Ces dernières devront néanmoins coopérer avec les autorités nationales compétentes et la Commission. En cas de non-respect de ses demandes, cette dernière pourra infliger aux fournisseurs de modèle de GPAI une amende pouvant aller jusqu’à 3 % de son chiffre d’affaires annuel mondial de l’exercice précédent ou 15 millions d’euros.
Les fournisseurs de modèles de GPAI doivent également fournir une documentation technique aux fournisseurs de systèmes d’IA qui utilisent et intègrent le modèle GPAI dans leurs applications ou systèmes. Ces informations ont une double utilité : bien comprendre les tâches auxquelles le modèle est destiné et responsabiliser qui ne l’utiliserait pas pour la destination prévue ou qui opérerait des modifications substantielles. Dans de tels cas, les conséquences légales sont transférées : le développeur deviendrait concepteur d’un nouveau modèle de GPAI avec les contraintes spécifiques qui vont avec.
Sont responsabilisés également ceux qui importent ou mettent sur le marché en Europe des IA conçues hors du territoire des 27. De manière générale cependant, l’obligation de documentation technique telle qu’elle est posée ne permet pas de clarifier suffisamment dans quelle mesure ceux-ci seront soumis aux mêmes contraintes.
Des droits d’auteur vraiment protégés ?
Le RIA impose en outre aux fournisseurs de modèle de GPAI de mettre en place une politique concernant le respect du droit d’auteur. Ici encore cela ne se fait pas sans ambiguïté. L’impact des IA Génératives sur ce dernier est au cœur du débat public tant en Europe qu’aux États-Unis.
Dans l’UE, le débat a porté sur la nécessité de réviser l’exception de fouilles de textes qui permet l’utilisation par des modèles d’IA de données couvertes par le droit d’auteur mais librement accessibles sur Internet, tant que les ayant-droits n’ont pas exprimé leur opposition. Le RIA ne la remet pas en cause mais oblige les fournisseurs de modèle de GPAI à mettre en place des technologies leur assurant qu’ils respectent bien l’opposition exprimée des auteurs.
"Le RIA incite les auteurs à s’organiser pour exercer leurs droits d’opposition."
Autrement dit, le texte incite les auteurs à s’organiser pour exercer leurs droits d’opposition. De leur côté, les fournisseurs de modèles de GPAI doivent pouvoir attester que ces droits ont bien été respectés. Ils devraient aussi attester de l’effacement automatique des données couvertes par l’exception dès lors que leur modèle a été entraîné, testé et validé. On peut cependant rester sceptique à l’idée que rendre public un « résumé détaillé » sur le contenu des données utilisées par les modèles de GPAI qui permette en pratique aux ayant-droits de pouvoir vérifier l’éventuel usage de leurs données protégées.
Une exception « open source » raisonnée
Les modèles mis à disposition du public sous une licence gratuite et laissant un accès ouvert à leurs caractéristiques techniques (on parle d’« open source ») n’ont pas à mettre en place une politique de respect des droits d’auteurs ni à publier un résumé détaillé sur les contenus utilisés pour leurs entraînements. C’est par exemple le cas de LlaMA, le langage de Meta, mais pas celui de GPT4 qui est un modèle « propriétaire », c’est-à-dire dont les fondations techniques ne sont pas partagées.
Cette exception fait écho à la bienveillance générale du RIA pour la recherche. Pour autant, le RIA ne s’enferme pas dans une approche naïve de l’open source. L’exception ne s’applique pas aux modèles fournis contre rémunération, ne concerne pas les modèles de GPAI à risque systémique, ni ceux qui ne cocheraient que quelques critères définissant un modèle open source. La question pourrait se poser à l’avenir pour la start-up française Mistral IA.
Un tonneau des Danaïdes
L’effectivité de l’encadrement des modèles de GPAI par le règlement, marquée ainsi par de nombreuses ambiguïtés, est, en définitive, subordonnée au cadre de gouvernance qu’il propose. Une attention toute particulière devra être accordée au bureau de l’IA de la Commission qui vient d’être créé. C’est à ce dernier que l’essentiel du contrôle et de l’accompagnement de ces acteurs vers la conformité est confié.
La tâche consistera notamment à adopter un ensemble de documents qui permettront de clarifier les nombreuses ambivalences du RIA. La tâche pourrait s’apparenter à un tonneau des Danaïdes visant à adapter sans cesse la régulation à l’évolution de la technique et du marché.
Mais après tout n’est-ce pas le propre de toute régulation que de permettre l’ajustement plus quotidien du cadre juridique en étant à l’écoute des acteurs et des progrès de la technique ?
Cet article a été publié en collaboration avec The Conversation France.