Candidater
Comprendre le monde,
éclairer l’avenir

Divers outils et dispositifs de régulation des données existent ou sont en cours d’élaboration. Face aux nombreux défis posés par l’IA en la matière, les modalités de l’intervention publique, nationale ou européenne, méritent d’être précisément définies.

Table ronde animée par Joëlle Toledano, membre de la chaire Gouvernance et Régulation et du CNNum, avec Guillaume Avrin, coordinateur national pour l’IA (DGE), Karine Perset, OCDE, Adrien Basdevant, CNNum (Conseil national du numérique), Betrand Pailhes, CNIL

La coordination nationale pour l'IA

Outre un budget de 1,5 milliard d’euros dédié à l’IA dans le cadre du plan France 2030 (sous forme de subventions, de commandes publiques ou d’investissement en capital), le coordinateur national pour l’IA Guillaume Avrin indique que les pouvoirs publics – français comme européens – disposent de plusieurs leviers pour contribuer à l’établissement d’un cadre éthique et de confiance pour l’IA.

S’agissant de la maîtrise des risques existentiels (potentielle capacité à générer automatiquement des armes biochimiques ou des virus informatiques, par exemple), des réflexions sont engagées autour de la gouvernance de l’IA.

Pour garantir la sûreté de fonctionnement, outre l’EU AI Act, des normes techniques harmonisées permettant d’obtenir une présomption de conformité devront être définies. Sur le territoire national, une commission miroir est animée par l’Afnor pour maximiser l’implication des entreprises françaises.

Plusieurs initiatives techniques et technologiques sont aussi de nature à contribuer à la confiance, parmi lesquelles l’investissement européen de plus de 600 millions d’euros (plus gros financement mondial dans l’IA de confiance) ou le Grand Défi « IA de confiance ». Les dispositifs visant à créer des communs numériques participent de cette même logique. 

Dans le cadre de l’évaluation de conformité volontaire, Guillaume Avrin observe que nombre de labels et de certificats ont été créés en France – sans doute plus que nulle part ailleurs dans le monde, ce qui n’est pas nécessairement positif car cela témoigne d’une dispersion des efforts. Pour que l’un de ces labels émerge au niveau international, il faut cesser de se faire concurrence sur le territoire national. Dans cette optique, le Safety Summit 2024 sera l’occasion d’articuler toutes les initiatives en cours pour présenter une copie globale et cohérente.

Enfin, concernant l’éthique, il est crucial de prendre en compte la frugalité de l’IA, de développer les formations (plus de 700 millions d’euros ont déjà été investis) et d’accompagner la transition vers la société de l’IA.

L'implication de l'OCDE

Le groupe de travail AIGO de l’OCDE, consacré à la gouvernance de l’IA, permet de fixer des priorités communes pour avancer dans six domaines d’expertise, parmi lesquels la protection des données et de la vie privée – enjeu particulièrement accru avec l’IA générative et le scraping de données. 

Karine Perset ajoute que l'observatoire OECD.AI conduit des recherches sur les politiques nationales d’IA et met à disposition de nombreux outils pour le suivi des incidents en temps réel ou la mesure des biais. 

Des réflexions sont également en cours pour élaborer et harmoniser des conditions contractuelles standard (licences pour l’utilisation de données) déployables plus rapidement que la réglementation, des codes de conduite pour les entreprises, des solutions techniques et des dispositifs d’éducation.

Pour une politique industrielle renforcée de la donnée

Pour favoriser une innovation responsable et l’accompagner, Adrien Basdevant (CNNum) estime qu’une régulation contraignante sera nécessaire. En outre, accompagner l’IA impose de comprendre son fonctionnement, pour élaborer les bons codes de conduite. 

Or, tout le paradoxe de l’IA générative (general-purpose AI) est qu’elle peut être développée sans que son application soit connue. Alors qu’il est vain de réglementer une technologie, une régulation contraignante des applications et des cas d’usage s’avère indispensable. Par exemple, le scraping n’est pas illégal en soi, mais certains de ses usages peuvent être illégaux (extraction substantielle d’une base de données, non-respect des conditions générales d’utilisation d’un site, reproduction d’une œuvre originale protégée par le droit d’auteur…). 

« des discussions apaisées entre les acteurs qui développent des algorithmes et ceux qui génèrent du contenu sont indispensables pour trouver les bonnes solutions ».

Pour Adrien Basdevant, « des discussions apaisées entre les acteurs qui développent des algorithmes et ceux qui génèrent du contenu sont indispensables pour trouver les bonnes solutions ».

Les enjeux du traitement de données sont multiples, également. Le RGPD s’applique dans certains cas, en fonction des bases légales (consentement, intérêt légitime, cadre de recherche…). En outre, dans la mesure où les traitements sont statistiques, il est primordial de comprendre la chaîne de valeur de l’IA. 

De façon générale, Adrien Basdevant déplore que les développeurs veuillent pouvoir scraper mais refusent d’être scrapés, et que les éditeurs souhaitent bénéficier de l’article 4 de la directive 2019-970 qui autorise le text and data mining à des fins commerciales, mais refusent qu’il s’applique aux développeurs de modèles de langue. « Tout cela nous incite à revoir notre doctrine sur la propriété intellectuelle, la protection des données personnelles et le scraping au sens large », ajoute-t-il.

S’agissant de la volonté de blanchir les données – souvent qualifiées de nouvel or noir alors qu’il vaudrait mieux les comparer à l’eau, matière renouvelable –, l’article 324-1 du code pénal punit le blanchiment, défini comme le fait de dissimuler l’origine des biens de façon mensongère. Mieux vaudrait, donc, ne pas utiliser cette expression !

Enfin, l’opposition à l’utilisation de ses données pour alimenter les algorithmes devrait s’exprimer à chaque phase de la chaîne de valeur (pré-entraînement, entraînement et affinage).

La régulation de l'utilisation des données personnelles

Betrand Pailhes indique que la CNIL a prononcé une sanction de 20 millions d’euros en application du RGPD, et enjoint à la société Clearview AI de cesser de collecter et d’utiliser, sans base légale, les données des personnes se trouvant en France et de supprimer celles déjà collectées. « Si cette entreprise considère que le premier amendement de la constitution américaine l’autorise à réutiliser librement les données accessibles sur internet, telle n’est pasl’interprétation européenne. » Betrand Pailhes constate d’ailleurs que l’Italie et la Grèce l’ont-également condamnée.

Globalement, toutefois, les droits et libertés ne sont pas massivement mis en question dans le pré-entraînement et la CNIL n’a été saisie d’aucune crainte relative à ChatGPT avant la procédure de son homologue italien. Une régulation reste toutefois à inventer, ne serait-ce que pour la gestion des droits. De fait, ce modèle statistique crée un nouveau contenu.

S’agissant de la réutilisation des données, la CNIL propose de déterminer si la base de données réutilisée est « manifestement illégale » – cette solution confère une marge d’interprétation – et de retenir la notion de « finalité » au sens du RGPD : la finalité de la réutilisation doit être compatible avec la finalité de la collecte. 

Betrand Pailhes précise que si la finalité est la recherche, la collecte est présumée compatible. Mais dans certains cas, la difficulté vient du fait que les acteurs réutilisent les données pour une finalité à la fois de recherche et commerciale. Des travaux sont en cours pour savoir s’il faut distinguer ces deux activités.

Au total, si le cadre général est assez simple à poser, les cas particuliers sont plus difficiles. En 2023, la CNIL a lancé une expérimentation avec la loi sur les Jeux olympiques, qui crée un cadre directement inspiré de l’AI Act permettant d’entraîner des systèmes de caméras intelligentes avec des données de voie publique, à destination des forces de l’ordre – soit un système d’IA « à haut risque » au sens de l’AI Act. 

Dans tous les cas, pour Betrand Pailhes, la logique visant à se concentrer sur les usages semble la bonne. Les usages sont d’ailleurs l’une des trois cordes de rappel qui pourrait permettre d’éclaircir les données grises, avec la transparence de la documentation et les droits des personnes (consentement, opposition).

Pour finir, Adrien Basdevant (CNNum) observe que la notion de data va bien au-delà des données personnelles – la frontière avec les données non personnelles étant l’anonymisation. Or, celle-ci dépend d’un standard de 2014, qui n’est donc plus à l’état de l’art. En outre, se pose la question du traitement des données inextricablement liées (industrielles et personnelles, par exemple) et de l’application de plusieurs textes parfois incompatibles.

Vers une force de réaction rapide pour répondre aux défis de l'IA

Éric Brousseau, directeur de la chaire Gouvernance et Régulation de Paris Dauphine-PSL, constate que tenter de réguler en anticipant des risques est en général voué à l’échec : l’histoire a montré que l’on n’arrive jamais à prévoir les usages d’une technologie sur la base des intentions de ses développeurs. De fait, la technologie est d’abord appropriée par les utilisateurs, puis les développeurs créent des applications répondant aux besoins de ces derniers.

Pour autant, il est indispensable de se doter de capacités ex-ante pour être réactif. 

« Peu importent les exigences contenues dans l’AI Act, ce sont les normes harmonisées qui font présomption de conformité. Or elles sont principalement définies par des acteurs privés. »

Guillaume Avrin, coordinateur national pour l’IA, indique à ce sujet que des réflexions sont en cours autour de la création d’un AI Office européen, dont la France considère qu’il devrait être composé d’acteurs publics et privés. « Peu importent les exigences contenues dans l’AI Act » précise-t-il, « ce sont les normes harmonisées qui font présomption de conformité. Or elles sont principalement définies par des acteurs privés. »

Pour Karine Perset (OCDE), la prolifération des standards internationaux est un vrai sujet. L’OCDE a ainsi observé qu’il existe de très nombreux Risk Management Frameworks, similaires mais suffisamment différents pour être aisément suivis par les non-experts de la gestion des risques, notamment les PME opérant à l’international. Une cartographie est en cours d’élaboration.

Betrand Pailhes exprime, quant à lui, une position ambivalente vis-à-vis des standards techniques, lesquels lui semblent à la fois utiles mais trop généraux pour une approche au cas par cas. 

En synthèse

Maîtrise des risques existentiels, sûreté de fonctionnement, évaluation de conformité, établissement d’un cadre éthique et de confiance, traitement des données, protection de la vie privée et de la propriété intellectuelle, suivi des incidents en temps réel, mesure des biais, harmonisation des conditions contractuelles standard, (ré)utilisation des données… : face aux nombreux défis posés par l’IA, de nombreux outils et dispositifs de régulation existent déjà ou sont en réflexion, à la fois au plan national et au plan européen.

Plusieurs écueils méritent d’être évités, parmi lesquels la régulation de la technologie plutôt que des usages, ou encore la multiplication des standards.

À l’inverse, la logique visant à réguler les données et les usages semble la bonne, de même que toute démarche permettant de doter les pouvoirs publics de capacités ex-ante favorisant la réactivité.

En tout état de cause, il est primordial de comprendre la chaîne de valeur de l’IA, tant dans son fonctionnement que dans ses applications.
 

Le point de vue d'Anne Bouverot, co-présidente de la commission IA

La Commission IA (initialement Comité de l’intelligence artificielle générative), lancée par la Première ministre en septembre, est chargée de rendre un rapport assorti de recommandations sur les opportunités et les risques de l’IA génératives début mars.

Le développement de l’intelligence artificielle générative est extrêmement rapide. De surcroît, son champ d’application bien plus large que ceux des précédentes révolutions technologiques. Aucun pan de la société n’y échappe.

Accompagner ce développement pour qu’il soit aussi bénéfique et responsable que possible s’avère donc primordial.

Etre dans l'action

En France et en Europe, la priorité consiste à être dans l’action, en développant des services d’IA. 

De ce point de vue, la création d’un laboratoire français privé de recherche en IA est une bonne nouvelle, de même que l’existence de plusieurs startups dans ce domaine. Le secteur public a aussi un rôle à jouer, grâce à l’excellence de la formation, de l’enseignement supérieur et de la recherche, et à des experts mondialement reconnus. Le plan France 2030 est donc à saluer, même s’il est indispensable d’aller beaucoup plus loin compte tenu du besoin colossal de financement.

Outre la souveraineté technologique, les autres enjeux sont multiples, parmi lesquels le développement d’une IA responsable, la prise en compte des risques, la compréhension des peurs, ou encore l’instauration des conditions de la confiance.

Penser la régulation

Par ailleurs, si la régulation ne doit pas être la première bataille, elle est nécessaire.

En la matière, la réflexion doit s’inscrire dans un continuum avec des travaux sur la gouvernance des entreprises, les chartes et les labels, la formation et l’expérimentation.

Il convient aussi de définir la vision d’ensemble rôle de chaque partie face au développement de l’IA, en s’inspirant de l’Executive Order des États-Unis tout en respectant nos spécificités nationales et européennes.