Dossier | Dauphine Digital Days 2023 "IA & Société, nouvelle donne, nouveaux enjeux" - Les actes #2

Régulation des données : les corpus de pré-entraînement des IA

6 mn - Le 12 février 2024

La rapidité des progrès de l’IA s’explique par l’utilisation de modèles toujours plus grands, mobilisant un nombre croissant de paramètres et des corpus d’entraînement eux-mêmes toujours plus grands.

Benoît Sagot, chercheur à l’INRIA et titulaire d’une chaire dans l’institut PR[AI]RIE

Les corpus de pré-entraînement permettent d’entraîner des modèles dits de fondation, comme ChatGPT. Ils sont donc constitués de très grands volumes de textes. D’autres corpus, dit d’affinage (ou fine-tuning) incluent des données permettant de construire des modèles conversationnels à partir des modèles de fondation.

Des données d'entraînement toujours plus volumineuses

Si certains grands modèles de langue sont diffusés sous licence libre, tel est rarement le cas des plus gros modèles entraînés par des acteurs privés. De surcroît, leurs données d’entraînement ne sont ni connues ni décrites, et leur très grande taille soulève de nombreux enjeux, notamment écologiques et juridiques. S’y ajoutent des risques non négligeables de biais, de contenus offensants, d’informations fausses ou anachroniques, etc.

Une légalité d'accès et d'utilisation parfois discutable

Une première distinction peut être opérée, même si elle mérite d’être affinée :

les données « blanches », dont l’accès et l’utilisation pour entraîner des modèles sont légaux (Wikipédia, transcription des minutes au Parlement européen…) ;
les données « grises », dont l’accès est légal mais dont l’utilisation pour entraîner des modèles est soit discutable, soit non autorisée (articles de presse accessibles gratuitement mais protégés par le droit d’auteur…) ;
les données « noires », dont l’accès est illégal (y compris celles de Library Genesis, qui permet de télécharger illégalement des milliers de livres).

“Il existe de bonnes raisons de penser que nombre de très grands modèles de langue ont été entraînés à partir de données noires”

Certains grands modèles de langue ont été entraînés uniquement avec des données blanches et grises, comme OSCAR 2019 (CamemBERT) et ROOTS (BLOOM). Toutefois, il existe de bonnes raisons de penser que nombre de très grands modèles de langue ont été entraînés à partir de données noires – ce qui explique pourquoi certains acteurs refusent de les publier. Ainsi, si LLaMA-1 fournit une description relativement précise de son corpus, LLaMA-2 parle de « new mix of publicly available online data ».

Il importe aussi de distinguer les données accessibles légalement et gratuitement (données grises) des données payantes. Par ailleurs, les données accessibles légalement moyennant finances mais qui sont aussi accessibles gratuitement illégalement deviennent, de facto, des données noires.

En tout état de cause, plus un modèle grandit, plus il faut de données d’entraînement pour atteindre le niveau de performance visé. Aussi les acteurs recourent-ils à des données variées extraites d’internet, plutôt qu’à des sources homogènes comme Wikipédia ou de petits corpus de meilleure qualité. Cela explique le recours aux données grises et noires.

Les conditions d'une meilleure acceptabilité

Pour élaborer de meilleurs modèles, il faut prôner l’utilisation de données de meilleure qualité, plus diverses, si possible blanches, mais aussi récentes et dans un plus grand nombre de langues. Pour citer le seul cas de la France, le français n'est pas l’unique langue parlée. Un projet est d’ailleurs en cours à l’INRIA pour couvrir les autres langues de France dans les données de préapprentissage.

Plus globalement, l’acceptabilité par la société des progrès en IA dépendra de la capacité à affirmer que les entraînements n’ont pas été effectués avec des données personnelles ou protégées par le droit d’auteur.

“La « SACEMisation » des données grises et noires serait une fausse bonne idée, car inapplicable compte tenu du nombre d’ayants-droits”

Dans cette optique, la « SACEMisation » des données grises et noires serait une fausse bonne idée, car inapplicable compte tenu du nombre d’ayants-droits. Un pays qui adopterait une telle législation étoufferait toute initiative de recherche et de développement.

Une autre solution consisterait à créer plus de données blanches d’entraîner des modèles de langue – ex nihilo, grâce à des modèles génératifs ou par la numérisation de documents existants. Il pourrait aussi s’agir de rendre blanches des données qui ne le sont pas. Par exemple, certaines données grises ont une valeur qui décroît avec le temps. Peut-être faudrait-il élaborer un paradigme selon lequel elles deviendraient blanches passé un certain délai.

« Dans tous les cas, un vaste travail d’harmonisation reste nécessaire. »

Le cas des données grises en question

Certaines données grises ou noires sont de grande valeur et financées par de l’argent public, comme les cours du CNED. Les modèles gagneraient en qualité s’ils pouvaient s’entraîner sur ces données.

Par ailleurs, utiliser un modèle qui produit un texte relevant du plagiat n’est problématique en soi : seule son utilisation fait de l’utilisateur un plagiaire. Il est de la responsabilité de chacun de savoir si le texte produit est utilisable, même si cela reste difficile à détecter. Dans cette perspective, un nombre croissant de modèles pourraient être utilement complétés par des algorithmes dédiés, à l’instar de GPT-4 et son « content filter ».

« Par définition, les données grises sont légalement lisibles et mémorisables par des humains. Pourquoi n’en irait-il pas de même pour les modèles de langue, dans le respect de l’exception de la fouille de données et sous réserve de rester cohérent avec le droit de retrait des données personnelles. Au Japon, toute donnée textuelle même sous copyright peut être utilisée pour entraîner des modèles. Je ne dis pas qu’il faille aller jusque-là, mais la question mérite d’être posée. »

“Il est indispensable que les données de pré-entraînement soient libres et légalement utilisables”

En somme, il est indispensable que les données de pré-entraînement soient libres et légalement utilisables pour cet usage. C’est la condition de la reproductibilité et de la transparence, y compris pour la recherche scientifique. Par ailleurs, les données illicites qui figurent sur internet donc dans les données d’entraînement sont difficiles à détecter. Les modèles de langue ne sont pas responsables de leur existence, mais ils peuvent servir de révélateur et justifier des contrôles a posteriori. C’est d’ailleurs le rôle de l’étape visant à transformer un modèle de base en modèle conversationnel.