Les intelligences artificielles peuvent générer des copies quasi identiques de romans à partir de leurs données d’entrainement
Les principaux modèles d’intelligence artificielle au monde peuvent être amenés à générer des copies quasi identiques de romans à succès, soulevant de nouvelles questions sur l’affirmation de l’industrie selon laquelle ses systèmes ne stockent pas d’œuvres protégées par le droit d’auteur.
Une série d’études récentes a montré que les grands modèles de langage d’OpenAI, Google, Meta, Anthropic et xAI mémorisent bien plus de leurs données d’entrainement qu’on ne le pensait auparavant.
Des experts en intelligence artificielle et en droit ont déclaré au FT que cette capacité de mémorisation pourrait avoir de graves répercussions sur la bataille des groupes d’intelligence artificielle contre des dizaines de procès pour violation du droit d’auteur dans le monde, car elle sape leur défense principale selon laquelle les grands modèles de langage apprennent des œuvres protégées par le droit d’auteur mais n’en stockent pas de copies.
Il existe de plus en plus de preuves que la mémorisation est un phénomène plus important qu’on ne le croyait auparavant, a déclaré Yves-Alexandre de Montjoye, professeur de mathématiques appliquées et d’informatique à l’Imperial College de Londres.
Les groupes d’intelligence artificielle soutiennent depuis longtemps que la mémorisation ne se produit pas. Dans une lettre adressée en 2023 au Bureau américain du droit d’auteur, Google a déclaré qu’il n’y a aucune copie des données d’entrainement, qu’il s’agisse de texte, d’images ou d’autres formats, présente dans le modèle lui-même.
L’industrie de l’intelligence artificielle affirme également que l’entrainement de modèles sur des livres protégés par le droit d’auteur relève de l’usage équitable, arguant que la technologie transforme l’œuvre originale en quelque chose de significativement nouveau.
Mais une étude publiée le mois dernier a montré que des chercheurs des universités de Stanford et Yale ont pu inciter stratégiquement les grands modèles de langage d’OpenAI, Google, Anthropic et xAI à générer des milliers de mots tirés de 13 livres, dont Le Trône de Fer, Hunger Games et Le Hobbit.
En demandant aux modèles de compléter des phrases tirées d’un livre, Gemini 2.5 a régurgité 76,8 pour cent de Harry Potter à l’école des sorciers avec un haut niveau de précision, tandis que Grok 3 en a généré 70,3 pour cent.
Ils ont également pu extraire la quasi-totalité du roman de manière quasi identique à partir de Claude 3.7 Sonnet d’Anthropic en contournant les protections du modèle, où les utilisateurs peuvent inciter les grands modèles de langage à ignorer leurs garde-fous.
Cela s’appuie sur une étude de l’année dernière qui a révélé que les modèles ouverts, comme Llama de Meta, mémorisent d’énormes parties de certains livres de leurs données d’entrainement.
Les experts en intelligence artificielle ne savaient pas auparavant si les modèles fermés, qui ont tendance à avoir plus de garde-fous empêchant les modèles de générer du contenu indésirable, seraient également sujets à une mémorisation à grande échelle.
C’était une surprise qu’ils puissent mémoriser des textes entiers malgré les garde-fous, a déclaré A. Feder Cooper, chercheuse à l’Université Yale, qui faisait partie de l’étude.
Les chercheurs n’ont pas encore déterminé pourquoi les grands modèles de langage mémorisent des éléments qui apparaissent dans leurs données d’entrainement. Il reste également incertain quelle part des données d’entrainement est évidente dans les résultats qu’ils génèrent.
Cette caractéristique de mémorisation pourrait également avoir de graves implications dans d’autres secteurs tels que la santé et l’éducation, où la fuite de données d’entrainement pourrait entraîner des problèmes de confidentialité et de vie privée.
Les experts juridiques ont déclaré que cela pourrait potentiellement créer une responsabilité importante pour les groupes d’intelligence artificielle en matière de violation du droit d’auteur, ainsi que des répercussions sur la façon dont les entreprises d’intelligence artificielle entrainent leurs modèles et les coûts de leur développement.
Les résultats de la recherche pourraient présenter un défi pour ceux qui soutiennent que le modèle d’intelligence artificielle ne stocke ni ne reproduit aucune œuvre protégée par le droit d’auteur, a déclaré Cerys Wyn Davies, associée en propriété intellectuelle au cabinet d’avocats Pinsent Masons.
La question de savoir si les modèles d’intelligence artificielle mémorisent ou non leurs données d’entrainement a joué un rôle important dans les récentes batailles juridiques sur le droit d’auteur.
Un tribunal américain a jugé l’année dernière que l’entrainement de grands modèles de langage par Anthropic sur certains contenus protégés par le droit d’auteur pouvait être considéré comme un usage équitable car il était jugé transformatif.
Mais il a déterminé que le stockage d’œuvres piratées était intrinsèquement et irrémédiablement contrefait, ce qui a ensuite conduit le groupe d’intelligence artificielle à payer 1,5 milliard de dollars pour régler le procès.
En Allemagne, une décision de novembre de l’année dernière a jugé qu’OpenAI avait violé le droit d’auteur parce que son modèle avait mémorisé des paroles de chansons. L’affaire, intentée par GEMA, une association représentant des compositeurs, paroliers et éditeurs, a été considérée comme une décision historique dans l’Union européenne.
Rudy Telscher, associé au cabinet d’avocats Husch Blackwell, a déclaré que reproduire un livre entier sans contournement des protections est clairement une violation du droit d’auteur. Mais c’est une question de savoir si cela se produit suffisamment pour que les modèles d’intelligence artificielle puissent être tenus responsables de manière indirecte de la contrefaçon, a-t-il ajouté.
Anthropic a déclaré que la technique de contournement des protections utilisée dans la recherche de Stanford et Yale était peu pratique pour les utilisateurs normaux et nécessiterait plus d’efforts pour extraire le texte que d’acheter simplement le contenu.
L’entreprise a également ajouté que son modèle ne stocke pas de copies de bases de données spécifiques mais apprend à partir de modèles et de relations entre les mots et les chaînes de caractères dans ses données d’entrainement.
xAI, OpenAI et Google n’ont pas répondu aux demandes de commentaires.
Le fait que les laboratoires d’intelligence artificielle aient mis en place des garde-fous pour empêcher l’extraction des données d’entrainement signifie qu’ils sont conscients du problème, a déclaré de Montjoye de l’Imperial.
Ben Zhao, professeur d’informatique à l’Université de Chicago, s’est demandé si les laboratoires d’intelligence artificielle avaient vraiment besoin d’utiliser du contenu protégé par le droit d’auteur dans les données d’entrainement pour créer des modèles de pointe en premier lieu.
Que le résultat technique puisse être obtenu ou non, c’est toujours une question de savoir si nous devrions faire cela, a déclaré Zhao. Le côté juridique devrait finalement tenir bon et vraiment être l’arbitre de tout ce processus.





