{"id":744,"date":"2026-02-23T17:55:14","date_gmt":"2026-02-23T16:55:14","guid":{"rendered":"https:\/\/www.blog-actu.com\/index.php\/2026\/02\/23\/les-ia-peuvent-generer-des-copies-quasi-exactes-de-romans-issus-de-leurs-donnees-dentrainement\/"},"modified":"2026-02-23T17:55:14","modified_gmt":"2026-02-23T16:55:14","slug":"les-ia-peuvent-generer-des-copies-quasi-exactes-de-romans-issus-de-leurs-donnees-dentrainement","status":"publish","type":"post","link":"https:\/\/www.blog-actu.com\/index.php\/2026\/02\/23\/les-ia-peuvent-generer-des-copies-quasi-exactes-de-romans-issus-de-leurs-donnees-dentrainement\/","title":{"rendered":"Les IA peuvent g\u00e9n\u00e9rer des copies quasi exactes de romans issus de leurs donn\u00e9es d&rsquo;entra\u00eenement"},"content":{"rendered":"<p>Les intelligences artificielles peuvent g\u00e9n\u00e9rer des copies quasi identiques de romans \u00e0 partir de leurs donn\u00e9es d&rsquo;entrainement<\/p>\n<p>Les principaux mod\u00e8les d&rsquo;intelligence artificielle au monde peuvent \u00eatre amen\u00e9s \u00e0 g\u00e9n\u00e9rer des copies quasi identiques de romans \u00e0 succ\u00e8s, soulevant de nouvelles questions sur l&rsquo;affirmation de l&rsquo;industrie selon laquelle ses syst\u00e8mes ne stockent pas d&rsquo;\u0153uvres prot\u00e9g\u00e9es par le droit d&rsquo;auteur.<\/p>\n<p>Une s\u00e9rie d&rsquo;\u00e9tudes r\u00e9centes a montr\u00e9 que les grands mod\u00e8les de langage d&rsquo;OpenAI, Google, Meta, Anthropic et xAI m\u00e9morisent bien plus de leurs donn\u00e9es d&rsquo;entrainement qu&rsquo;on ne le pensait auparavant.<\/p>\n<p>Des experts en intelligence artificielle et en droit ont d\u00e9clar\u00e9 au FT que cette capacit\u00e9 de m\u00e9morisation pourrait avoir de graves r\u00e9percussions sur la bataille des groupes d&rsquo;intelligence artificielle contre des dizaines de proc\u00e8s pour violation du droit d&rsquo;auteur dans le monde, car elle sape leur d\u00e9fense principale selon laquelle les grands mod\u00e8les de langage apprennent des \u0153uvres prot\u00e9g\u00e9es par le droit d&rsquo;auteur mais n&rsquo;en stockent pas de copies.<\/p>\n<p>Il existe de plus en plus de preuves que la m\u00e9morisation est un ph\u00e9nom\u00e8ne plus important qu&rsquo;on ne le croyait auparavant, a d\u00e9clar\u00e9 Yves-Alexandre de Montjoye, professeur de math\u00e9matiques appliqu\u00e9es et d&rsquo;informatique \u00e0 l&rsquo;Imperial College de Londres.<\/p>\n<p>Les groupes d&rsquo;intelligence artificielle soutiennent depuis longtemps que la m\u00e9morisation ne se produit pas. Dans une lettre adress\u00e9e en 2023 au Bureau am\u00e9ricain du droit d&rsquo;auteur, Google a d\u00e9clar\u00e9 qu&rsquo;il n&rsquo;y a aucune copie des donn\u00e9es d&rsquo;entrainement, qu&rsquo;il s&rsquo;agisse de texte, d&rsquo;images ou d&rsquo;autres formats, pr\u00e9sente dans le mod\u00e8le lui-m\u00eame.<\/p>\n<p>L&rsquo;industrie de l&rsquo;intelligence artificielle affirme \u00e9galement que l&rsquo;entrainement de mod\u00e8les sur des livres prot\u00e9g\u00e9s par le droit d&rsquo;auteur rel\u00e8ve de l&rsquo;usage \u00e9quitable, arguant que la technologie transforme l&rsquo;\u0153uvre originale en quelque chose de significativement nouveau.<\/p>\n<p>Mais une \u00e9tude publi\u00e9e le mois dernier a montr\u00e9 que des chercheurs des universit\u00e9s de Stanford et Yale ont pu inciter strat\u00e9giquement les grands mod\u00e8les de langage d&rsquo;OpenAI, Google, Anthropic et xAI \u00e0 g\u00e9n\u00e9rer des milliers de mots tir\u00e9s de 13 livres, dont Le Tr\u00f4ne de Fer, Hunger Games et Le Hobbit.<\/p>\n<p>En demandant aux mod\u00e8les de compl\u00e9ter des phrases tir\u00e9es d&rsquo;un livre, Gemini 2.5 a r\u00e9gurgit\u00e9 76,8 pour cent de Harry Potter \u00e0 l&rsquo;\u00e9cole des sorciers avec un haut niveau de pr\u00e9cision, tandis que Grok 3 en a g\u00e9n\u00e9r\u00e9 70,3 pour cent.<\/p>\n<p>Ils ont \u00e9galement pu extraire la quasi-totalit\u00e9 du roman de mani\u00e8re quasi identique \u00e0 partir de Claude 3.7 Sonnet d&rsquo;Anthropic en contournant les protections du mod\u00e8le, o\u00f9 les utilisateurs peuvent inciter les grands mod\u00e8les de langage \u00e0 ignorer leurs garde-fous.<\/p>\n<p>Cela s&rsquo;appuie sur une \u00e9tude de l&rsquo;ann\u00e9e derni\u00e8re qui a r\u00e9v\u00e9l\u00e9 que les mod\u00e8les ouverts, comme Llama de Meta, m\u00e9morisent d&rsquo;\u00e9normes parties de certains livres de leurs donn\u00e9es d&rsquo;entrainement.<\/p>\n<p>Les experts en intelligence artificielle ne savaient pas auparavant si les mod\u00e8les ferm\u00e9s, qui ont tendance \u00e0 avoir plus de garde-fous emp\u00eachant les mod\u00e8les de g\u00e9n\u00e9rer du contenu ind\u00e9sirable, seraient \u00e9galement sujets \u00e0 une m\u00e9morisation \u00e0 grande \u00e9chelle.<\/p>\n<p>C&rsquo;\u00e9tait une surprise qu&rsquo;ils puissent m\u00e9moriser des textes entiers malgr\u00e9 les garde-fous, a d\u00e9clar\u00e9 A. Feder Cooper, chercheuse \u00e0 l&rsquo;Universit\u00e9 Yale, qui faisait partie de l&rsquo;\u00e9tude.<\/p>\n<p>Les chercheurs n&rsquo;ont pas encore d\u00e9termin\u00e9 pourquoi les grands mod\u00e8les de langage m\u00e9morisent des \u00e9l\u00e9ments qui apparaissent dans leurs donn\u00e9es d&rsquo;entrainement. Il reste \u00e9galement incertain quelle part des donn\u00e9es d&rsquo;entrainement est \u00e9vidente dans les r\u00e9sultats qu&rsquo;ils g\u00e9n\u00e8rent.<\/p>\n<p>Cette caract\u00e9ristique de m\u00e9morisation pourrait \u00e9galement avoir de graves implications dans d&rsquo;autres secteurs tels que la sant\u00e9 et l&rsquo;\u00e9ducation, o\u00f9 la fuite de donn\u00e9es d&rsquo;entrainement pourrait entra\u00eener des probl\u00e8mes de confidentialit\u00e9 et de vie priv\u00e9e.<\/p>\n<p>Les experts juridiques ont d\u00e9clar\u00e9 que cela pourrait potentiellement cr\u00e9er une responsabilit\u00e9 importante pour les groupes d&rsquo;intelligence artificielle en mati\u00e8re de violation du droit d&rsquo;auteur, ainsi que des r\u00e9percussions sur la fa\u00e7on dont les entreprises d&rsquo;intelligence artificielle entrainent leurs mod\u00e8les et les co\u00fbts de leur d\u00e9veloppement.<\/p>\n<p>Les r\u00e9sultats de la recherche pourraient pr\u00e9senter un d\u00e9fi pour ceux qui soutiennent que le mod\u00e8le d&rsquo;intelligence artificielle ne stocke ni ne reproduit aucune \u0153uvre prot\u00e9g\u00e9e par le droit d&rsquo;auteur, a d\u00e9clar\u00e9 Cerys Wyn Davies, associ\u00e9e en propri\u00e9t\u00e9 intellectuelle au cabinet d&rsquo;avocats Pinsent Masons.<\/p>\n<p>La question de savoir si les mod\u00e8les d&rsquo;intelligence artificielle m\u00e9morisent ou non leurs donn\u00e9es d&rsquo;entrainement a jou\u00e9 un r\u00f4le important dans les r\u00e9centes batailles juridiques sur le droit d&rsquo;auteur.<\/p>\n<p>Un tribunal am\u00e9ricain a jug\u00e9 l&rsquo;ann\u00e9e derni\u00e8re que l&rsquo;entrainement de grands mod\u00e8les de langage par Anthropic sur certains contenus prot\u00e9g\u00e9s par le droit d&rsquo;auteur pouvait \u00eatre consid\u00e9r\u00e9 comme un usage \u00e9quitable car il \u00e9tait jug\u00e9 transformatif.<\/p>\n<p>Mais il a d\u00e9termin\u00e9 que le stockage d&rsquo;\u0153uvres pirat\u00e9es \u00e9tait intrins\u00e8quement et irr\u00e9m\u00e9diablement contrefait, ce qui a ensuite conduit le groupe d&rsquo;intelligence artificielle \u00e0 payer 1,5 milliard de dollars pour r\u00e9gler le proc\u00e8s.<\/p>\n<p>En Allemagne, une d\u00e9cision de novembre de l&rsquo;ann\u00e9e derni\u00e8re a jug\u00e9 qu&rsquo;OpenAI avait viol\u00e9 le droit d&rsquo;auteur parce que son mod\u00e8le avait m\u00e9moris\u00e9 des paroles de chansons. L&rsquo;affaire, intent\u00e9e par GEMA, une association repr\u00e9sentant des compositeurs, paroliers et \u00e9diteurs, a \u00e9t\u00e9 consid\u00e9r\u00e9e comme une d\u00e9cision historique dans l&rsquo;Union europ\u00e9enne.<\/p>\n<p>Rudy Telscher, associ\u00e9 au cabinet d&rsquo;avocats Husch Blackwell, a d\u00e9clar\u00e9 que reproduire un livre entier sans contournement des protections est clairement une violation du droit d&rsquo;auteur. Mais c&rsquo;est une question de savoir si cela se produit suffisamment pour que les mod\u00e8les d&rsquo;intelligence artificielle puissent \u00eatre tenus responsables de mani\u00e8re indirecte de la contrefa\u00e7on, a-t-il ajout\u00e9.<\/p>\n<p>Anthropic a d\u00e9clar\u00e9 que la technique de contournement des protections utilis\u00e9e dans la recherche de Stanford et Yale \u00e9tait peu pratique pour les utilisateurs normaux et n\u00e9cessiterait plus d&rsquo;efforts pour extraire le texte que d&rsquo;acheter simplement le contenu.<\/p>\n<p>L&rsquo;entreprise a \u00e9galement ajout\u00e9 que son mod\u00e8le ne stocke pas de copies de bases de donn\u00e9es sp\u00e9cifiques mais apprend \u00e0 partir de mod\u00e8les et de relations entre les mots et les cha\u00eenes de caract\u00e8res dans ses donn\u00e9es d&rsquo;entrainement.<\/p>\n<p>xAI, OpenAI et Google n&rsquo;ont pas r\u00e9pondu aux demandes de commentaires.<\/p>\n<p>Le fait que les laboratoires d&rsquo;intelligence artificielle aient mis en place des garde-fous pour emp\u00eacher l&rsquo;extraction des donn\u00e9es d&rsquo;entrainement signifie qu&rsquo;ils sont conscients du probl\u00e8me, a d\u00e9clar\u00e9 de Montjoye de l&rsquo;Imperial.<\/p>\n<p>Ben Zhao, professeur d&rsquo;informatique \u00e0 l&rsquo;Universit\u00e9 de Chicago, s&rsquo;est demand\u00e9 si les laboratoires d&rsquo;intelligence artificielle avaient vraiment besoin d&rsquo;utiliser du contenu prot\u00e9g\u00e9 par le droit d&rsquo;auteur dans les donn\u00e9es d&rsquo;entrainement pour cr\u00e9er des mod\u00e8les de pointe en premier lieu.<\/p>\n<p>Que le r\u00e9sultat technique puisse \u00eatre obtenu ou non, c&rsquo;est toujours une question de savoir si nous devrions faire cela, a d\u00e9clar\u00e9 Zhao. Le c\u00f4t\u00e9 juridique devrait finalement tenir bon et vraiment \u00eatre l&rsquo;arbitre de tout ce processus.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Les intelligences artificielles peuvent g\u00e9n\u00e9rer des copies quasi identiques de romans \u00e0 partir de leurs donn\u00e9es d&rsquo;entrainement Les principaux mod\u00e8les d&rsquo;intelligence artificielle au monde peuvent \u00eatre amen\u00e9s \u00e0 g\u00e9n\u00e9rer des copies quasi identiques de romans \u00e0 succ\u00e8s, soulevant de nouvelles questions sur l&rsquo;affirmation de l&rsquo;industrie selon laquelle ses syst\u00e8mes ne stockent pas d&rsquo;\u0153uvres prot\u00e9g\u00e9es par<\/p>\n","protected":false},"author":3,"featured_media":745,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[46],"tags":[],"class_list":["post-744","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-politique-3"],"_links":{"self":[{"href":"https:\/\/www.blog-actu.com\/index.php\/wp-json\/wp\/v2\/posts\/744","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.blog-actu.com\/index.php\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.blog-actu.com\/index.php\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.blog-actu.com\/index.php\/wp-json\/wp\/v2\/users\/3"}],"replies":[{"embeddable":true,"href":"https:\/\/www.blog-actu.com\/index.php\/wp-json\/wp\/v2\/comments?post=744"}],"version-history":[{"count":0,"href":"https:\/\/www.blog-actu.com\/index.php\/wp-json\/wp\/v2\/posts\/744\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/www.blog-actu.com\/index.php\/wp-json\/wp\/v2\/media\/745"}],"wp:attachment":[{"href":"https:\/\/www.blog-actu.com\/index.php\/wp-json\/wp\/v2\/media?parent=744"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.blog-actu.com\/index.php\/wp-json\/wp\/v2\/categories?post=744"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.blog-actu.com\/index.php\/wp-json\/wp\/v2\/tags?post=744"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}