{"id":700,"date":"2026-02-20T13:16:36","date_gmt":"2026-02-20T12:16:36","guid":{"rendered":"https:\/\/www.blog-actu.com\/index.php\/2026\/02\/20\/microsoft-retire-son-guide-sur-lentrainement-de-modeles-de-langage-avec-des-livres-harry-potter-pirates\/"},"modified":"2026-02-20T13:16:36","modified_gmt":"2026-02-20T12:16:36","slug":"microsoft-retire-son-guide-sur-lentrainement-de-modeles-de-langage-avec-des-livres-harry-potter-pirates","status":"publish","type":"post","link":"https:\/\/www.blog-actu.com\/index.php\/2026\/02\/20\/microsoft-retire-son-guide-sur-lentrainement-de-modeles-de-langage-avec-des-livres-harry-potter-pirates\/","title":{"rendered":"Microsoft retire son guide sur l&rsquo;entra\u00eenement de mod\u00e8les de langage avec des livres Harry Potter pirat\u00e9s"},"content":{"rendered":"<p>Microsoft supprime un guide sur la mani\u00e8re d&rsquo;entra\u00eener des LLM sur des livres Harry Potter pirat\u00e9s<\/p>\n<p>Suite \u00e0 une vague de critiques dans un fil de discussion Hacker News, Microsoft a supprim\u00e9 un article de blog qui, selon les critiques, encourageait les d\u00e9veloppeurs \u00e0 pirater les livres Harry Potter pour entra\u00eener des mod\u00e8les d&rsquo;IA qui pourraient ensuite \u00eatre utilis\u00e9s pour cr\u00e9er du contenu IA de mauvaise qualit\u00e9.<\/p>\n<p>Le blog, qui est archiv\u00e9 ici, a \u00e9t\u00e9 r\u00e9dig\u00e9 en novembre 2024 par une chef de produit senior, Pooja Kamath. Selon son LinkedIn, Kamath travaille chez Microsoft depuis plus d&rsquo;une d\u00e9cennie et reste dans l&rsquo;entreprise. En 2024, Microsoft l&rsquo;a charg\u00e9e de promouvoir une nouvelle fonctionnalit\u00e9 qui, selon le blog, facilitait l&rsquo;ajout de fonctionnalit\u00e9s d&rsquo;IA g\u00e9n\u00e9rative \u00e0 vos propres applications avec seulement quelques lignes de code en utilisant Azure SQL DB, LangChain et les LLM.<\/p>\n<p>Quelle meilleure fa\u00e7on de montrer des exemples attrayants et accessibles de la nouvelle fonctionnalit\u00e9 de Microsoft qui r\u00e9sonneraient avec un large public que d&rsquo;utiliser un ensemble de donn\u00e9es bien connu comme les livres Harry Potter, indiquait le blog.<\/p>\n<p>Les livres sont l&rsquo;une des s\u00e9ries les plus c\u00e9l\u00e8bres et les plus ch\u00e9ries de l&rsquo;histoire litt\u00e9raire, notait le blog, et les fans pourraient utiliser les LLM qu&rsquo;ils ont entra\u00een\u00e9s de deux mani\u00e8res amusantes : construire des syst\u00e8mes de questions-r\u00e9ponses fournissant des r\u00e9ponses riches en contexte et g\u00e9n\u00e9rer de nouvelles fan-fictions Harry Potter pilot\u00e9es par l&rsquo;IA qui raviraient \u00e0 coup s\u00fbr les fans de Harry Potter.<\/p>\n<p>Pour aider les clients Microsoft \u00e0 r\u00e9aliser cette vision, le blog renvoyait vers un ensemble de donn\u00e9es Kaggle qui incluait les sept livres Harry Potter, qui, Ars l&rsquo;a v\u00e9rifi\u00e9, est disponible en ligne depuis des ann\u00e9es et incorrectement marqu\u00e9 comme domaine public. Les conditions d&rsquo;utilisation de Kaggle indiquent que les d\u00e9tenteurs de droits peuvent envoyer des avis de contenu contrefait et les contrevenants r\u00e9p\u00e9t\u00e9s risquent des suspensions, mais les commentateurs de Hacker News ont suppos\u00e9 que l&rsquo;ensemble de donn\u00e9es Harry Potter \u00e9tait pass\u00e9 sous le radar, avec seulement 10 000 t\u00e9l\u00e9chargements au fil du temps n&rsquo;attirant pas l&rsquo;attention de J.K. Rowling, qui garde notoirement un contr\u00f4le ferme sur les droits d&rsquo;auteur de Harry Potter. L&rsquo;ensemble de donn\u00e9es a \u00e9t\u00e9 rapidement supprim\u00e9 jeudi apr\u00e8s qu&rsquo;Ars ait contact\u00e9 le t\u00e9l\u00e9chargeur, Shubham Maindola, un data scientist en Inde sans liens apparents avec Microsoft.<\/p>\n<p>Maindola a d\u00e9clar\u00e9 \u00e0 Ars que l&rsquo;ensemble de donn\u00e9es avait \u00e9t\u00e9 marqu\u00e9 comme domaine public par erreur. Il n&rsquo;y avait aucune intention de fausser le statut de licence des \u0153uvres.<\/p>\n<p>On ne sait pas si Kamath a re\u00e7u l&rsquo;ordre de cr\u00e9er un lien vers l&rsquo;ensemble de donn\u00e9es des livres Harry Potter dans le blog, ou s&rsquo;il s&rsquo;agissait d&rsquo;un choix individuel. Cathay Y. N. Smith, professeur de droit et codirectrice du programme de droit de la propri\u00e9t\u00e9 intellectuelle du Chicago-Kent College of Law, a d\u00e9clar\u00e9 \u00e0 Ars que Kamath n&rsquo;avait peut-\u00eatre pas r\u00e9alis\u00e9 que les livres \u00e9taient trop r\u00e9cents pour \u00eatre dans le domaine public.<\/p>\n<p>Quelqu&rsquo;un peut \u00eatre tr\u00e8s bien inform\u00e9 sur les livres et la technologie, mais pas n\u00e9cessairement sur les dur\u00e9es de droits d&rsquo;auteur et leur dur\u00e9e, a d\u00e9clar\u00e9 Smith. Surtout si elle a vu que quelque chose \u00e9tait marqu\u00e9 par une autre entreprise r\u00e9put\u00e9e comme \u00e9tant dans le domaine public.<\/p>\n<p>Microsoft a refus\u00e9 la demande de commentaire d&rsquo;Ars. Kaggle n&rsquo;a pas r\u00e9pondu \u00e0 la demande de commentaire d&rsquo;Ars.<\/p>\n<p>Le retrait du blog par Microsoft \u00e9tait probablement intelligent<\/p>\n<p>Sur Hacker News, les commentateurs ont sugg\u00e9r\u00e9 qu&rsquo;il \u00e9tait peu probable que quiconque connaissant la franchise populaire croie que les livres Harry Potter \u00e9taient dans le domaine public. Ils ont d\u00e9battu pour savoir si le blog de Microsoft \u00e9tait probl\u00e9matique du point de vue des droits d&rsquo;auteur, car Microsoft encourageait non seulement les clients \u00e0 t\u00e9l\u00e9charger les mat\u00e9riaux contrefaits, mais utilisait \u00e9galement les livres eux-m\u00eames pour cr\u00e9er des mod\u00e8les d&rsquo;IA Harry Potter qui s&rsquo;appuyaient sur des personnages bien-aim\u00e9s pour promouvoir les produits Microsoft.<\/p>\n<p>Le blog de Microsoft a \u00e9t\u00e9 publi\u00e9 il y a plus d&rsquo;un an, \u00e0 une \u00e9poque o\u00f9 les entreprises d&rsquo;IA commen\u00e7aient \u00e0 faire face \u00e0 des poursuites judiciaires concernant des mod\u00e8les d&rsquo;IA accus\u00e9s de violer des droits d&rsquo;auteur en s&rsquo;entra\u00eenant pr\u00e9tendument sur des mat\u00e9riaux pirat\u00e9s et en r\u00e9gurgitant des \u0153uvres textuellement.<\/p>\n<p>Le blog recommandait aux utilisateurs d&rsquo;apprendre \u00e0 entra\u00eener leurs propres mod\u00e8les d&rsquo;IA en t\u00e9l\u00e9chargeant l&rsquo;ensemble de donn\u00e9es Harry Potter, puis en t\u00e9l\u00e9chargeant des fichiers texte sur Azure Blob Storage. Il incluait des exemples de mod\u00e8les bas\u00e9s sur un ensemble de donn\u00e9es que Microsoft semblait avoir t\u00e9l\u00e9charg\u00e9 sur Azure Blob Storage, qui ne comprenait que le premier livre, Harry Potter \u00e0 l&rsquo;\u00e9cole des sorciers.<\/p>\n<p>En entra\u00eenant de grands mod\u00e8les de langage sur des fichiers texte, les fans de Harry Potter pouvaient cr\u00e9er des syst\u00e8mes de questions-r\u00e9ponses capables d&rsquo;extraire des extraits pertinents de livres. Un exemple de requ\u00eate propos\u00e9e \u00e9tait collations du monde magique, qui r\u00e9cup\u00e9rait un extrait de L&rsquo;\u00e9cole des sorciers o\u00f9 Harry s&rsquo;\u00e9merveille devant d&rsquo;\u00e9tranges friandises comme les drag\u00e9es surprises de Bertie Crochue et les chocogrenouilles. Une autre requ\u00eate demandant Comment Harry s&rsquo;est-il senti lorsqu&rsquo;il a appris pour la premi\u00e8re fois qu&rsquo;il \u00e9tait un sorcier a g\u00e9n\u00e9r\u00e9 une sortie pointant vers divers extraits du d\u00e9but du livre.<\/p>\n<p>Mais peut-\u00eatre qu&rsquo;un cas d&rsquo;utilisation encore plus excitant, sugg\u00e9rait Kamath, \u00e9tait de g\u00e9n\u00e9rer des fan-fictions pour explorer de nouvelles aventures et m\u00eame cr\u00e9er des fins alternatives. Ce mod\u00e8le pouvait rapidement parcourir l&rsquo;ensemble de donn\u00e9es \u00e0 la recherche d&rsquo;extraits contextuellement similaires qui pouvaient \u00eatre utilis\u00e9s pour produire de nouvelles histoires qui s&rsquo;int\u00e8grent aux r\u00e9cits existants et incorporent des \u00e9l\u00e9ments des passages r\u00e9cup\u00e9r\u00e9s, indiquait le blog.<\/p>\n<p>\u00c0 titre d&rsquo;exemple, Kamath a entra\u00een\u00e9 un mod\u00e8le pour \u00e9crire une histoire Harry Potter qu&rsquo;elle pouvait utiliser pour commercialiser la fonctionnalit\u00e9 dont elle parlait dans son blog. Elle a demand\u00e9 au mod\u00e8le d&rsquo;\u00e9crire une histoire dans laquelle Harry rencontre un nouvel ami dans le Poudlard Express qui lui parle du support vectoriel natif de Microsoft dans SQL dans le monde Moldu.<\/p>\n<p>S&rsquo;inspirant de parties de L&rsquo;\u00e9cole des sorciers o\u00f9 Harry apprend le Quidditch et fait connaissance avec Hermione Granger, la fan-fiction montrait un gar\u00e7on vendant \u00e0 Harry la nouvelle fonctionnalit\u00e9 incroyable de Microsoft. Pour ce faire, il l&rsquo;a compar\u00e9e \u00e0 un sort qui vous aide \u00e0 trouver exactement ce dont vous avez besoin parmi des milliers d&rsquo;options, instantan\u00e9ment, tout en d\u00e9clarant qu&rsquo;elle \u00e9tait parfaite pour l&rsquo;apprentissage automatique, l&rsquo;IA et les syst\u00e8mes de recommandation.<\/p>\n<p>Brouillant davantage les fronti\u00e8res entre les marques Microsoft et Harry Potter, Kamath a \u00e9galement g\u00e9n\u00e9r\u00e9 une image montrant Harry avec son nouvel ami, estampill\u00e9e d&rsquo;un logo Microsoft.<\/p>\n<p>Smith a d\u00e9clar\u00e9 \u00e0 Ars que les deux cas d&rsquo;utilisation pouvaient frustrer les d\u00e9tenteurs de droits, selon le contenu des sorties du mod\u00e8le.<\/p>\n<p>Je pense que la r\u00e9gurgitation et la cr\u00e9ation de fan-fiction peuvent toutes deux soulever des probl\u00e8mes de droits d&rsquo;auteur dans la mesure o\u00f9 la fan-fiction doit souvent puiser dans les \u00e9l\u00e9ments expressifs, un personnage prot\u00e9g\u00e9 par le droit d&rsquo;auteur, un personnage suffisamment c\u00e9l\u00e8bre pour \u00eatre prot\u00e9g\u00e9 par une loi sur le droit d&rsquo;auteur ou des intrigues ou des s\u00e9quences, a d\u00e9clar\u00e9 Smith. Si ces choses sont copi\u00e9es et reproduites, alors cette sortie pourrait \u00eatre potentiellement contrefaisante.<\/p>\n<p>Mais c&rsquo;est aussi encore une zone grise. En regardant le blog, Smith a d\u00e9clar\u00e9 : Je serais pr\u00e9occup\u00e9e, mais je ne dirais pas que c&rsquo;est automatiquement une contrefa\u00e7on.<\/p>\n<p>Smith a d\u00e9clar\u00e9 \u00e0 Ars que le retrait du blog par Microsoft \u00e9tait probablement intelligent car les tribunaux ont seulement g\u00e9n\u00e9ralement dit que l&rsquo;entra\u00eenement de l&rsquo;IA sur des livres prot\u00e9g\u00e9s par des droits d&rsquo;auteur \u00e9tait un usage \u00e9quitable. Mais les tribunaux continuent d&rsquo;examiner les questions sur les mat\u00e9riaux d&rsquo;entra\u00eenement d&rsquo;IA pirat\u00e9s.<\/p>\n<p>Sur la page de l&rsquo;ensemble de donn\u00e9es Kaggle supprim\u00e9e, Maindola avait pr\u00e9c\u00e9demment expliqu\u00e9 que pour obtenir les donn\u00e9es, il avait t\u00e9l\u00e9charg\u00e9 les ebooks, puis les avait convertis en fichiers txt.<\/p>\n<p>Microsoft pourrait avoir viol\u00e9 des droits d&rsquo;auteur<\/p>\n<p>Si Microsoft devait un jour faire face \u00e0 des questions sur le fait que l&rsquo;entreprise ait sciemment utilis\u00e9 des livres pirat\u00e9s pour entra\u00eener les exemples de mod\u00e8les, l&rsquo;usage \u00e9quitable pourrait \u00eatre un argument difficile, a d\u00e9clar\u00e9 Smith.<\/p>\n<p>Les commentateurs de Hacker News ont sugg\u00e9r\u00e9 que le blog pourrait \u00eatre consid\u00e9r\u00e9 comme un usage \u00e9quitable, car le guide de formation \u00e9tait \u00e0 des fins \u00e9ducatives, et Smith a d\u00e9clar\u00e9 que Microsoft pouvait soulever de bons arguments pour sa d\u00e9fense.<\/p>\n<p>Cependant, elle a \u00e9galement sugg\u00e9r\u00e9 que Microsoft pourrait \u00eatre consid\u00e9r\u00e9 comme responsable de certaines mani\u00e8res pour avoir contribu\u00e9 \u00e0 la contrefa\u00e7on \u00e0 un certain niveau apr\u00e8s avoir laiss\u00e9 le blog en ligne pendant un an. Avant sa suppression, l&rsquo;ensemble de donn\u00e9es Kaggle avait \u00e9t\u00e9 t\u00e9l\u00e9charg\u00e9 plus de 10 000 fois.<\/p>\n<p>Le r\u00e9sultat ultime est de cr\u00e9er quelque chose de contrefait en disant : H\u00e9, voil\u00e0, allez chercher ce truc contrefait et utilisez-le dans notre syst\u00e8me, a d\u00e9clar\u00e9 Smith. Ils pourraient potentiellement avoir une sorte de responsabilit\u00e9 secondaire contributive pour violation de droits d&rsquo;auteur, en le t\u00e9l\u00e9chargeant, ainsi qu&rsquo;en l&rsquo;utilisant pour encourager les autres \u00e0 l&rsquo;utiliser \u00e0 des fins de formation.<\/p>\n<p>Sur Hacker News, les commentateurs ont critiqu\u00e9 le blog, y compris un ancien employ\u00e9 de Microsoft autoproclam\u00e9 qui a affirm\u00e9 que Microsoft permettait aux employ\u00e9s de bloguer sans avoir \u00e0 passer par un processus d&rsquo;approbation ou d&rsquo;\u00e9dition.<\/p>\n<p>Il semble que quelqu&rsquo;un ait fait un mauvais jugement sur ce qu&rsquo;il fallait mettre dans un article de blog d&rsquo;entreprise (et peut-\u00eatre sur ce qui constitue une activit\u00e9 \u00e9thique) et qu&rsquo;il ait \u00e9t\u00e9 retir\u00e9 d\u00e8s que quelqu&rsquo;un l&rsquo;a remarqu\u00e9, a d\u00e9clar\u00e9 l&rsquo;ancien employ\u00e9.<\/p>\n<p>D&rsquo;autres ont sugg\u00e9r\u00e9 que le bl\u00e2me incombait uniquement au t\u00e9l\u00e9chargeur Kaggle, Maindola, qui a d\u00e9clar\u00e9 \u00e0 Ars que l&rsquo;ensemble de donn\u00e9es n&rsquo;aurait jamais d\u00fb \u00eatre marqu\u00e9 domaine public. Mais les critiques de Microsoft ont ripost\u00e9, notant que la page Kaggle indiquait clairement qu&rsquo;aucune autorisation sp\u00e9ciale n&rsquo;avait \u00e9t\u00e9 accord\u00e9e et que l&#8217;employ\u00e9 de Microsoft aurait d\u00fb mieux savoir. Ils n&rsquo;ont pas besoin de conna\u00eetre les d\u00e9tails pour savoir que ces propri\u00e9t\u00e9s appartiennent \u00e0 des entreprises massives et ne sont pas gratuites, a d\u00e9clar\u00e9 un commentateur.<\/p>\n<p>Les livres Harry Potter n&rsquo;\u00e9taient pas les seuls livres cibl\u00e9s, a not\u00e9 le fil, renvoyant vers un \u00e9chantillon Azure s\u00e9par\u00e9 contenant la s\u00e9rie Fondation d&rsquo;Isaac Asimov, qui n&rsquo;est pas non plus dans le domaine public.<\/p>\n<p>Microsoft aurait pu utiliser n&rsquo;importe quel ensemble de donn\u00e9es pour leur blog, ils auraient m\u00eame pu choisir d&rsquo;utiliser des romans r\u00e9ellement dans le domaine public, a \u00e9crit un autre commentateur de Hacker News. Au lieu de cela, ils ont opt\u00e9 pour l&rsquo;utilisation d&rsquo;\u0153uvres prot\u00e9g\u00e9es par des droits d&rsquo;auteur que J.K. n&rsquo;a pas plac\u00e9es dans le domaine public (\u00e0 moins que l&rsquo;utilisateur Shubham Maindola ne soit l&rsquo;alter ego de J.K.).<\/p>\n<p>Smith a sugg\u00e9r\u00e9 que Microsoft aurait pu \u00e9viter les r\u00e9actions n\u00e9gatives de cette semaine en examinant plus attentivement les blogs, notant que si une entreprise est r\u00e9ticente au risque, cela aurait probablement \u00e9t\u00e9 signal\u00e9. Mais elle a \u00e9galement compris la pr\u00e9f\u00e9rence de Kamath pour Harry Potter plut\u00f4t que les nombreux personnages oubli\u00e9s depuis longtemps qui existent dans le domaine public. Sur Hacker News, certains commentateurs ont d\u00e9fendu le blog de Kamath, exhortant qu&rsquo;il devrait \u00eatre consid\u00e9r\u00e9 comme un usage \u00e9quitable car les organisations \u00e0 but non lucratif et les \u00e9tablissements d&rsquo;enseignement pourraient faire la m\u00eame chose dans un contexte d&rsquo;enseignement sans probl\u00e8me.<\/p>\n<p>J&rsquo;aurais \u00e9t\u00e9 pr\u00e9occup\u00e9e si j&rsquo;avais \u00e9t\u00e9 celle qui autorisait cela pour Microsoft, mais en m\u00eame temps, je comprends parfaitement ce que cet employ\u00e9 faisait, a d\u00e9clar\u00e9 Smith. Personne ne veut \u00e9crire des fan-fictions sur des livres qui sont dans le domaine public.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Microsoft supprime un guide sur la mani\u00e8re d&rsquo;entra\u00eener des LLM sur des livres Harry Potter pirat\u00e9s Suite \u00e0 une vague de critiques dans un fil de discussion Hacker News, Microsoft a supprim\u00e9 un article de blog qui, selon les critiques, encourageait les d\u00e9veloppeurs \u00e0 pirater les livres Harry Potter pour entra\u00eener des mod\u00e8les d&rsquo;IA qui<\/p>\n","protected":false},"author":3,"featured_media":701,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[62,61],"tags":[],"class_list":["post-700","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-artificielle","category-intelligence"],"_links":{"self":[{"href":"https:\/\/www.blog-actu.com\/index.php\/wp-json\/wp\/v2\/posts\/700","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.blog-actu.com\/index.php\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.blog-actu.com\/index.php\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.blog-actu.com\/index.php\/wp-json\/wp\/v2\/users\/3"}],"replies":[{"embeddable":true,"href":"https:\/\/www.blog-actu.com\/index.php\/wp-json\/wp\/v2\/comments?post=700"}],"version-history":[{"count":0,"href":"https:\/\/www.blog-actu.com\/index.php\/wp-json\/wp\/v2\/posts\/700\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/www.blog-actu.com\/index.php\/wp-json\/wp\/v2\/media\/701"}],"wp:attachment":[{"href":"https:\/\/www.blog-actu.com\/index.php\/wp-json\/wp\/v2\/media?parent=700"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.blog-actu.com\/index.php\/wp-json\/wp\/v2\/categories?post=700"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.blog-actu.com\/index.php\/wp-json\/wp\/v2\/tags?post=700"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}