Microsoft supprime un guide sur la manière d’entraîner des LLM sur des livres Harry Potter piratés
Suite à une vague de critiques dans un fil de discussion Hacker News, Microsoft a supprimé un article de blog qui, selon les critiques, encourageait les développeurs à pirater les livres Harry Potter pour entraîner des modèles d’IA qui pourraient ensuite être utilisés pour créer du contenu IA de mauvaise qualité.
Le blog, qui est archivé ici, a été rédigé en novembre 2024 par une chef de produit senior, Pooja Kamath. Selon son LinkedIn, Kamath travaille chez Microsoft depuis plus d’une décennie et reste dans l’entreprise. En 2024, Microsoft l’a chargée de promouvoir une nouvelle fonctionnalité qui, selon le blog, facilitait l’ajout de fonctionnalités d’IA générative à vos propres applications avec seulement quelques lignes de code en utilisant Azure SQL DB, LangChain et les LLM.
Quelle meilleure façon de montrer des exemples attrayants et accessibles de la nouvelle fonctionnalité de Microsoft qui résonneraient avec un large public que d’utiliser un ensemble de données bien connu comme les livres Harry Potter, indiquait le blog.
Les livres sont l’une des séries les plus célèbres et les plus chéries de l’histoire littéraire, notait le blog, et les fans pourraient utiliser les LLM qu’ils ont entraînés de deux manières amusantes : construire des systèmes de questions-réponses fournissant des réponses riches en contexte et générer de nouvelles fan-fictions Harry Potter pilotées par l’IA qui raviraient à coup sûr les fans de Harry Potter.
Pour aider les clients Microsoft à réaliser cette vision, le blog renvoyait vers un ensemble de données Kaggle qui incluait les sept livres Harry Potter, qui, Ars l’a vérifié, est disponible en ligne depuis des années et incorrectement marqué comme domaine public. Les conditions d’utilisation de Kaggle indiquent que les détenteurs de droits peuvent envoyer des avis de contenu contrefait et les contrevenants répétés risquent des suspensions, mais les commentateurs de Hacker News ont supposé que l’ensemble de données Harry Potter était passé sous le radar, avec seulement 10 000 téléchargements au fil du temps n’attirant pas l’attention de J.K. Rowling, qui garde notoirement un contrôle ferme sur les droits d’auteur de Harry Potter. L’ensemble de données a été rapidement supprimé jeudi après qu’Ars ait contacté le téléchargeur, Shubham Maindola, un data scientist en Inde sans liens apparents avec Microsoft.
Maindola a déclaré à Ars que l’ensemble de données avait été marqué comme domaine public par erreur. Il n’y avait aucune intention de fausser le statut de licence des œuvres.
On ne sait pas si Kamath a reçu l’ordre de créer un lien vers l’ensemble de données des livres Harry Potter dans le blog, ou s’il s’agissait d’un choix individuel. Cathay Y. N. Smith, professeur de droit et codirectrice du programme de droit de la propriété intellectuelle du Chicago-Kent College of Law, a déclaré à Ars que Kamath n’avait peut-être pas réalisé que les livres étaient trop récents pour être dans le domaine public.
Quelqu’un peut être très bien informé sur les livres et la technologie, mais pas nécessairement sur les durées de droits d’auteur et leur durée, a déclaré Smith. Surtout si elle a vu que quelque chose était marqué par une autre entreprise réputée comme étant dans le domaine public.
Microsoft a refusé la demande de commentaire d’Ars. Kaggle n’a pas répondu à la demande de commentaire d’Ars.
Le retrait du blog par Microsoft était probablement intelligent
Sur Hacker News, les commentateurs ont suggéré qu’il était peu probable que quiconque connaissant la franchise populaire croie que les livres Harry Potter étaient dans le domaine public. Ils ont débattu pour savoir si le blog de Microsoft était problématique du point de vue des droits d’auteur, car Microsoft encourageait non seulement les clients à télécharger les matériaux contrefaits, mais utilisait également les livres eux-mêmes pour créer des modèles d’IA Harry Potter qui s’appuyaient sur des personnages bien-aimés pour promouvoir les produits Microsoft.
Le blog de Microsoft a été publié il y a plus d’un an, à une époque où les entreprises d’IA commençaient à faire face à des poursuites judiciaires concernant des modèles d’IA accusés de violer des droits d’auteur en s’entraînant prétendument sur des matériaux piratés et en régurgitant des œuvres textuellement.
Le blog recommandait aux utilisateurs d’apprendre à entraîner leurs propres modèles d’IA en téléchargeant l’ensemble de données Harry Potter, puis en téléchargeant des fichiers texte sur Azure Blob Storage. Il incluait des exemples de modèles basés sur un ensemble de données que Microsoft semblait avoir téléchargé sur Azure Blob Storage, qui ne comprenait que le premier livre, Harry Potter à l’école des sorciers.
En entraînant de grands modèles de langage sur des fichiers texte, les fans de Harry Potter pouvaient créer des systèmes de questions-réponses capables d’extraire des extraits pertinents de livres. Un exemple de requête proposée était collations du monde magique, qui récupérait un extrait de L’école des sorciers où Harry s’émerveille devant d’étranges friandises comme les dragées surprises de Bertie Crochue et les chocogrenouilles. Une autre requête demandant Comment Harry s’est-il senti lorsqu’il a appris pour la première fois qu’il était un sorcier a généré une sortie pointant vers divers extraits du début du livre.
Mais peut-être qu’un cas d’utilisation encore plus excitant, suggérait Kamath, était de générer des fan-fictions pour explorer de nouvelles aventures et même créer des fins alternatives. Ce modèle pouvait rapidement parcourir l’ensemble de données à la recherche d’extraits contextuellement similaires qui pouvaient être utilisés pour produire de nouvelles histoires qui s’intègrent aux récits existants et incorporent des éléments des passages récupérés, indiquait le blog.
À titre d’exemple, Kamath a entraîné un modèle pour écrire une histoire Harry Potter qu’elle pouvait utiliser pour commercialiser la fonctionnalité dont elle parlait dans son blog. Elle a demandé au modèle d’écrire une histoire dans laquelle Harry rencontre un nouvel ami dans le Poudlard Express qui lui parle du support vectoriel natif de Microsoft dans SQL dans le monde Moldu.
S’inspirant de parties de L’école des sorciers où Harry apprend le Quidditch et fait connaissance avec Hermione Granger, la fan-fiction montrait un garçon vendant à Harry la nouvelle fonctionnalité incroyable de Microsoft. Pour ce faire, il l’a comparée à un sort qui vous aide à trouver exactement ce dont vous avez besoin parmi des milliers d’options, instantanément, tout en déclarant qu’elle était parfaite pour l’apprentissage automatique, l’IA et les systèmes de recommandation.
Brouillant davantage les frontières entre les marques Microsoft et Harry Potter, Kamath a également généré une image montrant Harry avec son nouvel ami, estampillée d’un logo Microsoft.
Smith a déclaré à Ars que les deux cas d’utilisation pouvaient frustrer les détenteurs de droits, selon le contenu des sorties du modèle.
Je pense que la régurgitation et la création de fan-fiction peuvent toutes deux soulever des problèmes de droits d’auteur dans la mesure où la fan-fiction doit souvent puiser dans les éléments expressifs, un personnage protégé par le droit d’auteur, un personnage suffisamment célèbre pour être protégé par une loi sur le droit d’auteur ou des intrigues ou des séquences, a déclaré Smith. Si ces choses sont copiées et reproduites, alors cette sortie pourrait être potentiellement contrefaisante.
Mais c’est aussi encore une zone grise. En regardant le blog, Smith a déclaré : Je serais préoccupée, mais je ne dirais pas que c’est automatiquement une contrefaçon.
Smith a déclaré à Ars que le retrait du blog par Microsoft était probablement intelligent car les tribunaux ont seulement généralement dit que l’entraînement de l’IA sur des livres protégés par des droits d’auteur était un usage équitable. Mais les tribunaux continuent d’examiner les questions sur les matériaux d’entraînement d’IA piratés.
Sur la page de l’ensemble de données Kaggle supprimée, Maindola avait précédemment expliqué que pour obtenir les données, il avait téléchargé les ebooks, puis les avait convertis en fichiers txt.
Microsoft pourrait avoir violé des droits d’auteur
Si Microsoft devait un jour faire face à des questions sur le fait que l’entreprise ait sciemment utilisé des livres piratés pour entraîner les exemples de modèles, l’usage équitable pourrait être un argument difficile, a déclaré Smith.
Les commentateurs de Hacker News ont suggéré que le blog pourrait être considéré comme un usage équitable, car le guide de formation était à des fins éducatives, et Smith a déclaré que Microsoft pouvait soulever de bons arguments pour sa défense.
Cependant, elle a également suggéré que Microsoft pourrait être considéré comme responsable de certaines manières pour avoir contribué à la contrefaçon à un certain niveau après avoir laissé le blog en ligne pendant un an. Avant sa suppression, l’ensemble de données Kaggle avait été téléchargé plus de 10 000 fois.
Le résultat ultime est de créer quelque chose de contrefait en disant : Hé, voilà, allez chercher ce truc contrefait et utilisez-le dans notre système, a déclaré Smith. Ils pourraient potentiellement avoir une sorte de responsabilité secondaire contributive pour violation de droits d’auteur, en le téléchargeant, ainsi qu’en l’utilisant pour encourager les autres à l’utiliser à des fins de formation.
Sur Hacker News, les commentateurs ont critiqué le blog, y compris un ancien employé de Microsoft autoproclamé qui a affirmé que Microsoft permettait aux employés de bloguer sans avoir à passer par un processus d’approbation ou d’édition.
Il semble que quelqu’un ait fait un mauvais jugement sur ce qu’il fallait mettre dans un article de blog d’entreprise (et peut-être sur ce qui constitue une activité éthique) et qu’il ait été retiré dès que quelqu’un l’a remarqué, a déclaré l’ancien employé.
D’autres ont suggéré que le blâme incombait uniquement au téléchargeur Kaggle, Maindola, qui a déclaré à Ars que l’ensemble de données n’aurait jamais dû être marqué domaine public. Mais les critiques de Microsoft ont riposté, notant que la page Kaggle indiquait clairement qu’aucune autorisation spéciale n’avait été accordée et que l’employé de Microsoft aurait dû mieux savoir. Ils n’ont pas besoin de connaître les détails pour savoir que ces propriétés appartiennent à des entreprises massives et ne sont pas gratuites, a déclaré un commentateur.
Les livres Harry Potter n’étaient pas les seuls livres ciblés, a noté le fil, renvoyant vers un échantillon Azure séparé contenant la série Fondation d’Isaac Asimov, qui n’est pas non plus dans le domaine public.
Microsoft aurait pu utiliser n’importe quel ensemble de données pour leur blog, ils auraient même pu choisir d’utiliser des romans réellement dans le domaine public, a écrit un autre commentateur de Hacker News. Au lieu de cela, ils ont opté pour l’utilisation d’œuvres protégées par des droits d’auteur que J.K. n’a pas placées dans le domaine public (à moins que l’utilisateur Shubham Maindola ne soit l’alter ego de J.K.).
Smith a suggéré que Microsoft aurait pu éviter les réactions négatives de cette semaine en examinant plus attentivement les blogs, notant que si une entreprise est réticente au risque, cela aurait probablement été signalé. Mais elle a également compris la préférence de Kamath pour Harry Potter plutôt que les nombreux personnages oubliés depuis longtemps qui existent dans le domaine public. Sur Hacker News, certains commentateurs ont défendu le blog de Kamath, exhortant qu’il devrait être considéré comme un usage équitable car les organisations à but non lucratif et les établissements d’enseignement pourraient faire la même chose dans un contexte d’enseignement sans problème.
J’aurais été préoccupée si j’avais été celle qui autorisait cela pour Microsoft, mais en même temps, je comprends parfaitement ce que cet employé faisait, a déclaré Smith. Personne ne veut écrire des fan-fictions sur des livres qui sont dans le domaine public.






