Accueil / Intelligence / Les médias gagnent leur bataille pour accéder à 20 millions de journaux ChatGPT. Maintenant ils en veulent plus.

Les médias gagnent leur bataille pour accéder à 20 millions de journaux ChatGPT. Maintenant ils en veulent plus.

Les organismes de presse remportent la bataille pour accéder à 20 millions de journaux ChatGPT. Maintenant, ils en veulent plus.

Il semble non seulement qu’OpenAI ait perdu son combat pour empêcher les organismes de presse de fouiller dans 20 millions de journaux ChatGPT afin de trouver des preuves de violation du droit d’auteur, mais OpenAI fait désormais face à des appels à des sanctions et à des demandes de récupérer et de partager potentiellement des millions de discussions supprimées longtemps considérées comme intouchables dans le litige.

Lundi, le juge de district américain Sidney Stein a rejeté les objections soulevées par OpenAI, affirmant que la juge magistrate Ona Wang n’avait pas suffisamment équilibré les intérêts de confidentialité des utilisateurs de ChatGPT qui ne sont pas impliqués dans le litige lorsqu’elle a ordonné à OpenAI de produire 20 millions de journaux.

Au lieu de cela, OpenAI voulait que Stein convienne qu’il serait beaucoup moins contraignant pour les utilisateurs si OpenAI effectuait des recherches par mots-clés pour trouver des résultats potentiellement contrefaisants dans l’échantillon. De cette façon, les plaignants de la presse n’auraient accès qu’aux discussions pertinentes pour leur cas, a suggéré OpenAI.

Mais Stein a constaté que Wang avait correctement pesé les intérêts de confidentialité des utilisateurs de ChatGPT lorsqu’elle a ordonné à OpenAI de produire les journaux. Par exemple, pour protéger les utilisateurs de ChatGPT, le nombre total de journaux partagés a été considérablement réduit de dizaines de milliards à 20 millions, a-t-il écrit, et OpenAI a supprimé toutes les informations d’identification de toutes les discussions qui seront partagées.

Stein a en outre convenu que les plaignants de la presse avaient besoin d’accéder à l’intégralité de l’échantillon parce que, comme l’a écrit Wang, même les journaux de résultats qui ne contiennent pas de reproductions des œuvres des plaignants de la presse peuvent toujours être pertinents pour la défense d’usage équitable d’OpenAI.

Bien qu’OpenAI ait soutenu que Wang aurait dû approuver la voie la moins contraignante pour la vie privée des utilisateurs, l’entreprise d’IA n’a cité aucune jurisprudence pour étayer cet argument, a écrit Stein, ni ses affirmations selon lesquelles Wang leur devait une explication pour avoir rejeté cette voie.

L’échec de la juge Wang à expliquer explicitement pourquoi elle a rejeté la proposition de termes de recherche d’OpenAI n’est ni clairement erroné ni contraire à la loi étant donné qu’elle a suffisamment expliqué ses raisons d’ordonner la production de l’intégralité de l’échantillon de 20 millions de journaux dé-identifiés, a écrit Stein, confirmant l’ordonnance de Wang.

OpenAI examine actuellement s’il reste des voies pour contester l’ordonnance, mais cela ressemble essentiellement à la fin du parcours, après que l’entreprise d’IA ait promis de faire tout son possible pour éviter de partager les conversations des utilisateurs ordinaires.

Interrogé pour un commentaire, OpenAI a dirigé Ars vers un blog documentant sa lutte, mis à jour pour la dernière fois à la mi-décembre. Ce blog a confirmé que toutes les données qui seront partagées ont subi un processus de dé-identification destiné à supprimer ou masquer les informations personnelles identifiables et autres informations privées. Les plaignants de la presse pourront rechercher les données mais ne pourront pas copier ou imprimer de données non directement pertinentes pour l’affaire, a déclaré OpenAI.

OpenAI fait face à des appels à des sanctions

Les groupes de presse, menés par The New York Times, croient que les journaux de résultats montreront des preuves de réponses de chatbot contrefaisantes, ainsi que des réponses qui diluent les marques déposées des organismes de presse ou suppriment les informations de gestion des droits d’auteur pour obscurcir la source et faciliter les résultats non autorisés de leur contenu.

Ils semblent extrêmement frustrés par ce que leurs dépôts judiciaires ont décrit comme des tactiques de retardement de la part d’OpenAI et du co-défendeur Microsoft, qui a accepté de partager 8,1 millions de journaux Copilot mais ne dira pas exactement quand ces journaux seront partagés.

Fin de l’année dernière, les organismes de presse ont demandé au tribunal d’examiner si des sanctions contre OpenAI pourraient être justifiées.

Prétendument, il a fallu 11 mois aux groupes de presse pour apprendre qu’OpenAI détruisait des données pertinentes de journaux de résultats en ne suspendant pas les pratiques de suppression dès le début du litige, y compris une fraction assez substantielle des données de journaux de résultats ChatGPT Free, Pro et Plus. Ces données, qui auraient été supprimées à un taux disproportionnellement plus élevé, sont très probablement l’endroit où des matériaux contrefaisants seraient trouvés, ont affirmé les groupes de presse, car les utilisateurs incitant ChatGPT à contourner les murs payants auraient très probablement configuré les discussions pour être supprimées.

OpenAI n’a fourni aucune explication sur pourquoi il détruisait environ un tiers de toutes les données de conversation des utilisateurs dans le mois suivant le dépôt de la plainte par The New York Times, autre que le non-sequitur non pertinent selon lequel le nombre de conversations ChatGPT était exceptionnellement bas peu avant le jour de l’An 2024, indique le dépôt.

Décrivant le prétendu manuel d’OpenAI pour esquiver les réclamations de droits d’auteur, les groupes de presse ont accusé OpenAI de ne pas avoir pris de mesures pour suspendre ses pratiques de destruction routinières. Il y a également eu deux pics de suppression massive qu’OpenAI a attribués à des problèmes techniques.

Cependant, OpenAI s’est assuré de conserver les résultats qui pourraient aider sa défense, allègue le dépôt judiciaire, y compris les données des comptes cités dans les plaintes des organismes de presse.

OpenAI n’a pas pris le même soin pour préserver les discussions qui pourraient être utilisées comme preuves contre lui, ont allégué les groupes de presse, citant le témoignage de Mike Trinh, conseiller général adjoint d’OpenAI. En d’autres termes, OpenAI a préservé des preuves des plaignants de la presse suscitant leurs propres œuvres à partir des produits d’OpenAI mais a supprimé des preuves d’utilisateurs tiers faisant de même, indique le dépôt.

On ne sait pas combien de données ont été supprimées, ont allégué les plaignants, puisque OpenAI ne partagera pas les informations les plus élémentaires sur ses pratiques de suppression. Mais il est prétendument très clair qu’OpenAI aurait pu faire plus pour préserver les données, puisque Microsoft n’a apparemment eu aucun mal à le faire avec Copilot, indique le dépôt.

Les plaignants de la presse espèrent que le tribunal conviendra qu’OpenAI et Microsoft ne se battent pas loyalement en retardant le partage des journaux, ce qui, selon eux, les empêche de construire leur dossier le plus solide.

Ils ont demandé au tribunal d’ordonner à Microsoft de produire immédiatement les journaux Copilot dans un format facilement consultable et accessible à distance, proposant une échéance au 9 janvier ou dans un jour suivant la décision du tribunal sur cette motion.

Microsoft a refusé la demande de commentaire d’Ars.

Et quant à OpenAI, il veut savoir si les journaux supprimés, y compris les suppressions massives, peuvent être récupérés, apportant peut-être des millions de conversations ChatGPT supplémentaires dans le litige que les utilisateurs s’attendaient probablement à ne plus jamais revoir.

En plus de sanctions possibles, les plaignants de la presse ont demandé au tribunal de maintenir en place une ordonnance de conservation empêchant OpenAI de supprimer définitivement les discussions temporaires et supprimées des utilisateurs. Ils veulent également que le tribunal ordonne à OpenAI d’expliquer l’étendue complète des données de journaux de résultats détruits pour tous ses produits en question dans le litige et si ces discussions supprimées peuvent être restaurées, afin que les plaignants de la presse puissent également les examiner comme preuves.

Répondre

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *