Accueil / Intelligence / Les médias veulent qu’OpenAI retrouve des millions de journaux ChatGPT supprimés

Les médias veulent qu’OpenAI retrouve des millions de journaux ChatGPT supprimés

Les médias veulent qu’OpenAI retrouve des millions de journaux ChatGPT supprimés

Il semble non seulement qu’OpenAI ait perdu sa bataille pour empêcher les médias d’examiner 20 millions de journaux ChatGPT afin de trouver des preuves de violation du droit d’auteur, mais OpenAI fait maintenant face à des appels à sanctions et à des demandes de récupération et de partage de potentiellement des millions de conversations supprimées longtemps considérées comme intouchables dans le cadre du litige.

Lundi, le juge de district américain Sidney Stein a rejeté les objections soulevées par OpenAI, qui affirmait que la juge magistrat Ona Wang n’avait pas correctement équilibré les intérêts de confidentialité des utilisateurs de ChatGPT qui ne sont pas impliqués dans le litige lorsqu’elle a ordonné à OpenAI de produire 20 millions de journaux.

Au lieu de cela, OpenAI voulait que Stein accepte qu’il serait beaucoup moins contraignant pour les utilisateurs si OpenAI effectuait des recherches par termes pour trouver les sorties potentiellement contrefaisantes dans l’échantillon. De cette façon, les plaignants médias n’auraient accès qu’aux conversations pertinentes pour leur affaire, suggérait OpenAI.

Mais Stein a estimé que Wang avait correctement pesé les intérêts de confidentialité des utilisateurs de ChatGPT en ordonnant à OpenAI de produire les journaux. Par exemple, pour protéger les utilisateurs de ChatGPT, le nombre total de journaux partagés a été considérablement réduit de dizaines de milliards à 20 millions, a-t-il écrit, et OpenAI a supprimé toutes les informations d’identification de toutes les conversations qui seront partagées.

Stein a en outre convenu que les plaignants médias avaient besoin d’accéder à l’échantillon complet car, comme Wang l’a écrit, même les journaux de sortie qui ne contiennent pas de reproductions des œuvres des plaignants médias peuvent toujours être pertinents pour la défense d’utilisation équitable d’OpenAI.

Bien qu’OpenAI ait fait valoir que Wang aurait dû approuver la voie la moins contraignante pour la confidentialité des utilisateurs, l’entreprise d’IA n’a cité aucune jurisprudence pour étayer cet argument, a écrit Stein, ni ses affirmations selon lesquelles Wang lui devait une quelconque explication pour avoir rejeté cette voie.

L’absence d’explication explicite de la juge Wang sur les raisons pour lesquelles elle a rejeté la proposition de recherche par termes d’OpenAI n’est pas manifestement erronée ou contraire à la loi étant donné qu’elle a suffisamment expliqué ses raisons d’ordonner la production de l’intégralité de l’échantillon de 20 millions de journaux désidentifiés, a écrit Stein, confirmant l’ordonnance de Wang.

OpenAI examine actuellement s’il reste des voies pour contester l’ordonnance, mais cela ressemble fondamentalement à une impasse, après que l’entreprise d’IA a juré de tout faire en son pouvoir pour éviter de partager les conversations des utilisateurs ordinaires.

Interrogé pour un commentaire, OpenAI a renvoyé Ars vers un blog documentant son combat, mis à jour pour la dernière fois à la mi-décembre. Ce blog confirmait que toutes les données qui seront partagées ont subi un processus de désidentification destiné à supprimer ou masquer les informations personnellement identifiables et autres informations privées. Les plaignants médias pourront effectuer des recherches dans les données mais ne pourront pas copier ou imprimer les données qui ne sont pas directement pertinentes pour l’affaire, a déclaré OpenAI.

OpenAI fait face à des appels à sanctions

Les groupes de médias, menés par The New York Times, estiment que les journaux de sortie montreront des preuves de réponses contrefaisantes du chatbot, ainsi que des réponses qui diluent les marques des médias ou suppriment les informations de gestion des droits d’auteur pour masquer la source et faciliter les sorties sans licence de leur contenu.

Ils semblent extrêmement frustrés par ce que leurs documents judiciaires décrivent comme des tactiques de retardement de la part d’OpenAI et du codéfendeur Microsoft, qui a accepté de partager 8,1 millions de journaux Copilot mais ne dira pas exactement quand ces journaux seront partagés.

Fin de l’année dernière, les médias ont demandé au tribunal d’envisager si des sanctions contre OpenAI pourraient être justifiées.

Apparemment, il a fallu 11 mois aux groupes de médias pour apprendre qu’OpenAI détruisait des données pertinentes de journaux de sortie en ne suspendant pas les pratiques de suppression dès le début du litige, y compris une fraction assez substantielle des données de journaux de sortie de ChatGPT gratuit, Pro et Plus. Ces données, qui auraient été supprimées à un taux disproportionnellement plus élevé, sont très probablement là où se trouveraient les documents contrefaisants, ont affirmé les groupes de médias, car les utilisateurs incitant ChatGPT à contourner les paywalls configureraient très probablement les conversations pour qu’elles soient supprimées.

OpenAI n’a fourni aucune explication pour laquelle il détruisait environ un tiers de toutes les données de conversation des utilisateurs dans le mois suivant le dépôt de la plainte par The New York Times, autre que le non-sequitur non pertinent selon lequel le nombre de conversations ChatGPT était anormalement bas (peu avant le jour de l’an 2024), indiquait le dossier.

Décrivant le prétendu manuel d’OpenAI pour esquiver les revendications de droit d’auteur, les groupes de médias ont accusé OpenAI de ne pas avoir pris de mesures pour suspendre ses pratiques de destruction routinières. Il y a également eu deux pics de suppression massive qu’OpenAI a attribués à des problèmes techniques.

Cependant, OpenAI s’est assuré de conserver les sorties qui pourraient aider sa défense, alléguait le dossier judiciaire, y compris les données des comptes cités dans les plaintes des médias.

OpenAI n’a pas pris le même soin pour préserver les conversations qui pourraient être utilisées comme preuves contre lui, ont allégué les groupes de médias, citant le témoignage de Mike Trinh, conseil général associé d’OpenAI. En d’autres termes, OpenAI a préservé les preuves des plaignants médias obtenant leurs propres œuvres des produits d’OpenAI mais a supprimé les preuves d’utilisateurs tiers faisant de même, indiquait le dossier.

On ne sait pas exactement combien de données ont été supprimées, ont allégué les plaignants, puisqu’OpenAI ne partagera pas les informations les plus élémentaires sur ses pratiques de suppression. Mais il est apparemment très clair qu’OpenAI aurait pu faire plus pour préserver les données, puisque Microsoft n’a apparemment eu aucun mal à le faire avec Copilot, indiquait le dossier.

Les plaignants médias espèrent que le tribunal conviendra qu’OpenAI et Microsoft ne se battent pas loyalement en retardant le partage des journaux, ce qui, selon eux, les empêche de construire leur cas le plus solide.

Ils ont demandé au tribunal d’ordonner à Microsoft de produire immédiatement les journaux Copilot dans un format facilement consultable et accessible à distance, proposant une date limite du 9 janvier ou dans la journée suivant la décision du tribunal sur cette motion.

Microsoft a refusé la demande de commentaire d’Ars.

Et pour OpenAI, il veut savoir si les journaux supprimés, y compris les suppressions massives, peuvent être récupérés, apportant peut-être des millions de conversations ChatGPT supplémentaires dans le litige que les utilisateurs pensaient probablement ne jamais revoir.

En plus des sanctions possibles, les plaignants médias ont demandé au tribunal de maintenir en place une ordonnance de préservation empêchant OpenAI de supprimer définitivement les conversations temporaires et supprimées des utilisateurs. Ils veulent également que le tribunal ordonne à OpenAI d’expliquer l’étendue complète des données de journaux de sortie détruites pour tous ses produits en cause dans le litige et si ces conversations supprimées peuvent être restaurées, afin que les plaignants médias puissent également les examiner comme preuves.

Répondre

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *