Le créateur de Signal, Moxie Marlinspike, veut faire pour l’IA ce qu’il a fait pour la messagerie
Moxie Marlinspike, le pseudonyme d’un ingénieur qui a établi une nouvelle norme pour la messagerie privée avec la création de Signal Messenger, vise désormais à révolutionner les chatbots IA de manière similaire.
Sa dernière création est Confer, un assistant IA open source qui fournit de solides garanties que les données des utilisateurs sont illisibles pour l’opérateur de la plateforme, les pirates, les forces de l’ordre ou toute autre partie autre que les titulaires de compte. Le service, y compris ses grands modèles de langage et ses composants back-end, fonctionne entièrement sur des logiciels open source que les utilisateurs peuvent vérifier cryptographiquement.
Les données et conversations provenant des utilisateurs et les réponses résultantes des LLM sont chiffrées dans un environnement d’exécution de confiance (TEE) qui empêche même les administrateurs de serveur de les consulter ou de les altérer. Les conversations sont stockées par Confer sous la même forme chiffrée, qui utilise une clé qui reste en sécurité sur les appareils des utilisateurs.
Comme Signal, le fonctionnement sous-jacent de Confer est élégant dans sa conception et sa simplicité. Signal a été le premier outil de confidentialité pour utilisateur final qui en a rendu l’utilisation instantanée. Avant cela, utiliser le courrier électronique PGP ou d’autres options pour établir des canaux chiffrés entre deux utilisateurs était un processus fastidieux facile à rater. Signal a brisé ce moule. La gestion des clés n’était plus une tâche dont les utilisateurs devaient se soucier. Signal a été conçu pour empêcher même les opérateurs de la plateforme de regarder les messages ou d’identifier les identités réelles des utilisateurs.
Collecteurs de données inhérents
Toutes les plateformes majeures sont tenues de transmettre les données des utilisateurs aux forces de l’ordre ou aux parties privées dans un procès lorsque l’une ou l’autre fournit une assignation valide. Même lorsque les utilisateurs choisissent de ne pas stocker leurs données à long terme, les parties à un procès peuvent contraindre la plateforme à les stocker, comme le monde l’a appris en mai dernier lorsqu’un tribunal a ordonné à OpenAI de conserver tous les journaux des utilisateurs de ChatGPT, y compris les conversations supprimées et les conversations sensibles enregistrées via son offre commerciale API. Sam Altman, PDG d’OpenAI, a déclaré que de telles décisions signifient que même les séances de psychothérapie sur la plateforme peuvent ne pas rester privées. Une autre exception au refus : les plateformes IA comme Google Gemini peuvent faire lire les conversations par des humains.
Em, experte en confidentialité des données (elle garde son nom de famille hors d’Internet), a qualifié les assistants IA d' »archénemis » de la confidentialité des données car leur utilité repose sur l’assemblage de quantités massives de données provenant d’innombrables sources, y compris des individus.
« Les modèles d’IA sont des collecteurs de données inhérents », a-t-elle déclaré à Ars. « Ils s’appuient sur une grande collecte de données pour l’entraînement, les améliorations, les opérations et les personnalisations. Le plus souvent, ces données sont collectées sans consentement clair et éclairé (de sujets d’entraînement ignorants ou d’utilisateurs de plateforme), et sont envoyées et accessibles par une entreprise privée avec de nombreuses incitations à partager et monétiser ces données. »
Le manque de contrôle de l’utilisateur est particulièrement problématique étant donné la nature des interactions LLM, dit Marlinspike. Les utilisateurs traitent souvent le dialogue comme une conversation intime. Les utilisateurs partagent leurs pensées, leurs peurs, leurs transgressions, leurs affaires commerciales et leurs secrets les plus profonds et les plus sombres comme si les assistants IA étaient des confidents de confiance ou des journaux personnels. Les interactions sont fondamentalement différentes des requêtes de recherche Web traditionnelles, qui adhèrent généralement à un modèle transactionnel de mots-clés en entrée et de liens en sortie.
Il compare l’utilisation de l’IA à se confesser dans un « lac de données ».
Se réveiller du cauchemar qu’est le paysage de l’IA d’aujourd’hui
En réponse, Marlinspike a développé et teste maintenant Confer. De la même manière que Signal utilise le chiffrement pour rendre les messages lisibles uniquement par les parties participant à une conversation, Confer protège les invites des utilisateurs, les réponses de l’IA et toutes les données qu’elles contiennent. Et tout comme Signal, il n’y a aucun moyen de lier les utilisateurs individuels à leur identité réelle via leur adresse e-mail, leur adresse IP ou d’autres détails.
« Le caractère de l’interaction est fondamentalement différent car c’est une interaction privée », a déclaré Marlinspike à Ars. « Cela a été vraiment intéressant, encourageant et incroyable d’entendre les histoires de personnes qui ont utilisé Confer et ont eu des conversations qui ont changé leur vie. En partie parce qu’elles ne se sentaient pas libres d’inclure des informations dans ces conversations avec des sources comme ChatGPT ou qu’elles ont eu des aperçus en utilisant des données qu’elles n’étaient pas vraiment libres de partager avec ChatGPT auparavant mais qu’elles peuvent utiliser dans un environnement comme Confer. »
L’un des principaux ingrédients du chiffrement de Confer est les clés d’accès. La norme à l’échelle de l’industrie génère une paire de clés de chiffrement de 32 octets unique pour chaque service auquel un utilisateur se connecte. La clé publique est envoyée au serveur. La clé privée est stockée uniquement sur l’appareil de l’utilisateur, à l’intérieur du matériel de stockage protégé auquel les pirates (même ceux ayant un accès physique) ne peuvent accéder. Les clés d’accès fournissent une authentification à deux facteurs et peuvent être configurées pour se connecter à un compte avec une empreinte digitale, un scan du visage (les deux restent également en sécurité sur un appareil) ou un code PIN ou un mot de passe de déverrouillage de l’appareil.
La clé privée permet à l’appareil de se connecter à Confer et de chiffrer toutes les entrées et sorties avec un chiffrement largement considéré comme impossible à casser. Cela permet aux utilisateurs de stocker des conversations sur les serveurs Confer avec la certitude qu’elles ne peuvent être lues par personne d’autre qu’eux-mêmes. Le stockage permet aux conversations de se synchroniser sur d’autres appareils que l’utilisateur possède. Le code qui fait fonctionner tout cela est disponible pour que quiconque puisse l’inspecter.
Ce moteur interne robuste est précédé d’une interface utilisateur (montrée dans les deux images ci-dessus) qui est trompeusement simple. En seulement deux étapes, un utilisateur est connecté et toutes les conversations précédentes sont déchiffrées. Ces conversations sont ensuite disponibles pour tout appareil connecté au même compte. De cette façon, Confer peut synchroniser les conversations sans compromettre la confidentialité. Les 32 octets de matériel de clé permettent à la clé privée de changer régulièrement, une fonctionnalité qui permet le secret parfait, ce qui signifie que dans l’éventualité où une clé serait compromise, un attaquant ne peut pas lire les conversations précédentes ou futures.
L’autre ingrédient principal de Confer est un TEE sur les serveurs de la plateforme. Les TEE chiffrent toutes les données et le code circulant dans le processeur du serveur, les protégeant d’être lus ou modifiés par quelqu’un ayant un accès administratif à la machine. Le TEE Confer fournit également une attestation à distance. L’attestation à distance est un certificat numérique envoyé par le serveur qui vérifie cryptographiquement que les données et les logiciels fonctionnent à l’intérieur du TEE et répertorie tous les logiciels qui s’y exécutent.
Sur Confer, l’attestation à distance permet à quiconque de reproduire les sorties bit par bit qui confirment que le logiciel proxy et image disponible publiquement, et seulement ce logiciel, fonctionne sur le serveur. Pour vérifier davantage que Confer fonctionne comme promis, chaque version est signée numériquement et publiée dans un journal de transparence.
Le support natif pour Confer est disponible dans les versions les plus récentes de macOS, iOS et Android. Sur Windows, les utilisateurs doivent installer un authentificateur tiers. Le support Linux n’existe pas non plus, bien que cette extension comble ce vide.
Il existe d’autres LLM privés, mais aucun des grands acteurs
Un autre LLM disponible publiquement offrant E2EE est Lumo, fourni par Proton, une entreprise européenne qui est derrière le populaire service de courrier électronique chiffré. Il adopte le même moteur de chiffrement utilisé par Proton Mail, Drive et Calendar. Les éléments internes du moteur sont considérablement plus compliqués que Confer car ils reposent sur une série de clés à la fois symétriques et asymétriques. Le résultat final pour l’utilisateur est cependant largement le même.
Une fois qu’un utilisateur s’authentifie sur son compte, Proton dit que toutes les conversations, données et métadonnées sont chiffrées avec une clé symétrique que seul l’utilisateur possède. Les utilisateurs peuvent choisir de stocker les données chiffrées sur les serveurs Proton pour la synchronisation des appareils ou de les effacer immédiatement après la fin de la conversation.
Un troisième fournisseur de LLM promettant la confidentialité est Venice. Il stocke toutes les données localement, c’est-à-dire sur l’appareil de l’utilisateur. Aucune donnée n’est stockée sur le serveur distant.
La plupart des grandes plateformes LLM offrent un moyen pour les utilisateurs d’exempter leurs conversations et leurs données à des fins de marketing et de formation. Mais comme noté précédemment, ces promesses viennent souvent avec des exceptions majeures. Outre l’examen sélectionné par des humains, les données personnelles peuvent toujours être utilisées pour appliquer les conditions d’utilisation ou à d’autres fins internes, même lorsque les utilisateurs ont choisi de ne pas utiliser le stockage par défaut.
Compte tenu du paysage juridique actuel, qui permet d’obtenir la plupart des données stockées en ligne avec une assignation, et de l’occurrence régulière de violations de données majeures par des pirates, il ne peut y avoir aucune attente raisonnable que les données personnelles restent privées.
Ce serait formidable si les grands fournisseurs offraient des protections de chiffrement de bout en bout, mais il n’y a actuellement aucune indication qu’ils prévoient de le faire. D’ici là, il existe une poignée de petites alternatives qui garderont les données des utilisateurs hors du lac de données en constante croissance.






