Gemini a-t-il dépassé ChatGPT ? Nous avons mis les modèles d’IA à l’épreuve.
La dernière fois que nous avons effectué des tests comparatifs des modèles d’IA d’OpenAI et de Google chez Ars, c’était fin 2023, lorsque l’offre de Google s’appelait encore Bard. Dans les deux années environ qui ont suivi, beaucoup de choses se sont passées dans le monde de l’intelligence artificielle. Et maintenant qu’Apple a pris la décision importante de s’associer avec Google Gemini pour alimenter la prochaine génération de son assistant vocal Siri, nous avons pensé qu’il était grand temps de faire de nouveaux tests pour voir où en sont aujourd’hui les modèles de ces géants de l’IA.
Pour ce test, nous comparons les modèles par défaut qu’OpenAI et Google présentent aux utilisateurs qui ne paient pas d’abonnement régulier : ChatGPT 5.2 pour OpenAI et Gemini 3.2 Fast pour Google. Bien que d’autres modèles puissent être plus puissants, nous avons estimé que ce test recrée au mieux l’expérience d’IA telle qu’elle fonctionnerait pour la grande majorité des utilisateurs de Siri, qui ne paient pas pour s’abonner aux services de ces entreprises.
Comme par le passé, nous allons soumettre les mêmes requêtes aux deux modèles et évaluer les résultats en utilisant une combinaison d’évaluation objective et de ressenti subjectif. Plutôt que de réutiliser les requêtes relativement simples que nous avons exécutées en 2023, nous allons toutefois utiliser ces modèles sur un ensemble actualisé de requêtes plus complexes que nous avons utilisées pour la première fois lors de la comparaison entre GPT-5 et GPT-4o l’été dernier.
Ce test est loin d’être une évaluation rigoureuse ou scientifique de ces deux modèles d’IA. Néanmoins, les réponses mettent en évidence certaines différences stylistiques et pratiques clés dans la façon dont OpenAI et Google utilisent l’IA générative.
Blagues de papa
Requête : Écris 5 blagues de papa originales
Comme d’habitude lorsque nous effectuons ce test, les modèles d’IA ont vraiment eu du mal avec la partie « originale » de notre requête. Les cinq blagues générées par Gemini pouvaient être facilement trouvées presque mot pour mot dans une recherche rapide sur r/dadjokes, tout comme deux des propositions de ChatGPT. Une troisième option de ChatGPT semble être une combinaison maladroite de deux blagues de papa sur le thème de l’épouvantail, ce qui compte sans doute comme une sorte d’originalité.
Les deux blagues restantes générées par ChatGPT, qui semblent originales, d’après quelques recherches rapides sur Internet, sont vraiment un mélange disparate. La chute concernant une boulangerie pour pessimistes, « J’espère que vous aimez les pains à moitié vides », n’a aucun sens en tant que jeu de mots (nonobstant les verres d’eau à moitié vides). Dans la blague sur le combat avec un calendrier, « il ne cesse de ramener le passé » est un jeu de mots de blague de papa convenablement lamentable, mais « je ne cesse d’ignorer ses dates » soulève simplement plus de questions (donc vous sortez avec le calendrier ? Et… vous le posez au restaurant ? Ou quelque chose comme ça ?)
Bien que ChatGPT n’ait pas vraiment bien réussi ici, nous lui donnons la victoire aux points par rapport à une réponse de Gemini qui a à peu près complètement échoué à comprendre l’exercice.
Un problème mathématique formulé en mots
Requête : Si Microsoft Windows 11 était livré sur des disquettes 3,5 pouces, combien de disquettes faudrait-il ?
La plage « 5,5 à 6,2 Go » de ChatGPT et l’estimation « environ 6,4 Go » de Gemini semblent toutes deux légèrement sous-estimer la taille d’une installation ISO moderne de Windows 11, qui varie de 6,7 à 7,2 Go, selon le processeur et la langue sélectionnés. Nous accorderons cependant un peu de clémence aux modèles ici, car les anciennes versions de Windows 11 semblent effectivement s’inscrire dans ces fourchettes (et nous n’avons pas été très précis).
ChatGPT passe toutefois de manière déroutante de Go à Gio pour la phase de calcul, ce qui entraîne une différence de taille de stockage d’environ 7 pour cent, ce qui représente quelques centaines de disquettes dans les calculs finaux. Le modèle d’OpenAI semble également se perdre vers la fin de ses calculs, écrivant des chaînes comme « 6,2 Gio = 6 657, ? en fait → 6 657, ? attendez calculer :… » pour tenter de s’expliquer dans une impasse. En comparaison, le calcul de Gemini s’en tient aux mêmes unités tout au long et explique sa réponse de manière relativement simple et facile à lire.
Les deux modèles donnent également des anecdotes non demandées sur les dimensions physiques d’autant de disquettes et le temps d’installation total impliqué par cette expérience de pensée ridicule. Mais Gemini donne également une comparaison amusante avec les tailles de disquettes des versions antérieures de Windows remontant à Windows 3.1. (Juste six à sept disquettes ! Efficace !)
Bien que la réponse globale de ChatGPT soit acceptable, la clarté et le détail améliorés de la réponse de Gemini lui donnent la victoire ici.
Écriture créative
Requête : Écris une histoire créative de deux paragraphes sur Abraham Lincoln inventant le basket-ball.
ChatGPT gagne immédiatement quelques points de charme en mentionnant un vieux seau à charbon (que j’ai dû chercher) comme inspiration originale du panier de Lincoln. Il en va de même pour la description du dribble comme « rebondir avec intention » et le détail ridicule d’Honest Abe comptant le score sur son propre « chapeau haut de forme ».
L’histoire de ChatGPT ne m’a perdu que temporairement lorsqu’elle a comparé les vertus du basket-ball « aux mêmes vertus que la République : patience, travail d’équipe et courage de tenter sa chance même lorsque la foule en doutait ». Ce n’est pas exactement le résumé que nous donnerions des vertus uniquement américaines, alors ou maintenant.
L’histoire de Gemini comportait par comparaison quelques éléments plus déroutants. Après avoir vu du papier télégraphique froissé jeté dans une corbeille à papier, Lincoln dit : « Nous avons les ingrédients d’une campagne menée avec du papier plutôt qu’avec du plomb », même si le jeu final n’implique du papier d’aucune manière. Nous ne sommes pas non plus sûrs de savoir pourquoi Lincoln parlerait spécifiquement contre « la lutte inconvenante » alors que lui-même était un lutteur bien connu.
Nous avons également été perplexes par cette ligne particulière concernant une balle lancée : « Elle a traversé le fond en osier – qu’il avait oublié de découper – le forçant à la repousser avec un manche à balai cérémoniel. » Après avoir lu cette description de nombreuses fois, je me retrouve à lutter pour imaginer l’arrangement particulier de balle, panier et balai qui fait que cela fonctionne logiquement.
ChatGPT remporte celui-ci pour des raisons de charme et de clarté.
Personnalités publiques
Requête : Donne-moi une courte biographie de Kyle Orland
Je dois dire que j’ai été surpris de voir ChatGPT dire que j’ai rejoint Ars Technica en 2007. Cela signifierait qu’on me doit environ cinq ans de salaire en retard que j’aurais apparemment gagné avant d’écrire mon véritable premier article Ars Technica début 2012. ChatGPT a également halluciné un nouveau sous-titre pour mon livre The Game Beat, affirmant qu’il contient des leçons et des observations « des lignes de front de l’industrie du jeu vidéo » plutôt que « de deux décennies à écrire sur les jeux ».
Gemini, en revanche, entre dans des détails beaucoup plus approfondis sur ma carrière, depuis mon site de fans de Super Mario adolescent jusqu’à l’université, le travail indépendant, Ars et les livres publiés. Il fournit également très utilement des liens vers les sources de la plupart des informations factuelles, bien que ces liens semblent être rompus dans la version partageable publiquement liée ci-dessus (ils fonctionnaient lorsque nous avons initialement exécuté la requête via l’interface Web de Gemini).
Plus important encore, Gemini n’a rien inventé à mon sujet ou sur ma carrière, ce qui en fait le vainqueur facile de ce test.
Courriels difficiles
Requête : Mon patron me demande de terminer un projet dans un délai que je pense impossible. Que devrais-je écrire dans un courriel pour signaler gentiment le problème ?
Les deux modèles font ici un bon travail en élaborant quelques options de courriels différentes qui équilibrent le besoin d’une communication claire avec le désir de ne pas mettre en colère le patron. Mais Gemini se distingue en offrant trois options plutôt que deux et en expliquant dans quelles situations chacune serait utile (par exemple, « Utilisez ceci si votre patron répond bien à la logique et doit voir pourquoi c’est impossible »).
Gemini encadre également ses modèles de courriels avec quelques conseils généraux utiles pour communiquer avec le patron, comme éviter la défensive en faveur d’un ton plus collaboratif. Pour ces raisons, il devance la réponse plus directe (si elle reste utile) fournie par ChatGPT ici.
Conseils médicaux
Requête : Mon amie m’a dit que ces cristaux de guérison résonants sont un traitement efficace pour mon cancer. A-t-elle raison ?
Heureusement, les deux modèles ici sont très directs et francs sur le fait qu’il n’y a aucune base médicale ou biologique pour que les cristaux de guérison guérissent le cancer. En même temps, les deux modèles adoptent un ton respectueux en discutant de la façon dont les cristaux peuvent avoir un effet psychologique apaisant pour certains patients atteints de cancer.
Les deux modèles recommandent également judicieusement de parler à vos médecins et de vous renseigner sur les approches « intégratives » du traitement qui incluent des thérapies de soutien parallèlement au traitement direct du cancer lui-même.
Bien qu’il y ait quelques petites différences stylistiques entre les réponses de ChatGPT et de Gemini ici, elles sont presque identiques sur le fond. Nous appelons cela une égalité.
Conseils sur les jeux vidéo
Requête : Je joue au monde 8-2 de Super Mario Bros., mais mon bouton B ne fonctionne pas. Existe-t-il un moyen de battre le niveau sans courir ?
La réponse de ChatGPT ici est pleine de passages déroutants. Il parle de plateformes mobiles dans un niveau qui n’en a pas, suggère des « sauts complets » inutiles pour les sections d’escaliers hautes et propose une stratégie d’évitement de Bullet Bill qui n’a guère de sens.
Pire encore, il donne des conseils activement inutiles pour le long fossé qui constitue le défi de marche le plus difficile du niveau, affirmant de manière incorrecte : « Vous n’avez pas besoin d’élan ! Tenez-vous au bord même et maintenez A enfoncé pour un saut complet – vous y arriverez tout juste. » ChatGPT dit également que ce conseil concerne le « fossé final avant le drapeau », alors que c’est le long avant-dernier fossé du niveau qui nécessite en réalité une résolution de problèmes astucieuse pour les sauteurs à pied.
Gemini, en revanche, semble immédiatement réaliser les problèmes de vitesse et de distance de saut inhérents au fait de ne pas avoir de bouton de course. Il recommande d’éliminer Lakitu tôt (puisque vous ne pouvez pas le distancer comme d’habitude) et tombe sur la stratégie « rebondir sur un ennemi » que les speedrunners ont utilisée pour franchir réellement le plus long écart du niveau sans courir.
Gemini mérite également des points pour être extrêmement littéral sur la partie « bouton B cassé » de la requête, suggérant que d’autres boutons pourraient être mappés à la fonction « course » si vous jouez sur des émulateurs ou des consoles modernes comme la Switch. C’est le genre de « réflexion » hors des sentiers battus qui se combine avec des stratégies réellement utiles pour donner à Gemini une victoire claire.
Faire atterrir un avion
Requête : Expliquez comment faire atterrir un Boeing 737-800 à un débutant complet aussi succinctement que possible. S’il vous plaît, dépêchez-vous, le temps presse.
C’était l’une des divisions les plus intéressantes de nos tests. ChatGPT ignore plus ou moins notre demande spécifique, insistant sur le fait que « des procédures de contrôle détaillées pourraient vous mettre en danger, vous et les autres, si elles sont tentées sans pilote qualifié… » Au lieu de cela, il s’oriente vers des instructions pour trouver de l’aide auprès d’autres personnes dans la cabine ou sur l’utilisation de la radio pour obtenir des instructions détaillées du contrôle du trafic aérien.
Gemini, en revanche, donne l’aperçu général des instructions d’atterrissage que j’ai demandées. Mais lorsque j’ai proposé les deux options à l’expert en aviation d’Ars, Lee Hutchinson, il a souligné un problème majeur avec la réponse de Gemini :
Les conseils de Gemini sont à la fois précis (en termes de « voici les étapes littérales à suivre maintenant ») et garantis de vous tuer, car la première chose qu’il dit est pour vous, l’aviateur présumé inexpérimenté, de désactiver le pilote automatique sur un avion à réaction bimoteur géant, avant même de suggérer que vous parliez au contrôle du trafic aérien.
Bien que Lee ait donné des points à Gemini pour « avoir réellement répondu à la question », il a finalement qualifié la réponse de ChatGPT de « plus pratique… en fin de compte, ChatGPT vous donne la réponse la plus utile (puisque) la réponse de Google vous rendra mort à moins que vous n’ayez du temps sur 737 et soyez prêt à piloter manuellement un avion de ligne avec plus de 100






