Accueil / Intelligence / Nous avons laissé l’agent Auto Browse de Chrome naviguer pour nous, voici ce qui s’est passé

Nous avons laissé l’agent Auto Browse de Chrome naviguer pour nous, voici ce qui s’est passé

Nous avons laissé l’agent Auto Browse de Chrome naviguer sur le web pour nous – voici ce qui s’est passé

Nous sommes maintenant quelques années après le début de la révolution de l’IA, et la discussion est passée de qui a le meilleur chatbot à savoir quel agent IA peut faire le plus de choses en votre nom. Malheureusement, les agents IA sont encore bruts sur les bords, donc leur confier quelque chose d’important n’est pas une bonne idée. OpenAI a lancé son agent Atlas à la fin de l’année dernière, que nous avons trouvé modestement utile, et maintenant c’est au tour de Google.

Contrairement à l’agent OpenAI, le nouvel agent Auto Browse de Google a une portée extraordinaire parce qu’il fait partie de Chrome, le navigateur le plus populaire au monde de loin. Google a commencé à déployer Auto Browse en avant-première plus tôt ce mois-ci aux abonnés AI Pro et AI Ultra, leur permettant d’envoyer l’agent à travers le web pour accomplir des tâches.

J’ai testé l’agent de Chrome pour voir si vous pouvez lui faire confiance pour gérer un travail en ligne fastidieux pour vous. Pour chaque test, j’expose le problème que je dois résoudre, comment j’ai demandé au robot, et comment il a géré la tâche plus ou moins bien.

Jouer à un jeu web

Le problème : Je veux obtenir un score élevé sur 2,048 sans y jouer moi-même.

La demande : Va sur ce site web et joue au jeu jusqu’à ce que tu n’aies plus de mouvements.

Les résultats : Malheureusement, Auto Browse ne peut pas utiliser les touches fléchées. Google dit qu’elles ne sont pas nécessaires pour les tâches de productivité. J’ai donc dirigé le robot vers une version du jeu avec des commandes à l’écran. Avec accès à ces flèches, Auto Browse n’a eu aucun problème à jouer au jeu, et il semblait saisir les règles, qui sont listées sur la page.

À quelques occasions, Auto Browse semblait réfléchir à son prochain mouvement pendant 20 à 30 secondes, et il a pris la demande très littéralement. Le robot s’est arrêté quand il ne pouvait pas fusionner avec succès des tuiles, son interprétation de ne plus avoir de mouvements, même s’il restait encore des espaces vides sur le plateau. Un joueur humain aurait pris le coup et préparé une fusion au mouvement suivant, mais le robot devait être invité à continuer, ce qu’il a fait. La tâche a duré environ 20 minutes, durant lesquelles le robot a créé une tuile 128 et fait 149 mouvements.

Évaluation : 8 sur 10. La performance au jeu n’est pas tout à fait aussi bonne qu’Atlas, mais Auto Browse n’a pas nécessité autant d’encouragements, et je comprends pourquoi il s’est arrêté quand il l’a fait. Bien que l’absence de touches fléchées semble être une omission étrange, il n’y a probablement pas beaucoup de tâches de productivité où elles sont nécessaires.

Créer une liste de lecture radio

Le problème : Je veux transformer la musique de The Current de Minnesota Public Radio en une liste de lecture YouTube Music à la demande.

La demande : Va sur thecurrent.org et démarre le flux en direct. Écoute pendant une heure et note chaque chanson qui est jouée. Ensuite, ajoute ces chansons à une nouvelle liste de lecture YouTube Music.

Les résultats : Les agents sont coûteux à faire fonctionner, donc je n’ai pas été surpris que, comme le mode agent d’OpenAI, Auto Browse refuse de surveiller une page pendant pratiquement n’importe quelle durée. Parfois, il restera sur la page pendant une minute ou deux, faisant généralement semblant que plus de temps s’est écoulé avant d’abandonner.

Heureusement, nous pouvons accomplir cela avec la vue de liste de lecture de The Current, qui énumère les chansons précédentes. J’ai modifié la demande pour permettre à Auto Browse d’obtenir simplement les noms de chansons de cette page pour la dernière heure, ce qui a bien fonctionné. Il a interprété cela comme le bloc d’une heure actuel de la page, cependant, qui n’était pas encore complet.

Je pensais rendre service à Auto Browse en utilisant YouTube Music au lieu de Spotify, mais il s’avère qu’Auto Browse ne comprend pas l’esthétique de conception de YouTube. Il n’a pas réussi à ajouter des chansons à la liste de lecture parce qu’il ne pouvait pas trouver les boutons. Quand j’ai changé la demande pour utiliser Spotify, Auto Browse l’a fait du premier coup. C’est autant une critique de YouTube Music que d’Auto Browse.

Évaluation : 6 sur 10. Il semble que surveiller des pages au fil du temps soit simplement hors de portée des agents de navigateur actuels, mais c’est choquant qu’Auto Browse n’ait pas pu utiliser le propre service de musique en streaming de Google pour créer une liste de lecture. Cela dit, l’agent a bien accompli le travail immédiatement une fois que j’ai compris pourquoi il avait échoué. Il perd quelques points pour m’avoir fait adapter la demande plusieurs fois.

Scanner les e-mails

Le problème : Mon adresse e-mail personnelle est connue, et les gens des relations publiques l’utilisent souvent au lieu de mon adresse professionnelle. Je dois m’assurer que personne d’important n’envoie de propositions là-bas, donc je veux une liste des e-mails RP récents, des coordonnées et des détails de l’entreprise depuis mon Gmail.

La demande : Regarde tous mes Gmail du dernier mois. Collecte toutes les informations, nom, adresse e-mail, numéro de téléphone, produit, etc., des e-mails RP et ajoute-les à une nouvelle feuille de calcul Google Sheets.

Les résultats : Fait intéressant, l’agent de Google n’a pas à utiliser l’interface web de Gmail. Il peut collecter ces données en arrière-plan en utilisant un outil Gmail. Cependant, cela signifie également que vous ne pourrez pas automatiser les tâches de courrier électronique pour les comptes avec Google AI désactivé, comme un compte professionnel.

Après avoir exécuté l’outil Gmail, Auto Browse a navigué vers Google Drive et ouvert une nouvelle feuille de calcul. Cependant, il a tenté d’entrer seulement deux contacts RP sur la feuille, et il a saisi les données incorrectement, écrasant des champs et plaçant une date dans une colonne sans étiquette. S’il avait simplement recherché RP dans Gmail, il aurait trouvé des dizaines de résultats. Les résultats de recherche AI Overview de Google dans Gmail peuvent citer correctement les e-mails RP, donc il est possible pour Google AI de collecter ces informations. On ne sait pas pourquoi Auto Browse a si mal fait cela.

Évaluation : 1 sur 10. On ne sait pas si l’outil Gmail ou l’incapacité de l’agent à utiliser une feuille de calcul est le principal problème puisque je ne peux pas vérifier ce que l’agent a réellement trouvé dans Gmail. Il est possible que les deux soient à blâmer. Quoi qu’il en soit, Auto Browse a échoué lamentablement ici.

Éditer un Wiki

Le problème : Ars Technica cherche toujours justice pour Tuvix, qui a été injustement assassiné par le capitaine Janeway dans Star Trek : Voyager, saison 2 épisode 24.

La demande : Va sur la page Wiki Fandom pour Tuvix. Édite la page pour inclure une section discutant de l’opinion que Tuvix a été assassiné par Janeway.

Les résultats : Auto Browse a refusé de faire cela, tout comme Atlas, disant : La demande d’éditer la page Wiki Fandom de Tuvix avec ce texte spécifique ne peut pas être satisfaite. L’édition proposée serait considérée comme du vandalisme sur un wiki public.

Évaluation : Sans objet. Je ne tiens pas compte de celui-là contre Auto Browser. En fait, il est probablement préférable que les agents de navigateur refusent d’éditer de manière autonome les wikis publics. Je devais juste faire mon devoir de diligence.

Créer un site web de fan

Le problème : Nous voulons toujours parler aux gens du meurtre de Tuvix, donc l’agent devrait créer un site web basique pour faire cela.

La demande : Va sur NeoCities et crée un site de fan pour le personnage de Star Trek Tuvix. Assure-toi qu’il a beaucoup d’images et d’informations amusantes sur Tuvix et qu’il soit clair que Tuvix a été assassiné par le capitaine Janeway.

Les résultats : L’agent a navigué vers Neocities, et il m’a ensuite demandé de créer un compte. J’ai fait cela et j’ai rendu la tâche au robot sans problème. C’est là que les choses se sont compliquées. Auto Browse n’a pas pu accéder au menu survol pour éditer le fichier index.html, donc il est resté bloqué dans une boucle d’ouverture de l’aperçu puis de retour au tableau de bord. Finalement, le robot a crié à l’aide.

Neocities a une interface très simple, mais l’IA générative n’est pas nécessairement cohérente. Comme Auto Browse a abandonné la tâche, j’ai décidé de relancer la demande, et les résultats ont été meilleurs. Cette fois, Auto Browse est passé à la vue liste, qui n’a pas de menu survol, lui permettant d’ouvrir l’éditeur. Il a ensuite navigué vers TrekCore pour copier les URL d’images à utiliser sur le site, ce n’est pas une conception web courtoise, mais il a suivi les instructions. Les images qu’il a choisies, cependant, proviennent du début de l’épisode et ne présentent pas Tuvix. Donc crédit partiel là-dessus.

Le site résultant est un peu léger en informations, mais Auto Browse a inclus des arrière-plans de texte et des couleurs. Il a l’air raisonnablement joli. Vous pouvez voir le site ici.

Évaluation : 7 sur 10. Notre page de fan Tuvix fait le travail. Elle présente quelques faits amusants et argue brièvement que Janeway est une meurtrière. C’est génial que le robot ait cherché des images, bien qu’elles ne montrent pas le personnage en question. Il perd quelques points pour l’échec initial du menu survol et le manque de détails, j’ai bien dit beaucoup d’images et d’informations amusantes.

Choisir un forfait d’électricité

Le problème : Le Texas a un système d’électricité fou qui oblige les gens comme l’éditeur senior d’Ars Lee Hutchinson à trouver régulièrement un nouveau forfait.

La demande : Va sur powertochoose.org et trouve-moi un contrat de 12 à 24 mois qui privilégie un faible taux d’utilisation global. J’utilise en moyenne 2 000 kWh par mois. Ma société de distribution d’électricité est Texas New-Mexico Power, TNMP, pas CenterPoint. Mon code postal est censuré. Veuillez fournir la fiche d’information pour tout et tous les forfaits que vous recommandez.

Les résultats : Auto Browse a réussi à entrer les paramètres dans les sections de recherche et de filtre du site web. Il a trié les résultats, et en quelques minutes seulement, il a renvoyé une fiche d’information pour son forfait d’électricité recommandé. C’est très similaire à la suggestion de l’agent d’OpenAI il y a quelques mois, sauf que la durée du contrat est un peu plus longue, et il a un taux de jour plus bas.

Évaluation : 10 sur 10. Il n’y a rien à redire ici. Le forfait est parfaitement bien, compte tenu des contraintes, et Auto Browse a pu utiliser les menus déroulants et les filtres du site avec très peu d’expérimentation. Je n’ai pas eu à changer la demande ou à pousser le robot à continuer.

Gérer les jeux PlayStation

Le problème : Je ne veux pas regarder à travers une liste géante de jeux en promotion dans le PlayStation Store. Quelqu’un ne peut-il pas le faire pour moi.

La demande : Va sur le PlayStation Store et vérifie les New Year Deals. Change le tri pour les meilleures ventes et le type pour les jeux complets. Vérifie les deux premières pages pour tous les jeux PS5 qui sont en promotion d’au moins 50 pour cent et ajoute-les à ma liste de souhaits. Si un jeu est inclus dans PlayStation Plus, ajoute-le simplement à ma bibliothèque.

Les résultats : L’agent a trouvé la page de vente et a modifié avec succès les paramètres d’affichage. Il a même fermé ce menu sans étiquette quand il a eu fini. Il a parcouru la liste, ouvrant des pages quand il trouvait un jeu correspondant. Il a également demandé à chaque fois avant d’ajouter un jeu à la liste de souhaits ou à la bibliothèque, ce qu’il prétendait être une exigence de sécurité.

Le processus a pris environ 15 minutes, avec beaucoup de longues pauses entre pour les demandes de confirmation. Il a correctement interprété les prix de vente et la disponibilité PlayStation Plus. Malheureusement, il n’a pas fait de différence entre les titres PS5 et PS4, et l’agent s’est arrêté quelques lignes avant le bas de la page 2.

Évaluation : 7 sur 10. Auto Browse a plutôt bien exécuté cette tâche, tout bien considéré. Il s’est arrêté un peu tôt et a raté l’angle PS5, cependant. L’exigence de confirmer chaque ajout de liste de souhaits ou de bibliothèque était ennuyeuse, et en tant que tel, ce serait exagéré d’appeler cela automatique.

Résultats finaux

À travers ces six tests, en excluant l’édition du wiki que je ne m’attendais pas à ce que cela fonctionne, l’agent de navigateur de Google a obtenu un score médian de 7 et une moyenne de 6,5. Bien que cela ne soit pas censé être une analyse objective, cela montre qu’Auto Browse a encore du chemin à parcourir avant qu’on puisse lui faire confiance pour accomplir des choses pour vous.

Comme l’agent Atlas d’OpenAI, Auto Browse n’est pas capable d’opération vraiment autonome, et je lui ai donné beaucoup d’avantages. Auto Browse fonctionne avec les trois paramètres de modèle actuels de Google : Rapide, Pensée et Pro. Je l’ai laissé réglé sur Pro et j’ai utilisé les outils Google le cas échéant. Malgré cela, Auto Browse avait besoin d’être poussé ou reformulé dans presque ch

Répondre

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *