Google sta riallocando le risorse del suo team di agenti browser Project Mariner, segnalando un cambiamento più ampio del settore dall’automazione basata sul web verso sistemi di intelligenza artificiale più potenti e basati su codice. La mossa arriva quando concorrenti come OpenAI e Anthropic guadagnano terreno con agenti in grado di manipolare direttamente i sistemi informatici, piuttosto che fare affidamento su interazioni umane simulate all’interno dei browser web.

L’ascesa degli agenti della riga di comando

Per mesi, il personale di Google Labs che lavorava su Project Mariner è stato riassegnato a progetti con priorità più alta, compreso lo sviluppo di Gemini Agent. Il cambiamento riflette un cambiamento nella comprensione da parte della Silicon Valley di ciò che costituisce un pratico assistente AI. Strumenti come OpenClaw, che operano tramite interfacce a riga di comando, sono ora considerati più efficienti e affidabili degli agenti browser che simulano i clic e lo scorrimento umani. Il CEO di Nvidia Jensen Huang ha recentemente descritto OpenClaw come un potenziale “nuovo sistema operativo” per l’agentic computing.

Gli agenti browser faticano a guadagnare popolarità

L’entusiasmo iniziale per gli agenti browser, strumenti come Comet di Perplexity e ChatGPT Agent di OpenAI, è diminuito. Alla fine del 2025, Comet aveva solo 2,8 milioni di utenti attivi settimanali, mentre ChatGPT Agent sarebbe sceso sotto 1 milione. Questi numeri impallidiscono rispetto alla base utenti complessiva di ChatGPT, indicando che l’automazione basata su browser non ha ancora avuto risonanza presso il pubblico mainstream.

Perché il cambiamento? Efficienza computazionale

Gli esperti citano le limitazioni computazionali come un fattore chiave nel declino degli agenti browser. Questi sistemi si basano sull’elaborazione di dati visivi (screenshot) per comprendere le pagine Web, operazione lenta e soggetta a errori. Al contrario, gli agenti della riga di comando funzionano con interfacce basate su testo, allineandosi meglio con i punti di forza dei modelli linguistici di grandi dimensioni (LLM). Secondo Kian Katanforoosh, CEO di Workera, gli agenti da riga di comando richiedono “da 10 a 100 volte meno passaggi per ottenere gli stessi risultati”.

Nuovi approcci: sistemi video e ibridi

Alcune aziende, come Standard Intelligence, stanno tentando di superare queste limitazioni addestrando i modelli su dati video anziché su screenshot. Affermano guadagni di efficienza 50 volte superiori, dimostrando persino un sistema in grado di guidare brevemente un’auto in modo autonomo. Tuttavia, anche i sostenitori riconoscono che le interfacce utente grafiche (GUI) rimangono essenziali per attività prive di interfacce programmatiche, come la navigazione in software legacy o siti Web sanitari.

Il futuro: gli agenti di codifica prendono l’iniziativa

Il settore dell’intelligenza artificiale sta ora scommettendo molto sugli agenti di codifica, sistemi in grado di scrivere ed eseguire codice per automatizzare le attività. Codex di OpenAI e Claude Cowork di Anthropic sono esempi di questa tendenza. Questi agenti possono manipolare file, creare software personalizzato e integrarsi con altre applicazioni, rendendoli più versatili rispetto agli strumenti basati su browser. Ad esempio, un agente di codifica potrebbe analizzare gli estratti conto e creare un dashboard finanziario personalizzato.

Nonostante questi progressi, l’adozione di massa rimane incerta. Le preoccupazioni relative all’accuratezza e all’affidabilità possono impedire ai consumatori di automatizzare attività sensibili come fare la spesa o effettuare prenotazioni. Tuttavia, il consenso del settore è chiaro: il futuro degli agenti IA risiede nel codice, non nei clic.