Google перерозподіляє ресурси з команди Project Mariner, що займається розробкою браузерних агентів, що свідчить про ширшу зміну тенденцій у галузі: від автоматизації на основі веб-браузерів до потужніших AI-систем, керованим кодом. Цей крок відбувається на тлі того, як конкуренти, такі як OpenAI та Anthropic, досягають успіху з агентами, здатними безпосередньо маніпулювати комп’ютерними системами, а не покладатися на імітацію людських дій у веб-браузерах.
Підйом Агентів, що працюють через командний рядок
Протягом кількох місяців співробітників Google Labs, які працювали над Project Mariner, було переведено на проекти вищого пріоритету, включаючи розробку Gemini Agent. Ця зміна відображає переосмислення в Кремнієвій долині того, що є практичним AI-помічником. Інструменти, такі як OpenClaw, які працюють через інтерфейси командного рядка, тепер вважаються більш ефективними та надійними, ніж браузерні агенти, що імітують кліки та прокручування. Генеральний директор Nvidia Дженсен Хуан нещодавно описав OpenClaw як потенційну “нову операційну систему” для агентних обчислень.
Браузерні Агенти Не Можуть Набрати Обороти
Початковий ентузіазм щодо браузерних агентів – таких інструментів, як Comet від Perplexity та ChatGPT Agent від OpenAI – згас. Станом на кінець 2025 року Comet налічував лише 2,8 мільйона щотижневих активних користувачів, у той час як ChatGPT Agent, за повідомленнями, опустився нижче за 1 мільйон. Ці цифри тьмяніють у порівнянні із загальною базою користувача ChatGPT, що вказує на те, що автоматизація на основі браузера поки не знайшла відгуку у широкої аудиторії.
Чому це зрушення? Обчислювальна Ефективність
Експерти називають обчислювальні обмеження ключовим фактором у занепаді браузерних агентів. Ці системи покладаються на обробку візуальних даних (скриншоти) для розуміння веб-сторінок, що повільно і схильна до помилок. На відміну від цього, агенти командного рядка працюють із текстовими інтерфейсами, що краще відповідає сильним сторонам великих мовних моделей (LLM). За словами Кіана Катануруша, генерального директора Workera, агенти командного рядка “в 10–100 разів ефективніші для досягнення тих самих результатів”.
Нові Підходи: Відео та Гібридні Системи
Деякі компанії, такі як Standard Intelligence, намагаються подолати ці обмеження, навчаючи моделі на відео даних замість скріншотів. Вони заявляють про підвищення ефективності у 50 разів, навіть демонструючи систему, здатну короткочасно автономно керувати автомобілем. Однак навіть прихильники визнають, що графічні інтерфейси користувача (GUI) залишаються необхідними для завдань, яким не вистачає програмних інтерфейсів, наприклад, для навігації по застарілому програмному забезпеченню або медичним веб-сайтам.
Майбутнє: Агенти, що кодують, Виходять на Перший План
AI-індустрія тепер робить великі ставки на агентів, що кодують – системи, які можуть писати та виконувати код для автоматизації завдань. Codex від OpenAI та Claude Cowork від Anthropic є прикладами цієї тенденції. Ці агенти можуть маніпулювати файлами, створювати програмне забезпечення користувача і інтегруватися з іншими додатками, що робить їх більш універсальними, ніж інструменти на основі браузера. Наприклад, агент, що кодує, може аналізувати банківські виписки та створювати персоналізовану фінансову панель управління.
Незважаючи на ці здобутки, масове впровадження залишається невизначеним. Побоювання щодо точності та надійності можуть завадити споживачам автоматизувати конфіденційні завдання, такі як покупки продуктів або бронювання. Тим не менш, загальна думка в галузі зрозуміла: майбутнє AI-агентів лежить у коді, а не в кліках.
