Google przenosi zasoby zespołu Project Mariner, który opracowuje agenty oparte na przeglądarkach, sygnalizując szerszą zmianę trendów w branży od automatyzacji opartej na przeglądarkach internetowych w kierunku wydajniejszych systemów sztucznej inteligencji opartych na kodzie. Posunięcie to następuje w momencie, gdy rywale, tacy jak OpenAI i Anthropic, robią postępy w zakresie agentów, którzy mogą bezpośrednio manipulować systemami komputerowymi, zamiast polegać na imitowaniu ludzkich działań w przeglądarkach internetowych.
Powstanie agentów wiersza poleceń
W ciągu kilku miesięcy pracownicy Google Labs pracujący nad Project Mariner zostali przeniesieni do projektów o wyższym priorytecie, m.in. do rozwoju Gemini Agent. Zmiana odzwierciedla przedefiniowanie przez Dolinę Krzemową praktycznego asystenta AI. Narzędzia takie jak OpenClaw, które działają poprzez interfejs wiersza poleceń, są obecnie uważane za bardziej wydajne i niezawodne niż oparte na przeglądarce agenty klikania i przewijania. Dyrektor generalny Nvidii, Jensen Huang, opisał niedawno OpenClaw jako potencjalny „nowy system operacyjny” do obliczeń agentowych.
Agenci przeglądarki nie mogą nabrać rozpędu
Początkowy entuzjazm dla agentów opartych na przeglądarce – narzędzi takich jak Comet firmy Perplexity i agent ChatGPT firmy OpenAI – osłabł. Pod koniec 2025 roku Comet miał zaledwie 2,8 miliona aktywnych użytkowników tygodniowo, podczas gdy ChatGPT Agent podobno spadł poniżej 1 miliona. Liczby te bledną w porównaniu z ogólną bazą użytkowników ChatGPT, co wskazuje, że automatyzacja oparta na przeglądarce nie znalazła jeszcze oddźwięku wśród szerszej publiczności.
Dlaczego ta zmiana? Wydajność obliczeniowa
Eksperci wskazują, że ograniczenia obliczeniowe są kluczowym czynnikiem upadku agentów opartych na przeglądarce. Systemy te polegają na przetwarzaniu danych wizualnych (zrzutów ekranu) w celu zrozumienia stron internetowych, co jest powolne i podatne na błędy. Natomiast agenci wiersza poleceń działają w oparciu o interfejsy tekstowe, co lepiej odpowiada mocnym stronom dużych modeli językowych (LLM). Według Kiana Katanurushy, dyrektora generalnego Workera, agenci wiersza poleceń są „10 do 100 razy skuteczniejsi w osiąganiu tych samych wyników”.
Nowe podejścia: systemy wideo i hybrydowe
Niektóre firmy, takie jak Standard Intelligence, próbują przezwyciężyć te ograniczenia, ucząc modele na danych wideo, a nie na zrzutach ekranu. Twierdzą, że osiągnęli 50-krotny wzrost wydajności, demonstrując nawet system zdolny do krótkotrwałej jazdy autonomicznej. Jednak nawet zwolennicy przyznają, że graficzne interfejsy użytkownika (GUI) są nadal niezbędne do wykonywania zadań, w których brakuje interfejsów oprogramowania, takich jak nawigacja w starszym oprogramowaniu lub na stronach medycznych.
Przyszłość: kodowanie agentów wysuwa się na pierwszy plan
Branża sztucznej inteligencji stawia obecnie na agentów kodujących — systemy, które potrafią pisać i wykonywać kod w celu automatyzacji zadań. Przykładami tego trendu są Codex firmy OpenAI i Claude Cowork firmy Anthropic. Agenci ci mogą manipulować plikami, tworzyć niestandardowe oprogramowanie i integrować się z innymi aplikacjami, dzięki czemu są bardziej wszechstronni niż narzędzia oparte na przeglądarce. Na przykład agent kodujący może analizować wyciągi bankowe i tworzyć spersonalizowany pulpit finansowy.
Pomimo tych postępów masowa adopcja pozostaje niepewna. Obawy dotyczące dokładności i niezawodności mogą uniemożliwiać konsumentom automatyzację wrażliwych zadań, takich jak zakupy spożywcze czy dokonywanie rezerwacji. Jednak ogólny konsensus w branży jest jasny: przyszłość agentów AI leży w kodzie, a nie w kliknięciach.



















