Project Mariner encerra operações e revela os limites técnicos dos agentes visuais de navegação
O Google oficialmente desligou os servidores do Project Mariner nesta semana, encerrando uma das primeiras tentativas robustas de criar um agente de IA capaz de operar diretamente no navegador. Além disso, a página inicial do projeto já foi desativada e exibe apenas uma mensagem de despedida aos usuários. Para a comunidade dev, o caso vai muito além de uma simples descontinuação: ele expõe gargalos técnicos importantes sobre como construímos agentes autônomos hoje.
Apresentado na Google I/O 2025, o Mariner prometia automatizar tarefas dentro do Chrome, como acessar páginas, preencher formulários e até reservar viagens. Entretanto, menos de um ano depois, o projeto chega ao fim. Por outro lado, a tecnologia não desaparece: ela será incorporada ao Gemini Agent e à API do Gemini, sinalizando uma mudança importante na estratégia do Google.
Por que o Project Mariner adotou uma arquitetura baseada em screenshots
Para entender o desligamento, primeiramente é preciso compreender como o agente funcionava por baixo dos panos. Diferentemente de outros agentes de IA, que operam em nível de programação e infraestrutura interpretando o DOM, APIs e dados estruturados de cada site, o Mariner seguia outro caminho.
O sistema agia interpretando capturas de tela em tempo real. Ou seja, ele identificava visualmente elementos interativos como ícones, caixas de texto e links, e só então executava a próxima ação. Em outras palavras, o agente “enxergava” o navegador como um usuário humano, em vez de ler o código da página.
Essa abordagem tem vantagens claras. Por exemplo, ela funciona em qualquer site, independentemente da qualidade do HTML semântico ou da existência de APIs públicas. Contudo, como veremos a seguir, também carrega custos altíssimos.
Os três motivos técnicos por trás da descontinuação
O encerramento do projeto, conduzido pelo laboratório DeepMind, combina questões técnicas, regulatórias e estratégicas. Vamos destrinchar cada uma delas.
Em primeiro lugar, a performance ficou abaixo do esperado por causa da alta demanda de processamento visual exigida pelas screenshots. Cada ação demandava interpretar uma imagem completa, identificar elementos relevantes e decidir o próximo passo. Consequentemente, o sistema se tornou mais propenso a erros e mais lento que abordagens baseadas em DOM.
Em segundo lugar, surgiram preocupações sérias com privacidade. Afinal, capturar a tela continuamente exige permissões amplas e gera registros detalhados do que o usuário faz. Para devs que pensam em produtos similares, esse é um ponto crítico: a captura visual cria superfícies de risco que abordagens via API simplesmente não criam.
Por fim, houve pressão competitiva. O Google sentiu a necessidade de entregar um agente mais consolidado para enfrentar a OpenAI, com o ChatGPT, e a Anthropic, criadora do Claude. Assim, manter o Mariner como produto isolado deixou de fazer sentido estratégico.
O que muda com a absorção pelo Gemini Agent
Segundo a Wired, a decisão não pegou ninguém de surpresa. De fato, grande parte da equipe já havia sido realocada para outras áreas nos últimos meses, indicando que o projeto não era mais prioridade.
A tecnologia do Mariner, no entanto, não foi descartada. Ela será absorvida por plataformas como o Gemini Agent e a API do Gemini, que agora oferecem funcionamento similar. Para devs que pretendem construir automações de navegador, isso significa migrar para essas APIs em vez de tentar replicar a arquitetura visual original.
Adicionalmente, o Google continua investindo em agentes especializados. O Gemini Deep Research, por exemplo, foca em pesquisa e síntese de grandes volumes de dados, uma fatia diferente do problema que o Mariner tentou resolver.
Lições práticas para quem desenvolve agentes de IA
O caso Mariner traz aprendizados concretos para a comunidade dev. Primeiramente, agentes baseados puramente em visão computacional ainda têm custo computacional alto demais para escalar. Por isso, abordagens híbridas, que combinam leitura de DOM com fallback visual, tendem a ser mais viáveis no curto prazo.
Em segundo lugar, privacidade não é detalhe: é arquitetura. Portanto, decisões sobre o que capturar, armazenar e processar precisam vir antes do código, não depois. Por fim, a consolidação em plataformas maiores como o Gemini sugere que o futuro dos agentes está em SDKs unificados, não em produtos isolados.
Em resumo, o fim do Project Mariner não é o fim dos agentes de navegação. Pelo contrário, é uma reorganização do problema. Para devs, fica o convite de acompanhar como o Gemini Agent vai absorver essas capacidades e quais APIs estarão disponíveis para integração nos próximos meses.



