Por que se diz que a era dos Agentes de IA vai trazer a terceira guerra dos navegadores?

Question

Autor: Gate Ventures### TL;DRA terceira guerra dos navegadores está se desenrolando silenciosamente. Olhando para a história, desde os anos 90 com Netscape, o IE da Microsoft, até o espírito de código aberto do Firefox e o Chrome do Google, a disputa entre navegadores sempre foi uma manifestação concentrada do controle da plataforma e das mudanças nos paradigmas tecnológicos. O Chrome conquistou a posição de domínio graças à velocidade de atualização e à interconexão do ecossistema, enquanto o Google, através da estrutura de "duopólio" entre busca e navegador, formou um ciclo fechado de entrada de informações.Mas hoje, esse padrão está sendo abalado. O surgimento de grandes modelos de linguagem (LLM) fez com que cada vez mais usuários completassem tarefas na página de resultados de busca com "zero cliques", reduzindo o comportamento tradicional de clicar em páginas da web. Ao mesmo tempo, rumores de que a Apple pretende substituir o motor de busca padrão no Safari ameaçam ainda mais a base de lucros da Alphabet (, controladora do Google ), e o mercado já começou a mostrar inquietação em relação à "ortodoxia da busca".O próprio navegador também está enfrentando uma reconfiguração de papel. Ele não é apenas uma ferramenta para exibir páginas da web, mas sim um recipiente que agrega várias capacidades como entrada de dados, comportamento do usuário, identidade de privacidade, entre outros. Embora o Agente de IA seja poderoso, para realizar interações complexas em páginas, chamar dados de identidade local e controlar elementos da web, ainda é necessário recorrer às fronteiras de confiança e ao sandbox funcional do navegador. O navegador está se transformando de uma interface humana em uma plataforma de chamadas de sistema para Agentes.Neste artigo, exploramos se os navegadores ainda têm necessidade de existir, ao mesmo tempo que acreditamos que a verdadeira possibilidade de romper o atual mercado de navegadores não é outro "Chrome melhor", mas sim uma nova estrutura de interação: não a exibição de informações, mas a invocação de tarefas. O futuro dos navegadores deve ser projetado para o Agente de IA — — não apenas para ler, mas também para escrever e executar. Projetos como o Browser Use estão tentando semantizar a estrutura das páginas, transformando a interface visual em texto estruturado que pode ser chamado por LLM, reduzindo significativamente os custos de interação.Os projetos principais no mercado começaram a experimentar: a Perplexity construiu o navegador nativo Comet, substituindo os resultados de busca tradicionais por IA; a Brave combinou proteção de privacidade com raciocínio local, melhorando a busca e as funcionalidades de bloqueio com LLM; enquanto projetos nativos de Crypto como o Donut estão mirando em novas entradas para a interação entre IA e ativos na blockchain. A característica comum desses projetos é: tentar reconstruir a interface de entrada do navegador, em vez de embelezar sua camada de saída.Para os empreendedores, as oportunidades estão escondidas na relação triangular entre entrada, estrutura e agentes. O navegador, como a interface que chamará o mundo do futuro, significa que quem puder fornecer "blocos de capacidade" que sejam estruturados, chamáveis e confiáveis, poderá se tornar parte da nova geração de plataformas. Desde SEO até AEO (Otimização do Motor de Agentes), do tráfego da página até a chamada de cadeias de tarefas, a forma e o design dos produtos estão se reestruturando. A terceira guerra dos navegadores ocorre na "entrada" e não na "exibição"; o que decide o vencedor não é mais quem capta a atenção do usuário, mas quem ganha a confiança do agente e obtém a entrada para as chamadas.### História do desenvolvimento dos navegadoresNo início da década de 90, quando a Internet ainda não fazia parte do cotidiano, o Netscape Navigator surgiu, como um barco à vela que abre um novo continente, abrindo as portas do mundo digital para milhões de usuários. Este navegador não foi o primeiro, mas foi o primeiro a realmente chegar ao público e moldar a experiência da Internet. Naquela época, as pessoas podiam navegar na web de forma tão fácil através de uma interface gráfica, como se o mundo inteiro de repente se tornasse ao alcance das mãos.No entanto, o esplendor é muitas vezes efémero. A Microsoft rapidamente percebeu a importância dos navegadores e decidiu forçar a inclusão do Internet Explorer no sistema operativo Windows, tornando-o o navegador padrão. Esta estratégia é considerada uma "arma secreta da plataforma", que desmantelou diretamente a posição dominante da Netscape no mercado. Muitos usuários não escolheram ativamente o IE, mas aceitaram-no porque era o padrão do sistema. O IE, aproveitando a capacidade de distribuição do Windows, rapidamente se tornou o líder da indústria, enquanto a Netscape caiu em uma trajetória de declínio.Em tempos difíceis, os engenheiros da Netscape escolheram um caminho radical e idealista — eles tornaram o código-fonte do navegador público, fazendo um apelo à comunidade de código aberto. Esta decisão parecia ser uma "cedência macedónica" no mundo da tecnologia, prenunciando o fim de uma era e o surgimento de novas forças. Este código mais tarde tornou-se a base do projeto do navegador Mozilla, inicialmente nomeado de Phoenix (que significa renascimento da fênix), mas que, devido a questões de marca registrada, passou por várias mudanças de nome, até ser finalmente chamado de Firefox.O Firefox não é uma simples cópia do Netscape; ele alcançou vários avanços em termos de experiência do usuário, ecossistema de plugins e segurança. Seu nascimento marca a vitória do espírito de código aberto e também injetou nova vitalidade em toda a indústria. Algumas pessoas descrevem o Firefox como o "herdeiro espiritual" do Netscape, assim como o Império Otomano herdou os últimos resquícios do Império Bizantino. Embora essa metáfora seja exagerada, ela é bastante significativa.Mas, anos antes do lançamento oficial do Firefox, a Microsoft já havia lançado seis versões do IE, aproveitando a vantagem do tempo e a estratégia de bundling de sistema, o que fez com que o Firefox começasse em uma posição de perseguição, tornando esta competição um concurso que não era justo desde a linha de partida.Entretanto, outro jogador precoce também está surgindo silenciosamente. Em 1994, o navegador Opera foi lançado, vindo da Noruega, e inicialmente era apenas um projeto experimental. Mas a partir da versão 7.0 de 2003, introduziu o motor Presto desenvolvido internamente, sendo o primeiro a suportar tecnologias de ponta como CSS, layout responsivo, controle por voz e codificação Unicode. Embora o número de usuários fosse limitado, tecnicamente sempre esteve à frente da indústria, tornando-se o "favorito dos geeks".No mesmo ano, a Apple lançou o navegador Safari. Esta foi uma viragem significativa. Naquela época, a Microsoft tinha investido 150 milhões de dólares na Apple, que estava à beira da falência, para manter a aparência de competição e evitar uma investigação antimonopólio. Embora o motor de busca padrão do Safari desde o seu lançamento tenha sido o Google, essa história entrelaçada com a Microsoft simboliza a relação complexa e subtil entre os gigantes da internet: colaboração e concorrência, sempre caminhando lado a lado.Em 2007, o IE7 foi lançado juntamente com o Windows Vista, mas a recepção do mercado foi morna. Em contrapartida, o Firefox, com um ritmo de atualizações mais rápido, um mecanismo de extensões mais amigável e um apelo natural aos desenvolvedores, viu sua participação de mercado aumentar de forma constante para cerca de 20%. O domínio do IE começou a se afrouxar, e a maré estava mudando.O Google adotou uma abordagem diferente. Embora tenha começado a desenvolver seu próprio navegador em 2001, levou seis anos para convencer o CEO Eric Schmidt a aprovar o projeto. O Chrome foi lançado em 2008, baseado no projeto de código aberto Chromium e no motor WebKit utilizado pelo Safari. Foi apelidado de navegador "inchado", mas, graças ao profundo domínio do Google em publicidade e construção de marca, rapidamente se destacou.A arma chave do Chrome não é a funcionalidade, mas sim o ritmo frequente de atualizações de versão (a cada seis semanas) e a experiência unificada em todas as plataformas. Em novembro de 2011, o Chrome superou pela primeira vez o Firefox, alcançando uma quota de mercado de 27%; seis meses depois, superou novamente o IE, completando a transição de desafiador para dominador.Entretanto, a internet móvel da China também está a formar o seu próprio ecossistema. O navegador UC, pertencente ao Alibaba, tornou-se rapidamente popular no início dos anos 2010, especialmente em mercados emergentes como a Índia, Indonésia e China, conquistando a preferência dos usuários de dispositivos de baixo custo devido ao seu design leve e características como compressão de dados para economizar tráfego. Em 2015, sua participação no mercado global de navegadores móveis ultrapassou 17%, chegando a 46% na Índia em determinados momentos. No entanto, essa vitória não foi duradoura. Com o governo indiano a intensificar a revisão de segurança das aplicações chinesas, o navegador UC foi forçado a sair de um mercado chave, perdendo gradualmente o seu antigo esplendor.Entrando na década de 2020, a posição dominante do Chrome já foi estabelecida, com uma quota de mercado global estabilizada em cerca de 65%. Vale a pena notar que, embora o motor de busca Google e o navegador Chrome pertençam à Alphabet, do ponto de vista do mercado, são dois sistemas hegemônicos independentes — o primeiro controla cerca de 90% das entradas de pesquisa globais, enquanto o segundo detém a maior parte da «primeira janela» pela qual os utilizadores entram na internet.Para manter esta estrutura de duopólio, a Google não hesitou em investir fortemente. Em 2022, a Alphabet pagou cerca de 20 mil milhões de dólares à Apple, apenas para que o Google mantivesse a posição de pesquisa padrão no Safari. Algumas análises apontaram que este gasto equivale a 36% da receita de publicidade de pesquisa que a Google obtém do tráfego do Safari. Em outras palavras, a Google está a pagar uma "taxa de proteção" para a sua barreira defensiva.Mas a direção do vento muda novamente. Com a ascensão dos grandes modelos de linguagem (LLM), a busca tradicional começa a ser impactada. Em 2024, a quota de mercado de busca do Google caiu de 93% para 89%, embora ainda domine, fissuras já começam a aparecer. O que é mais disruptivo são os rumores de que a Apple pode lançar seu próprio motor de busca de IA — se o Safari mudar sua busca padrão para o seu próprio ecossistema, isso não apenas reescreverá o cenário ecológico, mas poderá também abalar o pilar de lucros da Alphabet. A reação do mercado foi rápida, com as ações da Alphabet caindo de 170 dólares para 140 dólares, refletindo não apenas o pânico dos investidores, mas também uma profunda inquietação sobre a direção futura da era da busca.Desde o Navigator até ao Chrome, desde a idealização de código aberto até à comercialização da publicidade, desde navegadores leves até assistentes de busca AI, a disputa dos navegadores tem sido uma guerra sobre tecnologia, plataformas, conteúdo e controle. O campo de batalha continua a mudar, mas a essência nunca mudou: quem controla a entrada, define o futuro.Na visão dos VC, aproveitando a nova demanda das pessoas por motores de busca na era do LLM e da IA, a terceira guerra dos navegadores está gradualmente se desenrolando. Abaixo estão algumas informações sobre o financiamento de projetos conhecidos na corrida dos navegadores de IA.### Arquitetura antiga de navegadores modernosFalando sobre a arquitetura do navegador, a arquitetura tradicional clássica é mostrada na figura abaixo:**Cliente — Entrada do Frontend**Consultar a Google Front End mais próxima via HTTPS, completando a descriptografia TLS, amostragem de QoS e roteamento geográfico. Se for detectado tráfego anômalo (DDoS, scraping automático), é possível limitar ou desafiar neste nível.**Compreensão da consulta**O front-end precisa entender o significado das palavras digitadas pelo usuário, e há três etapas: correção ortográfica neural, corrigindo "recpie" para "recipe"; expansão de sinônimos, expandindo "how to fix bike" para "repair bicycle". Análise de intenção, determinando se a consulta é de informação, navegação ou intenção de transação, e atribuindo solicitações verticais.**Recall de Candidatos**A tecnologia de consulta usada pelo Google é chamada de: índice invertido. Em um índice direto, dado um ID, podemos indexar um arquivo. No entanto, os usuários não podem saber o número do conteúdo desejado entre trilhões de arquivos, portanto, utiliza-se o tradicional índice invertido, que permite consultar quais arquivos têm as palavras-chave correspondentes. Em seguida, o Google adota o índice de vetores para lidar com a busca semântica, ou seja, encontrar conteúdo semelhante ao significado da consulta. Ele converte textos, imagens e outros conteúdos em vetores de alta dimensão (embedding) e realiza a busca com base na similaridade entre esses vetores. Por exemplo, mesmo que o usuário pesquise "como fazer massa de pizza", o motor de busca pode retornar resultados relacionados a "guia de preparação da massa de pizza", pois eles são semanticamente semelhantes. Após passar pelo índice invertido e pelo índice de vetores, cerca de cem mil páginas da web serão pré-selecionadas.**Classificação em múltiplos níveis**Os sistemas normalmente filtram páginas candidatas de escala de cem mil para cerca de 1000, usando milhares de características leves, como BM25, TF-IDF e pontuação de qualidade da página, formando um conjunto inicial de candidatos. Esses sistemas são coletivamente chamados de motores de recomendação. Eles dependem de uma vasta gama de características geradas por várias entidades, incluindo comportamento do usuário, atributos da página, intenção de busca e sinais de contexto. Por exemplo, o Google considera o histórico do usuário, o feedback de comportamento de outros usuários, a semântica da página, o significado da consulta, entre outras informações, enquanto também leva em conta fatores de contexto, como tempo (período do dia, dias específicos da semana) e eventos externos, como notícias em tempo real.**Classificação principal com aprendizado profundo**Na fase de pesquisa preliminar, o Google utiliza tecnologias como RankBrain e Neural Matching para entender o significado das consultas e filtrar os resultados inicialmente relevantes de uma vasta quantidade de documentos. RankBrain é um sistema de aprendizado de máquina introduzido pelo Google em 2015, com o objetivo de compreender melhor o significado das consultas dos usuários, especialmente aquelas que aparecem pela primeira vez. Ele converte as consultas e os documentos em representações vetoriais e calcula a semelhança entre eles, a fim de encontrar os resultados mais relevantes. Por exemplo, para a consulta "como fazer massa de pizza", mesmo que o documento não contenha palavras-chave exatamente correspondentes, o RankBrain consegue identificar conteúdos relacionados a "base de pizza" ou "preparação da massa".Neural Matching é uma outra tecnologia lançada pelo Google em 2018, destinada a compreender mais profundamente a relação semântica entre consultas e documentos. Utiliza modelos de redes neurais para capturar relações nebulosas entre palavras, ajudando o Google a corresponder melhor consultas e conteúdos da web. Por exemplo, para a consulta "por que o ventilador do meu laptop faz muito barulho", o Neural Matching pode entender que o usuário pode estar procurando informações de solução de problemas relacionadas ao superaquecimento, acúmulo de poeira ou alta utilização da CPU, mesmo que essas palavras não apareçam diretamente na consulta.**Reorganização Profunda: Aplicação do Modelo BERT**Após a triagem inicial dos documentos relevantes, o Google utiliza o modelo BERT (Bidirectional Encoder Representations from Transformers) para classificar esses documentos de forma mais precisa, garantindo que os resultados mais relevantes apareçam primeiro. O BERT é um modelo de linguagem pré-treinado baseado em Transformer, capaz de entender o relacionamento contextual das palavras dentro de uma frase. Na busca, o BERT é utilizado para reclassificar os documentos inicialmente recuperados. Ele faz isso codificando conjuntamente a consulta e os documentos, calculando a pontuação de relevância entre eles, e assim reordenando os documentos. Por exemplo, para a consulta "estacionar em uma rampa sem meio-fio", o BERT consegue compreender o significado de "sem meio-fio" e retorna uma página que sugere que o motorista direcione as rodas em direção à calçada, em vez de interpretar erroneamente como uma situação com meio-fio. Para os engenheiros de SEO, isso significa que é necessário aprender com precisão sobre a classificação do Google e os algoritmos de recomendação de machine learning, a fim de otimizar o conteúdo da página e conseguir uma melhor exibição nas classificações.Acima está o fluxo de trabalho típico do motor de busca do Google. No entanto, na atual era de explosão da IA e dos grandes dados, os usuários têm novas necessidades em relação à interação com os navegadores.### Por que a IA vai remodelar os navegadoresPrimeiro, precisamos esclarecer por que a forma do navegador ainda existe. Existe uma terceira forma, além do agente de inteligência artificial e do navegador, como uma alternativa?Acreditamos que a existência é insubstituível. Por que a inteligência artificial pode usar um navegador, mas não pode substituir completamente um navegador? Porque o navegador é uma plataforma universal, não apenas uma entrada para leitura de dados, mas também uma entrada universal para inserção de dados. Este mundo não pode ter apenas entrada de informações, também deve gerar dados e interagir com os sites, portanto, os navegadores que integram informações personalizadas do usuário continuarão a existir amplamente.Aproveitamos este ponto: o navegador como entrada universal, não apenas utilizado para ler dados, mas os usuários muitas vezes também precisam interagir com os dados. O navegador em si é um excelente local para armazenar as impressões digitais dos usuários. Comportamentos de usuário mais complexos e comportamentos automatizados devem ser realizados por meio do navegador. O navegador pode armazenar todas as impressões digitais de comportamento do usuário, passaportes e outras informações privadas, permitindo chamadas sem necessidade de confiança durante o processo de automação. E as ações de interação com os dados podem evoluir para:Usuário → Chamar Agente AI → Navegador.Ou seja, a única parte que pode ser substituída é a direção que está em conformidade com a tendência de evolução do mundo — mais inteligente, mais personalizada e mais automatizada. Certamente, essa parte pode ser tratada por um AI Agent, mas o AI Agent em si não é um local adequado para suportar conteúdos personalizados dos usuários, pois enfrenta múltiplos desafios em termos de segurança dos dados e conveniência. Especificamente:O navegador é um local de armazenamento de conteúdo personalizado:* A maioria dos grandes modelos é hospedada na nuvem, e o contexto da sessão depende do servidor para ser salvo, tornando difícil chamar diretamente dados sensíveis como senhas locais, carteiras, Cookies, etc.* Enviar todos os dados de navegação e pagamento para um modelo de terceiros requer a reobtenção da autorização do usuário; tanto o "DMA" da União Europeia quanto as leis estaduais de privacidade dos EUA exigem a minimização de dados ao serem transferidos para fora.* O preenchimento automático do código de verificação de dupla validação, a chamada da câmara ou a utilização de GPU para inferência WebGPU devem ser realizados dentro da sandbox do navegador.* O contexto de dados depende fortemente do navegador, incluindo abas, Cookies, IndexedDB, Cache do Service Worker, credenciais de Passkey e dados de extensões, todos armazenados no navegador.### transformação profunda das formas de interaçãoVoltando ao assunto inicial, o comportamento que temos ao usar um navegador pode ser dividido em três formas: ler dados, inserir dados e interagir com dados. Os grandes modelos de inteligência artificial (LLM) já mudaram profundamente a eficiência e a forma como lemos dados, e o comportamento dos usuários que baseavam suas pesquisas em palavras-chave parece agora muito antiquado e ineficiente.A evolução do comportamento de pesquisa dos usuários — é obter respostas resumidas ou clicar em páginas da web, já houve várias pesquisas que analisam isso.Em termos de padrões de comportamento do usuário, um estudo de 2024 mostra que, para cada 1.000 consultas no Google nos Estados Unidos, apenas 374 resultam em cliques em páginas abertas. Em outras palavras, quase 63% pertencem ao comportamento de "zero cliques". Os usuários costumam obter informações sobre o clima, taxas de câmbio, cartões de conhecimento, etc., diretamente da página de resultados de pesquisa.No que diz respeito à psicologia do usuário, uma pesquisa de 2023 revelou que 44% dos entrevistados acreditam que os resultados naturais convencionais são mais confiáveis do que os trechos em destaque (featured snippet). Estudos acadêmicos também descobriram que, em questões controversas ou sem uma verdade unificada, os usuários preferem páginas de resultados que contêm links de múltiplas fontes.Ou seja, de fato, há uma parte dos usuários que não confiam muito nos resumos gerados por IA, mas também há uma proporção considerável de comportamentos dos usuários que já se voltaram para o "zero clique". Portanto, o navegador de IA ainda precisa explorar uma forma de interação adequada — especialmente na parte de leitura de dados, porque o problema da "ilusão" (hallucination) dos grandes modelos ainda não foi resolvido, e muitos usuários ainda têm dificuldade em confiar totalmente nos resumos de conteúdo gerados automaticamente. Nesse sentido, se os grandes modelos forem incorporados ao navegador, na verdade, não é necessário fazer uma mudança disruptiva no navegador, apenas resolver gradualmente a precisão e a controlabilidade do modelo; essa melhoria também está sendo constantemente promovida.E o que realmente pode desencadear uma grande transformação nos navegadores é a camada de interação de dados. No passado, as pessoas interagiam inserindo palavras-chave - esse era o limite do que o navegador conseguia entender. Agora, os usuários estão cada vez mais inclinados a usar um parágrafo inteiro de linguagem natural para descrever tarefas complexas, como:* "Procurar bilhetes de avião diretos de Nova Iorque para Los Angeles em determinado período de tempo"* "Procurar bilhetes de avião de Nova Iorque para Xangai e depois para Los Angeles"Essas ações, mesmo para os humanos, exigem uma grande quantidade de tempo para acessar vários sites, coletar e comparar dados. No entanto, essas Tarefas Agenticas estão gradualmente sendo assumidas por Agentes de IA.Isso também está de acordo com a direção da evolução histórica: automação e inteligência. As pessoas desejam libertar as mãos, e o AI Agent deve estar profundamente integrado no navegador. O navegador do futuro deve ser projetado para a automação total, especialmente considerando:* Como equilibrar a experiência de leitura humana com a interpretabilidade do Agente AI,* Como servir tanto os usuários quanto o modelo de agente na mesma página.Só um design que satisfaça essas duas condições pode fazer com que o navegador se torne um suporte estável para que o Agente de IA execute tarefas.A seguir, iremos focar em cinco projetos muito comentados, incluindo Browser Use, Arc (The Browser Company), Perplexity, Brave e Donut. Esses projetos representam, respectivamente, as direções futuras da evolução dos navegadores de IA e seu potencial de integração nativa nos cenários Web3 e Crypto.#### **Uso do Navegador**Esta é a lógica central por trás do enorme financiamento obtido pela Perplexity e pelo Browser Use. Especialmente o Browser Use, é a segunda oportunidade de inovação mais certa e com potencial de crescimento que surgiu no primeiro semestre de 2025.Browser é construído como uma camada semântica no verdadeiro sentido da palavra, cujo núcleo é a construção de uma arquitetura de reconhecimento semântico para a próxima geração de navegadores.Browser Use reinterpreta a tradicional «DOM = árvore de nós visíveis» como «DOM semântico = árvore de instruções para LLM», permitindo que o agente clique, preencha e carregue com precisão sem precisar de «coordenadas de pontos de visualização»; este caminho substitui o OCR visual ou o Selenium baseado em coordenadas por «texto estruturado → chamada de função», resultando em execuções mais rápidas, menor uso de tokens e menos erros. O TechCrunch descreveu como «a camada de cola que permite que a IA realmente compreenda as páginas web», e os 17 milhões de dólares da rodada de sementes concluída em março apostam exatamente nessa inovação de base.A renderização HTML forma uma árvore DOM padrão; o navegador então deriva uma árvore de acessibilidade, fornecendo etiquetas de "papel" e "estado" mais ricas para leitores de tela.* Abstrair cada elemento interativo (como , etc.) em fragmentos JSON, acompanhados de metadados como papel, visibilidade, coordenadas, ações executáveis, etc.;* Transformar toda a página em uma lista de "nós semânticos" achatada, para que o LLM possa ler tudo de uma vez na mensagem do sistema;* Receber instruções de alto nível da saída LLM (como click(node\_id=「btn-Checkout」)), reproduzindo no verdadeiro navegador. O blog oficial chama esse processo de «transformar a interface do site em texto estruturado que o LLM pode interpretar»Ao mesmo tempo, uma vez que este conjunto de padrões seja introduzido no W3C, isso pode resolver em grande medida os problemas de entrada dos navegadores. Usamos a carta aberta e o caso da The Browser Company para explicar mais detalhadamente por que a ideia da The Browser Company está errada.#### **ARC**A Browser Company (Arc mãe ) afirmou em sua carta aberta que o navegador ARC entrará em uma fase de manutenção regular, e a equipe concentrará seus esforços em um navegador totalmente voltado para IA, o DIA. A carta também admitiu que, atualmente, não há um caminho específico definido para a implementação do DIA. Ao mesmo tempo, a equipe apresentou várias previsões sobre o futuro do mercado de navegadores. Com base nessas previsões, acreditamos ainda mais que, para realmente revolucionar o panorama atual dos navegadores, a chave está em mudar a saída do lado da interação.Abaixo estão três previsões que extraímos da equipe ARC sobre o futuro do mercado de navegadores.Em primeiro lugar, considera-se que as páginas da web deixaram de ser a principal interface de interação. Não se pode negar que este é um julgamento desafiador, e é precisamente por isso que temos uma atitude reservada em relação aos resultados da reflexão de seu fundador. Na nossa opinião, essa visão subestima significativamente o papel dos navegadores, que é precisamente a questão chave que foi ignorada ao explorar o caminho do navegador de IA.Os grandes modelos apresentam um desempenho excecional na captura de intenções, como entender instruções como "ajuda-me a reservar um bilhete de avião". No entanto, em termos de capacidade de carga de densidade de informação, ainda são insuficientes. Quando os usuários precisam de um bloco de notas no estilo de um painel de controle ou terminal Bloomberg, ou uma tela visual semelhante ao Figma, nada é mais vantajoso do que uma página da web disposta com precisão a nível de pixel. O design ergonómico sob medida de cada produto — gráficos, funcionalidades de arrastar e soltar, teclas de atalho — não é um resíduo decorativo, mas sim uma oferta que comprime a cognição. Essas capacidades não podem ser suportadas por interações simples em formato de diálogo. Tomando como exemplo o Gate.com, se um usuário desejar realizar operações de investimento, depender apenas de um diálogo com IA é muito insuficiente, pois o usuário possui uma alta dependência da entrada de informações, precisão e apresentação estruturada.A equipe do RC tem uma falha essencial em sua concepção de caminho, que é a incapacidade de distinguir claramente que a "interação" é composta por duas dimensões: entrada e saída. No lado da entrada, seu ponto de vista é razoável em certos cenários, pois a IA pode, de fato, aumentar a eficiência da interação por comando; mas no lado da saída, esse julgamento é claramente desbalanceado, ignorando o papel central do navegador na apresentação de informações e na experiência personalizada. Por exemplo, o Reddit tem sua própria maneira única de layout e arquitetura de informações, enquanto o AAVE possui uma interface e estrutura completamente diferentes. O navegador, como uma plataforma que abriga dados altamente privados e ainda pode renderizar interfaces de produtos diversificados, já possui uma substitutibilidade limitada no nível de entrada, e em termos de saída, sua complexidade e características não padronizáveis tornam ainda mais difícil a sua substituição. Em contraste, os navegadores de IA disponíveis atualmente no mercado concentram-se mais no nível de "resumo de saída": resumir páginas da web, extrair informações, gerar conclusões, o que ainda não é suficiente para constituir um desafio fundamental aos navegadores ou sistemas de busca mainstream como o Google, e apenas estão dividindo a participação no mercado de resumos de busca.**Assim, o que realmente pode abalar a quota de mercado de 66% do Chrome não será o «próximo Chrome». Para alcançar essa disrupção, é necessário uma reestruturação fundamental do modo de renderização do navegador, de modo a se adaptar às necessidades interativas da era inteligente, dominada por Agentes de IA, especialmente no que diz respeito ao design da arquitetura do lado de entrada. Por isso, reconhecemos mais o caminho tecnológico adotado pelo Browser Use — que foca na transformação estrutural dos mecanismos subjacentes do navegador. Uma vez que qualquer sistema alcance a «atomização» ou «modularização», a programabilidade e combinabilidade que daí resultam trarão um potencial disruptivo extremamente poderoso, e essa é precisamente a direção que o Browser Use está a promover atualmente.**Em resumo, a operação do Agente de IA ainda depende fortemente da presença do navegador. O navegador não só é o principal local de armazenamento de dados complexos e personalizados, mas também é a interface de renderização universal para aplicações diversificadas, e, portanto, continuará a ser a entrada central de interação no futuro. À medida que o Agente de IA se integra profundamente no navegador para concluir tarefas fixas, ele interagirá com dados do usuário e aplicações específicas, atuando principalmente no lado da entrada. Para isso, o modo de renderização existente do navegador precisa ser inovado, a fim de alcançar a máxima compatibilidade e adaptação ao Agente de IA, capturando assim as aplicações de forma mais eficaz.#### **Perplexity**Perplexity é um motor de busca AI conhecido pelo seu sistema de recomendações, com uma avaliação mais recente de 14 mil milhões de dólares, um aumento de quase 5 vezes em relação aos 3 mil milhões de dólares de junho de 2024. O volume médio mensal de consultas de busca ultrapassa os 400 milhões, com cerca de 250 milhões de consultas processadas em setembro de 2024, e o volume de consultas dos usuários cresceu 8 vezes em relação ao ano anterior, com mais de 30 milhões de usuários ativos mensais.As principais características são a capacidade de resumir páginas em tempo real, ocupando uma vantagem na obtenção de informações instantâneas. No início deste ano, começou a construir o seu próprio navegador nativo Comet. A Perplexity descreve o Comet, que será lançado em breve, como um navegador que não apenas "exibe" páginas da web, mas também "pensa" sobre elas. A empresa afirma que ele integrará profundamente o motor de respostas da Perplexity dentro do navegador, seguindo a filosofia de "sistema completo" de Steve Jobs: enterrar as tarefas de IA nas profundezas do navegador, em vez de fazer um plugin de barra lateral. Substituir as tradicionais "dez links azuis" por respostas concisas com citações, competindo diretamente com o Chrome.Mas ainda precisa resolver dois problemas centrais: altos custos de busca e baixa margem de lucro proveniente de usuários marginais. Embora a Perplexity esteja em uma posição de liderança no campo da pesquisa em IA, o Google também anunciou uma grande reestruturação inteligente de seu produto principal na conferência I/O de 2025. Para a reestruturação do navegador, o Google lançou uma nova experiência de aba do navegador chamada AI Model, que integra Overview, Deep Research e as futuras funções Agentic, com todo o projeto sendo denominado "Project Mariner".O Google está a reestruturar ativamente a IA, e por isso, é difícil representar uma verdadeira ameaça apenas com imitações superficiais de funcionalidades, como Overview, DeepResearch ou Agentics. O que realmente poderá estabelecer uma nova ordem no caos será a reestruturação da arquitetura do navegador a partir da base, integrando profundamente modelos de linguagem de grande dimensão (LLM) no núcleo do navegador e realizando uma transformação fundamental nas formas de interação.#### **Brave**Brave é o navegador mais antigo e bem-sucedido na indústria de criptomoedas, baseado na arquitetura Chromium, o que permite a compatibilidade com os plugins da Google Store. Ele atrai usuários através de um modelo que ganha Tokens com base na privacidade e na navegação. O caminho de desenvolvimento do Brave, em certa medida, mostra seu potencial de crescimento. No entanto, do ponto de vista do produto, a privacidade é, sem dúvida, importante, mas sua demanda ainda se concentra principalmente em um grupo específico de usuários; para o público em geral, a consciência sobre a privacidade ainda não se tornou um fator decisivo mainstream. Portanto, a possibilidade de tentar derrubar os gigantes existentes com essa característica é baixa.Até o momento, o número de usuários ativos mensais do Brave atingiu 82,7 milhões, com 35,6 milhões de usuários ativos diários, e a participação de mercado é de cerca de 1%–1,5%. O tamanho da base de usuários apresenta uma tendência de crescimento contínuo: de 6 milhões em julho de 2019, aumentou para 25 milhões em janeiro de 2021, alcançando 57 milhões em janeiro de 2023, e superará 82 milhões em fevereiro de 2025, com uma taxa de crescimento anual composta ainda mantendo-se em dois dígitos. O volume médio mensal de consultas de pesquisa é de aproximadamente 1,34 bilhões, cerca de 0,3% do Google.Aqui está o roteiro de iteração do Brave.O Brave está planejando uma atualização para se tornar um navegador de IA focado em privacidade. No entanto, a limitação na obtenção de dados dos usuários resulta em um baixo nível de personalização do modelo, o que, por sua vez, prejudica a realização de iterações rápidas e precisas do produto. Na iminente era do Agentic Browser, o Brave pode manter uma participação estável entre um grupo específico de usuários focados em privacidade, mas terá dificuldade em se tornar um jogador principal. Seu assistente de IA, Leo, é mais semelhante a um complemento, oferecendo melhorias funcionais com base em produtos existentes, possuindo uma certa capacidade de resumo de conteúdo, mas ainda não apresenta uma estratégia clara para uma transição completa para um Agente de IA, e as inovações na interação ainda são insuficientes.#### **Donut**Recentemente, a indústria de Crypto também fez progressos na área do Agentic Browser. O projeto inicial Donut arrecadou 7 milhões de dólares na rodada Pre-seed, com a participação de Hongshan, HackVC e Bitkraft Ventures. Atualmente, o projeto ainda está na fase de concepção inicial, com a visão de realizar a capacidade integrada de "exploração - tomada de decisão - execução nativa em criptomoeda" (Discovery, Decision-making, and Crypto-native Execution).O núcleo nesta direção reside na combinação de caminhos de execução automática nativos de criptomoeda. Assim como previu a a16z, no futuro, os Agentes têm potencial para substituir os motores de busca como principais pontos de entrada de tráfego, e os empreendedores não competirão mais em torno do algoritmo de classificação do Google, mas sim pelo tráfego de acesso e conversão gerado pela execução dos Agentes. A indústria já se referiu a essa tendência como "AEO" (Answer / Agent Engine Optimization), ou, ainda mais, "ATF" (Agentic Task Fulfilment), que significa não mais otimizar o ranking de busca, mas sim servir diretamente a modelos inteligentes que podem completar tarefas como fazer pedidos, reservar bilhetes, escrever cartas, etc., em nome do usuário.### para empreendedoresPrimeiro, é preciso reconhecer: o Browser em si continua a ser a maior "entrada total" não reestruturada do mundo da internet. Existem cerca de 2,1 bilhões de usuários de desktop em todo o mundo e mais de 4,3 bilhões de usuários móveis, sendo ele um vetor comum para entrada de dados, interações e armazenamento de impressões digitais personalizadas. A razão pela qual essa forma persiste não é por inércia, mas porque o navegador possui uma característica bidirecional inata: é tanto uma "entrada de leitura" de dados quanto uma "saída de escrita" de comportamentos.Portanto, para os empreendedores, o verdadeiro potencial disruptivo não está na otimização do nível de "saída da página". Mesmo que seja possível implementar uma funcionalidade de visão geral de IA semelhante à do Google em uma nova aba, isso ainda pertence à iteração do nível do plugin do navegador e não representa uma mudança fundamental de paradigma. O verdadeiro ponto de ruptura está no "lado da entrada" — ou seja, como fazer com que o AI Agent chame proativamente o produto do empreendedor para realizar tarefas específicas. Isso se tornará a chave para saber se os produtos poderão ser integrados ao ecossistema do Agent, obtendo tráfego e distribuição de valor.A era da pesquisa é escrita como "clique"; a era da agência é escrita como "chamada".Se você é um empreendedor, experimente imaginar seu produto como um componente de API — permitindo que os agentes não apenas "entendam" isso, mas também "chamem" isso. Isso exige que você considere três dimensões desde o início do design do produto:**Um, padronização da estrutura da interface: o seu produto é "chamável"?**A capacidade de um produto ser chamado por um agente depende da sua estrutura de informação poder ser padronizada e abstraída em um esquema claro. Por exemplo, as operações-chave como registro de usuário, botão de pedido, envio de comentários, podem ser descritas através de uma estrutura DOM semântica ou mapeamento JSON? O sistema oferece uma máquina de estados, permitindo que o agente reproduza de forma estável o fluxo de comportamento do usuário? As interações do usuário na página suportam a restauração por script? Existem WebHooks ou Endpoints API com acesso estável?Esta é a verdadeira razão pela qual o Browser Use conseguiu financiar-se com sucesso — ele transforma o navegador de HTML renderizado em plano para uma árvore semântica que pode ser chamada por LLM. Para os empreendedores, introduzir uma filosofia de design semelhante em produtos web é adaptar-se estruturalmente à era do Agente de IA.**Dois, Identidade e Acesso: Você pode ajudar o Agente a "superar a barreira de confiança"?**Um agente de IA precisa de um nível de confiança para completar transações, invocar pagamentos ou ativos - você pode ser esse intermediário? Os navegadores podem naturalmente ler o armazenamento local, invocar carteiras, reconhecer códigos de verificação e acessar autenticação de dois fatores, e é exatamente por isso que eles são mais adequados para execução do que grandes modelos em nuvem. Isso é especialmente verdadeiro em cenários Web3: os padrões de interface para invocar ativos na blockchain não são uniformes, e um agente sem "identidade" ou "capacidade de assinatura" terá dificuldades.Portanto, para os empreendedores de Crypto, há uma área em branco extremamente imaginativa aqui: "MCP (Multi Capability Platform) do mundo blockchain". Isso pode ser uma camada de instrução genérica (que permite que o Agente chame Dapp), um conjunto de interfaces de contrato padronizadas, ou até mesmo algum tipo de carteira leve + plataforma de identidade que opera localmente.**Três, nova compreensão do mecanismo de fluxo: o futuro não é SEO, é AEO /ATF**No passado, você precisava conquistar a preferência do algoritmo do Google; agora, você precisa ser incorporado na cadeia de tarefas do AI Agent. Isso significa que o produto deve ter uma granularidade de tarefa clara: não é uma "página", mas sim uma sequência de "unidades de capacidade chamáveis"; significa que você deve começar a fazer otimização de Agent (AEO) ou adaptação de agendamento de tarefas (ATF): por exemplo, o processo de registro pode ser simplificado em etapas estruturadas, os preços podem ser puxados através de interface, e o estoque pode ser consultado em tempo real;Você deve até começar a adaptar a sintaxe de chamada sob diferentes estruturas LLM — as preferências de OpenAI e Claude em relação a chamadas de função e uso de ferramentas não são consistentes. O Chrome é o terminal para o velho mundo, e não a entrada para o novo mundo. Os verdadeiros projetos de empreendedorismo com futuro não são recriar um navegador, mas sim fazer com que os navegadores existentes sirvam os Agentes, construindo uma ponte para a nova geração de "fluxo de instruções".* O que você deve construir é a "sintaxe da interface" que o Agente usará para chamar o seu mundo.* O que você deve buscar é tornar-se um elo na cadeia de confiança dos agentes inteligentes;* O que você precisa construir é o "Castelo API" na próxima geração de modelos de busca.Se o Web2 captura a atenção dos usuários através da UI, então a era do Web3 + AI Agent é sobre capturar a intenção de execução do agente através da chamada de cadeia.