Pourquoi dit-on que l'ère des agents IA va inaugurer la troisième guerre des navigateurs ?

Auteur : Gate Ventures

TL;DR

La troisième guerre des navigateurs est en train de se dérouler discrètement. En revenant sur l'histoire, depuis les années 90 avec Netscape et Internet Explorer de Microsoft, jusqu'à l'esprit open source de Firefox et Chrome de Google, la lutte des navigateurs a toujours été une manifestation concentrée du contrôle de la plateforme et des changements de paradigme technologique. Chrome a conquis la position de leader grâce à sa rapidité de mise à jour et à son écosystème interconnecté, tandis que Google a formé un circuit fermé d'accès à l'information avec sa structure « double oligopole » entre le moteur de recherche et le navigateur.

Mais aujourd'hui, cette configuration est en train de vaciller. L'émergence des grands modèles de langage (LLM) permet à un nombre croissant d'utilisateurs de réaliser des tâches sur la page de résultats de recherche sans cliquer, ce qui réduit les comportements de clic traditionnels. En même temps, les rumeurs selon lesquelles Apple envisage de remplacer le moteur de recherche par défaut dans Safari menacent encore davantage les fondements des bénéfices de la société mère d'Alphabet ( Google, et le marché commence à montrer des signes d'inquiétude face à la "tradition de la recherche".

Le navigateur lui-même est également confronté à une redéfinition de son rôle. Il n'est pas seulement un outil pour afficher des pages web, mais aussi un conteneur de diverses capacités telles que la saisie de données, le comportement des utilisateurs, et l'identité privée. Bien que l'Agent AI soit puissant, pour réaliser des interactions complexes sur les pages, appeler des données d'identité locales et contrôler des éléments web, il doit encore s'appuyer sur les limites de confiance et l'environnement fonctionnel du navigateur. Le navigateur est en train de passer d'une interface humaine à une plateforme d'appels système pour les Agents.

Dans cet article, nous explorons s'il est encore nécessaire d'avoir un navigateur, tout en considérant que ce qui pourrait réellement briser le paysage actuel du marché des navigateurs n'est pas un « Chrome meilleur », mais une nouvelle structure d'interaction : ce n'est pas l'affichage de l'information, mais l'appel des tâches. Les navigateurs futurs doivent être conçus pour les agents IA — non seulement capables de lire, mais aussi d'écrire et d'exécuter. Des projets comme Browser Use tentent de sémantiser la structure des pages, transformant l'interface visuelle en texte structuré pouvant être appelé par des LLM, réalisant ainsi une cartographie des pages vers des instructions, réduisant considérablement le coût d'interaction.

Les projets majeurs sur le marché commencent à explorer : Perplexity construit le navigateur natif Comet, remplaçant les résultats de recherche traditionnels par de l'IA ; Brave combine protection de la vie privée et raisonnement local, renforçant les fonctionnalités de recherche et de blocage avec LLM ; tandis que des projets natifs comme Donut ciblent un nouvel accès à l'interaction entre l'IA et les actifs blockchain. Ces projets partagent une caractéristique commune : ils tentent de reconstruire l'interface d'entrée du navigateur, plutôt que d'embellir son niveau de sortie.

Pour les entrepreneurs, les opportunités se cachent dans la relation triangulaire entre l'entrée, la structure et l'agent. Le navigateur, en tant qu'interface d'appel du monde pour le futur Agent, signifie que ceux qui peuvent fournir des « blocs de capacité » structurés, appelables et fiables pourront devenir une partie intégrante de la nouvelle génération de plateformes. De SEO à AEO (Agent Engine Optimization), du trafic des pages aux appels de chaînes de tâches, la forme et la pensée de conception des produits sont en cours de reconstruction. La troisième guerre des navigateurs se déroule dans l'« entrée » plutôt que dans la « présentation » ; ce qui détermine le gagnant n'est plus celui qui attire l'œil de l'utilisateur, mais celui qui gagne la confiance de l'Agent et obtient l'entrée pour l'appel.

) Histoire du développement des navigateurs

Au début des années 90, alors qu'Internet n'était pas encore devenu une partie intégrante de la vie quotidienne, Netscape Navigator est apparu, tel un navire ouvrant une nouvelle terre, permettant à des millions d'utilisateurs d'accéder au monde numérique. Ce navigateur n'était pas le premier, mais il fut le premier véritable produit à s'adresser au grand public et à façonner l'expérience Internet. À l'époque, les gens pouvaient enfin naviguer sur le web si facilement grâce à une interface graphique, comme si le monde entier était soudainement à portée de main.

Cependant, la gloire est souvent éphémère. Microsoft a rapidement réalisé l'importance des navigateurs et a décidé de forcer l'intégration d'Internet Explorer dans le système d'exploitation Windows, en en faisant le navigateur par défaut. Cette stratégie est qualifiée de « coup de maître de la plateforme », car elle a directement détruit la position dominante de Netscape sur le marché. De nombreux utilisateurs n'ont pas choisi IE activement, mais l'ont accepté parce qu'il était par défaut dans le système. Grâce à la capacité de distribution de Windows, IE est rapidement devenu le leader du secteur, tandis que Netscape est tombé dans une trajectoire de déclin.

Dans l'adversité, les ingénieurs de Netscape ont choisi une voie radicale et idéaliste — ils ont rendu le code source du navigateur public, lançant un appel à la communauté open source. Cette décision ressemble à une « abdication macédonienne » dans le monde technologique, annonçant la fin d'une époque et l'émergence de nouvelles forces. Ce code est devenu la base du projet de navigateur Mozilla, initialement nommé Phoenix (ce qui signifie renaissance du phénix), mais qui a été renommé plusieurs fois en raison de problèmes de marque, pour finalement être appelé Firefox.

Firefox n'est pas une simple copie de Netscape, il a réalisé plusieurs percées en matière d'expérience utilisateur, d'écosystème de plugins, de sécurité, etc. Sa naissance marque la victoire de l'esprit open source et insuffle une nouvelle vitalité à l'ensemble de l'industrie. Certains décrivent Firefox comme le « successeur spirituel » de Netscape, tout comme l'Empire ottoman a hérité des reflets de Byzance. Cette métaphore, bien que exagérée, est riche de sens.

Mais des années avant la sortie officielle de Firefox, Microsoft avait déjà publié six versions d'IE. Grâce à l'avantage du temps et à une stratégie de bundling du système, Firefox a dès le départ été en position de rattrapage, ce qui a rendu cette compétition inégale dès le départ.

Pendant ce temps, un autre acteur précoce fait son apparition discrètement. En 1994, le navigateur Opera voit le jour, il vient de Norvège et était à l'origine un projet expérimental. Cependant, à partir de la version 7.0 en 2003, il a introduit le moteur Presto développé en interne, étant le premier à prendre en charge des technologies de pointe telles que CSS, la mise en page adaptative, le contrôle vocal et l'encodage Unicode. Bien que le nombre d'utilisateurs soit limité, il est resté à la pointe de l'industrie sur le plan technologique, devenant le "chouchou des geeks".

La même année, Apple a lancé le navigateur Safari. C'était un tournant significatif. À l'époque, Microsoft avait investi 150 millions de dollars dans Apple, alors au bord de la faillite, pour maintenir l'apparence de la concurrence et éviter un examen antitrust. Bien que le moteur de recherche par défaut de Safari depuis sa création soit Google, cette histoire d'entrelacs avec Microsoft symbolise la relation complexe et délicate entre les géants de l'internet : coopération et concurrence vont toujours de pair.

En 2007, IE7 a été lancé avec Windows Vista, mais les retours du marché étaient moyens. En revanche, Firefox, grâce à un rythme de mise à jour plus rapide, un mécanisme d'extension plus convivial et un attrait naturel pour les développeurs, a vu sa part de marché augmenter régulièrement pour atteindre environ 20%. La domination d'IE commençait à s'affaiblir, le vent était en train de tourner.

Google a une approche différente. Bien qu'il ait commencé à envisager de créer son propre navigateur dès 2001, il a fallu six ans pour convaincre le PDG Eric Schmidt d'approuver le projet. Chrome a été lancé en 2008, basé sur le projet open source Chromium et le moteur WebKit utilisé par Safari. Il a été qualifié de navigateur « encombrant », mais grâce à l'expertise de Google en matière de publicité et de création de marque, il a rapidement émergé.

L'arme clé de Chrome n'est pas ses fonctionnalités, mais son rythme de mises à jour fréquentes (toutes les six semaines) et son expérience unifiée sur toutes les plateformes. En novembre 2011, Chrome a dépassé Firefox pour la première fois, atteignant une part de marché de 27 % ; six mois plus tard, il a de nouveau dépassé IE, complétant ainsi sa transformation de challenger à dominateur.

Dans le même temps, l'Internet mobile en Chine est en train de former son propre écosystème. Le navigateur UC, qui appartient à Alibaba, a connu une montée rapide au début des années 2010, en particulier sur des marchés émergents tels que l'Inde, l'Indonésie et la Chine, grâce à ses caractéristiques de conception légère et de compression des données pour économiser de la bande passante, qui ont séduit les utilisateurs d'appareils bas de gamme. En 2015, sa part de marché mondiale des navigateurs mobiles a dépassé 17 %, atteignant même 46 % en Inde à un moment donné. Mais cette victoire n'a pas duré. Avec le renforcement par le gouvernement indien des contrôles de sécurité sur les applications chinoises, UC Browser a été contraint de quitter un marché clé, perdant progressivement son ancienne gloire.

Entrant dans les années 2020, la domination de Chrome est désormais établie, avec une part de marché mondiale stable autour de 65 %. Il est à noter que, bien que le moteur de recherche Google et le navigateur Chrome appartiennent tous deux à Alphabet, ils représentent deux systèmes hégémoniques indépendants du point de vue du marché — le premier contrôlant environ 90 % des points d'entrée de recherche dans le monde, tandis que le second détient la majorité des utilisateurs accédant à internet par la "première fenêtre".

Pour maintenir cette double structure monopolistique, Google n'hésite pas à investir des sommes considérables. En 2022, Alphabet a versé environ 20 milliards de dollars à Apple, simplement pour que Google conserve son statut de moteur de recherche par défaut dans Safari. Des analyses ont indiqué que cette dépense représente 36 % des revenus publicitaires de recherche que Google tire du trafic de Safari. En d'autres termes, Google paie une "taxe de protection" pour son fossé défensif.

Mais le vent a encore une fois changé. Avec l'essor des grands modèles de langage (LLM), la recherche traditionnelle commence à être perturbée. En 2024, la part de marché de Google dans la recherche est tombée de 93 % à 89 %. Bien qu'il reste dominant, des fissures commencent à apparaître. Ce qui est plus perturbateur, ce sont les rumeurs selon lesquelles Apple pourrait lancer son propre moteur de recherche AI - si Safari changeait son moteur de recherche par défaut pour celui de sa propre entreprise, cela ne modifierait pas seulement l'écosystème, mais pourrait également ébranler le pilier des bénéfices d'Alphabet. Le marché a réagi rapidement, le cours de l'action d'Alphabet passant de 170 dollars à 140 dollars, reflétant non seulement la panique des investisseurs, mais aussi une profonde inquiétude quant à l'avenir de l'ère de la recherche.

De Navigator à Chrome, des idéaux open source à la commercialisation de la publicité, des navigateurs légers aux assistants de recherche AI, la bataille des navigateurs a toujours été une guerre sur la technologie, les plateformes, le contenu et le contrôle. Le champ de bataille se déplace constamment, mais l'essence n'a jamais changé : celui qui contrôle l'entrée définit l'avenir.

Aux yeux des VC, s'appuyant sur les nouvelles demandes des utilisateurs envers les moteurs de recherche à l'ère des LLM et de l'IA, la troisième guerre des navigateurs est en train de se déployer progressivement. Voici un aperçu des financements de certains projets connus dans le domaine des navigateurs AI.

Architecture obsolète des navigateurs modernes

En ce qui concerne l'architecture des navigateurs, l'architecture traditionnelle classique est illustrée ci-dessous :

Client — Entrée frontale

Interroger le Google Front End le plus proche via HTTPS, compléter le décryptage TLS, l'échantillonnage QoS et le routage géographique. Si un trafic anormal (DDoS, scraping automatique) est détecté, il est possible de limiter le débit ou de lancer un défi à ce niveau.

Compréhension de la demande

Le front-end doit comprendre la signification des mots saisis par l'utilisateur, et cela se fait en trois étapes : correction orthographique neuronale, corrigeant « recpie » en « recipe » ; expansion par synonymes, élargissant « how to fix bike » en « repair bicycle ». Analyse de l'intention, déterminant si la requête est d'information, de navigation ou d'intention de transaction, et attribuant une demande Vertical.

Rappel de candidat

La technique de requête utilisée par Google est appelée : index inversé. Dans l'index direct, nous pouvons indexer un fichier à partir d'un ID donné. Cependant, l'utilisateur ne peut pas connaître le numéro du contenu qu'il souhaite parmi des centaines de milliards de fichiers, c'est pourquoi il utilise un index inversé très traditionnel, qui permet de rechercher quels fichiers contiennent les mots clés correspondants. Ensuite, Google utilise l'indexation vectorielle pour traiter la recherche sémantique, c'est-à-dire pour trouver du contenu ayant une signification similaire à la requête. Cela convertit des textes, des images et d'autres contenus en vecteurs de haute dimension (embedding), et effectue des recherches en fonction de la similarité entre ces vecteurs. Par exemple, même si un utilisateur recherche « comment faire de la pâte à pizza », le moteur de recherche peut renvoyer des résultats liés à « guide de fabrication de pâte à pizza », car ils sont sémantiquement similaires. Après le traitement par index inversé et indexation vectorielle, environ cent mille pages web seront pré-sélectionnées.

Tri multiple

Le système filtre généralement des centaines de milliers de pages candidates à environ 1000 pages, formant un ensemble de candidats préliminaires, en utilisant des caractéristiques légères en milliers de dimensions, telles que BM25, TF-IDF et la note de qualité de la page. Ces systèmes sont collectivement appelés moteurs de recommandation. Ils s'appuient sur une multitude de caractéristiques générées par des entités massives, y compris le comportement des utilisateurs, les attributs des pages, l'intention de recherche et les signaux contextuels. Par exemple, Google prend en compte l'historique des utilisateurs, les retours d'expérience d'autres utilisateurs, la sémantique des pages, la signification des requêtes, tout en tenant compte d'éléments contextuels tels que le temps (le moment de la journée, un jour spécifique de la semaine) et des événements externes comme les nouvelles en temps réel.

Apprentissage profond pour le tri principal

Au stade de la recherche initiale, Google utilise des technologies telles que RankBrain et Neural Matching pour comprendre le sens des requêtes et filtrer les résultats pertinents parmi une vaste quantité de documents. RankBrain est un système d'apprentissage automatique introduit par Google en 2015, conçu pour mieux comprendre le sens des requêtes des utilisateurs, en particulier celles qui apparaissent pour la première fois. Il fonctionne en convertissant les requêtes et les documents en représentations vectorielles, puis en calculant la similarité entre elles afin de trouver les résultats les plus pertinents. Par exemple, pour la requête « comment faire de la pâte à pizza », même si les mots-clés ne correspondent pas exactement dans le document, RankBrain peut identifier des contenus liés à « base de pizza » ou « fabrication de pâte ».

Neural Matching est une autre technologie lancée par Google en 2018, visant à comprendre plus en profondeur les relations sémantiques entre les requêtes et les documents. Elle utilise des modèles de réseaux neuronaux pour saisir les relations floues entre les mots, aidant Google à mieux faire correspondre les requêtes et le contenu des pages Web. Par exemple, pour la requête « pourquoi le ventilateur de mon ordinateur portable fait beaucoup de bruit », Neural Matching peut comprendre que l'utilisateur recherche peut-être des informations sur le dépannage liées à la surchauffe, l'accumulation de poussière ou une utilisation élevée du CPU, même si ces mots ne figurent pas directement dans la requête.

Réorganisation en profondeur : Application du modèle BERT

Après avoir pré-sélectionné les documents pertinents, Google utilise le modèle BERT (Bidirectional Encoder Representations from Transformers) pour un tri plus précis de ces documents, afin de s'assurer que les résultats les plus pertinents apparaissent en premier. BERT est un modèle de langage pré-entraîné basé sur Transformer, capable de comprendre les relations contextuelles des mots dans une phrase. Dans la recherche, BERT est utilisé pour réorganiser les documents initialement récupérés. Il calcule un score de pertinence entre la requête et les documents en les encodant conjointement, permettant ainsi de réorganiser les documents. Par exemple, pour la requête « se garer sur une rampe sans bordure », BERT peut comprendre la signification de « sans bordure » et suggérer aux conducteurs de diriger les roues vers le bord de la route, au lieu de l'interpréter comme une situation avec bordure. Pour les ingénieurs SEO, cela nécessite d'apprendre précisément les algorithmes de classement et de recommandation de Google, afin d'optimiser le contenu des pages pour obtenir un meilleur affichage de classement.

C'est ainsi que fonctionne typiquement le moteur de recherche Google. Cependant, à l'ère actuelle de l'explosion de l'IA et des Big Data, les utilisateurs ont de nouvelles exigences en matière d'interaction avec les navigateurs.

Pourquoi l'IA va-t-elle remodeler les navigateurs ?

Tout d'abord, nous devons clarifier pourquoi la forme du navigateur continue d'exister ? Existe-t-il une troisième forme, une option en dehors des agents d'intelligence artificielle et des navigateurs ?

Nous pensons que l'existence est irremplaçable. Pourquoi l'intelligence artificielle peut-elle utiliser un navigateur, mais ne peut-elle pas complètement le remplacer ? Parce qu'un navigateur est une plateforme universelle, non seulement un point d'entrée pour lire des données, mais aussi un point d'entrée universel pour saisir des données. Dans ce monde, il ne peut pas y avoir seulement une entrée d'informations, il doit également générer des données et interagir avec les sites Web, c'est pourquoi les navigateurs intégrant des informations personnalisées des utilisateurs continueront d'exister largement.

Nous saisissons ce point : le navigateur en tant qu'entrée universelle, non seulement utilisé pour lire les données, mais les utilisateurs ont souvent besoin d'interagir avec les données. Le navigateur lui-même est un excellent endroit pour stocker les empreintes digitales des utilisateurs. Des comportements utilisateurs plus complexes et des comportements automatisés doivent être portés par le navigateur. Le navigateur peut stocker toutes les empreintes digitales des comportements des utilisateurs, des passeports et d'autres informations privées, réalisant ainsi des appels sans confiance dans le processus d'automatisation. Et les actions d'interaction avec les données peuvent évoluer en :

Utilisateur → Appel de l'Agent IA → Navigateur.

En d'autres termes, la seule partie qui pourrait être remplacée est celle qui correspond à la tendance évolutive du monde — plus d'intelligence, plus de personnalisation et plus d'automatisation. Certes, cette partie peut être confiée à un Agent IA, mais l'Agent IA lui-même n'est pas un endroit approprié pour héberger le contenu personnalisé des utilisateurs, car il fait face à de multiples défis en matière de sécurité des données et de commodité. Plus précisément :

Le navigateur est un lieu de stockage de contenu personnalisé :

  • La plupart des grands modèles sont hébergés dans le cloud, et le contexte de la session dépend de la sauvegarde sur le serveur, ce qui rend difficile l'appel direct des données sensibles telles que les mots de passe, les portefeuilles, les cookies, etc.
  • Toutes les données de navigation et de paiement doivent être envoyées à un modèle tiers, nécessitant une nouvelle autorisation de l'utilisateur ; la DMA de l'Union européenne et les lois sur la confidentialité des États américains exigent toutes deux la minimisation des données à l'exportation.
  • Le remplissage automatique des codes de vérification à double authentification, l'appel de la caméra ou l'utilisation du GPU pour l'inférence WebGPU doivent tous être effectués dans un environnement de navigateur sandbox.
  • Le contexte des données dépend fortement du navigateur, y compris les onglets, les cookies, IndexedDB, le cache du service worker, les identifiants Passkey et les données d'extension, qui sont tous stockés dans le navigateur.

transformation profonde des formes d'interaction

Revenons au sujet initial, nous pouvons classer le comportement des utilisateurs de navigateurs en trois grandes catégories : lire des données, saisir des données, interagir avec des données. Les grands modèles d'intelligence artificielle (LLM) ont profondément changé notre efficacité et notre manière de lire les données, alors qu'auparavant, le comportement des utilisateurs consistant à rechercher des pages web en fonction de mots-clés semblait très ancien et peu efficace.

L'évolution du comportement de recherche des utilisateurs — s'agit-il d'obtenir des réponses résumées ou de cliquer sur des pages web, de nombreuses études ont déjà été réalisées pour analyser cela.

En ce qui concerne les modèles de comportement des utilisateurs, une étude de 2024 montre qu'aux États-Unis, sur 1 000 recherches Google, seulement 374 aboutissent à un clic sur une page ouverte. En d'autres termes, près de 63 % des comportements sont des « zéro clic ». Les utilisateurs ont l'habitude d'obtenir des informations sur la météo, les taux de change, les cartes de connaissance, etc., directement à partir de la page des résultats de recherche.

En ce qui concerne la psychologie des utilisateurs, une enquête de 2023 a révélé que 44 % des répondants estiment que les résultats naturels réguliers sont plus fiables que les extraits sélectionnés (featured snippet). Des recherches académiques ont également montré que, sur des sujets controversés ou sans vérité unifiée, les utilisateurs préfèrent des pages de résultats contenant des liens de multiples sources.

Cela signifie qu'il y a effectivement une partie des utilisateurs dont le niveau de confiance dans les résumés générés par l'IA n'est pas très élevé, mais une proportion considérable des comportements des utilisateurs s'est déjà tournée vers le « zéro clic ». Ainsi, le navigateur IA doit encore explorer une forme d'interaction appropriée - en particulier dans la partie lecture des données, car le problème d'« hallucination » des grands modèles n'est toujours pas résolu, et de nombreux utilisateurs ont encore du mal à faire entièrement confiance aux résumés de contenu générés automatiquement. À cet égard, si les grands modèles sont intégrés dans le navigateur, il n'est en réalité pas nécessaire de procéder à une transformation révolutionnaire du navigateur, il suffit de résoudre progressivement la précision et le contrôle du modèle, et cette amélioration est également en cours.

Et ce qui pourrait vraiment déclencher une transformation massive des navigateurs, c'est le niveau d'interaction des données. Dans le passé, les gens interagissaient en saisissant des mots-clés - c'est la limite que les navigateurs pouvaient comprendre. Mais maintenant, les utilisateurs ont de plus en plus tendance à utiliser des phrases complètes en langage naturel pour décrire des tâches complexes, par exemple :

  • "Rechercher des billets d'avion directs de New York à Los Angeles pour une certaine période"
  • "Chercher des billets d'avion de New York à Shanghai puis à Los Angeles"

Ces actions nécessitent, même pour les humains, beaucoup de temps pour accéder à plusieurs sites, collecter et comparer des données. Mais ces tâches agentiques sont progressivement prises en charge par des agents AI.

Cela correspond également à la direction de l'évolution historique : automatisation et intelligence. Les gens aspirent à libérer leurs mains, l'AI Agent devra être profondément intégré dans le navigateur. Les navigateurs de demain doivent être conçus pour une automatisation totale, en particulier en tenant compte de :

  • Comment concilier l'expérience de lecture humaine et la lisibilité par l'agent AI,
  • Comment servir à la fois les utilisateurs et le modèle d'agent sur la même page.

Seules les conceptions qui répondent à ces deux critères peuvent permettre au navigateur de devenir un support stable pour l'exécution des tâches par un Agent IA.

Ensuite, nous allons nous concentrer sur cinq projets très attendus, y compris Browser Use, Arc (The Browser Company), Perplexity, Brave et Donut. Ces projets représentent respectivement les directions d'évolution futures des navigateurs AI et leur potentiel de combinaison natif dans les scénarios Web3 et Crypto.

Utilisation du navigateur

C'est exactement la logique fondamentale derrière le financement massif de Perplexity et de Browser Use. En particulier, Browser Use est la deuxième opportunité d'innovation la plus certaine et prometteuse en termes de croissance qui a émergé au cours du premier semestre 2025.

Browser est construit sur une véritable couche sémantique, dont le cœur consiste à établir une architecture de reconnaissance sémantique pour la prochaine génération de navigateurs.

Browser Use reconvertit le « DOM traditionnel = arbre de nœuds visible » en « DOM sémantique = arbre d'instructions pour LLM », permettant aux agents de cliquer, remplir et télécharger avec précision sans avoir besoin de « coordonnées de point de vue » ; cette approche remplace l'OCR visuel ou Selenium par « texte structuré → appel de fonction », ce qui permet une exécution plus rapide, une économie de tokens et moins d'erreurs. TechCrunch l'appelle « la couche adhésive qui permet à l'IA de réellement comprendre les pages web », et le tour de table de 17 millions de dollars achevé en mars parie sur cette innovation fondamentale.

HTML est rendu en un arbre DOM standard ; le navigateur dérive ensuite un arbre d'accessibilité pour fournir des étiquettes de « rôle » et de « statut » plus riches aux lecteurs d'écran.

  • Abstraire chaque élément interactif (comme , etc.) en un fragment JSON, accompagné de métadonnées telles que le rôle, la visibilité, les coordonnées, les actions exécutables, etc.;
  • Transformer l'ensemble de la page en une « liste de nœuds sémantiques » aplatie, à lire d'un coup par le LLM dans l'invite système ;
  • Recevoir les instructions de haut niveau sorties par LLM (comme click###node_id=「btn-Checkout」(), les rejouer dans un vrai navigateur. Le blog officiel appelle ce processus « transformer l'interface du site web en texte structuré compréhensible par LLM ».

En même temps, une fois que ce standard sera introduit au W3C, cela pourra résoudre en grande partie les problèmes d'entrée dans les navigateurs. Prenons la lettre ouverte et le cas de The Browser Company pour expliquer davantage pourquoi l'idée de The Browser Company est erronée.

)# ARC

La société Browser ### Arc, dans sa lettre ouverte, a déclaré que le navigateur ARC entrerait dans une phase de maintenance régulière, et que l'équipe se concentrera sur le navigateur DIA entièrement axé sur l'IA. La lettre admet également qu'il n'y a pas encore de chemin concret pour la mise en œuvre de DIA. En même temps, l'équipe a formulé plusieurs prévisions concernant le marché futur des navigateurs. Sur la base de ces prévisions, nous pensons en outre que pour véritablement bouleverser le paysage actuel des navigateurs, il est crucial de modifier les sorties du côté de l'interaction.

Voici trois prévisions de l'équipe ARC concernant le marché futur des navigateurs.

Tout d'abord, il considère que les pages Web ne sont plus l'interface d'interaction principale. Il est indéniable que c'est un jugement difficile, et c'est précisément la raison pour laquelle nous restons réservés sur les résultats de la réflexion de son fondateur. À notre avis, ce point de vue sous-estime considérablement le rôle des navigateurs, et c'est justement le problème clé qu'il a négligé en explorant le chemin des navigateurs AI.

Les grands modèles se distinguent par leur capacité à saisir les intentions, comme comprendre des instructions telles que "aide-moi à réserver un vol". Cependant, ils restent insuffisants en termes de capacité à porter une densité d'information. Lorsqu'un utilisateur a besoin d'un carnet de notes au style tableau de bord ou terminal Bloomberg, ou d'une toile de visualisation similaire à Figma, rien ne surpasse un site web spécialisé avec une précision au pixel près. La conception ergonomique sur mesure de chaque produit — graphiques, fonctionnalités de glisser-déposer, raccourcis clavier — n'est pas une simple décoration, mais plutôt une disponibilité cognitive compressée. Ces capacités ne peuvent pas être supportées par une simple interaction conversationnelle. Prenons Gate.com comme exemple, si un utilisateur souhaite effectuer des opérations d'investissement, s'appuyer uniquement sur une conversation avec l'IA est largement insuffisant, car l'utilisateur dépend fortement de l'entrée d'information, de la précision et de la présentation structurée.

L'équipe RC présente un biais essentiel dans son hypothèse de chemin, à savoir qu'elle ne parvient pas à distinguer clairement que « l'interaction » se compose de deux dimensions, l'entrée et la sortie. Du côté de l'entrée, son point de vue a une certaine pertinence dans certains scénarios, l'IA peut effectivement améliorer l'efficacité de l'interaction directive ; mais du côté de la sortie, ce jugement est manifestement déséquilibré, ignorant le rôle central du navigateur dans la présentation de l'information et l'expérience personnalisée. Par exemple, Reddit a sa propre manière de disposition et d'architecture de l'information, tandis qu'AAVE a une interface et une structure complètement différentes. En tant que plateforme qui accueille à la fois des données hautement confidentielles et qui peut rendre des interfaces de produits diversifiés, le navigateur a déjà une alternative limitée au niveau de l'entrée, tandis qu'au niveau de la sortie, sa complexité et son caractère non standardisé rendent difficile son renversement. En revanche, les navigateurs AI actuellement sur le marché se concentrent davantage sur le niveau de « résumé de sortie » : résumer des pages web, extraire des informations, générer des conclusions, ce qui n'est pas suffisant pour constituer un défi fondamental à des navigateurs ou systèmes de recherche dominants comme Google, et ne représente qu'une part de marché des résumés de recherche.

Ainsi, ce qui peut réellement bouleverser la part de marché de 66 % de Chrome ne sera certainement pas « le prochain Chrome ». Pour réaliser cette disruption, il est nécessaire de remodeler fondamentalement le mode de rendu des navigateurs, afin qu'il puisse s'adapter aux besoins d'interaction dominés par les agents IA à l'ère intelligente, en particulier en ce qui concerne la conception de l'architecture du côté de l'entrée. C'est pourquoi nous reconnaissons davantage le chemin technologique suivi par Browser Use — qui se concentre sur la transformation structurelle des mécanismes sous-jacents du navigateur. Une fois qu'un système est « atomisé » ou « modulé », la programmabilité et la combinabilité qui en découlent auront un potentiel disruptif extrêmement puissant, et c'est exactement la direction que Browser Use promeut actuellement.

En résumé, le fonctionnement de l'Agent IA dépend toujours fortement de la présence du navigateur. Le navigateur n'est pas seulement le principal lieu de stockage des données personnalisées complexes, mais aussi l'interface de rendu universelle pour des applications diversifiées, et continuera donc à servir de point d'entrée central pour l'interaction à l'avenir. À mesure que l'Agent IA est profondément intégré dans le navigateur pour accomplir des tâches fixes, il interagira avec les données des utilisateurs et des applications spécifiques, principalement du côté des entrées. Pour cela, le mode de rendu actuel du navigateur doit être innové afin d'assurer la compatibilité et l'adaptation maximales à l'Agent IA, afin de capter plus efficacement les applications.

(# Perplexité

Perplexity est un moteur de recherche AI réputé pour son système de recommandation, avec une valorisation récente atteignant 14 milliards de dollars, soit près de 5 fois l'évaluation de 3 milliards de dollars en juin 2024. Il traite en moyenne plus de 400 millions de requêtes de recherche par mois, avec environ 250 millions de requêtes traitées en septembre 2024, et le volume de requêtes des utilisateurs a augmenté de 8 fois d'une année sur l'autre, avec plus de 30 millions d'utilisateurs actifs par mois.

Ses principales caractéristiques sont la capacité de résumer les pages en temps réel, occupant ainsi un avantage dans l'acquisition d'informations instantanées. Au début de cette année, il a commencé à construire son propre navigateur natif, Comet. Perplexity décrit le Comet, qui sera bientôt lancé, comme un navigateur qui non seulement « affiche » des pages Web, mais peut également « réfléchir » sur elles. Les responsables affirment qu'il intégrera profondément le moteur de réponses de Perplexity à l'intérieur du navigateur, ce qui reflète une approche de type « tout-en-un » à la Steve Jobs : enfouir les tâches d'IA dans les couches profondes du navigateur, plutôt que de faire un plugin en barre latérale. Remplacer les traditionnels « dix liens bleus » par des réponses concises avec citations, en concurrence directe avec Chrome.

Mais il reste deux problèmes clés à résoudre : le coût élevé de la recherche et la faible rentabilité des utilisateurs marginalisés. Bien que Perplexity soit en tête dans le domaine de la recherche AI, Google a également annoncé une refonte massive de son produit phare lors de la conférence I/O 2025. Concernant la refonte du navigateur, Google a lancé une nouvelle expérience d'onglet de navigateur appelée AI Model, intégrant Overview, Deep Research et les futures fonctionnalités Agentic, le projet global étant appelé « Project Mariner ».

Google est en train de remodeler activement l'IA, donc il est difficile de constituer une véritable menace simplement en imitant des fonctionnalités superficielles, telles que Overview, DeepResearch ou Agentics. Ce qui a vraiment le potentiel de créer un nouvel ordre dans le chaos, c'est la reconstruction de l'architecture du navigateur depuis le bas, en intégrant profondément des modèles de langage de grande taille (LLM) dans le noyau du navigateur, et en réalisant une transformation fondamentale dans les modes d'interaction.

)# Brave

Brave est l'un des navigateurs les plus anciens et les plus réussis dans l'industrie des crypto-monnaies, basé sur une architecture Chromium, ce qui lui permet de prendre en charge les extensions disponibles sur le Google Store. Il attire les utilisateurs grâce à un modèle qui gagne des Tokens en fonction de la confidentialité et de la navigation. Le parcours de développement de Brave montre dans une certaine mesure son potentiel de croissance. Cependant, du point de vue du produit, bien que la confidentialité soit importante, sa demande reste principalement concentrée sur un groupe d'utilisateurs spécifiques, et pour le grand public, la sensibilisation à la confidentialité n'est pas encore un facteur de décision dominant. Par conséquent, la possibilité de renverser les géants existants en s'appuyant sur cette caractéristique est relativement faible.

À ce jour, le nombre d'utilisateurs actifs mensuels de Brave a atteint 82,7 millions, avec 35,6 millions d'utilisateurs actifs quotidiens, représentant une part de marché d'environ 1 % à 1,5 %. La taille de l'utilisateur continue de croître : passant de 6 millions en juillet 2019 à 25 millions en janvier 2021, atteignant 57 millions en janvier 2023, et dépassant 82 millions en février 2025, avec un taux de croissance annuel composé restant à deux chiffres. Le volume moyen de recherches mensuelles est d'environ 1,34 milliard, soit environ 0,3 % de celui de Google.

Voici la feuille de route itérative de Brave.

Brave prévoit de passer à un navigateur AI axé sur la vie privée. Cependant, en raison de sa collecte limitée de données utilisateur, le degré de personnalisation de son grand modèle est relativement faible, ce qui nuit à une itération rapide et précise des produits. À l'ère du navigateur Agentic à venir, Brave pourrait maintenir une part stable parmi un groupe d'utilisateurs soucieux de la vie privée, mais il lui sera difficile de devenir un acteur majeur. Son assistant AI Leo ressemble davantage à un plugin externe, offrant une amélioration fonctionnelle basée sur le produit existant, avec une certaine capacité de résumé de contenu, mais il n'existe pas de stratégie claire de transition vers un agent AI, et les innovations au niveau de l'interaction restent insuffisantes.

Donut

Récemment, l'industrie de la crypto a également fait des progrès dans le domaine des navigateurs Agentic. Le projet de startup Donut a levé 7 millions de dollars lors de son tour de financement Pre-seed, sous la direction conjointe de Sequoia China (Hongshan), HackVC et Bitkraft Ventures. Actuellement, le projet est encore à un stade précoce de conception, avec pour vision de réaliser une capacité intégrée d'« exploration - prise de décision - exécution crypto-native » (Discovery, Decision-making, and Crypto-native Execution).

Le cœur de cette direction réside dans la combinaison des chemins d'exécution automatisés natifs de la cryptographie. Comme l'a prédit a16z, les Agents devraient remplacer les moteurs de recherche en tant qu'entrée principale de trafic à l'avenir, et les entrepreneurs ne rivaliseront plus autour de l'algorithme de classement de Google, mais se disputeront le trafic et la conversion générés par l'exécution des Agents. L'industrie a déjà qualifié cette tendance de « AEO » (Answer / Agent Engine Optimization), ou encore plus loin de « ATF » (Agentic Task Fulfilment), c'est-à-dire qu'il ne s'agit plus d'optimiser le classement des recherches, mais de servir directement des modèles intelligents capables d'accomplir des tâches pour les utilisateurs, comme passer des commandes, réserver des billets, écrire des lettres, etc.

aux entrepreneurs

Tout d'abord, il faut reconnaître que le navigateur lui-même reste le plus grand "point d'entrée" non reconstruit du monde Internet. Il y a environ 2,1 milliards d'utilisateurs sur desktop et plus de 4,3 milliards sur mobile, il est le support commun pour la saisie de données, les interactions, et le stockage d'empreintes personnalisées. Cette forme persiste non pas par inertie, mais parce que le navigateur possède naturellement une double propriété : il est à la fois un "point d'entrée" pour la lecture des données et une "sortie" pour l'écriture des comportements.

Ainsi, pour les entrepreneurs, ce qui possède réellement un potentiel disruptif n'est pas l'optimisation au niveau de la « sortie de page ». Même si l'on parvient à réaliser une fonctionnalité d'aperçu AI similaire à celle de Google dans un nouvel onglet, cela reste essentiellement une itération au niveau des plugins de navigateur, sans constituer une transformation fondamentale du paradigme. Le véritable point de rupture réside dans le « côté entrée » — c'est-à-dire comment amener l'Agent AI à appeler activement le produit de l'entrepreneur pour accomplir des tâches spécifiques. Cela deviendra la clé pour savoir si les produits pourront s'intégrer dans l'écosystème Agent, obtenir du trafic et une répartition de la valeur.

À l'ère de la recherche, on mise sur le « clic » ; à l'ère de l'agent, on mise sur « l'appel ».

Si vous êtes un entrepreneur, envisagez de repenser votre produit comme un composant API — permettant aux agents non seulement de "comprendre" mais aussi de "l'utiliser". Cela exige que vous considériez dès le début de la conception du produit trois dimensions :

1. Normalisation de la structure de l'interface : votre produit est-il « appelable » ?

La capacité d'un produit à être appelé par un agent intelligent dépend de la possibilité de standardiser et d'abstraire sa structure d'information en un schéma clair. Par exemple, les opérations clés telles que l'inscription des utilisateurs, le bouton de commande, la soumission de commentaires, peuvent-elles être décrites à l'aide d'une structure DOM sémantique ou d'un mappage JSON ? Le système fournit-il une machine à états pour permettre à l'agent de reproduire de manière stable le processus de comportement des utilisateurs ? Les interactions des utilisateurs sur la page supportent-elles la reconstitution scriptée ? Dispose-t-il d'un WebHook ou d'un point de terminaison API avec un accès stable ?

C'est exactement la raison essentielle du succès du financement de Browser Use — — il transforme le navigateur d'un HTML rendu à plat en un arbre sémantique pouvant être appelé par des LLM. Pour les entrepreneurs, introduire des concepts de conception similaires dans les produits web signifie s'adapter de manière structurée à l'ère des agents AI.

Deux, identité et passage : peux-tu aider l'Agent à « franchir les barrières de confiance » ?

Pour qu'un agent AI puisse réaliser des transactions, invoquer des paiements ou des actifs, un certain niveau de confiance intermédiaire est nécessaire — pouvez-vous être ce niveau ? Un navigateur peut naturellement lire le stockage local, invoquer des portefeuilles, reconnaître des codes de vérification, et accéder à une authentification à deux facteurs, ce qui explique pourquoi il est mieux adapté à l'exécution que les grands modèles basés sur le cloud. Cela est particulièrement vrai dans le contexte Web3 : les normes d'interface pour invoquer des actifs sur la chaîne ne sont pas uniformes, et un Agent sans « identité » ou « capacité de signature » aura du mal à avancer.

Donc, pour les entrepreneurs en Crypto, il existe ici une zone blanche très imaginative : « MCP (Multi Capability Platform) du monde de la blockchain ». Cela peut être une couche d'instructions universelle (permettant à l'Agent d'appeler des Dapps), un ensemble d'interfaces de contrats standardisées, ou même une sorte de portefeuille léger fonctionnant localement + plateforme d'identité.

Trois, nouvelle compréhension du mécanisme de trafic : l'avenir n'est pas le SEO, mais l'AEO / ATF

Dans le passé, vous deviez attirer l’attention de l’algorithme de Google ; maintenant, vous devez être intégré dans la chaîne de tâches par un Agent AI. Cela signifie que le produit doit avoir une granularité de tâche claire : ce n’est pas une « page », mais une série « d’unités de capacité appelables » ; cela signifie que vous devez commencer à faire de l’optimisation des Agents (AEO) ou de l’adaptation de la planification des tâches (ATF) : par exemple, le processus d’inscription peut-il être simplifié en étapes structurées, les prix peuvent-ils être récupérés via une interface, les stocks peuvent-ils être vérifiés en temps réel ;

Vous devez même commencer à adapter la syntaxe d'appel sous différents cadres LLM — OpenAI et Claude n'ont pas les mêmes préférences en matière d'appels de fonction et d'utilisation d'outils. Chrome est le terminal vers l'ancien monde, et non l'entrée vers le nouveau monde. Les véritables projets entrepreneuriaux d'avenir ne consistent pas à recréer un navigateur, mais à faire en sorte que les navigateurs existants servent l'Agent et établissent un pont pour la nouvelle génération de « flux d'instructions ».

  • Ce que vous devez construire, c'est la « syntaxe d'interface » que l'Agent utilise pour appeler votre monde ;
  • Ce que vous devez viser, c'est de devenir un maillon de la chaîne de confiance des agents intelligents ;
  • Ce que vous devez construire, c'est le « château API » dans le prochain mode de recherche.

Si l'on dit que le Web2 attire l'attention des utilisateurs grâce à l'interface utilisateur, alors l'ère Web3 + AI Agent attire l'intention d'exécution de l'Agent grâce à l'appel de la chaîne.

Voir l'original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Récompense
  • Commentaire
  • Partager
Commentaire
0/400
Aucun commentaire
  • Épingler
Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)