La tercera guerra de los navegadores se está desarrollando silenciosamente. Al revisar la historia, desde Netscape en la década de 1990, IE de Microsoft, hasta el espíritu de código abierto de Firefox y Chrome de Google, la lucha de los navegadores ha sido una manifestación concentrada del control de la plataforma y el cambio de paradigma tecnológico. Chrome ha ganado la posición de dominio gracias a su velocidad de actualización y la interacción con su ecosistema, mientras que Google, a través de la estructura de "duopolio" entre la búsqueda y el navegador, ha formado un ciclo cerrado de acceso a la información.
Pero hoy, este patrón está siendo sacudido. El auge de los modelos de lenguaje de gran tamaño (LLM) ha llevado a que cada vez más usuarios completen tareas en la página de resultados de búsqueda con "cero clics", lo que reduce el comportamiento tradicional de hacer clic en sitios web. Al mismo tiempo, los rumores de que Apple tiene la intención de reemplazar el motor de búsqueda predeterminado en Safari amenazan aún más la base de ganancias de Alphabet (, la empresa matriz de Google ), y el mercado ha comenzado a mostrar inquietud sobre la "ortodoxia de la búsqueda".
El navegador en sí mismo también se enfrenta a una reconfiguración de su rol. No solo es una herramienta para mostrar páginas web, sino que también es un contenedor de múltiples capacidades como la entrada de datos, el comportamiento del usuario, la identidad de privacidad, entre otros. Aunque el Agente AI es poderoso, para completar interacciones complejas en la página, llamar a datos de identidad locales y controlar elementos de la página web, aún se necesita aprovechar los límites de confianza y el sandbox de funciones del navegador. El navegador está evolucionando de una interfaz humana a una plataforma de llamadas del sistema para Agentes.
En este artículo, exploramos si los navegadores aún tienen una razón de ser, y creemos que lo que realmente podría romper el actual panorama del mercado de navegadores no es otro "Chrome mejor", sino una nueva estructura de interacción: no la presentación de información, sino la invocación de tareas. El futuro de los navegadores debe estar diseñado para el Agente AI — no solo para leer, sino también para escribir y ejecutar. Proyectos como Browser Use están intentando semantizar la estructura de las páginas, convirtiendo la interfaz visual en un texto estructurado que pueda ser llamado por LLM, logrando una gran reducción en los costos de interacción.
Los proyectos principales en el mercado han comenzado a probar: Perplexity ha construido el navegador nativo Comet, utilizando IA en lugar de resultados de búsqueda tradicionales; Brave combina la protección de la privacidad con el razonamiento local, mejorando la búsqueda y las funciones de bloqueo con LLM; y proyectos nativos de Crypto como Donut apuntan a una nueva entrada para la interacción entre IA y activos en la cadena. La característica común de estos proyectos es: intentar reestructurar la entrada del navegador, en lugar de embellecer su capa de salida.
Para los emprendedores, las oportunidades están escondidas en la relación triangular entre entrada, estructura y agente. El navegador, como la interfaz que invoca el mundo del futuro Agent, significa que quien pueda proporcionar "bloques de capacidad" estructurados, invocables y de confianza, podrá convertirse en parte de la nueva generación de plataformas. Desde SEO hasta AEO (Optimización del Motor Agente), desde el tráfico de páginas hasta la invocación de cadenas de tareas, la forma y el diseño del producto están en reestructuración. La tercera guerra de navegadores ocurre en la "entrada" y no en la "exhibición"; lo que determina el resultado ya no es quién capta la atención del usuario, sino quién gana la confianza del Agente y obtiene la entrada a la invocación.
Historia del desarrollo del navegador
A principios de la década de 1990, cuando Internet aún no formaba parte de la vida cotidiana, Netscape Navigator apareció como un barco de vela que abría un nuevo continente, abriendo las puertas al mundo digital para millones de usuarios. Este navegador no fue el primero, pero sí fue el primero en el sentido verdadero de llegar a las masas y dar forma a la experiencia de Internet. En ese momento, las personas podían navegar por las páginas web de manera tan fácil a través de una interfaz gráfica, como si de repente todo el mundo se volviera accesible.
Sin embargo, el esplendor suele ser efímero. Microsoft pronto se dio cuenta de la importancia de los navegadores y decidió forzar la integración de Internet Explorer en el sistema operativo Windows, convirtiéndolo en el navegador predeterminado. Esta estrategia se considera un "asesino de plataformas", ya que desmanteló directamente la posición de dominio de mercado de Netscape. Muchos usuarios no eligieron IE de manera activa, sino que lo aceptaron simplemente porque era la opción predeterminada del sistema. IE, aprovechando la capacidad de distribución de Windows, se convirtió rápidamente en el líder de la industria, mientras que Netscape cayó en una trayectoria de declive.
En medio de la adversidad, los ingenieros de Netscape eligieron un camino radical e idealista — decidieron hacer público el código fuente del navegador, lanzando un llamado a la comunidad de código abierto. Esta decisión fue como una "cesión macedónica" en el mundo tecnológico, presagiando el final de una era y el surgimiento de nuevas fuerzas. Este código más tarde se convirtió en la base del proyecto del navegador Mozilla, que inicialmente fue nombrado Phoenix (que significa renacimiento del fénix), pero debido a problemas de marca pasó por varios cambios de nombre, hasta que finalmente se llamó Firefox.
Firefox no es una simple copia de Netscape, ha logrado múltiples avances en la experiencia del usuario, el ecosistema de complementos, la seguridad, entre otros. Su nacimiento marca la victoria del espíritu de código abierto, inyectando nueva vitalidad a toda la industria. Algunos describen a Firefox como el "heredero espiritual" de Netscape, así como el Imperio Otomano heredó el resplandor de Bizancio. Esta metáfora, aunque exagerada, es bastante significativa.
Pero años antes del lanzamiento oficial de Firefox, Microsoft ya había lanzado seis versiones de IE, aprovechando la ventaja temporal y la estrategia de empaquetado del sistema, lo que hizo que Firefox comenzara en una posición de desventaja, lo que significa que esta competencia no era una competencia justa desde la línea de salida.
Mientras tanto, otro jugador temprano también ha hecho su aparición silenciosa. En 1994, se lanzó el navegador Opera, que proviene de Noruega y al principio era solo un proyecto experimental. Pero desde la versión 7.0 en 2003, introdujo su motor Presto desarrollado internamente, siendo el primero en soportar tecnologías de vanguardia como CSS, diseño adaptable, control por voz y codificación Unicode. Aunque el número de usuarios es limitado, tecnológicamente siempre ha estado a la vanguardia de la industria, convirtiéndose en "el favorito de los geeks".
Ese mismo año, Apple lanzó el navegador Safari. Este fue un giro significativo. En ese momento, Microsoft había invertido 150 millones de dólares en Apple, que estaba al borde de la quiebra, para mantener la apariencia de competencia y evitar una revisión antimonopolio. Aunque el motor de búsqueda predeterminado de Safari desde su creación es Google, esta historia de complicidad con Microsoft simboliza la relación compleja y sutil entre los gigantes de Internet: la cooperación y la competencia siempre van de la mano.
En 2007, IE7 se lanzó con Windows Vista, pero la respuesta del mercado fue tibia. En cambio, Firefox, gracias a su ritmo de actualizaciones más rápido, un mecanismo de extensiones más amigable y su atractivo natural para los desarrolladores, vio cómo su cuota de mercado aumentaba de manera constante hasta alcanzar aproximadamente el 20%. El dominio de IE comenzó a desvanecerse, y la dirección del mercado estaba cambiando.
Google tiene un enfoque diferente. Aunque comenzó a desarrollar su propio navegador en 2001, le tomó seis años convencer al CEO Eric Schmidt para aprobar el proyecto. Chrome se lanzó en 2008, construido sobre el proyecto de código abierto Chromium y el motor WebKit utilizado por Safari. Se le apodó el navegador "pesado", pero gracias a la sólida habilidad de Google en la publicidad y la creación de marcas, rápidamente se elevó.
El arma clave de Chrome no son sus funciones, sino su ritmo frecuente de actualizaciones de versiones (una cada seis semanas) y una experiencia unificada en todas las plataformas. En noviembre de 2011, Chrome superó por primera vez a Firefox, alcanzando una cuota de mercado del 27%; seis meses después, volvió a superar a IE, completando la transformación de retador a dominador.
Al mismo tiempo, el internet móvil de China también está formando su propio ecosistema. El navegador UC de Alibaba se volvió muy popular a principios de la década de 2010, especialmente en mercados emergentes como India, Indonesia y China, ganándose la preferencia de los usuarios de dispositivos de gama baja gracias a su diseño liviano y características como la compresión de datos para ahorrar tráfico. En 2015, su cuota de mercado global de navegadores móviles superó el 17%, alcanzando en India un máximo del 46%. Pero esta victoria no fue duradera. Con el gobierno de India intensificando la revisión de seguridad de las aplicaciones chinas, el navegador UC se vio obligado a salir de un mercado clave, perdiendo gradualmente su antiguo esplendor.
Entrando en la década de 2020, el dominio de Chrome ya está establecido, con una participación de mercado global estabilizada en alrededor del 65%. Es notable que, aunque el motor de búsqueda de Google y el navegador Chrome pertenecen a Alphabet, desde el punto de vista del mercado son dos sistemas hegemónicos independientes — el primero controla alrededor del noventa por ciento de las entradas de búsqueda globales, mientras que el segundo tiene la mayoría de los usuarios accediendo a la red a través de la "primera ventana".
Para mantener esta estructura de doble monopolio, Google no escatima en gastos. En 2022, Alphabet pagó alrededor de 20 mil millones de dólares a Apple solo para que Google mantuviera su posición de búsqueda predeterminada en Safari. Algunos análisis señalan que este gasto equivale al 36% de los ingresos por publicidad de búsqueda que Google obtiene del tráfico de Safari. En otras palabras, Google está pagando una "tarifa de protección" por su foso.
Pero la dirección del viento ha cambiado una vez más. Con el auge de los modelos de lenguaje de gran tamaño (LLM), la búsqueda tradicional comienza a verse afectada. En 2024, la participación de mercado de búsqueda de Google cayó del 93% al 89%; aunque sigue dominando, las fisuras comienzan a aparecer. Lo que es más disruptivo son los rumores de que Apple podría lanzar su propio motor de búsqueda de IA — si Safari cambia su búsqueda predeterminada a su propio ecosistema, esto no solo reescribirá el panorama ecológico, sino que también podría sacudir el pilar de ganancias de Alphabet. La reacción del mercado fue rápida, y las acciones de Alphabet cayeron de 170 dólares a 140 dólares, reflejando no solo el pánico de los inversores, sino también una profunda inquietud sobre la dirección futura de la era de búsqueda.
Desde Navigator hasta Chrome, desde ideales de código abierto hasta la comercialización de la publicidad, desde navegadores ligeros hasta asistentes de búsqueda AI, la lucha por los navegadores ha sido siempre una guerra sobre tecnología, plataformas, contenido y control. El campo de batalla se desplaza constantemente, pero la esencia nunca cambia: quien controla la entrada, define el futuro.
En la visión de los VC, apoyándose en la nueva demanda de las personas hacia los motores de búsqueda en la era de LLM y AI, la tercera guerra de navegadores está comenzando a desarrollarse gradualmente. A continuación se presenta la situación de financiamiento de algunos proyectos conocidos en la carrera de navegadores AI.
Arquitectura anticuada de los navegadores modernos
Al hablar de la arquitectura del navegador, la arquitectura tradicional clásica se muestra en la siguiente figura:
Cliente — Entrada del front-end
Consulta el Google Front End más cercano a través de HTTPS, completa la descifrado TLS, muestreo QoS y enrutamiento geográfico. Si se detecta tráfico anómalo (DDoS, scraping automático), se puede aplicar limitación o desafío en esta capa.
Consulta de comprensión
El frontend necesita entender el significado de las palabras que el usuario escribe, y hay tres pasos: corrección de ortografía neuronal, corrigiendo "recpie" a "recipe"; expansión de sinónimos, expandiendo "how to fix bike" a "repair bicycle". Análisis de intención, determinando si la consulta es de información, navegación o intención de transacción, y asignando la solicitud vertical.
Recuperación de candidatos
La tecnología de consulta utilizada por Google se llama: índice invertido. En el índice directo, se puede indexar un archivo dado un ID. Sin embargo, los usuarios no pueden conocer el número de contenido que desean entre miles de millones de archivos, por lo que se utiliza el tradicional índice invertido, que permite consultar qué archivos contienen la palabra clave correspondiente. A continuación, Google utiliza índices vectoriales para manejar la búsqueda semántica, es decir, para encontrar contenido que sea semánticamente similar a la consulta. Convierte texto, imágenes y otros contenidos en vectores de alta dimensión (embedding) y realiza búsquedas basadas en la similitud entre estos vectores. Por ejemplo, incluso si un usuario busca "cómo hacer masa de pizza", el motor de búsqueda puede devolver resultados relacionados con "guía para hacer masa de pizza", porque son semánticamente similares. Después de pasar por el índice invertido y el índice vectorial, se filtran alrededor de cien mil páginas web.
Ordenación múltiple
Los sistemas suelen filtrar miles de características ligeras de miles de dimensiones, como BM25, TF-IDF, y la puntuación de calidad de la página, reduciendo un millón de páginas candidatas a unas 1000, formando así un conjunto de candidatos preliminares. Estos sistemas se denominan comúnmente motores de recomendación. Dependen de una gran cantidad de características generadas por diversas entidades, incluyendo el comportamiento del usuario, las propiedades de la página, la intención de la consulta y las señales contextuales. Por ejemplo, Google considera la historia del usuario, la retroalimentación del comportamiento de otros usuarios, la semántica de la página, el significado de la consulta, entre otros, así como factores contextuales, como el tiempo (hora del día, días específicos de la semana) y eventos externos como noticias de última hora.
Clasificación principal mediante aprendizaje profundo
En la fase de búsqueda inicial, Google utiliza tecnologías como RankBrain y Neural Matching para comprender el significado de las consultas y filtrar los resultados preliminarmente relevantes de una gran cantidad de documentos. RankBrain es un sistema de aprendizaje automático que Google introdujo en 2015, diseñado para comprender mejor el significado de las consultas de los usuarios, especialmente las consultas que aparecen por primera vez. Convierten las consultas y los documentos en representaciones vectoriales y calculan la similitud entre ellos para encontrar los resultados más relevantes. Por ejemplo, para la consulta "cómo hacer masa de pizza", incluso si no hay palabras clave que coincidan exactamente en el documento, RankBrain puede identificar contenido relacionado con "base de pizza" o "preparación de masa".
Neural Matching es otra tecnología que Google lanzó en 2018, diseñada para comprender más profundamente la relación semántica entre las consultas y los documentos. Utiliza modelos de redes neuronales para capturar las relaciones difusas entre las palabras, ayudando a Google a igualar mejor las consultas y el contenido de las páginas web. Por ejemplo, para la consulta "¿por qué el ventilador de mi computadora portátil es muy ruidoso?", Neural Matching puede entender que el usuario podría estar buscando información de solución de problemas sobre sobrecalentamiento, acumulación de polvo o alta utilización de CPU, incluso si estas palabras no aparecen directamente en la consulta.
Reordenamiento profundo: Aplicación del modelo BERT
Después de una selección preliminar de los documentos relevantes, Google utiliza el modelo BERT (Representaciones de Codificador Bidireccional a partir de Transformadores) para clasificar estos documentos de manera más precisa, asegurando que los resultados más relevantes aparezcan primero. BERT es un modelo de lenguaje preentrenado basado en Transformer, capaz de entender las relaciones contextuales de las palabras dentro de las oraciones. En la búsqueda, BERT se utiliza para reordenar los documentos que se han recuperado inicialmente. Calcula la puntuación de relevancia entre la consulta y los documentos mediante la codificación conjunta, reordenando así los documentos. Por ejemplo, para la consulta "estacionar en una pendiente sin borde", BERT puede entender el significado de "sin borde" y devolver páginas que sugieren a los conductores dirigir las ruedas hacia el borde de la carretera, en lugar de malinterpretarlo como una situación con borde. Para los ingenieros de SEO, esto significa que necesitan aprender con precisión sobre la clasificación de Google y los algoritmos de recomendación de aprendizaje automático, para optimizar de manera específica el contenido de las páginas web y obtener una mayor visibilidad en las clasificaciones.
Lo anterior es el flujo de trabajo típico de un motor de búsqueda de Google. Sin embargo, en la actual era de explosión de la IA y los grandes datos, los usuarios han generado nuevas demandas sobre la interacción con los navegadores.
¿Por qué la IA transformará los navegadores?
Primero necesitamos aclarar por qué existe aún esta forma de navegador. ¿Hay una tercera forma, además de los agentes de inteligencia artificial y de los navegadores, que sea una opción?
Creemos que lo que existe no puede ser reemplazado. ¿Por qué la inteligencia artificial puede usar navegadores, pero no puede reemplazarlos por completo? Porque los navegadores son plataformas universales, no solo son una entrada para leer datos, sino también una entrada universal para ingresar datos. Este mundo no puede tener solo entrada de información, también debe generar datos e interactuar con los sitios web, por lo que los navegadores que integran información de usuario personalizada seguirán existiendo ampliamente.
Aprovechamos este punto: el navegador como entrada universal, no solo se utiliza para leer datos, los usuarios a menudo también necesitan interactuar con los datos. El navegador en sí es un lugar ideal para almacenar las huellas dactilares de los usuarios. Comportamientos de usuario más complejos y comportamientos automatizados deben llevarse a cabo a través del navegador. El navegador puede almacenar todas las huellas dactilares de comportamiento de los usuarios, pasaportes y otra información privada, realizando llamadas sin necesidad de confianza durante el proceso de automatización. Y las acciones de interacción con los datos pueden evolucionar a:
Usuario → Llamar a AI Agent → Navegador.
Es decir, la única parte que podría ser reemplazada es la dirección que se ajusta a la tendencia de evolución del mundo — — más inteligente, más personalizada y más automatizada. Ciertamente, esta parte puede ser manejada por un AI Agent, pero el AI Agent en sí mismo no es un lugar adecuado para albergar contenido personalizado de los usuarios, ya que enfrenta múltiples desafíos en términos de seguridad de datos y conveniencia. En concreto:
El navegador es un lugar de almacenamiento de contenido personalizado:
La mayoría de los modelos grandes están alojados en la nube, y el contexto de la sesión depende de que el servidor lo guarde, lo que dificulta la llamada directa a datos sensibles como contraseñas locales, billeteras, cookies, etc.
Enviar todos los datos de navegación y pago a modelos de terceros requiere una nueva autorización del usuario; tanto la "DMA" de la UE como las leyes de privacidad estatales de EE. UU. exigen la minimización de datos que salen del país.
La verificación automática del código de verificación de doble autenticación, la activación de la cámara o el uso de GPU para la inferencia de WebGPU deben realizarse dentro de la sandbox del navegador.
El contexto de los datos depende en gran medida del navegador, incluyendo pestañas, cookies, IndexedDB, caché de Service Worker, credenciales de Passkey y datos de extensiones, todos almacenados en el navegador.
transformación profunda de la forma de interacción
Volviendo al tema que discutíamos al principio, el comportamiento de los usuarios en el navegador se puede clasificar en tres formas: lectura de datos, entrada de datos e interacción con datos. Los modelos de lenguaje de inteligencia artificial (LLM) han cambiado profundamente nuestra eficiencia y forma de leer datos; en el pasado, el comportamiento de los usuarios que buscaban páginas web basándose en palabras clave parecía muy anticuado e ineficiente.
La evolución del comportamiento de búsqueda de los usuarios — ¿es obtener respuestas resumidas o hacer clic en páginas web? Ya se han realizado numerosos estudios para analizarlo.
En términos de los patrones de comportamiento de los usuarios, un estudio de 2024 muestra que en Estados Unidos, de cada 1,000 consultas en Google, solo 374 resultan en clics en páginas abiertas. En otras palabras, casi el 63% pertenece al comportamiento de "cero clics". Los usuarios tienden a obtener información sobre el clima, tasas de cambio, tarjetas de conocimiento, etc., directamente desde la página de resultados de búsqueda.
En términos psicológicos de los usuarios, una encuesta de 2023 indicó que el 44% de los encuestados considera que los resultados naturales regulares son más confiables que los fragmentos destacados. La investigación académica también ha encontrado que, en temas controvertidos o sin una verdad unificada, los usuarios prefieren las páginas de resultados que incluyen enlaces de múltiples fuentes.
Es decir, hay una parte de los usuarios que no confían mucho en los resúmenes de IA, pero también hay una proporción considerable de comportamientos de usuarios que ya se han desplazado hacia el "cero clic". Por lo tanto, el navegador de IA todavía necesita explorar una forma de interacción adecuada — especialmente en la parte de lectura de datos, ya que el "problema de alucinación" (hallucination) del modelo grande aún no se ha erradicado, y muchos usuarios todavía tienen dificultades para confiar completamente en los resúmenes de contenido generados automáticamente. En este sentido, si se incorpora un modelo grande al navegador, en realidad no es necesario realizar una transformación disruptiva del navegador, solo es necesario resolver de manera gradual la precisión y la controlabilidad del modelo, y esta mejora también se está impulsando continuamente.
Y lo que realmente podría desencadenar una transformación masiva en los navegadores es la capa de interacción de datos. En el pasado, las personas completaban la interacción ingresando palabras clave — este es el límite que los navegadores pueden entender. Pero ahora, los usuarios tienden cada vez más a utilizar un párrafo completo de lenguaje natural para describir tareas complejas, como:
"Buscar boletos de avión directos de Nueva York a Los Ángeles en un período de tiempo específico"
"Buscar boletos de avión de Nueva York a Shanghái y luego a Los Ángeles"
Estas acciones, incluso para los humanos, requieren una gran cantidad de tiempo para acceder a múltiples sitios web, recopilar y comparar datos. Pero estas Tareas Agentes están siendo gradualmente asumidas por Agentes de IA.
Esto también coincide con la dirección de la evolución histórica: automatización e inteligencia. La gente anhela liberar sus manos, y el Agente de IA sin duda se integrará profundamente en el navegador. El navegador del futuro debe estar diseñado para la automatización total, especialmente considerando:
Cómo equilibrar la experiencia de lectura humana con la interpretabilidad de los agentes de IA,
¿Cómo servir tanto a los usuarios como al modelo de agente en la misma página?
Solo un diseño que cumpla con ambos requisitos puede convertir al navegador en un vehículo estable para que el Agente de IA ejecute tareas.
A continuación, nos centraremos en cinco proyectos muy destacados, incluidos Browser Use, Arc (The Browser Company), Perplexity, Brave y Donut. Estos proyectos representan las futuras direcciones evolutivas de los navegadores de IA y su potencial de integración nativa en los escenarios de Web3 y Crypto.
Uso del navegador
Esta es la lógica central detrás de la gran financiación que han obtenido Perplexity y Browser Use. En particular, Browser Use es la segunda oportunidad de innovación más segura y con potencial de crecimiento que ha surgido en la primera mitad de 2025.
Browser es una capa semántica en el verdadero sentido de la palabra, cuyo núcleo se basa en construir una arquitectura de reconocimiento semántico para la próxima generación de navegadores.
Browser Use transforma el tradicional "DOM = árbol de nodos para humanos" en "DOM semántico = árbol de instrucciones para LLM", permitiendo que los agentes hagan clic, completen y suban información con precisión sin necesidad de "coordenadas de puntos de vista"; esta ruta sustituye el OCR visual o Selenium por "texto estructurado → llamadas a funciones", lo que resulta en una ejecución más rápida, un menor consumo de tokens y menos errores. TechCrunch lo ha llamado "la capa de pegamento que permite a la IA realmente entender las páginas web", y la ronda de financiación semilla de 17 millones de dólares completada en marzo es una apuesta por esta innovación fundamental.
HTML renderiza y forma un árbol DOM estándar; el navegador luego genera un árbol de accesibilidad, proporcionando etiquetas de "rol" y "estado" más ricas para los lectores de pantalla.
Abstractar cada elemento interactivo (como botones, enlaces, etc.) en fragmentos JSON, junto con metadatos como rol, visibilidad, coordenadas, acciones ejecutables, etc.;
Convertir toda la página en una «lista de nodos semánticos» aplanada, para que LLM la lea de una vez en el aviso del sistema;
Recibir instrucciones de alto nivel de la salida de LLM (como click(node_id=「btn-Checkout」)) y reproducirlas en un navegador real. El blog oficial llama a este proceso "convertir la interfaz del sitio web en texto estructurado que LLM puede analizar"
Al mismo tiempo, una vez que este conjunto de estándares sea introducido en W3C, se podrá resolver en gran medida el problema de entrada en los navegadores. Usaremos la carta abierta y el caso de The Browser Company para explicar más a fondo por qué la idea de The Browser Company es errónea.
ARC
La empresa Browser (Arc, matriz de ), declaró en su carta pública que el navegador ARC entrará en una fase de mantenimiento regular, y el equipo centrará su atención en el navegador DIA, completamente orientado a la IA. En la carta también se admitió que aún no se ha determinado la ruta específica para la implementación de DIA. Al mismo tiempo, el equipo presentó varias predicciones sobre el futuro del mercado de navegadores. Basándonos en estas predicciones, creemos que para realmente revolucionar el panorama actual de los navegadores, la clave está en realizar cambios en la salida del lado de la interacción.
A continuación se presentan tres predicciones del equipo de ARC sobre el futuro del mercado de navegadores.
Primero, se considera que las páginas web ya no son la principal interfaz de interacción. No se puede negar que este es un juicio desafiante, y es precisamente por eso que tenemos una actitud reservada hacia los resultados de la reflexión de su fundador. En nuestra opinión, esta perspectiva subestima significativamente el papel del navegador, que es precisamente la cuestión clave que se ha pasado por alto al explorar la ruta del navegador AI.
Los grandes modelos destacan en la captura de intenciones, como entender instrucciones como "ayúdame a reservar un vuelo". Sin embargo, en términos de capacidad de carga de densidad de información, aún son insuficientes. Cuando los usuarios necesitan un cuaderno estilo panel de control o terminal Bloomberg, o un lienzo visual similar a Figma, nada supera a una página web dedicada con precisión a nivel de píxel. Cada producto está diseñado ergonómicamente a medida — gráficos, funciones de arrastrar y soltar, teclas de acceso rápido — no son meros adornos, sino la disponibilidad que comprime la cognición. Estas capacidades no pueden ser soportadas por interacciones simples basadas en diálogos. Tomando como ejemplo Gate.com, si un usuario desea realizar operaciones de inversión, depender únicamente de un diálogo de IA es insuficiente, ya que los usuarios tienen una alta dependencia de la entrada de información, la precisión y la presentación estructurada.
El equipo de RC tiene un sesgo esencial en su concepción del camino, ya que no logra diferenciar claramente que la "interacción" se compone de dos dimensiones: entrada y salida. En el lado de la entrada, su punto de vista tiene cierta razonabilidad en ciertos escenarios, la IA puede de hecho mejorar la eficiencia de la interacción basada en instrucciones; pero en el lado de la salida, este juicio está claramente desbalanceado, ignorando el papel central del navegador en la presentación de información y la experiencia personalizada. Por ejemplo, Reddit tiene su propia forma de diseño y arquitectura de información, mientras que AAVE tiene una interfaz y estructura completamente diferentes. El navegador, como una plataforma que alberga datos altamente privados y puede renderizar interfaces de productos diversos, tiene una capacidad de sustitución limitada en la capa de entrada, y en el lado de la salida, su complejidad y características no estandarizables lo hacen aún más difícil de ser reemplazado. En comparación, los navegadores de IA en el mercado actual se centran más en el nivel de "resumen de salida": resumir páginas web, extraer información, generar conclusiones, lo cual aún no es suficiente para constituir un desafío fundamental a navegadores o sistemas de búsqueda dominantes como Google, y solo están repartiendo la cuota de mercado de resúmenes de búsqueda.
Por lo tanto, lo que realmente puede sacudir la participación de mercado del 66% de Chrome, no será "el siguiente Chrome". Para lograr esta disrupción, es necesario una reestructuración fundamental del modo de renderizado del navegador, para que pueda adaptarse a las demandas de interacción dominadas por agentes de IA en la era inteligente, especialmente en el diseño de la arquitectura del lado de entrada. Es por eso que valoramos más el camino técnico que ha tomado Browser Use — su enfoque está en la transformación estructural de los mecanismos subyacentes del navegador. Una vez que cualquier sistema alcanza la "atomización" o "modularización", su programabilidad y combinabilidad derivadas tendrán un potencial disruptivo extremadamente poderoso, y esa es precisamente la dirección que está promoviendo Browser Use en la actualidad.
En resumen, el funcionamiento del Agente de IA sigue dependiendo en gran medida de la existencia del navegador. El navegador no solo es el principal lugar de almacenamiento de datos complejos y personalizados, sino también la interfaz de renderizado universal para diversas aplicaciones, por lo que continuará siendo la entrada de interacción central en el futuro. A medida que el Agente de IA se incruste profundamente en el navegador para completar tareas fijas, interactuará con los datos del usuario y aplicaciones específicas, es decir, su función principal será en el lado de entrada. Por lo tanto, el modo de renderizado existente del navegador debe innovarse para lograr la máxima compatibilidad y adaptación al Agente de IA, capturando así las aplicaciones de manera más efectiva.
Perplexity
Perplexity es un motor de búsqueda de IA conocido por su sistema de recomendaciones, con una valoración reciente de 14 mil millones de dólares, lo que representa un crecimiento de casi 5 veces respecto a los 3 mil millones de dólares en junio de 2024. Maneja más de 400 millones de consultas de búsqueda al mes, procesando aproximadamente 250 millones de consultas en septiembre de 2024, con un aumento interanual de 8 veces en el volumen de consultas de los usuarios y más de 30 millones de usuarios activos mensuales.
Su principal característica es la capacidad de resumir páginas en tiempo real, lo que le da una ventaja en la obtención de información instantánea. A principios de este año, comenzó a construir su navegador nativo Comet. Perplexity describe el próximo Comet como un navegador que no solo "muestra" páginas web, sino que también puede "pensar" en ellas. La compañía afirma que se integrará profundamente en el navegador el motor de respuestas de Perplexity, siguiendo la filosofía de "máquina completa" al estilo de Jobs: enterrar las tareas de IA en el nivel más bajo del navegador, en lugar de hacer un complemento en la barra lateral. Reemplazando los tradicionales "diez enlaces azules" con respuestas concisas y citadas, compitiendo directamente con Chrome.
Pero aún necesita resolver dos problemas centrales: el alto costo de búsqueda y el bajo margen de beneficio de los usuarios marginales. A pesar de que Perplexity ya está en una posición de liderazgo en el campo de la búsqueda de IA, Google también anunció una reestructuración masiva de su producto principal en la conferencia I/O de 2025. En cuanto a la reestructuración del navegador, Google lanzó una nueva experiencia de pestaña del navegador, llamada AI Model, que integra Overview, Deep Research y las futuras funciones Agentic, y el proyecto en su conjunto se llama "Project Mariner".
Google está llevando a cabo una reestructuración activa de la IA, por lo que es difícil que una mera imitación superficial de funciones, como Overview, DeepResearch o Agentics, realmente represente una amenaza. Lo que realmente podría establecer un nuevo orden en el caos sería la reconstrucción desde la base de la arquitectura del navegador, integrando profundamente modelos de lenguaje grande (LLM) en el núcleo del navegador y logrando una transformación fundamental en la forma de interactuar.
Brave
Brave es el navegador más temprano y exitoso en la industria de Crypto, basado en la arquitectura Chromium, por lo que puede ser compatible con los complementos de Google Store. Su modelo de ganar Tokens a través de la privacidad y la navegación atrae a los usuarios. La trayectoria de desarrollo de Brave muestra en cierta medida su potencial de crecimiento. Sin embargo, desde el punto de vista del producto, aunque la privacidad es importante, su demanda aún se concentra principalmente en un grupo específico de usuarios; para el público en general, la conciencia sobre la privacidad aún no se ha convertido en un factor de decisión principal. Por lo tanto, es poco probable que tenga éxito en intentar desafiar a los gigantes existentes basándose en esta característica.
Hasta la fecha, el número de usuarios activos mensuales de Brave ha alcanzado los 82.7 millones, con 35.6 millones de usuarios activos diarios, y una cuota de mercado de aproximadamente 1%–1.5%. La base de usuarios muestra una tendencia de crecimiento continuo: desde los 6 millones de julio de 2019, aumentando a 25 millones en enero de 2021, alcanzando 57 millones en enero de 2023, y superando los 82 millones en febrero de 2025, manteniendo una tasa de crecimiento anual compuesta en niveles de dos dígitos. Su volumen promedio de búsquedas mensuales es de aproximadamente 1.34 mil millones de consultas, alrededor del 0.3% de Google.
A continuación se presenta la hoja de ruta de iteración de Brave.
Brave está planeando actualizarse a un navegador AI centrado en la privacidad. Sin embargo, debido a su limitada recopilación de datos de usuarios, la personalización del modelo grande es bastante baja, lo que en realidad dificulta lograr una iteración de producto rápida y precisa. En la próxima era del Navegador Agentic, Brave podría mantener una cuota estable entre un grupo de usuarios que valoran la privacidad, pero le será difícil convertirse en un jugador principal. Su asistente AI, Leo, es más parecido a un complemento, mejorando funcionalmente sobre la base del producto existente, teniendo cierta capacidad de resumen de contenido, pero aún no hay una estrategia clara para una transición completa hacia un Agente AI, y la innovación en el aspecto de la interacción sigue siendo insuficiente.
Donut
Recientemente, la industria de Crypto también ha progresado en el campo del navegador Agentic. El proyecto emergente Donut ha obtenido 7 millones de dólares en financiamiento en la ronda Pre-seed, liderada conjuntamente por Sequoia China (Hongshan), HackVC y Bitkraft Ventures. Actualmente, el proyecto todavía se encuentra en la etapa de concepción inicial, con la visión de lograr una capacidad integrada de "exploración - toma de decisiones - ejecución nativa de criptomonedas" (Discovery, Decision-making, and Crypto-native Execution).
El núcleo de esta dirección radica en combinar las rutas de ejecución automatizada nativas de la criptografía. Como predijo a16z, en el futuro se espera que los Agentes reemplacen a los motores de búsqueda como la principal entrada de tráfico, los emprendedores ya no competirán en torno al algoritmo de clasificación de Google, sino que lucharán por el tráfico de visitas y conversiones que generan las ejecuciones de los Agentes. La industria ya ha denominado esta tendencia como "AEO" (Optimización de Respuestas / Motores de Agentes), o incluso más allá como "ATF" (Cumplimiento de Tareas Agénticas), es decir, en lugar de optimizar la clasificación de búsqueda, se trata de servir directamente a modelos inteligentes que pueden completar tareas como hacer pedidos, reservar boletos, escribir cartas, etc.
para emprendedores
Primero, hay que reconocer: el navegador en sí sigue siendo la "entrada total" más grande del mundo de Internet que no ha sido reestructurada. Hay aproximadamente 2.1 mil millones de usuarios de escritorio en todo el mundo y más de 4.3 mil millones en dispositivos móviles; es el portador común de la entrada de datos, el comportamiento interactivo y el almacenamiento de huellas digitales personalizadas. La razón por la que esta forma persiste no es por inercia, sino porque el navegador tiene una propiedad bidireccional natural: es tanto una "entrada de lectura" de datos como una "salida de escritura" de comportamiento.
Por lo tanto, para los emprendedores, la verdadera potencialidad de disrupción no radica en la optimización del nivel de "salida de página". Incluso si se puede implementar una función de resumen similar a la de Google AI en una nueva pestaña, en esencia sigue siendo una iteración a nivel de complemento del navegador y no constituye un cambio paradigmático fundamental. El verdadero punto de ruptura radica en el "lado de entrada" — es decir, cómo hacer que el Agente de IA llame proactivamente a los productos del emprendedor para completar tareas específicas. Esto se convertirá en la clave para que los futuros productos puedan integrarse en el ecosistema de Agentes, obteniendo tráfico y distribución de valor.
En la era de la búsqueda se escribe "clic"; en la era de la agencia se escribe "llamada".
Si eres un emprendedor, considera reinventar tu producto como un componente de API — — para que los agentes no solo puedan "entenderlo", sino también "invocarlo". Esto requiere que desde el inicio del diseño del producto pienses en tres dimensiones:
Uno, estandarización de la estructura de la interfaz: ¿tu producto es "llamable"?
La capacidad de un producto para ser invocado por agentes inteligentes depende de si su estructura de información puede ser estandarizada y abstraída en un esquema claro. Por ejemplo, las operaciones clave como el registro de usuarios, el botón de realizar un pedido, o la presentación de comentarios, ¿se pueden describir mediante una estructura DOM semántica o un mapeo JSON? ¿El sistema proporciona una máquina de estados que permita a los agentes reproducir de manera estable el flujo de comportamiento del usuario? ¿Las interacciones del usuario en la página son compatibles con la restauración mediante scripts? ¿Existen WebHooks o API Endpoints de acceso estable?
Esta es la razón esencial del éxito de financiamiento de Browser Use — — transforma el navegador de HTML renderizado plano a un árbol semántico que puede ser invocado por LLM. Para los emprendedores, introducir conceptos de diseño similares en productos web significa adaptarse estructuralmente a la era de los Agentes de IA.
Dos, identidad y circulación: ¿puedes ayudar al Agente a "superar las barreras de confianza"?
Para que un agente de IA complete una transacción, invoque un pago o activos, necesita algún tipo de capa intermedia confiable: ¿puedes ser tú? Los navegadores pueden leer de forma natural el almacenamiento local, invocar billeteras, reconocer códigos de verificación y acceder a la autenticación de dos factores, que es precisamente la razón por la que son más adecuados para ejecutar que los grandes modelos en la nube. Esto es especialmente cierto en el escenario de Web3: los estándares de interfaz para invocar activos en la cadena no son uniformes, y un agente sin "identidad" o "capacidad de firma" tendrá muchas dificultades.
Así que, para los emprendedores de Crypto, aquí hay un espacio en blanco lleno de imaginación: "MCP (Plataforma de Múltiples Capacidades) del mundo blockchain". Esto puede ser una capa de instrucciones general (que permite a los Agentes invocar Dapp), un conjunto de interfaces de contrato estandarizadas, o incluso algún tipo de billetera ligera + plataforma de identidad que funcione localmente.
Tres, nueva comprensión del mecanismo de tráfico: el futuro no es SEO, es AEO / ATF
Antes tenías que ganarte el favor del algoritmo de Google; ahora necesitas ser integrado en la cadena de tareas por un Agente de IA. Esto significa que el producto debe tener una claridad en la granularidad de la tarea: no es una "página", sino una serie de "unidades de capacidad llamables"; significa que debes comenzar a realizar la optimización de Agentes (AEO) o la adaptación de programación de tareas (ATF): por ejemplo, si el proceso de registro se puede simplificar en pasos estructurados, si los precios se pueden obtener a través de una interfaz, si el inventario se puede consultar en tiempo real;
Incluso tienes que comenzar a adaptar la sintaxis de llamada bajo diferentes marcos de LLM — la preferencia de OpenAI y Claude por las llamadas a funciones y el uso de herramientas no es consistente. Chrome es un terminal hacia el viejo mundo, no una entrada hacia el nuevo mundo. Los verdaderos proyectos empresariales del futuro no son aquellos que recrean un navegador, sino aquellos que hacen que los navegadores existentes sirvan a los Agentes, estableciendo un puente para la nueva generación de "flujos de instrucciones".
Lo que necesitas construir es la "sintaxis de interfaz" para que el Agente llame a tu mundo;
Lo que debes esforzarte por lograr es convertirte en un eslabón de la cadena de confianza de los agentes inteligentes;
Lo que necesitas construir es el "castillo API" en el próximo modo de búsqueda.
Si se dice que Web2 capta la atención del usuario a través de la UI, entonces la era de Web3 + AI Agent se basa en la invocación de la cadena para captar la intención de ejecución del Agente.
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
¿Por qué se dice que la era de los Agentes de IA dará inicio a la tercera guerra de los navegadores?
Autor: Gate Ventures
TL;DR
La tercera guerra de los navegadores se está desarrollando silenciosamente. Al revisar la historia, desde Netscape en la década de 1990, IE de Microsoft, hasta el espíritu de código abierto de Firefox y Chrome de Google, la lucha de los navegadores ha sido una manifestación concentrada del control de la plataforma y el cambio de paradigma tecnológico. Chrome ha ganado la posición de dominio gracias a su velocidad de actualización y la interacción con su ecosistema, mientras que Google, a través de la estructura de "duopolio" entre la búsqueda y el navegador, ha formado un ciclo cerrado de acceso a la información.
Pero hoy, este patrón está siendo sacudido. El auge de los modelos de lenguaje de gran tamaño (LLM) ha llevado a que cada vez más usuarios completen tareas en la página de resultados de búsqueda con "cero clics", lo que reduce el comportamiento tradicional de hacer clic en sitios web. Al mismo tiempo, los rumores de que Apple tiene la intención de reemplazar el motor de búsqueda predeterminado en Safari amenazan aún más la base de ganancias de Alphabet (, la empresa matriz de Google ), y el mercado ha comenzado a mostrar inquietud sobre la "ortodoxia de la búsqueda".
El navegador en sí mismo también se enfrenta a una reconfiguración de su rol. No solo es una herramienta para mostrar páginas web, sino que también es un contenedor de múltiples capacidades como la entrada de datos, el comportamiento del usuario, la identidad de privacidad, entre otros. Aunque el Agente AI es poderoso, para completar interacciones complejas en la página, llamar a datos de identidad locales y controlar elementos de la página web, aún se necesita aprovechar los límites de confianza y el sandbox de funciones del navegador. El navegador está evolucionando de una interfaz humana a una plataforma de llamadas del sistema para Agentes.
En este artículo, exploramos si los navegadores aún tienen una razón de ser, y creemos que lo que realmente podría romper el actual panorama del mercado de navegadores no es otro "Chrome mejor", sino una nueva estructura de interacción: no la presentación de información, sino la invocación de tareas. El futuro de los navegadores debe estar diseñado para el Agente AI — no solo para leer, sino también para escribir y ejecutar. Proyectos como Browser Use están intentando semantizar la estructura de las páginas, convirtiendo la interfaz visual en un texto estructurado que pueda ser llamado por LLM, logrando una gran reducción en los costos de interacción.
Los proyectos principales en el mercado han comenzado a probar: Perplexity ha construido el navegador nativo Comet, utilizando IA en lugar de resultados de búsqueda tradicionales; Brave combina la protección de la privacidad con el razonamiento local, mejorando la búsqueda y las funciones de bloqueo con LLM; y proyectos nativos de Crypto como Donut apuntan a una nueva entrada para la interacción entre IA y activos en la cadena. La característica común de estos proyectos es: intentar reestructurar la entrada del navegador, en lugar de embellecer su capa de salida.
Para los emprendedores, las oportunidades están escondidas en la relación triangular entre entrada, estructura y agente. El navegador, como la interfaz que invoca el mundo del futuro Agent, significa que quien pueda proporcionar "bloques de capacidad" estructurados, invocables y de confianza, podrá convertirse en parte de la nueva generación de plataformas. Desde SEO hasta AEO (Optimización del Motor Agente), desde el tráfico de páginas hasta la invocación de cadenas de tareas, la forma y el diseño del producto están en reestructuración. La tercera guerra de navegadores ocurre en la "entrada" y no en la "exhibición"; lo que determina el resultado ya no es quién capta la atención del usuario, sino quién gana la confianza del Agente y obtiene la entrada a la invocación.
Historia del desarrollo del navegador
A principios de la década de 1990, cuando Internet aún no formaba parte de la vida cotidiana, Netscape Navigator apareció como un barco de vela que abría un nuevo continente, abriendo las puertas al mundo digital para millones de usuarios. Este navegador no fue el primero, pero sí fue el primero en el sentido verdadero de llegar a las masas y dar forma a la experiencia de Internet. En ese momento, las personas podían navegar por las páginas web de manera tan fácil a través de una interfaz gráfica, como si de repente todo el mundo se volviera accesible.
Sin embargo, el esplendor suele ser efímero. Microsoft pronto se dio cuenta de la importancia de los navegadores y decidió forzar la integración de Internet Explorer en el sistema operativo Windows, convirtiéndolo en el navegador predeterminado. Esta estrategia se considera un "asesino de plataformas", ya que desmanteló directamente la posición de dominio de mercado de Netscape. Muchos usuarios no eligieron IE de manera activa, sino que lo aceptaron simplemente porque era la opción predeterminada del sistema. IE, aprovechando la capacidad de distribución de Windows, se convirtió rápidamente en el líder de la industria, mientras que Netscape cayó en una trayectoria de declive.
En medio de la adversidad, los ingenieros de Netscape eligieron un camino radical e idealista — decidieron hacer público el código fuente del navegador, lanzando un llamado a la comunidad de código abierto. Esta decisión fue como una "cesión macedónica" en el mundo tecnológico, presagiando el final de una era y el surgimiento de nuevas fuerzas. Este código más tarde se convirtió en la base del proyecto del navegador Mozilla, que inicialmente fue nombrado Phoenix (que significa renacimiento del fénix), pero debido a problemas de marca pasó por varios cambios de nombre, hasta que finalmente se llamó Firefox.
Firefox no es una simple copia de Netscape, ha logrado múltiples avances en la experiencia del usuario, el ecosistema de complementos, la seguridad, entre otros. Su nacimiento marca la victoria del espíritu de código abierto, inyectando nueva vitalidad a toda la industria. Algunos describen a Firefox como el "heredero espiritual" de Netscape, así como el Imperio Otomano heredó el resplandor de Bizancio. Esta metáfora, aunque exagerada, es bastante significativa.
Pero años antes del lanzamiento oficial de Firefox, Microsoft ya había lanzado seis versiones de IE, aprovechando la ventaja temporal y la estrategia de empaquetado del sistema, lo que hizo que Firefox comenzara en una posición de desventaja, lo que significa que esta competencia no era una competencia justa desde la línea de salida.
Mientras tanto, otro jugador temprano también ha hecho su aparición silenciosa. En 1994, se lanzó el navegador Opera, que proviene de Noruega y al principio era solo un proyecto experimental. Pero desde la versión 7.0 en 2003, introdujo su motor Presto desarrollado internamente, siendo el primero en soportar tecnologías de vanguardia como CSS, diseño adaptable, control por voz y codificación Unicode. Aunque el número de usuarios es limitado, tecnológicamente siempre ha estado a la vanguardia de la industria, convirtiéndose en "el favorito de los geeks".
Ese mismo año, Apple lanzó el navegador Safari. Este fue un giro significativo. En ese momento, Microsoft había invertido 150 millones de dólares en Apple, que estaba al borde de la quiebra, para mantener la apariencia de competencia y evitar una revisión antimonopolio. Aunque el motor de búsqueda predeterminado de Safari desde su creación es Google, esta historia de complicidad con Microsoft simboliza la relación compleja y sutil entre los gigantes de Internet: la cooperación y la competencia siempre van de la mano.
En 2007, IE7 se lanzó con Windows Vista, pero la respuesta del mercado fue tibia. En cambio, Firefox, gracias a su ritmo de actualizaciones más rápido, un mecanismo de extensiones más amigable y su atractivo natural para los desarrolladores, vio cómo su cuota de mercado aumentaba de manera constante hasta alcanzar aproximadamente el 20%. El dominio de IE comenzó a desvanecerse, y la dirección del mercado estaba cambiando.
Google tiene un enfoque diferente. Aunque comenzó a desarrollar su propio navegador en 2001, le tomó seis años convencer al CEO Eric Schmidt para aprobar el proyecto. Chrome se lanzó en 2008, construido sobre el proyecto de código abierto Chromium y el motor WebKit utilizado por Safari. Se le apodó el navegador "pesado", pero gracias a la sólida habilidad de Google en la publicidad y la creación de marcas, rápidamente se elevó.
El arma clave de Chrome no son sus funciones, sino su ritmo frecuente de actualizaciones de versiones (una cada seis semanas) y una experiencia unificada en todas las plataformas. En noviembre de 2011, Chrome superó por primera vez a Firefox, alcanzando una cuota de mercado del 27%; seis meses después, volvió a superar a IE, completando la transformación de retador a dominador.
Al mismo tiempo, el internet móvil de China también está formando su propio ecosistema. El navegador UC de Alibaba se volvió muy popular a principios de la década de 2010, especialmente en mercados emergentes como India, Indonesia y China, ganándose la preferencia de los usuarios de dispositivos de gama baja gracias a su diseño liviano y características como la compresión de datos para ahorrar tráfico. En 2015, su cuota de mercado global de navegadores móviles superó el 17%, alcanzando en India un máximo del 46%. Pero esta victoria no fue duradera. Con el gobierno de India intensificando la revisión de seguridad de las aplicaciones chinas, el navegador UC se vio obligado a salir de un mercado clave, perdiendo gradualmente su antiguo esplendor.
Entrando en la década de 2020, el dominio de Chrome ya está establecido, con una participación de mercado global estabilizada en alrededor del 65%. Es notable que, aunque el motor de búsqueda de Google y el navegador Chrome pertenecen a Alphabet, desde el punto de vista del mercado son dos sistemas hegemónicos independientes — el primero controla alrededor del noventa por ciento de las entradas de búsqueda globales, mientras que el segundo tiene la mayoría de los usuarios accediendo a la red a través de la "primera ventana".
Para mantener esta estructura de doble monopolio, Google no escatima en gastos. En 2022, Alphabet pagó alrededor de 20 mil millones de dólares a Apple solo para que Google mantuviera su posición de búsqueda predeterminada en Safari. Algunos análisis señalan que este gasto equivale al 36% de los ingresos por publicidad de búsqueda que Google obtiene del tráfico de Safari. En otras palabras, Google está pagando una "tarifa de protección" por su foso.
Pero la dirección del viento ha cambiado una vez más. Con el auge de los modelos de lenguaje de gran tamaño (LLM), la búsqueda tradicional comienza a verse afectada. En 2024, la participación de mercado de búsqueda de Google cayó del 93% al 89%; aunque sigue dominando, las fisuras comienzan a aparecer. Lo que es más disruptivo son los rumores de que Apple podría lanzar su propio motor de búsqueda de IA — si Safari cambia su búsqueda predeterminada a su propio ecosistema, esto no solo reescribirá el panorama ecológico, sino que también podría sacudir el pilar de ganancias de Alphabet. La reacción del mercado fue rápida, y las acciones de Alphabet cayeron de 170 dólares a 140 dólares, reflejando no solo el pánico de los inversores, sino también una profunda inquietud sobre la dirección futura de la era de búsqueda.
Desde Navigator hasta Chrome, desde ideales de código abierto hasta la comercialización de la publicidad, desde navegadores ligeros hasta asistentes de búsqueda AI, la lucha por los navegadores ha sido siempre una guerra sobre tecnología, plataformas, contenido y control. El campo de batalla se desplaza constantemente, pero la esencia nunca cambia: quien controla la entrada, define el futuro.
En la visión de los VC, apoyándose en la nueva demanda de las personas hacia los motores de búsqueda en la era de LLM y AI, la tercera guerra de navegadores está comenzando a desarrollarse gradualmente. A continuación se presenta la situación de financiamiento de algunos proyectos conocidos en la carrera de navegadores AI.
Arquitectura anticuada de los navegadores modernos
Al hablar de la arquitectura del navegador, la arquitectura tradicional clásica se muestra en la siguiente figura:
Cliente — Entrada del front-end
Consulta el Google Front End más cercano a través de HTTPS, completa la descifrado TLS, muestreo QoS y enrutamiento geográfico. Si se detecta tráfico anómalo (DDoS, scraping automático), se puede aplicar limitación o desafío en esta capa.
Consulta de comprensión
El frontend necesita entender el significado de las palabras que el usuario escribe, y hay tres pasos: corrección de ortografía neuronal, corrigiendo "recpie" a "recipe"; expansión de sinónimos, expandiendo "how to fix bike" a "repair bicycle". Análisis de intención, determinando si la consulta es de información, navegación o intención de transacción, y asignando la solicitud vertical.
Recuperación de candidatos
La tecnología de consulta utilizada por Google se llama: índice invertido. En el índice directo, se puede indexar un archivo dado un ID. Sin embargo, los usuarios no pueden conocer el número de contenido que desean entre miles de millones de archivos, por lo que se utiliza el tradicional índice invertido, que permite consultar qué archivos contienen la palabra clave correspondiente. A continuación, Google utiliza índices vectoriales para manejar la búsqueda semántica, es decir, para encontrar contenido que sea semánticamente similar a la consulta. Convierte texto, imágenes y otros contenidos en vectores de alta dimensión (embedding) y realiza búsquedas basadas en la similitud entre estos vectores. Por ejemplo, incluso si un usuario busca "cómo hacer masa de pizza", el motor de búsqueda puede devolver resultados relacionados con "guía para hacer masa de pizza", porque son semánticamente similares. Después de pasar por el índice invertido y el índice vectorial, se filtran alrededor de cien mil páginas web.
Ordenación múltiple
Los sistemas suelen filtrar miles de características ligeras de miles de dimensiones, como BM25, TF-IDF, y la puntuación de calidad de la página, reduciendo un millón de páginas candidatas a unas 1000, formando así un conjunto de candidatos preliminares. Estos sistemas se denominan comúnmente motores de recomendación. Dependen de una gran cantidad de características generadas por diversas entidades, incluyendo el comportamiento del usuario, las propiedades de la página, la intención de la consulta y las señales contextuales. Por ejemplo, Google considera la historia del usuario, la retroalimentación del comportamiento de otros usuarios, la semántica de la página, el significado de la consulta, entre otros, así como factores contextuales, como el tiempo (hora del día, días específicos de la semana) y eventos externos como noticias de última hora.
Clasificación principal mediante aprendizaje profundo
En la fase de búsqueda inicial, Google utiliza tecnologías como RankBrain y Neural Matching para comprender el significado de las consultas y filtrar los resultados preliminarmente relevantes de una gran cantidad de documentos. RankBrain es un sistema de aprendizaje automático que Google introdujo en 2015, diseñado para comprender mejor el significado de las consultas de los usuarios, especialmente las consultas que aparecen por primera vez. Convierten las consultas y los documentos en representaciones vectoriales y calculan la similitud entre ellos para encontrar los resultados más relevantes. Por ejemplo, para la consulta "cómo hacer masa de pizza", incluso si no hay palabras clave que coincidan exactamente en el documento, RankBrain puede identificar contenido relacionado con "base de pizza" o "preparación de masa".
Neural Matching es otra tecnología que Google lanzó en 2018, diseñada para comprender más profundamente la relación semántica entre las consultas y los documentos. Utiliza modelos de redes neuronales para capturar las relaciones difusas entre las palabras, ayudando a Google a igualar mejor las consultas y el contenido de las páginas web. Por ejemplo, para la consulta "¿por qué el ventilador de mi computadora portátil es muy ruidoso?", Neural Matching puede entender que el usuario podría estar buscando información de solución de problemas sobre sobrecalentamiento, acumulación de polvo o alta utilización de CPU, incluso si estas palabras no aparecen directamente en la consulta.
Reordenamiento profundo: Aplicación del modelo BERT
Después de una selección preliminar de los documentos relevantes, Google utiliza el modelo BERT (Representaciones de Codificador Bidireccional a partir de Transformadores) para clasificar estos documentos de manera más precisa, asegurando que los resultados más relevantes aparezcan primero. BERT es un modelo de lenguaje preentrenado basado en Transformer, capaz de entender las relaciones contextuales de las palabras dentro de las oraciones. En la búsqueda, BERT se utiliza para reordenar los documentos que se han recuperado inicialmente. Calcula la puntuación de relevancia entre la consulta y los documentos mediante la codificación conjunta, reordenando así los documentos. Por ejemplo, para la consulta "estacionar en una pendiente sin borde", BERT puede entender el significado de "sin borde" y devolver páginas que sugieren a los conductores dirigir las ruedas hacia el borde de la carretera, en lugar de malinterpretarlo como una situación con borde. Para los ingenieros de SEO, esto significa que necesitan aprender con precisión sobre la clasificación de Google y los algoritmos de recomendación de aprendizaje automático, para optimizar de manera específica el contenido de las páginas web y obtener una mayor visibilidad en las clasificaciones.
Lo anterior es el flujo de trabajo típico de un motor de búsqueda de Google. Sin embargo, en la actual era de explosión de la IA y los grandes datos, los usuarios han generado nuevas demandas sobre la interacción con los navegadores.
¿Por qué la IA transformará los navegadores?
Primero necesitamos aclarar por qué existe aún esta forma de navegador. ¿Hay una tercera forma, además de los agentes de inteligencia artificial y de los navegadores, que sea una opción?
Creemos que lo que existe no puede ser reemplazado. ¿Por qué la inteligencia artificial puede usar navegadores, pero no puede reemplazarlos por completo? Porque los navegadores son plataformas universales, no solo son una entrada para leer datos, sino también una entrada universal para ingresar datos. Este mundo no puede tener solo entrada de información, también debe generar datos e interactuar con los sitios web, por lo que los navegadores que integran información de usuario personalizada seguirán existiendo ampliamente.
Aprovechamos este punto: el navegador como entrada universal, no solo se utiliza para leer datos, los usuarios a menudo también necesitan interactuar con los datos. El navegador en sí es un lugar ideal para almacenar las huellas dactilares de los usuarios. Comportamientos de usuario más complejos y comportamientos automatizados deben llevarse a cabo a través del navegador. El navegador puede almacenar todas las huellas dactilares de comportamiento de los usuarios, pasaportes y otra información privada, realizando llamadas sin necesidad de confianza durante el proceso de automatización. Y las acciones de interacción con los datos pueden evolucionar a:
Usuario → Llamar a AI Agent → Navegador.
Es decir, la única parte que podría ser reemplazada es la dirección que se ajusta a la tendencia de evolución del mundo — — más inteligente, más personalizada y más automatizada. Ciertamente, esta parte puede ser manejada por un AI Agent, pero el AI Agent en sí mismo no es un lugar adecuado para albergar contenido personalizado de los usuarios, ya que enfrenta múltiples desafíos en términos de seguridad de datos y conveniencia. En concreto:
El navegador es un lugar de almacenamiento de contenido personalizado:
transformación profunda de la forma de interacción
Volviendo al tema que discutíamos al principio, el comportamiento de los usuarios en el navegador se puede clasificar en tres formas: lectura de datos, entrada de datos e interacción con datos. Los modelos de lenguaje de inteligencia artificial (LLM) han cambiado profundamente nuestra eficiencia y forma de leer datos; en el pasado, el comportamiento de los usuarios que buscaban páginas web basándose en palabras clave parecía muy anticuado e ineficiente.
La evolución del comportamiento de búsqueda de los usuarios — ¿es obtener respuestas resumidas o hacer clic en páginas web? Ya se han realizado numerosos estudios para analizarlo.
En términos de los patrones de comportamiento de los usuarios, un estudio de 2024 muestra que en Estados Unidos, de cada 1,000 consultas en Google, solo 374 resultan en clics en páginas abiertas. En otras palabras, casi el 63% pertenece al comportamiento de "cero clics". Los usuarios tienden a obtener información sobre el clima, tasas de cambio, tarjetas de conocimiento, etc., directamente desde la página de resultados de búsqueda.
En términos psicológicos de los usuarios, una encuesta de 2023 indicó que el 44% de los encuestados considera que los resultados naturales regulares son más confiables que los fragmentos destacados. La investigación académica también ha encontrado que, en temas controvertidos o sin una verdad unificada, los usuarios prefieren las páginas de resultados que incluyen enlaces de múltiples fuentes.
Es decir, hay una parte de los usuarios que no confían mucho en los resúmenes de IA, pero también hay una proporción considerable de comportamientos de usuarios que ya se han desplazado hacia el "cero clic". Por lo tanto, el navegador de IA todavía necesita explorar una forma de interacción adecuada — especialmente en la parte de lectura de datos, ya que el "problema de alucinación" (hallucination) del modelo grande aún no se ha erradicado, y muchos usuarios todavía tienen dificultades para confiar completamente en los resúmenes de contenido generados automáticamente. En este sentido, si se incorpora un modelo grande al navegador, en realidad no es necesario realizar una transformación disruptiva del navegador, solo es necesario resolver de manera gradual la precisión y la controlabilidad del modelo, y esta mejora también se está impulsando continuamente.
Y lo que realmente podría desencadenar una transformación masiva en los navegadores es la capa de interacción de datos. En el pasado, las personas completaban la interacción ingresando palabras clave — este es el límite que los navegadores pueden entender. Pero ahora, los usuarios tienden cada vez más a utilizar un párrafo completo de lenguaje natural para describir tareas complejas, como:
Estas acciones, incluso para los humanos, requieren una gran cantidad de tiempo para acceder a múltiples sitios web, recopilar y comparar datos. Pero estas Tareas Agentes están siendo gradualmente asumidas por Agentes de IA.
Esto también coincide con la dirección de la evolución histórica: automatización e inteligencia. La gente anhela liberar sus manos, y el Agente de IA sin duda se integrará profundamente en el navegador. El navegador del futuro debe estar diseñado para la automatización total, especialmente considerando:
Solo un diseño que cumpla con ambos requisitos puede convertir al navegador en un vehículo estable para que el Agente de IA ejecute tareas.
A continuación, nos centraremos en cinco proyectos muy destacados, incluidos Browser Use, Arc (The Browser Company), Perplexity, Brave y Donut. Estos proyectos representan las futuras direcciones evolutivas de los navegadores de IA y su potencial de integración nativa en los escenarios de Web3 y Crypto.
Uso del navegador
Esta es la lógica central detrás de la gran financiación que han obtenido Perplexity y Browser Use. En particular, Browser Use es la segunda oportunidad de innovación más segura y con potencial de crecimiento que ha surgido en la primera mitad de 2025.
Browser es una capa semántica en el verdadero sentido de la palabra, cuyo núcleo se basa en construir una arquitectura de reconocimiento semántico para la próxima generación de navegadores.
Browser Use transforma el tradicional "DOM = árbol de nodos para humanos" en "DOM semántico = árbol de instrucciones para LLM", permitiendo que los agentes hagan clic, completen y suban información con precisión sin necesidad de "coordenadas de puntos de vista"; esta ruta sustituye el OCR visual o Selenium por "texto estructurado → llamadas a funciones", lo que resulta en una ejecución más rápida, un menor consumo de tokens y menos errores. TechCrunch lo ha llamado "la capa de pegamento que permite a la IA realmente entender las páginas web", y la ronda de financiación semilla de 17 millones de dólares completada en marzo es una apuesta por esta innovación fundamental.
HTML renderiza y forma un árbol DOM estándar; el navegador luego genera un árbol de accesibilidad, proporcionando etiquetas de "rol" y "estado" más ricas para los lectores de pantalla.
Al mismo tiempo, una vez que este conjunto de estándares sea introducido en W3C, se podrá resolver en gran medida el problema de entrada en los navegadores. Usaremos la carta abierta y el caso de The Browser Company para explicar más a fondo por qué la idea de The Browser Company es errónea.
ARC
La empresa Browser (Arc, matriz de ), declaró en su carta pública que el navegador ARC entrará en una fase de mantenimiento regular, y el equipo centrará su atención en el navegador DIA, completamente orientado a la IA. En la carta también se admitió que aún no se ha determinado la ruta específica para la implementación de DIA. Al mismo tiempo, el equipo presentó varias predicciones sobre el futuro del mercado de navegadores. Basándonos en estas predicciones, creemos que para realmente revolucionar el panorama actual de los navegadores, la clave está en realizar cambios en la salida del lado de la interacción.
A continuación se presentan tres predicciones del equipo de ARC sobre el futuro del mercado de navegadores.
Primero, se considera que las páginas web ya no son la principal interfaz de interacción. No se puede negar que este es un juicio desafiante, y es precisamente por eso que tenemos una actitud reservada hacia los resultados de la reflexión de su fundador. En nuestra opinión, esta perspectiva subestima significativamente el papel del navegador, que es precisamente la cuestión clave que se ha pasado por alto al explorar la ruta del navegador AI.
Los grandes modelos destacan en la captura de intenciones, como entender instrucciones como "ayúdame a reservar un vuelo". Sin embargo, en términos de capacidad de carga de densidad de información, aún son insuficientes. Cuando los usuarios necesitan un cuaderno estilo panel de control o terminal Bloomberg, o un lienzo visual similar a Figma, nada supera a una página web dedicada con precisión a nivel de píxel. Cada producto está diseñado ergonómicamente a medida — gráficos, funciones de arrastrar y soltar, teclas de acceso rápido — no son meros adornos, sino la disponibilidad que comprime la cognición. Estas capacidades no pueden ser soportadas por interacciones simples basadas en diálogos. Tomando como ejemplo Gate.com, si un usuario desea realizar operaciones de inversión, depender únicamente de un diálogo de IA es insuficiente, ya que los usuarios tienen una alta dependencia de la entrada de información, la precisión y la presentación estructurada.
El equipo de RC tiene un sesgo esencial en su concepción del camino, ya que no logra diferenciar claramente que la "interacción" se compone de dos dimensiones: entrada y salida. En el lado de la entrada, su punto de vista tiene cierta razonabilidad en ciertos escenarios, la IA puede de hecho mejorar la eficiencia de la interacción basada en instrucciones; pero en el lado de la salida, este juicio está claramente desbalanceado, ignorando el papel central del navegador en la presentación de información y la experiencia personalizada. Por ejemplo, Reddit tiene su propia forma de diseño y arquitectura de información, mientras que AAVE tiene una interfaz y estructura completamente diferentes. El navegador, como una plataforma que alberga datos altamente privados y puede renderizar interfaces de productos diversos, tiene una capacidad de sustitución limitada en la capa de entrada, y en el lado de la salida, su complejidad y características no estandarizables lo hacen aún más difícil de ser reemplazado. En comparación, los navegadores de IA en el mercado actual se centran más en el nivel de "resumen de salida": resumir páginas web, extraer información, generar conclusiones, lo cual aún no es suficiente para constituir un desafío fundamental a navegadores o sistemas de búsqueda dominantes como Google, y solo están repartiendo la cuota de mercado de resúmenes de búsqueda.
Por lo tanto, lo que realmente puede sacudir la participación de mercado del 66% de Chrome, no será "el siguiente Chrome". Para lograr esta disrupción, es necesario una reestructuración fundamental del modo de renderizado del navegador, para que pueda adaptarse a las demandas de interacción dominadas por agentes de IA en la era inteligente, especialmente en el diseño de la arquitectura del lado de entrada. Es por eso que valoramos más el camino técnico que ha tomado Browser Use — su enfoque está en la transformación estructural de los mecanismos subyacentes del navegador. Una vez que cualquier sistema alcanza la "atomización" o "modularización", su programabilidad y combinabilidad derivadas tendrán un potencial disruptivo extremadamente poderoso, y esa es precisamente la dirección que está promoviendo Browser Use en la actualidad.
En resumen, el funcionamiento del Agente de IA sigue dependiendo en gran medida de la existencia del navegador. El navegador no solo es el principal lugar de almacenamiento de datos complejos y personalizados, sino también la interfaz de renderizado universal para diversas aplicaciones, por lo que continuará siendo la entrada de interacción central en el futuro. A medida que el Agente de IA se incruste profundamente en el navegador para completar tareas fijas, interactuará con los datos del usuario y aplicaciones específicas, es decir, su función principal será en el lado de entrada. Por lo tanto, el modo de renderizado existente del navegador debe innovarse para lograr la máxima compatibilidad y adaptación al Agente de IA, capturando así las aplicaciones de manera más efectiva.
Perplexity
Perplexity es un motor de búsqueda de IA conocido por su sistema de recomendaciones, con una valoración reciente de 14 mil millones de dólares, lo que representa un crecimiento de casi 5 veces respecto a los 3 mil millones de dólares en junio de 2024. Maneja más de 400 millones de consultas de búsqueda al mes, procesando aproximadamente 250 millones de consultas en septiembre de 2024, con un aumento interanual de 8 veces en el volumen de consultas de los usuarios y más de 30 millones de usuarios activos mensuales.
Su principal característica es la capacidad de resumir páginas en tiempo real, lo que le da una ventaja en la obtención de información instantánea. A principios de este año, comenzó a construir su navegador nativo Comet. Perplexity describe el próximo Comet como un navegador que no solo "muestra" páginas web, sino que también puede "pensar" en ellas. La compañía afirma que se integrará profundamente en el navegador el motor de respuestas de Perplexity, siguiendo la filosofía de "máquina completa" al estilo de Jobs: enterrar las tareas de IA en el nivel más bajo del navegador, en lugar de hacer un complemento en la barra lateral. Reemplazando los tradicionales "diez enlaces azules" con respuestas concisas y citadas, compitiendo directamente con Chrome.
Pero aún necesita resolver dos problemas centrales: el alto costo de búsqueda y el bajo margen de beneficio de los usuarios marginales. A pesar de que Perplexity ya está en una posición de liderazgo en el campo de la búsqueda de IA, Google también anunció una reestructuración masiva de su producto principal en la conferencia I/O de 2025. En cuanto a la reestructuración del navegador, Google lanzó una nueva experiencia de pestaña del navegador, llamada AI Model, que integra Overview, Deep Research y las futuras funciones Agentic, y el proyecto en su conjunto se llama "Project Mariner".
Google está llevando a cabo una reestructuración activa de la IA, por lo que es difícil que una mera imitación superficial de funciones, como Overview, DeepResearch o Agentics, realmente represente una amenaza. Lo que realmente podría establecer un nuevo orden en el caos sería la reconstrucción desde la base de la arquitectura del navegador, integrando profundamente modelos de lenguaje grande (LLM) en el núcleo del navegador y logrando una transformación fundamental en la forma de interactuar.
Brave
Brave es el navegador más temprano y exitoso en la industria de Crypto, basado en la arquitectura Chromium, por lo que puede ser compatible con los complementos de Google Store. Su modelo de ganar Tokens a través de la privacidad y la navegación atrae a los usuarios. La trayectoria de desarrollo de Brave muestra en cierta medida su potencial de crecimiento. Sin embargo, desde el punto de vista del producto, aunque la privacidad es importante, su demanda aún se concentra principalmente en un grupo específico de usuarios; para el público en general, la conciencia sobre la privacidad aún no se ha convertido en un factor de decisión principal. Por lo tanto, es poco probable que tenga éxito en intentar desafiar a los gigantes existentes basándose en esta característica.
Hasta la fecha, el número de usuarios activos mensuales de Brave ha alcanzado los 82.7 millones, con 35.6 millones de usuarios activos diarios, y una cuota de mercado de aproximadamente 1%–1.5%. La base de usuarios muestra una tendencia de crecimiento continuo: desde los 6 millones de julio de 2019, aumentando a 25 millones en enero de 2021, alcanzando 57 millones en enero de 2023, y superando los 82 millones en febrero de 2025, manteniendo una tasa de crecimiento anual compuesta en niveles de dos dígitos. Su volumen promedio de búsquedas mensuales es de aproximadamente 1.34 mil millones de consultas, alrededor del 0.3% de Google.
A continuación se presenta la hoja de ruta de iteración de Brave.
Brave está planeando actualizarse a un navegador AI centrado en la privacidad. Sin embargo, debido a su limitada recopilación de datos de usuarios, la personalización del modelo grande es bastante baja, lo que en realidad dificulta lograr una iteración de producto rápida y precisa. En la próxima era del Navegador Agentic, Brave podría mantener una cuota estable entre un grupo de usuarios que valoran la privacidad, pero le será difícil convertirse en un jugador principal. Su asistente AI, Leo, es más parecido a un complemento, mejorando funcionalmente sobre la base del producto existente, teniendo cierta capacidad de resumen de contenido, pero aún no hay una estrategia clara para una transición completa hacia un Agente AI, y la innovación en el aspecto de la interacción sigue siendo insuficiente.
Donut
Recientemente, la industria de Crypto también ha progresado en el campo del navegador Agentic. El proyecto emergente Donut ha obtenido 7 millones de dólares en financiamiento en la ronda Pre-seed, liderada conjuntamente por Sequoia China (Hongshan), HackVC y Bitkraft Ventures. Actualmente, el proyecto todavía se encuentra en la etapa de concepción inicial, con la visión de lograr una capacidad integrada de "exploración - toma de decisiones - ejecución nativa de criptomonedas" (Discovery, Decision-making, and Crypto-native Execution).
El núcleo de esta dirección radica en combinar las rutas de ejecución automatizada nativas de la criptografía. Como predijo a16z, en el futuro se espera que los Agentes reemplacen a los motores de búsqueda como la principal entrada de tráfico, los emprendedores ya no competirán en torno al algoritmo de clasificación de Google, sino que lucharán por el tráfico de visitas y conversiones que generan las ejecuciones de los Agentes. La industria ya ha denominado esta tendencia como "AEO" (Optimización de Respuestas / Motores de Agentes), o incluso más allá como "ATF" (Cumplimiento de Tareas Agénticas), es decir, en lugar de optimizar la clasificación de búsqueda, se trata de servir directamente a modelos inteligentes que pueden completar tareas como hacer pedidos, reservar boletos, escribir cartas, etc.
para emprendedores
Primero, hay que reconocer: el navegador en sí sigue siendo la "entrada total" más grande del mundo de Internet que no ha sido reestructurada. Hay aproximadamente 2.1 mil millones de usuarios de escritorio en todo el mundo y más de 4.3 mil millones en dispositivos móviles; es el portador común de la entrada de datos, el comportamiento interactivo y el almacenamiento de huellas digitales personalizadas. La razón por la que esta forma persiste no es por inercia, sino porque el navegador tiene una propiedad bidireccional natural: es tanto una "entrada de lectura" de datos como una "salida de escritura" de comportamiento.
Por lo tanto, para los emprendedores, la verdadera potencialidad de disrupción no radica en la optimización del nivel de "salida de página". Incluso si se puede implementar una función de resumen similar a la de Google AI en una nueva pestaña, en esencia sigue siendo una iteración a nivel de complemento del navegador y no constituye un cambio paradigmático fundamental. El verdadero punto de ruptura radica en el "lado de entrada" — es decir, cómo hacer que el Agente de IA llame proactivamente a los productos del emprendedor para completar tareas específicas. Esto se convertirá en la clave para que los futuros productos puedan integrarse en el ecosistema de Agentes, obteniendo tráfico y distribución de valor.
En la era de la búsqueda se escribe "clic"; en la era de la agencia se escribe "llamada".
Si eres un emprendedor, considera reinventar tu producto como un componente de API — — para que los agentes no solo puedan "entenderlo", sino también "invocarlo". Esto requiere que desde el inicio del diseño del producto pienses en tres dimensiones:
Uno, estandarización de la estructura de la interfaz: ¿tu producto es "llamable"?
La capacidad de un producto para ser invocado por agentes inteligentes depende de si su estructura de información puede ser estandarizada y abstraída en un esquema claro. Por ejemplo, las operaciones clave como el registro de usuarios, el botón de realizar un pedido, o la presentación de comentarios, ¿se pueden describir mediante una estructura DOM semántica o un mapeo JSON? ¿El sistema proporciona una máquina de estados que permita a los agentes reproducir de manera estable el flujo de comportamiento del usuario? ¿Las interacciones del usuario en la página son compatibles con la restauración mediante scripts? ¿Existen WebHooks o API Endpoints de acceso estable?
Esta es la razón esencial del éxito de financiamiento de Browser Use — — transforma el navegador de HTML renderizado plano a un árbol semántico que puede ser invocado por LLM. Para los emprendedores, introducir conceptos de diseño similares en productos web significa adaptarse estructuralmente a la era de los Agentes de IA.
Dos, identidad y circulación: ¿puedes ayudar al Agente a "superar las barreras de confianza"?
Para que un agente de IA complete una transacción, invoque un pago o activos, necesita algún tipo de capa intermedia confiable: ¿puedes ser tú? Los navegadores pueden leer de forma natural el almacenamiento local, invocar billeteras, reconocer códigos de verificación y acceder a la autenticación de dos factores, que es precisamente la razón por la que son más adecuados para ejecutar que los grandes modelos en la nube. Esto es especialmente cierto en el escenario de Web3: los estándares de interfaz para invocar activos en la cadena no son uniformes, y un agente sin "identidad" o "capacidad de firma" tendrá muchas dificultades.
Así que, para los emprendedores de Crypto, aquí hay un espacio en blanco lleno de imaginación: "MCP (Plataforma de Múltiples Capacidades) del mundo blockchain". Esto puede ser una capa de instrucciones general (que permite a los Agentes invocar Dapp), un conjunto de interfaces de contrato estandarizadas, o incluso algún tipo de billetera ligera + plataforma de identidad que funcione localmente.
Tres, nueva comprensión del mecanismo de tráfico: el futuro no es SEO, es AEO / ATF
Antes tenías que ganarte el favor del algoritmo de Google; ahora necesitas ser integrado en la cadena de tareas por un Agente de IA. Esto significa que el producto debe tener una claridad en la granularidad de la tarea: no es una "página", sino una serie de "unidades de capacidad llamables"; significa que debes comenzar a realizar la optimización de Agentes (AEO) o la adaptación de programación de tareas (ATF): por ejemplo, si el proceso de registro se puede simplificar en pasos estructurados, si los precios se pueden obtener a través de una interfaz, si el inventario se puede consultar en tiempo real;
Incluso tienes que comenzar a adaptar la sintaxis de llamada bajo diferentes marcos de LLM — la preferencia de OpenAI y Claude por las llamadas a funciones y el uso de herramientas no es consistente. Chrome es un terminal hacia el viejo mundo, no una entrada hacia el nuevo mundo. Los verdaderos proyectos empresariales del futuro no son aquellos que recrean un navegador, sino aquellos que hacen que los navegadores existentes sirvan a los Agentes, estableciendo un puente para la nueva generación de "flujos de instrucciones".
Si se dice que Web2 capta la atención del usuario a través de la UI, entonces la era de Web3 + AI Agent se basa en la invocación de la cadena para captar la intención de ejecución del Agente.