Cuộc chiến trình duyệt lần thứ ba đang âm thầm diễn ra. Nhìn lại lịch sử, từ Netscape của những năm 90, IE của Microsoft, đến Firefox với tinh thần mã nguồn mở và Chrome của Google, cuộc chiến trình duyệt luôn là biểu hiện tập trung của quyền kiểm soát nền tảng và sự chuyển biến trong các mô hình công nghệ. Chrome đã chiếm được vị trí thống trị nhờ tốc độ cập nhật và sự kết nối hệ sinh thái, trong khi Google thông qua cấu trúc "đôi độc quyền" giữa tìm kiếm và trình duyệt, đã hình thành một vòng khép kín thông tin.
Nhưng hôm nay, cấu trúc này đang lung lay. Sự trỗi dậy của các mô hình ngôn ngữ lớn (LLM) khiến ngày càng nhiều người dùng hoàn thành nhiệm vụ trên trang kết quả tìm kiếm mà không cần nhấp chuột, hành vi nhấp chuột vào trang web truyền thống đang giảm. Đồng thời, tin đồn rằng Apple có ý định thay thế công cụ tìm kiếm mặc định trong Safari càng làm tăng mối đe dọa đối với Alphabet (, công ty mẹ của Google ), cơ sở lợi nhuận của họ, thị trường đã bắt đầu thể hiện sự bất an đối với "chính thống tìm kiếm".
Trình duyệt cũng đang đối mặt với việc tái định hình vai trò. Nó không chỉ là công cụ hiển thị trang web, mà còn là một tập hợp container cho nhiều khả năng như nhập dữ liệu, hành vi người dùng, nhận dạng riêng tư, v.v. Mặc dù AI Agent rất mạnh, nhưng để hoàn thành các tương tác trang phức tạp, gọi dữ liệu danh tính cục bộ, kiểm soát các phần tử trang web, vẫn cần nhờ đến ranh giới tin cậy và sandbox chức năng của trình duyệt. Trình duyệt đang chuyển từ giao diện con người thành nền tảng gọi hệ thống cho Agent.
Trong bài viết này, chúng tôi đã khám phá xem liệu trình duyệt có còn cần thiết hay không, đồng thời chúng tôi cho rằng điều thực sự có thể phá vỡ cấu trúc thị trường trình duyệt hiện tại không phải là một "Chrome tốt hơn", mà là một cấu trúc tương tác mới: không phải là việc hiển thị thông tin, mà là việc gọi nhiệm vụ. Trình duyệt tương lai cần được thiết kế cho AI Agent - không chỉ có thể đọc, mà còn có thể viết và thực thi. Các dự án như Browser Use đang cố gắng ngữ nghĩa hóa cấu trúc trang, biến giao diện trực quan thành văn bản cấu trúc có thể được LLM gọi, từ đó thực hiện ánh xạ từ trang đến lệnh, giảm thiểu đáng kể chi phí tương tác.
Các dự án chủ đạo trên thị trường đã bắt đầu thử nghiệm: Perplexity xây dựng trình duyệt gốc Comet, thay thế kết quả tìm kiếm truyền thống bằng AI; Brave kết hợp bảo vệ quyền riêng tư với suy diễn cục bộ, tăng cường chức năng tìm kiếm và chặn quảng cáo bằng LLM; trong khi các dự án gốc Crypto như Donut thì nhắm đến một cổng mới cho tương tác giữa AI và tài sản trên chuỗi. Những dự án này có điểm chung là: cố gắng tái cấu trúc đầu vào của trình duyệt, thay vì làm đẹp lớp đầu ra của nó.
Đối với các doanh nhân, cơ hội ẩn chứa trong mối quan hệ tam giác giữa đầu vào, cấu trúc và đại lý. Trình duyệt như một giao diện gọi thế giới của Agent trong tương lai, có nghĩa là ai có thể cung cấp các "khối năng lực" có cấu trúc, có thể gọi và đáng tin cậy, người đó sẽ trở thành một phần của nền tảng thế hệ mới. Từ SEO đến AEO (Tối ưu hóa Động cơ Agent), từ lưu lượng trang đến gọi chuỗi nhiệm vụ, hình thức sản phẩm và tư duy thiết kế đều đang được tái cấu trúc. Cuộc chiến trình duyệt lần thứ ba xảy ra ở "đầu vào" chứ không phải "trình bày"; người quyết định thắng thua không còn là ai thu hút được sự chú ý của người dùng, mà là ai giành được niềm tin của Agent, có được lối vào để gọi.
Lịch sử phát triển trình duyệt
Vào đầu những năm 90 của thế kỷ trước, khi internet chưa trở thành một phần của cuộc sống hàng ngày, Netscape Navigator xuất hiện như một chiếc thuyền buồm mở ra vùng đất mới, mở ra cánh cửa đến thế giới số cho hàng triệu người dùng. Trình duyệt này không phải là trình duyệt đầu tiên, nhưng là sản phẩm đầu tiên thực sự hướng tới đại chúng và định hình trải nghiệm internet. Lúc đó, mọi người lần đầu tiên có thể dễ dàng duyệt web thông qua giao diện đồ họa, như thể cả thế giới đột nhiên trở nên trong tầm tay.
Tuy nhiên, sự huy hoàng thường ngắn ngủi. Microsoft nhanh chóng nhận ra tầm quan trọng của trình duyệt và quyết định buộc Internet Explorer phải được tích hợp vào hệ điều hành Windows, biến nó thành trình duyệt mặc định. Chiến lược này được coi là "vũ khí sát thương của nền tảng", trực tiếp làm sụp đổ vị thế thống trị thị trường của Netscape. Nhiều người dùng không phải chọn IE một cách chủ động, mà là do hệ thống mặc định đã chấp nhận nó. IE, nhờ vào khả năng phân phối của Windows, nhanh chóng trở thành ông trùm trong ngành, trong khi Netscape rơi vào quỹ đạo suy tàn.
Trong nghịch cảnh, các kỹ sư của Netscape đã chọn một con đường quyết liệt và lý tưởng – họ đã công khai mã nguồn của trình duyệt, gửi lời kêu gọi đến cộng đồng mã nguồn mở. Quyết định này, như một "sự nhượng bộ theo kiểu Macedonia" trong giới công nghệ, báo hiệu sự kết thúc của một kỷ nguyên cũ và sự trỗi dậy của sức mạnh mới. Đoạn mã này sau đó trở thành nền tảng cho dự án trình duyệt Mozilla, ban đầu được đặt tên là Phoenix (có nghĩa là Phượng Hoàng tái sinh), nhưng đã trải qua nhiều lần đổi tên vì vấn đề thương hiệu, cuối cùng được đặt tên là Firefox.
Firefox không chỉ đơn thuần là bản sao của Netscape, mà còn đạt được nhiều bước đột phá trong trải nghiệm người dùng, hệ sinh thái plugin, an ninh, và nhiều lĩnh vực khác. Sự ra đời của nó đánh dấu chiến thắng của tinh thần mã nguồn mở, đồng thời mang lại sức sống mới cho toàn ngành. Có người mô tả Firefox là "người kế thừa tinh thần" của Netscape, giống như Đế chế Ottoman kế thừa ánh sáng còn lại của Byzantine. Ẩn dụ này tuy phóng đại nhưng lại rất có ý nghĩa.
Nhưng trong những năm trước khi Firefox chính thức ra mắt, Microsoft đã phát hành sáu phiên bản IE, nhờ vào lợi thế thời gian và chiến lược bundling hệ thống, khiến Firefox ngay từ đầu đã ở vị trí phải đuổi theo, định sẵn rằng cuộc đua này không phải là một cuộc cạnh tranh công bằng với xuất phát điểm ngang bằng.
Trong khi đó, một người chơi sớm khác cũng đang âm thầm xuất hiện. Năm 1994, trình duyệt Opera ra mắt, có nguồn gốc từ Na Uy, ban đầu chỉ là một dự án thử nghiệm. Nhưng từ phiên bản 7.0 vào năm 2003, nó đã giới thiệu động cơ Presto tự phát triển, tiên phong hỗ trợ CSS, bố cục thích ứng, điều khiển bằng giọng nói và mã hóa Unicode cùng các công nghệ tiên tiến khác. Mặc dù số lượng người dùng hạn chế, nhưng về mặt công nghệ, nó luôn đi đầu trong ngành, trở thành "sở thích của các tín đồ công nghệ".
Cùng năm đó, Apple đã ra mắt trình duyệt Safari. Đây là một bước ngoặt đầy ý nghĩa. Vào thời điểm đó, Microsoft đã đầu tư 150 triệu đô la vào Apple đang cận kề phá sản, nhằm duy trì bề ngoài cạnh tranh và tránh sự kiểm tra chống độc quyền. Mặc dù công cụ tìm kiếm mặc định của Safari từ khi ra đời là Google, nhưng mối quan hệ lịch sử này với Microsoft tượng trưng cho mối quan hệ phức tạp và tinh tế giữa các ông lớn internet: hợp tác và cạnh tranh, luôn đi đôi với nhau.
Năm 2007, IE7 được phát hành cùng với Windows Vista, nhưng phản hồi từ thị trường khá bình thường. Ngược lại, Firefox, nhờ vào nhịp độ cập nhật nhanh hơn, cơ chế mở rộng thân thiện hơn và sức hấp dẫn tự nhiên đối với các nhà phát triển, đã tăng thị phần ổn định lên khoảng 20%. Sự thống trị của IE dần bị lung lay, hướng đi đang thay đổi.
Google lại là một cách tiếp cận khác. Mặc dù đã bắt đầu lên kế hoạch phát triển trình duyệt của riêng mình từ năm 2001, nhưng phải mất sáu năm để thuyết phục CEO Eric Schmidt phê duyệt dự án này. Chrome ra mắt vào năm 2008, được xây dựng trên dự án mã nguồn mở Chromium và động cơ WebKit mà Safari sử dụng. Nó bị chế giễu là trình duyệt "cồng kềnh", nhưng nhờ sức mạnh lớn của Google trong quảng cáo và xây dựng thương hiệu, nó đã nhanh chóng nổi lên.
Vũ khí chính của Chrome không phải là tính năng, mà là nhịp độ cập nhật phiên bản thường xuyên (mỗi sáu tuần một lần) và trải nghiệm đồng nhất trên toàn nền tảng. Vào tháng 11 năm 2011, Chrome lần đầu tiên vượt qua Firefox, chiếm thị phần 27%; sáu tháng sau, lại vượt qua IE, hoàn thành sự chuyển mình từ kẻ thách thức thành kẻ thống trị.
Trong khi đó, Internet di động của Trung Quốc cũng đang hình thành hệ sinh thái riêng. Trình duyệt UC thuộc sở hữu của Alibaba đã nhanh chóng nổi lên vào đầu những năm 2010, đặc biệt là ở các thị trường mới nổi như Ấn Độ, Indonesia, Trung Quốc, nhờ vào thiết kế nhẹ, nén dữ liệu để tiết kiệm băng thông và các đặc tính khác, đã thu hút sự ưa chuộng của người dùng thiết bị giá rẻ. Năm 2015, thị phần trình duyệt di động toàn cầu của nó đã vượt qua 17%, trong đó ở Ấn Độ có lúc cao tới 46%. Tuy nhiên, chiến thắng này không bền vững. Khi chính phủ Ấn Độ tăng cường kiểm tra an ninh đối với các ứng dụng Trung Quốc, trình duyệt UC buộc phải rút lui khỏi thị trường quan trọng, dần dần đánh mất hào quang ngày xưa.
Bước vào thập kỷ 2020, vị thế thống trị của Chrome đã được thiết lập, với thị phần toàn cầu ổn định ở khoảng 65%. Đáng chú ý, mặc dù công cụ tìm kiếm Google và trình duyệt Chrome đều thuộc về Alphabet, nhưng từ góc độ thị trường, chúng lại là hai hệ thống độc quyền riêng biệt - cái trước kiểm soát khoảng 90% lối vào tìm kiếm toàn cầu, trong khi cái sau nắm giữ "cửa sổ đầu tiên" mà hầu hết người dùng vào mạng.
Để giữ vững cấu trúc độc quyền kép này, Google không tiếc tiền đầu tư. Năm 2022, Alphabet đã trả cho Apple khoảng 20 tỷ USD chỉ để Google duy trì vị trí tìm kiếm mặc định trong Safari. Một số phân tích chỉ ra rằng khoản chi này tương đương với 36% doanh thu quảng cáo tìm kiếm mà Google kiếm được từ lưu lượng truy cập Safari. Nói cách khác, Google đang trả "phí bảo vệ" cho hào thành.
Nhưng hướng gió lại một lần nữa thay đổi. Với sự trỗi dậy của các mô hình ngôn ngữ lớn (LLM), tìm kiếm truyền thống bắt đầu bị ảnh hưởng. Năm 2024, thị phần tìm kiếm của Google giảm từ 93% xuống 89%, mặc dù vẫn chiếm ưu thế, nhưng những vết nứt đã bắt đầu xuất hiện. Điều gây rúng động hơn nữa, là tin đồn rằng Apple có thể ra mắt một công cụ tìm kiếm AI riêng — nếu Safari chuyển sang tìm kiếm mặc định trong hệ sinh thái của mình, điều này không chỉ sẽ viết lại cấu trúc sinh thái, mà còn có thể làm lung lay trụ cột lợi nhuận của Alphabet. Thị trường phản ứng nhanh chóng, giá cổ phiếu của Alphabet từ 170 USD giảm xuống 140 USD, phản ánh không chỉ là nỗi hoảng sợ của các nhà đầu tư, mà còn là sự bất an sâu sắc về hướng đi của thời đại tìm kiếm trong tương lai.
Từ Navigator đến Chrome, từ lý tưởng mã nguồn mở đến thương mại hóa quảng cáo, từ trình duyệt nhẹ đến trợ lý tìm kiếm AI, cuộc chiến trình duyệt luôn là một cuộc chiến về công nghệ, nền tảng, nội dung và quyền kiểm soát. Chiến trường không ngừng di chuyển, nhưng bản chất chưa bao giờ thay đổi: ai nắm giữ cổng vào, người đó định nghĩa tương lai.
Trong mắt các VC, dựa vào nhu cầu mới của con người đối với công cụ tìm kiếm trong thời đại LLM và AI, cuộc chiến trình duyệt lần thứ ba đang dần diễn ra. Dưới đây là tình hình tài trợ của một số dự án nổi bật trong lĩnh vực trình duyệt AI.
Kiến trúc cũ của trình duyệt hiện đại
Khi nói đến kiến trúc trình duyệt, kiến trúc truyền thống cổ điển như hình dưới đây:
Khách hàng — Cổng vào phía trước
Tra cứu qua HTTPS gửi đến Google Front End gần nhất, hoàn thành giải mã TLS, lấy mẫu QoS và định tuyến địa lý. Nếu phát hiện lưu lượng bất thường (DDoS, tự động thu thập) có thể giới hạn lưu lượng hoặc thách thức ở lớp này.
Hiểu truy vấn
Phía trước cần hiểu ý nghĩa của các từ mà người dùng nhập vào, có ba bước: sửa lỗi chính tả thần kinh, sửa "recpie" thành "recipe"; mở rộng từ đồng nghĩa, mở rộng "how to fix bike" thành "repair bicycle". Phân tích ý định, xác định truy vấn là thông tin, điều hướng hay ý định giao dịch, và phân bổ yêu cầu Vertical.
Gọi lại ứng viên
Công nghệ truy vấn mà Google sử dụng được gọi là: chỉ mục đảo ngược. Trong chỉ mục theo thứ tự, chúng ta có thể chỉ định một ID để truy vấn đến tệp. Tuy nhiên, người dùng không thể biết nội dung mà họ muốn nằm ở số hiệu nào trong hàng trăm tỷ tệp, vì vậy họ đã sử dụng chỉ mục đảo ngược rất truyền thống, để truy vấn các tệp nào có từ khóa tương ứng. Tiếp theo, Google sử dụng chỉ mục vector để xử lý tìm kiếm ngữ nghĩa, tức là tìm những nội dung có ý nghĩa tương tự với truy vấn. Nó chuyển đổi văn bản, hình ảnh và các nội dung khác thành các vector cao chiều (embedding), và thực hiện tìm kiếm dựa trên sự tương đồng giữa các vector này. Ví dụ, ngay cả khi người dùng tìm kiếm "cách làm bột pizza", công cụ tìm kiếm cũng có thể trả về kết quả liên quan đến "hướng dẫn làm bột pizza", vì chúng tương tự về mặt ngữ nghĩa. Sau khi trải qua chỉ mục đảo ngược và chỉ mục vector, khoảng một trăm nghìn trang web sẽ được sàng lọc ban đầu.
Sắp xếp nhiều cấp
Hệ thống thường sử dụng các đặc trưng nhẹ hàng nghìn chiều như BM25, TF-IDF, điểm chất lượng trang để lọc từ hàng trăm ngàn trang ứng viên xuống khoảng 1000 trang, hình thành tập ứng viên sơ bộ. Các hệ thống này được gọi chung là động cơ gợi ý. Nó phụ thuộc vào hàng triệu đặc trưng được sinh ra từ nhiều thực thể khác nhau, bao gồm hành vi người dùng, thuộc tính trang, ý định truy vấn và tín hiệu ngữ cảnh. Ví dụ, Google sẽ tổng hợp lịch sử người dùng, phản hồi hành vi của các người dùng khác, ngữ nghĩa của trang, ý nghĩa truy vấn và các thông tin khác, đồng thời cũng xem xét các yếu tố ngữ cảnh như thời gian (thời điểm trong ngày, ngày cụ thể trong tuần) và các sự kiện bên ngoài như tin tức thời sự.
Học sâu thực hiện xếp hạng chính
Trong giai đoạn tìm kiếm ban đầu, Google sử dụng các công nghệ như RankBrain và Neural Matching để hiểu ý nghĩa của truy vấn và lọc ra các kết quả liên quan ban đầu từ hàng triệu tài liệu. RankBrain là hệ thống học máy mà Google giới thiệu vào năm 2015, nhằm hiểu rõ hơn ý nghĩa của truy vấn người dùng, đặc biệt là các truy vấn xuất hiện lần đầu. Nó chuyển đổi truy vấn và tài liệu thành các đại diện vector, tính toán độ tương đồng giữa chúng để tìm ra các kết quả liên quan nhất. Ví dụ, đối với truy vấn "cách làm bột pizza", ngay cả khi tài liệu không có từ khóa hoàn toàn khớp, RankBrain vẫn có thể nhận diện nội dung liên quan đến "cơ bản pizza" hoặc "làm bột".
Neural Matching là một công nghệ khác mà Google ra mắt vào năm 2018, nhằm hiểu sâu hơn về mối quan hệ ngữ nghĩa giữa truy vấn và tài liệu. Nó sử dụng mô hình mạng nơ-ron để nắm bắt mối quan hệ mơ hồ giữa các từ, giúp Google khớp tốt hơn giữa truy vấn và nội dung trang web. Ví dụ, đối với truy vấn "tại sao quạt máy tính xách tay của tôi lại kêu to", Neural Matching có thể hiểu rằng người dùng có thể đang tìm kiếm thông tin khắc phục sự cố liên quan đến quá nhiệt, bụi bẩn tích tụ hoặc sử dụng CPU cao, ngay cả khi những từ này không xuất hiện trực tiếp trong truy vấn.
Sắp xếp lại sâu: Ứng dụng của mô hình BERT
Sau khi sơ bộ lọc ra các tài liệu liên quan, Google sử dụng mô hình BERT (Bidirectional Encoder Representations from Transformers) để sắp xếp các tài liệu này một cách tinh vi hơn, nhằm đảm bảo rằng các kết quả liên quan nhất được xếp ở vị trí phía trước. BERT là một mô hình ngôn ngữ đã được huấn luyện trước dựa trên Transformer, có khả năng hiểu mối quan hệ ngữ cảnh của các từ trong câu. Trong tìm kiếm, BERT được sử dụng để xếp lại các tài liệu đã được thu thập sơ bộ. Nó thông qua việc mã hóa kết hợp giữa truy vấn và tài liệu, tính toán điểm số liên quan giữa chúng, từ đó xếp lại tài liệu. Ví dụ, đối với truy vấn "đậu xe trên dốc không có lề đường", BERT có thể hiểu nghĩa của "không có lề đường" và trả về trang gợi ý cho tài xế hướng bánh xe về phía lề đường, thay vì hiểu nhầm là có lề đường. Đối với các kỹ sư SEO, điều này có nghĩa là cần phải học chính xác cách mà Google xếp hạng và các thuật toán gợi ý học máy, nhằm tối ưu hóa nội dung trang web một cách có mục tiêu để đạt được thứ hạng hiển thị cao hơn.
Trên đây là quy trình làm việc điển hình của công cụ tìm kiếm Google. Tuy nhiên, trong thời đại bùng nổ AI và dữ liệu lớn hiện nay, người dùng đã phát sinh nhu cầu mới về sự tương tác của trình duyệt.
Tại sao AI sẽ định hình lại trình duyệt
Trước tiên, chúng ta cần làm rõ, tại sao hình thức trình duyệt này vẫn tồn tại? Liệu có tồn tại một hình thức thứ ba, ngoài đại lý trí tuệ nhân tạo và trình duyệt?
Chúng tôi cho rằng, sự tồn tại là không thể thay thế. Tại sao trí tuệ nhân tạo có thể sử dụng trình duyệt, nhưng không thể hoàn toàn thay thế trình duyệt? Bởi vì trình duyệt là nền tảng chung, không chỉ là cổng vào để đọc dữ liệu, mà còn là cổng vào chung để nhập dữ liệu. Thế giới này không thể chỉ có thông tin nhập vào, mà còn phải tạo ra dữ liệu và tương tác với các trang web, vì vậy trình duyệt tích hợp thông tin người dùng cá nhân vẫn sẽ tồn tại rộng rãi.
Chúng tôi nắm bắt điểm này: Trình duyệt như một cổng thông dụng, không chỉ để đọc dữ liệu, người dùng thường cần tương tác với dữ liệu. Trình duyệt tự nó là nơi lưu trữ dấu vân tay của người dùng một cách tuyệt vời. Các hành vi người dùng phức tạp hơn và hành vi tự động hóa, phải được thực hiện thông qua trình duyệt. Trình duyệt có thể lưu trữ tất cả dấu vân tay hành vi, thẻ thông hành và các thông tin riêng tư khác của người dùng, thực hiện các cuộc gọi không cần tin cậy trong quá trình tự động hóa. Và hành động tương tác với dữ liệu có thể phát triển thành:
Người dùng → Gọi AI Agent → Trình duyệt.
Nói cách khác, phần duy nhất có thể bị thay thế là hướng đi phù hợp với xu hướng phát triển của thế giới — — thông minh hơn, cá nhân hóa hơn, và tự động hóa hơn. Rõ ràng, phần này có thể được giao cho AI Agent xử lý, nhưng chính AI Agent lại không phải là nơi phù hợp để chứa đựng nội dung cá nhân hóa của người dùng, vì nó phải đối mặt với nhiều thách thức về an toàn dữ liệu và tính tiện lợi. Cụ thể là:
Trình duyệt là nơi lưu trữ nội dung cá nhân hóa:
Hầu hết các mô hình lớn được lưu trữ trên đám mây, ngữ cảnh phiên phụ thuộc vào máy chủ lưu trữ, khó có thể gọi trực tiếp dữ liệu nhạy cảm như mật khẩu, ví, Cookie v.v.
Gửi toàn bộ dữ liệu duyệt và thanh toán đến mô hình bên thứ ba, cần phải nhận được sự cho phép của người dùng một lần nữa; Quy định DMA của EU và luật riêng tư cấp tiểu bang của Mỹ đều yêu cầu giảm thiểu dữ liệu ra nước ngoài.
Tự động điền mã xác thực hai yếu tố, gọi camera hoặc sử dụng GPU để thực hiện suy diễn WebGPU, tất cả phải được thực hiện trong sandbox của trình duyệt.
Ngữ cảnh dữ liệu phụ thuộc cao vào trình duyệt, bao gồm thẻ tab, Cookie, IndexedDB, bộ nhớ cache Service Worker, thông tin xác thực Passkey và dữ liệu mở rộng, tất cả đều được lưu trữ trong trình duyệt.
sự thay đổi sâu sắc về hình thức tương tác
Quay trở lại chủ đề ban đầu, hành vi của chúng ta khi sử dụng trình duyệt có thể được chia thành ba hình thức chính: đọc dữ liệu, nhập dữ liệu, tương tác dữ liệu. Mô hình AI lớn (LLM) đã thay đổi sâu sắc hiệu quả và cách thức mà chúng ta đọc dữ liệu, trước đây hành vi của người dùng tìm kiếm trang web dựa trên từ khóa trở nên rất lỗi thời và kém hiệu quả.
Sự tiến hóa của hành vi tìm kiếm của người dùng — — là lấy câu trả lời tổng hợp, hay là nhấp vào trang web, đã có nhiều nghiên cứu phân tích.
Về mô hình hành vi của người dùng, nghiên cứu năm 2024 cho thấy, tại Mỹ, trong mỗi 1.000 lần tìm kiếm trên Google, chỉ có 374 lần cuối cùng nhấp vào trang mở. Nói cách khác, gần 63% thuộc về hành vi "không nhấp". Người dùng có thói quen lấy thông tin về thời tiết, tỷ giá, thẻ kiến thức, v.v. trực tiếp từ trang kết quả tìm kiếm.
Về mặt tâm lý người dùng, một khảo sát năm 2023 cho thấy 44% người được hỏi cho rằng kết quả tự nhiên thông thường đáng tin cậy hơn đoạn trích nổi bật (featured snippet). Nghiên cứu học thuật cũng phát hiện rằng trong các vấn đề có tranh cãi hoặc không có sự thật thống nhất, người dùng thích các trang kết quả có liên kết từ nhiều nguồn.
Điều đó có nghĩa là, thực sự có một bộ phận người dùng không tin tưởng nhiều vào tóm tắt AI, nhưng cũng có một tỷ lệ người dùng đáng kể đã chuyển sang hành vi "không nhấp chuột". Vì vậy, trình duyệt AI vẫn cần khám phá một hình thức tương tác phù hợp — đặc biệt trong phần đọc dữ liệu, vì vấn đề "ảo giác" (hallucination) của mô hình lớn hiện tại vẫn chưa được giải quyết, nhiều người dùng vẫn khó có thể hoàn toàn tin tưởng vào nội dung tóm tắt được tự động tạo ra. Trong lĩnh vực này, nếu tích hợp mô hình lớn vào trình duyệt, thực tế không cần phải có những thay đổi cách mạng đối với trình duyệt, chỉ cần từ từ giải quyết độ chính xác và khả năng kiểm soát của mô hình, và sự cải tiến này cũng đang tiếp tục được thúc đẩy.
Và điều thực sự có thể kích hoạt sự thay đổi lớn trong trình duyệt chính là lớp tương tác dữ liệu. Trong quá khứ, mọi người hoàn thành tương tác bằng cách nhập từ khóa - đây là giới hạn mà trình duyệt có thể hiểu. Còn bây giờ, người dùng ngày càng có xu hướng sử dụng một đoạn ngôn ngữ tự nhiên đầy đủ để mô tả các nhiệm vụ phức tạp, chẳng hạn như:
"Tìm vé máy bay trực tiếp từ New York đến Los Angeles trong một khoảng thời gian nào đó"
"Tìm vé máy bay từ New York đến Thượng Hải rồi đến Los Angeles"
Những hành vi này, ngay cả đối với con người, cũng cần tốn nhiều thời gian để truy cập nhiều trang web, thu thập và so sánh dữ liệu. Nhưng những T任务代理 (Agentic Tasks) này đang dần được AI Agent tiếp quản.
Điều này cũng phù hợp với xu hướng phát triển lịch sử: tự động hóa và thông minh hóa. Con người khao khát được giải phóng đôi tay, AI Agent chắc chắn sẽ được tích hợp sâu vào trình duyệt. Trình duyệt trong tương lai phải được thiết kế cho tự động hóa hoàn toàn, đặc biệt cần xem xét:
Làm thế nào để cân bằng trải nghiệm đọc của con người với khả năng phân tích của AI Agent,
Làm thế nào để phục vụ cả người dùng và mô hình đại lý trên cùng một trang.
Chỉ khi thiết kế đáp ứng cả hai yêu cầu này, trình duyệt mới có thể trở thành nền tảng ổn định để AI Agent thực hiện nhiệm vụ.
Tiếp theo, chúng ta sẽ tập trung vào năm dự án được chú ý nhiều, bao gồm Browser Use, Arc (Công ty Browser), Perplexity, Brave và Donut. Những dự án này đại diện cho hướng tiến hóa tương lai của trình duyệt AI, cũng như tiềm năng kết hợp bản địa của nó trong các bối cảnh Web3 và Crypto.
Sử Dụng Trình Duyệt
Đây chính là logic cốt lõi đằng sau việc Perplexity và Browser Use nhận được khoản tài trợ khổng lồ. Đặc biệt là Browser Use, là cơ hội đổi mới thứ hai có tính xác định và tiềm năng tăng trưởng lớn nhất nổi lên trong nửa đầu năm 2025.
Browser là một lớp ngữ nghĩa thực sự được xây dựng, với cốt lõi là xây dựng kiến trúc nhận diện ngữ nghĩa cho thế hệ trình duyệt tiếp theo.
Browser Use biến đổi lại "DOM = cây nút nhìn thấy" thành "DOM ngữ nghĩa = cây lệnh nhìn thấy bởi LLM", cho phép đại lý không cần "tọa độ điểm xem" mà vẫn có thể nhấp chuột chính xác, điền và tải lên; tuyến đường này thay thế OCR hình ảnh hoặc Selenium tọa độ bằng "văn bản có cấu trúc → gọi hàm", vì vậy thực thi nhanh hơn, tiết kiệm token hơn, và ít lỗi hơn. TechCrunch gọi đây là "lớp keo giúp AI thực sự hiểu trang web", và vòng gọi vốn hạt giống 17 triệu đô la hoàn thành vào tháng 3 chính là đặt cược vào sự đổi mới cơ sở này.
HTML được render tạo thành cây DOM chuẩn; trình duyệt sau đó sinh ra một cây accessibility tree, cung cấp cho các trình đọc màn hình các nhãn "vai trò" và "trạng thái" phong phú hơn.
Trừu tượng hóa mỗi phần tử tương tác (ví dụ: , v.v.) thành các đoạn JSON, kèm theo các siêu dữ liệu như vai trò, khả năng hiển thị, tọa độ, hành động có thể thực thi, v.v.;
Chuyển toàn bộ trang thành danh sách "nút ngữ nghĩa phẳng" để LLM có thể đọc một lần trong hệ thống nhắc nhở;
Nhận lệnh cấp cao từ đầu ra LLM (như click(node_id=「btn-Checkout」)), phát lại vào trình duyệt thật. Blog chính thức gọi quá trình này là "biến giao diện website thành văn bản có cấu trúc mà LLM có thể phân tích".
Đồng thời, một khi bộ tiêu chuẩn này được đưa vào W3C, thì có thể giải quyết vấn đề nhập liệu trên trình duyệt một cách đáng kể. Chúng ta sẽ sử dụng thư ngỏ và trường hợp của The Browser Company để giải thích thêm tại sao ý tưởng của The Browser Company là sai lầm.
ARC
Công ty Browser (Arc, công ty mẹ của ), trong bức thư công khai của mình cho biết, trình duyệt ARC sẽ bước vào giai đoạn bảo trì thường xuyên, và đội ngũ sẽ tập trung vào trình duyệt DIA hoàn toàn hướng về AI. Bức thư cũng thừa nhận rằng, hiện tại vẫn chưa xác định được con đường thực hiện cụ thể cho DIA. Đồng thời, đội ngũ đã đưa ra một số dự đoán về thị trường trình duyệt trong tương lai. Dựa trên những dự đoán này, chúng tôi tin rằng, để thực sự lật đổ cấu trúc trình duyệt hiện tại, điều cốt yếu là phải thay đổi đầu ra ở phía tương tác.
Dưới đây là ba dự đoán của đội ngũ ARC về thị trường trình duyệt trong tương lai.
Đầu tiên, họ cho rằng các trang web không còn là giao diện tương tác chính. Không thể phủ nhận, đây là một phán đoán đầy thách thức, và cũng chính là lý do chúng tôi giữ thái độ thận trọng đối với kết quả phản ánh của người sáng lập. Theo quan điểm của chúng tôi, quan điểm này đánh giá thấp vai trò của trình duyệt, và cũng chính là vấn đề then chốt mà họ đã bỏ qua khi khám phá con đường trình duyệt AI.
Mô hình lớn thể hiện xuất sắc trong việc nắm bắt ý định, chẳng hạn như hiểu các lệnh như "giúp tôi đặt vé máy bay". Tuy nhiên, về khả năng chứa đựng thông tin, chúng vẫn còn thiếu sót. Khi người dùng cần một cuốn sổ ghi chú theo phong cách bảng điều khiển hoặc Bloomberg Terminal, hay một canvas trực quan giống như Figma, không có gì vượt trội hơn một trang web chuyên dụng được sắp xếp với độ chính xác pixel. Thiết kế công thái học được tùy chỉnh cho từng sản phẩm — biểu đồ, chức năng kéo thả, phím tắt — không phải là những yếu tố trang trí, mà là khả năng nhận thức được nén lại. Những khả năng này không thể được đáp ứng bởi các tương tác đối thoại đơn giản. Lấy Gate.com làm ví dụ, nếu người dùng muốn thực hiện các thao tác đầu tư, chỉ dựa vào cuộc đối thoại AI là không đủ, vì người dùng có sự phụ thuộc cao vào việc nhập thông tin, độ chính xác và cách trình bày có cấu trúc.
Đội ngũ RC có một sai lệch cơ bản trong tư duy của họ, đó là không thể phân biệt rõ ràng giữa "tương tác" được cấu thành từ hai chiều: đầu vào và đầu ra. Ở phía đầu vào, quan điểm của họ có lý trong một số bối cảnh, AI thực sự có thể nâng cao hiệu quả của tương tác theo chỉ dẫn; nhưng ở phía đầu ra, phán đoán đó rõ ràng mất cân bằng, bỏ qua vai trò cốt lõi của trình duyệt trong việc trình bày thông tin và trải nghiệm cá nhân hóa. Ví dụ, Reddit có cách bố trí và kiến trúc thông tin độc đáo của nó, trong khi AAVE lại có giao diện và cấu trúc hoàn toàn khác. Trình duyệt như một nền tảng không chỉ chứa dữ liệu có tính riêng tư cao mà còn có khả năng hiển thị đa dạng các giao diện sản phẩm, sự thay thế của trình duyệt ở cấp độ đầu vào vốn đã hạn chế, trong khi ở phía đầu ra, sự phức tạp và tính không thể tiêu chuẩn hóa càng khiến nó khó bị thay thế. So với đó, các trình duyệt AI hiện tại trên thị trường chủ yếu tập trung vào cấp độ "tóm tắt đầu ra": tóm tắt trang web, tinh giản thông tin, tạo ra kết luận, vẫn chưa đủ để tạo ra thách thức căn bản đối với các trình duyệt hoặc hệ thống tìm kiếm chính như Google, chỉ chiếm lĩnh được thị phần tóm tắt tìm kiếm.
Do đó, điều có thể thực sự làm rung chuyển thị phần lên tới 66% của Chrome, chắc chắn sẽ không phải là "Chrome tiếp theo". Để đạt được sự lật đổ này, cần phải tái cấu trúc một cách căn bản chế độ hiển thị của trình duyệt, để nó có thể thích ứng với nhu cầu tương tác dưới sự dẫn dắt của AI Agent trong thời đại thông minh, đặc biệt là trong thiết kế kiến trúc phía đầu vào. Chính vì lý do này, chúng tôi càng đánh giá cao con đường công nghệ mà Browser Use đã chọn - sự chú trọng của họ vào cách mạng cấu trúc của cơ chế nền tảng trình duyệt. Bất kỳ hệ thống nào một khi đạt được "nguyên tử hóa" hoặc "mô-đun hóa", tính khả lập trình và khả năng kết hợp phát sinh từ đó sẽ mang lại tiềm năng lật đổ cực kỳ mạnh mẽ, và đó chính là hướng đi mà Browser Use đang thúc đẩy hiện tại.
Tóm lại, hoạt động của AI Agent vẫn phụ thuộc lớn vào sự tồn tại của trình duyệt. Trình duyệt không chỉ là nơi lưu trữ dữ liệu cá nhân hóa phức tạp mà còn là giao diện hiển thị chung cho các ứng dụng đa dạng, vì vậy nó sẽ tiếp tục giữ vai trò là cổng tương tác chính trong tương lai. Khi AI Agent được nhúng sâu vào trình duyệt để hoàn thành các nhiệm vụ cố định, nó sẽ tương tác với dữ liệu người dùng và các ứng dụng cụ thể, tức là chủ yếu hoạt động ở phía đầu vào. Để làm được điều này, các mô hình hiển thị hiện có của trình duyệt cần được đổi mới, nhằm đạt được mức độ tương thích và thích ứng tối đa với AI Agent, từ đó bắt kịp ứng dụng một cách hiệu quả hơn.
Perplexity
Perplexity là một công cụ tìm kiếm AI nổi bật với hệ thống gợi ý của mình, với định giá mới nhất lên tới 14 tỷ USD, tăng gần 5 lần so với 3 tỷ USD vào tháng 6 năm 2024. Trung bình hàng tháng, số lượng truy vấn tìm kiếm vượt quá 400 triệu lần, vào tháng 9 năm 2024 đã xử lý khoảng 250 triệu truy vấn, số lượng truy vấn của người dùng tăng 8 lần so với năm trước, số người dùng hoạt động hàng tháng vượt quá 30 triệu.
Các đặc điểm chính của nó là khả năng tóm tắt trang web theo thời gian thực, chiếm ưu thế trong việc lấy thông tin ngay lập tức. Đầu năm nay, nó bắt đầu xây dựng trình duyệt gốc của riêng mình mang tên Comet. Perplexity mô tả Comet sắp ra mắt không chỉ là một trình duyệt "hiển thị" trang web, mà còn có khả năng "suy nghĩ" về trang web. Chính thức cho biết nó sẽ được tích hợp sâu vào công cụ trả lời của Perplexity trong trình duyệt, đây là tư duy "toàn bộ máy" kiểu Steve Jobs: chôn sâu nhiệm vụ AI vào nền tảng trình duyệt, thay vì làm tiện ích bên. Thay thế các "mười liên kết màu xanh" truyền thống bằng các câu trả lời ngắn gọn có trích dẫn, cạnh tranh trực tiếp với Chrome.
Tuy nhiên, họ vẫn cần giải quyết hai vấn đề cốt lõi: chi phí tìm kiếm cao và tỷ suất lợi nhuận thấp từ người dùng biên. Mặc dù Perplexity đã ở vị trí dẫn đầu trong lĩnh vực tìm kiếm AI, nhưng Google cũng đã công bố một cuộc tái cấu trúc thông minh quy mô lớn cho sản phẩm cốt lõi của mình tại hội nghị I/O 2025. Đối với việc tái cấu trúc trình duyệt, Google đã ra mắt một trải nghiệm tab trình duyệt mới, có tên là AI Model, tích hợp các chức năng Overview, Deep Research và Agentic trong tương lai, toàn bộ dự án được gọi là "Project Mariner".
Google đang tích cực tiến hành việc tái cấu trúc AI, vì vậy chỉ dựa vào việc mô phỏng các chức năng bề mặt, chẳng hạn như Overview, DeepResearch hoặc Agentics, khó có thể thực sự tạo ra mối đe dọa. Điều thực sự có khả năng thiết lập trật tự mới trong sự hỗn loạn sẽ là việc tái cấu trúc kiến trúc trình duyệt từ nền tảng, sâu sắc nhúng các mô hình ngôn ngữ lớn (LLM) vào lõi trình duyệt, đạt được sự thay đổi căn bản trong cách tương tác.
Brave
Brave là trình duyệt sớm nhất và thành công nhất trong ngành Crypto, dựa trên kiến trúc Chromium, vì vậy nó tương thích với các tiện ích trên Google Store. Nó thu hút người dùng bằng mô hình kiếm Tokens dựa trên quyền riêng tư và lướt web. Đường đi phát triển của Brave phần nào thể hiện tiềm năng tăng trưởng của nó. Tuy nhiên, từ góc độ sản phẩm, quyền riêng tư dĩ nhiên là quan trọng, nhưng nhu cầu vẫn chủ yếu tập trung vào một nhóm người dùng nhất định, đối với đại chúng, nhận thức về quyền riêng tư vẫn chưa trở thành yếu tố quyết định chính. Do đó, khả năng dựa vào đặc điểm này để lật đổ các ông lớn hiện có là khá thấp.
Đến nay, số người dùng hoạt động hàng tháng của Brave đã đạt 82,7 triệu, số người dùng hoạt động hàng ngày là 35,6 triệu, với thị phần khoảng 1%–1,5%. Quy mô người dùng đang có xu hướng tăng trưởng liên tục: từ 6 triệu vào tháng 7 năm 2019, tăng lên 25 triệu vào tháng 1 năm 2021, đạt 57 triệu vào tháng 1 năm 2023, và dự kiến vượt 82 triệu vào tháng 2 năm 2025, với tỷ lệ tăng trưởng hàng năm vẫn duy trì ở mức hai chữ số. Số lượng tìm kiếm trung bình hàng tháng khoảng 1,34 tỷ lần, chỉ bằng khoảng 0,3% của Google.
Dưới đây là lộ trình phát triển của Brave.
Brave đang lên kế hoạch nâng cấp thành trình duyệt AI ưu tiên bảo mật. Tuy nhiên, do hạn chế trong việc thu thập dữ liệu người dùng, điều này dẫn đến mức độ tùy chỉnh của mô hình lớn thấp hơn, điều này lại cản trở việc thực hiện cải tiến sản phẩm nhanh chóng và chính xác. Trong thời đại Trình duyệt Agentic sắp tới, Brave có thể giữ được thị phần ổn định trong nhóm người dùng đặc biệt chú trọng đến bảo mật, nhưng khó có thể trở thành người chơi chính. Trợ lý AI của họ, Leo, giống như một plugin bổ sung, chỉ tăng cường chức năng trên nền tảng sản phẩm hiện có, có khả năng tóm tắt nội dung nhất định, nhưng vẫn chưa có chiến lược rõ ràng để chuyển đổi toàn diện sang AI Agent, và sự đổi mới ở cấp độ tương tác vẫn còn thiếu.
Donut
Gần đây, ngành Crypto cũng đã có những tiến bộ trong lĩnh vực Trình duyệt Agentic. Dự án khởi nghiệp Donut đã huy động được 7 triệu USD trong vòng Pre-seed, với sự dẫn dắt chung của Sequoia China (Hongshan), HackVC và Bitkraft Ventures. Hiện tại, dự án vẫn đang trong giai đoạn ý tưởng ban đầu, với tầm nhìn nhằm đạt được khả năng tích hợp "Khám phá - Quyết định - Thực thi gốc Crypto" (Discovery, Decision-making, and Crypto-native Execution).
Hướng đi này tập trung vào việc kết hợp các con đường thực thi tự động hóa gốc của tiền điện tử. Như a16z đã dự đoán, trong tương lai, Agent có khả năng thay thế công cụ tìm kiếm trở thành lối vào lưu lượng chính, các doanh nhân sẽ không còn cạnh tranh xung quanh thuật toán xếp hạng của Google nữa, mà sẽ tranh giành lưu lượng truy cập và chuyển đổi do việc thực hiện bởi Agent mang lại. Ngành công nghiệp đã gọi xu hướng này là «AEO» (Tối ưu hóa Đáp án / Động cơ Agent), hoặc đi xa hơn là «ATF» (Hoàn thành Nhiệm vụ Agentic), tức là không còn tối ưu hóa thứ hạng tìm kiếm, mà trực tiếp phục vụ cho các mô hình thông minh có thể hoàn thành các nhiệm vụ như đặt hàng, đặt vé, viết thư cho người dùng.
cho các doanh nhân
Đầu tiên, phải thừa nhận rằng: Browser vẫn là "cổng tổng" lớn nhất chưa được tái cấu trúc trong thế giới internet. Số người dùng máy tính để bàn trên toàn cầu khoảng 2,1 tỷ, người dùng di động hơn 4,3 tỷ, nó là phương tiện chung cho việc nhập dữ liệu, hành vi tương tác và lưu trữ dấu vân tay cá nhân hóa. Hình thức này tồn tại không phải vì quán tính, mà là vì trình duyệt vốn có thuộc tính hai chiều: vừa là "cổng đọc" dữ liệu, vừa là "cổng viết" hành vi.
Do đó, đối với các nhà khởi nghiệp, những gì thực sự có tiềm năng cách mạng không phải là tối ưu hóa ở cấp độ "đầu ra trang". Ngay cả khi có thể thực hiện chức năng tổng quan giống như AI của Google trong một tab mới, về bản chất vẫn thuộc về sự phát triển của các plugin trình duyệt, chưa hình thành sự thay đổi căn bản trong mô hình. Điểm đột phá thực sự nằm ở "bên nhập" — tức là cách mà AI Agent chủ động gọi sản phẩm của các nhà khởi nghiệp để hoàn thành các nhiệm vụ cụ thể. Điều này sẽ trở thành chìa khóa để các sản phẩm trong tương lai có thể tích hợp vào hệ sinh thái Agent, nhận được lưu lượng và phân chia giá trị.
Thời đại tìm kiếm ghép "nhấp chuột"; Thời đại đại lý ghép "gọi".
Nếu bạn là một doanh nhân, tại sao không tưởng tượng lại sản phẩm của bạn như một thành phần API — — để các tác nhân thông minh không chỉ có thể "đọc hiểu" nó mà còn có thể "gọi" nó. Điều này đòi hỏi bạn phải xem xét ba chiều ngay từ đầu trong thiết kế sản phẩm:
Một, tiêu chuẩn hóa cấu trúc giao diện: Sản phẩm của bạn có thể "gọi" được không?
Sản phẩm có khả năng được gọi bởi các tác nhân thông minh hay không phụ thuộc vào việc cấu trúc thông tin của nó có thể được chuẩn hóa và trừu tượng hóa thành một schema rõ ràng hay không. Ví dụ, các thao tác quan trọng như đăng ký người dùng, nút đặt hàng, gửi bình luận có thể được mô tả thông qua cấu trúc DOM có nghĩa hoặc ánh xạ JSON không? Hệ thống có cung cấp máy trạng thái để cho phép tác nhân tái hiện quy trình hành vi của người dùng một cách ổn định không? Các tương tác của người dùng trên trang có hỗ trợ tái hiện bằng kịch bản không? Có sẵn WebHook hoặc API Endpoint có thể truy cập ổn định không?
Đây chính là lý do cốt lõi cho sự thành công trong việc huy động vốn của Browser Use — — Nó đã biến trình duyệt từ HTML được hiển thị phẳng thành một cây ngữ nghĩa có thể được LLM gọi. Đối với các doanh nhân, việc đưa ra những ý tưởng thiết kế tương tự trong sản phẩm web chính là đang điều chỉnh cấu trúc cho thời đại AI Agent.
Hai, Danh tính và Thông hành: Bạn có thể giúp Agent "vượt qua rào cản niềm tin" không?
Để hoàn thành giao dịch, gọi thanh toán hoặc tài sản, AI đại lý cần một lớp trung gian đáng tin cậy - bạn có thể trở thành nó không? Trình duyệt tự nhiên có thể đọc lưu trữ cục bộ, gọi ví, nhận diện mã xác thực, kết nối xác thực hai yếu tố, đó chính là lý do nó phù hợp hơn để thực hiện so với mô hình lớn trên đám mây. Điều này đặc biệt đúng trong bối cảnh Web3: tiêu chuẩn giao diện gọi tài sản trên chuỗi không đồng nhất, nếu Agent không có "danh tính" hoặc "khả năng ký" thì sẽ rất khó khăn.
Vì vậy, đối với các nhà khởi nghiệp Crypto, đây là một khu vực trắng đầy tưởng tượng: "MCP (Multi Capability Platform) của thế giới Blockchain". Điều này có thể là một lớp chỉ thị chung (cho phép Agent gọi Dapp), cũng có thể là một tập hợp các giao diện hợp đồng tiêu chuẩn hóa, thậm chí là một loại ví nhẹ + nền tảng danh tính chạy tại chỗ.
Ba, sự hiểu biết lại về cơ chế lưu lượng: Tương lai không phải là SEO, mà là AEO / ATF
Trước đây, bạn phải cố gắng để được thuật toán của Google yêu thích; bây giờ bạn cần phải được AI Agent tích hợp vào chuỗi nhiệm vụ. Điều này có nghĩa là sản phẩm phải có độ chi tiết nhiệm vụ rõ ràng: không phải là một "trang", mà là một chuỗi "đơn vị khả năng có thể gọi"; điều này có nghĩa là bạn cần bắt đầu tối ưu hóa Agent (AEO) hoặc thích ứng lịch trình nhiệm vụ (ATF): chẳng hạn như liệu quy trình đăng ký có thể được đơn giản hóa thành các bước có cấu trúc hay không, liệu giá cả có thể được kéo qua giao diện hay không, liệu tồn kho có thể được kiểm tra theo thời gian thực hay không;
Bạn thậm chí cần bắt đầu thích ứng với cú pháp gọi khác nhau trong các khung LLM khác nhau — OpenAI và Claude có sở thích không nhất quán về việc gọi hàm, sử dụng công cụ. Chrome là cổng vào thế giới cũ, chứ không phải là lối vào thế giới mới. Các dự án khởi nghiệp thực sự có tương lai không phải là tái tạo một trình duyệt mà là làm cho trình duyệt hiện có phục vụ cho Agent, xây dựng cầu nối cho thế hệ "dòng lệnh" mới.
Bạn cần xây dựng, đó là "cú pháp giao diện" để Agent gọi thế giới của bạn;
Bạn cần cố gắng trở thành một mắt xích trong chuỗi niềm tin của các trí tuệ nhân tạo;
Bạn cần xây dựng là "Lâu đài API" trong mô hình tìm kiếm tiếp theo.
Nếu như Web2 dựa vào UI để thu hút sự chú ý của người dùng, thì thời đại Web3 + AI Agent chính là dựa vào việc gọi chuỗi để thu hút ý định thực thi của Agent.
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
Tại sao lại nói rằng thời đại AI Agent sẽ chào đón cuộc chiến trình duyệt lần thứ ba?
Tác giả: Gate Ventures
TL;DR
Cuộc chiến trình duyệt lần thứ ba đang âm thầm diễn ra. Nhìn lại lịch sử, từ Netscape của những năm 90, IE của Microsoft, đến Firefox với tinh thần mã nguồn mở và Chrome của Google, cuộc chiến trình duyệt luôn là biểu hiện tập trung của quyền kiểm soát nền tảng và sự chuyển biến trong các mô hình công nghệ. Chrome đã chiếm được vị trí thống trị nhờ tốc độ cập nhật và sự kết nối hệ sinh thái, trong khi Google thông qua cấu trúc "đôi độc quyền" giữa tìm kiếm và trình duyệt, đã hình thành một vòng khép kín thông tin.
Nhưng hôm nay, cấu trúc này đang lung lay. Sự trỗi dậy của các mô hình ngôn ngữ lớn (LLM) khiến ngày càng nhiều người dùng hoàn thành nhiệm vụ trên trang kết quả tìm kiếm mà không cần nhấp chuột, hành vi nhấp chuột vào trang web truyền thống đang giảm. Đồng thời, tin đồn rằng Apple có ý định thay thế công cụ tìm kiếm mặc định trong Safari càng làm tăng mối đe dọa đối với Alphabet (, công ty mẹ của Google ), cơ sở lợi nhuận của họ, thị trường đã bắt đầu thể hiện sự bất an đối với "chính thống tìm kiếm".
Trình duyệt cũng đang đối mặt với việc tái định hình vai trò. Nó không chỉ là công cụ hiển thị trang web, mà còn là một tập hợp container cho nhiều khả năng như nhập dữ liệu, hành vi người dùng, nhận dạng riêng tư, v.v. Mặc dù AI Agent rất mạnh, nhưng để hoàn thành các tương tác trang phức tạp, gọi dữ liệu danh tính cục bộ, kiểm soát các phần tử trang web, vẫn cần nhờ đến ranh giới tin cậy và sandbox chức năng của trình duyệt. Trình duyệt đang chuyển từ giao diện con người thành nền tảng gọi hệ thống cho Agent.
Trong bài viết này, chúng tôi đã khám phá xem liệu trình duyệt có còn cần thiết hay không, đồng thời chúng tôi cho rằng điều thực sự có thể phá vỡ cấu trúc thị trường trình duyệt hiện tại không phải là một "Chrome tốt hơn", mà là một cấu trúc tương tác mới: không phải là việc hiển thị thông tin, mà là việc gọi nhiệm vụ. Trình duyệt tương lai cần được thiết kế cho AI Agent - không chỉ có thể đọc, mà còn có thể viết và thực thi. Các dự án như Browser Use đang cố gắng ngữ nghĩa hóa cấu trúc trang, biến giao diện trực quan thành văn bản cấu trúc có thể được LLM gọi, từ đó thực hiện ánh xạ từ trang đến lệnh, giảm thiểu đáng kể chi phí tương tác.
Các dự án chủ đạo trên thị trường đã bắt đầu thử nghiệm: Perplexity xây dựng trình duyệt gốc Comet, thay thế kết quả tìm kiếm truyền thống bằng AI; Brave kết hợp bảo vệ quyền riêng tư với suy diễn cục bộ, tăng cường chức năng tìm kiếm và chặn quảng cáo bằng LLM; trong khi các dự án gốc Crypto như Donut thì nhắm đến một cổng mới cho tương tác giữa AI và tài sản trên chuỗi. Những dự án này có điểm chung là: cố gắng tái cấu trúc đầu vào của trình duyệt, thay vì làm đẹp lớp đầu ra của nó.
Đối với các doanh nhân, cơ hội ẩn chứa trong mối quan hệ tam giác giữa đầu vào, cấu trúc và đại lý. Trình duyệt như một giao diện gọi thế giới của Agent trong tương lai, có nghĩa là ai có thể cung cấp các "khối năng lực" có cấu trúc, có thể gọi và đáng tin cậy, người đó sẽ trở thành một phần của nền tảng thế hệ mới. Từ SEO đến AEO (Tối ưu hóa Động cơ Agent), từ lưu lượng trang đến gọi chuỗi nhiệm vụ, hình thức sản phẩm và tư duy thiết kế đều đang được tái cấu trúc. Cuộc chiến trình duyệt lần thứ ba xảy ra ở "đầu vào" chứ không phải "trình bày"; người quyết định thắng thua không còn là ai thu hút được sự chú ý của người dùng, mà là ai giành được niềm tin của Agent, có được lối vào để gọi.
Lịch sử phát triển trình duyệt
Vào đầu những năm 90 của thế kỷ trước, khi internet chưa trở thành một phần của cuộc sống hàng ngày, Netscape Navigator xuất hiện như một chiếc thuyền buồm mở ra vùng đất mới, mở ra cánh cửa đến thế giới số cho hàng triệu người dùng. Trình duyệt này không phải là trình duyệt đầu tiên, nhưng là sản phẩm đầu tiên thực sự hướng tới đại chúng và định hình trải nghiệm internet. Lúc đó, mọi người lần đầu tiên có thể dễ dàng duyệt web thông qua giao diện đồ họa, như thể cả thế giới đột nhiên trở nên trong tầm tay.
Tuy nhiên, sự huy hoàng thường ngắn ngủi. Microsoft nhanh chóng nhận ra tầm quan trọng của trình duyệt và quyết định buộc Internet Explorer phải được tích hợp vào hệ điều hành Windows, biến nó thành trình duyệt mặc định. Chiến lược này được coi là "vũ khí sát thương của nền tảng", trực tiếp làm sụp đổ vị thế thống trị thị trường của Netscape. Nhiều người dùng không phải chọn IE một cách chủ động, mà là do hệ thống mặc định đã chấp nhận nó. IE, nhờ vào khả năng phân phối của Windows, nhanh chóng trở thành ông trùm trong ngành, trong khi Netscape rơi vào quỹ đạo suy tàn.
Trong nghịch cảnh, các kỹ sư của Netscape đã chọn một con đường quyết liệt và lý tưởng – họ đã công khai mã nguồn của trình duyệt, gửi lời kêu gọi đến cộng đồng mã nguồn mở. Quyết định này, như một "sự nhượng bộ theo kiểu Macedonia" trong giới công nghệ, báo hiệu sự kết thúc của một kỷ nguyên cũ và sự trỗi dậy của sức mạnh mới. Đoạn mã này sau đó trở thành nền tảng cho dự án trình duyệt Mozilla, ban đầu được đặt tên là Phoenix (có nghĩa là Phượng Hoàng tái sinh), nhưng đã trải qua nhiều lần đổi tên vì vấn đề thương hiệu, cuối cùng được đặt tên là Firefox.
Firefox không chỉ đơn thuần là bản sao của Netscape, mà còn đạt được nhiều bước đột phá trong trải nghiệm người dùng, hệ sinh thái plugin, an ninh, và nhiều lĩnh vực khác. Sự ra đời của nó đánh dấu chiến thắng của tinh thần mã nguồn mở, đồng thời mang lại sức sống mới cho toàn ngành. Có người mô tả Firefox là "người kế thừa tinh thần" của Netscape, giống như Đế chế Ottoman kế thừa ánh sáng còn lại của Byzantine. Ẩn dụ này tuy phóng đại nhưng lại rất có ý nghĩa.
Nhưng trong những năm trước khi Firefox chính thức ra mắt, Microsoft đã phát hành sáu phiên bản IE, nhờ vào lợi thế thời gian và chiến lược bundling hệ thống, khiến Firefox ngay từ đầu đã ở vị trí phải đuổi theo, định sẵn rằng cuộc đua này không phải là một cuộc cạnh tranh công bằng với xuất phát điểm ngang bằng.
Trong khi đó, một người chơi sớm khác cũng đang âm thầm xuất hiện. Năm 1994, trình duyệt Opera ra mắt, có nguồn gốc từ Na Uy, ban đầu chỉ là một dự án thử nghiệm. Nhưng từ phiên bản 7.0 vào năm 2003, nó đã giới thiệu động cơ Presto tự phát triển, tiên phong hỗ trợ CSS, bố cục thích ứng, điều khiển bằng giọng nói và mã hóa Unicode cùng các công nghệ tiên tiến khác. Mặc dù số lượng người dùng hạn chế, nhưng về mặt công nghệ, nó luôn đi đầu trong ngành, trở thành "sở thích của các tín đồ công nghệ".
Cùng năm đó, Apple đã ra mắt trình duyệt Safari. Đây là một bước ngoặt đầy ý nghĩa. Vào thời điểm đó, Microsoft đã đầu tư 150 triệu đô la vào Apple đang cận kề phá sản, nhằm duy trì bề ngoài cạnh tranh và tránh sự kiểm tra chống độc quyền. Mặc dù công cụ tìm kiếm mặc định của Safari từ khi ra đời là Google, nhưng mối quan hệ lịch sử này với Microsoft tượng trưng cho mối quan hệ phức tạp và tinh tế giữa các ông lớn internet: hợp tác và cạnh tranh, luôn đi đôi với nhau.
Năm 2007, IE7 được phát hành cùng với Windows Vista, nhưng phản hồi từ thị trường khá bình thường. Ngược lại, Firefox, nhờ vào nhịp độ cập nhật nhanh hơn, cơ chế mở rộng thân thiện hơn và sức hấp dẫn tự nhiên đối với các nhà phát triển, đã tăng thị phần ổn định lên khoảng 20%. Sự thống trị của IE dần bị lung lay, hướng đi đang thay đổi.
Google lại là một cách tiếp cận khác. Mặc dù đã bắt đầu lên kế hoạch phát triển trình duyệt của riêng mình từ năm 2001, nhưng phải mất sáu năm để thuyết phục CEO Eric Schmidt phê duyệt dự án này. Chrome ra mắt vào năm 2008, được xây dựng trên dự án mã nguồn mở Chromium và động cơ WebKit mà Safari sử dụng. Nó bị chế giễu là trình duyệt "cồng kềnh", nhưng nhờ sức mạnh lớn của Google trong quảng cáo và xây dựng thương hiệu, nó đã nhanh chóng nổi lên.
Vũ khí chính của Chrome không phải là tính năng, mà là nhịp độ cập nhật phiên bản thường xuyên (mỗi sáu tuần một lần) và trải nghiệm đồng nhất trên toàn nền tảng. Vào tháng 11 năm 2011, Chrome lần đầu tiên vượt qua Firefox, chiếm thị phần 27%; sáu tháng sau, lại vượt qua IE, hoàn thành sự chuyển mình từ kẻ thách thức thành kẻ thống trị.
Trong khi đó, Internet di động của Trung Quốc cũng đang hình thành hệ sinh thái riêng. Trình duyệt UC thuộc sở hữu của Alibaba đã nhanh chóng nổi lên vào đầu những năm 2010, đặc biệt là ở các thị trường mới nổi như Ấn Độ, Indonesia, Trung Quốc, nhờ vào thiết kế nhẹ, nén dữ liệu để tiết kiệm băng thông và các đặc tính khác, đã thu hút sự ưa chuộng của người dùng thiết bị giá rẻ. Năm 2015, thị phần trình duyệt di động toàn cầu của nó đã vượt qua 17%, trong đó ở Ấn Độ có lúc cao tới 46%. Tuy nhiên, chiến thắng này không bền vững. Khi chính phủ Ấn Độ tăng cường kiểm tra an ninh đối với các ứng dụng Trung Quốc, trình duyệt UC buộc phải rút lui khỏi thị trường quan trọng, dần dần đánh mất hào quang ngày xưa.
Bước vào thập kỷ 2020, vị thế thống trị của Chrome đã được thiết lập, với thị phần toàn cầu ổn định ở khoảng 65%. Đáng chú ý, mặc dù công cụ tìm kiếm Google và trình duyệt Chrome đều thuộc về Alphabet, nhưng từ góc độ thị trường, chúng lại là hai hệ thống độc quyền riêng biệt - cái trước kiểm soát khoảng 90% lối vào tìm kiếm toàn cầu, trong khi cái sau nắm giữ "cửa sổ đầu tiên" mà hầu hết người dùng vào mạng.
Để giữ vững cấu trúc độc quyền kép này, Google không tiếc tiền đầu tư. Năm 2022, Alphabet đã trả cho Apple khoảng 20 tỷ USD chỉ để Google duy trì vị trí tìm kiếm mặc định trong Safari. Một số phân tích chỉ ra rằng khoản chi này tương đương với 36% doanh thu quảng cáo tìm kiếm mà Google kiếm được từ lưu lượng truy cập Safari. Nói cách khác, Google đang trả "phí bảo vệ" cho hào thành.
Nhưng hướng gió lại một lần nữa thay đổi. Với sự trỗi dậy của các mô hình ngôn ngữ lớn (LLM), tìm kiếm truyền thống bắt đầu bị ảnh hưởng. Năm 2024, thị phần tìm kiếm của Google giảm từ 93% xuống 89%, mặc dù vẫn chiếm ưu thế, nhưng những vết nứt đã bắt đầu xuất hiện. Điều gây rúng động hơn nữa, là tin đồn rằng Apple có thể ra mắt một công cụ tìm kiếm AI riêng — nếu Safari chuyển sang tìm kiếm mặc định trong hệ sinh thái của mình, điều này không chỉ sẽ viết lại cấu trúc sinh thái, mà còn có thể làm lung lay trụ cột lợi nhuận của Alphabet. Thị trường phản ứng nhanh chóng, giá cổ phiếu của Alphabet từ 170 USD giảm xuống 140 USD, phản ánh không chỉ là nỗi hoảng sợ của các nhà đầu tư, mà còn là sự bất an sâu sắc về hướng đi của thời đại tìm kiếm trong tương lai.
Từ Navigator đến Chrome, từ lý tưởng mã nguồn mở đến thương mại hóa quảng cáo, từ trình duyệt nhẹ đến trợ lý tìm kiếm AI, cuộc chiến trình duyệt luôn là một cuộc chiến về công nghệ, nền tảng, nội dung và quyền kiểm soát. Chiến trường không ngừng di chuyển, nhưng bản chất chưa bao giờ thay đổi: ai nắm giữ cổng vào, người đó định nghĩa tương lai.
Trong mắt các VC, dựa vào nhu cầu mới của con người đối với công cụ tìm kiếm trong thời đại LLM và AI, cuộc chiến trình duyệt lần thứ ba đang dần diễn ra. Dưới đây là tình hình tài trợ của một số dự án nổi bật trong lĩnh vực trình duyệt AI.
Kiến trúc cũ của trình duyệt hiện đại
Khi nói đến kiến trúc trình duyệt, kiến trúc truyền thống cổ điển như hình dưới đây:
Khách hàng — Cổng vào phía trước
Tra cứu qua HTTPS gửi đến Google Front End gần nhất, hoàn thành giải mã TLS, lấy mẫu QoS và định tuyến địa lý. Nếu phát hiện lưu lượng bất thường (DDoS, tự động thu thập) có thể giới hạn lưu lượng hoặc thách thức ở lớp này.
Hiểu truy vấn
Phía trước cần hiểu ý nghĩa của các từ mà người dùng nhập vào, có ba bước: sửa lỗi chính tả thần kinh, sửa "recpie" thành "recipe"; mở rộng từ đồng nghĩa, mở rộng "how to fix bike" thành "repair bicycle". Phân tích ý định, xác định truy vấn là thông tin, điều hướng hay ý định giao dịch, và phân bổ yêu cầu Vertical.
Gọi lại ứng viên
Công nghệ truy vấn mà Google sử dụng được gọi là: chỉ mục đảo ngược. Trong chỉ mục theo thứ tự, chúng ta có thể chỉ định một ID để truy vấn đến tệp. Tuy nhiên, người dùng không thể biết nội dung mà họ muốn nằm ở số hiệu nào trong hàng trăm tỷ tệp, vì vậy họ đã sử dụng chỉ mục đảo ngược rất truyền thống, để truy vấn các tệp nào có từ khóa tương ứng. Tiếp theo, Google sử dụng chỉ mục vector để xử lý tìm kiếm ngữ nghĩa, tức là tìm những nội dung có ý nghĩa tương tự với truy vấn. Nó chuyển đổi văn bản, hình ảnh và các nội dung khác thành các vector cao chiều (embedding), và thực hiện tìm kiếm dựa trên sự tương đồng giữa các vector này. Ví dụ, ngay cả khi người dùng tìm kiếm "cách làm bột pizza", công cụ tìm kiếm cũng có thể trả về kết quả liên quan đến "hướng dẫn làm bột pizza", vì chúng tương tự về mặt ngữ nghĩa. Sau khi trải qua chỉ mục đảo ngược và chỉ mục vector, khoảng một trăm nghìn trang web sẽ được sàng lọc ban đầu.
Sắp xếp nhiều cấp
Hệ thống thường sử dụng các đặc trưng nhẹ hàng nghìn chiều như BM25, TF-IDF, điểm chất lượng trang để lọc từ hàng trăm ngàn trang ứng viên xuống khoảng 1000 trang, hình thành tập ứng viên sơ bộ. Các hệ thống này được gọi chung là động cơ gợi ý. Nó phụ thuộc vào hàng triệu đặc trưng được sinh ra từ nhiều thực thể khác nhau, bao gồm hành vi người dùng, thuộc tính trang, ý định truy vấn và tín hiệu ngữ cảnh. Ví dụ, Google sẽ tổng hợp lịch sử người dùng, phản hồi hành vi của các người dùng khác, ngữ nghĩa của trang, ý nghĩa truy vấn và các thông tin khác, đồng thời cũng xem xét các yếu tố ngữ cảnh như thời gian (thời điểm trong ngày, ngày cụ thể trong tuần) và các sự kiện bên ngoài như tin tức thời sự.
Học sâu thực hiện xếp hạng chính
Trong giai đoạn tìm kiếm ban đầu, Google sử dụng các công nghệ như RankBrain và Neural Matching để hiểu ý nghĩa của truy vấn và lọc ra các kết quả liên quan ban đầu từ hàng triệu tài liệu. RankBrain là hệ thống học máy mà Google giới thiệu vào năm 2015, nhằm hiểu rõ hơn ý nghĩa của truy vấn người dùng, đặc biệt là các truy vấn xuất hiện lần đầu. Nó chuyển đổi truy vấn và tài liệu thành các đại diện vector, tính toán độ tương đồng giữa chúng để tìm ra các kết quả liên quan nhất. Ví dụ, đối với truy vấn "cách làm bột pizza", ngay cả khi tài liệu không có từ khóa hoàn toàn khớp, RankBrain vẫn có thể nhận diện nội dung liên quan đến "cơ bản pizza" hoặc "làm bột".
Neural Matching là một công nghệ khác mà Google ra mắt vào năm 2018, nhằm hiểu sâu hơn về mối quan hệ ngữ nghĩa giữa truy vấn và tài liệu. Nó sử dụng mô hình mạng nơ-ron để nắm bắt mối quan hệ mơ hồ giữa các từ, giúp Google khớp tốt hơn giữa truy vấn và nội dung trang web. Ví dụ, đối với truy vấn "tại sao quạt máy tính xách tay của tôi lại kêu to", Neural Matching có thể hiểu rằng người dùng có thể đang tìm kiếm thông tin khắc phục sự cố liên quan đến quá nhiệt, bụi bẩn tích tụ hoặc sử dụng CPU cao, ngay cả khi những từ này không xuất hiện trực tiếp trong truy vấn.
Sắp xếp lại sâu: Ứng dụng của mô hình BERT
Sau khi sơ bộ lọc ra các tài liệu liên quan, Google sử dụng mô hình BERT (Bidirectional Encoder Representations from Transformers) để sắp xếp các tài liệu này một cách tinh vi hơn, nhằm đảm bảo rằng các kết quả liên quan nhất được xếp ở vị trí phía trước. BERT là một mô hình ngôn ngữ đã được huấn luyện trước dựa trên Transformer, có khả năng hiểu mối quan hệ ngữ cảnh của các từ trong câu. Trong tìm kiếm, BERT được sử dụng để xếp lại các tài liệu đã được thu thập sơ bộ. Nó thông qua việc mã hóa kết hợp giữa truy vấn và tài liệu, tính toán điểm số liên quan giữa chúng, từ đó xếp lại tài liệu. Ví dụ, đối với truy vấn "đậu xe trên dốc không có lề đường", BERT có thể hiểu nghĩa của "không có lề đường" và trả về trang gợi ý cho tài xế hướng bánh xe về phía lề đường, thay vì hiểu nhầm là có lề đường. Đối với các kỹ sư SEO, điều này có nghĩa là cần phải học chính xác cách mà Google xếp hạng và các thuật toán gợi ý học máy, nhằm tối ưu hóa nội dung trang web một cách có mục tiêu để đạt được thứ hạng hiển thị cao hơn.
Trên đây là quy trình làm việc điển hình của công cụ tìm kiếm Google. Tuy nhiên, trong thời đại bùng nổ AI và dữ liệu lớn hiện nay, người dùng đã phát sinh nhu cầu mới về sự tương tác của trình duyệt.
Tại sao AI sẽ định hình lại trình duyệt
Trước tiên, chúng ta cần làm rõ, tại sao hình thức trình duyệt này vẫn tồn tại? Liệu có tồn tại một hình thức thứ ba, ngoài đại lý trí tuệ nhân tạo và trình duyệt?
Chúng tôi cho rằng, sự tồn tại là không thể thay thế. Tại sao trí tuệ nhân tạo có thể sử dụng trình duyệt, nhưng không thể hoàn toàn thay thế trình duyệt? Bởi vì trình duyệt là nền tảng chung, không chỉ là cổng vào để đọc dữ liệu, mà còn là cổng vào chung để nhập dữ liệu. Thế giới này không thể chỉ có thông tin nhập vào, mà còn phải tạo ra dữ liệu và tương tác với các trang web, vì vậy trình duyệt tích hợp thông tin người dùng cá nhân vẫn sẽ tồn tại rộng rãi.
Chúng tôi nắm bắt điểm này: Trình duyệt như một cổng thông dụng, không chỉ để đọc dữ liệu, người dùng thường cần tương tác với dữ liệu. Trình duyệt tự nó là nơi lưu trữ dấu vân tay của người dùng một cách tuyệt vời. Các hành vi người dùng phức tạp hơn và hành vi tự động hóa, phải được thực hiện thông qua trình duyệt. Trình duyệt có thể lưu trữ tất cả dấu vân tay hành vi, thẻ thông hành và các thông tin riêng tư khác của người dùng, thực hiện các cuộc gọi không cần tin cậy trong quá trình tự động hóa. Và hành động tương tác với dữ liệu có thể phát triển thành:
Người dùng → Gọi AI Agent → Trình duyệt.
Nói cách khác, phần duy nhất có thể bị thay thế là hướng đi phù hợp với xu hướng phát triển của thế giới — — thông minh hơn, cá nhân hóa hơn, và tự động hóa hơn. Rõ ràng, phần này có thể được giao cho AI Agent xử lý, nhưng chính AI Agent lại không phải là nơi phù hợp để chứa đựng nội dung cá nhân hóa của người dùng, vì nó phải đối mặt với nhiều thách thức về an toàn dữ liệu và tính tiện lợi. Cụ thể là:
Trình duyệt là nơi lưu trữ nội dung cá nhân hóa:
sự thay đổi sâu sắc về hình thức tương tác
Quay trở lại chủ đề ban đầu, hành vi của chúng ta khi sử dụng trình duyệt có thể được chia thành ba hình thức chính: đọc dữ liệu, nhập dữ liệu, tương tác dữ liệu. Mô hình AI lớn (LLM) đã thay đổi sâu sắc hiệu quả và cách thức mà chúng ta đọc dữ liệu, trước đây hành vi của người dùng tìm kiếm trang web dựa trên từ khóa trở nên rất lỗi thời và kém hiệu quả.
Sự tiến hóa của hành vi tìm kiếm của người dùng — — là lấy câu trả lời tổng hợp, hay là nhấp vào trang web, đã có nhiều nghiên cứu phân tích.
Về mô hình hành vi của người dùng, nghiên cứu năm 2024 cho thấy, tại Mỹ, trong mỗi 1.000 lần tìm kiếm trên Google, chỉ có 374 lần cuối cùng nhấp vào trang mở. Nói cách khác, gần 63% thuộc về hành vi "không nhấp". Người dùng có thói quen lấy thông tin về thời tiết, tỷ giá, thẻ kiến thức, v.v. trực tiếp từ trang kết quả tìm kiếm.
Về mặt tâm lý người dùng, một khảo sát năm 2023 cho thấy 44% người được hỏi cho rằng kết quả tự nhiên thông thường đáng tin cậy hơn đoạn trích nổi bật (featured snippet). Nghiên cứu học thuật cũng phát hiện rằng trong các vấn đề có tranh cãi hoặc không có sự thật thống nhất, người dùng thích các trang kết quả có liên kết từ nhiều nguồn.
Điều đó có nghĩa là, thực sự có một bộ phận người dùng không tin tưởng nhiều vào tóm tắt AI, nhưng cũng có một tỷ lệ người dùng đáng kể đã chuyển sang hành vi "không nhấp chuột". Vì vậy, trình duyệt AI vẫn cần khám phá một hình thức tương tác phù hợp — đặc biệt trong phần đọc dữ liệu, vì vấn đề "ảo giác" (hallucination) của mô hình lớn hiện tại vẫn chưa được giải quyết, nhiều người dùng vẫn khó có thể hoàn toàn tin tưởng vào nội dung tóm tắt được tự động tạo ra. Trong lĩnh vực này, nếu tích hợp mô hình lớn vào trình duyệt, thực tế không cần phải có những thay đổi cách mạng đối với trình duyệt, chỉ cần từ từ giải quyết độ chính xác và khả năng kiểm soát của mô hình, và sự cải tiến này cũng đang tiếp tục được thúc đẩy.
Và điều thực sự có thể kích hoạt sự thay đổi lớn trong trình duyệt chính là lớp tương tác dữ liệu. Trong quá khứ, mọi người hoàn thành tương tác bằng cách nhập từ khóa - đây là giới hạn mà trình duyệt có thể hiểu. Còn bây giờ, người dùng ngày càng có xu hướng sử dụng một đoạn ngôn ngữ tự nhiên đầy đủ để mô tả các nhiệm vụ phức tạp, chẳng hạn như:
Những hành vi này, ngay cả đối với con người, cũng cần tốn nhiều thời gian để truy cập nhiều trang web, thu thập và so sánh dữ liệu. Nhưng những T任务代理 (Agentic Tasks) này đang dần được AI Agent tiếp quản.
Điều này cũng phù hợp với xu hướng phát triển lịch sử: tự động hóa và thông minh hóa. Con người khao khát được giải phóng đôi tay, AI Agent chắc chắn sẽ được tích hợp sâu vào trình duyệt. Trình duyệt trong tương lai phải được thiết kế cho tự động hóa hoàn toàn, đặc biệt cần xem xét:
Chỉ khi thiết kế đáp ứng cả hai yêu cầu này, trình duyệt mới có thể trở thành nền tảng ổn định để AI Agent thực hiện nhiệm vụ.
Tiếp theo, chúng ta sẽ tập trung vào năm dự án được chú ý nhiều, bao gồm Browser Use, Arc (Công ty Browser), Perplexity, Brave và Donut. Những dự án này đại diện cho hướng tiến hóa tương lai của trình duyệt AI, cũng như tiềm năng kết hợp bản địa của nó trong các bối cảnh Web3 và Crypto.
Sử Dụng Trình Duyệt
Đây chính là logic cốt lõi đằng sau việc Perplexity và Browser Use nhận được khoản tài trợ khổng lồ. Đặc biệt là Browser Use, là cơ hội đổi mới thứ hai có tính xác định và tiềm năng tăng trưởng lớn nhất nổi lên trong nửa đầu năm 2025.
Browser là một lớp ngữ nghĩa thực sự được xây dựng, với cốt lõi là xây dựng kiến trúc nhận diện ngữ nghĩa cho thế hệ trình duyệt tiếp theo.
Browser Use biến đổi lại "DOM = cây nút nhìn thấy" thành "DOM ngữ nghĩa = cây lệnh nhìn thấy bởi LLM", cho phép đại lý không cần "tọa độ điểm xem" mà vẫn có thể nhấp chuột chính xác, điền và tải lên; tuyến đường này thay thế OCR hình ảnh hoặc Selenium tọa độ bằng "văn bản có cấu trúc → gọi hàm", vì vậy thực thi nhanh hơn, tiết kiệm token hơn, và ít lỗi hơn. TechCrunch gọi đây là "lớp keo giúp AI thực sự hiểu trang web", và vòng gọi vốn hạt giống 17 triệu đô la hoàn thành vào tháng 3 chính là đặt cược vào sự đổi mới cơ sở này.
HTML được render tạo thành cây DOM chuẩn; trình duyệt sau đó sinh ra một cây accessibility tree, cung cấp cho các trình đọc màn hình các nhãn "vai trò" và "trạng thái" phong phú hơn.
Đồng thời, một khi bộ tiêu chuẩn này được đưa vào W3C, thì có thể giải quyết vấn đề nhập liệu trên trình duyệt một cách đáng kể. Chúng ta sẽ sử dụng thư ngỏ và trường hợp của The Browser Company để giải thích thêm tại sao ý tưởng của The Browser Company là sai lầm.
ARC
Công ty Browser (Arc, công ty mẹ của ), trong bức thư công khai của mình cho biết, trình duyệt ARC sẽ bước vào giai đoạn bảo trì thường xuyên, và đội ngũ sẽ tập trung vào trình duyệt DIA hoàn toàn hướng về AI. Bức thư cũng thừa nhận rằng, hiện tại vẫn chưa xác định được con đường thực hiện cụ thể cho DIA. Đồng thời, đội ngũ đã đưa ra một số dự đoán về thị trường trình duyệt trong tương lai. Dựa trên những dự đoán này, chúng tôi tin rằng, để thực sự lật đổ cấu trúc trình duyệt hiện tại, điều cốt yếu là phải thay đổi đầu ra ở phía tương tác.
Dưới đây là ba dự đoán của đội ngũ ARC về thị trường trình duyệt trong tương lai.
Đầu tiên, họ cho rằng các trang web không còn là giao diện tương tác chính. Không thể phủ nhận, đây là một phán đoán đầy thách thức, và cũng chính là lý do chúng tôi giữ thái độ thận trọng đối với kết quả phản ánh của người sáng lập. Theo quan điểm của chúng tôi, quan điểm này đánh giá thấp vai trò của trình duyệt, và cũng chính là vấn đề then chốt mà họ đã bỏ qua khi khám phá con đường trình duyệt AI.
Mô hình lớn thể hiện xuất sắc trong việc nắm bắt ý định, chẳng hạn như hiểu các lệnh như "giúp tôi đặt vé máy bay". Tuy nhiên, về khả năng chứa đựng thông tin, chúng vẫn còn thiếu sót. Khi người dùng cần một cuốn sổ ghi chú theo phong cách bảng điều khiển hoặc Bloomberg Terminal, hay một canvas trực quan giống như Figma, không có gì vượt trội hơn một trang web chuyên dụng được sắp xếp với độ chính xác pixel. Thiết kế công thái học được tùy chỉnh cho từng sản phẩm — biểu đồ, chức năng kéo thả, phím tắt — không phải là những yếu tố trang trí, mà là khả năng nhận thức được nén lại. Những khả năng này không thể được đáp ứng bởi các tương tác đối thoại đơn giản. Lấy Gate.com làm ví dụ, nếu người dùng muốn thực hiện các thao tác đầu tư, chỉ dựa vào cuộc đối thoại AI là không đủ, vì người dùng có sự phụ thuộc cao vào việc nhập thông tin, độ chính xác và cách trình bày có cấu trúc.
Đội ngũ RC có một sai lệch cơ bản trong tư duy của họ, đó là không thể phân biệt rõ ràng giữa "tương tác" được cấu thành từ hai chiều: đầu vào và đầu ra. Ở phía đầu vào, quan điểm của họ có lý trong một số bối cảnh, AI thực sự có thể nâng cao hiệu quả của tương tác theo chỉ dẫn; nhưng ở phía đầu ra, phán đoán đó rõ ràng mất cân bằng, bỏ qua vai trò cốt lõi của trình duyệt trong việc trình bày thông tin và trải nghiệm cá nhân hóa. Ví dụ, Reddit có cách bố trí và kiến trúc thông tin độc đáo của nó, trong khi AAVE lại có giao diện và cấu trúc hoàn toàn khác. Trình duyệt như một nền tảng không chỉ chứa dữ liệu có tính riêng tư cao mà còn có khả năng hiển thị đa dạng các giao diện sản phẩm, sự thay thế của trình duyệt ở cấp độ đầu vào vốn đã hạn chế, trong khi ở phía đầu ra, sự phức tạp và tính không thể tiêu chuẩn hóa càng khiến nó khó bị thay thế. So với đó, các trình duyệt AI hiện tại trên thị trường chủ yếu tập trung vào cấp độ "tóm tắt đầu ra": tóm tắt trang web, tinh giản thông tin, tạo ra kết luận, vẫn chưa đủ để tạo ra thách thức căn bản đối với các trình duyệt hoặc hệ thống tìm kiếm chính như Google, chỉ chiếm lĩnh được thị phần tóm tắt tìm kiếm.
Do đó, điều có thể thực sự làm rung chuyển thị phần lên tới 66% của Chrome, chắc chắn sẽ không phải là "Chrome tiếp theo". Để đạt được sự lật đổ này, cần phải tái cấu trúc một cách căn bản chế độ hiển thị của trình duyệt, để nó có thể thích ứng với nhu cầu tương tác dưới sự dẫn dắt của AI Agent trong thời đại thông minh, đặc biệt là trong thiết kế kiến trúc phía đầu vào. Chính vì lý do này, chúng tôi càng đánh giá cao con đường công nghệ mà Browser Use đã chọn - sự chú trọng của họ vào cách mạng cấu trúc của cơ chế nền tảng trình duyệt. Bất kỳ hệ thống nào một khi đạt được "nguyên tử hóa" hoặc "mô-đun hóa", tính khả lập trình và khả năng kết hợp phát sinh từ đó sẽ mang lại tiềm năng lật đổ cực kỳ mạnh mẽ, và đó chính là hướng đi mà Browser Use đang thúc đẩy hiện tại.
Tóm lại, hoạt động của AI Agent vẫn phụ thuộc lớn vào sự tồn tại của trình duyệt. Trình duyệt không chỉ là nơi lưu trữ dữ liệu cá nhân hóa phức tạp mà còn là giao diện hiển thị chung cho các ứng dụng đa dạng, vì vậy nó sẽ tiếp tục giữ vai trò là cổng tương tác chính trong tương lai. Khi AI Agent được nhúng sâu vào trình duyệt để hoàn thành các nhiệm vụ cố định, nó sẽ tương tác với dữ liệu người dùng và các ứng dụng cụ thể, tức là chủ yếu hoạt động ở phía đầu vào. Để làm được điều này, các mô hình hiển thị hiện có của trình duyệt cần được đổi mới, nhằm đạt được mức độ tương thích và thích ứng tối đa với AI Agent, từ đó bắt kịp ứng dụng một cách hiệu quả hơn.
Perplexity
Perplexity là một công cụ tìm kiếm AI nổi bật với hệ thống gợi ý của mình, với định giá mới nhất lên tới 14 tỷ USD, tăng gần 5 lần so với 3 tỷ USD vào tháng 6 năm 2024. Trung bình hàng tháng, số lượng truy vấn tìm kiếm vượt quá 400 triệu lần, vào tháng 9 năm 2024 đã xử lý khoảng 250 triệu truy vấn, số lượng truy vấn của người dùng tăng 8 lần so với năm trước, số người dùng hoạt động hàng tháng vượt quá 30 triệu.
Các đặc điểm chính của nó là khả năng tóm tắt trang web theo thời gian thực, chiếm ưu thế trong việc lấy thông tin ngay lập tức. Đầu năm nay, nó bắt đầu xây dựng trình duyệt gốc của riêng mình mang tên Comet. Perplexity mô tả Comet sắp ra mắt không chỉ là một trình duyệt "hiển thị" trang web, mà còn có khả năng "suy nghĩ" về trang web. Chính thức cho biết nó sẽ được tích hợp sâu vào công cụ trả lời của Perplexity trong trình duyệt, đây là tư duy "toàn bộ máy" kiểu Steve Jobs: chôn sâu nhiệm vụ AI vào nền tảng trình duyệt, thay vì làm tiện ích bên. Thay thế các "mười liên kết màu xanh" truyền thống bằng các câu trả lời ngắn gọn có trích dẫn, cạnh tranh trực tiếp với Chrome.
Tuy nhiên, họ vẫn cần giải quyết hai vấn đề cốt lõi: chi phí tìm kiếm cao và tỷ suất lợi nhuận thấp từ người dùng biên. Mặc dù Perplexity đã ở vị trí dẫn đầu trong lĩnh vực tìm kiếm AI, nhưng Google cũng đã công bố một cuộc tái cấu trúc thông minh quy mô lớn cho sản phẩm cốt lõi của mình tại hội nghị I/O 2025. Đối với việc tái cấu trúc trình duyệt, Google đã ra mắt một trải nghiệm tab trình duyệt mới, có tên là AI Model, tích hợp các chức năng Overview, Deep Research và Agentic trong tương lai, toàn bộ dự án được gọi là "Project Mariner".
Google đang tích cực tiến hành việc tái cấu trúc AI, vì vậy chỉ dựa vào việc mô phỏng các chức năng bề mặt, chẳng hạn như Overview, DeepResearch hoặc Agentics, khó có thể thực sự tạo ra mối đe dọa. Điều thực sự có khả năng thiết lập trật tự mới trong sự hỗn loạn sẽ là việc tái cấu trúc kiến trúc trình duyệt từ nền tảng, sâu sắc nhúng các mô hình ngôn ngữ lớn (LLM) vào lõi trình duyệt, đạt được sự thay đổi căn bản trong cách tương tác.
Brave
Brave là trình duyệt sớm nhất và thành công nhất trong ngành Crypto, dựa trên kiến trúc Chromium, vì vậy nó tương thích với các tiện ích trên Google Store. Nó thu hút người dùng bằng mô hình kiếm Tokens dựa trên quyền riêng tư và lướt web. Đường đi phát triển của Brave phần nào thể hiện tiềm năng tăng trưởng của nó. Tuy nhiên, từ góc độ sản phẩm, quyền riêng tư dĩ nhiên là quan trọng, nhưng nhu cầu vẫn chủ yếu tập trung vào một nhóm người dùng nhất định, đối với đại chúng, nhận thức về quyền riêng tư vẫn chưa trở thành yếu tố quyết định chính. Do đó, khả năng dựa vào đặc điểm này để lật đổ các ông lớn hiện có là khá thấp.
Đến nay, số người dùng hoạt động hàng tháng của Brave đã đạt 82,7 triệu, số người dùng hoạt động hàng ngày là 35,6 triệu, với thị phần khoảng 1%–1,5%. Quy mô người dùng đang có xu hướng tăng trưởng liên tục: từ 6 triệu vào tháng 7 năm 2019, tăng lên 25 triệu vào tháng 1 năm 2021, đạt 57 triệu vào tháng 1 năm 2023, và dự kiến vượt 82 triệu vào tháng 2 năm 2025, với tỷ lệ tăng trưởng hàng năm vẫn duy trì ở mức hai chữ số. Số lượng tìm kiếm trung bình hàng tháng khoảng 1,34 tỷ lần, chỉ bằng khoảng 0,3% của Google.
Dưới đây là lộ trình phát triển của Brave.
Brave đang lên kế hoạch nâng cấp thành trình duyệt AI ưu tiên bảo mật. Tuy nhiên, do hạn chế trong việc thu thập dữ liệu người dùng, điều này dẫn đến mức độ tùy chỉnh của mô hình lớn thấp hơn, điều này lại cản trở việc thực hiện cải tiến sản phẩm nhanh chóng và chính xác. Trong thời đại Trình duyệt Agentic sắp tới, Brave có thể giữ được thị phần ổn định trong nhóm người dùng đặc biệt chú trọng đến bảo mật, nhưng khó có thể trở thành người chơi chính. Trợ lý AI của họ, Leo, giống như một plugin bổ sung, chỉ tăng cường chức năng trên nền tảng sản phẩm hiện có, có khả năng tóm tắt nội dung nhất định, nhưng vẫn chưa có chiến lược rõ ràng để chuyển đổi toàn diện sang AI Agent, và sự đổi mới ở cấp độ tương tác vẫn còn thiếu.
Donut
Gần đây, ngành Crypto cũng đã có những tiến bộ trong lĩnh vực Trình duyệt Agentic. Dự án khởi nghiệp Donut đã huy động được 7 triệu USD trong vòng Pre-seed, với sự dẫn dắt chung của Sequoia China (Hongshan), HackVC và Bitkraft Ventures. Hiện tại, dự án vẫn đang trong giai đoạn ý tưởng ban đầu, với tầm nhìn nhằm đạt được khả năng tích hợp "Khám phá - Quyết định - Thực thi gốc Crypto" (Discovery, Decision-making, and Crypto-native Execution).
Hướng đi này tập trung vào việc kết hợp các con đường thực thi tự động hóa gốc của tiền điện tử. Như a16z đã dự đoán, trong tương lai, Agent có khả năng thay thế công cụ tìm kiếm trở thành lối vào lưu lượng chính, các doanh nhân sẽ không còn cạnh tranh xung quanh thuật toán xếp hạng của Google nữa, mà sẽ tranh giành lưu lượng truy cập và chuyển đổi do việc thực hiện bởi Agent mang lại. Ngành công nghiệp đã gọi xu hướng này là «AEO» (Tối ưu hóa Đáp án / Động cơ Agent), hoặc đi xa hơn là «ATF» (Hoàn thành Nhiệm vụ Agentic), tức là không còn tối ưu hóa thứ hạng tìm kiếm, mà trực tiếp phục vụ cho các mô hình thông minh có thể hoàn thành các nhiệm vụ như đặt hàng, đặt vé, viết thư cho người dùng.
cho các doanh nhân
Đầu tiên, phải thừa nhận rằng: Browser vẫn là "cổng tổng" lớn nhất chưa được tái cấu trúc trong thế giới internet. Số người dùng máy tính để bàn trên toàn cầu khoảng 2,1 tỷ, người dùng di động hơn 4,3 tỷ, nó là phương tiện chung cho việc nhập dữ liệu, hành vi tương tác và lưu trữ dấu vân tay cá nhân hóa. Hình thức này tồn tại không phải vì quán tính, mà là vì trình duyệt vốn có thuộc tính hai chiều: vừa là "cổng đọc" dữ liệu, vừa là "cổng viết" hành vi.
Do đó, đối với các nhà khởi nghiệp, những gì thực sự có tiềm năng cách mạng không phải là tối ưu hóa ở cấp độ "đầu ra trang". Ngay cả khi có thể thực hiện chức năng tổng quan giống như AI của Google trong một tab mới, về bản chất vẫn thuộc về sự phát triển của các plugin trình duyệt, chưa hình thành sự thay đổi căn bản trong mô hình. Điểm đột phá thực sự nằm ở "bên nhập" — tức là cách mà AI Agent chủ động gọi sản phẩm của các nhà khởi nghiệp để hoàn thành các nhiệm vụ cụ thể. Điều này sẽ trở thành chìa khóa để các sản phẩm trong tương lai có thể tích hợp vào hệ sinh thái Agent, nhận được lưu lượng và phân chia giá trị.
Thời đại tìm kiếm ghép "nhấp chuột"; Thời đại đại lý ghép "gọi".
Nếu bạn là một doanh nhân, tại sao không tưởng tượng lại sản phẩm của bạn như một thành phần API — — để các tác nhân thông minh không chỉ có thể "đọc hiểu" nó mà còn có thể "gọi" nó. Điều này đòi hỏi bạn phải xem xét ba chiều ngay từ đầu trong thiết kế sản phẩm:
Một, tiêu chuẩn hóa cấu trúc giao diện: Sản phẩm của bạn có thể "gọi" được không?
Sản phẩm có khả năng được gọi bởi các tác nhân thông minh hay không phụ thuộc vào việc cấu trúc thông tin của nó có thể được chuẩn hóa và trừu tượng hóa thành một schema rõ ràng hay không. Ví dụ, các thao tác quan trọng như đăng ký người dùng, nút đặt hàng, gửi bình luận có thể được mô tả thông qua cấu trúc DOM có nghĩa hoặc ánh xạ JSON không? Hệ thống có cung cấp máy trạng thái để cho phép tác nhân tái hiện quy trình hành vi của người dùng một cách ổn định không? Các tương tác của người dùng trên trang có hỗ trợ tái hiện bằng kịch bản không? Có sẵn WebHook hoặc API Endpoint có thể truy cập ổn định không?
Đây chính là lý do cốt lõi cho sự thành công trong việc huy động vốn của Browser Use — — Nó đã biến trình duyệt từ HTML được hiển thị phẳng thành một cây ngữ nghĩa có thể được LLM gọi. Đối với các doanh nhân, việc đưa ra những ý tưởng thiết kế tương tự trong sản phẩm web chính là đang điều chỉnh cấu trúc cho thời đại AI Agent.
Hai, Danh tính và Thông hành: Bạn có thể giúp Agent "vượt qua rào cản niềm tin" không?
Để hoàn thành giao dịch, gọi thanh toán hoặc tài sản, AI đại lý cần một lớp trung gian đáng tin cậy - bạn có thể trở thành nó không? Trình duyệt tự nhiên có thể đọc lưu trữ cục bộ, gọi ví, nhận diện mã xác thực, kết nối xác thực hai yếu tố, đó chính là lý do nó phù hợp hơn để thực hiện so với mô hình lớn trên đám mây. Điều này đặc biệt đúng trong bối cảnh Web3: tiêu chuẩn giao diện gọi tài sản trên chuỗi không đồng nhất, nếu Agent không có "danh tính" hoặc "khả năng ký" thì sẽ rất khó khăn.
Vì vậy, đối với các nhà khởi nghiệp Crypto, đây là một khu vực trắng đầy tưởng tượng: "MCP (Multi Capability Platform) của thế giới Blockchain". Điều này có thể là một lớp chỉ thị chung (cho phép Agent gọi Dapp), cũng có thể là một tập hợp các giao diện hợp đồng tiêu chuẩn hóa, thậm chí là một loại ví nhẹ + nền tảng danh tính chạy tại chỗ.
Ba, sự hiểu biết lại về cơ chế lưu lượng: Tương lai không phải là SEO, mà là AEO / ATF
Trước đây, bạn phải cố gắng để được thuật toán của Google yêu thích; bây giờ bạn cần phải được AI Agent tích hợp vào chuỗi nhiệm vụ. Điều này có nghĩa là sản phẩm phải có độ chi tiết nhiệm vụ rõ ràng: không phải là một "trang", mà là một chuỗi "đơn vị khả năng có thể gọi"; điều này có nghĩa là bạn cần bắt đầu tối ưu hóa Agent (AEO) hoặc thích ứng lịch trình nhiệm vụ (ATF): chẳng hạn như liệu quy trình đăng ký có thể được đơn giản hóa thành các bước có cấu trúc hay không, liệu giá cả có thể được kéo qua giao diện hay không, liệu tồn kho có thể được kiểm tra theo thời gian thực hay không;
Bạn thậm chí cần bắt đầu thích ứng với cú pháp gọi khác nhau trong các khung LLM khác nhau — OpenAI và Claude có sở thích không nhất quán về việc gọi hàm, sử dụng công cụ. Chrome là cổng vào thế giới cũ, chứ không phải là lối vào thế giới mới. Các dự án khởi nghiệp thực sự có tương lai không phải là tái tạo một trình duyệt mà là làm cho trình duyệt hiện có phục vụ cho Agent, xây dựng cầu nối cho thế hệ "dòng lệnh" mới.
Nếu như Web2 dựa vào UI để thu hút sự chú ý của người dùng, thì thời đại Web3 + AI Agent chính là dựa vào việc gọi chuỗi để thu hút ý định thực thi của Agent.