Mengapa dikatakan bahwa era AI Agent akan menyambut pertempuran browser ketiga?

Question

Penulis: Gate Ventures### TL;DRPerang browser ketiga sedang berlangsung diam-diam. Melihat kembali sejarah, dari Netscape di tahun 90-an, IE milik Microsoft, hingga semangat open-source dari Firefox dan Chrome milik Google, persaingan browser selalu menjadi cerminan dari penguasaan platform dan perubahan paradigma teknologi. Chrome meraih posisi dominan berkat kecepatan pembaruan dan keterkaitan ekosistem, sementara Google melalui struktur "duopoli" antara pencarian dan browser, membentuk lingkaran tertutup sebagai pintu masuk informasi.Namun hari ini, pola ini sedang goyah. Kebangkitan model bahasa besar (LLM) membuat semakin banyak pengguna menyelesaikan tugas di halaman hasil pencarian dengan "nol klik", yang mengurangi perilaku klik halaman web tradisional. Sementara itu, rumor bahwa Apple bermaksud mengganti mesin pencari default di Safari semakin mengancam dasar keuntungan perusahaan induk Alphabet (Google ), pasar mulai menunjukkan ketidaknyamanan terhadap "ortodoksi pencarian".Browser itu sendiri juga sedang menghadapi perombakan peran. Ia bukan hanya alat untuk menampilkan halaman web, tetapi juga merupakan wadah yang menggabungkan berbagai kemampuan seperti input data, perilaku pengguna, identitas privasi, dan lainnya. AI Agent mungkin kuat, tetapi untuk menyelesaikan interaksi halaman yang kompleks, memanggil data identitas lokal, dan mengontrol elemen halaman web, tetap memerlukan bantuan batasan kepercayaan dan sandbox fungsional dari browser. Browser sedang bertransformasi dari antarmuka manusia menjadi platform pemanggilan sistem untuk Agent.Dalam artikel ini, kami membahas apakah masih ada kebutuhan untuk browser, sambil berpendapat bahwa yang benar-benar mungkin memecahkan pola pasar browser saat ini bukanlah "Chrome yang lebih baik", melainkan struktur interaksi baru: bukan hanya tampilan informasi, tetapi pemanggilan tugas. Browser di masa depan harus dirancang untuk AI Agent — tidak hanya bisa membaca, tetapi juga bisa menulis dan mengeksekusi. Proyek seperti Browser Use sedang mencoba untuk menyemantikakan struktur halaman, mengubah antarmuka visual menjadi teks terstruktur yang dapat dipanggil oleh LLM, sehingga mewujudkan pemetaan dari halaman ke instruksi, yang secara signifikan mengurangi biaya interaksi.Proyek-proyek utama di pasar mulai mencoba: Perplexity membangun browser asli Comet, menggunakan AI untuk menggantikan hasil pencarian tradisional; Brave menggabungkan perlindungan privasi dengan inferensi lokal, menggunakan LLM untuk meningkatkan fungsi pencarian dan pemblokiran; sementara proyek Crypto asli seperti Donut, menargetkan pintu masuk baru untuk interaksi antara AI dan aset di blockchain. Karakteristik bersama dari proyek-proyek ini adalah: mencoba untuk membangun kembali sisi input browser, bukan hanya memperindah lapisan outputnya.Bagi para pengusaha, peluang tersembunyi dalam hubungan segitiga antara input, struktur, dan agen. Browser sebagai antarmuka panggilan dunia di masa depan berarti siapa yang dapat menyediakan "kemampuan blok" yang terstruktur, dapat dipanggil, dan dapat dipercaya, maka mereka akan menjadi bagian dari platform generasi baru. Dari SEO hingga AEO (Optimisasi Mesin Agen), dari lalu lintas halaman hingga panggilan rantai tugas, bentuk produk dan pemikiran desain sedang direkonstruksi. Perang browser ketiga terjadi pada "input" dan bukan "tampilan"; yang menentukan kemenangan bukan lagi siapa yang menarik perhatian pengguna, tetapi siapa yang memenangkan kepercayaan Agen dan mendapatkan pintu masuk untuk panggilan.### Sejarah Perkembangan BrowserPada awal tahun 90-an, ketika internet belum menjadi bagian dari kehidupan sehari-hari, Netscape Navigator muncul bak kapal layar yang membuka benua baru, memberikan jutaan pengguna akses ke dunia digital. Browser ini bukanlah yang pertama, tetapi adalah yang pertama dalam arti sebenarnya menjangkau masyarakat luas dan membentuk pengalaman internet. Pada saat itu, orang-orang untuk pertama kalinya bisa dengan mudah menjelajahi halaman web melalui antarmuka grafis, seolah-olah seluruh dunia tiba-tiba menjadi dapat dijangkau.Namun, kejayaan seringkali bersifat sementara. Microsoft segera menyadari pentingnya browser dan memutuskan untuk memaksa menggabungkan Internet Explorer ke dalam sistem operasi Windows, menjadikannya sebagai browser default. Strategi ini dapat dianggap sebagai "senjata pamungkas platform", yang langsung menghancurkan posisi dominan pasar Netscape. Banyak pengguna bukan secara aktif memilih IE, tetapi karena sistem secara default menerima penggunaannya. IE dengan bantuan kemampuan distribusi Windows, dengan cepat menjadi penguasa industri, sementara Netscape terjebak dalam jalur kemunduran.Di tengah kesulitan, para insinyur Netscape memilih jalan yang radikal dan idealis — mereka membuka kode sumber browser dan mengundang komunitas open source. Keputusan ini seolah merupakan "penyerahan Macedonia" dalam dunia teknologi, menandakan akhir dari era lama dan munculnya kekuatan baru. Kode ini kemudian menjadi dasar untuk proyek browser Mozilla, yang awalnya dinamai Phoenix (berarti kebangkitan burung phoenix), tetapi karena masalah merek, telah berganti nama beberapa kali, dan akhirnya dinamai Firefox.Firefox bukan sekadar menyalin Netscape, tetapi telah melakukan banyak terobosan dalam pengalaman pengguna, ekosistem plugin, dan keamanan. Kelahirannya menandai kemenangan semangat sumber terbuka dan memberikan energi baru bagi seluruh industri. Beberapa orang menggambarkan Firefox sebagai "pewaris spiritual" Netscape, seperti Kekaisaran Ottoman yang mewarisi cahaya terakhir Bizantium. Meskipun perbandingan ini berlebihan, tetapi cukup bermakna.Namun, beberapa tahun sebelum peluncuran resmi Firefox, Microsoft telah merilis enam versi IE, dengan menggunakan keunggulan waktu dan strategi pengikatan sistem, membuat Firefox sejak awal berada dalam posisi mengejar, yang membuat perlombaan ini tidak merupakan kompetisi yang adil di garis start.Sementara itu, pemain awal lainnya juga muncul secara diam-diam. Pada tahun 1994, browser Opera diluncurkan, yang berasal dari Norwegia, awalnya hanya merupakan proyek eksperimental. Namun, sejak versi 7.0 pada tahun 2003, ia memperkenalkan mesin Presto yang dikembangkan sendiri, yang pertama kali mendukung CSS, tata letak responsif, kontrol suara, dan teknologi canggih seperti pengkodean Unicode. Meskipun jumlah pengguna terbatas, secara teknologi selalu berada di garis depan industri, menjadi "favorit para geek."Pada tahun yang sama, Apple meluncurkan browser Safari. Ini adalah sebuah pergeseran yang bermakna. Pada saat itu, Microsoft pernah melakukan investasi sebesar 150 juta dolar AS kepada Apple yang hampir bangkrut, untuk menjaga penampilan persaingan dan menghindari pemeriksaan anti-monopoli. Meskipun mesin pencari default Safari sejak diluncurkan adalah Google, sejarah keterikatan ini dengan Microsoft melambangkan hubungan yang kompleks dan halus antara raksasa internet: kolaborasi dan kompetisi, selalu berjalan beriringan.Pada tahun 2007, IE7 diluncurkan bersama Windows Vista, tetapi umpan balik pasar biasa-biasa saja. Sebaliknya, Firefox, dengan ritme pembaruan yang lebih cepat, mekanisme ekstensi yang lebih ramah, dan daya tarik alami bagi pengembang, secara bertahap meningkatkan pangsa pasarnya menjadi sekitar 20%. Dominasi IE mulai melemah, arah angin sedang berubah.Google memiliki pendekatan yang berbeda. Meskipun telah mulai merencanakan untuk membuat browser mereka sendiri sejak tahun 2001, mereka membutuhkan enam tahun untuk meyakinkan CEO Eric Schmidt untuk menyetujui proyek ini. Chrome diluncurkan pada tahun 2008, dibangun di atas proyek sumber terbuka Chromium dan mesin WebKit yang digunakan oleh Safari. Browser ini dijuluki "berat", tetapi berkat keahlian Google dalam iklan dan pembentukan merek, ia cepat meroket.Senjata utama Chrome bukanlah fungsinya, melainkan ritme pembaruan versi yang sering (setiap enam minggu) dan pengalaman yang seragam di seluruh platform. Pada November 2011, Chrome pertama kali melampaui Firefox, dengan pangsa pasar mencapai 27%; enam bulan kemudian, Chrome kembali melampaui IE, menyelesaikan peralihan dari penantang menjadi penguasa.Sementara itu, internet seluler di China juga mulai membentuk ekosistemnya sendiri. UC Browser yang dimiliki oleh Alibaba meroket dengan cepat pada awal 2010-an, terutama di pasar-pasar berkembang seperti India, Indonesia, dan China, dengan desain yang ringan dan fitur penghematan data yang membuatnya populer di kalangan pengguna perangkat kelas bawah. Pada tahun 2015, pangsa pasar browser seluler globalnya melampaui 17%, bahkan mencapai 46% di India. Namun, kemenangan ini tidak bertahan lama. Seiring dengan pemerintah India yang memperketat pemeriksaan keamanan terhadap aplikasi China, UC Browser terpaksa keluar dari pasar kunci dan secara bertahap kehilangan kejayaannya yang dulu.Memasuki tahun 2020-an, dominasi Chrome telah terbangun, dengan pangsa pasar global stabil sekitar 65%. Perlu dicatat bahwa, meskipun mesin pencari Google dan browser Chrome sama-sama milik Alphabet, dari sisi pasar keduanya merupakan dua sistem hegemoni yang independen — yang pertama mengendalikan sekitar sembilan puluh persen pintu masuk pencarian global, sementara yang kedua menguasai sebagian besar pengguna dalam mengakses "jendela pertama" internet.Untuk mempertahankan struktur monopoli ganda ini, Google rela mengeluarkan banyak uang. Pada tahun 2022, Alphabet membayar sekitar 20 miliar dolar AS kepada Apple hanya untuk menjaga posisi pencarian default Google di Safari. Beberapa analisis menunjukkan bahwa pengeluaran ini setara dengan 36% dari pendapatan iklan pencarian yang diperoleh Google dari lalu lintas Safari. Dengan kata lain, Google sedang membayar "biaya perlindungan" untuk mempertahankan bentengnya.Namun arah angin sekali lagi berubah. Dengan munculnya model bahasa besar (LLM), pencarian tradisional mulai terpengaruh. Pada tahun 2024, pangsa pasar pencarian Google turun dari 93% menjadi 89%. Meskipun masih mendominasi, retakan mulai muncul. Yang lebih mengganggu adalah rumor bahwa Apple mungkin akan meluncurkan mesin pencari AI sendiri — jika Safari mengubah pencarian default ke ekosistemnya sendiri, ini tidak hanya akan mengubah pola ekologi, tetapi juga bisa menggoyahkan pilar keuntungan Alphabet. Reaksi pasar cepat, harga saham Alphabet jatuh dari 170 dolar menjadi 140 dolar, yang mencerminkan bukan hanya kepanikan investor, tetapi juga ketidakpastian mendalam tentang arah masa depan era pencarian.Dari Navigator ke Chrome, dari idealisme sumber terbuka ke komersialisasi iklan, dari browser ringan ke asisten pencarian AI, persaingan browser selalu menjadi perang tentang teknologi, platform, konten, dan kendali. Medan perang terus berpindah, tetapi esensi tidak pernah berubah: siapa yang menguasai pintu masuk, dia yang mendefinisikan masa depan.Di mata VC, dengan bergantung pada LLM dan kebutuhan baru orang-orang terhadap mesin pencari di era AI, perang browser ketiga secara bertahap sedang berlangsung. Berikut adalah beberapa kondisi pendanaan proyek di jalur browser AI yang terkenal.### Arsitektur lama dari browser modernMembahas arsitektur browser, arsitektur tradisional klasik ditunjukkan pada gambar di bawah ini:**Klien — Masuk Frontend**Periksa pengiriman HTTPS ke Google Front End terbaru, selesaikan dekripsi TLS, pengambilan sampel QoS, dan pengaturan rute geografis. Jika terdeteksi lalu lintas yang tidak normal (DDoS, pengambilan otomatis), dapat membatasi aliran atau tantangan di tingkat ini.**Pemahaman Query**Frontend perlu memahami makna kata yang diketik oleh pengguna, ada tiga langkah: koreksi ejaan neural, mengoreksi "recpie" menjadi "recipe"; perluasan sinonim, memperluas "how to fix bike" menjadi "repair bicycle". Analisis niat, menentukan apakah query adalah informasi, navigasi, atau niat transaksi, dan mengalokasikan permintaan Vertical.**Pemanggilan Kandidat**Teknologi kueri yang digunakan oleh Google disebut: indeks terbalik. Dalam indeks urut, kita dapat mengindeks file hanya dengan memberikan ID. Namun, pengguna tidak mungkin mengetahui nomor konten yang mereka inginkan di antara ratusan miliar file, sehingga Google menggunakan indeks terbalik yang sangat tradisional, untuk mencari file mana yang memiliki kata kunci yang sesuai berdasarkan kontennya. Selanjutnya, Google menggunakan indeks vektor untuk menangani pencarian semantik, yaitu mencari konten yang mirip dengan makna kueri. Ia mengubah teks, gambar, dan konten lainnya menjadi vektor berdimensi tinggi (embedding), dan melakukan pencarian berdasarkan kesamaan antara vektor-vektor ini. Sebagai contoh, meskipun pengguna mencari "cara membuat adonan pizza", mesin pencari dapat mengembalikan hasil yang terkait dengan "panduan pembuatan adonan pizza", karena keduanya secara semantik mirip. Setelah melalui indeks terbalik dan indeks vektor, sekitar seratus ribu halaman web akan disaring awal.**Pengurutan Berlapis**Sistem biasanya menyaring halaman kandidat dari skala ratusan ribu menjadi sekitar 1000 artikel menggunakan ribuan dimensi fitur ringan seperti BM25, TF-IDF, dan skor kualitas halaman, membentuk kumpulan kandidat awal. Sistem semacam ini secara umum disebut sebagai mesin rekomendasi. Ini bergantung pada berbagai fitur masif yang dihasilkan oleh berbagai entitas, termasuk perilaku pengguna, atribut halaman, niat pencarian, dan sinyal konteks. Misalnya, Google mengintegrasikan riwayat pengguna, umpan balik perilaku pengguna lain, semantik halaman, makna pencarian, dan informasi lainnya, sementara juga mempertimbangkan faktor konteks seperti waktu (periode dalam sehari, hari tertentu dalam seminggu) dan berita terkini serta peristiwa eksternal.**Pembelajaran mendalam untuk pengurutan utama**Pada tahap pencarian awal, Google menggunakan teknologi seperti RankBrain dan Neural Matching untuk memahami makna kueri dan menyaring hasil yang relevan dari dokumen yang sangat besar. RankBrain adalah sistem pembelajaran mesin yang diperkenalkan Google pada tahun 2015, yang bertujuan untuk lebih baik memahami arti kueri pengguna, terutama kueri yang muncul untuk pertama kalinya. Ini dilakukan dengan mengubah kueri dan dokumen menjadi representasi vektor, menghitung kesamaan antara keduanya, sehingga dapat menemukan hasil yang paling relevan. Misalnya, untuk kueri "bagaimana cara membuat adonan pizza", meskipun dokumen tidak memiliki kata kunci yang cocok secara sempurna, RankBrain dapat mengidentifikasi konten yang terkait dengan "dasar pizza" atau "pembuatan adonan."Neural Matching adalah teknologi lain yang diluncurkan oleh Google pada tahun 2018, yang bertujuan untuk memahami lebih dalam hubungan semantik antara kueri dan dokumen. Ini menggunakan model jaringan saraf untuk menangkap hubungan samar antara kata-kata, membantu Google lebih baik mencocokkan kueri dan konten halaman web. Misalnya, untuk kueri "mengapa suara kipas laptop saya sangat keras", Neural Matching mampu memahami bahwa pengguna mungkin mencari informasi pemecahan masalah terkait overheating, penumpukan debu, atau penggunaan CPU yang tinggi, meskipun kata-kata tersebut tidak muncul secara langsung dalam kueri.**Penyusunan Ulang Mendalam: Aplikasi Model BERT**Setelah melakukan penyaringan awal terhadap dokumen-dokumen terkait, Google menggunakan model BERT (Bidirectional Encoder Representations from Transformers) untuk mengurutkan dokumen-dokumen tersebut dengan lebih cermat, guna memastikan hasil yang paling relevan muncul di depan. BERT adalah model bahasa pra-latih berbasis Transformer yang mampu memahami hubungan konteks kata dalam kalimat. Dalam pencarian, BERT digunakan untuk mengurutkan kembali dokumen yang ditemukan pada tahap pencarian awal. Ia melakukan pengkodean bersama antara kueri dan dokumen, menghitung skor relevansi di antara keduanya, sehingga dokumen dapat diurutkan kembali. Misalnya, untuk kueri "parkir di jalan menanjak tanpa tepi jalan", BERT dapat memahami arti "tanpa tepi jalan" dan mengembalikan halaman yang menyarankan pengemudi untuk mengarahkan roda ke arah pinggir jalan, alih-alih salah paham sebagai situasi dengan tepi jalan. Dan bagi insinyur SEO, mereka perlu belajar dengan tepat tentang algoritma rekomendasi peringkat Google dan pembelajaran mesin, untuk mengoptimalkan konten halaman secara spesifik demi mendapatkan peringkat tampil yang lebih tinggi.Itulah alur kerja tipikal dari mesin pencari Google. Namun, di era ledakan AI dan big data saat ini, pengguna memiliki kebutuhan baru terhadap interaksi dengan browser.### Mengapa AI akan membentuk ulang browserPertama-tama kita perlu menjelaskan, mengapa bentuk browser ini masih ada? Apakah ada bentuk ketiga yang ada, selain agen kecerdasan buatan dan pilihan browser?Kami percaya bahwa keberadaan tidak dapat digantikan. Mengapa kecerdasan buatan dapat menggunakan browser, tetapi tidak dapat sepenuhnya menggantikan browser? Karena browser adalah platform yang universal, bukan hanya sebagai pintu masuk untuk membaca data, tetapi juga sebagai pintu masuk universal untuk memasukkan data. Dunia ini tidak mungkin hanya memiliki input informasi, tetapi juga harus menghasilkan data dan berinteraksi dengan situs web, jadi browser yang mengintegrasikan informasi pengguna yang dipersonalisasi akan tetap ada secara luas.Kami menangkap poin ini: browser sebagai pintu masuk umum, tidak hanya digunakan untuk membaca data, pengguna sering kali juga perlu berinteraksi dengan data. Browser itu sendiri adalah tempat yang sangat baik untuk menyimpan sidik jari pengguna. Perilaku pengguna yang lebih kompleks dan perilaku otomatisasi harus dilakukan melalui browser. Browser dapat menyimpan semua sidik jari perilaku pengguna, paspor, dan informasi pribadi lainnya, mewujudkan pemanggilan tanpa kepercayaan dalam proses otomatisasi. Sedangkan tindakan berinteraksi dengan data dapat berkembang menjadi:Pengguna → Memanggil AI Agent → Browser.Dengan kata lain, satu-satunya bagian yang mungkin bisa digantikan adalah arah yang sesuai dengan tren perkembangan dunia — lebih cerdas, lebih personal, dan lebih otomatis. Tentu saja, bagian ini bisa diserahkan kepada AI Agent untuk ditangani, tetapi AI Agent itu sendiri sama sekali tidak cocok untuk menampung konten yang dipersonalisasi oleh pengguna, karena menghadapi tantangan ganda dalam hal keamanan data dan kemudahan. Secara spesifik:Browser adalah tempat penyimpanan konten yang dipersonalisasi:* Sebagian besar model besar dihosting di cloud, konteks percakapan bergantung pada penyimpanan server, sehingga sulit untuk langsung memanggil data sensitif seperti kata sandi lokal, dompet, Cookie, dll.* Mengirim semua data browsing dan pembayaran ke model pihak ketiga, perlu mendapatkan kembali otorisasi pengguna; baik EU "DMA" maupun undang-undang privasi di tingkat negara bagian AS mengharuskan minimisasi data saat keluar.* Pengisian otomatis kode verifikasi dua faktor, pemanggilan kamera, atau pemanfaatan GPU untuk inferensi WebGPU, harus dilakukan di dalam sandbox browser.* Konteks data sangat bergantung pada browser, termasuk tab, Cookie, IndexedDB, Cache Pekerja Layanan, kredensial Passkey, dan data ekstensi, semuanya disimpan di dalam browser.### perubahan mendalam dalam bentuk interaksiKembali ke topik awal, perilaku kita dalam menggunakan browser dapat dibagi menjadi tiga bentuk: membaca data, memasukkan data, dan berinteraksi dengan data. Model besar kecerdasan buatan (LLM) telah mengubah secara mendalam efisiensi dan cara kita membaca data, di mana perilaku pengguna yang mencari halaman web berdasarkan kata kunci terasa sangat kuno dan tidak efisien.Evolusi perilaku pencarian pengguna — apakah mendapatkan jawaban ringkasan, atau mengklik halaman web, sudah banyak penelitian yang menganalisis.Dalam hal pola perilaku pengguna, penelitian tahun 2024 menunjukkan bahwa di Amerika Serikat, dari setiap 1.000 pencarian Google, hanya 374 yang akhirnya mengklik halaman terbuka. Dengan kata lain, hampir 63% termasuk dalam perilaku "tanpa klik". Pengguna cenderung langsung mendapatkan informasi tentang cuaca, nilai tukar, kartu pengetahuan, dan lainnya dari halaman hasil pencarian.Dalam aspek psikologis pengguna, sebuah survei tahun 2023 menunjukkan bahwa 44% responden percaya bahwa hasil alami yang biasa lebih dapat dipercaya dibandingkan dengan cuplikan terpilih (featured snippet). Penelitian akademis juga menemukan bahwa pada isu yang kontroversial atau tidak memiliki kebenaran yang seragam, pengguna lebih memilih halaman hasil yang mengandung tautan dari berbagai sumber.Dengan kata lain, memang ada sebagian pengguna yang tidak terlalu mempercayai ringkasan AI, tetapi juga ada proporsi pengguna yang cukup besar yang sudah beralih ke "klik nol". Oleh karena itu, browser AI masih perlu mengeksplorasi bentuk interaksi yang tepat — terutama dalam hal pembacaan data, karena masalah "ilusi" (hallucination) dari model besar saat ini masih belum teratasi, banyak pengguna masih sulit untuk sepenuhnya mempercayai ringkasan konten yang dihasilkan secara otomatis. Dalam hal ini, jika model besar dimasukkan ke dalam browser, sebenarnya tidak perlu melakukan perubahan revolusioner pada browser, cukup secara bertahap menyelesaikan masalah akurasi dan kontrol model, perbaikan ini juga sedang terus dilakukan.Dan yang benar-benar mungkin memicu perubahan besar-besaran pada browser adalah lapisan interaksi data. Di masa lalu, orang berinteraksi dengan memasukkan kata kunci - ini adalah batas pemahaman browser. Namun sekarang, pengguna semakin cenderung menggunakan satu paragraf bahasa alami untuk menggambarkan tugas-tugas kompleks, seperti:* "Mencari tiket pesawat langsung dari New York ke Los Angeles pada waktu tertentu"* "Mencari tiket pesawat dari New York ke Shanghai dan kemudian ke Los Angeles"Tindakan-tindakan ini, bahkan bagi manusia, memerlukan banyak waktu untuk mengakses berbagai situs web, mengumpulkan dan membandingkan data. Namun, Tugas Agentic ini secara bertahap sedang diambil alih oleh AI Agent.Ini juga sesuai dengan arah evolusi sejarah: otomatisasi dan kecerdasan. Orang-orang ingin membebaskan tangan mereka, AI Agent pasti akan tertanam dalam browser. Browser di masa depan harus dirancang untuk otomatisasi penuh, terutama harus mempertimbangkan:* Bagaimana menjaga pengalaman membaca manusia dan keterbacaan AI Agent,* Bagaimana cara melayani pengguna dan model agen di halaman yang sama.Hanya desain yang memenuhi kedua hal ini, browser dapat benar-benar menjadi kendaraan yang stabil bagi AI Agent untuk menjalankan tugas.Selanjutnya, kita akan fokus pada lima proyek yang sangat diperhatikan, termasuk Browser Use, Arc (The Browser Company), Perplexity, Brave, dan Donut. Proyek-proyek ini masing-masing mewakili arah evolusi masa depan browser AI, serta potensi integrasi nativanya dalam skenario Web3 dan Crypto.#### **Penggunaan Browser**Inilah inti logika di balik pembiayaan besar yang didapat oleh Perplexity dan Browser Use. Terutama Browser Use, adalah peluang inovasi kedua yang paling pasti dan memiliki potensi pertumbuhan yang muncul pada paruh pertama tahun 2025.Browser adalah lapisan semantik yang dibangun dengan arti sebenarnya, dengan inti dalam membangun arsitektur pengenalan semantik untuk browser generasi berikutnya.Browser Use mengubah tradisional "DOM＝pohon node yang dilihat manusia" menjadi "DOM semantik＝pohon instruksi yang dilihat LLM", sehingga agen dapat mengklik, mengisi, dan mengunggah dengan tepat tanpa perlu "koordinat titik tampilan"; rute ini menggantikan OCR visual atau koordinat Selenium dengan "teks terstruktur → pemanggilan fungsi", sehingga eksekusi lebih cepat, token lebih hemat, dan kesalahan lebih sedikit. TechCrunch menyebutnya sebagai "lapisan perekat yang membuat AI benar-benar memahami halaman web", sementara putaran benih senilai 17 juta dolar yang selesai pada bulan Maret adalah taruhan pada inovasi dasar ini.HTML yang dirender membentuk pohon DOM standar; browser kemudian menghasilkan pohon aksesibilitas, menyediakan label "peran" dan "status" yang lebih kaya untuk pembaca layar.* Mengabstraksi setiap elemen interaktif (, dll) menjadi segmen JSON, disertai dengan metadata seperti peran, visibilitas, koordinat, dan tindakan yang dapat dieksekusi;* Mengubah seluruh halaman menjadi daftar "simpul semantik" yang datar, untuk dibaca sekaligus oleh LLM dalam petunjuk sistem;* Menerima instruksi tingkat tinggi dari output LLM (seperti click(node\_id=「btn-Checkout」)), memutar ulang ke browser sebenarnya. Blog resmi menyebut proses ini sebagai "mengubah antarmuka situs web menjadi teks terstruktur yang dapat dipahami LLM"Pada saat yang sama, begitu standar ini diperkenalkan ke W3C, masalah input browser dapat diselesaikan dengan sangat baik. Kami menggunakan surat terbuka dan kasus dari The Browser Company untuk menjelaskan lebih lanjut mengapa pemikiran The Browser Company adalah salah.#### **ARC**Perusahaan Browser (Arc sebagai perusahaan induk ) menyatakan dalam surat terbukanya bahwa browser ARC akan memasuki tahap pemeliharaan reguler, dan tim akan fokus pada browser DIA yang sepenuhnya berorientasi AI. Dalam surat tersebut, mereka juga mengakui bahwa jalur implementasi konkret untuk DIA belum ditentukan. Selain itu, tim mengajukan beberapa prediksi tentang pasar browser di masa depan. Berdasarkan prediksi ini, kami lebih lanjut percaya bahwa untuk benar-benar mengubah pola browser yang ada, kunci terletak pada mengubah output sisi interaksi.Berikut adalah tiga prediksi dari tim ARC tentang pasar browser di masa depan.Pertama, mereka percaya bahwa halaman web tidak lagi menjadi antarmuka interaktif utama. Tidak dapat disangkal, ini adalah penilaian yang menantang, dan ini adalah inti dari sikap skeptis kami terhadap hasil refleksi pendirinya. Menurut kami, pandangan tersebut secara signifikan meremehkan peran browser, yang juga merupakan masalah kunci yang diabaikan saat menjelajahi jalur browser AI.Model besar menunjukkan kinerja yang baik dalam menangkap niat, seperti memahami perintah "Bantu saya memesan tiket pesawat". Namun, dalam hal kapasitas pembawaan informasi, mereka masih kurang. Ketika pengguna memerlukan sesuatu seperti buku catatan bergaya dasbor atau terminal Bloomberg, atau kanvas visual seperti Figma, tidak ada yang lebih unggul daripada halaman web yang diatur dengan presisi piksel. Desain ergonomis yang disesuaikan untuk setiap produk—grafik, fungsi seret dan lepas, pintasan—bukanlah hiasan dekoratif, tetapi adalah ketersediaan yang mengompresi kognisi. Kemampuan ini tidak dapat ditampung dalam interaksi percakapan yang sederhana. Sebagai contoh Gate.com, jika pengguna ingin melakukan operasi investasi, hanya bergantung pada percakapan AI saja tidaklah cukup, karena pengguna sangat bergantung pada input informasi, presisi, dan penyajian yang terstruktur.Tim RC memiliki bias mendasar dalam visi jalurnya, yaitu tidak dapat membedakan dengan jelas bahwa "interaksi" terdiri dari dua dimensi, yaitu input dan output. Di sisi input, pandangannya memiliki beberapa validitas dalam skenario tertentu, di mana AI memang dapat meningkatkan efisiensi interaksi berbasis instruksi; tetapi di sisi output, penilaian tersebut jelas tidak seimbang, mengabaikan peran inti browser dalam penyajian informasi dan pengalaman yang dipersonalisasi. Misalnya, Reddit memiliki tata letak dan arsitektur informasi yang unik, sementara AAVE memiliki antarmuka dan struktur yang sepenuhnya berbeda. Browser sebagai platform yang menampung data yang sangat pribadi dan mampu merender antarmuka produk yang beragam, memiliki alternatif yang terbatas di sisi input, sementara di sisi output, kompleksitas dan karakteristik yang tidak dapat distandarisasi membuatnya sulit untuk diganggu. Sebagai perbandingan, browser AI yang ada di pasar saat ini lebih berfokus pada tingkat "ringkasan output": merangkum halaman web, mengekstrak informasi, menghasilkan kesimpulan, yang masih belum cukup untuk menjadi tantangan mendasar bagi browser arus utama seperti Google atau sistem pencarian lainnya, dan hanya membagi pangsa pasar ringkasan pencarian.**Oleh karena itu, yang benar-benar dapat menggoyang pangsa pasar hingga 66% dari Chrome, pasti tidak akan menjadi "Chrome berikutnya". Untuk mencapai gangguan ini, mode rendering browser harus direvolusi secara mendasar, agar dapat menyesuaikan dengan kebutuhan interaksi di era pintar yang didominasi oleh AI Agent, terutama dalam desain arsitektur di sisi input. Karena alasan ini, kami lebih menghargai jalur teknologi yang diambil oleh Browser Use — yang fokus pada perubahan struktural mekanisme dasar browser. Setiap sistem yang berhasil mencapai "atomisasi" atau "modularisasi", akan menghasilkan pemrograman dan kombinasi yang memiliki potensi gangguan yang sangat besar, dan inilah arah yang saat ini didorong oleh Browser Use.**Secara ringkas, operasi AI Agent masih sangat bergantung pada keberadaan browser. Browser tidak hanya merupakan tempat penyimpanan utama untuk data personalisasi yang kompleks, tetapi juga merupakan antarmuka rendering umum untuk aplikasi yang beragam, sehingga akan terus berfungsi sebagai pintu masuk interaksi utama di masa depan. Seiring dengan AI Agent yang semakin dalam disematkan ke dalam browser untuk menyelesaikan tugas tetap, ia akan berinteraksi dengan aplikasi tertentu melalui pemanggilan data pengguna, yang terutama berfungsi di sisi input. Untuk itu, mode rendering browser yang ada perlu diinnovasi agar dapat mencapai kompatibilitas dan adaptasi maksimum terhadap AI Agent, sehingga dapat menangkap aplikasi dengan lebih efektif.#### **Perplexity**Perplexity adalah mesin pencari AI yang terkenal dengan sistem rekomendasinya, dengan valuasi terbaru mencapai 14 miliar dolar, meningkat hampir 5 kali lipat dibandingkan 3 miliar dolar pada Juni 2024. Rata-rata jumlah pencarian yang diproses per bulan melebihi 400 juta, dengan sekitar 250 juta kueri diproses pada September 2024, dan jumlah kueri pengguna meningkat 8 kali lipat dibandingkan tahun sebelumnya, dengan pengguna aktif bulanan melebihi 30 juta.Fitur utama dari ini adalah kemampuannya untuk merangkum halaman secara real-time, memberikan keunggulan dalam mendapatkan informasi instan. Di awal tahun ini, ia mulai membangun peramban natifnya sendiri, Comet. Perplexity menggambarkan Comet yang akan segera diluncurkan sebagai peramban yang tidak hanya "menampilkan" halaman web, tetapi juga "memikirkan" halaman web. Pihak resmi menyebutkan bahwa itu akan menyematkan mesin jawaban Perplexity secara mendalam di dalam peramban, ini adalah pemikiran "satu kesatuan" ala Jobs: mengubur tugas AI di dalam dasar peramban, bukan sebagai plugin sidebar. Menggantikan "sepuluh tautan biru" tradisional dengan jawaban ringkas yang disertai kutipan, langsung bersaing dengan Chrome.Namun, masih ada dua masalah inti yang perlu diatasi: biaya pencarian yang tinggi dan margin keuntungan yang rendah dari pengguna marginal. Meskipun Perplexity telah memimpin di bidang pencarian AI, Google juga mengumumkan transformasi besar-besaran terhadap produk inti mereka di konferensi I/O 2025. Untuk transformasi browser, Google meluncurkan pengalaman tab browser baru yang disebut AI Model, yang mengintegrasikan Overview, Deep Research, dan fitur Agentic di masa depan, dengan keseluruhan proyek disebut "Project Mariner".Google sedang aktif melakukan perombakan AI, sehingga hanya dengan meniru fungsi permukaan, seperti Overview, DeepResearch, atau Agentics, sulit untuk benar-benar menjadi ancaman. Yang benar-benar mungkin menciptakan tatanan baru dalam kekacauan adalah dengan membangun kembali arsitektur peramban dari bawah, dengan mengintegrasikan model bahasa besar (LLM) secara mendalam ke dalam inti peramban, dan mewujudkan perubahan mendasar dalam cara interaksi.#### **Brave**Brave adalah browser yang paling awal dan paling sukses di industri Crypto, yang didasarkan pada arsitektur Chromium, sehingga dapat kompatibel dengan plugin di Google Store. Modelnya yang mengandalkan privasi dan menghasilkan Tokens melalui browsing ini menarik pengguna. Jalur pengembangan Brave dalam tingkat tertentu menunjukkan potensi pertumbuhannya. Namun, dari sudut pandang produk, meskipun privasi memang penting, permintaannya masih terkonsentrasi pada kelompok pengguna tertentu, dan kesadaran privasi belum menjadi faktor keputusan utama bagi masyarakat umum. Oleh karena itu, kemungkinan untuk mencoba menggulingkan raksasa yang ada dengan fitur ini cukup rendah.Hingga saat ini, pengguna aktif bulanan Brave telah mencapai 82,7 juta, pengguna aktif harian sebanyak 35,6 juta, dengan pangsa pasar sekitar 1%–1,5%. Skala pengguna menunjukkan tren pertumbuhan yang berkelanjutan: dari 6 juta pada Juli 2019, meningkat menjadi 25 juta pada Januari 2021, mencapai 57 juta pada Januari 2023, dan diperkirakan akan melewati 82 juta pada Februari 2025, dengan tingkat pertumbuhan tahunan gabungan tetap di level dua digit. Rata-rata volume pencarian bulanan sekitar 1,34 miliar kali, sekitar 0,3% dari Google.Berikut adalah peta jalan iterasi Brave.Brave sedang merencanakan untuk meningkatkan diri menjadi browser AI yang mengutamakan privasi. Namun, terbatasnya pengambilan data pengguna menyebabkan tingkat kustomisasi model besar yang rendah, yang justru merugikan dalam mewujudkan iterasi produk yang cepat dan akurat. Di era Agentic Browser yang akan datang, Brave mungkin akan mempertahankan pangsa pasar yang stabil di antara kelompok pengguna tertentu yang mengutamakan privasi, tetapi sulit untuk menjadi pemain utama. Asisten AI-nya, Leo, lebih mirip dengan plugin eksternal, hanya meningkatkan fungsi berdasarkan produk yang ada, memiliki kemampuan ringkasan konten tertentu, tetapi belum memiliki strategi yang jelas untuk beralih sepenuhnya ke AI Agent, inovasi di sisi interaksi masih terlihat kurang.#### **Donut**Baru-baru ini, industri Crypto juga mengalami kemajuan di bidang Agentic Browser. Proyek startup Donut telah mendapatkan pendanaan sebesar 7 juta dolar AS pada putaran Pre-seed, dipimpin bersama oleh Sequoia China (Hongshan), HackVC, dan Bitkraft Ventures. Saat ini, proyek ini masih dalam tahap konsep awal, dengan visi untuk mencapai kemampuan terintegrasi "Penemuan - Pengambilan keputusan - Eksekusi asli kripto" (Discovery, Decision-making, and Crypto-native Execution).Inti dari arah ini adalah menggabungkan jalur eksekusi otomatis yang berasal dari kripto. Seperti yang diprediksi oleh a16z, di masa depan Agent diharapkan dapat menggantikan mesin pencari sebagai pintu masuk lalu lintas utama, di mana para pengusaha tidak lagi bersaing di sekitar algoritma peringkat Google, tetapi bersaing untuk akses dan konversi lalu lintas yang dihasilkan oleh eksekusi Agent. Tren ini telah disebut sebagai "AEO" (Answer / Agent Engine Optimization), atau lebih jauh lagi "ATF" (Agentic Task Fulfilment), yaitu bukan lagi mengoptimalkan peringkat pencarian, tetapi langsung melayani model cerdas yang dapat menyelesaikan tugas seperti memesan, membeli tiket, menulis surat, dan lain-lain untuk pengguna.### untuk para pengusahaPertama, harus diakui: Browser itu sendiri masih merupakan "gerbang utama" yang paling besar di dunia internet yang belum direkonstruksi. Pengguna desktop global sekitar 2,1 miliar, dan pengguna mobile lebih dari 4,3 miliar, ia adalah wadah bersama untuk input data, perilaku interaksi, dan penyimpanan jejak pribadi. Bentuk ini bertahan bukan karena inersia, tetapi karena browser secara alami memiliki atribut dua arah: yaitu sebagai "gerbang baca" data, dan juga sebagai "gerbang tulis" perilaku.Oleh karena itu, bagi para pengusaha, yang benar-benar memiliki potensi untuk mengganggu bukanlah optimasi di tingkat "output halaman". Bahkan jika dapat menerapkan fungsi ringkasan AI seperti Google di tab baru, pada dasarnya itu masih merupakan iterasi di tingkat plugin browser, dan belum membentuk perubahan paradigma yang mendasar. Titik terobosan yang sebenarnya terletak pada "sisi input" — yaitu bagaimana membuat AI Agent secara aktif memanggil produk pengusaha untuk menyelesaikan tugas tertentu. Ini akan menjadi kunci apakah produk di masa depan dapat terintegrasi ke dalam ekosistem Agent, mendapatkan lalu lintas, dan pembagian nilai.Era pencarian mengeja "klik"; era agen mengeja "panggil".Jika Anda seorang pengusaha, tidak ada salahnya membayangkan produk Anda sebagai sebuah komponen API — — yang memungkinkan agen pintar tidak hanya "memahami" tetapi juga "memanggil"nya. Ini mengharuskan Anda untuk mempertimbangkan tiga dimensi sejak awal dalam desain produk:**Satu, Standarisasi Struktur Antarmuka: Apakah produk Anda "dapat dipanggil"?**Kemampuan produk untuk dipanggil oleh agen tergantung pada apakah struktur informasinya dapat distandarisasi dan diabstraksikan menjadi skema yang jelas. Misalnya, apakah operasi kunci seperti pendaftaran pengguna, tombol pemesanan, pengiriman komentar, dapat dijelaskan melalui struktur DOM yang semantis atau pemetaan JSON? Apakah sistem menyediakan mesin status yang memungkinkan Agen untuk secara stabil mereproduksi alur perilaku pengguna? Apakah interaksi pengguna di halaman mendukung pengembalian skrip? Apakah terdapat WebHook atau API Endpoint yang dapat diakses secara stabil?Inilah alasan mendasar mengapa Browser Use berhasil dalam pendanaan—ia mengubah browser dari HTML yang dirender secara datar menjadi pohon semantik yang dapat dipanggil oleh LLM. Bagi para pengusaha, memperkenalkan konsep desain serupa dalam produk web adalah penyesuaian struktural untuk era AI Agent.**Dua, Identitas dan Akses: Bisakah kamu membantu Agen "melewati batas kepercayaan"?**Agen AI perlu menyelesaikan transaksi, memanggil pembayaran atau aset, memerlukan semacam lapisan perantara yang tepercaya — dapatkah Anda menjadi itu? Browser secara alami dapat membaca penyimpanan lokal, memanggil dompet, mengenali kode verifikasi, dan mengakses verifikasi dua faktor, itulah sebabnya ia lebih cocok untuk melakukan eksekusi dibandingkan model besar berbasis cloud. Ini terutama berlaku dalam skenario Web3: standar antarmuka untuk memanggil aset di blockchain tidak seragam, jika Agen tidak memiliki "identitas" atau "kemampuan tanda tangan", mereka akan kesulitan.Jadi, bagi para pengusaha Crypto, ada area kosong yang sangat imajinatif di sini: "MCP (Multi Capability Platform) di dunia blockchain". Ini bisa berupa lapisan instruksi umum (yang memungkinkan Agent memanggil Dapp), juga bisa menjadi kumpulan antarmuka kontrak yang distandarisasi, atau bahkan semacam dompet ringan + platform identitas yang berjalan secara lokal.**Tiga, Pemahaman Kembali Mekanisme Lalu Lintas: Masa Depan Bukanlah SEO, Melainkan AEO / ATF**Dulu Anda harus berjuang untuk mendapatkan perhatian algoritma Google; sekarang Anda harus disematkan ke dalam rantai tugas oleh AI Agent. Ini berarti produk harus memiliki granularitas tugas yang jelas: bukan satu "halaman", tetapi serangkaian "unit kemampuan yang dapat dipanggil"; ini berarti Anda harus mulai melakukan optimasi Agent (AEO) atau penyesuaian penjadwalan tugas (ATF): misalnya, apakah proses pendaftaran dapat disederhanakan menjadi langkah-langkah terstruktur, apakah harga dapat ditarik melalui antarmuka, apakah inventaris dapat diperiksa secara real-time;Anda bahkan harus mulai menyesuaikan sintaks panggilan di bawah berbagai kerangka LLM — OpenAI dan Claude memiliki preferensi yang berbeda tentang panggilan fungsi dan penggunaan alat. Chrome adalah terminal menuju dunia lama, bukan pintu masuk ke dunia baru. Proyek startup yang benar-benar memiliki masa depan bukanlah menciptakan browser baru, tetapi membuat browser yang ada melayani Agen, membangun jembatan untuk "aliran instruksi" generasi baru.* Anda perlu membangun "sintaks antarmuka" yang digunakan oleh Agent untuk memanggil dunia Anda;* Yang harus Anda usahakan adalah menjadi salah satu bagian dari rantai kepercayaan agen cerdas;* Yang ingin Anda bangun adalah "Kastil API" dalam mode pencarian berikutnya.Jika Web2 menangkap perhatian pengguna melalui UI, maka era Web3 + AI Agent adalah tentang menangkap niat eksekusi Agent melalui pemanggilan rantai.