しかし、栄光はしばしば短命である。マイクロソフトはすぐにブラウザの重要性を認識し、Internet Explorer を Windows オペレーティングシステムに強制的にバンドルしてデフォルトのブラウザとすることを決定した。この戦略は「プラットフォームの切り札」とも言えるもので、Netscape の市場支配を直接的に崩壊させた。多くのユーザーは自発的に IE を選択したわけではなく、システムのデフォルトとして受け入れたものである。IE は Windows の配布能力を利用して急速に業界の覇者となり、Netscape は衰退の軌道に陥った。
困難な状況の中で、Netscape のエンジニアたちは過激で理想主義的な道を選びました — 彼らはブラウザのソースコードを公開し、オープンソースコミュニティに呼びかけました。この決定は、技術界の「マケドニア式譲歩」のようであり、旧時代の終焉と新たな力の台頭を予示していました。このコードは後に Mozilla ブラウザプロジェクトの基盤となり、最初は Phoenix(フェニックスを意味する)と名付けられましたが、商標の問題で何度も改名され、最終的には Firefox と名付けられました。
フロントエンドは、ユーザーが入力した単語の意味を理解する必要があります。これには3つのステップがあります:神経スペルチェック、 「recpie」を「recipe」に修正する;同義語拡張、「how to fix bike」を「repair bicycle」に拡張する。意図解析、クエリが情報、ナビゲーション、または取引の意図であるかを判定し、Verticalリクエストを割り当てます。
候補者のリコール
Google が使用するクエリ技術は、逆インデックスと呼ばれています。正順インデックスでは、ID が与えられればファイルをインデックスできます。しかし、ユーザーは何千億ものファイルの中から探している内容の番号を知ることができないため、非常に伝統的な逆インデックスを採用し、内容を使ってどのファイルに対応するキーワードがあるかを検索します。次に、Google は意味検索を処理するためにベクトルインデックスを採用します。これは、クエリの意味に似た内容を探すことを目的としています。テキスト、画像などの内容を高次元ベクトル(embedding)に変換し、これらのベクトル間の類似性に基づいて検索を行います。例えば、ユーザーが「ピザ生地の作り方」を検索しても、検索エンジンは「ピザ生地作りガイド」に関連する結果を返すことができます。なぜなら、それらは意味的に類似しているからです。逆インデックスとベクトルインデックスを経て、約十万件のウェブページが初期選別されます。
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
なぜAIエージェントの時代が第三次ブラウザ戦争を迎えると言われているのか?
製造元 Gate Ventures
TL; 博士
第三次ブラウザ戦争が静かに展開されています。歴史を振り返ると、1990年代のNetscape、MicrosoftのIE、オープンソース精神のFirefox、GoogleのChromeに至るまで、ブラウザの争いは常にプラットフォームの制御権と技術的パラダイムの変遷を集中して示しています。Chromeは更新速度とエコシステムの連携により覇権の地位を獲得し、Googleは検索とブラウザの「二つの寡頭制」構造を通じて、情報の入り口のクローズド・ループを形成しました。
しかし、今日、この構図は揺らいでいる。大型言語モデル(LLM)の台頭により、ますます多くのユーザーが検索結果ページで「ゼロクリック」でタスクを完了しており、従来のウェブページクリック行動は減少している。同時に、Apple が Safari でデフォルトの検索エンジンを置き換える意図があるという噂は、Alphabet ( Google の親会社 ) の利益基盤にさらなる脅威を与え、市場は「検索の正統性」に対する不安を表し始めている。
ブラウザ自身も役割の再構築に直面しています。それは単にウェブページを表示するツールではなく、データ入力、ユーザー行動、プライバシーアイデンティティなど、さまざまな能力を持つ集合容器です。AIエージェントは強力ですが、複雑なページインタラクションを実行し、ローカルアイデンティティデータを呼び出し、ウェブページ要素を制御するには、ブラウザの信頼の境界と機能サンドボックスを借りる必要があります。ブラウザは人間のインターフェースからエージェントのシステム呼び出しプラットフォームへと変わりつつあります。
この記事では、ブラウザの存在意義について探討し、現在のブラウザ市場の構図を打破する可能性があるのは「より良いChrome」ではなく、新しいインタラクション構造であると考えています。それは情報の表示ではなく、タスクの呼び出しです。未来のブラウザはAIエージェントのために設計される必要があります — それは読むだけでなく、書き、実行することもできるものです。Browser Useのようなプロジェクトは、ページ構造をセマンティック化し、視覚インターフェースをLLMが呼び出せる構造化テキストに変え、ページから命令へのマッピングを実現し、インタラクションコストを大幅に削減しようとしています。
市場における主流プロジェクトはすでに試水を始めています:PerplexityはネイティブブラウザCometを構築し、AIを使って従来の検索結果を置き換えています;Braveはプライバシー保護とローカル推論を組み合わせ、LLMで検索とブロック機能を強化しています;そしてDonutなどのCryptoネイティブプロジェクトは、AIとオンチェーン資産とのインタラクションの新しい入り口を狙っています。これらのプロジェクトの共通の特徴は、ブラウザの入力端を再構築しようとしていることであり、出力層を美化することではありません。
起業家にとって、機会は入力、構造、エージェントの三角関係に隠れています。ブラウザは未来のエージェントが世界を呼び出すインターフェースとして機能し、構造化され、呼び出し可能で、信頼できる「能力ブロック」を提供できる者が新しいプラットフォームの構成要素となることを意味します。SEOからAEO(エージェントエンジン最適化)まで、ページトラフィックからタスクチェーン呼び出しまで、製品の形態とデザイン思考は再構成されています。第三次ブラウザ戦争は「入力」で発生しており、「表示」ではありません。勝敗を決定するのは、もはやユーザーの目を引く者ではなく、エージェントの信頼を勝ち取る者、呼び出しの入口を得る者です。
ブラウザの発展の歴史
1990年代初頭、インターネットが日常生活の一部となる前に、Netscape Navigatorが登場しました。これは新しい大陸を開く帆船のように、数百万のユーザーにデジタル世界への扉を開きました。このブラウザは最初のものではありませんが、一般向けに本当に普及し、インターネット体験を形作った最初の製品です。当時、人々は初めてグラフィカルインターフェースを通じてウェブページを簡単に閲覧できるようになり、まるで世界全体が突然手の届くところにあるかのように感じました。
しかし、栄光はしばしば短命である。マイクロソフトはすぐにブラウザの重要性を認識し、Internet Explorer を Windows オペレーティングシステムに強制的にバンドルしてデフォルトのブラウザとすることを決定した。この戦略は「プラットフォームの切り札」とも言えるもので、Netscape の市場支配を直接的に崩壊させた。多くのユーザーは自発的に IE を選択したわけではなく、システムのデフォルトとして受け入れたものである。IE は Windows の配布能力を利用して急速に業界の覇者となり、Netscape は衰退の軌道に陥った。
困難な状況の中で、Netscape のエンジニアたちは過激で理想主義的な道を選びました — 彼らはブラウザのソースコードを公開し、オープンソースコミュニティに呼びかけました。この決定は、技術界の「マケドニア式譲歩」のようであり、旧時代の終焉と新たな力の台頭を予示していました。このコードは後に Mozilla ブラウザプロジェクトの基盤となり、最初は Phoenix(フェニックスを意味する)と名付けられましたが、商標の問題で何度も改名され、最終的には Firefox と名付けられました。
Firefox は単なる Netscape のコピーではなく、ユーザー体験、プラグインエコシステム、安全性などの面で多くの突破を実現しました。その誕生はオープンソースの精神の勝利を象徴し、業界全体に新しい活力を注ぎました。誰かが Firefox を Netscape の「精神的な後継者」と表現しましたが、それはオスマン帝国がビザンチンの余韻を受け継いだようなものです。この比喩は誇張ではありますが、非常に意味深いものです。
しかし、Firefoxが正式にリリースされる数年前に、Microsoftはすでに6つのバージョンのIEをリリースしており、時間的な優位性とシステムバンドル戦略により、Firefoxは最初から追いかける立場に置かれ、この競争がスタートラインで平等な公正な競争でないことが運命づけられていました。
同時に、別の初期のプレーヤーも静かに登場しました。1994年、オペラブラウザが登場しました。これはノルウェーからのもので、最初は実験的なプロジェクトに過ぎませんでした。しかし、2003年の7.0バージョンから、自社開発のPrestoエンジンを導入し、CSS、レスポンシブデザイン、音声制御、Unicodeエンコーディングなどの最先端技術をいち早くサポートしました。ユーザー数は限られていましたが、技術的には常に業界の最前線に立ち、「ギークのお気に入り」となりました。
同年、AppleはSafariブラウザを発売しました。これは意味深い転換点でした。当時、Microsoftは破産の危機に瀕していたAppleに1.5億ドルを投資し、競争の表向きを維持し、独占禁止法の審査を避けることを目指していました。Safariの誕生以来のデフォルト検索エンジンはGoogleですが、このMicrosoftとの歴史的な絡みは、インターネットの巨人たちの複雑で微妙な関係を象徴しています:協力と競争は常に背中合わせです。
2007年、IE7はWindows Vistaと共に登場したが、市場の反応は平凡だった。一方、Firefoxはより早い更新サイクル、よりフレンドリーな拡張機能、そして開発者にとっての自然な魅力を武器に、市場シェアを約20%まで安定的に引き上げていった。IEの支配は徐々に緩んでおり、風向きが変わり始めている。
グーグルは別のアプローチを取った。2001年から自社のブラウザを開発する構想を練っていたが、CEOのエリック・シュミットをこのプロジェクトに承認させるのに6年かかった。Chromeは2008年に登場し、ChromiumオープンソースプロジェクトとSafariで使用されるWebKitエンジンを基にしている。「肥大化した」ブラウザと揶揄されることもあるが、グーグルの広告投資とブランド構築の深いノウハウのおかげで、急速に台頭した。
Chromeの鍵となる武器は機能ではなく、頻繁なバージョン更新のリズム(6週間ごと)と全プラットフォームでの統一体験です。2011年11月、Chromeは初めてFirefoxを超え、市場シェアが27%に達しました;6ヶ月後、再びIEを逆転し、挑戦者から支配者への変貌を遂げました。
一方で、中国のモバイルインターネットも独自のエコシステムを形成しています。アリババ傘下のUCブラウザは2010年代初頭に急速に人気を博し、特にインド、インドネシア、中国などの新興市場で軽量設計やデータ圧縮による通信量の節約などの特徴を活かして、低価格なデバイスのユーザーに支持されました。2015年には、世界のモバイルブラウザ市場シェアが17%を突破し、インドでは一時46%に達しました。しかし、この勝利は長続きしませんでした。インド政府が中国のアプリに対する安全審査を強化するにつれて、UCブラウザは重要な市場から撤退せざるを得ず、次第にかつての栄光を失っていきました。
2020年代に入ると、Chromeの主導的地位が確立され、世界市場シェアは約65%で安定しています。注目すべきは、Google検索エンジンとChromeブラウザは同じAlphabetに属しているものの、市場の観点から見ると2つの独立した覇権体系であるということです — — 前者は世界の約90%の検索入口を支配し、後者は大多数のユーザーがネットに入る「第一の窓口」を握っています。
この二重独占構造を守るために、Googleは多額の資金を投入しています。2022年、AlphabetはAppleに約200億ドルを支払い、GoogleがSafariのデフォルト検索エンジンとしての地位を維持することを目指しました。分析によると、この支出はGoogleがSafariのトラフィックから得る検索広告収入の36%に相当します。言い換えれば、Googleは自社の城壁を守るために「保護費」を支払っているのです。
しかし、風向きが再び変わった。大規模言語モデル(LLM)の台頭により、従来の検索は打撃を受け始めた。2024年には、Googleの検索市場シェアが93%から89%に落ち込み、依然として優位ではあるものの、亀裂が見え始めている。さらに破壊的なのは、Appleが自社のAI検索エンジンを発表するという噂だ — — もしSafariがデフォルトの検索を自社に切り替えれば、これはエコシステムの構図を変えるだけでなく、Alphabetの利益の柱を揺るがす可能性がある。市場は迅速に反応し、Alphabetの株価は170ドルから140ドルに急落し、これは投資家の恐慌だけでなく、検索時代の未来の方向性に対する深い不安を反映している。
Navigator から Chrome へ、オープンソースの理想から広告の商業化へ、軽量ブラウザから AI 検索アシスタントへ、ブラウザの争いは常に技術、プラットフォーム、コンテンツ、そして制御権に関する戦争です。戦場は絶えず移動しますが、本質は決して変わりません:誰が入り口を握るか、誰が未来を定義するのです。
VCの目には、LLMとAI時代における人々の検索エンジンに対する新たな需要を背景に、第三次ブラウザ戦争が徐々に展開されている。以下は、著名なAIブラウザ分野のプロジェクトの資金調達状況の一部である。
古いアーキテクチャの現代ブラウザ
ブラウザのアーキテクチャについて言及すると、従来のクラシックなアーキテクチャは以下の図のようになります。
クライアント — フロントエンド入口
HTTPSを通じて最近のGoogleフロントエンドに到達し、TLSの復号化、QoSのサンプリング、地理的ルーティングを完了します。異常なトラフィック(DDoS、自動スクレイピング)が検出された場合は、このレイヤーで制限またはチャレンジすることができます。
クエリの理解
フロントエンドは、ユーザーが入力した単語の意味を理解する必要があります。これには3つのステップがあります:神経スペルチェック、 「recpie」を「recipe」に修正する;同義語拡張、「how to fix bike」を「repair bicycle」に拡張する。意図解析、クエリが情報、ナビゲーション、または取引の意図であるかを判定し、Verticalリクエストを割り当てます。
候補者のリコール
Google が使用するクエリ技術は、逆インデックスと呼ばれています。正順インデックスでは、ID が与えられればファイルをインデックスできます。しかし、ユーザーは何千億ものファイルの中から探している内容の番号を知ることができないため、非常に伝統的な逆インデックスを採用し、内容を使ってどのファイルに対応するキーワードがあるかを検索します。次に、Google は意味検索を処理するためにベクトルインデックスを採用します。これは、クエリの意味に似た内容を探すことを目的としています。テキスト、画像などの内容を高次元ベクトル(embedding)に変換し、これらのベクトル間の類似性に基づいて検索を行います。例えば、ユーザーが「ピザ生地の作り方」を検索しても、検索エンジンは「ピザ生地作りガイド」に関連する結果を返すことができます。なぜなら、それらは意味的に類似しているからです。逆インデックスとベクトルインデックスを経て、約十万件のウェブページが初期選別されます。
マルチレベルソート
システムは通常、BM25、TF-IDF、ページ品質スコアなどの数千次元の軽量特徴を通じて、10万規模の候補ページを約1000件に絞り込み、初期候補セットを構成します。この種のシステムは総称してレコメンデーションエンジンと呼ばれます。これらはユーザーの行動、ページ属性、クエリ意図、コンテキスト信号など、さまざまな実体から生成される膨大な特徴に依存しています。たとえば、Googleはユーザーの履歴、他のユーザーの行動フィードバック、ページの意味、クエリの意味などの情報を総合的に考慮し、さらに時間(1日の時間帯、週の特定の日)やリアルタイムニュースなどの外部イベントといったコンテキスト要素も考慮します。
深層学習による主要なソート
初期の検索段階では、GoogleはRankBrainやNeural Matchingなどの技術を使用して、クエリの意味を理解し、膨大な文書から初歩的に関連する結果を絞り込みます。RankBrainは2015年にGoogleが導入した機械学習システムで、特に初めて登場するクエリの意味をよりよく理解することを目的としています。クエリと文書をベクトル表現に変換し、それらの間の類似性を計算することで、最も関連性の高い結果を見つけます。例えば、クエリ「ピザ生地の作り方」に対して、文書に完全に一致するキーワードがなくても、RankBrainは「ピザの基礎」や「生地作り」に関連する内容を識別できます。
Neural Matching は、Google が 2018 年に導入した別の技術で、クエリとドキュメント間の意味的関係をより深く理解することを目的としています。これは、単語間のあいまいな関係を捉えるために神経ネットワークモデルを使用し、Google がクエリとウェブコンテンツをより適切にマッチングできるようにします。たとえば、「なぜ私のノートパソコンのファンの音が大きいのか」というクエリに対して、Neural Matching はユーザーが過熱、ほこりの蓄積、または高い CPU 使用率に関するトラブルシューティング情報を探している可能性があることを理解でき、これらの単語がクエリに直接表示されていなくても対応します。
深度リファクタリング:BERTモデルの応用
関連する文書を初歩的に選別した後、Google は BERT(Bidirectional Encoder Representations from Transformers)モデルを使用して、これらの文書をより詳細にランク付けし、最も関連性の高い結果を前面に表示します。BERT は、文中の単語の文脈関係を理解できる Transformer ベースの事前学習言語モデルです。検索において、BERT は初歩的に取得された文書を再ランキングするために使用されます。クエリと文書を共同エンコードすることにより、それらの間の関連性スコアを計算し、文書を再ランク付けします。例えば、クエリ「路肩のない傾斜に駐車する」に対して、BERT は「路肩がない」の意味を理解し、運転者に車輪を路側に向けることを提案するページを返しますが、路肩がある状況と誤解することはありません。そして、SEO エンジニアにとっては、Google のランキングと機械学習の推薦アルゴリズムを正確に学び、特定の最適化を行ってウェブページコンテンツを改良し、より高いランキング表示を得る必要があります。
以上は典型的な Google 検索エンジンの作業フローです。しかし、現在の AI とビッグデータの爆発的な時代において、ユーザーはブラウザとのインタラクションに新たなニーズを生じさせています。
なぜAIはブラウザを再構築するのか
まず、ブラウザという形態がなぜ存在し続けるのかを明確にする必要があります。人工知能エージェントやブラウザ以外の第三の形態が存在するのでしょうか?
私たちは、存在は代替不可能であると考えています。なぜ人工知能はブラウザを使用できるのに、ブラウザを完全に置き換えることができないのでしょうか?それはブラウザが汎用プラットフォームであり、単にデータを読み取る入り口ではなく、データを入力するための汎用的な入り口でもあるからです。この世界には情報入力だけではなく、データを生成し、ウェブサイトと相互作用する必要があります。そのため、個別のユーザー情報を統合するブラウザは引き続き広く存在するでしょう。
この点を捉えます:ブラウザは一般的な入り口として、データを読み取るためだけではなく、ユーザーがデータと対話する必要があることが多いです。ブラウザ自体はユーザーのフィンガープリントを保存するのに最適な場所です。より複雑なユーザーの行動や自動化された行動は、ブラウザを介して行う必要があります。ブラウザはユーザーのすべての行動フィンガープリントやパスワードなどのプライバシー情報を保存でき、自動化プロセスにおいて信頼なしで呼び出しを実現します。そして、データとの対話の動作は、次のように進化することができます:
ユーザー → AIエージェントを呼び出す → ブラウザ。
つまり、唯一置き換えられる可能性のある部分は、世界の変化のトレンドに合った方向性 — — よりスマートで、よりパーソナライズされた、そしてより自動化されたものです。確かに、この部分はAIエージェントに任せることができますが、AIエージェント自体はユーザーのパーソナライズされたコンテンツを保持するのには適していません。なぜなら、データの安全性や利便性に関して多くの課題に直面しているからです。具体的には:
ブラウザはパーソナライズされたコンテンツの保存場所です:
インタラクティブ形式の深刻な変革
最初の話題に戻ると、私たちのブラウザの行動は大きく三つの形式に分けられます:データの読み取り、データの入力、データのインタラクション。人工知能の大規模モデル(LLM)は、私たちのデータ読み取りの効率と方法を大きく変えました。以前は、ユーザーがキーワードを基にウェブページを検索する行動は非常に古く、非効率的に感じられました。
ユーザーの検索行動の進化に関する研究が多数行われており、要約された回答を取得するのか、それともウェブページをクリックするのかが分析されています。
ユーザーの行動パターンに関する2024年の研究では、アメリカでは1,000件のGoogle検索のうち、最終的にオープンされたウェブページは374件に過ぎないことが示されています。言い換えれば、約63%が「ゼロクリック」行動に該当します。ユーザーは検索結果ページから直接、天気、為替レート、知識カードなどの情報を取得することに慣れています。
ユーザーの心理に関して、2023年の調査によると、44%の回答者が通常の自然結果はフィーチャー スニペットよりも信頼できると考えています。学術研究でも、議論の余地があるか、統一された真実が存在しないテーマにおいて、ユーザーは複数のソースリンクを含む結果ページを好むことが明らかになっています。
つまり、確かに一部のユーザーはAIによる要約に対する信頼度が低いが、相当数のユーザー行動は「ゼロクリック」に移行している。したがって、AIブラウザは適切なインタラクション形態を探求する必要がある — — 特にデータ読み取りの部分では、現在の大規模モデルの「幻覚問題」(hallucination)はまだ解決されておらず、多くのユーザーは自動生成されたコンテンツ要約を完全に信頼するのが難しい。これに関して、大規模モデルをブラウザに組み込む場合、実際にはブラウザを根本的に変革する必要はなく、モデルの正確性と制御可能性を段階的に解決するだけでよい。この改善は継続的に進められている。
そして、実際にブラウザの大規模な変革を引き起こす可能性があるのは、データインタラクションのこの層です。過去には、人々はキーワードを入力してインタラクションを完了していました — — これはブラウザが理解できる限界です。しかし現在、ユーザーはますます複雑なタスクを自然言語の一文で説明することを好むようになっています。例えば:
これらの行為は、人間にとっても複数のウェブサイトにアクセスし、データを収集・比較するのに多くの時間を費やす必要があります。しかし、これらのエージェンティックタスクは、AIエージェントによって徐々に引き継がれています。
これは歴史の進化の方向性にも合致しています:自動化とスマート化。人々は手を解放することを切望しており、AIエージェントはブラウザに深く組み込まれることになるでしょう。未来のブラウザは完全自動化のために設計されなければならず、特に考慮すべきことがあります:
この二つの条件を満たす設計でなければ、ブラウザは本当にAIエージェントがタスクを実行するための安定した媒体にはなりません。
次に、私たちは特に注目されている5つのプロジェクトに焦点を当てます。それは、Browser Use、Arc(The Browser Company)、Perplexity、Brave、そしてDonutです。これらのプロジェクトは、それぞれAIブラウザの未来の進化の方向性を示しており、Web3およびCryptoシーンにおけるネイティブな結びつきの可能性を持っています。
ブラウザの使用
これが、PerplexityとBrowser Useの巨額の資金調達の背後にあるコアロジックです。 特に、ブラウザの使用は、2025年前半に出現する2番目に確実なイノベーションの機会であり、最も確実性と成長の可能性を秘めています。
Browserは、真の意味でのセマンティックレイヤーを構築しており、その核心は次世代ブラウザのためにセマンティック認識アーキテクチャを構築することにあります。
ブラウザの使用は、従来の「DOM=人間に見せるノードツリー」を「意味論的DOM=LLMに見せる命令ツリー」と再デコードし、エージェントが「画面ポイント座標」を必要とせずに正確にクリック、入力、アップロードできるようにします;このルートは「構造化テキスト → 関数呼び出し」で視覚OCRや座標Seleniumを置き換えるため、実行がより速く、トークンがより節約され、エラーがより少なくなります。TechCrunchはこれを「AIが本当にウェブページを理解できる接着層」と呼び、3月に完了した1700万ドルのシードラウンドはこの基盤的革新に賭けています。
HTMLがレンダリングされると、標準のDOMツリーが形成されます。ブラウザはさらにアクセシビリティツリーを派生させ、スクリーンリーダーにより豊富な「役割」と「状態」ラベルを提供します。
同時に、この標準がW3Cに導入されると、ブラウザの入力問題が大きく解決される可能性があります。The Browser Companyの公開書簡とケースを用いて、なぜThe Browser Companyの考えが間違っているのかをさらに説明します。
ARC
ブラウザ会社(Arcの親会社)は、公開書簡でARCブラウザが通常のメンテナンス段階に入ることを示し、チームは完全にAI指向のブラウザDIAに焦点を当てると述べました。書簡では、DIAの具体的な実現方法はまだ確定していないことも正直に認めています。また、チームは書簡の中で未来のブラウザ市場に対するいくつかの予測を提起しました。これらの予測に基づき、既存のブラウザの状況を本当に打破するには、インタラクション側の出力を変更することがカギであると私たちはさらに考えています。
以下は、ARCチームによる未来のブラウザ市場に関する3つの予測です。
まず、Webページはもはや主要なインターフェースではないと考えています。否定できないことですが、これは挑戦的な判断であり、私たちがその創設者の反省結果に対して慎重な態度を持つ理由でもあります。私たちの見解では、この見解はブラウザの役割を著しく過小評価しており、AIブラウザの道を探求する際に無視された重要な問題でもあります。
大規模モデルは意図のキャッチに優れたパフォーマンスを示します。例えば、「航空券を予約してほしい」という指示を理解することなどです。しかし、情報密度のキャリー能力においては、まだ不足しています。ユーザーがダッシュボードやブルームバーグターミナルスタイルのノート、またはFigmaのようなビジュアルキャンバスを必要とする場合、ピクセル単位の精度で配置された専用ウェブページより優れたものはありません。各製品の人間工学デザイン — グラフ、ドラッグアンドドロップ機能、ホットキー — は装飾的な浮遊物ではなく、認知の圧縮可能性を提供するものです。これらの能力は、単純な対話型インタラクションでは担えません。Gate.comを例に挙げると、ユーザーが投資操作を行いたい場合、AIとの対話だけでは遠く不十分です。なぜなら、ユーザーは情報の入力、精度、構造的な提示に高い依存を持っているからです。
RCチームはそのパスビジョンに本質的な偏りを抱えており、「インタラクション」は入力と出力の2つの側面から構成されることを明確に区別できていません。入力側においては、特定のシナリオで一定の合理性を持っており、AIは確かに指示型インタラクションの効率を向上させることができます。しかし、出力側においては、その判断は明らかに不均衡であり、情報表示とパーソナライズ体験におけるブラウザの核心的な役割を無視しています。例えば、Redditは独自のレイアウト方式と情報構造を持っており、AAVEは全く異なるインターフェースと構造を持っています。ブラウザは高度なプライバシーデータを収容し、多様な製品インターフェースを共通してレンダリングできるプラットフォームですが、入力側におけるその代替性はもともと限られており、出力側においては、その複雑性と非標準化の特性により、破壊されることはさらに難しくなっています。それに対して、現在市場に出回っているAIブラウザは主に「出力要約」のレベルに集中しています:ウェブページの要約、情報の抽出、結論の生成などは、Googleなどの主流ブラウザや検索システムに対する根本的な挑戦を構成するには不十分であり、ただ検索要約の市場シェアを分け合っているに過ぎません。
したがって、市占率66%のChromeを揺るがすことができるのは、「次のChrome」ではないことが確定しています。この転覆を実現するためには、ブラウザのレンダリングモードを根本的に再構築し、スマート時代のAIエージェントが主導するインタラクションのニーズに適応させる必要があります。特に入力側のアーキテクチャ設計においてです。だからこそ、私たちはBrowser Useが採用している技術的アプローチをより支持しています — — それはブラウザの基盤メカニズムの構造的な変革に焦点を当てています。どんなシステムも「原子化」または「モジュール化」が実現されると、それに伴うプログラマビリティとコンビネーションが極めて破壊的な転覆の可能性をもたらすことになりますが、これこそが現在Browser Useが推進している方向です。
要するに、AIエージェントの動作は依然としてブラウザの存在に高度に依存しています。ブラウザは、複雑な個別データの主要な保存場所であるだけでなく、多様なアプリケーションの一般的なレンダリングインターフェースでもあるため、今後もコアなインタラクションの入り口として機能し続けます。AIエージェントが固定タスクを完了するためにブラウザに深く組み込まれるにつれて、ユーザーデータを呼び出して特定のアプリケーションと相互作用することになります。つまり、主に入力側に作用します。そのためには、AIエージェントとの最大限の互換性と適合性を実現するために、ブラウザの既存のレンダリングモードを革新する必要があります。これにより、アプリケーションをより効果的にキャッチすることができます。
パープレキシティ
Perplexityは、その推薦システムで知られるAI検索エンジンで、最新の評価額は140億ドルに達し、2024年6月の30億ドルから約5倍に増加しました。月間で処理する検索クエリの量は4億件を超え、2024年9月には約2.5億件のクエリを処理し、ユーザーのクエリ量は前年比で8倍に増加し、月間アクティブユーザーは3000万人を超えています。
その主な特徴は、リアルタイムでページを要約できることであり、即時情報の取得において優位性を占めています。今年初めに、独自のネイティブブラウザ Comet の構築を開始しました。Perplexity は、間もなく発表される Comet を「ウェブページを表示するだけでなく、ウェブページを考える」ブラウザと表現しています。公式には、ブラウザ内部に Perplexity の答えエンジンを深く埋め込むとされており、これはジョブズ的な「オールインワン」思想です:AIタスクをブラウザの基盤に深く埋め込むのではなく、サイドバーのプラグインを作成します。引用を含む簡潔な答えが伝統的な「10 の青いリンク」に取って代わり、Chrome との直接競争を行います。
しかし、彼らは依然として二つの核心的な問題を解決する必要があります:高い検索コストと、限界ユーザーからの低い利益率です。PerplexityがAI検索分野で先頭に立っているにもかかわらず、Googleは2025年のI/Oカンファレンスでも同様にそのコア製品を大規模に知能化する計画を発表しました。ブラウザの再構築に向けて、Googleは「AI Model」という新しいブラウザタブ体験を導入し、Overview、Deep Research、そして将来のAgentic機能を統合しました。このプロジェクト全体は「Project Mariner」と呼ばれています。
Googleは積極的にAIの再構築を進めているため、Overview、DeepResearch、またはAgenticsのような表面的な機能模倣だけでは、実際に脅威を構成することは難しい。本当に混沌の中で新しい秩序を築く可能性があるのは、ブラウザアーキテクチャを根本から再構築し、大規模言語モデル(LLM)をブラウザのカーネルに深く組み込むことによって、インタラクションの方法に根本的な変革を実現することである。
勇敢
BraveはCrypto業界で最も初期かつ成功したブラウザであり、Chromiumアーキテクチャに基づいているため、Google Storeのプラグインとの互換性があります。プライバシーとブラウジングでトークンを獲得するというモデルでユーザーを引き付けています。Braveの発展の道筋は、ある程度その成長潜在能力を示しています。しかし、製品の観点から見ると、プライバシーは確かに重要ですが、その需要は依然として特定のユーザー群に集中しており、一般にはプライバシー意識は主流の意思決定要因となっていません。したがって、この特徴に依存して既存の巨頭を覆そうとする可能性は低いです。
現在までに、Braveの月間アクティブユーザー数は8,270万人に達し、日間アクティブユーザー数は3,560万人で、市場シェアは約1%–1.5%です。ユーザー数は継続的に増加しています:2019年7月の600万人から、2021年1月の2,500万人、2023年1月には5,700万人に達し、2025年2月には8,200万人を突破し、年平均複合成長率は依然として二桁の水準を維持しています。月間の平均検索クエリ数は約13.4億回で、Googleの0.3%に相当します。
以下はBraveのイテレーションロードマップです。
Braveは現在、プライバシー優先のAIブラウザへのアップグレードを計画しています。しかし、ユーザーデータの取得が少ないため、大規模モデルのカスタマイズ性が低く、迅速かつ正確な製品のイテレーションの実現には不利です。近づくAgentic Browserの時代において、Braveは特定のプライバシーを重視するユーザー層の中で安定したシェアを保つ可能性がありますが、主要なプレーヤーになるのは難しいでしょう。AIアシスタントのLeoは、既存の製品に機能的な強化を行う外部プラグインに近いもので、一定の内容要約能力を持っていますが、AIエージェントへの全面的な転換に関する明確な戦略はまだなく、インタラクションの革新も十分とは言えません。
ドーナツ
最近、暗号業界はAgenticBrowserスペースでもいくつかの進歩を遂げています。 プレシードラウンドで700万ドルを調達したスタートアップのDonutは、Hongshan、HackVC、Bitkraft Venturesが共同で主導した。 このプロジェクトはまだ構想の初期段階にあり、ビジョンは「発見、意思決定、および暗号ネイティブ実行」の統合を達成することです。
この方向の核心は、暗号のネイティブな自動化実行パスを結びつけることにあります。a16zが予言したように、将来的にはエージェントが検索エンジンに取って代わり、主要なトラフィックの入り口となることが期待されています。起業家はもはやGoogleのランキングアルゴリズムを巡って競争するのではなく、エージェントの実行によってもたらされる訪問やコンバージョントラフィックを争うことになります。業界ではこのトレンドを「AEO」(Answer / Agent Engine Optimization)またはさらに進んで「ATF」(Agentic Task Fulfilment)と呼んでおり、もはや検索ランキングを最適化するのではなく、ユーザーが注文、予約、手紙を書くなどのタスクを完了できるインテリジェントモデルに直接サービスを提供します。
起業家のための###
まず、認めなければならないのは:Browser 自体は依然としてインターネット世界で最大の再構築されていない「総入口」であるということだ。世界のデスクトップユーザーは約21億人、モバイル端末は超43億人であり、それはデータ入力、インタラクション、パーソナライズされたフィンガープリンティングの共通の媒体である。この形態が存続しているのは、慣性によるものではなく、ブラウザが自然に二方向の特性を持っているからである:データの「読み取り入口」であると同時に、行動の「書き出し口」でもある。
したがって、起業家にとって、真に破壊的な潜力を持つのは「ページ出力」レベルの最適化ではありません。たとえ新しいタブでGoogleのAI概要機能に似たものを実現できたとしても、本質的にはブラウザのプラグインレベルのイテレーションであり、パラダイムの根本的な変革には至りません。真の突破口は「入力側」にあります — — つまり、AIエージェントが起業家の製品を積極的に呼び出し、具体的なタスクを完了する方法です。これが、将来の製品がエージェントエコシステムに組み込まれ、トラフィックと価値の配分を得ることができるかどうかの鍵となります。
検索時代は「クリック」をつなぎ、代理時代は「呼び出し」をつなぎます。
もしあなたが起業家であれば、あなたの製品を再び API コンポーネントとして想像してみてはいかがでしょうか — — それによって、エージェントは「理解する」だけでなく、「呼び出す」こともできるようになります。これには、製品設計の最初の段階から三つの次元を考慮する必要があります:
一、インターフェース構造の標準化:あなたの製品は「呼び出し可能」ですか?
製品がエージェントによって呼び出される能力を持つかどうかは、その情報構造が標準化され、明確なスキーマに抽象化できるかに依存します。たとえば、ユーザー登録、注文ボタン、コメント提出などの重要な操作は、セマンティックなDOM構造やJSONマッピングを通じて記述できますか?システムはエージェントがユーザー行動フローを安定して再現できるように状態機械を提供していますか?ユーザーがページ上でのインタラクションはスクリプト化された復元をサポートしていますか?安定したアクセスのためのWebHookまたはAPIエンドポイントはありますか?
これこそが Browser Use の資金調達成功の本質的な理由です ——— それはブラウザを平面的にレンダリングされた HTML から LLM に呼び出される意味論的ツリーに変換します。起業家にとって、ウェブ製品に同様のデザイン理念を取り入れることは、AI エージェント時代に向けた構造的適応をしていることを意味します。
二、アイデンティティと通行:エージェント「信頼の壁を越える」手助けできますか?
AI エージェントが取引を完了し、支払いや資産を呼び出すには、信頼できる中間層が必要です — あなたはそれになれますか?ブラウザは自然にローカルストレージを読み取り、ウォレットを呼び出し、キャプチャを認識し、二要素認証に接続できます。これが、ブラウザがクラウドの大規模モデルよりも実行に適している理由です。特に Web3 シーンでは、チェーン上の資産を呼び出すインターフェース標準が統一されていないため、エージェントに「アイデンティティ」や「署名能力」がなければ、前進することができません。
したがって、Crypto 起業家にとって、ここには非常に想像力豊かな空白の領域があります:「ブロックチェーンの世界の MCP(マルチキャパビリティプラットフォーム)」。これは、エージェントが Dapp を呼び出すための汎用命令層である可能性もあれば、標準化された契約インターフェースのセットである可能性もあり、さらにはローカルで動作する軽量ウォレット + 身分プラットフォームのようなものでもあります。
三、トラフィックメカニズムの再理解:未来はSEOではなく、AEO /ATFです
過去はGoogleのアルゴリズムの好意を得る必要があった;今はAIエージェントにタスクチェーンに組み込まれる必要がある。これは、製品が明確なタスク粒度を持つ必要があることを意味する:単なる「ページ」ではなく、一連の「呼び出し可能な能力ユニット」であること;エージェント最適化(AEO)やタスクスケジューリング適合(ATF)を始める必要があることを意味する:例えば、登録プロセスが構造化されたステップに簡素化できるか、価格がインターフェースを通じて取得できるか、在庫がリアルタイムで確認できるか;
異なる LLM フレームワークの呼び出し構文に適応し始める必要があります — — OpenAI と Claude の関数呼び出しやツール使用の好みは一致しません。Chrome は旧世界への端末であり、新世界への入り口ではありません。真に未来のあるスタートアッププロジェクトは、ブラウザを再構築することではなく、既存のブラウザをエージェントのために機能させ、新しい世代の「指令フロー」の橋を築くことです。
もしWeb2がUIでユーザーの注意を引くものであれば、Web3 + AIエージェントの時代は、チェーンを呼び出すことでエージェントの実行意図を引き寄せるものです。