スクエア
最新
注目
ニュース
プロフィール
ポスト
Gateアプリをダウンロードするにはスキャンしてください
その他のダウンロードオプション
今日はこれ以上表示しない
Trissy
2025-08-23 10:34:18
フォロー
あなたは、人間の認知に触発された実際のSystem 2 + System 1スタイルのアーキテクチャを継続的に使用するヒューマノイドの基盤モデルを見るでしょう。
今日のほとんどの視覚-言語-行動(VLA)モデルは、認識、言語、行動を単一のネットワーク内で処理する集中型のマルチモーダルシステムとして構築されています。
Codecのインフラは、各オペレーターをサンドボックス化されたモジュールとして扱うため、これに最適です。つまり、複数のオペレーターを並行して立ち上げ、それぞれが独自のモデルやタスクを実行しながら、同じアーキテクチャを通じてそれらをカプセル化し、調整することができます。
ロボットやヒューマノイドは一般的に複数の脳を持っており、1つのオペレーターが視覚処理を担当し、別のオペレーターがバランスを担当し、さらに別のオペレーターが高レベルの計画を行うなど、これらはすべてCodecのシステムを通じて調整されることができます。
Nvidiaの基盤モデルIssac GR00T N1は、2つのモジュールSystem 2 + System 1アーキテクチャを使用しています。System 2は、PaLMのバージョンまたはそれに類似した視覚-言語モデル(であり、マルチモーダル)で、ロボットのカメラを通して世界を観察し、指示を聞き取り、その後、高レベルの計画を立てます。
システム1は、計画を受け取り、それをリアルタイムで連続的な動きに変える拡散変換ポリシーです。システム2を熟慮する脳、システム1を本能的な体のコントローラーと考えることができます。システム2は「赤いカップに移動し、それをつかみ、棚に置く」といった出力を生成し、システム1は脚と腕が各ステップをスムーズに実行するための詳細な関節軌道を生成します。
システム1は、微細な動作を習得するために、人間のテレオペレーションデモや物理シミュレーションデータ(を含む大量の軌道データで訓練されました。一方、システム2は、意味理解)のためのインターネット事前学習(を備えたトランスフォーマーに基づいて構築されました。
この推論と行動の分離はNVIDIAにとって非常に強力です。つまり、GR00Tは計画を必要とする長期的なタスクを処理でき、)システム2(のおかげで、また、)システム1(のおかげで、即座に変化に反応することができます。
ロボットがトレイを運んでいて、誰かがトレイを押した場合、システム1は遅いシステム2が気づくのを待つのではなく、すぐにバランスを修正できます。
GR00T N1は、最初のオープンに利用可能なロボティクス基盤モデルの1つで、すぐに注目を集めました。
箱から出した状態で、さまざまなタスクにおいてスキルを示し、片手または両手で物をつかんだり移動させたり、手から手へアイテムを渡したり、特定のプログラミングなしで複数のステップの作業を実行できました。単一の実体に縛られていなかったため、開発者は最小限の調整で異なるロボットでの動作を示しました。
これは、Helix )Figureの基盤モデル(にも当てはまります。このタイプのアーキテクチャを使用しています。Helixは、2つのロボットまたは複数のスキルが操作できるようにします。Codecは、情報を共有するいくつかのオペレーターを実行することによって、マルチエージェントの脳を可能にすることができます。
この「孤立ポッド」デザインは、各コンポーネントが専門化できることを意味します)、ちょうどSystem 1とSystem 2(のように、異なるチームによって開発されることもできますが、それでも一緒に機能することができます。
これは、Codecがこのモジュラーで分散型のインテリジェンスをサポートするための深いソフトウェアスタックを構築しているという点で、ユニークなアプローチです。一方で、他のほとんどはAIモデル自体のみに焦点を当てています。
Codecはまた、大規模な事前トレーニングされたモデルを活用しています。これを基にロボットアプリケーションを構築している場合、Operatorの一部としてOpenVLAやPi Zeroファンデーションモデルを接続することができます。Codecはコネクタやカメラフィード、ロボットAPIへの簡単なアクセスを提供しているため、ロボットのカメラから画像を取得したり、そのモーターに対して速度コマンドを送信するための低レベルのコードを書く必要はありません。すべては高レベルのSDKの背後に抽象化されています。
Codecに対して非常に楽観的な理由の一つは、まさに上記に述べたことです。彼らはナラティブを追い求めているわけではなく、アーキテクチャはファウンデーションモデル間の接着剤になるように構築されており、摩擦なくマルチブレインシステムをサポートしています。これは人間の複雑さにとって重要です。
このトレンドにまだ初期段階であるため、業界のリーダーたちのデザインを研究し、それがなぜ機能するのかを理解する価値があります。ロボティクスはハードウェアとソフトウェアにまたがる層があるため、理解するのが難しいですが、各セクションを一つずつ分解することを学ぶと、はるかに消化しやすくなります。
今は無駄な時間に感じるかもしれませんが、これはAIシーズンの際に私に先行する手助けをしたのと同じ方法であり、なぜ私は多くのプロジェクトに早く参加できたのかという理由です。規律を持ち、共存できる要素とスケールしない要素を学びましょう。
今後数ヶ月で利益をもたらします。
デカトリリオン ) $CODEC ( コーディングされた。
LL
-0.49%
VSN
0.32%
IN
-7.79%
原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については
免責事項
をご覧ください。
報酬
いいね
コメント
リポスト
共有
コメント
0/400
コメント
コメントなし
トピック
#
Token of Love: Cheer on Square & Win Tickets
23k 人気度
#
Crypto Market Rebound
217k 人気度
#
FOMC July Minutes
37k 人気度
#
Show My Alpha Points
175k 人気度
#
Crypto-Related xStocks Rally
5k 人気度
ピン
サイトマップ
あなたは、人間の認知に触発された実際のSystem 2 + System 1スタイルのアーキテクチャを継続的に使用するヒューマノイドの基盤モデルを見るでしょう。
今日のほとんどの視覚-言語-行動(VLA)モデルは、認識、言語、行動を単一のネットワーク内で処理する集中型のマルチモーダルシステムとして構築されています。
Codecのインフラは、各オペレーターをサンドボックス化されたモジュールとして扱うため、これに最適です。つまり、複数のオペレーターを並行して立ち上げ、それぞれが独自のモデルやタスクを実行しながら、同じアーキテクチャを通じてそれらをカプセル化し、調整することができます。
ロボットやヒューマノイドは一般的に複数の脳を持っており、1つのオペレーターが視覚処理を担当し、別のオペレーターがバランスを担当し、さらに別のオペレーターが高レベルの計画を行うなど、これらはすべてCodecのシステムを通じて調整されることができます。
Nvidiaの基盤モデルIssac GR00T N1は、2つのモジュールSystem 2 + System 1アーキテクチャを使用しています。System 2は、PaLMのバージョンまたはそれに類似した視覚-言語モデル(であり、マルチモーダル)で、ロボットのカメラを通して世界を観察し、指示を聞き取り、その後、高レベルの計画を立てます。
システム1は、計画を受け取り、それをリアルタイムで連続的な動きに変える拡散変換ポリシーです。システム2を熟慮する脳、システム1を本能的な体のコントローラーと考えることができます。システム2は「赤いカップに移動し、それをつかみ、棚に置く」といった出力を生成し、システム1は脚と腕が各ステップをスムーズに実行するための詳細な関節軌道を生成します。
システム1は、微細な動作を習得するために、人間のテレオペレーションデモや物理シミュレーションデータ(を含む大量の軌道データで訓練されました。一方、システム2は、意味理解)のためのインターネット事前学習(を備えたトランスフォーマーに基づいて構築されました。
この推論と行動の分離はNVIDIAにとって非常に強力です。つまり、GR00Tは計画を必要とする長期的なタスクを処理でき、)システム2(のおかげで、また、)システム1(のおかげで、即座に変化に反応することができます。
ロボットがトレイを運んでいて、誰かがトレイを押した場合、システム1は遅いシステム2が気づくのを待つのではなく、すぐにバランスを修正できます。
GR00T N1は、最初のオープンに利用可能なロボティクス基盤モデルの1つで、すぐに注目を集めました。
箱から出した状態で、さまざまなタスクにおいてスキルを示し、片手または両手で物をつかんだり移動させたり、手から手へアイテムを渡したり、特定のプログラミングなしで複数のステップの作業を実行できました。単一の実体に縛られていなかったため、開発者は最小限の調整で異なるロボットでの動作を示しました。
これは、Helix )Figureの基盤モデル(にも当てはまります。このタイプのアーキテクチャを使用しています。Helixは、2つのロボットまたは複数のスキルが操作できるようにします。Codecは、情報を共有するいくつかのオペレーターを実行することによって、マルチエージェントの脳を可能にすることができます。
この「孤立ポッド」デザインは、各コンポーネントが専門化できることを意味します)、ちょうどSystem 1とSystem 2(のように、異なるチームによって開発されることもできますが、それでも一緒に機能することができます。
これは、Codecがこのモジュラーで分散型のインテリジェンスをサポートするための深いソフトウェアスタックを構築しているという点で、ユニークなアプローチです。一方で、他のほとんどはAIモデル自体のみに焦点を当てています。
Codecはまた、大規模な事前トレーニングされたモデルを活用しています。これを基にロボットアプリケーションを構築している場合、Operatorの一部としてOpenVLAやPi Zeroファンデーションモデルを接続することができます。Codecはコネクタやカメラフィード、ロボットAPIへの簡単なアクセスを提供しているため、ロボットのカメラから画像を取得したり、そのモーターに対して速度コマンドを送信するための低レベルのコードを書く必要はありません。すべては高レベルのSDKの背後に抽象化されています。
Codecに対して非常に楽観的な理由の一つは、まさに上記に述べたことです。彼らはナラティブを追い求めているわけではなく、アーキテクチャはファウンデーションモデル間の接着剤になるように構築されており、摩擦なくマルチブレインシステムをサポートしています。これは人間の複雑さにとって重要です。
このトレンドにまだ初期段階であるため、業界のリーダーたちのデザインを研究し、それがなぜ機能するのかを理解する価値があります。ロボティクスはハードウェアとソフトウェアにまたがる層があるため、理解するのが難しいですが、各セクションを一つずつ分解することを学ぶと、はるかに消化しやすくなります。
今は無駄な時間に感じるかもしれませんが、これはAIシーズンの際に私に先行する手助けをしたのと同じ方法であり、なぜ私は多くのプロジェクトに早く参加できたのかという理由です。規律を持ち、共存できる要素とスケールしない要素を学びましょう。
今後数ヶ月で利益をもたらします。
デカトリリオン ) $CODEC ( コーディングされた。