Golden Financeは、OpenAIが最新の研究を発表したと報じており、CoT(Chain of Thought)モニタリングを使用して、大規模なモデルがナンセンスを話したり、真意を隠したりするなどの悪意のある行動を防ぐことができ、スーパーモデルを監視するための効果的なツールの1つでもあります。 OpenAIは、新たにリリースされた最先端モデルのo3-miniを監視対象物として、より弱いGPT-4oモデルをモニターとして使用します。 テスト環境は、単体テストに合格するために AI がコードベースに機能を実装する必要があるコーディング タスクです。 その結果、CoTモニターは体系的な「報酬ハッキング」行動の検出に優れたパフォーマンスを発揮し、再現率は最大95%で、監視のみの行動の60%をはるかに上回っていることが示されました。
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
OpenAIが大規模モデルの悪意ある行動を阻止するCoTモニタリングをリリース
Golden Financeは、OpenAIが最新の研究を発表したと報じており、CoT(Chain of Thought)モニタリングを使用して、大規模なモデルがナンセンスを話したり、真意を隠したりするなどの悪意のある行動を防ぐことができ、スーパーモデルを監視するための効果的なツールの1つでもあります。 OpenAIは、新たにリリースされた最先端モデルのo3-miniを監視対象物として、より弱いGPT-4oモデルをモニターとして使用します。 テスト環境は、単体テストに合格するために AI がコードベースに機能を実装する必要があるコーディング タスクです。 その結果、CoTモニターは体系的な「報酬ハッキング」行動の検出に優れたパフォーマンスを発揮し、再現率は最大95%で、監視のみの行動の60%をはるかに上回っていることが示されました。