OpenAI, Büyük Modellerin Kötü Amaçlı Davranışlarını Durdurmak için CoT İzlemeyi Yayınladı

robot
Abstract generation in progress

Golden Finance, OpenAI'nin CoT (düşünce zinciri) izlemeyi kullanarak en son araştırmayı yayınladığını, büyük modellerin saçma sapan konuşması ve gerçek niyetleri gizlemesi gibi kötü niyetli davranışları önleyebileceğini ve aynı zamanda süper modelleri denetlemek için etkili araçlardan biri olduğunu bildirdi. OpenAI, izlenen nesne olarak yeni piyasaya sürülen son teknoloji model o3-mini'yi ve monitör olarak daha zayıf GPT-4o modelini kullanır. Test ortamı, yapay zekanın birim testlerini geçmek için kod tabanında işlevsellik uygulamasını gerektiren bir kodlama görevidir. Sonuçlar, CoT monitörünün, yalnızca izlenen davranışların %60'ını çok aşan, %95'e varan bir hatırlama oranıyla sistematik "ödül korsanlığı" davranışını tespit etmede iyi performans gösterdiğini gösterdi.

View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Reward
  • Comment
  • Share
Comment
0/400
No comments
  • Pin