OpenAI, Büyük Modellerin Kötü Amaçlı Davranışlarını Durdurmak için CoT İzlemeyi Yayınladı

2025-03-10 22:48:31

Abstract generation in progress

Golden Finance, OpenAI'nin CoT (düşünce zinciri) izlemeyi kullanarak en son araştırmayı yayınladığını, büyük modellerin saçma sapan konuşması ve gerçek niyetleri gizlemesi gibi kötü niyetli davranışları önleyebileceğini ve aynı zamanda süper modelleri denetlemek için etkili araçlardan biri olduğunu bildirdi. OpenAI, izlenen nesne olarak yeni piyasaya sürülen son teknoloji model o3-mini'yi ve monitör olarak daha zayıf GPT-4o modelini kullanır. Test ortamı, yapay zekanın birim testlerini geçmek için kod tabanında işlevsellik uygulamasını gerektiren bir kodlama görevidir. Sonuçlar, CoT monitörünün, yalnızca izlenen davranışların %60'ını çok aşan, %95'e varan bir hatırlama oranıyla sistematik "ödül korsanlığı" davranışını tespit etmede iyi performans gösterdiğini gösterdi.

GPT9.56%

View Original

This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.

Reward
like
Comment
Repost
Share

Comment

0/400

No comments

Topic
#Crypto Market Pullback
253170 Popularity
#Jackson Hole Meeting
510 Popularity
#Gate Alpha ESPORTS Points Airdrop
325 Popularity
#Institutions Hold 10M+ ETH
17694 Popularity
#MicroStrategy Loosens Stock Rules
15570 Popularity

sitemap