OpenAI lança monitoramento CoT para impedir o comportamento malicioso de grandes modelos

2025-03-10 22:48:31

Geração do resumo em andamento

Golden Finance informou que a OpenAI lançou a pesquisa mais recente, usando monitoramento CoT (cadeia de pensamento), pode prevenir comportamentos maliciosos, como grandes modelos falando bobagens e escondendo intenções verdadeiras, e também é uma das ferramentas eficazes para supervisionar super modelos. OpenAI usa o recém-lançado modelo de ponta o3-mini como o objeto monitorado, e o modelo GPT-4o mais fraco como o monitor. O ambiente de teste é uma tarefa de codificação que requer que a IA implemente a funcionalidade na base de código para passar nos testes de unidade. Os resultados mostraram que o monitor CoT teve um bom desempenho na deteção sistemática de comportamentos de "hacking de recompensa", com uma taxa de recordação de até 95%, excedendo em muito os 60% de comportamentos que foram apenas monitorados.

GPT-1.48%

Ver original

Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.

Recompensa
curtir
Comentário
Repostar
Compartilhar

Comentário

0/400

Sem comentários

Tema
#Crypto Market Pullback
257993 Popularidade
#Jackson Hole Meeting
3990 Popularidade
#Gate Alpha ESPORTS Points Airdrop
3513 Popularidade
#Institutions Hold 10M+ ETH
21858 Popularidade
#MicroStrategy Loosens Stock Rules
18268 Popularidade

Marcar

sitemap