OpenAI lança monitoramento CoT para impedir o comportamento malicioso de grandes modelos

robot
Geração de resumo em curso

Golden Finance informou que a OpenAI lançou a pesquisa mais recente, usando monitoramento CoT (cadeia de pensamento), pode prevenir comportamentos maliciosos, como grandes modelos falando bobagens e escondendo intenções verdadeiras, e também é uma das ferramentas eficazes para supervisionar super modelos. OpenAI usa o recém-lançado modelo de ponta o3-mini como o objeto monitorado, e o modelo GPT-4o mais fraco como o monitor. O ambiente de teste é uma tarefa de codificação que requer que a IA implemente a funcionalidade na base de código para passar nos testes de unidade. Os resultados mostraram que o monitor CoT teve um bom desempenho na deteção sistemática de comportamentos de "hacking de recompensa", com uma taxa de recordação de até 95%, excedendo em muito os 60% de comportamentos que foram apenas monitorados.

Ver original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Recompensa
  • Comentar
  • Partilhar
Comentar
0/400
Nenhum comentário
  • Pino
Negocie cripto em qualquer lugar e a qualquer hora
qrCode
Digitalizar para transferir a aplicação Gate
Novidades
Português (Portugal)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)