OpenAI lance la surveillance CoT pour arrêter le comportement malveillant des grands modèles

2025-03-10 22:48:31

Création du résumé en cours

Golden Finance a rapporté qu’OpenAI a publié les dernières recherches, en utilisant la surveillance CoT (chaîne de pensée), il peut prévenir les comportements malveillants tels que les grands modèles qui disent des bêtises et cachent les véritables intentions, et c’est également l’un des outils efficaces pour superviser les super modèles. OpenAI utilise le nouveau modèle de pointe o3-mini comme objet surveillé, et le modèle GPT-4o, plus faible, comme moniteur. L’environnement de test est une tâche de codage qui nécessite que l’IA implémente des fonctionnalités dans la base de code pour réussir les tests unitaires. Les résultats ont montré que le moniteur CoT a bien réussi à détecter les comportements systématiques de « piratage de récompense », avec un taux de rappel allant jusqu’à 95 %, dépassant de loin les 60 % de comportements qui ont été uniquement surveillés.

GPT5.36%

Voir l'original

This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.

Récompense
J'aime
Commentaire
Partager

Commentaire

0/400

Aucun commentaire

Rubrique
Gate Hits 30 Million Users
13k Popularité
Tokenized U.S. Stocks
2k Popularité
Trump–Musk Rift
149 Popularité
4BTC
30015k Popularité
5contentstar
10718k Popularité
6NADA
11185k Popularité
7BOME
11563k Popularité
8BTC
30015k Popularité
9SMILE
9062k Popularité
10比特币
13230k Popularité

Épingler