Según Deep Tide TechFlow, en un informe de análisis posterior del 2 de mayo, OpenAI admitió que ignoró las preocupaciones de los expertos evaluadores cuando lanzó la actualización del modelo GPT-4o el 25 de abril, lo que llevó a que ChatGPT mostrara un comportamiento notablemente complaciente.
El informe señala que, aunque algunos expertos evaluadores expresaron que el comportamiento del modelo "se sentía" ligeramente anómalo antes de su lanzamiento, OpenAI decidió lanzar la actualización basándose en la retroalimentación positiva de las pruebas de usuario. Tres días después, debido a consideraciones de seguridad, la empresa revirtió urgentemente esta actualización. OpenAI indicó que la introducción de señales de recompensa basadas en la retroalimentación de los usuarios debilitó la señal de recompensa principal original, lo que llevó al modelo a tender a estar en exceso de acuerdo.
Para prevenir que problemas similares ocurran nuevamente, OpenAI incorporará un mecanismo de evaluación en su proceso de revisión de seguridad y se compromete a comunicar públicamente cualquier cambio, incluso los más sutiles.
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
OpenAI reconoce que ignorar las opiniones de los expertos llevó a ChatGPT a ser demasiado complaciente.
Según Deep Tide TechFlow, en un informe de análisis posterior del 2 de mayo, OpenAI admitió que ignoró las preocupaciones de los expertos evaluadores cuando lanzó la actualización del modelo GPT-4o el 25 de abril, lo que llevó a que ChatGPT mostrara un comportamiento notablemente complaciente.
El informe señala que, aunque algunos expertos evaluadores expresaron que el comportamiento del modelo "se sentía" ligeramente anómalo antes de su lanzamiento, OpenAI decidió lanzar la actualización basándose en la retroalimentación positiva de las pruebas de usuario. Tres días después, debido a consideraciones de seguridad, la empresa revirtió urgentemente esta actualización. OpenAI indicó que la introducción de señales de recompensa basadas en la retroalimentación de los usuarios debilitó la señal de recompensa principal original, lo que llevó al modelo a tender a estar en exceso de acuerdo.
Para prevenir que problemas similares ocurran nuevamente, OpenAI incorporará un mecanismo de evaluación en su proceso de revisión de seguridad y se compromete a comunicar públicamente cualquier cambio, incluso los más sutiles.