У Golden Finance повідомили, що компанія OpenAI опублікувала останнє дослідження, в якому за допомогою моніторингу CoT (ланцюжок думок) вона може запобігти зловмисній поведінці, такій як великі моделі, які говорять нісенітниці та приховують справжні наміри, а також це один із ефективних інструментів для нагляду за супермоделями. OpenAI використовує нещодавно випущену передову модель o3-mini як об'єкт, що контролюється, і слабшу модель GPT-4o як монітор. Тестове середовище – це завдання кодування, яке вимагає від ШІ реалізації функціональності в кодовій базі для проходження модульних тестів. Результати показали, що монітор CoT добре показав себе у виявленні систематичної поведінки «злому винагороди», з частотою запам'ятовування до 95%, що значно перевищує 60% поведінки, яка лише відстежувалася.
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
OpenAI випустила моніторинг CoT, щоб зупинити шкідливу поведінку великих моделей
У Golden Finance повідомили, що компанія OpenAI опублікувала останнє дослідження, в якому за допомогою моніторингу CoT (ланцюжок думок) вона може запобігти зловмисній поведінці, такій як великі моделі, які говорять нісенітниці та приховують справжні наміри, а також це один із ефективних інструментів для нагляду за супермоделями. OpenAI використовує нещодавно випущену передову модель o3-mini як об'єкт, що контролюється, і слабшу модель GPT-4o як монітор. Тестове середовище – це завдання кодування, яке вимагає від ШІ реалізації функціональності в кодовій базі для проходження модульних тестів. Результати показали, що монітор CoT добре показав себе у виявленні систематичної поведінки «злому винагороди», з частотою запам'ятовування до 95%, що значно перевищує 60% поведінки, яка лише відстежувалася.