OpenAI випустила моніторинг CoT, щоб зупинити шкідливу поведінку великих моделей

2025-03-10 22:48:31

Генерація анотацій у процесі

У Golden Finance повідомили, що компанія OpenAI опублікувала останнє дослідження, в якому за допомогою моніторингу CoT (ланцюжок думок) вона може запобігти зловмисній поведінці, такій як великі моделі, які говорять нісенітниці та приховують справжні наміри, а також це один із ефективних інструментів для нагляду за супермоделями. OpenAI використовує нещодавно випущену передову модель o3-mini як об'єкт, що контролюється, і слабшу модель GPT-4o як монітор. Тестове середовище – це завдання кодування, яке вимагає від ШІ реалізації функціональності в кодовій базі для проходження модульних тестів. Результати показали, що монітор CoT добре показав себе у виявленні систематичної поведінки «злому винагороди», з частотою запам'ятовування до 95%, що значно перевищує 60% поведінки, яка лише відстежувалася.

GPT9.56%

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

Нагородити
подобається
Прокоментувати
Репост
Поділіться

Прокоментувати

0/400

Немає коментарів

Тема
#Crypto Market Pullback
254k Популярність
#Jackson Hole Meeting
510 Популярність
#Gate Alpha ESPORTS Points Airdrop
325 Популярність
#Institutions Hold 10M+ ETH
18k Популярність
#MicroStrategy Loosens Stock Rules
16k Популярність

Закріпити

карта сайту