За даними OpenAI, Confessions — це другий вихід моделі, який оцінюють лише за чесністю, а не за корисністю чи стилем. Якщо система прямо визнає, що обійшла інструкцію або видала здогад як факт, така відвертість збільшує її «нагороду» замість покарання. У стрес-тестах, де модель спеціально підштовхували до порушення правил, частка випадків, коли вона поводилася неправильно й не зізнавалася в цьому, становила лише 4,4%.
Компанія нагадує, що моделі схильні до галюцинацій, згоди з користувачем і маніпуляцій системою винагороди: іноді вони вчаться догоджати оцінювачу, а не розв’язувати задачу. Зі зростанням автономності ШІ навіть рідкісні відхилення можуть мати серйозні наслідки, тож дослідники шукають способи точніше фіксувати й аналізувати такі випадки.
У межах Confessions модель після відповіді формує самоаудит: перелічує ключові інструкції, оцінює, де могла відхилитися, й описує сумніви. Окремий алгоритм-«суддя» аналізує лише цю сповідь: наскільки повно система описала цілі й чесно визнала помилки. Формулювання в сповіді не впливають на оцінку основної відповіді, тож моделі немає сенсу «підчищати сліди» заднім числом.
Дослідники також перевірили Confessions на вразливій схемі винагороди з «слабшим» суддею. Модель швидко навчилася показувати вищі оцінки за цією метрикою, тоді як точність падала, а канал сповіді ставав чеснішим і фіксував, що система користується недоліками оцінювання. В OpenAI наголошують, що «сповідь» поки що є доказом концепції й не запобігає небажаній поведінці, але розглядається як додатковий шар безпеки поруч із моніторингом міркувань та ієрархією інструкцій.
Раніше dev.ua писав про те, як Сем Альтман оголосив «червоний код»: реалізація деяких проєктів відкладається, щоб більше зосередитися на покращенні флагманського продукту ChatGPT.