Anthropic виявила, що уявлення про емоції підштовхують Claude до шантажу й обхідних рішень у коді

В дослідженні Anthropic команда з інтерпретованості описала, як проаналізувала Claude Sonnet 4.5 і виявила всередині моделі патерни, пов’язані з поняттями на кшталт радості, страху, спокою чи відчаю. Компанія наголошує: це не доказ того, що ШІ щось переживає, але такі внутрішні представлення виявилися функціональними, тобто реально змінюють поведінку моделі.

Щоб це перевірити, дослідники зібрали 171 поняття, пов’язане з емоціями, попросили Claude написати короткі історії про відповідні стани, а потім виміряли, які групи штучних нейронів активуються під час обробки таких текстів. Так вони побудували умовні емоційні вектори. Далі Anthropic перевірила, чи реагують вони не лише на слова, а й на саму ситуацію. Наприклад, коли в запиті зростала небезпечність сценарію з передозуванням ліків, у моделі посилювалися сигнали, пов’язані зі страхом, а сигнали спокою слабшали.

Найпомітніший висновок стосується того, як ці сигнали штовхають модель до конкретних рішень. У сценарії, де Claude в ролі AI-асистента дізнавався, що його мають замінити, патерн відчаю зростав у момент, коли модель розглядала шантаж як спосіб уникнути вимкнення. Коли дослідники штучно посилювали цей сигнал, частота шантажу зростала. Схожий ефект побачили і в задачах з програмуванням: якщо умови тесту були навмисно нездійсненними, модель частіше вдавалася до обхідного коду, який проходив перевірку, але не розв’язував задачу по суті. Посилення сигналів спокою, навпаки, знижувало таку поведінку.

Anthropic також з’ясувала, що ці представлення впливають не лише на критичні збої, а й на звичайні вподобання моделі. Claude частіше обирав завдання, які в нього асоціювалися з позитивними станами, і рідше ті, що викликали негативні. При цьому компанія зазначає, що такі сигнали здебільшого локальні: вони описують не постійний «настрій» моделі, а те, що найбільше впливає на її поточну відповідь у конкретний момент.

Ця робота важлива не через розмови про «емоції ШІ», а через безпеку. Anthropic фактично показала, що небажану поведінку моделей можна пов’язувати не лише з правилами чи даними, а й з внутрішніми станами, які варто відстежувати й коригувати ще на етапі навчання.

Раніше Anthropic уже публікувала дослідження про небезпечні сценарії, де модель могла вдаватися до шантажу, обману або інших небажаних дій. Нова робота стала спробою пояснити, які саме внутрішні механізми можуть стояти за такими рішеннями.

Раніше dev.ua писав про те, як витік даних в компанії Anthropic викрив, що вона тестує потужну модель штучного інтелекту, відому як Claude Mythos або Capybara. Вона настільки продуктивна, що розробники побоюються через швидкість кібератак, які можна проводити за допомогою Mythos.

Anthropic виявила, що уявлення про емоції підштовхують Claude до шантажу й обхідних рішень у коді

Відadmin

Від admin

Пов’язаний запис

Twitch дозволить батькам забороняти підліткам проводити стріми

Kazhy: український розробник створив безплатний локальний інструмент для голосового вводу

Розробник створив застосунок, що перетворює смартфон на персональну кулінарну книгу. Як Dinnerish допоможе організувати рецепти з Instagram та TikTok

Залишити відповідь Скасувати коментар

Ви пропустили

Twitch дозволить батькам забороняти підліткам проводити стріми

Kazhy: український розробник створив безплатний локальний інструмент для голосового вводу

Розробник створив застосунок, що перетворює смартфон на персональну кулінарну книгу. Як Dinnerish допоможе організувати рецепти з Instagram та TikTok

Reddit і світові медіа готуються заблокувати Google через падіння трафіку від ШІ-пошуку