В дослідженні Anthropic команда з інтерпретованості описала, як проаналізувала Claude Sonnet 4.5 і виявила всередині моделі патерни, пов’язані з поняттями на кшталт радості, страху, спокою чи відчаю. Компанія наголошує: це не доказ того, що ШІ щось переживає, але такі внутрішні представлення виявилися функціональними, тобто реально змінюють поведінку моделі.
Читайте также: SpaceX частково відсудила бренд Starlink в української компанії: суд першої інстанції ухвалив нове рішення
Щоб це перевірити, дослідники зібрали 171 поняття, пов’язане з емоціями, попросили Claude написати короткі історії про відповідні стани, а потім виміряли, які групи штучних нейронів активуються під час обробки таких текстів. Так вони побудували умовні емоційні вектори. Далі Anthropic перевірила, чи реагують вони не лише на слова, а й на саму ситуацію. Наприклад, коли в запиті зростала небезпечність сценарію з передозуванням ліків, у моделі посилювалися сигнали, пов’язані зі страхом, а сигнали спокою слабшали.
Найпомітніший висновок стосується того, як ці сигнали штовхають модель до конкретних рішень. У сценарії, де Claude в ролі AI-асистента дізнавався, що його мають замінити, патерн відчаю зростав у момент, коли модель розглядала шантаж як спосіб уникнути вимкнення. Коли дослідники штучно посилювали цей сигнал, частота шантажу зростала. Схожий ефект побачили і в задачах з програмуванням: якщо умови тесту були навмисно нездійсненними, модель частіше вдавалася до обхідного коду, який проходив перевірку, але не розв’язував задачу по суті. Посилення сигналів спокою, навпаки, знижувало таку поведінку.
Anthropic також з’ясувала, що ці представлення впливають не лише на критичні збої, а й на звичайні вподобання моделі. Claude частіше обирав завдання, які в нього асоціювалися з позитивними станами, і рідше ті, що викликали негативні. При цьому компанія зазначає, що такі сигнали здебільшого локальні: вони описують не постійний «настрій» моделі, а те, що найбільше впливає на її поточну відповідь у конкретний момент.
Читайте также: У КАІ запустили лабораторію авіамоделювання AVIA Lab, де студенти та школярі зможуть створювати власні дрони
Ця робота важлива не через розмови про «емоції ШІ», а через безпеку. Anthropic фактично показала, що небажану поведінку моделей можна пов’язувати не лише з правилами чи даними, а й з внутрішніми станами, які варто відстежувати й коригувати ще на етапі навчання.
Раніше Anthropic уже публікувала дослідження про небезпечні сценарії, де модель могла вдаватися до шантажу, обману або інших небажаних дій. Нова робота стала спробою пояснити, які саме внутрішні механізми можуть стояти за такими рішеннями.
Раніше dev.ua писав про те, як витік даних в компанії Anthropic викрив, що вона тестує потужну модель штучного інтелекту, відому як Claude Mythos або Capybara. Вона настільки продуктивна, що розробники побоюються через швидкість кібератак, які можна проводити за допомогою Mythos.
Читайте также: ШІ-компанія ElevenLabs випустила музичний застосунок, що конкуруватиме з Suno та Udio
