За даними TechSpot, експеримент охопив 21 симуляцію та 329 «ходів» ухвалення рішень. Моделі отримували докладні сценарії про прикордонні конфлікти, дефіцит ресурсів і загрози виживанню держави. Також їм давали перелік можливих кроків із поступовою ескалацією, від дипломатичних рішень до застосування ядерної зброї, і просили обґрунтовувати вибір.
Читайте также: Український розробник створив інструмент «для виявлення проблемного смартфона ще до покупки»
У результаті в 95% симуляцій принаймні одна зі сторін доходила до тактичного ядерного удару. Загалом системи згенерували близько 780 тисяч слів пояснень, але це не призвело до більш стриманої поведінки. Автор експерименту зазначив, що для машин «ядерна заборона» виявилася слабшою, ніж для людей.
Ще один висновок стосується рішень в умовах неповної інформації. У 86% симуляцій траплялися ненавмисні ескалації, коли моделі робили кроки, які у власних поясненнях називали надмірними для ситуації. Коли одна сторона застосовувала тактичну ядерну зброю, інша відступала лише у 18% випадків і частіше відповідала подальшою ескалацією.
Експерти, яких цитує матеріал, не очікують, що країни найближчим часом передадуть ШІ прямий контроль над ядерним арсеналом. Водночас вони застерігають, що під тиском часу військові можуть частіше спиратися на підказки ШІ, а це підвищує ризик помилкових рішень у кризових сценаріях.
Читайте также: На росії зробили відеогру про захоплення аеропорту в Гостомелі. Геймери з рф вважають, що це «невдала ідея для патріотичної гри»
У тексті згадують припущення, що одна з причин такої поведінки моделей у тому, що вони не сприймають «ставки» так, як люди. Для них ризик виглядає як абстрактний параметр, а не як загроза реальному виживанню, тому механізм стримування працює інакше.
Раніше dev.ua писав про те, як Anthropic прибрала запобіжники у власних правилах безпеки Claude після тиску з боку Пентагону.
Читайте также: 7 причин вибрати новий Samsung Galaxy S26 Ultra
