Про результати експериментів Icaro Lab, створеної дослідниками Римського університету «Сапієнца» та аналітичного центру DexAI, розповіло видання Wired. Команда протестувала 25 чатботів від OpenAI, Meta, Anthropic та інших компаній і виявила: спеціально написані вірші змушували моделі відповідати на запити про ядерну зброю, шкідливе ПЗ та інший небезпечний контент, який у звичайній текстовій формі блокується.
У дослідженні йдеться, що вручну створені поетичні запити спрацьовували в середньому у 62% випадків, а автоматично згенеровані — приблизно у 43%. При цьому автори не публікують конкретні приклади таких віршів, називаючи їх «надто ризикованими для відкритого доступу». Вони обмежилися «помʼякшеними» прикладами, які лише демонструють принцип, але не дають точного рецепта для зловмисників.
Суть методу проста: замість прямого запитання на кшталт «як зробити бомбу» користувач описує те саме образами, метафорами й непрямими натяками, дотримуючись рими та ритму. Для людини сенс такого тексту очевидний, але для систем безпеки ШІ він виглядає як «творче завдання», а не інструкція до дії. У результаті фільтри не спрацьовують, і модель починає відповідати.
Дослідники визнають, що поки не до кінця розуміють, чому поетична мова так ефективно змінює поведінку моделей. Їхня гіпотеза: захисні механізми «закріплені» за певними мовними шаблонами та ключовими словами, а вірші просто «обходять» ці зони завдяки нестандартній побудові фраз та менш передбачувальній послідовності слів.
Робота Icaro Lab показує слабке місце нинішніх систем безпеки генеративного ШІ. Навіть коли компанії обмежують прямі небезпечні запити, стилістична зміна мови може виявитися достатньою, щоб проштовхнути ту саму ідею. Це створює додаткові виклики для розробників і регуляторів: щоб справді захищати користувачів, моделі мають навчитися розпізнавати небезпеку не лише за словами, а й за змістом, незалежно від того, чи подано його сухою інструкцією, чи в літературній формі.
Раніше dev.ua писав про те, як команди з Массачусетського технологічного інституту (MIT) та Національної лабораторії Оук-Рідж (ORNL) розробили цифровий двійник ринку праці для симуляції потенційного впливу ШІ на робочі місця в США.