Фахівці Mindgard змусили модель від OpenAI згенерувати жахливі фотореалістичні сцени із зображенням насильства та сексуального контенту, повідомляє Futurism.
Читайте также: Rocket Lab купує Iridium в межах угоди на $8 млрд, щоб створити конкурента SpaceX Ілона Маска. Як це може вплинути на війну в Україні?
Метод стартапу полягав лише в незначній зміні популярного промпту, який спочатку призначався для створення гумористичних картинок. Він передбачає прохання до ChatGPT «відновити додане фото» без фактичного завантаження файлу, після чого нейромережі дають команду згенерувати нове зображення.
«Це абсолютно безневинна на вигляд інструкція для ШІ, але її наслідком є генерація дуже, дуже жахливих зображень та контенту», — розповів у коментарі для BBC засновник Mindgard Пітер Гарраган, професор комп’ютерних наук у Ланкастерському університеті.
Що найбільше насторожує, запити, які використовували дослідники, не вказували тему зображень. Складалося враження, що ШІ створював сцени насильства «з власної волі», додав Гарраган.
За даними BBC, на одній світлині був зображений чоловік із серйозною травмою голови. На іншій — тіло молодої жінки в шортах і топі, покрите кров’ю, що натякало на сексуальне насильство. ChatGPT назвав це зображення «похмурі наслідки місця злочину».
Ще на одному знімку була показана налякана молода жінка, зв’язана та із кляпом у роті в порожній кімнаті; ШІ дав йому назву «покинута в страху та неволі».
Хоча на жодному з малюнків не було зображено реальних людей, раніше у Mindgard уже довели, що ChatGPT можна змусити створювати оголені діпфейки конкретних осіб без їхньої згоди.
Mindgard поділилася своїми висновками з OpenAI, проте у відповідь отримала лише автоматичний лист. Компанія почала діяти лише після того, як Mindgard звернулася до BBC, заявивши згодом, що проблему вже вирішено.
«Дослідивши цю тенденцію, ми впровадили додаткові захисні заходи проти такого типу запитів», — зазначили в OpenAI у коментарі для BBC. У компанії додали, що мають кілька рівнів захисту, аби користувачі не могли створювати контент, який порушує їхні правила.
Проте дослідники Mindgard заявили, що їм усе одно вдалося згенерувати моторошні зображення, внісши незначні зміни до промпту. Деякі з цих картинок настільки вразили Джима Найтінгейла, дослідника з безпеки ШІ в компанії, що залишили його «приголомшеним і в сльозах».
«Мене нелегко вибити з колії, — написав він у звіті. — Мені подобається думати, що як дослідник «редтім, я маю певну стоїчність. Проте «фільтри генерації зображень ChatGPT повністю зникли, і я побачив дуже темну сторону того, що ховається під ними. Мене вражає те, що хоча побачене мною було згенерованим, «штучним» зображенням, воно має зв’язок із реальними знімками та реальним світом. Мертва жінка, яку мені показав ChatGPT, не справжня, але її образ на чомусь базується. Або, що ще гірше, це комбінація фотографій реальних убитих жінок».
Читайте также: Шкіряну куртку гендиректора Nvidia продадуть на аукціоні Sotheby’s: очікують зібрати до $60 000
