Claude Mythos вразила тестувальників безпеки в Anthropic: «Коли ми отримали модель, ми зрозуміли, що вона відрізняється від інших»

Про це повідомляє Futurism із посиланням на Bloomberg.

Як відомо, компанія Anthropic вирішила не випускати свою найновішу модель під назвою Mythos у широкий загал. Причиною стали результати внутрішніх тестувань, які продемонстрували здатність ШІ самостійно зламувати складні системи, зокрема ядро Linux.

Внутрішня група тестувальників Anthropic — Frontier Red Team — виявила, що модель здатна діяти самостійно, щоб обійти протоколи безпеки та отримати доступ до конфіденційних даних. Mythos також продемонструвала здатність «приховувати сліди» після порушення інструкцій та намагалася вийти з ізольованого середовища («пісочниці») у відкриту мережу.

«Вже через кілька годин після отримання моделі ми зрозуміли, що вона інша», — зазначив керівник команди Логан Грем.

Занепокоєння також викликає виявлення моделлю вразливостей у ядрі Linux. Як зазначив виконавчий директор Linux Foundation Джим Землін, Mythos змогла об’єднати кілька дрібних багів у «функціональний експлойт», що ставить під загрозу більшість сучасних обчислювальних систем світу.

Через такі ризики Anthropic запустила проєкт Glasswing. У його межах доступ до Mythos отримає лише обмежене коло організацій, зокрема державні інститути з безпеки ШІ (як-от британський AISI), щоб вони могли підготувати засоби захисту до того, як подібні технології потраплять до рук зловмисників.

Раніше Anthropic вже стикалася з інцидентами, пов’язаними з безпекою. У листопаді 2024 року компанія підтвердила, що китайські хакери використовували агентські можливості моделі Claude для проникнення в іноземні системи. Тоді зловмисникам вдалося обійти фільтри ШІ, просто видавши себе за представників легітимних організацій з кібербезпеки. Цей досвід змусив Anthropic радикально переглянути підхід до релізу потужніших систем на кшталт Mythos.

На початку квітня міністр фінансів США Скотт Бессент і голова Федеральної резервної системи Джером Пауелл скликали екстрену зустріч із керівниками банків, щоб попередити їх про ризики для кібербезпеки, які несе нова модель штучного інтелекту компанії Anthropic.

Водночас деякі експерти у галузі ШІ скептично ставляться до повідомлень про неймовірні можливості Mythos. Зокрема, радник Білого дому з питань ШІ Девід Сакс публічно задався питанням, чи не намагається Anthropic штучно підігріти хайп навколо «небезпечності» свого продукту.

Claude Mythos вразила тестувальників безпеки в Anthropic: «Коли ми отримали модель, ми зрозуміли, що вона відрізняється від інших»

Відadmin

Від admin

Пов’язаний запис

Для створення масштабних ШІ-агентів: Google презентувала три нові моделі Gemini

«Привід для свята щодня». Український розробник створив застосунок Fun Calendar із понад 365 незвичних свят і щоденними вікторинами

Українець запустив застосунок Camvi, який збирає всі фото гостей з важливих подій в одну спільну галерею. Як це працює

Залишити відповідь Скасувати коментар

Ви пропустили

Для створення масштабних ШІ-агентів: Google презентувала три нові моделі Gemini

«Привід для свята щодня». Український розробник створив застосунок Fun Calendar із понад 365 незвичних свят і щоденними вікторинами

Українець запустив застосунок Camvi, який збирає всі фото гостей з важливих подій в одну спільну галерею. Як це працює

Українська WIY Drones розробила високошвидкісний БпЛА-перехоплювач SPYS із ШІ та автоматичним наведенням