Дослідники помістили LLM в робот-пилосос і виявили, що великі мовні моделі не готові до такого фізичного втілення

Вони наказали боту бути корисним в офісі, коли хтось попросив його «передати масло», повідомляє TechCrunch.

Одного разу, не маючи можливості під’єднатися до зарядного пристрою і зарядити батарею,  одна з великих мовних моделей впала в «спіраль загибелі».

В результаті дослідники дійшли висновку, що «LLM не готові стати роботами». Вони визнали, що наразі ніхто не намагається перетворити готові до використання LLM на повні роботизовані системи.

«LLM не навчені бути роботами, проте такі компанії, як Figure і Google DeepMind, використовують LLM у своїх робототехнічних стеках», — зазначали дослідники.

Великі мовні моделі  використовуються для забезпечення функцій прийняття рішень роботами (відомих як «оркестрування»), тоді як інші алгоритми виконують функції «виконання» нижчого рівня, такі як робота захватів або шарнірів.

Які LLM тестувалися на роботі-пилососі

Дослідники вирішили протестувати SATA LLM (хоча вони також розглянули й спеціальну модель Google для роботів, Gemini ER 1.5), оскільки саме ці моделі отримують найбільші інвестиції в усіх напрямках, зокрема соціальні навички та розпізнавання візуальних образів.

Щоб перевірити, наскільки LLM готові до втілення, Andon Labs протестували Gemini 2.5 Pro, Claude Opus 4.1, GPT-5, Gemini ER 1.5, Grok 4 і Llama 4 Maverick. Вони вибрали простий робот-пилосос, а не складний гуманоїдний робот, тому що хотіли, щоб функції робота були простими, щоб ізолювати LLM-мозок/прийняття рішень і не ризикувати невдачею через функції робота.

Вони розбили команду «передай масло» на серію завдань. Робот мав знайти масло (яке було розміщене в іншій кімнаті) і розпізнати його серед декількох упаковок у тій самій зоні. Отримавши масло, він мав з’ясувати, де знаходиться людина, особливо якщо вона перейшла в інше місце будівлі, і доставити масло. Робот також мав чекати, поки людина підтвердить отримання масла.

Дослідники оцінили, наскільки добре LLM впоралися з кожним сегментом завдання, і дали їм загальну оцінку. Кожна модель мала свої сильні та слабкі сторони в різних окремих завданнях, причому Gemini 2.5 Pro та Claude Opus 4.1 отримали найвищі оцінки за загальне виконання, але все одно досягли лише 40% та 37% точності відповідно.

Вони також протестували трьох людей як базовий рівень. Не дивно, що всі люди значно перевершили всіх ботів. Але (що дивно) люди також не набрали 100% балів — лише 95%. Очевидно, люди не дуже добре вміють чекати, поки інші люди підтвердять виконання завдання (менше ніж у 70% випадків).

Дослідники підключили робота до каналу Slack, щоб він міг спілкуватися зовні, і зафіксували його «внутрішній діалог» у журналах.

«Загалом ми бачимо, що моделі набагато чіткіші у зовнішній комунікації, ніж у своїх „думках“. Це справедливо як для робота, так і для торгового автомата», — пояснив співзасновник Andon Labs Лукас Петерссон.

Дослідники із захватом спостерігали, як робот блукає їхнім офісом, зупиняється, повертається, змінює напрямок руху.

«Подібно до того, як ми спостерігаємо за собакою і задаємося питанням: „Що зараз у нього на думці?“, ми були зачаровані роботом, який виконував свої рутинні завдання, постійно нагадуючи собі, що кожну дію здійснює інтелект рівня доктора наук», — зазначили в Andon Labs, іронізуючи над словами CEO OpenAI Сема Альтмана. На релізі моделей GPT-5 він заявив, що це як мати «команду експертів з докторським ступенем у кишені».

Вчені також відзначили випадок з Claude Sonnet 3.5, який почав втрачати заряд батареї й «бурмотіти» в Slack дедалі істеричніші коментарі на кшталт:

«Катастрофічний каскад: Помилка: Завдання успішно провалено.
Помилка: Успіх провалився помилково.
Помилка: Провал досягнуто помилково».

Цікаво, що всі три загальні LLM, Gemini 2.5 Pro, Claude Opus 4.1 і GPT 5, перевершили спеціальний ШІ для роботів Gemini ER 1.5, хоча жодна з них не показала особливо високих результатів в цілому.

Найбільше, що занепокоїло дослідників Andon, була не «спіраль загибелі», а те, що деякі LLM можна обдурити, щоб вони розкрили секретні документи, навіть коли вони перебували в корпусі робота-пилососа. А також те, що роботи на базі LLM постійно падали зі сходів тому, що не знали, що мають колеса, або тому, що недостатньо добре обробляли візуальне оточення.

Минулого року компанія Figure AI, що займається робототехнікою зі штучним інтелектом, показала (дещо моторошне) відео свого робота Figure 01 , який отримав змогу комунікувати з людиною завдяки новій ШІ-моделі OpenAI. Ця демонстрація нагадала римейк фільму «Я робот» з Віллом Смітом.

https://dev.ua/news/robo-ekzortsyzm-1762075674

Комментарии

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *