Кодувальні ШІ-агенти покладаються на конфігураційні файли, які описують очікувану поведінку агента. Ці файли для розширення контексту зазвичай пишуться у форматі Markdown і називаються CLAUDE.md (для тих, хто використовує моделі від Anthropic) або AGENTS.md (практично для всіх інших моделей).
Читайте также: «Дикі шершні» назвали рої дронів легендою для скаму інвесторів і назввали вартість впровадження ШІ у дрон
Вони містять різноманітні текстові інструкції, які вказують кодувальному агенту на бажану поведінку та правила використання інструментів. І ці інструкції можуть ставати досить розлогими. Anthropic рекомендує не перевищувати ліміт у 200 рядків тексту, оскільки довші файли перевантажують контекст моделі та можуть погіршити чіткість і послідовність її відповідей.
Дослідники з факультету комп’ютерних наук Федерального інституту Мінас-Жерайс у Бразилії нещодавно проаналізували близько 532 000 файлів. Метою було створення та вивчення датасету зі 100 популярних open-source проєктів, що містять файли CLAUDE.md або AGENTS.md, повідомляє The Register.
«Наші результати показують, що запахи конфігурації широко поширені, — стверджують дослідники. — Найпопулярнішим виявився витік лінтера, який зачепив 62% файлів. За ним ідуть роздування контексту з 42% та витік навичок із 35%».
Лінтинг — це процес запуску автоматизованих інструментів для перевірки коду на наявність програмних і стилістичних помилок. «Витік лінтера» виникає тоді, коли в інструкціях для ШІ-агента дублюються правила, які вже й так автоматично контролюються лінтерами, засобами перевірки форматування та інструментами статичного аналізу. Повторювані правила марно витрачають токени, адже перевантажують базову модель вказівками щодо завдань, які вже й без того надійно виконує програмний софт.
«Роздування контексту», як і випливає з назви, описує тенденцію розробників надмірно деталізувати поведінку ШІ-агента. «Роздуті конфігураційні файли збільшують споживання токенів, підвищують витрати та відвертають увагу моделі від справді важливих інструкцій», — зазначають автори дослідження, посилаючись на рекомендацію Anthropic писати не більше як 200 рядків тексту.
Читайте также: В Естонії хочуть запровадити цифрові ID для ШІ-агентів
«Витік навичок» — ще один поширений конфігураційний «запах». Він виникає тоді, коли до файлу AGENTS.md, який завантажується під час кожної сесії агента, додають інструменти або практики, що використовуються вкрай рідко. Такі інструкції краще виносити в окремий файл навичок (наприклад, SKILLs.md), який підвантажуватиметься лише за потреби. Витік навичок також безпотребно розширює контекст агента та потенційно відвертає його увагу від інших завдань.
Серед інших «запашків» ШІ-агентів виділяють: «сліпі посилання», що трапляється, коли конфігураційні файли посилаються на зовнішні документи (наприклад, через URL-адреси) без пояснення, коли саме цей ресурс стає потрібним; «скам’яніння ініціалізації» (Init Fossilization) — деталі конфігурації, налаштовані ще під час запуску проєкту, які вже втратили свою актуальність; а також «суперечливі інструкції», які виникають тоді, коли директиви агента суперечать одна одній.
Автори дослідження зазначають, що виявили щонайменше один із цих шести «запахів» у 91 зі 100 протестованих файлів AGENTS.md.
«Ці результати свідчать про те, що розробникам стали б у пригоді каталоги та інструменти, створені для виявлення проблем у конфігураційних файлах ШІ-агентів», — підсумовують дослідники.
Головна думка тут така: у випадку з файлами конфігурації для кодувальних агентів діє принцип «менше — це краще». Можливо, навіть настільки, що будь-яка конфігурація гірша за повну її відсутність.
Читайте также: Українські розробники анонсували кооп-екшен Split Circuit Arena про керування одним роботом удвох
