— Розкажіть про ваш бекграунд. Хто ви і чим займаєтеся?
Мене звати Юрій Панів. Я аспірант УКУ на комп’ютерних науках. Тема моєї дисертації присвячена вивченню того, як тренувати великі мовні моделі (LLM) на якомога меншій кількості даних. Крім аспірантури, я працюю дата-сайєнтистом у компанії Nortal і є лідером проєкту Lapa LLM.
У рамках цього проєкту ми тренували українську велику мовну модель. Всі датасети, на яких ми працювали, є максимально відкритими, і всі файли моделі також перебувають у відкритому доступі, включно з можливістю комерційного використання.
— Як формувалася команда дослідників, які створювали Lapa, враховуючи, що це міжнародна співпраця, яка включала кілька університетів?
Наша співпраця — це результат соціального капіталу, накопиченого за багато років. Я працюю в Open Source з 2020 року, розпочавши з проєкту для українського text to speech проєкту (синтез мовлення). Знайомства відбувалися через профільні групи.
Після 2022 року, коли з’явилися великі мовні моделі, більшість команди перемикнулася на обробку природної мови. Старша частина команди познайомилася в рамках Open Source роботи, тоді як молодша частина — це студенти, з якими ми працювали під час їхніх магістерських чи бакалаврських робіт.
Загалом, команда налічує приблизно 15 осіб. Якщо говорити про тих, хто працює постійно, то це близько 12.
— Розкажіть детальніше про назву Lapa та про дослідника, на честь якого її назвали
За назву треба віддати належне члену нашої команди Богдану Діденку. Ми назвали модель на честь Валентина Лапи — українського дослідника, який у 1950-х роках разом з Олексієм Івахненком створив метод групового врахування аргументів. Цей метод є попередником Deep Learning. Хоча він був розроблений під задачею оптимізації, його важливість підкреслюється в дослідженнях. Наприклад, відомий дослідник ШІ Юрґен Шмідгубер агітує за те, щоб згадувати метод Івахненка та Лапи як один із попередників глибокого навчання.
— У чому полягають переваги Lapa LLM і як ви досягли того, що вона вважається однією з найкращих моделей для української мови?
Перша велике досягнення проєкту — ефективність токенізації. Якщо дуже спростити: кожна велика мовна модель не оперує текстом як таким, вона оперує наперед заданими частинками слів (токенами), перетворюючи їх на числа. Наскільки добре текст стискається у ці числа, настільки швидко модель видаватиме результат і тим краще буде тренуватися сама модель, оскільки чим довший контекст, тим гірше навчається модель в результаті. Змінити токенізатор сам по собі не проблема, але більшість відомих методів до цього призводили до того, що втрачалися якість моделі. Наша команда, зокрема Микола Гальтюк, розробила метод адаптації наявного токенізатора для української мови без втрати якості. У результаті ми можемо в півтора раза ефективніше перетворювати український текст у токени. Це означає, що сама генерація моделі відбувається у півтора раза швидше, ніж в оригінальній Gemma 3, на якій ми тренували.
Друге досягнення — відкриті дата-сети на різні задачі. Завдяки якісним відкритим датасетам на переклади, Lapa є найкращим перекладачем у парі з англійської на українську. Ми проводили заміри на різних доменах, включаючи енциклопедичний текст, соцмережі та робочі документи. Ми дотреновували модель на юридичні переклади, використовуючи паралельні корпуси законодавства ЄС та України. За деякими розрахунками, якби адаптація українського законодавства до стандартів ЄС виконувалася лише людьми, це зайняло б приблизно дев’ять років. Наша модель може значно прискорити цей процес, працюючи у безпечному, закритому середовищі, і видавати класні юридичні переклади.
Ми також дотреновували модель на підсумовування текстів та питання-відповіді з тексту. Це важливо для чатботів, аналізу документів та RAG-систем.
— Чи зверталися до вас представники Мінцифри з пропозиціями співпраці після того, як дізналися про розробку такої потужної українськомовної моделі?
Ми активно спілкуємося з усіма, оскільки ми зробили модель, але не можемо вгадати всі юскейси, які можуть виникнути у людей. Зараз ми активно збираємо фідбеки через демо та в особистому спілкуванні. Мінцифри вже пробувала модель, проганяючи свої тести. Ми отримали від них фідбеки, які врахуємо для наступної ітерації.
— Який відсоток галюцинацій зараз має Lapa і які кроки ви робите для їхнього зменшення? Я сам стикнувся з галюцинацією, коли модель приписала Тарасу Шевченку авторство вигаданих «хорор-казок».
Це активна робота на другу фазу проєкту, і, якщо говорити відверто, ми ще не знаємо, як це повністю виправити. У нас була проблема, коли ми запитували модель, як її звати, вона відповідає все, що завгодно, крім, власне, назви, попри те що ми дали достатньо даних, які вона повинна була запам’ятати. Навіть у великих API-провайдерів, як-от OpenAI, які тренують моделі на гігантських обсягах даних, проблема галюцинацій присутня.
Наприклад, нещодавно був скандал із моделлю Gemma, яку видалили з Google AI Studio через галюцинацію про кримінальне провадження щодо конгресвумен.
Наразі найбільш робочий спосіб — це тренувати модель на всій інформації, яка тільки є. Для розв’язання проблеми, пов’язаної з невірними контекстами, як у прикладі з казками, нам потрібно допрацювати датасет і проаналізувати дані, які ми отримали з веб-демо.
— Зазначається, що Lapa може працювати з конфіденційними даними та використовуватися в оборонному секторі. Наскільки це безпечно, враховуючи, що команда невелика і ресурсів небагато?
Безпека має кілька вимірів:
По-перше, надсилати військові чи конфіденційні документи через API небезпечно. Оскільки Lapa є локальною і відкритою моделлю, її можна завантажити та використовувати в закритому контурі, що усуває цей ризик.
По-друге, перед будь-яким використанням потрібно обов’язково робити заміри (бенчмаркінг), щоб переконатися, наскільки добре модель працює під конкретний юскейс.
По-третє, у тренувальних даних можуть бути закладені вразливості. Наприклад, оригінальна Gema тренувалася на 6 трильйонах токенів, які нереально перевірити вручну. Ми ж зі свого боку дотреновуємо модель поверх цих трильйонів, додавши 35 мільярдів токенів. У цих даних ми впевнені, оскільки виклали їх у відкритий доступ на Hugging Face. Інші дослідники можуть перевірити ці дані, як ми оцінювали їхню якість та дати фідбек. Це гарантує, що модель є безпечною з точки зору прозорості тренувальних даних.
— Як Lapa захищена від російської пропаганди та дезінформації, яка часто потрапляє у великі мовні моделі?
Це було зверху нашого списку пріоритетів, і ми підійшли до проблеми в кілька етапів. Спочатку створили кілька датасетів на основі джерел, де, наприклад, спеціалісти з дезінформації вже зробили розмітку з наявними ворожими наративами. Одне з джерел, які ми використали, це був дуже класно структурований VoxCheck, який містив пари «пропагандистський клейм» та «контраргумент». Ми використали ці пари, аби через інші моделі згенерувати схожі пари. Тобто в нас був наратив і дві відповіді: правильна на основі фактів і відповідь з точки зору пропаганди.
Далі розробили класифікатор, який видає оцінку, наскільки той чи інший текст є правдивим чи неправдивим. Потім прогнали цей класифікатор на нашому претрейнінг датасеті та відфільтрували всі кейси, де була пропаганда. Ми використали ці пари як умовно дискусійні питання та правильні, засновані на фактах відповіді. Наші тести підтвердили, що модель добре працює з дезінформацією, і ми задоволені цим результатом.
— Що було найважчим і найбільш ресурсозатратним етапом у розробці та тренуванні моделі?
80% роботи — це робота з даними, і по 10% на інженерні рішення та навчання моделі. Найбільше ресурсів займала обробка даних, а не саме тренування. Зокрема під час претрейнінгу модель навчається вгадувати наступне найбільш імовірне слово на величезному масиві текстів. На цьому етапі ми проводили фільтрацію та оцінку якості 35 мільярдів токенів. Ми міряли: легкість читання, навчальну цінність, граматичну правильність, через що виключили суржик, та маніпулятивність. Цей етап зайняв трохи понад два місяці (замість очікуваного одного) через інженерні проблеми, пов’язані з масштабом. Навіть наявного ресурсу в 64 відеокарти H100 було замало.
Далі модель навчається відповідати у форматі чату. Тобто перетворили наявні датасети у чат-формат, а решту — переклали. Сам лише переклад 1,5 мільярда токенів датасетів для інструкцій зайняв приблизно 15 днів.
— З чого ви починали, які обчислювальні потужності мали на початку і як залучали додаткове фінансування?
На жаль, фінансування на зарплати не було. Уся команда працювала як волонтери у вільний від роботи час. Дякую всій команді, що долучилися до такого великого проєкту і в вільний від роботи час, після обстрілів люди виходили на наші регулярні дзвінки та робили цю модель. Це дуже приємно розуміти, що є багато людей, які хочуть зробити щось корисне для всієї спільноти.
Ми починали з серверів УКУ, де було дві відеокарти A6000. Ці сервери ми отримали завдяки підтримці компанії Eleks в рамках гранту у памʼять про Олексія Скрипника і вони є спільними для використання аспірантами. Ми розробили scope план проєкту, що ми розробимо в першу чергу: датасети, бенчмарки та вже цей план пітчили усюди.
Далі через знайомих натрапили на французький стартап Comand AI. Їх зацікавила українська модель, здатна працювати з документами в закритому контурі (переважно для військових юскейсів). Це було взаємовигідно: їм для їхніх потреб, а нам для того, щоб модель була відкритою та комерційно доступною.
Hugging Face підтримали нас, надавши корпоративну підписку. Це дозволило нам легко працювати, зберігати датасети та моделі, а також хостити їх.
Ми будемо раді будь якій підтримці та партнерству. Основне, що ми шукаємо — це обчислювальні ресурси, оскільки станом на зараз це наше головне вузьке місце.
— Чи існують обмеження, наприклад, для малого бізнесу, який захоче використовувати Lapa LLM у своїх системах?
Обмежень немає. Модель покривається стандартною ліцензією Gema. Єдині обмеження, прописані в ліцензії, стосуються поширення дезінформації. Немає обмежень ні на військове, ні на цивільне використання.
— Чи достатньо тих 25 датасетів, які ви використовували, чи потрібно створювати нові?
Додавати дані завжди є куди. Ми не сприймаємо Lapa LLM як фінальну модель. Є така стаття від дослідників, називається Chinchilla Scaling Laws, яка розраховує скільки потрібно додати даних, аби донавчити модель до того стану, який ми хочемо.
Навіть за розрахунками, є ще простір для вдосконалення. Ми додали 37 мільярдів токенів, тоді як Google тренував на 6 трильйонах. Головна мета проєкту — розігнати ком’юніті, щоб інші дослідники могли додати власні датасети та дотренувати модель під свої потреби, маючи вже класну українськомовну основу.
— Які неочікувані запити до Lapa LLM ви отримали за місяць після публічного запуску?
Ми ще аналізуємо фідбек. Серед найбільш частих і, напевно, кумедних запитів, є два лідери. Перший — це «Хто тримає цей район?» (приблизно 40% запитів до LLM). Можна сказати, це, я долучився до того, щоб популяризувати це питання. Я всі нові моделі тестував на «хто тримає цей район», поки у Mamay LLM Ганна Юхименко, яка працювала над цією моделлю, під цим натхненням, так розумію, додала це питання в датасет.
І другий популярний запит — генерація різних анекдотів, поки що думаємо як допрацювати цей юскейс.
— Розкажіть про подальші плани щодо Lapa LLM.
Наші плани на наступний місяць активної розробки включають:
- Врахування фідбеків.
- Робота над узагальненням та reinforcement learning. Тобто, коли модель не навчається запам’ятовувати, а вона отримує тільки оцінку, чи правильна відповідь, чи ні.
- Обробка зображень: розпізнавання друкованих та рукописних текстів. Насправді дуже багато бізнесів та й не тільки, працюють з рукописними документами, які потрібно якось перетворити в текст та проаналізувати.
- Створення асистента з програмування, який може працювати в закритому контурі з українською мовою.
Спробувати модель можна за посиланням на Hugging Face, а код доступний на GitHub.

Добавить комментарий