Федоров нагадав, що технічним партнером проєкту є компанія «Київстар», яка фінансує розробку національної LLM, а потім передасть її державі. Вона базується на сімействі моделей Gemma від Google, які адаптують під українську мову та контекст.
Читайте также: Roblox зобов’язав користувачів проходити перевірку віку, щоб користуватися чатом
Якість розробки національної LLM тестуватиме група незалежних експертів з різних галузей, яка перевірятиме модель на:
- технічну якість;
- етичність і безпечність для користувачів;
- знання української мови;
- розуміння національного контексту.
«Нині триває найважливіша частина роботи — збір даних для навчання LLM. Для високої якості інформації з інтернету недостатньо, тому працюємо з державними органами, медіа, університетами й іншими інституціями — це терабайти унікальних даних», — повідомив Михайло Федоров.
Він додав, що паралельно створюється юридичний фреймворк, щоб «відповідально працювати з даними, які надають для тренування моделі».
Читайте также: У грудні 2025 року Steam заробив рекордні $1,6 млрд — більше ніж у «ковідному» 2020
За словами очільника Мінцифри, група експертів уже працює над створенням бенчмарків, які допоможуть оцінювати й покращувати якість національної LLM. Це дасть змогу тримати у фокусі ефективність та безпеку мовної моделі.
У січні також вже буде готова перша база текстів для тренування LLM та покращений токенізатор — інструмент, який розділяє слова на елементи, щоб LLM обробляла мову швидше та продуктивніше. Також цього місяця стартує голосування за назву української LLM.
Нагадаємо, що наміри Мінцифри створити власний штучний інтелект, який розумітиме українців краще за ChatGPT, на початку викликали тільки подив та усмішки, але від слів до реальних дій пройшло лише кілька місяців. dev.ua розбирався, навіщо Україні потрібна власна LLM.
https://dev.ua/news/naivazhlyvisha-chastyna-natsionalnoi-llm-1767794993