Його створили разом командою розробників LLM для української мови MamayLM. «Ми заміряли всі практичні відкриті мовні моделі, які користувач може запустити в себе на комп’ютері.  До того ж проєкт замірів повністю відкритий, інші дослідники можуть відтворити заміри самостійно для прозорості», — розповів Панів.

Лідерборд відображає показники ефективності мовних моделей на тестах української мови, які використовувалися під час розробки Lapa LLM. Він оцінює моделі за різними критеріями та завданнями з NLP (обробки природної мови) українською мовою. Оцінюються такі вміння:

  • Машинний переклад: FLORES-200 (en-uk, uk-en), LongFLORES (en-uk, uk-en), WMT-22 (en-uk, uk-en).
  • Підсумовування: XLSUM (uk).
  • Відповіді на питання в контексті: Belebele (uk), SQuAD (uk).
  • Міркування та знання: ZNO-Eval, Winogrande Challenge, Hellaswag, ARC Easy/Challenge, TriviaQA, MMLU.
  • Розв’язування математичних задач: GSM-8K.
    Виконання інструкцій: IFEval.

Наразі в лідерборді представлені такі LLM як Lapa LLM, MamayLM, Qwen, Llama та Gemma. В трійку кращих за середнім показником увійшли українські моделі Lapa LLM та MamayLM, а також Gemma від Google.

Найближчим часом розробники лідерборду планують додати заміри комерційних мовних моделей від OpenAI, Anthropic, Google, DeepSeek, порівняти як працюють моделі з обробкою зображень, що містять український текст, та додати заміри етичності моделей. Вони також хочуть завантажити повні логи бенчмарків (по 2 Гб на кожну модель), додати порівняння ефективності токенізаторів і збільшити кількість параметрів.

Лідерборд можна переглянути на Hugging Face, а його код доступний на GitHub.

https://dev.ua/news/liderbord-llm-iaki-shariat-ukrainsku-1766502718

Від admin

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *