Модель DiffusionGemma — це найновіше доповнення до сімейства моделей із відкритими вагами від Google. Проте, на відміну від Gemma 2, яка вийшла цієї весни, ця модель архітектури Mixture of Experts (MoE) на 26 млрд параметрів не є великою мовною моделлю у класичному розумінні, пише The Register.

Читайте также: Бывшая Жена Роналду: История отношений с Мирейей Донарума

Насправді вона ближча до генераторів картинок на кшталт Stable Diffusion чи Flux. Замість звичного покрокового написання тексту (слово за словом), DiffusionGemma видає цілі абзаци тексту за один раз.

Процес дуже схожий на те, як дифузійна модель перетворює те, що по суті статичне, на зображення за допомогою серії кроків шумозаглушення.

Як пояснюють у Google, DiffusionGemma працює за принципом створення «полотна» з випадкових токенів, які потім поступово вдосконалюються, допоки не буде сформовано фінальний текст.

На відміну від класичних великих мовних моделей, які обмежені пропускною здатністю пам’яті й вимагають великого обсягу відеопам’яті, робоче навантаження дифузійних моделей переважно залежить від обчислювальної потужності. Саме тому компанія позиціонує ці моделі для локального розгортання.

Великі мовні моделі є авторегресійними. Під час генерації токенів активні параметри моделі мають зчитуватися з пам’яті для кожного створеного токена, що робить пропускну здатність пам’яті головним «вузьким місцем».

У хмарі постачальники послуг інференсу збалансовують обчислювальну потужність і пропускну здатність пам’яті завдяки паралельній обробці сотень або тисяч запитів. Звичайний користувач, який запускає локальну модель на своєму ноутбуці, зробити цього не може.

Читайте также: «Київстар» увійшов до «Клубу білого бізнесу»

Однак багато споживчих продуктів, наприклад, топові відеокарти, мають великий запас обчислювальної потужності, який DiffusionGemma може використовувати для підвищення швидкості генерації.

Проте дифузійні мовні моделі не ідеальні, і Google — не перший, хто досліджує цю технологію. Попередні моделі, такі як DREAM або Mercury 2, демонстрували значне прискорення порівняно з класичними LLM, але зазвичай поступалися їм у бенчмарках (тестах продуктивності) для свого розміру.

Схоже, DiffusionGemma не стала винятком. За даними Google, ця модель на 26 мільярдів параметрів трохи поступається Gemma 2 12B у бенчмарку GPQA-Diamond. Її головною перевагою є саме швидкість генерації тексту, та й вона виявилася не такою вражаючою, як її змальовує Google.

Графік показує приблизно 2,25-кратне прискорення DiffusionGemma порівняно з LLM на 12 млрд параметрів з увімкненим спекулятивним декодуванням. Якщо ж порівнювати з Gemma 2 26B-A4B, то швидкість роботи збільшується майже в 4 рази під час запуску на одній відеокарті Nvidia H100.

DiffusionGemma випускається як експериментальна модель, а не орієнтована на корпоративний сегмент, як це було у випадку з Gemma 2.

Модель уже доступна для завантаження на популярних репозиторіях на кшталт Hugging Face під дуже ліберальною ліцензією Apache 2.0. Підтримку новинки вже інтегровано в такі відомі рушії інференсу, як vLLM, MLX та HF Transformers, а підтримка для Llama.cpp з’явиться найближчим часом.

Читайте также: «Все, що зараз робить умовний Fable, скоріше за все через два роки може запускатися на девайсі». Співзасновник Mathema поділився інсайтами із закритих івентів DeepMind

Від admin

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *