DeepSeek опинилася в центрі загальної уваги рік тому після релізу моделі R1, яка стала прямим конкурентом o1 від OpenAI, проте коштувала в рази дешевше у виробництві. Цей реліз став шоком для американських розробників, адже він довів, що для створення топового штучного інтелекту зовсім не обов’язково мати мільярдні бюджети та тисячі серверів.
Нова стаття про mHC може стати технологічною основою для майбутньої моделі DeepSeek, R2, яку планували випустити в середині минулого року, але відклали через обмежений доступ Китаю до передових ШІ-чипів штучного інтелекту та занепокоєння CEO компанії Лян Веньфена щодо продуктивності моделі.
Ця стаття, опублікована на сервері препринтів arXiv — популярному онлайн-ресурсі, де дослідники діляться результатами робіт, що ще не пройшли рецензування, — є спробою подолати складний і важливий технічний розрив, який перешкоджає масштабованості моделей ШІ, пише ZDNET.
Проблема
LLM побудовані на нейронних мережах, які, у свою чергу, призначені для збереження сигналів на багатьох шарах. Проблема полягає в тому, що чим більше шарів додається, тим більше сигнал може ослаблятися або погіршуватися, і тим більший ризик його перетворення на шум. Це трохи схоже на гру в телефон: чим більше людей додається, тим вища ймовірність того, що оригінальне повідомлення буде заплутане та змінене.
Отже, головне завдання полягає в тому, щоб створити моделі, здатні зберігати силу сигналу в якомога більшій кількості шарів — або, як зазначають дослідники DeepSeek у своїй новій роботі, «краще оптимізувати компроміс між пластичністю та стабільністю».
Рішення
Автори нової статті — серед яких і генеральний директор DeepSeek Лян Веньфен — спиралися на концепцію «гіперзв’язків» (HC). Цю структуру запропонували у 2024 році дослідники з ByteDance для диверсифікації каналів, через які шари нейронної мережі обмінюються інформацією між собою. Проте гіперзв’язки створюють ризик втрати початкового сигналу. Крім того, вони потребують значних витрат пам’яті, що ускладнює їх впровадження у великих масштабах.
Архітектура mHC має на меті вирішити цю проблему, обмежуючи гіперзв’язки в моделі, тим самим зберігаючи інформаційну складність, що забезпечується HC, одночасно уникаючи проблеми з пам’яттю. Це, своєю чергою, може дозволити навчання дуже складних моделей таким чином, щоб це було практично та масштабовано навіть для тих розробників, які мають менше коштів.
Чому це важливо
Як і у випадку з випуском R1 у січні 2025 року, дебют фреймворку mHC може натякнути на новий напрямок еволюції ШІ.
Досі в перегонах ШІ панувала думка, що лише найбільші та найбагатші компанії можуть дозволити собі створювати передові моделі. Але DeepSeek постійно демонструє, що обхідні шляхи можливі, і що проривів можна досягти виключно завдяки розумній інженерії.
Той факт, що компанія опублікувала своє нове дослідження методу mHC, означає, що він може бути широко прийнятий меншими розробниками, особливо якщо його буде використовувати довгоочікувана модель R2 (дата випуску якої офіційно не оголошена).
https://dev.ua/news/deepseek-znaishla-novyi-pidkhid-do-navchannia-llm-modelei-1767444156