Mistral Large 3

Флагманська модель Mistral, яку назвали Mistral Large 3, досягає рівня важливих функціональних можливостей, які пропонують більші ШІ-моделі із закритим кодом, зокрема GPT-4o від OpenAI та Gemini 2 від Google, а також успішно протистоїть кільком конкурентам із відкритими параметрами, пише TechCrunch.

Large 3 є однією з перших відкритих передових моделей, що поєднує мультимодальні та багатомовні можливості в одному рішенні, що ставить її в один ряд із Llama 3 від Meta та Qwen3-Omni від Alibaba.

Наразі багато інших компаній комплектують свої вражаючі великі мовні моделі окремими меншими мультимодальними моделями. Раніше Mistral вже використовував такий підхід у моделях Pixtral та Mistral Small 3.1.

Large 3 також має архітектуру «гранулярної суміші експертів» (granular Mixture of Experts) з 41 млрд активних параметрів і 675 млрд загальних параметрів, що забезпечує ефективну обробку в контекстному вікні розміром 256 000 токенів.

Така архітектура забезпечує одночасно високу швидкість та продуктивність, даючи можливість обробляти об’ємні документи і виступати в ролі агентного помічника для комплексних завдань підприємств.

Mistral вважає Large 3 придатною для аналізу документації, програмування, створення вмісту, ШІ-асистентів та автоматизації робочих процесів.

Сімейство невеликих моделей Ministral 3

Лінійка включає 9 різних високопродуктивних щільних моделей, представлених у трьох розмірах (14 млрд, 8 млрд і 3 млрд параметрів) та трьох варіантах: Base (попередньо навчена базова модель), Instruct (оптимізована для чату, розмов та робочих процесів у стилі асистента) і Reasoning (оптимізована для складної логіки та аналітичних завдань).

У Mistral зазначають, що такий діапазон моделей надає розробникам і бізнесу гнучкість для підбору моделей відповідно до їхніх конкретних вимог щодо продуктивності, чи то йдеться про максимальну швидкість, чи про економічну ефективність, чи про спеціалізовані можливості.

Компанія стверджує, що Mistral 3 має показники на рівні або вище, ніж інші провідні моделі з відкритими параметрами, при цьому забезпечуючи більшу ефективність і генеруючи меншу кількість токенів для аналогічних завдань. Усі модифікації підтримують функції обробки зображень, працюють із контекстними вікнами 128K–256K та функціонують у багатьох мовах.

Mistral 3 здатна функціонувати на одному GPU, забезпечуючи її розгортання на економічно доступному обладнанні — починаючи від локальних серверів і закінчуючи ноутбуками, роботами та іншими периферійними пристроями з потенційно обмеженим підключенням. Це є вагомим чинником не лише для підприємств, які зберігають дані всередині системи, але й для студентів, яким потрібен офлайн-доступ до інформації, чи для команд робототехніки, які працюють у віддалених умовах.

https://dev.ua/news/frantsuzkyi-startap-mistral-predstavyv-simeistvo-z-10-shi-modelei-z-vidkrytym-kodom-1764692699

От admin

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *