Mistral Large 3
Флагманська модель Mistral, яку назвали Mistral Large 3, досягає рівня важливих функціональних можливостей, які пропонують більші ШІ-моделі із закритим кодом, зокрема GPT-4o від OpenAI та Gemini 2 від Google, а також успішно протистоїть кільком конкурентам із відкритими параметрами, пише TechCrunch.
Large 3 є однією з перших відкритих передових моделей, що поєднує мультимодальні та багатомовні можливості в одному рішенні, що ставить її в один ряд із Llama 3 від Meta та Qwen3-Omni від Alibaba.
Наразі багато інших компаній комплектують свої вражаючі великі мовні моделі окремими меншими мультимодальними моделями. Раніше Mistral вже використовував такий підхід у моделях Pixtral та Mistral Small 3.1.
Large 3 також має архітектуру «гранулярної суміші експертів» (granular Mixture of Experts) з 41 млрд активних параметрів і 675 млрд загальних параметрів, що забезпечує ефективну обробку в контекстному вікні розміром 256 000 токенів.
Така архітектура забезпечує одночасно високу швидкість та продуктивність, даючи можливість обробляти об’ємні документи і виступати в ролі агентного помічника для комплексних завдань підприємств.
Mistral вважає Large 3 придатною для аналізу документації, програмування, створення вмісту, ШІ-асистентів та автоматизації робочих процесів.
Сімейство невеликих моделей Ministral 3
Лінійка включає 9 різних високопродуктивних щільних моделей, представлених у трьох розмірах (14 млрд, 8 млрд і 3 млрд параметрів) та трьох варіантах: Base (попередньо навчена базова модель), Instruct (оптимізована для чату, розмов та робочих процесів у стилі асистента) і Reasoning (оптимізована для складної логіки та аналітичних завдань).
У Mistral зазначають, що такий діапазон моделей надає розробникам і бізнесу гнучкість для підбору моделей відповідно до їхніх конкретних вимог щодо продуктивності, чи то йдеться про максимальну швидкість, чи про економічну ефективність, чи про спеціалізовані можливості.
Компанія стверджує, що Mistral 3 має показники на рівні або вище, ніж інші провідні моделі з відкритими параметрами, при цьому забезпечуючи більшу ефективність і генеруючи меншу кількість токенів для аналогічних завдань. Усі модифікації підтримують функції обробки зображень, працюють із контекстними вікнами 128K–256K та функціонують у багатьох мовах.
Mistral 3 здатна функціонувати на одному GPU, забезпечуючи її розгортання на економічно доступному обладнанні — починаючи від локальних серверів і закінчуючи ноутбуками, роботами та іншими периферійними пристроями з потенційно обмеженим підключенням. Це є вагомим чинником не лише для підприємств, які зберігають дані всередині системи, але й для студентів, яким потрібен офлайн-доступ до інформації, чи для команд робототехніки, які працюють у віддалених умовах.