Нова модель під назвою Voxtral TTS підтримує 9 мов: англійську, французьку, німецьку, іспанську, голландську, португальську, італійську, хінді та арабську.

Читайте также: На росії створили FPV-дрони з крилом у формі кільця і дальністю польоту до 50 км

«Наші клієнти давно просили модель для генерації мовлення. Тому ми розробили компактну модель, яка здатна працювати на смартгодинниках, смартфонах, ноутбуках та інших периферійних пристроях. Її вартість становить лише малу частку від будь-яких аналогів на ринку, але при цьому вона забезпечує передову продуктивність», — розповів П’єр Сток, віцепрезидент із наукових операцій Mistral AI, для TechCrunch.

Mistral заявила, що нова модель може адаптувати власний голос із семплом менше п’яти секунд та вловлювати такі характеристики, як ледь помітні акценти, інтонації, логічні наголоси та індивідуальні особливості темпу мовлення.

Читайте также: Quantum Systems готує для дронів Vector акустичний модуль, який розпізнаватиме артилерію за звуком пострілу

Модель, побудована на базі Ministral 3B, може легко перемикатися між мовами, зберігаючи унікальні риси голосу, що надзвичайно корисно для дубляжу або синхронного перекладу. Сток підкреслив, що компанія прагнула досягти природного людського звучання, а не механічного «голосу робота».

За даними компанії, модель розроблена для роботи в режимі реального часу. Показник Time-to-First-Audio (TTFA) — час до початку «мовлення» після отримання вхідних даних — становить 90 мс для 10-секундного зразка обсягом 500 символів. Модель також має коефіцієнт реального часу (RTF) 6x, що означає здатність згенерувати 10-секундний аудіо кліп приблизно за 1,6 секунди.

Читайте также: Замість Excel-таблички: айтівець створив CRM для пошуку роботи. Як сервіс допоможе ІТ-спеціалістам структурувати весь процес в одному місці

Від admin

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *