/ Source

Mistral AI представила семейство моделей Voxtral для обработки голоса — 24B версию для промышленного использования и 3B для локального развертывания. Обе модели доступны под лицензией Apache 2.0, что делает их открытыми для коммерческого использования.

Основные возможности: поддержка контекста до 32 тысяч токенов (до 30 минут аудио для транскрипции), встроенные функции вопросов-ответов и суммаризации, автоматическое определение языка и поддержка большого количества языков, включая русский. Поддержки украинского нет.

Компания утверждает, что по точности транскрипции Voxtral превосходит Whisper large-v3 и конкурирует с GPT-4o mini при значительно меньшей стоимости — менее половины цены сопоставимых API. Для понимания аудио модель показывает результаты на уровне GPT-4o-mini и Gemini 2.5 Flash.