нейропоток
Обзоры моделейПрактик

Voxtral: открытый TTS от Mistral — клонирую голос бесплатно

Voxtral — open-source модель синтеза речи от Mistral. Тестирую: качество голоса, клонирование, скорость на CPU и GPU, сравниваю с ElevenLabs.

Павел·4 мин чтения
Voxtral: открытый TTS от Mistral — клонирую голос бесплатно
Поделиться:TelegramVK

Когда Mistral выпустил Voxtral, я сразу поставил в очередь потестить. ElevenLabs стоит $22 в месяц, а голос нужен редко — для нарезки подкастов, аудио к видео, озвучки текстов. Платить за это постоянно неохота.

Voxtral — это open-source TTS (Text-to-Speech, синтез речи) от Mistral. Запускается локально, бесплатно, с клонированием голоса по короткому аудиосэмплу.

Рассказываю что получилось.

Что такое Voxtral и чем отличается

Voxtral — это модель, которая превращает текст в звучащую речь. Mistral выложили её открыто: можно скачать веса, запустить локально, использовать без ограничений.

Ключевые параметры:

  • Поддерживает русский язык (проверял — работает хорошо)
  • Клонирование голоса по 3-10 секундам аудио
  • Работает на CPU, но медленно; на GPU — быстро
  • Лицензия разрешает коммерческое использование

Сравнение с основными альтернативами:

ПараметрVoxtralElevenLabsCoqui TTS
Ценабесплатноот $5/месбесплатно
Качество★★★★☆★★★★★★★★☆☆
Клонированиедадада
Русскийдадаограничено
Локальноданетда
Скорость CPUмедленнобыстро

Установка

Нужен Python 3.10+ и pip. Если нет — устанавливаем с python.org.

bash
pip install voxtral

Для GPU-ускорения (если есть CUDA):

bash
pip install voxtral[cuda]

При первом запуске модель скачивается (~2 ГБ).

Внимание

На Windows без WSL бывают проблемы с аудио-зависимостями. Если ffmpeg не установлен — Voxtral его не найдёт. Установите ffmpeg отдельно: choco install ffmpeg или через winget.

Базовый синтез речи

Самый простой сценарий — просто превратить текст в речь:

python
from voxtral import VoxtralTTS tts = VoxtralTTS() tts.synthesize( text="Привет! Это тест синтеза речи от Mistral. Качество звучит нормально?", output_path="output.wav", language="ru" )

На моём MacBook M2 без GPU — около 8 секунд на фразу из 15 слов. Немного, но если нужно озвучить статью на 3000 слов — придётся подождать.

На GPU RTX 3080 — то же самое за 0.4 секунды.

Качество голоса по умолчанию: нейтральный мужской тембр, хорошая просодия (ударения, интонации), нет характерного «роботизированного» звука. Для технического контента — отлично. Для эмоциональных роликов — немного пресновато.

Клонирование голоса

Это то, ради чего я в основном и тестировал. Даёшь модели 5-10 секунд своего голоса — она синтезирует остальной текст в нём.

python
from voxtral import VoxtralTTS tts = VoxtralTTS() # Передаём референсный аудиофайл tts.synthesize( text="Это озвучено клонированным голосом. Звучит похоже?", output_path="cloned_output.wav", reference_audio="my_voice_sample.wav", # 5-10 секунд записи language="ru" )

Результаты честные. Характерные особенности голоса — тембр, темп — передаются неплохо. Интонации немного сглаживаются. На большой дистанции разница заметна, но для разовой озвучки сойдёт.

Записал себя на телефон (~7 секунд, просто что-то говорил). Клонирование заняло секунд 20 на CPU. Результат: 70% похож на меня. Для ElevenLabs этот же сэмпл дал бы 90%.

Компромисс понятен: плачу 0 рублей против 2000+ в месяц за ElevenLabs, получаю 70% качества. Для большинства задач — приемлемо.

Пакетная обработка

Реально полезная штука — озвучить сразу много текста:

python
from voxtral import VoxtralTTS import os tts = VoxtralTTS() texts = [ "Первый абзац статьи.", "Второй абзац с деталями.", "Заключение и выводы.", ] for i, text in enumerate(texts): tts.synthesize( text=text, output_path=f"chunk_{i:03d}.wav", language="ru" ) # Потом склеиваем через ffmpeg: # ffmpeg -f concat -safe 0 -i filelist.txt -c copy output_full.wav

Так я озвучиваю черновики статей для прослушивания — быстрее редактировать текст на слух.

Где Voxtral хорош, где нет

Хорош:

  • Длинные нейтральные тексты: новости, инструкции, статьи
  • Разработка и прототипирование — когда нужен голос без платежей
  • Self-hosted пайплайны без передачи данных третьим сторонам
  • Пакетная обработка больших объёмов

Слабее:

  • Эмоциональные выступления, реклама, живые диалоги
  • Real-time синтез без GPU — слишком медленно
  • Клонирование голоса уступает ElevenLabs по натуральности

Итог

Voxtral — честный open-source TTS уровня «очень хорошо». Не «невероятно», не «как живой человек», но работает и не стоит денег.

Я оставил его для задач, где качество не критично: озвучка черновиков, автоматизации, прототипы. ElevenLabs держу для всего публичного.

Если вам нужен бесплатный синтез речи с русским языком — Voxtral сейчас лучший открытый вариант. Попробуйте.

Если интересна тема автоматизации с AI — посмотрите как я собрал первый воркфлоу на Make.com: Voxtral можно легко встроить в такой пайплайн.