Когда Mistral выпустил Voxtral, я сразу поставил в очередь потестить. ElevenLabs стоит $22 в месяц, а голос нужен редко — для нарезки подкастов, аудио к видео, озвучки текстов. Платить за это постоянно неохота.
Voxtral — это open-source TTS (Text-to-Speech, синтез речи) от Mistral. Запускается локально, бесплатно, с клонированием голоса по короткому аудиосэмплу.
Рассказываю что получилось.
Что такое Voxtral и чем отличается
Voxtral — это модель, которая превращает текст в звучащую речь. Mistral выложили её открыто: можно скачать веса, запустить локально, использовать без ограничений.
Ключевые параметры:
- Поддерживает русский язык (проверял — работает хорошо)
- Клонирование голоса по 3-10 секундам аудио
- Работает на CPU, но медленно; на GPU — быстро
- Лицензия разрешает коммерческое использование
Сравнение с основными альтернативами:
| Параметр | Voxtral | ElevenLabs | Coqui TTS |
|---|---|---|---|
| Цена | бесплатно | от $5/мес | бесплатно |
| Качество | ★★★★☆ | ★★★★★ | ★★★☆☆ |
| Клонирование | да | да | да |
| Русский | да | да | ограничено |
| Локально | да | нет | да |
| Скорость CPU | медленно | — | быстро |
Установка
Нужен Python 3.10+ и pip. Если нет — устанавливаем с python.org.
pip install voxtralДля GPU-ускорения (если есть CUDA):
pip install voxtral[cuda]При первом запуске модель скачивается (~2 ГБ).
Внимание
На Windows без WSL бывают проблемы с аудио-зависимостями. Если ffmpeg не установлен — Voxtral его не найдёт. Установите ffmpeg отдельно: choco install ffmpeg или через winget.
Базовый синтез речи
Самый простой сценарий — просто превратить текст в речь:
from voxtral import VoxtralTTS
tts = VoxtralTTS()
tts.synthesize(
text="Привет! Это тест синтеза речи от Mistral. Качество звучит нормально?",
output_path="output.wav",
language="ru"
)На моём MacBook M2 без GPU — около 8 секунд на фразу из 15 слов. Немного, но если нужно озвучить статью на 3000 слов — придётся подождать.
На GPU RTX 3080 — то же самое за 0.4 секунды.
Качество голоса по умолчанию: нейтральный мужской тембр, хорошая просодия (ударения, интонации), нет характерного «роботизированного» звука. Для технического контента — отлично. Для эмоциональных роликов — немного пресновато.
Клонирование голоса
Это то, ради чего я в основном и тестировал. Даёшь модели 5-10 секунд своего голоса — она синтезирует остальной текст в нём.
from voxtral import VoxtralTTS
tts = VoxtralTTS()
# Передаём референсный аудиофайл
tts.synthesize(
text="Это озвучено клонированным голосом. Звучит похоже?",
output_path="cloned_output.wav",
reference_audio="my_voice_sample.wav", # 5-10 секунд записи
language="ru"
)Результаты честные. Характерные особенности голоса — тембр, темп — передаются неплохо. Интонации немного сглаживаются. На большой дистанции разница заметна, но для разовой озвучки сойдёт.
Записал себя на телефон (~7 секунд, просто что-то говорил). Клонирование заняло секунд 20 на CPU. Результат: 70% похож на меня. Для ElevenLabs этот же сэмпл дал бы 90%.
Компромисс понятен: плачу 0 рублей против 2000+ в месяц за ElevenLabs, получаю 70% качества. Для большинства задач — приемлемо.
Пакетная обработка
Реально полезная штука — озвучить сразу много текста:
from voxtral import VoxtralTTS
import os
tts = VoxtralTTS()
texts = [
"Первый абзац статьи.",
"Второй абзац с деталями.",
"Заключение и выводы.",
]
for i, text in enumerate(texts):
tts.synthesize(
text=text,
output_path=f"chunk_{i:03d}.wav",
language="ru"
)
# Потом склеиваем через ffmpeg:
# ffmpeg -f concat -safe 0 -i filelist.txt -c copy output_full.wavТак я озвучиваю черновики статей для прослушивания — быстрее редактировать текст на слух.
Где Voxtral хорош, где нет
Хорош:
- Длинные нейтральные тексты: новости, инструкции, статьи
- Разработка и прототипирование — когда нужен голос без платежей
- Self-hosted пайплайны без передачи данных третьим сторонам
- Пакетная обработка больших объёмов
Слабее:
- Эмоциональные выступления, реклама, живые диалоги
- Real-time синтез без GPU — слишком медленно
- Клонирование голоса уступает ElevenLabs по натуральности
Итог
Voxtral — честный open-source TTS уровня «очень хорошо». Не «невероятно», не «как живой человек», но работает и не стоит денег.
Я оставил его для задач, где качество не критично: озвучка черновиков, автоматизации, прототипы. ElevenLabs держу для всего публичного.
Если вам нужен бесплатный синтез речи с русским языком — Voxtral сейчас лучший открытый вариант. Попробуйте.
Если интересна тема автоматизации с AI — посмотрите как я собрал первый воркфлоу на Make.com: Voxtral можно легко встроить в такой пайплайн.



