Voxtral: открытый TTS от Mistral — клонирую голос бесплатно

Когда Mistral выпустил Voxtral, я сразу поставил в очередь потестить. ElevenLabs стоит $22 в месяц, а голос нужен редко — для нарезки подкастов, аудио к видео, озвучки текстов. Платить за это постоянно неохота.

Voxtral — это open-source TTS (Text-to-Speech, синтез речи) от Mistral. Запускается локально, бесплатно, с клонированием голоса по короткому аудиосэмплу.

Рассказываю что получилось.

Что такое Voxtral и чем отличается

Voxtral — это модель, которая превращает текст в звучащую речь. Mistral выложили её открыто: можно скачать веса, запустить локально, использовать без ограничений.

Ключевые параметры:

Поддерживает русский язык (проверял — работает хорошо)
Клонирование голоса по 3-10 секундам аудио
Работает на CPU, но медленно; на GPU — быстро
Лицензия разрешает коммерческое использование

Сравнение с основными альтернативами:

Параметр	Voxtral	ElevenLabs	Coqui TTS
Цена	бесплатно	от $5/мес	бесплатно
Качество	★★★★☆	★★★★★	★★★☆☆
Клонирование	да	да	да
Русский	да	да	ограничено
Локально	да	нет	да
Скорость CPU	медленно	—	быстро

Установка

Нужен Python 3.10+ и pip. Если нет — устанавливаем с python.org.

bash

pip install voxtral

Для GPU-ускорения (если есть CUDA):

bash

pip install voxtral[cuda]

При первом запуске модель скачивается (~2 ГБ).

Внимание

На Windows без WSL бывают проблемы с аудио-зависимостями. Если ffmpeg не установлен — Voxtral его не найдёт. Установите ffmpeg отдельно: choco install ffmpeg или через winget.

Базовый синтез речи

Самый простой сценарий — просто превратить текст в речь:

python

from voxtral import VoxtralTTS
 
tts = VoxtralTTS()
 
tts.synthesize(
    text="Привет! Это тест синтеза речи от Mistral. Качество звучит нормально?",
    output_path="output.wav",
    language="ru"
)

На моём MacBook M2 без GPU — около 8 секунд на фразу из 15 слов. Немного, но если нужно озвучить статью на 3000 слов — придётся подождать.

На GPU RTX 3080 — то же самое за 0.4 секунды.

Качество голоса по умолчанию: нейтральный мужской тембр, хорошая просодия (ударения, интонации), нет характерного «роботизированного» звука. Для технического контента — отлично. Для эмоциональных роликов — немного пресновато.

Клонирование голоса

Это то, ради чего я в основном и тестировал. Даёшь модели 5-10 секунд своего голоса — она синтезирует остальной текст в нём.

python

from voxtral import VoxtralTTS
 
tts = VoxtralTTS()
 
# Передаём референсный аудиофайл
tts.synthesize(
    text="Это озвучено клонированным голосом. Звучит похоже?",
    output_path="cloned_output.wav",
    reference_audio="my_voice_sample.wav",  # 5-10 секунд записи
    language="ru"
)

Результаты честные. Характерные особенности голоса — тембр, темп — передаются неплохо. Интонации немного сглаживаются. На большой дистанции разница заметна, но для разовой озвучки сойдёт.

Записал себя на телефон (~7 секунд, просто что-то говорил). Клонирование заняло секунд 20 на CPU. Результат: 70% похож на меня. Для ElevenLabs этот же сэмпл дал бы 90%.

Компромисс понятен: плачу 0 рублей против 2000+ в месяц за ElevenLabs, получаю 70% качества. Для большинства задач — приемлемо.

Пакетная обработка

Реально полезная штука — озвучить сразу много текста:

python

from voxtral import VoxtralTTS
import os
 
tts = VoxtralTTS()
 
texts = [
    "Первый абзац статьи.",
    "Второй абзац с деталями.",
    "Заключение и выводы.",
]
 
for i, text in enumerate(texts):
    tts.synthesize(
        text=text,
        output_path=f"chunk_{i:03d}.wav",
        language="ru"
    )
 
# Потом склеиваем через ffmpeg:
# ffmpeg -f concat -safe 0 -i filelist.txt -c copy output_full.wav

Так я озвучиваю черновики статей для прослушивания — быстрее редактировать текст на слух.

Где Voxtral хорош, где нет

Хорош:

Длинные нейтральные тексты: новости, инструкции, статьи
Разработка и прототипирование — когда нужен голос без платежей
Self-hosted пайплайны без передачи данных третьим сторонам
Пакетная обработка больших объёмов

Слабее:

Эмоциональные выступления, реклама, живые диалоги
Real-time синтез без GPU — слишком медленно
Клонирование голоса уступает ElevenLabs по натуральности

Итог

Voxtral — честный open-source TTS уровня «очень хорошо». Не «невероятно», не «как живой человек», но работает и не стоит денег.

Я оставил его для задач, где качество не критично: озвучка черновиков, автоматизации, прототипы. ElevenLabs держу для всего публичного.

Если вам нужен бесплатный синтез речи с русским языком — Voxtral сейчас лучший открытый вариант. Попробуйте.

Если интересна тема автоматизации с AI — посмотрите как я собрал первый воркфлоу на Make.com: Voxtral можно легко встроить в такой пайплайн.

Voxtral: открытый TTS от Mistral — клонирую голос бесплатно

Что такое Voxtral и чем отличается

Установка

Базовый синтез речи

Клонирование голоса

Пакетная обработка

Где Voxtral хорош, где нет

Итог

Читайте также

GPT-5.5 vs Claude Opus 4.7: даю одну задачу двум новым флагманам

Sora умерла: 7 лучших AI-альтернатив для видеогенерации в 2026

AI-модели 2026: сравниваю ChatGPT, Claude, Gemini и GigaChat — кто на самом деле лучший