ElevenLabs: клонирую голос нейросетью и делаю озвучку за 5 минут

Снимаю короткий обучающий ролик. Нужна озвучка — мой голос в записи звучит как будто я звоню через 3G в 2009 году. Нанять диктора для одного ролика накладно, студию арендовать — тем более. Кто-то написал в чате «попробуй ElevenLabs». Я скептически зарегистрировался и через 20 минут уже слушал себя — только в нормальном качестве и без запинок.

Покажу что умеет ElevenLabs: первая озвучка, клонирование голоса, дублирование видео. Всё прямо в браузере, никакого кода.

Если только начинаешь разбираться с AI-инструментами для медиа — статья для тебя. Если уже работаешь с TTS (синтез речи — text-to-speech) — переходи сразу к разделу про клонирование голоса, там есть пара нюансов, которые реально влияют на качество клона.

Что такое ElevenLabs и зачем это нужно

ElevenLabs — коммерческий сервис для синтеза речи (TTS, text-to-speech — это когда нейросеть превращает текст в голос) и клонирования голоса. Основан в 2022 году, сейчас один из лидеров в этой нише. Если хочешь сначала понять, какие вообще есть AI-инструменты для работы с аудио и видео — начни с обзора кластера.

Два главных сценария использования:

Озвучить текст готовым голосом из библиотеки — сотни вариантов, включая русскоязычные
Клонировать свой голос — загружаешь минуту своей речи, дальше озвучиваешь любой текст своим голосом

На практике это YouTube-ролики, подкасты, аудиокниги, обучающие материалы. Есть ещё Video Translation — об этом отдельный раздел ниже, там отдельная история.

Главное отличие от Voxtral — открытого TTS от Mistral: ElevenLabs — полированный веб-продукт, никакой установки, никакого кода. Voxtral — open-source-инструмент для технарей, зато без лимитов. Вернёмся к сравнению в конце статьи.

Бесплатный план: что реально входит

Регистрация через Google — 30 секунд. Кредитная карта не нужна.

Бесплатный план даёт 10 000 символов в месяц — это примерно 10 минут готового аудио, зависит от темпа речи. Ещё на бесплатном тарифе: 3 пользовательских голоса (для клонирования) и доступ к ~10 готовым голосам из библиотеки.

API-доступа на бесплатном плане нет — только веб-интерфейс. Кстати, ElevenLabs входит в список бесплатных нейросетей без VPN, которые работают в России без ограничений.

Платные тарифы (цены на апрель 2026): Starter — $5/мес (30 000 символов), Creator — $22/мес (100 000 символов). Для регулярного использования Creator выгоднее — 100k символов это уже серьёзный объём.

Для первых экспериментов и разовых задач бесплатного плана хватает. Я потратил примерно 3 000 символов на тестирование всего того, что описано в этой статье.

Первая озвучка текста: пошагово

Заходим на elevenlabs.io. После входа — интерфейс Speech Synthesis.

Шаг 1. Слева в меню — Text to Speech. Открывается редактор.

Шаг 2. Вверху выбираем голос. В библиотеке несколько сотен вариантов: по полу, возрасту, акценту, настроению. Есть русскоязычные голоса — ищи фильтром по языку. Я взял «Евгений» — нейтральный мужской голос, звучит естественно.

Шаг 3. Вставляем текст в поле. Рекомендую начать с одного абзаца — чтобы проверить как звучит конкретный голос.

Шаг 4. Два ползунка — Stability и Similarity Boost. Stability отвечает за стабильность произношения: высокое значение = монотоннее, но предсказуемо. Низкое = больше интонаций, но иногда модель уходит куда-то не туда. Я ставлю 50/70 — средне-стабильно. Кстати, если хочешь улучшить результат — стоит разобраться как писать эффективные промпты для нейросетей: ElevenLabs тоже принимает текстовые подсказки стиля в некоторых режимах.

Шаг 5. Нажимаем Generate. Через 5-15 секунд — готовый аудиофайл. Слушаем прямо в браузере, скачиваем кнопкой Download → MP3 или WAV.

Совет

Паузы в тексте управляются пунктуацией: точка = пауза, многоточие = длинная пауза. Если нужна пауза в конкретном месте — поставь тире или запятую там, где её нет в оригинале. Работает лучше, чем кажется.

Клонирование своего голоса: пошагово

Это то, ради чего большинство приходит в ElevenLabs. Instant Voice Cloning — бесплатная функция.

Шаг 1. В меню слева — Voices → Add Voice → Instant Voice Cloning.

Шаг 2. Загружаем запись своего голоса. Минимум — 1 минута чистой речи. Оптимум — 5-10 минут: чем больше образцов, тем точнее клон.

Главное для нормального клона: тихое место без эха, никакой фоновой музыки, спокойная чёткая речь. И не повторяй одну фразу — записывай разные предложения, иначе модель учится на слишком узкой выборке.

Я записал 3 минуты: читал вслух случайный текст из интернета. Домашний кабинет, дверь закрыта. Не студия, но приемлемо.

Шаг 3. Называем голос (например «Pavel») и соглашаемся с условиями использования — там написано, что нельзя клонировать чужие голоса без согласия.

Шаг 4. Ждём обработку — 1-3 минуты. Голос появляется в личной библиотеке и доступен в Speech Synthesis как любой другой.

Что получилось у меня: интонации и тембр — попал точно. Слушаешь и понимаешь, что это ты. Чёткость произношения — чуть лучше, чем в моей живой записи, потому что я говорил медленнее. Где немного плывёт — на длинных сложных предложениях с непривычными словами. Но для озвучки заготовленного текста — вполне рабочий результат.

Инфо

Professional Voice Clone — платная функция (от Creator-плана). Требует больше образцов, но качество клонирования заметно лучше. Для регулярного использования стоит попробовать.

Video Translation: дублирую видео на другой язык

Загружаешь видео → выбираешь исходный и целевой язык → ElevenLabs сам транскрибирует, переводит, озвучивает и синхронизирует губы. 29 языков включая русский.

Как запустить: в меню — Dubbing → Create. Выбираешь файл или вставляешь ссылку на YouTube. Указываешь языки (или ставишь Auto Detect) и ждёшь — короткие ролики обрабатываются за 5-10 минут.

Я взял двухминутный ролик на английском (обзор продукта), попросил перевести на русский. Перевод точный. Голос сохранил темп и интонации. Lip sync — работает нормально на средних планах, на крупных видно расхождение.

Для профессионального продакшна — пока не то. Для обучающих роликов и объяснялок — вполне. Экономит реальные часы по сравнению с ручным дублированием.

На бесплатном плане — 5 минут видео в месяц. Хватит чтобы попробовать.

ElevenLabs vs Voxtral: когда что выбрать

Если нужен результат сейчас и не хочется настраивать — ElevenLabs. Зашёл, зарегистрировался, получил озвучку за 5 минут. 100+ готовых голосов, Video Translation, стабильное качество. Из минусов: 10 000 символов/мес бесплатно, дальше платить.

Voxtral от Mistral — для тех, кто хочет без лимитов и без оплаты. Open-source, работает локально или через API. Нет готового интерфейса — надо разобраться с установкой. Если не пугает консоль, Voxtral выгоднее для регулярных задач.

Я пользуюсь обоими: ElevenLabs — когда нужно быстро и качественно для конкретного ролика. Voxtral — когда экспериментирую или нужен большой объём без бюджета.

Частые вопросы

Сколько символов в месяц даёт ElevenLabs бесплатно?

Бесплатный план — 10 000 символов в месяц, примерно 10 минут готового аудио. Плюс 3 пользовательских голоса для клонирования и ~10 готовых голосов из библиотеки. API-доступа нет, только веб-интерфейс.

Можно ли клонировать свой голос в ElevenLabs бесплатно?

Да, Instant Voice Cloning доступен на бесплатном плане. Нужна запись от 1 минуты чистой речи в тихом месте. Professional Voice Clone с лучшим качеством — от плана Creator ($22/мес).

Работает ли ElevenLabs без VPN в России?

Да, elevenlabs.io работает без VPN. Регистрация через Google без карты — 30 секунд. Сразу 10 000 символов бесплатно.

Что лучше — ElevenLabs или Voxtral для озвучки?

ElevenLabs — если нужен результат сейчас без технических знаний: веб-интерфейс, 100+ готовых голосов, Video Translation. Voxtral — если нужно без лимитов и оплаты: open-source, работает локально, но требует установки. Для разовых задач — ElevenLabs, для регулярного объёма — Voxtral.

Как озвучить видео на другом языке через ElevenLabs?

В меню выбери Dubbing → Create, загрузи файл или вставь ссылку на YouTube. Укажи исходный и целевой язык — поддерживается 29 языков включая русский. Короткие ролики обрабатываются 5-10 минут. На бесплатном плане — 5 минут видео в месяц.

Что дальше

ElevenLabs закрывает озвучку — но медиа-пайплайн на этом не заканчивается.

Если нужно расшифровать аудио в текст, Whisper запускается локально через Ollama — никаких лимитов, никакого интернета, запускаешь на своём компьютере. Если нужна фоновая музыка к ролику, Suno AI генерирует трек за 2 минуты по описанию — 50 бесплатных генераций в день. Ну и если хочешь TTS совсем без регистрации и оплаты — Voxtral от Mistral.

Зайди на elevenlabs.io, зарегистрируйся через Google. 10 000 символов/мес бесплатно — для первого ролика или аудиокниги хватит, чтобы понять стоит ли оно твоих задач.