Снимаю короткий обучающий ролик. Нужна озвучка — мой голос в записи звучит как будто я звоню через 3G в 2009 году. Нанять диктора для одного ролика накладно, студию арендовать — тем более. Кто-то написал в чате «попробуй ElevenLabs». Я скептически зарегистрировался и через 20 минут уже слушал себя — только в нормальном качестве и без запинок.
Покажу что умеет ElevenLabs: первая озвучка, клонирование голоса, дублирование видео. Всё прямо в браузере, никакого кода.
Если только начинаешь разбираться с AI-инструментами для медиа — статья для тебя. Если уже работаешь с TTS (синтез речи — text-to-speech) — переходи сразу к разделу про клонирование голоса, там есть пара нюансов, которые реально влияют на качество клона.
Что такое ElevenLabs и зачем это нужно
ElevenLabs — коммерческий сервис для синтеза речи (TTS, text-to-speech — это когда нейросеть превращает текст в голос) и клонирования голоса. Основан в 2022 году, сейчас один из лидеров в этой нише. Если хочешь сначала понять, какие вообще есть AI-инструменты для работы с аудио и видео — начни с обзора кластера.
Два главных сценария использования:
- Озвучить текст готовым голосом из библиотеки — сотни вариантов, включая русскоязычные
- Клонировать свой голос — загружаешь минуту своей речи, дальше озвучиваешь любой текст своим голосом
На практике это YouTube-ролики, подкасты, аудиокниги, обучающие материалы. Есть ещё Video Translation — об этом отдельный раздел ниже, там отдельная история.
Главное отличие от Voxtral — открытого TTS от Mistral: ElevenLabs — полированный веб-продукт, никакой установки, никакого кода. Voxtral — open-source-инструмент для технарей, зато без лимитов. Вернёмся к сравнению в конце статьи.
Бесплатный план: что реально входит
Регистрация через Google — 30 секунд. Кредитная карта не нужна.
Бесплатный план даёт 10 000 символов в месяц — это примерно 10 минут готового аудио, зависит от темпа речи. Ещё на бесплатном тарифе: 3 пользовательских голоса (для клонирования) и доступ к ~10 готовым голосам из библиотеки.
API-доступа на бесплатном плане нет — только веб-интерфейс. Кстати, ElevenLabs входит в список бесплатных нейросетей без VPN, которые работают в России без ограничений.
Платные тарифы (цены на апрель 2026): Starter — $5/мес (30 000 символов), Creator — $22/мес (100 000 символов). Для регулярного использования Creator выгоднее — 100k символов это уже серьёзный объём.
Для первых экспериментов и разовых задач бесплатного плана хватает. Я потратил примерно 3 000 символов на тестирование всего того, что описано в этой статье.
Первая озвучка текста: пошагово
Заходим на elevenlabs.io. После входа — интерфейс Speech Synthesis.
Шаг 1. Слева в меню — Text to Speech. Открывается редактор.
Шаг 2. Вверху выбираем голос. В библиотеке несколько сотен вариантов: по полу, возрасту, акценту, настроению. Есть русскоязычные голоса — ищи фильтром по языку. Я взял «Евгений» — нейтральный мужской голос, звучит естественно.
Шаг 3. Вставляем текст в поле. Рекомендую начать с одного абзаца — чтобы проверить как звучит конкретный голос.
Шаг 4. Два ползунка — Stability и Similarity Boost. Stability отвечает за стабильность произношения: высокое значение = монотоннее, но предсказуемо. Низкое = больше интонаций, но иногда модель уходит куда-то не туда. Я ставлю 50/70 — средне-стабильно. Кстати, если хочешь улучшить результат — стоит разобраться как писать эффективные промпты для нейросетей: ElevenLabs тоже принимает текстовые подсказки стиля в некоторых режимах.
Шаг 5. Нажимаем Generate. Через 5-15 секунд — готовый аудиофайл. Слушаем прямо в браузере, скачиваем кнопкой Download → MP3 или WAV.
Совет
Паузы в тексте управляются пунктуацией: точка = пауза, многоточие = длинная пауза. Если нужна пауза в конкретном месте — поставь тире или запятую там, где её нет в оригинале. Работает лучше, чем кажется.
Клонирование своего голоса: пошагово
Это то, ради чего большинство приходит в ElevenLabs. Instant Voice Cloning — бесплатная функция.
Шаг 1. В меню слева — Voices → Add Voice → Instant Voice Cloning.
Шаг 2. Загружаем запись своего голоса. Минимум — 1 минута чистой речи. Оптимум — 5-10 минут: чем больше образцов, тем точнее клон.
Главное для нормального клона: тихое место без эха, никакой фоновой музыки, спокойная чёткая речь. И не повторяй одну фразу — записывай разные предложения, иначе модель учится на слишком узкой выборке.
Я записал 3 минуты: читал вслух случайный текст из интернета. Домашний кабинет, дверь закрыта. Не студия, но приемлемо.
Шаг 3. Называем голос (например «Pavel») и соглашаемся с условиями использования — там написано, что нельзя клонировать чужие голоса без согласия.
Шаг 4. Ждём обработку — 1-3 минуты. Голос появляется в личной библиотеке и доступен в Speech Synthesis как любой другой.
Что получилось у меня: интонации и тембр — попал точно. Слушаешь и понимаешь, что это ты. Чёткость произношения — чуть лучше, чем в моей живой записи, потому что я говорил медленнее. Где немного плывёт — на длинных сложных предложениях с непривычными словами. Но для озвучки заготовленного текста — вполне рабочий результат.
Инфо
Professional Voice Clone — платная функция (от Creator-плана). Требует больше образцов, но качество клонирования заметно лучше. Для регулярного использования стоит попробовать.
Video Translation: дублирую видео на другой язык
Загружаешь видео → выбираешь исходный и целевой язык → ElevenLabs сам транскрибирует, переводит, озвучивает и синхронизирует губы. 29 языков включая русский.
Как запустить: в меню — Dubbing → Create. Выбираешь файл или вставляешь ссылку на YouTube. Указываешь языки (или ставишь Auto Detect) и ждёшь — короткие ролики обрабатываются за 5-10 минут.
Я взял двухминутный ролик на английском (обзор продукта), попросил перевести на русский. Перевод точный. Голос сохранил темп и интонации. Lip sync — работает нормально на средних планах, на крупных видно расхождение.
Для профессионального продакшна — пока не то. Для обучающих роликов и объяснялок — вполне. Экономит реальные часы по сравнению с ручным дублированием.
На бесплатном плане — 5 минут видео в месяц. Хватит чтобы попробовать.
ElevenLabs vs Voxtral: когда что выбрать
Если нужен результат сейчас и не хочется настраивать — ElevenLabs. Зашёл, зарегистрировался, получил озвучку за 5 минут. 100+ готовых голосов, Video Translation, стабильное качество. Из минусов: 10 000 символов/мес бесплатно, дальше платить.
Voxtral от Mistral — для тех, кто хочет без лимитов и без оплаты. Open-source, работает локально или через API. Нет готового интерфейса — надо разобраться с установкой. Если не пугает консоль, Voxtral выгоднее для регулярных задач.
Я пользуюсь обоими: ElevenLabs — когда нужно быстро и качественно для конкретного ролика. Voxtral — когда экспериментирую или нужен большой объём без бюджета.
Частые вопросы
Сколько символов в месяц даёт ElevenLabs бесплатно?
Бесплатный план — 10 000 символов в месяц, примерно 10 минут готового аудио. Плюс 3 пользовательских голоса для клонирования и ~10 готовых голосов из библиотеки. API-доступа нет, только веб-интерфейс.
Можно ли клонировать свой голос в ElevenLabs бесплатно?
Да, Instant Voice Cloning доступен на бесплатном плане. Нужна запись от 1 минуты чистой речи в тихом месте. Professional Voice Clone с лучшим качеством — от плана Creator ($22/мес).
Работает ли ElevenLabs без VPN в России?
Да, elevenlabs.io работает без VPN. Регистрация через Google без карты — 30 секунд. Сразу 10 000 символов бесплатно.
Что лучше — ElevenLabs или Voxtral для озвучки?
ElevenLabs — если нужен результат сейчас без технических знаний: веб-интерфейс, 100+ готовых голосов, Video Translation. Voxtral — если нужно без лимитов и оплаты: open-source, работает локально, но требует установки. Для разовых задач — ElevenLabs, для регулярного объёма — Voxtral.
Как озвучить видео на другом языке через ElevenLabs?
В меню выбери Dubbing → Create, загрузи файл или вставь ссылку на YouTube. Укажи исходный и целевой язык — поддерживается 29 языков включая русский. Короткие ролики обрабатываются 5-10 минут. На бесплатном плане — 5 минут видео в месяц.
Что дальше
ElevenLabs закрывает озвучку — но медиа-пайплайн на этом не заканчивается.
Если нужно расшифровать аудио в текст, Whisper запускается локально через Ollama — никаких лимитов, никакого интернета, запускаешь на своём компьютере. Если нужна фоновая музыка к ролику, Suno AI генерирует трек за 2 минуты по описанию — 50 бесплатных генераций в день. Ну и если хочешь TTS совсем без регистрации и оплаты — Voxtral от Mistral.
Зайди на elevenlabs.io, зарегистрируйся через Google. 10 000 символов/мес бесплатно — для первого ролика или аудиокниги хватит, чтобы понять стоит ли оно твоих задач.



