30 марта Alibaba выкатила Qwen3.5-Omni — и я несколько дней тестировал одну конкретную фичу, которая меня зацепила. Называется Audio-Visual Vibe Coding.
Идея простая: записываешь экран со своим голосовым комментарием («вот тут мне нужно кнопку добавить, вот так реагировать на клик...»), загружаешь видео в модель — и она пишет рабочий код. Без единого текстового промпта.
Я скептически к этому отнёсся. Потом попробовал. Расскажу честно.
Что такое Qwen3.5-Omni
Qwen3.5-Omni — полностью мультимодальная модель от Alibaba: принимает текст, картинки, аудио и видео, выдаёт текст и синтезированную речь. Это не просто «ещё одна модель с картинками» — здесь аудио и видео равноправные форматы ввода.
Ключевые цифры:
- Контекстное окно — 256K токенов (~400 секунд видео 720p или 10+ часов аудио)
- SOTA на 36 аудио- и видеобенчмарках, включает победу над Gemini 3.1 Pro по аудиопониманию
- 113 языков распознавания (было 19), 36 языков синтеза (было 10)
- Встроенный WebSearch и FunctionCall
- Три размера: Plus, Flash, Light
- Два API: Offline и Realtime (для стриминга в реальном времени)
Дата релиза — 30 марта 2026. Доступна через Qwen API (api.qwen.ai) и через Alibaba Cloud.
Audio-Visual Vibe Coding: что это и как работает
Классический вайб-кодинг — это когда описываешь что хочешь текстом, AI пишет код. Здесь иначе.
Сценарий: Есть приложение, нужно добавить функцию. Вместо того чтобы писать текстовое ТЗ — ты записываешь экран, водишь мышкой по интерфейсу и проговариваешь голосом: «вот эта кнопка должна открывать модалку, в модалке форма из трёх полей, вот как должен выглядеть результат...»
Потом загружаешь это видео в Qwen3.5-Omni. Модель понимает одновременно:
- Что видит на экране (интерфейс, код, структуру)
- Что слышит (ваш голосовой комментарий)
- Контекст между ними (где именно на экране вы указываете)
И выдаёт код.
Тест: записываю экран и скармливаю модели
Взял реальный сценарий: у меня есть простой React-компонент, нужно добавить тёмную тему с переключателем. Написал бы это за 15 минут сам. Интересно сравнить.
Запись
Записал экран с голосом (~2 минуты): показываю текущий компонент, объясняю что нужно сделать, показываю где должен быть переключатель, говорю про сохранение в localStorage.
Никакого текстового промпта. Только видео + голос.
Результат
Qwen3.5-Omni выдал полный код с:
- Контекстом темы (ThemeContext + Provider)
- Переключателем с правильными CSS-переменными
- Сохранением в localStorage
- useEffect для синхронизации при загрузке
Рабочий код с первой попытки. Одно небольшое расхождение — переключатель он разместил в хедере, а не там где я показывал. Скорее всего не разобрал жест мышкой правильно.
Сравнение с текстовым промптом
Описал ту же задачу текстом в Qwen3.5-Omni. Результат чуть лучше по точности расположения переключателя — текст точнее, чем жест мышкой. Но разница минимальная.
Вывод: Audio-Visual Vibe Coding работает. Не идеально, но работает — и это впечатляет. Для задач где сложно описать словами («вот тут», «вот так выглядит»), видео-запись может быть эффективнее текста.
Другие возможности, которые я пробовал
Аудио-транскрипция и суммаризация
Загрузил запись митинга (45 минут, русский язык). Попросил сделать выжимку с action items. Результат хороший — распознавание без ошибок, структура понятная. Русский язык обрабатывает нормально, хотя и не идеально в сравнении с Whisper-специализированными моделями.
Клонирование голоса
Есть функция — загружаешь 10-30 секунд голосового образца, и модель синтезирует речь этим голосом. Пробовал на себе. Качество клонирования среднее — узнаваемо, но не идеально. ElevenLabs делает это лучше. Но как встроенная фича без дополнительных сервисов — сойдёт.
Анализ видео с экраном
Загрузил видеоурок по Python (15 минут). Попросил объяснить непонятный кусок кода из минуты 7:30. Модель нашла нужный момент, объяснила код правильно. Это реально удобно — не нужно делать скриншот и вручную копировать код.
Доступность и цены
API: Регистрация на api.qwen.ai, оплата по токенам. Flash-версия дешевле Plus в несколько раз.
Региональные ограничения: В России прямой доступ к Qwen API есть, но иногда нестабильный. Через Alibaba Cloud — стабильнее, но сложнее в настройке.
Бесплатный тариф: Есть на Qwen Chat (qwenlm.ai) — ограниченное число запросов в день, но попробовать можно.
Совет
Если хотите попробовать Audio-Visual Vibe Coding быстро — зарегистрируйтесь на qwenlm.ai, загрузите короткое видео экрана (30-60 секунд) с голосовым объяснением задачи.
Где Qwen3.5-Omni сильнее конкурентов
Честно: по качеству текстовых ответов Claude и GPT-4.1 пока впереди. Но Qwen3.5-Omni выигрывает в нескольких нишах.
Аудио и видео как полноценные форматы. Gemini тоже умеет видео, но Audio-Visual Vibe Coding — уникальная комбинация, которой у конкурентов нет.
Большой контекст для аудио. 10+ часов аудио за один запрос — это серьёзно. Для суммаризации длинных записей или аналитики подкастов — без конкурентов.
Цена. Flash-версия дешевле аналогичного уровня у OpenAI и Anthropic.
Русский язык. Лучше, чем у большинства западных моделей (хотя всё ещё уступает GPT-4.1 по качеству генерации текста на русском).
Где стоит подождать
Текстовые задачи — не главная сила. Если нужен лучший помощник для написания, анализа документов, кода — Claude и GPT-4.1 стабильнее.
Синтез голоса — среднее качество по сравнению со специализированными сервисами вроде ElevenLabs.
Стабильность API — периодически бывают задержки, особенно в пиковые часы.
Audio-Visual Vibe Coding — это не маркетинг. Это реально работающая фича, которая открывает новый способ взаимодействия с AI при написании кода. Пока сырое, пока с нюансами — но направление однозначно правильное.
Следующий шаг от вас: записать 1-2 минуты экрана с голосом на любую техническую задачу и попробовать. Не читать — попробовать.
Если вам интересен вайб-кодинг в классическом виде — гайд с нуля до деплоя уже здесь.



