Qwen3.5-Omni: скармливаю видео экрана — получаю рабочий код

30 марта Alibaba выкатила Qwen3.5-Omni — и я несколько дней тестировал одну конкретную фичу, которая меня зацепила. Называется Audio-Visual Vibe Coding.

Идея простая: записываешь экран со своим голосовым комментарием («вот тут мне нужно кнопку добавить, вот так реагировать на клик...»), загружаешь видео в модель — и она пишет рабочий код. Без единого текстового промпта.

Я скептически к этому отнёсся. Потом попробовал. Расскажу честно.

Что такое Qwen3.5-Omni

Qwen3.5-Omni — полностью мультимодальная модель от Alibaba: принимает текст, картинки, аудио и видео, выдаёт текст и синтезированную речь. Это не просто «ещё одна модель с картинками» — здесь аудио и видео равноправные форматы ввода.

Ключевые цифры:

Контекстное окно — 256K токенов (~400 секунд видео 720p или 10+ часов аудио)
SOTA на 36 аудио- и видеобенчмарках, включает победу над Gemini 3.1 Pro по аудиопониманию
113 языков распознавания (было 19), 36 языков синтеза (было 10)
Встроенный WebSearch и FunctionCall
Три размера: Plus, Flash, Light
Два API: Offline и Realtime (для стриминга в реальном времени)

Дата релиза — 30 марта 2026. Доступна через Qwen API (api.qwen.ai) и через Alibaba Cloud.

Audio-Visual Vibe Coding: что это и как работает

Классический вайб-кодинг — это когда описываешь что хочешь текстом, AI пишет код. Здесь иначе.

Сценарий: Есть приложение, нужно добавить функцию. Вместо того чтобы писать текстовое ТЗ — ты записываешь экран, водишь мышкой по интерфейсу и проговариваешь голосом: «вот эта кнопка должна открывать модалку, в модалке форма из трёх полей, вот как должен выглядеть результат...»

Потом загружаешь это видео в Qwen3.5-Omni. Модель понимает одновременно:

Что видит на экране (интерфейс, код, структуру)
Что слышит (ваш голосовой комментарий)
Контекст между ними (где именно на экране вы указываете)

И выдаёт код.

Тест: записываю экран и скармливаю модели

Взял реальный сценарий: у меня есть простой React-компонент, нужно добавить тёмную тему с переключателем. Написал бы это за 15 минут сам. Интересно сравнить.

Запись

Записал экран с голосом (~2 минуты): показываю текущий компонент, объясняю что нужно сделать, показываю где должен быть переключатель, говорю про сохранение в localStorage.

Никакого текстового промпта. Только видео + голос.

Результат

Qwen3.5-Omni выдал полный код с:

Контекстом темы (ThemeContext + Provider)
Переключателем с правильными CSS-переменными
Сохранением в localStorage
useEffect для синхронизации при загрузке

Рабочий код с первой попытки. Одно небольшое расхождение — переключатель он разместил в хедере, а не там где я показывал. Скорее всего не разобрал жест мышкой правильно.

Сравнение с текстовым промптом

Описал ту же задачу текстом в Qwen3.5-Omni. Результат чуть лучше по точности расположения переключателя — текст точнее, чем жест мышкой. Но разница минимальная.

Вывод: Audio-Visual Vibe Coding работает. Не идеально, но работает — и это впечатляет. Для задач где сложно описать словами («вот тут», «вот так выглядит»), видео-запись может быть эффективнее текста.

Другие возможности, которые я пробовал

Аудио-транскрипция и суммаризация

Загрузил запись митинга (45 минут, русский язык). Попросил сделать выжимку с action items. Результат хороший — распознавание без ошибок, структура понятная. Русский язык обрабатывает нормально, хотя и не идеально в сравнении с Whisper-специализированными моделями.

Клонирование голоса

Есть функция — загружаешь 10-30 секунд голосового образца, и модель синтезирует речь этим голосом. Пробовал на себе. Качество клонирования среднее — узнаваемо, но не идеально. ElevenLabs делает это лучше. Но как встроенная фича без дополнительных сервисов — сойдёт.

Анализ видео с экраном

Загрузил видеоурок по Python (15 минут). Попросил объяснить непонятный кусок кода из минуты 7:30. Модель нашла нужный момент, объяснила код правильно. Это реально удобно — не нужно делать скриншот и вручную копировать код.

Доступность и цены

API: Регистрация на api.qwen.ai, оплата по токенам. Flash-версия дешевле Plus в несколько раз.

Региональные ограничения: В России прямой доступ к Qwen API есть, но иногда нестабильный. Через Alibaba Cloud — стабильнее, но сложнее в настройке.

Бесплатный тариф: Есть на Qwen Chat (qwenlm.ai) — ограниченное число запросов в день, но попробовать можно.

Совет

Если хотите попробовать Audio-Visual Vibe Coding быстро — зарегистрируйтесь на qwenlm.ai, загрузите короткое видео экрана (30-60 секунд) с голосовым объяснением задачи.

Где Qwen3.5-Omni сильнее конкурентов

Честно: по качеству текстовых ответов Claude и GPT-4.1 пока впереди. Но Qwen3.5-Omni выигрывает в нескольких нишах.

Аудио и видео как полноценные форматы. Gemini тоже умеет видео, но Audio-Visual Vibe Coding — уникальная комбинация, которой у конкурентов нет.

Большой контекст для аудио. 10+ часов аудио за один запрос — это серьёзно. Для суммаризации длинных записей или аналитики подкастов — без конкурентов.

Цена. Flash-версия дешевле аналогичного уровня у OpenAI и Anthropic.

Русский язык. Лучше, чем у большинства западных моделей (хотя всё ещё уступает GPT-4.1 по качеству генерации текста на русском).

Где стоит подождать

Текстовые задачи — не главная сила. Если нужен лучший помощник для написания, анализа документов, кода — Claude и GPT-4.1 стабильнее.

Синтез голоса — среднее качество по сравнению со специализированными сервисами вроде ElevenLabs.

Стабильность API — периодически бывают задержки, особенно в пиковые часы.

Audio-Visual Vibe Coding — это не маркетинг. Это реально работающая фича, которая открывает новый способ взаимодействия с AI при написании кода. Пока сырое, пока с нюансами — но направление однозначно правильное.

Следующий шаг от вас: записать 1-2 минуты экрана с голосом на любую техническую задачу и попробовать. Не читать — попробовать.

Если вам интересен вайб-кодинг в классическом виде — гайд с нуля до деплоя уже здесь.