Qwen 3.5 9B обзор: маленькая модель побеждает гигантов

Модель на 9 миллиардов параметров обходит модель на 120 миллиардов. Не в каком-то синтетическом тесте на подбор рифм — на GPQA Diamond, серьёзном бенчмарке для научных рассуждений. 81.7 против 80.1. Девять миллиардов побеждает сто двадцать.

Qwen 3.5 9B — обзор того, что Alibaba Cloud выпустили 2 марта. Я скачал модель, запустил локально, погонял на своих задачах. Где 9B реально тащит, а где ожидаемо сливает.

Для кого: если вы уже пользуетесь ChatGPT или Claude и хотите понять, зачем запускать модель у себя на компьютере — и стоит ли вообще. Понадобится базовое понимание терминала (или готовность скопировать одну команду).

Что нового в Qwen 3.5 по сравнению с Qwen 3

Главное изменение — архитектура. Qwen 3 была классической transformer-моделью. Qwen 3.5 использует Gated DeltaNet — гибридное линейное внимание с соотношением 3:1 (DeltaNet — это способ организации «внимания» модели, при котором она обрабатывает текст быстрее, не перечитывая всё с нуля на каждом шаге). По-простому: модель быстрее жуёт длинный контекст и при этом не теряет качество на коротких запросах.

На практике чувствуется сразу.

Контекст вырос с 32K до 262K токенов нативно. С YaRN-экстраполяцией (техника растягивания контекстного окна модели за пределы того, на чём её обучали) — до миллиона. Можно засунуть целый репозиторий и задавать вопросы по коду, раньше это было только у frontier-моделей.

Мультимодальность — из коробки. Текст, картинки, видео в одной модели. Не надстройка поверх языковой модели, а early fusion на уровне архитектуры (текст, картинки и видео обрабатываются единой нейросетью с самого начала, а не склеиваются из отдельных моделей постфактум). Среди открытых 9B-моделей это первая, кто так умеет. Llama 3.3, Mistral 7B, Gemma 2 — только текст.

Языков стало 201 (у Qwen 3 было 119). Понятно, что качество на суахили будет так себе, но русский, китайский, японский и основные европейские — работают прилично.

И ещё важная деталь: все 9B параметров активны. Это dense-модель (все параметры задействованы в каждом запросе), не MoE (Mixture of Experts — архитектура, где модель активирует только часть своих «экспертов» на каждый запрос), где заявлено 100B, а работает 6B. Что написано на коробке — то и внутри. Apache 2.0 — бери, модифицируй, коммерчески используй.

Инфо

Dense vs MoE — частая путаница. Модель на 9B dense может быть мощнее, чем MoE на 50B, потому что у MoE в каждый момент активна лишь часть параметров. Qwen 3.5 9B — dense, все 9 миллиардов работают на каждый запрос.

Qwen 3.5 бенчмарки: где 9B побеждает 120B (и где нет)

Цифры, ради которых вы, скорее всего, и открыли статью. Сравнение Qwen 3.5 9B с GPT-OSS-120B — открытой 120-миллиардной моделью.

Бенчмарк	Qwen 3.5 9B	GPT-OSS-120B	Разница
GPQA Diamond (наука)	81.7	80.1	+1.6
MMLU-Pro (знания)	82.5	80.8	+1.7
C-Eval (китайский)	88.2	76.2	+12.0
IFEval (следование инструкциям)	91.5	88.9	+2.6
LiveCodeBench (код)	65.6	82.7	-17.1

Разберём, что всё это значит. GPQA Diamond — тест на научные рассуждения уровня аспирантуры (физика, химия, биология), где вопросы составлены экспертами так, чтобы нельзя было угадать или загуглить. 81.7 у модели в 13 раз меньше — это выше, чем у 120-миллиардной. MMLU-Pro — расширенный тест общих знаний по 14 дисциплинам (от математики до права), более сложная версия классического MMLU. Тут тоже перевес: 82.5 против 80.8.

На C-Eval разрыв 12 пунктов, Alibaba явно вкачали качество на китайском. IFEval — тест на точное следование инструкциям (формат ответа, ограничения, стиль). 91.5 — модель хорошо слушается, что важно для автоматизации.

Но LiveCodeBench — тест на генерацию кода по свежим задачам с площадок вроде LeetCode. 65.6 против 82.7. Тут без иллюзий — код-генерация слабая. Для задач уровня «напиши REST API» или «отрефактори класс» 9B не хватает. Крупные модели видели больше кода при обучении и лучше справляются со сложными паттернами.

По мультимодальности отдельно: MathVision (решение математических задач по картинкам — графики, диаграммы, геометрия) — 78.9, что на 16.7 пунктов выше GPT-5 Nano. OCRBench (распознавание текста на изображениях) — 89.2, почти безошибочное чтение. CountBench (подсчёт объектов на картинке) — 97.2, практически идеальный результат. Для 9B, которая параллельно умеет в текст и видео — неплохо.

Интересно сравнить с тем, как работают reasoning tokens в Claude. Claude тратит compute на цепочку рассуждений, Qwen 3.5 вкладывает в гибридное внимание. Разные подходы к одной задаче — выжать максимум из ограниченных ресурсов.

Внимание

Бенчмарки — не реальный мир. 81.7 на GPQA Diamond не значит, что модель «умнее» 120B во всех задачах. Значит только то, что на конкретном наборе вопросов 9B справилась лучше. На вашей задаче результат может быть другим. Тестируйте сами.

Qwen 3.5 запуск локально через Ollama за одну минуту

Одна команда:

bash

ollama run qwen3.5:9b

6.6 гигабайт скачивания. На моей RTX 4080 — примерно 45 токенов в секунду. Для локальной модели — отлично. Не frontier-скорость, но для работы хватает с запасом.

2.8 миллиона загрузок на момент написания. Модель явно нашла свою аудиторию.

Что удивило — работает на iPhone. 4 гигабайта RAM, Q4-квант (квантизация — сжатие модели за счёт снижения точности чисел с 16 бит до 4, модель становится в 4 раза компактнее с небольшой потерей качества), скорость не космическая, но работает. Локальный AI-ассистент в кармане без интернета и подписок. Заметки, перевод, быстрые вопросы — вполне рабочий сценарий.

Если нужно больше, можно подключить к n8n как локальный AI-движок. Ollama даёт OpenAI-совместимый API, n8n цепляется напрямую. Локальный AI-агент, который автоматизирует рутину и не отправляет данные наружу.

Qwen 3.5 9B vs GPT-5 Nano и другие модели до 10B

Таблица, которую я хотел бы видеть, когда сам выбирал модель для локального запуска.

	Qwen 3.5 9B	Llama 3.3 8B	Mistral 7B	Gemma 2 9B
Мультимодальность	Текст + картинки + видео	Нет	Нет	Нет
Контекст	262K	128K	32K	8K
Языки	201	~30	~10	~30
GPQA Diamond	81.7	~65	~55	~60
Лицензия	Apache 2.0	Llama License	Apache 2.0	Apache 2.0
Размер (Ollama)	6.6 GB	~4.7 GB	~4.1 GB	~5.5 GB

По таблице видно: Qwen 3.5 9B — единственная мультимодальная и единственная с контекстом больше 128K. По GPQA Diamond отрыв 16-26 пунктов от конкурентов того же размера — разница между «угадывает половину» и «решает четыре из пяти».

У Llama 3.3 зато проще с экосистемой — сообщество огромное, инструментов вокруг полно. Но только текст.

Mistral 7B компактнее и быстрее. 32K контекст и отставание по качеству — плата за скорость.

Gemma 2 9B хороша для простых задач. Но 8K контекст — это 2024 год, серьёзно работать с таким окном уже не получится.

По цене через API: $0.05 за миллион входных токенов и $0.15 за выходные на OpenRouter. Через Alibaba Cloud — примерно $0.11 за миллион. GPT-5.4 mini стоит $0.75 за вход. В 15 раз дороже. GPT-5.4 mini мощнее, но в 15 раз? Для многих задач — нет.

Что попробовал сам

Погонял модель на своих обычных задачах. Без заготовленных бенчмарков — просто то, что делаю каждый день.

Суммаризация длинных текстов. Засунул статью на 15K токенов, попросил выжимку на 200 слов. Чисто, структурированно, ничего не потерял. На 50K — тоже нормально. А вот на 80K начались проблемы: модель стала повторяться, пропускала абзацы из середины. Деградация после 16K — известная штука, Alibaba сами признают в техническом отчёте.

Картинки. Показал скриншот дашборда — модель корректно описала графики, прочитала числа, даже заметила аномалию. OCR на русском тексте работает, хотя иногда путает похожие символы (з и 3, О и 0). Для прода без постобработки не годится, но для черновой работы — нормально.

С кодом честно не впечатлило. Простые функции пишет нормально, а рефакторинг класса на 200 строк — нет. Теряет контекст между методами, предлагает изменения, которые ломают другие части кода. LiveCodeBench 65.6 — это ощущается.

Зато русский — приятный сюрприз. Заметно лучше, чем у Llama: меньше англицизмов, более естественные конструкции. Не идеально, иногда проскакивают кальки с китайского (странный порядок слов в сложных предложениях). Но для 9B — хорошо.

Совет

Если планируете использовать Qwen 3.5 9B для продакшена — держите контекст под 16K токенов. Качество резко падает на длинных запросах, особенно в задачах на извлечение информации. Для коротких запросов модель работает на уровне моделей в 5-10 раз крупнее.

Где маленькая языковая модель 9B не справляется

Код — уже говорил. LiveCodeBench 65.6. Для хобби-проектов хватит, для рабочего кодинга — нет. Если код ваш основной сценарий, Llama 3.3 8B или полноценный Claude/GPT будут лучше.

Галлюцинации. 12% на тестах признания неопределённости — модель скорее выдумает правдоподобный ответ, чем скажет «не знаю». Для фактологических задач опасно. Перепроверяйте, особенно цифры и даты.

И длинный контекст. 262K заявлено, но реально качество проседает после 16K. На 50K+ — заметные пропуски и повторы. Большинство моделей деградируют на длинном контексте, это не уникальная проблема Qwen. Но разрыв между заявленным окном и рабочим — тут особенно большой.

Кому подойдёт Qwen 3.5 мультимодальная модель на 9B?

Если вам нужна мультимодальная модель локально — Qwen 3.5 9B сейчас лучший вариант в своём классе. Команды с чувствительными данными, мультиязычные проекты (201 язык, русский на приличном уровне), прототипирование без затрат — запустил через Ollama, попробовал идею, не потратил ни копейки.

Не берите, если основная задача — код-генерация. Есть варианты лучше. То же самое с длинным контекстом: если нужна надёжность на 50K+ токенов, 9B пока не тянет. И для задач, где критична точность без галлюцинаций — тут только frontier-модели.

А если хочется выжать из 9B максимум — можно дообучить через Unsloth Studio на своих данных. Apache 2.0 позволяет. Fine-tuning влезет даже на RTX 3060 с 12 гигабайтами памяти. Дообученная 9B на узкой задаче (суммаризация в вашем стиле, классификация по вашим категориям) может быть лучше, чем GPT-4o из коробки.

Для enterprise-сценариев, где fine-tuning упирается в потолок, есть enterprise-подход через Mistral Forge. Но это другой бюджет.

9 миллиардов параметров, 6.6 гигабайт, одна команда для запуска. Мультимодальность, 262K контекст, 201 язык. Год назад для этого нужна была подписка за $20 в месяц и постоянный интернет.

С кодом слабовато, на длинном контексте деградирует, галлюцинирует чаще, чем хотелось бы. Frontier-модели она не заменит.

Но кайф тут в соотношении. ollama run qwen3.5:9b — и на твоём железе крутится модель, которая бьёт 120B по научным бенчмаркам. Бесплатно и без подписок.