Модель на 9 миллиардов параметров обходит модель на 120 миллиардов. Не в каком-то синтетическом тесте на подбор рифм — на GPQA Diamond, серьёзном бенчмарке для научных рассуждений. 81.7 против 80.1. Девять миллиардов побеждает сто двадцать.
Qwen 3.5 9B — обзор того, что Alibaba Cloud выпустили 2 марта. Я скачал модель, запустил локально, погонял на своих задачах. Где 9B реально тащит, а где ожидаемо сливает.
Что нового в Qwen 3.5 по сравнению с Qwen 3
Главное изменение — архитектура. Qwen 3 была классической transformer-моделью. Qwen 3.5 использует Gated DeltaNet — гибридное линейное внимание с соотношением 3:1. По-простому: модель быстрее жуёт длинный контекст и при этом не теряет качество на коротких запросах.
На практике чувствуется сразу.
Контекст вырос с 32K до 262K токенов нативно. С YaRN-экстраполяцией — до миллиона. Можно засунуть целый репозиторий и задавать вопросы по коду, раньше это было только у frontier-моделей.
Мультимодальность — из коробки. Текст, картинки, видео в одной модели. Не надстройка поверх языковой модели, а early fusion на уровне архитектуры. Среди открытых 9B-моделей это первая, кто так умеет. Llama 3.3, Mistral 7B, Gemma 2 — только текст.
Языков стало 201 (у Qwen 3 было 119). Понятно, что качество на суахили будет так себе, но русский, китайский, японский и основные европейские — работают прилично.
И ещё важная деталь: все 9B параметров активны. Это dense-модель, не MoE, где заявлено 100B, а работает 6B. Что написано на коробке — то и внутри. Apache 2.0 — бери, модифицируй, коммерчески используй.
Инфо
Dense vs MoE — частая путаница. Модель на 9B dense может быть мощнее, чем MoE на 50B, потому что у MoE в каждый момент активна лишь часть параметров. Qwen 3.5 9B — dense, все 9 миллиардов работают на каждый запрос.
Qwen 3.5 бенчмарки: где 9B побеждает 120B (и где нет)
Цифры, ради которых вы, скорее всего, и открыли статью. Сравнение Qwen 3.5 9B с GPT-OSS-120B — открытой 120-миллиардной моделью.
| Бенчмарк | Qwen 3.5 9B | GPT-OSS-120B | Разница |
|---|---|---|---|
| GPQA Diamond (наука) | 81.7 | 80.1 | +1.6 |
| MMLU-Pro (знания) | 82.5 | 80.8 | +1.7 |
| C-Eval (китайский) | 88.2 | 76.2 | +12.0 |
| IFEval (следование инструкциям) | 91.5 | 88.9 | +2.6 |
| LiveCodeBench (код) | 65.6 | 82.7 | -17.1 |
Четыре из пяти — Qwen 3.5 9B впереди. На C-Eval разрыв 12 пунктов, Alibaba явно вкачали качество на китайском. GPQA Diamond, MMLU-Pro, IFEval — стабильный перевес в 1.5-2.6 пункта. Модель в 13 раз меньше, а бьёт по очкам.
Но LiveCodeBench. 65.6 против 82.7. Тут без иллюзий — код-генерация слабая. Для задач уровня «напиши REST API» или «отрефактори класс» 9B не хватает. Крупные модели видели больше кода при обучении и лучше справляются со сложными паттернами.
По мультимодальности отдельно: MathVision — 78.9 (против 62.2 у GPT-5 Nano), OCRBench — 89.2, CountBench (подсчёт объектов на картинке) — 97.2. Для 9B, которая параллельно умеет в текст и видео — неплохо.
Интересно сравнить с тем, как работают reasoning tokens в Claude. Claude тратит compute на цепочку рассуждений, Qwen 3.5 вкладывает в гибридное внимание. Разные подходы к одной задаче — выжать максимум из ограниченных ресурсов.
Внимание
Бенчмарки — не реальный мир. 81.7 на GPQA Diamond не значит, что модель «умнее» 120B во всех задачах. Значит только то, что на конкретном наборе вопросов 9B справилась лучше. На вашей задаче результат может быть другим. Тестируйте сами.
Qwen 3.5 запуск локально через Ollama за одну минуту
Одна команда:
ollama run qwen3.5:9b6.6 гигабайт скачивания. На моей RTX 4080 — примерно 45 токенов в секунду. Для локальной модели — отлично. Не frontier-скорость, но для работы хватает с запасом.
2.8 миллиона загрузок на момент написания. Модель явно нашла свою аудиторию.
Что удивило — работает на iPhone. 4 гигабайта RAM, Q4-квант, скорость не космическая, но работает. Локальный AI-ассистент в кармане без интернета и подписок. Заметки, перевод, быстрые вопросы — вполне рабочий сценарий.
Если нужно больше, можно подключить к n8n как локальный AI-движок. Ollama даёт OpenAI-совместимый API, n8n цепляется напрямую. Локальный AI-агент, который автоматизирует рутину и не отправляет данные наружу.
Qwen 3.5 9B vs GPT-5 Nano и другие модели до 10B
Таблица, которую я хотел бы видеть, когда сам выбирал модель для локального запуска.
| Qwen 3.5 9B | Llama 3.3 8B | Mistral 7B | Gemma 2 9B | |
|---|---|---|---|---|
| Мультимодальность | Текст + картинки + видео | Нет | Нет | Нет |
| Контекст | 262K | 128K | 32K | 8K |
| Языки | 201 | ~30 | ~10 | ~30 |
| GPQA Diamond | 81.7 | ~65 | ~55 | ~60 |
| Лицензия | Apache 2.0 | Llama License | Apache 2.0 | Apache 2.0 |
| Размер (Ollama) | 6.6 GB | ~4.7 GB | ~4.1 GB | ~5.5 GB |
По таблице видно: Qwen 3.5 9B — единственная мультимодальная и единственная с контекстом больше 128K. По бенчмаркам отрыв приличный.
У Llama 3.3 зато проще с экосистемой — сообщество огромное, инструментов вокруг полно. Но только текст.
Mistral 7B компактнее и быстрее. 32K контекст и отставание по качеству — плата за скорость.
Gemma 2 9B хороша для простых задач. Но 8K контекст — это 2024 год, серьёзно работать с таким окном уже не получится.
По цене через API: $0.05 за миллион входных токенов и $0.15 за выходные на OpenRouter. Через Alibaba Cloud — примерно $0.11 за миллион. GPT-5.4 mini стоит $0.75 за вход. В 15 раз дороже. GPT-5.4 mini мощнее, но в 15 раз? Для многих задач — нет.
Что попробовал сам
Погонял модель на своих обычных задачах. Без заготовленных бенчмарков — просто то, что делаю каждый день.
Суммаризация длинных текстов. Засунул статью на 15K токенов, попросил выжимку на 200 слов. Чисто, структурированно, ничего не потерял. На 50K — тоже нормально. А вот на 80K начались проблемы: модель стала повторяться, пропускала абзацы из середины. Деградация после 16K — известная штука, Alibaba сами признают в техническом отчёте.
Картинки. Показал скриншот дашборда — модель корректно описала графики, прочитала числа, даже заметила аномалию. OCR на русском тексте работает, хотя иногда путает похожие символы (з и 3, О и 0). Для прода без постобработки не годится, но для черновой работы — нормально.
С кодом честно не впечатлило. Простые функции пишет нормально, а рефакторинг класса на 200 строк — нет. Теряет контекст между методами, предлагает изменения, которые ломают другие части кода. LiveCodeBench 65.6 — это ощущается.
Зато русский — приятный сюрприз. Заметно лучше, чем у Llama: меньше англицизмов, более естественные конструкции. Не идеально, иногда проскакивают кальки с китайского (странный порядок слов в сложных предложениях). Но для 9B — хорошо.
Совет
Если планируете использовать Qwen 3.5 9B для продакшена — держите контекст под 16K токенов. Качество резко падает на длинных запросах, особенно в задачах на извлечение информации. Для коротких запросов модель работает на уровне моделей в 5-10 раз крупнее.
Где маленькая языковая модель 9B не справляется
Код — уже говорил. LiveCodeBench 65.6. Для хобби-проектов хватит, для рабочего кодинга — нет. Если код ваш основной сценарий, Llama 3.3 8B или полноценный Claude/GPT будут лучше.
Галлюцинации. 12% на тестах признания неопределённости — модель скорее выдумает правдоподобный ответ, чем скажет «не знаю». Для фактологических задач опасно. Перепроверяйте, особенно цифры и даты.
И длинный контекст. 262K заявлено, но реально качество проседает после 16K. На 50K+ — заметные пропуски и повторы. Большинство моделей деградируют на длинном контексте, это не уникальная проблема Qwen. Но разрыв между заявленным окном и рабочим — тут особенно большой.
Кому подойдёт Qwen 3.5 мультимодальная модель на 9B?
Если вам нужна мультимодальная модель локально — Qwen 3.5 9B сейчас лучший вариант в своём классе. Команды с чувствительными данными, мультиязычные проекты (201 язык, русский на приличном уровне), прототипирование без затрат — запустил через Ollama, попробовал идею, не потратил ни копейки.
Не берите, если основная задача — код-генерация. Есть варианты лучше. То же самое с длинным контекстом: если нужна надёжность на 50K+ токенов, 9B пока не тянет. И для задач, где критична точность без галлюцинаций — тут только frontier-модели.
А если хочется выжать из 9B максимум — можно дообучить через Unsloth Studio на своих данных. Apache 2.0 позволяет. Fine-tuning влезет даже на RTX 3060 с 12 гигабайтами памяти. Дообученная 9B на узкой задаче (суммаризация в вашем стиле, классификация по вашим категориям) может быть лучше, чем GPT-4o из коробки.
Для enterprise-сценариев, где fine-tuning упирается в потолок, есть enterprise-подход через Mistral Forge. Но это другой бюджет.
9 миллиардов параметров, 6.6 гигабайт, одна команда для запуска. Мультимодальность, 262K контекст, 201 язык. Год назад для этого нужна была подписка за $20 в месяц и постоянный интернет.
С кодом слабовато, на длинном контексте деградирует, галлюцинирует чаще, чем хотелось бы. Frontier-модели она не заменит.
Но кайф тут в соотношении. ollama run qwen3.5:9b — и на твоём железе крутится модель, которая бьёт 120B по научным бенчмаркам. Бесплатно и без подписок.



