Mistral Forge: обучение моделей с нуля для бизнеса

Допустим, вы дообучили модель через Unsloth. Чат-бот знает ваш продукт, отвечает в нужном тоне, стоит ноль рублей в месяц. Всё круто — до момента, когда задача усложняется. Модель не понимает контекст длинных документов. Путает причинно-следственные связи в вашей предметной области. Fine-tuning подкрутил стиль ответов, но глубокого понимания домена нет.

Вот тут начинается территория Mistral Forge — сервиса для обучения моделей с нуля на ваших данных.

17 марта на NVIDIA GTC Mistral показали штуку, которая претендует на следующий уровень после fine-tuning. Не дообучение чужой модели на ваших данных, а полный цикл: pre-training, post-training, reinforcement learning. Своя модель с нуля, обученная на ваших терабайтах. На ваших серверах. С командой инженеров Mistral, которая приезжает к вам и настраивает всё руками.

Звучит как Palantir для AI. Вопрос: кому это реально нужно, а кому — дорогой способ решить задачу, которая решается за вечер.

Три подхода к обучению AI-модели

Сначала терминология. Путаница между fine-tuning и обучением с нуля — главная причина, почему люди переплачивают или недополучают.

Fine-tuning (дообучение) — берёте готовую модель, которая уже умеет читать, писать и рассуждать. Показываете ей 100-10 000 примеров из вашей области. Через пару часов модель адаптировала стиль, выучила терминологию и формат ответов. Это как взять опытного сотрудника и провести ему онбординг в вашу компанию. Быстро, дёшево, но глубина ограничена — фундамент остаётся чужой.

Обучение с нуля (pre-training + post-training) — строите модель от основания. Терабайты данных, дни или недели на GPU-кластере, бюджет от $10K до миллионов. Модель не адаптирует чужие знания — она формирует свои. Это как вырастить специалиста внутри компании с нуля. Долго, дорого, но модель по-настоящему понимает домен.

	Fine-tuning	Обучение с нуля
Данные	100-10K примеров	Терабайты
Время	Минуты-часы	Дни-недели
Стоимость	$0-1 000	$10K-$1M+
Глубина	Адаптация стиля и формата	Глубокое понимание домена
Аналогия	Онбординг нового сотрудника	Обучение специалиста с нуля

Элиза Саламанка, Head of Product в Mistral, объясняет разницу прямо: fine-tuning доводит до proof-of-concept, но когда нужен реальный production-уровень — нужно идти дальше.

Вопрос — насколько дальше и за какие деньги.

Что такое Mistral Forge и чем он отличается от fine-tuning API

Mistral Forge — это enterprise-сервис полного цикла обучения AI-модели на данных заказчика. В отличие от fine-tuning API, где вы загружаете примеры в облако и получаете адаптированную модель, Forge включает pre-training, post-training и reinforcement learning — всё на ваших серверах, с командой инженеров Mistral. Не API, не SaaS, не подписка.

Pre-training. Модель учится на ваших данных с нуля: внутренняя документация, кодовая база, переписка, специализированные тексты. Терабайты, не 500 примеров. После этого модель не просто знает терминологию, она понимает связи и контекст вашей предметной области.

Post-training. SFT (supervised fine-tuning), DPO (direct preference optimization), ODPO — всё, что превращает «сырую» модель в полезного ассистента. Модель учится отвечать в нужном формате, следовать инструкциям, быть полезной.

Reinforcement learning. Модель учится на фидбеке — что хорошо, что плохо, как улучшить ответы. Тот самый этап, который превратил GPT-3 в ChatGPT.

Ключевое отличие: Forge работает on-premises. Данные не покидают ваши серверы. Mistral привозит своих инженеров (forward-deployed scientists, как у Palantir), которые настраивают пайплайн обучения прямо у вас.

Инфо

Цены Mistral не раскрывает — enterprise pricing по запросу. Но бизнес-модель понятна: лицензия на технологию + работа инженеров Mistral на вашей площадке. Если вы спрашиваете «сколько стоит» — скорее всего, это не для вас. Forge рассчитан на компании, которые тратят миллионы на AI-инфраструктуру.

Кто уже обучает кастомные AI-модели через Forge: три кейса

Абстрактные обещания — одно. Конкретные применения — другое.

Ericsson и legacy-код. У Ericsson телеком-инфраструктура на проприетарных языках программирования, которые не знает ни одна публичная модель. Онбординг нового инженера на этот стек занимает шесть месяцев. Forge обучил модель на кодовой базе Ericsson, и теперь она помогает с переводом legacy-кода и онбордингом. Шесть месяцев ручной работы против нескольких недель — если цифры не преувеличены, это серьёзно.

Хедж-фонды и проприетарные данные. Финансовые компании работают с собственными квантовыми языками и торговыми стратегиями. Загрузить это в OpenAI — невозможно (NDA, регуляции, здравый смысл). Forge позволяет обучить модель на этих данных без утечки. Данные остаются внутри, модель — тоже.

Древние манускрипты. Да, серьёзно. Исследователи используют Forge для восстановления повреждённых текстов — модель обучена на корпусе древних рукописей и заполняет пропуски. Узкая задача, но показательная: публичные модели этого делать не умеют, потому что таких данных в их обучающих выборках просто нет.

Общий паттерн: Forge нужен там, где данные настолько специфичны, что ни одна публичная модель не справится. И где эти данные нельзя отправить в облако.

Mistral Small 4: что за модель под капотом

Вместе с Forge Mistral показали Small 4. Тут интересно.

Цифры: 119 миллиардов параметров total, но активны только 6 миллиардов. Архитектура MoE (Mixture of Experts) — 128 экспертов, из которых 4 работают на каждый запрос. Контекст 256K токенов. Лицензия Apache 2.0 — бери и используй.

На практике это значит: модель на 119B ведёт себя как 6B при инференсе. На 40% быстрее, чем Small 3, обрабатывает в три раза больше запросов в секунду. При этом объединяет возможности трёх предыдущих моделей: Magistral (рассуждение), Devstral (код), Pixtral (мультимодал). Одна модель вместо трёх.

Тимоте Лакруа, CTO Mistral, объяснил логику: маленькие модели не могут быть хороши во всём одновременно. Но если кастомизировать их под конкретную задачу — можно выбрать, что усилить, а чем пожертвовать. Forge как раз про это.

И вот тут пересечение с дообучением модели через Unsloth Studio: Small 4 — open-weight, Apache 2.0. Можно взять её и дообучить самому, бесплатно, на RTX 3060. А можно заказать полный цикл обучения через Forge. Модель та же — разница в глубине кастомизации.

Сравнение: Mistral Forge vs Unsloth vs OpenAI fine-tuning

Теперь к главному — таблица, ради которой вы, возможно, и открыли статью.

	Mistral Forge	Unsloth Studio	OpenAI Fine-tuning
Тип обучения	Полный цикл: pre-train + post-train + RL	Локальный SFT (LoRA/QLoRA)	Облачный SFT
Аудитория	Enterprise, правительства	Разработчики, стартапы	Разработчики, стартапы
Стоимость обучения	Enterprise pricing (лицензия)	Бесплатно (GPU: $0-6)	GPT-4o: $25/1M tokens
Стоимость инференса	На своих GPU: $0	Локально: $0	$3.75/$15 per 1M tokens
Приватность данных	100% on-premises	100% локально	Данные загружаются в OpenAI
Модели	Mistral open-weight (Apache 2.0)	500+ открытых моделей	GPT-4o, GPT-4o-mini
Владение моделью	Полное	Полное	Частичное (в облаке OpenAI)
Минимальное железо	4x NVIDIA H100	RTX 3060 12GB	Не нужно
Время до результата	Недели-месяцы	Часы	Часы

Пересечение аудиторий минимальное.

Unsloth — вы соло-разработчик или стартап на ранней стадии. Бюджет ограничен, задача конкретная: адаптировать модель под стиль ответов, терминологию, формат. Fine-tuning на 500 примерах за вечер. Я подробно разбирал процесс — от установки до работающей модели за пару часов.

OpenAI fine-tuning — вам важна скорость и не критична приватность данных. Загрузили JSONL, подождали пару часов, получили дообученный GPT-4o. Привязка к экосистеме OpenAI — модель живёт в их облаке, инференс платный, но зато никакого своего железа.

Mistral Forge — у вас ASML, Ericsson или хедж-фонд с проприетарными данными на терабайты. Fine-tuning не даёт нужной глубины. Данные нельзя отправлять наружу. Бюджет на AI-инфраструктуру — отдельная строка в P&L. Минимальный порог входа: кластер из четырёх H100 и готовность платить за лицензию и инженеров Mistral.

Внимание

Forge — не замена fine-tuning. Это другой продукт для другой задачи. Если ваша проблема решается дообучением на 1000 примерах — не тратьте месяцы и enterprise-бюджет на полный цикл. Начните с Unsloth или OpenAI, замерьте результат. Если не хватает — тогда разговаривайте с Mistral.

Зачем бизнесу своя AI-модель вместо ChatGPT

Собственная AI-модель для бизнеса нужна, когда данные нельзя отправить в облако, когда стоимость API на масштабе становится неприемлемой и когда модели общего назначения не справляются со специфичным доменом. Во всех остальных случаях API frontier-моделей дешевле и быстрее.

Вопрос, который задают чаще всего: зачем вообще заморачиваться, если frontier-модели вроде Claude 4.6 Opus и GPT-5 работают всё лучше?

Данные не уходят наружу. Для банков, страховых, оборонки, медицины — это не опция, а требование регулятора. ASML не может загрузить чертежи литографических машин в облако OpenAI. Хедж-фонд не отправит торговые стратегии. Для таких компаний on-premises — единственный вариант.

Стоимость на масштабе. При 100K+ запросов в день API-биллинг превращается в серьёзную статью расходов. Своя модель на своём железе — фиксированная стоимость. Чем больше запросов, тем выгоднее.

Глубокое понимание домена. Промпт-инжиниринг и RAG работают для большинства задач. Но есть области — проприетарные языки программирования, узкоспециализированная терминология, специфичные паттерны рассуждений — где модель должна «думать» на вашем языке, а не переводить с общего на частный.

Если ничего из этого к вам не относится, ChatGPT или Claude через API закроет 90% задач дешевле и быстрее. Своя модель — не всегда лучшее решение. Иногда это дорогое решение проблемы, которой нет.

Контекст: Mistral AI в 2026 году

Бэкграунд, чтобы понять, откуда растёт Forge.

Mistral AI на пути к $1 миллиарду годовой выручки. Оценка компании — 11.7 миллиардов евро (около $13.8 миллиардов). Со-основатель ушёл в xAI к Илону Маску — но это, похоже, только подтолкнуло компанию продуктизировать свою экспертизу. Вместо того чтобы держать знания в головах инженеров, Mistral упаковали их в сервис.

Forge для Mistral — стратегический ход. Конкурировать с OpenAI и Anthropic по размеру моделей они не могут, бюджеты несопоставимы. Зато может предложить enterprise-клиентам то, чего у американских компаний нет: open-weight модели, on-premises обучение, европейская юрисдикция данных. Для компаний под GDPR это весомый аргумент.

Параллельно с Forge работают AI-агенты, которые связывают модели в цепочки: одна модель рассуждает, другая пишет код, третья анализирует данные. Small 4 как раз заточена под такой агентный сценарий — маленькая, быстрая, специализированная.

Стоит ли тренировать LLM на своих данных через Forge

Forge — красивая идея. Forward-deployed scientists, полный цикл обучения, on-premises. Звучит как мечта enterprise-клиента. Но меня напрягает несколько вещей.

Во-первых, кейсы пока абстрактные. Ericsson «автоматизировал онбординг» — но насколько? На 10%? На 80%? Конкретных метрик Mistral не даёт. А без метрик enterprise-обещания стоят недорого.

Во-вторых, порог входа чудовищный. 4x H100 — это минимум $120K только за железо, без учёта серверов, охлаждения, электричества. Плюс лицензия Mistral, плюс работа их инженеров. Мы говорим о бюджетах в сотни тысяч долларов. Для 99% бизнесов это неподъёмно и, главное, не нужно.

В-третьих, скрытые цены. Enterprise pricing — классический приём, когда продукт стоит «сколько клиент готов заплатить». Без публичного прайса сложно сравнивать и планировать бюджет.

Совет

Практический совет: начните с fine-tuning. Если Unsloth или OpenAI fine-tuning решают вашу задачу на 80% — этого достаточно для большинства бизнесов. Forge имеет смысл только когда fine-tuning упирается в потолок, а данные нельзя отправить в облако. Это не первый шаг — это последний.

Как понять, нужно ли вам обучение AI-модели с нуля

Обучение модели с нуля оправдано, когда данные нельзя отправить в облако (регуляторные требования, NDA, проприетарная информация) и когда fine-tuning на ограниченной выборке не даёт нужной глубины понимания домена. Для остальных сценариев дообучение дешевле, быстрее и проще.

Ответьте на два вопроса. Первый: ваши данные можно отправить в облако? Если да, Forge не нужен. Второй: fine-tuning на 1000 примерах даёт приемлемый результат? Если да, Forge тоже не нужен.

Forge нужен, когда оба ответа «нет». Данные не отправить, fine-tuning не хватает. Всё остальное решается проще и дешевле.

На Хабре и vc.ru про Forge написали четыре коротких новости, каждая на две минуты чтения. Глубокого разбора на русском нет. Теперь есть.

Mistral делает ставку на enterprise-рынок, и Forge — центральный продукт этой стратегии. Для большинства читателей этого блога Forge — не инструмент на каждый день. Но понимать, что существует уровень между «дообучить за вечер» и «обучить с нуля за месяцы» — полезно. Хотя бы для того, чтобы не переплачивать за первое и не бояться второго.

А если ваша задача — дообучить модель на своих данных прямо сейчас, без enterprise-бюджета — начните с Unsloth. Серьёзно. Бесплатно, локально, за один вечер.