Допустим, вы дообучили модель через Unsloth. Чат-бот знает ваш продукт, отвечает в нужном тоне, стоит ноль рублей в месяц. Всё круто — до момента, когда задача усложняется. Модель не понимает контекст длинных документов. Путает причинно-следственные связи в вашей предметной области. Fine-tuning подкрутил стиль ответов, но глубокого понимания домена нет.
Вот тут начинается территория Mistral Forge — сервиса для обучения моделей с нуля на ваших данных.
17 марта на NVIDIA GTC Mistral показали штуку, которая претендует на следующий уровень после fine-tuning. Не дообучение чужой модели на ваших данных, а полный цикл: pre-training, post-training, reinforcement learning. Своя модель с нуля, обученная на ваших терабайтах. На ваших серверах. С командой инженеров Mistral, которая приезжает к вам и настраивает всё руками.
Звучит как Palantir для AI. Вопрос: кому это реально нужно, а кому — дорогой способ решить задачу, которая решается за вечер.
Три подхода к обучению AI-модели
Сначала терминология. Путаница между fine-tuning и обучением с нуля — главная причина, почему люди переплачивают или недополучают.
Fine-tuning (дообучение) — берёте готовую модель, которая уже умеет читать, писать и рассуждать. Показываете ей 100-10 000 примеров из вашей области. Через пару часов модель адаптировала стиль, выучила терминологию и формат ответов. Это как взять опытного сотрудника и провести ему онбординг в вашу компанию. Быстро, дёшево, но глубина ограничена — фундамент остаётся чужой.
Обучение с нуля (pre-training + post-training) — строите модель от основания. Терабайты данных, дни или недели на GPU-кластере, бюджет от $10K до миллионов. Модель не адаптирует чужие знания — она формирует свои. Это как вырастить специалиста внутри компании с нуля. Долго, дорого, но модель по-настоящему понимает домен.
| Fine-tuning | Обучение с нуля | |
|---|---|---|
| Данные | 100-10K примеров | Терабайты |
| Время | Минуты-часы | Дни-недели |
| Стоимость | $0-1 000 | $10K-$1M+ |
| Глубина | Адаптация стиля и формата | Глубокое понимание домена |
| Аналогия | Онбординг нового сотрудника | Обучение специалиста с нуля |
Элиза Саламанка, Head of Product в Mistral, объясняет разницу прямо: fine-tuning доводит до proof-of-concept, но когда нужен реальный production-уровень — нужно идти дальше.
Вопрос — насколько дальше и за какие деньги.
Что такое Mistral Forge и чем он отличается от fine-tuning API
Mistral Forge — это enterprise-сервис полного цикла обучения AI-модели на данных заказчика. В отличие от fine-tuning API, где вы загружаете примеры в облако и получаете адаптированную модель, Forge включает pre-training, post-training и reinforcement learning — всё на ваших серверах, с командой инженеров Mistral. Не API, не SaaS, не подписка.
Pre-training. Модель учится на ваших данных с нуля: внутренняя документация, кодовая база, переписка, специализированные тексты. Терабайты, не 500 примеров. После этого модель не просто знает терминологию, она понимает связи и контекст вашей предметной области.
Post-training. SFT (supervised fine-tuning), DPO (direct preference optimization), ODPO — всё, что превращает «сырую» модель в полезного ассистента. Модель учится отвечать в нужном формате, следовать инструкциям, быть полезной.
Reinforcement learning. Модель учится на фидбеке — что хорошо, что плохо, как улучшить ответы. Тот самый этап, который превратил GPT-3 в ChatGPT.
Ключевое отличие: Forge работает on-premises. Данные не покидают ваши серверы. Mistral привозит своих инженеров (forward-deployed scientists, как у Palantir), которые настраивают пайплайн обучения прямо у вас.
Инфо
Цены Mistral не раскрывает — enterprise pricing по запросу. Но бизнес-модель понятна: лицензия на технологию + работа инженеров Mistral на вашей площадке. Если вы спрашиваете «сколько стоит» — скорее всего, это не для вас. Forge рассчитан на компании, которые тратят миллионы на AI-инфраструктуру.
Кто уже обучает кастомные AI-модели через Forge: три кейса
Абстрактные обещания — одно. Конкретные применения — другое.
Ericsson и legacy-код. У Ericsson телеком-инфраструктура на проприетарных языках программирования, которые не знает ни одна публичная модель. Онбординг нового инженера на этот стек занимает шесть месяцев. Forge обучил модель на кодовой базе Ericsson, и теперь она помогает с переводом legacy-кода и онбордингом. Шесть месяцев ручной работы против нескольких недель — если цифры не преувеличены, это серьёзно.
Хедж-фонды и проприетарные данные. Финансовые компании работают с собственными квантовыми языками и торговыми стратегиями. Загрузить это в OpenAI — невозможно (NDA, регуляции, здравый смысл). Forge позволяет обучить модель на этих данных без утечки. Данные остаются внутри, модель — тоже.
Древние манускрипты. Да, серьёзно. Исследователи используют Forge для восстановления повреждённых текстов — модель обучена на корпусе древних рукописей и заполняет пропуски. Узкая задача, но показательная: публичные модели этого делать не умеют, потому что таких данных в их обучающих выборках просто нет.
Общий паттерн: Forge нужен там, где данные настолько специфичны, что ни одна публичная модель не справится. И где эти данные нельзя отправить в облако.
Mistral Small 4: что за модель под капотом
Вместе с Forge Mistral показали Small 4. Тут интересно.
Цифры: 119 миллиардов параметров total, но активны только 6 миллиардов. Архитектура MoE (Mixture of Experts) — 128 экспертов, из которых 4 работают на каждый запрос. Контекст 256K токенов. Лицензия Apache 2.0 — бери и используй.
На практике это значит: модель на 119B ведёт себя как 6B при инференсе. На 40% быстрее, чем Small 3, обрабатывает в три раза больше запросов в секунду. При этом объединяет возможности трёх предыдущих моделей: Magistral (рассуждение), Devstral (код), Pixtral (мультимодал). Одна модель вместо трёх.
Тимоте Лакруа, CTO Mistral, объяснил логику: маленькие модели не могут быть хороши во всём одновременно. Но если кастомизировать их под конкретную задачу — можно выбрать, что усилить, а чем пожертвовать. Forge как раз про это.
И вот тут пересечение с дообучением модели через Unsloth Studio: Small 4 — open-weight, Apache 2.0. Можно взять её и дообучить самому, бесплатно, на RTX 3060. А можно заказать полный цикл обучения через Forge. Модель та же — разница в глубине кастомизации.
Сравнение: Mistral Forge vs Unsloth vs OpenAI fine-tuning
Теперь к главному — таблица, ради которой вы, возможно, и открыли статью.
| Mistral Forge | Unsloth Studio | OpenAI Fine-tuning | |
|---|---|---|---|
| Тип обучения | Полный цикл: pre-train + post-train + RL | Локальный SFT (LoRA/QLoRA) | Облачный SFT |
| Аудитория | Enterprise, правительства | Разработчики, стартапы | Разработчики, стартапы |
| Стоимость обучения | Enterprise pricing (лицензия) | Бесплатно (GPU: $0-6) | GPT-4o: $25/1M tokens |
| Стоимость инференса | На своих GPU: $0 | Локально: $0 | $3.75/$15 per 1M tokens |
| Приватность данных | 100% on-premises | 100% локально | Данные загружаются в OpenAI |
| Модели | Mistral open-weight (Apache 2.0) | 500+ открытых моделей | GPT-4o, GPT-4o-mini |
| Владение моделью | Полное | Полное | Частичное (в облаке OpenAI) |
| Минимальное железо | 4x NVIDIA H100 | RTX 3060 12GB | Не нужно |
| Время до результата | Недели-месяцы | Часы | Часы |
Пересечение аудиторий минимальное.
Unsloth — вы соло-разработчик или стартап на ранней стадии. Бюджет ограничен, задача конкретная: адаптировать модель под стиль ответов, терминологию, формат. Fine-tuning на 500 примерах за вечер. Я подробно разбирал процесс — от установки до работающей модели за пару часов.
OpenAI fine-tuning — вам важна скорость и не критична приватность данных. Загрузили JSONL, подождали пару часов, получили дообученный GPT-4o. Привязка к экосистеме OpenAI — модель живёт в их облаке, инференс платный, но зато никакого своего железа.
Mistral Forge — у вас ASML, Ericsson или хедж-фонд с проприетарными данными на терабайты. Fine-tuning не даёт нужной глубины. Данные нельзя отправлять наружу. Бюджет на AI-инфраструктуру — отдельная строка в P&L. Минимальный порог входа: кластер из четырёх H100 и готовность платить за лицензию и инженеров Mistral.
Внимание
Forge — не замена fine-tuning. Это другой продукт для другой задачи. Если ваша проблема решается дообучением на 1000 примерах — не тратьте месяцы и enterprise-бюджет на полный цикл. Начните с Unsloth или OpenAI, замерьте результат. Если не хватает — тогда разговаривайте с Mistral.
Зачем бизнесу своя AI-модель вместо ChatGPT
Собственная AI-модель для бизнеса нужна, когда данные нельзя отправить в облако, когда стоимость API на масштабе становится неприемлемой и когда модели общего назначения не справляются со специфичным доменом. Во всех остальных случаях API frontier-моделей дешевле и быстрее.
Вопрос, который задают чаще всего: зачем вообще заморачиваться, если frontier-модели вроде Claude 4.6 Opus и GPT-5 работают всё лучше?
Данные не уходят наружу. Для банков, страховых, оборонки, медицины — это не опция, а требование регулятора. ASML не может загрузить чертежи литографических машин в облако OpenAI. Хедж-фонд не отправит торговые стратегии. Для таких компаний on-premises — единственный вариант.
Стоимость на масштабе. При 100K+ запросов в день API-биллинг превращается в серьёзную статью расходов. Своя модель на своём железе — фиксированная стоимость. Чем больше запросов, тем выгоднее.
Глубокое понимание домена. Промпт-инжиниринг и RAG работают для большинства задач. Но есть области — проприетарные языки программирования, узкоспециализированная терминология, специфичные паттерны рассуждений — где модель должна «думать» на вашем языке, а не переводить с общего на частный.
Если ничего из этого к вам не относится, ChatGPT или Claude через API закроет 90% задач дешевле и быстрее. Своя модель — не всегда лучшее решение. Иногда это дорогое решение проблемы, которой нет.
Контекст: Mistral AI в 2026 году
Бэкграунд, чтобы понять, откуда растёт Forge.
Mistral AI на пути к $1 миллиарду годовой выручки. Оценка компании — 11.7 миллиардов евро (около $13.8 миллиардов). Со-основатель ушёл в xAI к Илону Маску — но это, похоже, только подтолкнуло компанию продуктизировать свою экспертизу. Вместо того чтобы держать знания в головах инженеров, Mistral упаковали их в сервис.
Forge для Mistral — стратегический ход. Конкурировать с OpenAI и Anthropic по размеру моделей они не могут, бюджеты несопоставимы. Зато может предложить enterprise-клиентам то, чего у американских компаний нет: open-weight модели, on-premises обучение, европейская юрисдикция данных. Для компаний под GDPR это весомый аргумент.
Параллельно с Forge работают AI-агенты, которые связывают модели в цепочки: одна модель рассуждает, другая пишет код, третья анализирует данные. Small 4 как раз заточена под такой агентный сценарий — маленькая, быстрая, специализированная.
Стоит ли тренировать LLM на своих данных через Forge
Forge — красивая идея. Forward-deployed scientists, полный цикл обучения, on-premises. Звучит как мечта enterprise-клиента. Но меня напрягает несколько вещей.
Во-первых, кейсы пока абстрактные. Ericsson «автоматизировал онбординг» — но насколько? На 10%? На 80%? Конкретных метрик Mistral не даёт. А без метрик enterprise-обещания стоят недорого.
Во-вторых, порог входа чудовищный. 4x H100 — это минимум $120K только за железо, без учёта серверов, охлаждения, электричества. Плюс лицензия Mistral, плюс работа их инженеров. Мы говорим о бюджетах в сотни тысяч долларов. Для 99% бизнесов это неподъёмно и, главное, не нужно.
В-третьих, скрытые цены. Enterprise pricing — классический приём, когда продукт стоит «сколько клиент готов заплатить». Без публичного прайса сложно сравнивать и планировать бюджет.
Совет
Практический совет: начните с fine-tuning. Если Unsloth или OpenAI fine-tuning решают вашу задачу на 80% — этого достаточно для большинства бизнесов. Forge имеет смысл только когда fine-tuning упирается в потолок, а данные нельзя отправить в облако. Это не первый шаг — это последний.
Как понять, нужно ли вам обучение AI-модели с нуля
Обучение модели с нуля оправдано, когда данные нельзя отправить в облако (регуляторные требования, NDA, проприетарная информация) и когда fine-tuning на ограниченной выборке не даёт нужной глубины понимания домена. Для остальных сценариев дообучение дешевле, быстрее и проще.
Ответьте на два вопроса. Первый: ваши данные можно отправить в облако? Если да, Forge не нужен. Второй: fine-tuning на 1000 примерах даёт приемлемый результат? Если да, Forge тоже не нужен.
Forge нужен, когда оба ответа «нет». Данные не отправить, fine-tuning не хватает. Всё остальное решается проще и дешевле.
На Хабре и vc.ru про Forge написали четыре коротких новости, каждая на две минуты чтения. Глубокого разбора на русском нет. Теперь есть.
Mistral делает ставку на enterprise-рынок, и Forge — центральный продукт этой стратегии. Для большинства читателей этого блога Forge — не инструмент на каждый день. Но понимать, что существует уровень между «дообучить за вечер» и «обучить с нуля за месяцы» — полезно. Хотя бы для того, чтобы не переплачивать за первое и не бояться второго.
А если ваша задача — дообучить модель на своих данных прямо сейчас, без enterprise-бюджета — начните с Unsloth. Серьёзно. Бесплатно, локально, за один вечер.



