Fine-tuning нейросети: обучаю модель на своих данных — полный гид 2026

Год назад я хотел сделать AI-ассистента, который отвечает в стиле нашей компании. Знает наши продукты, говорит нашим языком, не лезет с общими фразами из интернета.

Первая мысль — RAG. Загрузил базу документов, подключил к ChatGPT. Работало. Но не так. Модель знала факты, но всё равно звучала как... ну, как ChatGPT. Не как мы.

Тогда попробовал fine-tuning. Потратил один вечер, 80 примеров диалогов в нужном стиле — и разница была очевидна. Модель заговорила по-другому. Не только знала что говорить, но и как.

В этой статье разбираю: что такое fine-tuning, чем он отличается от RAG, какие техники существуют — и как дообучить модель на своих данных бесплатно, без написания кода.

Для кого: для тех, кто уже знаком с нейросетями и хочет адаптировать модель под конкретную задачу. Если вы только начинаете — сначала прочитайте нейросети с нуля. Если вы разработчик и хотите сразу к коду — прыгайте к разделу «Пошагово».

Fine-tuning простыми словами: что это и зачем

Представьте, что вы наняли стажёра с дипломом MBA. Он умный, знает всё про бизнес, может поддержать разговор на любую тему. Но он не знает вашу компанию, не говорит на вашем профессиональном жаргоне, не понимает ваши внутренние процессы.

Обычная языковая модель — вот этот стажёр. Очень широкие знания, но никакой специализации.

Fine-tuning — это стажировка. Вы показываете модели примеры: «вот как мы общаемся с клиентами», «вот как мы описываем продукты», «вот наш тон». После этого модель не просто знает факты о вас — она начинает думать в вашем контексте.

Технически: при fine-tuning веса модели немного меняются. Модель «запоминает» паттерны из ваших данных на уровне параметров, а не просто читает их из контекста при каждом запросе.

Когда fine-tuning реально нужен:

хотите конкретный стиль или тон, который не достигается через промпт
работаете в узком домене (медицина, юриспруденция, специфическое ПО)
нужны определённые форматы ответов, которые модель постоянно «забывает»
хотите модель, которая ведёт себя по-другому — не знает больше, а думает иначе

Когда fine-tuning избыточен — разберём в отдельном разделе.

Fine-tuning vs RAG: чем отличаются и что выбрать

Это самый частый вопрос, и правильный ответ — «зависит». Но не расплывчатый, а конкретный «зависит».

RAG: добавляем документы в контекст (без обучения)

RAG (Retrieval-Augmented Generation, генерация с поиском по базе) — это когда вы даёте модели шпаргалку перед каждым ответом. Поисковая система находит релевантные документы из вашей базы, подкладывает их в контекст — и модель отвечает, используя эту информацию.

Модель при этом не меняется. Она та же самая — просто каждый раз получает дополнительный контекст.

Подробнее — в RAG с нуля: практический гайд.

Fine-tuning: меняем поведение модели (с обучением)

Fine-tuning меняет сами параметры модели. После обучения это другая модель — с теми же базовыми знаниями, но другими паттернами поведения и стиля.

Контекст при каждом запросе не нужен. Это уже «внутри».

Когда что выбрать: таблица сравнения

Критерий	RAG	Fine-tuning
Данные часто обновляются	✅ отлично	❌ нужно переобучать
Нужен специфический стиль/тон	❌ слабо	✅ отлично
Бюджет и скорость	✅ быстро и дёшево	⚠️ дороже и дольше
Актуальные знания (цены, события)	✅ обновляется сразу	❌ не подходит
Формат ответов, особый шаблон	❌ нестабильно	✅ запоминает
Нужна «личность» модели	❌ нет	✅ да
Сложность запуска	✅ проще	⚠️ сложнее

Мой вывод после экспериментов: RAG — для знаний, fine-tuning — для поведения. Часто лучший результат даёт комбинация: дообученная модель + RAG поверх неё.

Для детального сравнения со сценариями использования — Fine-tuning vs RAG: детальное сравнение (coming soon).

Основные техники: LoRA, QLoRA, Full fine-tuning

Здесь начинается зона, где люди теряются в терминах. Постараюсь без воды.

Full fine-tuning: обучаем все веса (дорого и мощно)

Представьте, что хотите перекрасить всю стену в квартире. Берёте все банки с краской, всё перекрашиваете заново. Результат максимальный, но затраты огромные.

Full fine-tuning — это именно так. Обновляются все параметры модели — от первого до последнего. Для GPT-3 это 175 миллиардов параметров. Нужны недели на топовом железе и бюджет от десятков тысяч долларов.

Для бизнес-задач — почти никогда не нужен. Для исследований — иногда.

LoRA: обучаем маленькие адаптеры (быстро и дёшево)

LoRA (Low-Rank Adaptation, адаптация низкого ранга) — умная альтернатива. Вместо того чтобы перекрашивать всю стену, вы приклеиваете постер поверх неё.

Технически: LoRA добавляет небольшие матрицы-адаптеры к существующим весам модели. Обучаются только они — а их в 10–100 раз меньше, чем всех весов. Исходная модель не меняется.

Результат? Качество почти как у full fine-tuning, а GPU и времени нужно несравнимо меньше. 95% задач решается LoRA.

Подробный разбор механики — в LoRA: что это и как работают адаптеры (coming soon).

QLoRA: LoRA + квантование (запускается на обычном GPU)

QLoRA — это LoRA + квантование (quantization). Квантование — это сжатие весов модели из 16-битных чисел в 4-битные. Модель занимает в 4 раза меньше памяти.

Итог: QLoRA позволяет дообучить 7B-модель на GPU с 8–16 ГБ VRAM. То есть на обычном потребительском железе или в Google Colab бесплатно.

Именно QLoRA сделала fine-tuning доступным для всех.

PEFT: семейство техник экономного дообучения

PEFT (Parameter-Efficient Fine-Tuning) — это не один метод, а категория. LoRA и QLoRA — её самые популярные представители. Ещё есть prefix-tuning, adapters, prompt-tuning — но это уже академические детали, которые вряд ли понадобятся на практике.

Инструменты для fine-tuning в 2026

Хорошие новости: сейчас не нужно писать код, чтобы дообучить модель. Инструменты шагнули далеко.

Unsloth Studio: без кода, в браузере, бесплатно (рекомендую)

Мой первый fine-tuning был именно здесь. Unsloth Studio — веб-интерфейс для дообучения моделей. Загружаешь датасет, выбираешь модель, нажимаешь кнопку. Всё.

Поддерживает Llama 3.1, Mistral, Qwen, Gemma и другие популярные модели. Бесплатно. Работает в браузере — ничего не устанавливается.

Детальный гайд с примерами и скриншотами: Unsloth Studio: дообучаем AI-модель без кода.

Hugging Face AutoTrain: облачный no-code вариант

AutoTrain от Hugging Face — похожий инструмент, только облачный. Чуть сложнее в настройке, зато больше контроля над параметрами. Платный, но есть бесплатный тариф для маленьких датасетов.

Хорошо подходит, если уже активно используете Hugging Face для других задач.

Mistral Fine-tuning API: для Mistral-моделей через API

Mistral предоставляет официальный Fine-tuning API. Отправляешь JSONL-файл, получаешь дообученную модель — без GPU, без локальных инструментов.

Стоимость: от $1–2 за небольшой датасет. Удобно, если уже работаете с Mistral API в продакшене.

LLaMA Factory: для тех, кто хочет контроля (Python)

LLaMA Factory — open-source инструмент для fine-tuning через Python. Поддерживает 100+ моделей, все основные техники (LoRA, QLoRA, full FT), гибкая настройка.

Нужен Python, CUDA, понимание конфигов. Зато полный контроль над процессом.

Сравнение инструментов

Инструмент	Сложность	Стоимость	Модели
Unsloth Studio	Очень просто	Бесплатно	Llama, Qwen, Mistral, Gemma
Hugging Face AutoTrain	Просто	Бесплатно / ~$1+	Большинство популярных
Mistral Fine-tuning API	Просто	от $1–2	Только Mistral
LLaMA Factory	Сложно	Бесплатно (нужен GPU)	100+ моделей

Дообучаю модель на своих данных: пошагово

Покажу на конкретном примере. Задача: дообучить модель под корпоративный стиль общения с клиентами.

Шаг 1: Готовим датасет (формат JSONL, 50–200 примеров)

Датасет для instruction-tuning — это пары «вопрос → ответ» в формате JSONL. Каждая строка — один пример.

json

{"instruction": "Клиент спрашивает о сроках доставки", "output": "Обычно доставка занимает 2–3 рабочих дня. Для вашего региона уточню точнее — напишите почтовый индекс."}
{"instruction": "Как отменить заказ?", "output": "Отменить можно в личном кабинете в разделе «Мои заказы» — кнопка «Отмена» активна до момента отправки. Если заказ уже в пути — напишите нам, поможем."}
{"instruction": "Есть ли скидки для постоянных клиентов?", "output": "Да, у нас программа лояльности: с 5-го заказа — 5% скидка, с 10-го — 10%. Ваш текущий статус можно посмотреть в профиле."}

Для смены стиля хватает 50–100 хороших примеров. Для нового домена знаний нужно больше — 500–2000. Качество примеров важнее количества. Мусор в датасете = мусор в модели.

Как собирать примеры:

Ваши лучшие диалоги с клиентами за последний год
Ответы лучшего сотрудника, которому вы доверяете
Руководства и документацию — перевести в формат Q&A

Шаг 2: Выбираем базовую модель

Для русского языка в 2026 мой выбор — Qwen 2.5 7B или Mistral 7B v0.3. Обе хорошо понимают русский, компактные, QLoRA поддерживается.

Если задача только на английском — Llama 3.1 8B Instruct.

Правило: берите самую маленькую модель, которая справляется с задачей. 7B-модели дообучаются быстро и запускаются на обычном железе.

Шаг 3: Запускаем обучение через Unsloth Studio

Идёте на unsloth.ai/studio
Загружаете JSONL-файл с датасетом
Выбираете базовую модель
Устанавливаете параметры (обычно достаточно дефолтов):
- Epochs: 3
- Learning rate: 2e-4
- LoRA rank: 16
Нажимаете Start Training

На 100 примерах, 3 эпохи — около 15–25 минут в Colab.

Подробные скриншоты и разбор каждого параметра — в Unsloth Studio: дообучаем AI-модель без кода.

Шаг 4: Оцениваем результат

После обучения нужно протестировать модель. На что смотрю:

Качественно: задаю 10–15 вопросов из датасета и новые. Звучит ли ответ так, как нужно?
Деградация: задаю общие вопросы. Не потеряла ли модель базовые способности?
Переобучение: ответы не должны буквально копировать примеры из датасета — должна быть генерализация

Если что-то не так — корректирую датасет (чаще всего проблема именно там) и запускаю снова.

Запускаю дообученную модель локально через Ollama

После fine-tuning вы получаете файл модели. Обычно в формате GGUF — это квантованный формат, оптимизированный для локального запуска.

GGUF (GPT-Generated Unified Format) — стандартный формат для запуска LLM на CPU и GPU без специальных фреймворков.

Ollama умеет запускать GGUF-файлы прямо из командной строки. Схема простая:

Скачиваете GGUF с Hugging Face (Unsloth Studio сохраняет туда автоматически)
Создаёте Modelfile:

FROM /path/to/your-model.gguf
SYSTEM "Ты — ассистент нашей компании. Отвечаешь кратко и по делу."

Добавляете в Ollama: ollama create my-model -f Modelfile
Запускаете: ollama run my-model

Всё работает локально. Никаких API-ключей, никаких облаков, никаких расходов за запросы.

Полный гайд по Ollama, моделям и настройке — Ollama: запускаю локальные AI-модели на Mac.

Когда fine-tuning не нужен (и деньги потрачены зря)

Честно: в половине случаев, когда люди спрашивают про fine-tuning, им не нужен fine-tuning.

5 сценариев, когда лучше обойтись без него:

1. Данные меняются каждую неделю. Новые продукты, новые цены, актуальные события. Fine-tuning замораживает знания. Тут нужен RAG.

2. У вас меньше 50 примеров. Да, формально можно обучить и на 10 примерах. Но результат будет неустойчивым. Хороший промпт с примерами (few-shot) даст лучший результат при меньших усилиях.

3. Задача требует актуальных знаний. Если вопрос «что случилось сегодня» — fine-tuning не поможет. Модель знает только то, что было в датасете.

4. Бюджет меньше 20$. Попробуйте сначала промпт-инжиниринг. Хорошо написанный системный промпт с примерами иногда решает задачу полностью. Потратьте час на промпт прежде чем тратить деньги на обучение.

5. Хотите «чтобы модель знала наш сайт». Это буквально задача для RAG. Загружаете сайт в базу, подключаете к модели — она отвечает на основе вашего контента. Fine-tuning тут избыточен.

FAQ: частые вопросы про fine-tuning

Чем fine-tuning отличается от RAG?

RAG добавляет документы в контекст каждого запроса — модель читает их во время ответа. Fine-tuning меняет сами веса модели: она «запоминает» новый стиль или паттерны ответов навсегда. RAG лучше для часто меняющихся данных, fine-tuning — для фиксированного стиля или домена.

Сколько примеров нужно для fine-tuning?

Для смены стиля или тона хватает 50–200 примеров. Для нового домена знаний — 500–2000. Общее правило: начинайте со 100 высококачественных примеров, смотрите результат, добавляйте если нужно. Один плохой пример вредит больше, чем 10 хороших помогают.

Можно ли дообучить ChatGPT или Claude?

ChatGPT (GPT-4o) — да, через OpenAI Fine-tuning API, но дорого. Claude — нет, Anthropic не предоставляет fine-tuning API. Лучший вариант для бесплатного старта: open-source модели (Llama, Qwen, Mistral) через Unsloth Studio.

Что такое LoRA и зачем она нужна?

LoRA (Low-Rank Adaptation) — техника дообучения, при которой обновляются не все веса модели, а только маленькие «адаптеры» поверх неё. Это в 10–100 раз дешевле и быстрее full fine-tuning. 95% задач решается LoRA или её более экономной версией QLoRA.

Сколько стоит fine-tuning?

Бесплатно через Google Colab + Unsloth (GPU от Google). Через Unsloth Studio — тоже бесплатно. Если нужен постоянный GPU — Colab Pro ~$10/мес. Mistral Fine-tuning API — от $1–2 за базовый датасет.

Fine-tuning — это не ракетная наука. Я сам думал, что это удел датасаентистов с кластерами GPU. Оказалось, что за один вечер через Unsloth Studio можно получить модель, которая ведёт себя именно так, как вам нужно.

Следующий шаг: зайдите на Unsloth Studio, подготовьте 50 примеров в JSONL — и запустите первое обучение. Весь цикл займёт меньше часа.

Если хотите понять, как агенты используют дообученные модели в продакшене — читайте AI-агенты 2026: полный гид.