Я долго откладывал Ollama — казалось, это для тех, кто хочет повозиться с терминалом ради принципа. Потом один раз отправил рабочий документ в Claude, и сразу почувствовал неловкость. Там были детали сделки, которые точно не должны попадать на чужие серверы.
Установил Ollama. Через 10 минут у меня на MacBook работал DeepSeek R1. Без интернета, без подписки, без того ощущения, что кто-то читает мои промпты.
Статья для тех, кто слышал про локальные языковые модели (LLM — большие языковые модели, вроде ChatGPT, только запущенные у вас на компьютере), но не знал, с чего начать. Если вы уже запускали что-то локально — переходите сразу к разделу про модели.
Почему я перешёл на локальные модели
Не из идеологических соображений. Из практических.
Конфиденциальность. Рабочие документы, код клиентских проектов, черновики переговоров — всё это я теперь обрабатываю локально. Не потому что параноик, а потому что так правильно.
Работа без интернета. В самолёте, на даче, когда провайдер лежит — Ollama работает. Claude и ChatGPT в такие моменты превращаются в иконки без смысла.
Ноль расходов после установки. У меня уходило $30-50 в месяц на AI-подписки. Ollama бесплатный. Модели скачал один раз — пользуюсь сколько угодно.
Скорость на Apple Silicon. М2 Pro с 16 ГБ RAM гоняет Qwen2.5:14b с вполне приличной скоростью. Не мгновенно, но терпимо для большинства задач.
Что такое Ollama
Ollama — это менеджер для запуска языковых моделей локально. Скачал, запустил команду — и модель работает как API на вашем компьютере. Поддерживает Llama 3, DeepSeek, Mistral, Qwen, Gemma, Phi и ещё несколько десятков моделей. Работает на Mac (M1/M2/M3 и Intel), Windows, Linux. Бесплатный, открытый исходный код.
Что понадобится
- Mac (любой, но M1/M2/M3 — значительно быстрее)
- RAM: минимум 8 ГБ (7B-модели), комфортно от 16 ГБ (13-14B)
- Свободное место на диске: 4-15 ГБ на модель (зависит от размера)
- Homebrew (менеджер пакетов для Mac) — или можно без него
- Время: 10-15 минут на установку и первый запуск
Установка Ollama на Mac (5 минут)
Системные требования по RAM
Модели бывают разных размеров. Чем больше — тем умнее, но и требований больше.
| RAM | Что запустить | Пример |
|---|---|---|
| 8 ГБ | 3B-7B модели | Llama 3.2:3b, Mistral 7B |
| 16 ГБ | 7B-14B модели | Llama 3.1:8b, Qwen2.5:14b |
| 32 ГБ+ | 30B+ модели | DeepSeek R1:32b, Llama 3.1:70b quantized |
На 8 ГБ можно работать — Llama 3.2:3b вполне справляется с текстовыми задачами. На 16 ГБ уже интересно: Qwen2.5:14b по качеству не сильно уступает GPT-4o на большинстве задач.
Скачать и установить
Вариант 1 — через сайт (проще): Зайдите на ollama.com → Download → macOS. Скачается .dmg, установка как обычно.
Вариант 2 — через Homebrew (для тех, кто привык к терминалу):
brew install ollamaПосле установки Ollama появится в строке меню. Запустится автоматически при старте системы.
Первый запуск
Откройте Терминал (Finder → Программы → Утилиты → Терминал) и введите:
ollama run llama3.2При первом запуске Ollama скачает модель (~2 ГБ). Это один раз. Дальше — мгновенно. После скачивания появится приглашение >>> , и можно общаться прямо в терминале.
>>> Объясни что такое API простыми словами
API — это как официант в ресторане...
Чтобы выйти — /bye.
Совет
Если пишете ollama run и получаете ошибку "command not found" — значит Ollama не добавилась в PATH. Перезапустите Терминал или выполните export PATH=$PATH:/usr/local/bin и попробуйте снова.
Какие модели запустить — мой выбор
Запустил и поработал с десятком моделей. Вот что реально пользуюсь.
Для работы (кодинг, анализ текстов)
Qwen2.5:14b — мой основной выбор на 16 ГБ. Хорошо понимает русский, быстро справляется с кодом, логично рассуждает. По ощущениям — где-то на уровне GPT-4o Mini.
ollama run qwen2.5:14bDeepSeek-R1:14b — если нужно подумать над сложной задачей. Медленнее, зато рассуждает вслух. Хорошо для архитектурных вопросов и длинных аналитических задач.
ollama run deepseek-r1:14bПро DeepSeek R1 и Qwen подробнее читайте в обзоре Qwen 3.5 9B — там есть сравнение с другими маленькими моделями.
Для русского языка
Mistral 7B справляется с русским лучше, чем можно ожидать от 7B-модели. Qwen2.5 — ещё лучше, особенно последние версии. Llama 3.2 по русскому слабее обоих.
Если у вас 8 ГБ RAM — берите Mistral 7B или Llama 3.2:3b.
ollama run mistral
# или
ollama run llama3.2:3bДля слабых MacBook (8 ГБ)
Phi-3 Mini от Microsoft — маленькая, но на удивление умная для своего размера. Хороша для кодинга и коротких текстовых задач.
ollama run phi3:miniТаблица сравнения
| Модель | Размер файла | RAM | Скорость (M2 Pro) | Русский | Лучше всего |
|---|---|---|---|---|---|
| Llama 3.2:3b | 2 ГБ | 8 ГБ | Очень быстро (~40 т/с) | Базовый | Быстрые задачи |
| Mistral 7B | 4.1 ГБ | 8 ГБ | Быстро (~20 т/с) | Хорошо | Тексты, чат |
| Llama 3.1:8b | 4.7 ГБ | 16 ГБ | Быстро (~18 т/с) | Средне | Англоязычные задачи |
| Qwen2.5:14b | 9 ГБ | 16 ГБ | Средне (~12 т/с) | Отлично | Всё понемногу |
| DeepSeek-R1:14b | 9 ГБ | 16 ГБ | Медленно (~8 т/с) | Хорошо | Рассуждения |
| DeepSeek-R1:32b | 20 ГБ | 32 ГБ+ | Медленно | Хорошо | Сложный анализ |
Скорость — токенов в секунду на M2 Pro 16 ГБ. Токен — это примерно ¾ слова.
Инфо
Чтобы увидеть все доступные модели: ollama.com/library — там больше 100 вариантов. Скачать любую: ollama pull <название>. Посмотреть что уже скачано: ollama list.
Открываю нормальный интерфейс — Open WebUI
Терминал — это хорошо для тестов. Для повседневного использования нужен нормальный интерфейс с историей диалогов, несколькими моделями в одном окне и поддержкой Markdown.
Open WebUI — это веб-интерфейс, который работает поверх Ollama. Выглядит как ChatGPT, живёт у вас на компьютере.
Установка без Docker
Большинство гайдов предлагают Docker — не нужно. Есть проще.
Через pip (Python):
pip install open-webuiЕсли Python не установлен — скачайте с python.org (нужна версия 3.11+).
Запуск:
open-webui serveОткройте браузер и перейдите на http://localhost:8080. При первом запуске создайте аккаунт (локальный, никуда не отправляется).
Подключение к Ollama
Open WebUI автоматически находит Ollama на стандартном порту localhost:11434. Если всё запущено — в интерфейсе сразу появятся все ваши скачанные модели. Выбирайте из выпадающего списка и работайте как в ChatGPT.
Совет: добавьте open-webui serve в автозагрузку или просто запускайте терминальной командой, когда нужно. Ollama сама стартует при входе в систему — так что нужно запустить только WebUI.
Совет
Хотите запускать Open WebUI одной кнопкой? Создайте в Automator простой скрипт с командой open-webui serve и добавьте его в Dock.
Metal GPU и оптимизация для Apple Silicon
Это то, что делает Mac особенным для локальных моделей. Ollama автоматически использует Metal — API Apple для GPU на чипах M1/M2/M3. Это означает, что модель работает на GPU, а не только на CPU. Разница в скорости — от 3 до 10 раз.
Ничего настраивать не нужно. Установили Ollama — Metal уже работает.
Проверить использование GPU:
ollama psВ колонке PROCESSOR должно быть 100% GPU. Если CPU — значит модель слишком большая для видеопамяти и часть работы идёт через оперативку. Это нормально, просто медленнее.
Ещё можно открыть Activity Monitor (Мониторинг системы) → вкладка GPU History. Во время работы Ollama использование GPU должно скакать.
Реальные цифры на M2 Pro 16 ГБ:
- Qwen2.5:14b: ~12 токенов/сек (терпимо для набора текста в реальном времени)
- Mistral 7B: ~20 токенов/сек (комфортно)
- Llama 3.2:3b: ~40 токенов/сек (быстро)
Для сравнения — GPT-4o через API выдаёт ~50-80 токенов/сек. То есть локальная 14B-модель медленнее, но разрыв не катастрофический.
FAQ
Что такое Ollama? Ollama — бесплатный инструмент для запуска языковых AI-моделей прямо на вашем компьютере. Работает без интернета, данные никуда не отправляются.
Ollama работает без интернета? Да, полностью. После того как модель скачана — интернет не нужен. Все вычисления происходят локально на вашем железе.
Какие модели поддерживает Ollama? Более 100 моделей: Llama 3, DeepSeek R1, Mistral, Qwen2.5, Gemma, Phi, Falcon и другие. Полный список на ollama.com/library.
Ollama бесплатная? Да, полностью бесплатная и с открытым исходным кодом. Платите только за электричество.
Ollama работает на Windows? Да. Поддерживаются Mac, Windows и Linux. На Windows нет Metal, но есть поддержка NVIDIA/AMD GPU через CUDA и ROCm.
Можно ли использовать Ollama для русского языка? Можно. Лучше всего с русским справляются Qwen2.5 и Mistral. Llama 3.1/3.2 — хуже, но тоже работает. Для генерации текстов и ответов на русском — вполне годятся.
Если хочется пойти дальше — посмотрите на Whisper для локальной транскрипции: такой же подход, только для речи в текст. Или на Unsloth Studio, если захочется дообучить модель под конкретную задачу.
Для тех, кто только разбирается с нейросетями в целом — читайте с чего начать с AI.



