нейропоток
ГайдыНачинающий

Ollama: запускаю локальные AI-модели на Mac без облака

Установил Ollama на MacBook M2 — теперь DeepSeek R1 и Llama 3.2 работают без интернета. Пошаговый гайд: установка, Open WebUI, какие модели выбрать.

Павел·8 мин чтения
Ollama: запускаю локальные AI-модели на Mac без облака
Поделиться:TelegramVK

Я долго откладывал Ollama — казалось, это для тех, кто хочет повозиться с терминалом ради принципа. Потом один раз отправил рабочий документ в Claude, и сразу почувствовал неловкость. Там были детали сделки, которые точно не должны попадать на чужие серверы.

Установил Ollama. Через 10 минут у меня на MacBook работал DeepSeek R1. Без интернета, без подписки, без того ощущения, что кто-то читает мои промпты.

Статья для тех, кто слышал про локальные языковые модели (LLM — большие языковые модели, вроде ChatGPT, только запущенные у вас на компьютере), но не знал, с чего начать. Если вы уже запускали что-то локально — переходите сразу к разделу про модели.

Почему я перешёл на локальные модели

Не из идеологических соображений. Из практических.

Конфиденциальность. Рабочие документы, код клиентских проектов, черновики переговоров — всё это я теперь обрабатываю локально. Не потому что параноик, а потому что так правильно.

Работа без интернета. В самолёте, на даче, когда провайдер лежит — Ollama работает. Claude и ChatGPT в такие моменты превращаются в иконки без смысла.

Ноль расходов после установки. У меня уходило $30-50 в месяц на AI-подписки. Ollama бесплатный. Модели скачал один раз — пользуюсь сколько угодно.

Скорость на Apple Silicon. М2 Pro с 16 ГБ RAM гоняет Qwen2.5:14b с вполне приличной скоростью. Не мгновенно, но терпимо для большинства задач.

Что такое Ollama

Ollama — это менеджер для запуска языковых моделей локально. Скачал, запустил команду — и модель работает как API на вашем компьютере. Поддерживает Llama 3, DeepSeek, Mistral, Qwen, Gemma, Phi и ещё несколько десятков моделей. Работает на Mac (M1/M2/M3 и Intel), Windows, Linux. Бесплатный, открытый исходный код.

Что понадобится

  • Mac (любой, но M1/M2/M3 — значительно быстрее)
  • RAM: минимум 8 ГБ (7B-модели), комфортно от 16 ГБ (13-14B)
  • Свободное место на диске: 4-15 ГБ на модель (зависит от размера)
  • Homebrew (менеджер пакетов для Mac) — или можно без него
  • Время: 10-15 минут на установку и первый запуск

Установка Ollama на Mac (5 минут)

Системные требования по RAM

Модели бывают разных размеров. Чем больше — тем умнее, но и требований больше.

RAMЧто запуститьПример
8 ГБ3B-7B моделиLlama 3.2:3b, Mistral 7B
16 ГБ7B-14B моделиLlama 3.1:8b, Qwen2.5:14b
32 ГБ+30B+ моделиDeepSeek R1:32b, Llama 3.1:70b quantized

На 8 ГБ можно работать — Llama 3.2:3b вполне справляется с текстовыми задачами. На 16 ГБ уже интересно: Qwen2.5:14b по качеству не сильно уступает GPT-4o на большинстве задач.

Скачать и установить

Вариант 1 — через сайт (проще): Зайдите на ollama.com → Download → macOS. Скачается .dmg, установка как обычно.

Вариант 2 — через Homebrew (для тех, кто привык к терминалу):

bash
brew install ollama

После установки Ollama появится в строке меню. Запустится автоматически при старте системы.

Первый запуск

Откройте Терминал (Finder → Программы → Утилиты → Терминал) и введите:

bash
ollama run llama3.2

При первом запуске Ollama скачает модель (~2 ГБ). Это один раз. Дальше — мгновенно. После скачивания появится приглашение >>> , и можно общаться прямо в терминале.

>>> Объясни что такое API простыми словами API — это как официант в ресторане...

Чтобы выйти — /bye.

Совет

Если пишете ollama run и получаете ошибку "command not found" — значит Ollama не добавилась в PATH. Перезапустите Терминал или выполните export PATH=$PATH:/usr/local/bin и попробуйте снова.

Какие модели запустить — мой выбор

Запустил и поработал с десятком моделей. Вот что реально пользуюсь.

Для работы (кодинг, анализ текстов)

Qwen2.5:14b — мой основной выбор на 16 ГБ. Хорошо понимает русский, быстро справляется с кодом, логично рассуждает. По ощущениям — где-то на уровне GPT-4o Mini.

bash
ollama run qwen2.5:14b

DeepSeek-R1:14b — если нужно подумать над сложной задачей. Медленнее, зато рассуждает вслух. Хорошо для архитектурных вопросов и длинных аналитических задач.

bash
ollama run deepseek-r1:14b

Про DeepSeek R1 и Qwen подробнее читайте в обзоре Qwen 3.5 9B — там есть сравнение с другими маленькими моделями.

Для русского языка

Mistral 7B справляется с русским лучше, чем можно ожидать от 7B-модели. Qwen2.5 — ещё лучше, особенно последние версии. Llama 3.2 по русскому слабее обоих.

Если у вас 8 ГБ RAM — берите Mistral 7B или Llama 3.2:3b.

bash
ollama run mistral # или ollama run llama3.2:3b

Для слабых MacBook (8 ГБ)

Phi-3 Mini от Microsoft — маленькая, но на удивление умная для своего размера. Хороша для кодинга и коротких текстовых задач.

bash
ollama run phi3:mini

Таблица сравнения

МодельРазмер файлаRAMСкорость (M2 Pro)РусскийЛучше всего
Llama 3.2:3b2 ГБ8 ГБОчень быстро (~40 т/с)БазовыйБыстрые задачи
Mistral 7B4.1 ГБ8 ГББыстро (~20 т/с)ХорошоТексты, чат
Llama 3.1:8b4.7 ГБ16 ГББыстро (~18 т/с)СреднеАнглоязычные задачи
Qwen2.5:14b9 ГБ16 ГБСредне (~12 т/с)ОтличноВсё понемногу
DeepSeek-R1:14b9 ГБ16 ГБМедленно (~8 т/с)ХорошоРассуждения
DeepSeek-R1:32b20 ГБ32 ГБ+МедленноХорошоСложный анализ

Скорость — токенов в секунду на M2 Pro 16 ГБ. Токен — это примерно ¾ слова.

Инфо

Чтобы увидеть все доступные модели: ollama.com/library — там больше 100 вариантов. Скачать любую: ollama pull <название>. Посмотреть что уже скачано: ollama list.

Открываю нормальный интерфейс — Open WebUI

Терминал — это хорошо для тестов. Для повседневного использования нужен нормальный интерфейс с историей диалогов, несколькими моделями в одном окне и поддержкой Markdown.

Open WebUI — это веб-интерфейс, который работает поверх Ollama. Выглядит как ChatGPT, живёт у вас на компьютере.

Установка без Docker

Большинство гайдов предлагают Docker — не нужно. Есть проще.

Через pip (Python):

bash
pip install open-webui

Если Python не установлен — скачайте с python.org (нужна версия 3.11+).

Запуск:

bash
open-webui serve

Откройте браузер и перейдите на http://localhost:8080. При первом запуске создайте аккаунт (локальный, никуда не отправляется).

Подключение к Ollama

Open WebUI автоматически находит Ollama на стандартном порту localhost:11434. Если всё запущено — в интерфейсе сразу появятся все ваши скачанные модели. Выбирайте из выпадающего списка и работайте как в ChatGPT.

Совет: добавьте open-webui serve в автозагрузку или просто запускайте терминальной командой, когда нужно. Ollama сама стартует при входе в систему — так что нужно запустить только WebUI.

Совет

Хотите запускать Open WebUI одной кнопкой? Создайте в Automator простой скрипт с командой open-webui serve и добавьте его в Dock.

Metal GPU и оптимизация для Apple Silicon

Это то, что делает Mac особенным для локальных моделей. Ollama автоматически использует Metal — API Apple для GPU на чипах M1/M2/M3. Это означает, что модель работает на GPU, а не только на CPU. Разница в скорости — от 3 до 10 раз.

Ничего настраивать не нужно. Установили Ollama — Metal уже работает.

Проверить использование GPU:

bash
ollama ps

В колонке PROCESSOR должно быть 100% GPU. Если CPU — значит модель слишком большая для видеопамяти и часть работы идёт через оперативку. Это нормально, просто медленнее.

Ещё можно открыть Activity Monitor (Мониторинг системы) → вкладка GPU History. Во время работы Ollama использование GPU должно скакать.

Реальные цифры на M2 Pro 16 ГБ:

  • Qwen2.5:14b: ~12 токенов/сек (терпимо для набора текста в реальном времени)
  • Mistral 7B: ~20 токенов/сек (комфортно)
  • Llama 3.2:3b: ~40 токенов/сек (быстро)

Для сравнения — GPT-4o через API выдаёт ~50-80 токенов/сек. То есть локальная 14B-модель медленнее, но разрыв не катастрофический.

FAQ

Что такое Ollama? Ollama — бесплатный инструмент для запуска языковых AI-моделей прямо на вашем компьютере. Работает без интернета, данные никуда не отправляются.

Ollama работает без интернета? Да, полностью. После того как модель скачана — интернет не нужен. Все вычисления происходят локально на вашем железе.

Какие модели поддерживает Ollama? Более 100 моделей: Llama 3, DeepSeek R1, Mistral, Qwen2.5, Gemma, Phi, Falcon и другие. Полный список на ollama.com/library.

Ollama бесплатная? Да, полностью бесплатная и с открытым исходным кодом. Платите только за электричество.

Ollama работает на Windows? Да. Поддерживаются Mac, Windows и Linux. На Windows нет Metal, но есть поддержка NVIDIA/AMD GPU через CUDA и ROCm.

Можно ли использовать Ollama для русского языка? Можно. Лучше всего с русским справляются Qwen2.5 и Mistral. Llama 3.1/3.2 — хуже, но тоже работает. Для генерации текстов и ответов на русском — вполне годятся.


Если хочется пойти дальше — посмотрите на Whisper для локальной транскрипции: такой же подход, только для речи в текст. Или на Unsloth Studio, если захочется дообучить модель под конкретную задачу.

Для тех, кто только разбирается с нейросетями в целом — читайте с чего начать с AI.