Ollama: запускаю локальные AI-модели на Mac без облака

Я долго откладывал Ollama — казалось, это для тех, кто хочет повозиться с терминалом ради принципа. Потом один раз отправил рабочий документ в Claude, и сразу почувствовал неловкость. Там были детали сделки, которые точно не должны попадать на чужие серверы.

Установил Ollama. Через 10 минут у меня на MacBook работал DeepSeek R1. Без интернета, без подписки, без того ощущения, что кто-то читает мои промпты.

Статья для тех, кто слышал про локальные языковые модели (LLM — большие языковые модели, вроде ChatGPT, только запущенные у вас на компьютере), но не знал, с чего начать. Если вы уже запускали что-то локально — переходите сразу к разделу про модели.

Почему я перешёл на локальные модели

Не из идеологических соображений. Из практических.

Конфиденциальность. Рабочие документы, код клиентских проектов, черновики переговоров — всё это я теперь обрабатываю локально. Не потому что параноик, а потому что так правильно.

Работа без интернета. В самолёте, на даче, когда провайдер лежит — Ollama работает. Claude и ChatGPT в такие моменты превращаются в иконки без смысла.

Ноль расходов после установки. У меня уходило $30-50 в месяц на AI-подписки. Ollama бесплатный. Модели скачал один раз — пользуюсь сколько угодно.

Скорость на Apple Silicon. М2 Pro с 16 ГБ RAM гоняет Qwen2.5:14b с вполне приличной скоростью. Не мгновенно, но терпимо для большинства задач.

Что такое Ollama

Ollama — это менеджер для запуска языковых моделей локально. Скачал, запустил команду — и модель работает как API на вашем компьютере. Поддерживает Llama 3, DeepSeek, Mistral, Qwen, Gemma, Phi и ещё несколько десятков моделей. Работает на Mac (M1/M2/M3 и Intel), Windows, Linux. Бесплатный, открытый исходный код.

Что понадобится

Mac (любой, но M1/M2/M3 — значительно быстрее)
RAM: минимум 8 ГБ (7B-модели), комфортно от 16 ГБ (13-14B)
Свободное место на диске: 4-15 ГБ на модель (зависит от размера)
Homebrew (менеджер пакетов для Mac) — или можно без него
Время: 10-15 минут на установку и первый запуск

Установка Ollama на Mac (5 минут)

Системные требования по RAM

Модели бывают разных размеров. Чем больше — тем умнее, но и требований больше.

RAM	Что запустить	Пример
8 ГБ	3B-7B модели	Llama 3.2:3b, Mistral 7B
16 ГБ	7B-14B модели	Llama 3.1:8b, Qwen2.5:14b
32 ГБ+	30B+ модели	DeepSeek R1:32b, Llama 3.1:70b quantized

На 8 ГБ можно работать — Llama 3.2:3b вполне справляется с текстовыми задачами. На 16 ГБ уже интересно: Qwen2.5:14b по качеству не сильно уступает GPT-4o на большинстве задач.

Скачать и установить

Вариант 1 — через сайт (проще): Зайдите на ollama.com → Download → macOS. Скачается .dmg, установка как обычно.

Вариант 2 — через Homebrew (для тех, кто привык к терминалу):

bash

brew install ollama

После установки Ollama появится в строке меню. Запустится автоматически при старте системы.

Первый запуск

Откройте Терминал (Finder → Программы → Утилиты → Терминал) и введите:

bash

ollama run llama3.2

При первом запуске Ollama скачает модель (~2 ГБ). Это один раз. Дальше — мгновенно. После скачивания появится приглашение >>> , и можно общаться прямо в терминале.

>>> Объясни что такое API простыми словами
API — это как официант в ресторане...

Чтобы выйти — /bye.

Совет

Если пишете ollama run и получаете ошибку "command not found" — значит Ollama не добавилась в PATH. Перезапустите Терминал или выполните export PATH=$PATH:/usr/local/bin и попробуйте снова.

Какие модели запустить — мой выбор

Запустил и поработал с десятком моделей. Вот что реально пользуюсь.

Для работы (кодинг, анализ текстов)

Qwen2.5:14b — мой основной выбор на 16 ГБ. Хорошо понимает русский, быстро справляется с кодом, логично рассуждает. По ощущениям — где-то на уровне GPT-4o Mini.

bash

ollama run qwen2.5:14b

DeepSeek-R1:14b — если нужно подумать над сложной задачей. Медленнее, зато рассуждает вслух. Хорошо для архитектурных вопросов и длинных аналитических задач.

bash

ollama run deepseek-r1:14b

Про DeepSeek R1 и Qwen подробнее читайте в обзоре Qwen 3.5 9B — там есть сравнение с другими маленькими моделями.

Для русского языка

Mistral 7B справляется с русским лучше, чем можно ожидать от 7B-модели. Qwen2.5 — ещё лучше, особенно последние версии. Llama 3.2 по русскому слабее обоих.

Если у вас 8 ГБ RAM — берите Mistral 7B или Llama 3.2:3b.

bash

ollama run mistral
# или
ollama run llama3.2:3b

Для слабых MacBook (8 ГБ)

Phi-3 Mini от Microsoft — маленькая, но на удивление умная для своего размера. Хороша для кодинга и коротких текстовых задач.

bash

ollama run phi3:mini

Таблица сравнения

Модель	Размер файла	RAM	Скорость (M2 Pro)	Русский	Лучше всего
Llama 3.2:3b	2 ГБ	8 ГБ	Очень быстро (~40 т/с)	Базовый	Быстрые задачи
Mistral 7B	4.1 ГБ	8 ГБ	Быстро (~20 т/с)	Хорошо	Тексты, чат
Llama 3.1:8b	4.7 ГБ	16 ГБ	Быстро (~18 т/с)	Средне	Англоязычные задачи
Qwen2.5:14b	9 ГБ	16 ГБ	Средне (~12 т/с)	Отлично	Всё понемногу
DeepSeek-R1:14b	9 ГБ	16 ГБ	Медленно (~8 т/с)	Хорошо	Рассуждения
DeepSeek-R1:32b	20 ГБ	32 ГБ+	Медленно	Хорошо	Сложный анализ

Скорость — токенов в секунду на M2 Pro 16 ГБ. Токен — это примерно ¾ слова.

Инфо

Чтобы увидеть все доступные модели: ollama.com/library — там больше 100 вариантов. Скачать любую: ollama pull <название>. Посмотреть что уже скачано: ollama list.

Открываю нормальный интерфейс — Open WebUI

Терминал — это хорошо для тестов. Для повседневного использования нужен нормальный интерфейс с историей диалогов, несколькими моделями в одном окне и поддержкой Markdown.

Open WebUI — это веб-интерфейс, который работает поверх Ollama. Выглядит как ChatGPT, живёт у вас на компьютере.

Установка без Docker

Большинство гайдов предлагают Docker — не нужно. Есть проще.

Через pip (Python):

bash

pip install open-webui

Если Python не установлен — скачайте с python.org (нужна версия 3.11+).

Запуск:

bash

open-webui serve

Откройте браузер и перейдите на http://localhost:8080. При первом запуске создайте аккаунт (локальный, никуда не отправляется).

Подключение к Ollama

Open WebUI автоматически находит Ollama на стандартном порту localhost:11434. Если всё запущено — в интерфейсе сразу появятся все ваши скачанные модели. Выбирайте из выпадающего списка и работайте как в ChatGPT.

Совет: добавьте open-webui serve в автозагрузку или просто запускайте терминальной командой, когда нужно. Ollama сама стартует при входе в систему — так что нужно запустить только WebUI.

Совет

Хотите запускать Open WebUI одной кнопкой? Создайте в Automator простой скрипт с командой open-webui serve и добавьте его в Dock.

Metal GPU и оптимизация для Apple Silicon

Это то, что делает Mac особенным для локальных моделей. Ollama автоматически использует Metal — API Apple для GPU на чипах M1/M2/M3. Это означает, что модель работает на GPU, а не только на CPU. Разница в скорости — от 3 до 10 раз.

Ничего настраивать не нужно. Установили Ollama — Metal уже работает.

Проверить использование GPU:

bash

ollama ps

В колонке PROCESSOR должно быть 100% GPU. Если CPU — значит модель слишком большая для видеопамяти и часть работы идёт через оперативку. Это нормально, просто медленнее.

Ещё можно открыть Activity Monitor (Мониторинг системы) → вкладка GPU History. Во время работы Ollama использование GPU должно скакать.

Реальные цифры на M2 Pro 16 ГБ:

Qwen2.5:14b: ~12 токенов/сек (терпимо для набора текста в реальном времени)
Mistral 7B: ~20 токенов/сек (комфортно)
Llama 3.2:3b: ~40 токенов/сек (быстро)

Для сравнения — GPT-4o через API выдаёт ~50-80 токенов/сек. То есть локальная 14B-модель медленнее, но разрыв не катастрофический.

FAQ

Что такое Ollama? Ollama — бесплатный инструмент для запуска языковых AI-моделей прямо на вашем компьютере. Работает без интернета, данные никуда не отправляются.

Ollama работает без интернета? Да, полностью. После того как модель скачана — интернет не нужен. Все вычисления происходят локально на вашем железе.

Какие модели поддерживает Ollama? Более 100 моделей: Llama 3, DeepSeek R1, Mistral, Qwen2.5, Gemma, Phi, Falcon и другие. Полный список на ollama.com/library.

Ollama бесплатная? Да, полностью бесплатная и с открытым исходным кодом. Платите только за электричество.

Ollama работает на Windows? Да. Поддерживаются Mac, Windows и Linux. На Windows нет Metal, но есть поддержка NVIDIA/AMD GPU через CUDA и ROCm.

Можно ли использовать Ollama для русского языка? Можно. Лучше всего с русским справляются Qwen2.5 и Mistral. Llama 3.1/3.2 — хуже, но тоже работает. Для генерации текстов и ответов на русском — вполне годятся.

Инфо

Что дальше в этом кластере:

LM Studio — GUI без терминала, проще для старта
Open WebUI — полный гайд по ChatGPT-интерфейсу поверх Ollama
AnythingLLM — RAG с вашими документами локально

Если хочется пойти дальше — посмотрите на Whisper для локальной транскрипции: такой же подход, только для речи в текст. Или на Unsloth Studio, если захочется дообучить модель под конкретную задачу.

Для тех, кто только разбирается с нейросетями в целом — читайте с чего начать с AI. А если хотите сначала попробовать бесплатные облачные варианты — список бесплатных нейросетей без VPN.

Ollama: запускаю локальные AI-модели на Mac без облака

Почему я перешёл на локальные модели

Что такое Ollama

Что понадобится

Установка Ollama на Mac (5 минут)

Системные требования по RAM

Скачать и установить

Первый запуск

Какие модели запустить — мой выбор

Для работы (кодинг, анализ текстов)

Для русского языка

Для слабых MacBook (8 ГБ)

Таблица сравнения

Открываю нормальный интерфейс — Open WebUI

Установка без Docker

Подключение к Ollama

Metal GPU и оптимизация для Apple Silicon

FAQ

Читайте также

AI для учёбы 2026: полный гид для студентов и школьников

ChatGPT для работы: 20 промптов с примерами результатов — копируй и используй

AI-агенты 2026: что это, как работают и как запустить первого за вечер