После того как я разобрался с Ollama (писал об этом в статье про Ollama), локальные модели прочно вошли в мой рабочий процесс. Приватность, работа без интернета, ноль расходов — всё это работает. Но каждый раз открывать терминал, печатать команды, копировать вывод в буфер — через пару недель начало раздражать.
Решение нашлось быстро. LM Studio — то же самое, что Ollama, только с нормальным интерфейсом. Скачал, запустил, ткнул мышкой в нужную модель. Никакого терминала.
Гайд для тех, кто уже понимает, зачем нужны локальные LLM (большие языковые модели — это то же самое, что ChatGPT, только запущенные у вас на компьютере, без облака), и хочет работать с ними удобно. Если ещё не пробовали ничего локального — начните со статьи про Ollama, там есть база.
Зачем LM Studio, если уже есть Ollama
Честный ответ: Ollama и LM Studio решают одну задачу разными способами. Ollama — это инструмент для тех, кто любит терминал и автоматизацию. LM Studio — для тех, кто хочет просто пользоваться, не вспоминая команды.
Конкретно:
- Хотите интегрировать модели в скрипты или делать автоматизацию — Ollama гибче
- Хотите загрузить модель, поговорить с ней, потом забыть — LM Studio удобнее
- Работаете с документами (RAG — технология, которая позволяет задавать вопросы к своим файлам) — в LM Studio это встроено из коробки
- Нужен API как у OpenAI для Cursor или VS Code — оба умеют, LM Studio настраивается проще
Я использую оба. Ollama — в автоматизациях. LM Studio — когда просто хочу поэкспериментировать с новой моделью.
Установка на Mac за 5 минут
Скачиваю с lmstudio.ai. На сайте сразу предлагают версию под вашу платформу — macOS, Windows или Linux. Для Apple Silicon (M1, M2, M3, M4) берём версию с пометкой Apple Silicon.
Установка стандартная: открываем dmg, перетаскиваем в Applications. Требования — macOS 14.0 и 16 ГБ RAM. С 8 ГБ тоже запустится, но маленькие модели.
На моём M2 Pro с 16 ГБ RAM приложение загрузилось за секунд 5. Интерфейс чистый, никаких лишних элементов. Слева панель навигации: Discover (поиск моделей), My Models (скачанные), Chat, Developer (API и сервер), Documents (работа с файлами).
Версия на момент написания — 0.4.8.
Ищу и скачиваю модель
Первое, что нужно сделать — скачать модель. Нажимаю Discover, появляется строка поиска с фильтрами по размеру и типу.
Что выбрать — зависит от RAM:
- 8 ГБ RAM → модели до 4B параметров. Qwen 2.5 3B, Phi-4-mini
- 16 ГБ RAM → до 8-14B. Llama 3.2 8B, DeepSeek R1 7B, Qwen 2.5 14B
- 32 ГБ RAM и больше → 32B и выше. Qwen 2.5 32B, DeepSeek R1 32B
Параметры (B = billion, миллиарды) — это грубая мера сложности модели. Больше параметров = умнее, но медленнее и жрёт больше памяти.
На M2 Pro я обычно держу Llama 3.2 8B или Qwen 2.5 14B (MLX-версию — оптимизирована под Apple Silicon). Нажимаю Download, жду. Модели весят 4-8 ГБ — в зависимости от квантизации (это способ уменьшить размер модели с небольшой потерей качества; LM Studio автоматически предлагает оптимальный вариант для вашего железа).
Скачивается прямо из Hugging Face, визуально — прогресс-бар в интерфейсе.
Запускаю чат
После загрузки иду в Chat, выбираю модель из дропдауна вверху и начинаю разговаривать. Именно так — просто, как в ChatGPT.
Настройки есть, но не обязательные: температура (насколько творческий ответ), длина контекста, системный промпт. Для большинства задач дефолты работают нормально.
Что мне реально понравилось — возможность вести несколько чатов и сохранять историю. В Ollama это надо делать через webUI или скрипты. Тут всё в одном приложении.
В интерфейс встроен поиск по истории чатов, папки для организации. Мелочи, но чувствуется, что продукт делали для реального использования.
API-сервер: подключаю Cursor как к OpenAI
Это то, ради чего многие ставят LM Studio. Можно поднять локальный сервер, который притворяется OpenAI API. Любой инструмент, который работает с OpenAI — Cursor, VS Code с расширениями, собственные скрипты — будет работать с вашими локальными моделями.
Иду в Developer → Start Server. Сервер стартует на localhost:1234.
В Cursor: настройки → Models → добавляю OpenAI-совместимый сервер с Base URL http://localhost:1234/v1 и любым API Key (пустой тоже подойдёт). Всё.
Начиная с версии 0.4.0 LM Studio поддерживает также Anthropic-совместимый API. Можно запускать Claude Code на локальных моделях — это буквально одна из фич, которую они анонсировали в январе 2026. Экзотика, конечно, но работает.
Параллельные запросы. С версии 0.4.0 появился continuous batching — сервер умеет обрабатывать несколько запросов одновременно без деградации скорости. Если вы используете LM Studio как бэкенд для нескольких инструментов одновременно — это важно.
Скорость: LM Studio vs Ollama
Главный практический вопрос. Провёл тест на M2 Pro (16 ГБ RAM), модель — Llama 3.2 8B, одинаковые промпты:
| LM Studio (MLX) | Ollama (MLX) | |
|---|---|---|
| Первый токен (с холодного старта) | ~1.2 сек | ~0.8 сек |
| Скорость генерации | 28-32 токена/сек | 30-35 токена/сек |
| RAM использование | ~5.5 ГБ | ~5.3 ГБ |
Токены — это не просто слова, это единицы текста. Примерно 100 токенов = 75 слов на английском, около 60 на русском.
Разница есть, но она незначительная — 10-15% в пользу Ollama. Это примерно как разница между поездкой на метро и пешей прогулкой: если надо быстро — заметно, для повседневного использования — нет.
Почему Ollama немного быстрее? Меньше накладных расходов из-за отсутствия GUI. LM Studio тратит ресурсы на отрисовку интерфейса — это нормально, iOS-приложения тоже медленнее консольных утилит.
Работа с документами
Функция Documents позволяет загрузить PDF или текстовый файл и разговаривать с ним. Это RAG (Retrieval-Augmented Generation) — технология, при которой модель отвечает на вопросы, опираясь на содержимое документа, а не только на своё обучение.
Скидываю PDF с рабочим договором, спрашиваю «какой срок действия?» — модель отвечает конкретно, ссылаясь на нужный раздел. Всё локально, документ никуда не уходит.
В Ollama это тоже можно сделать, но надо настраивать отдельно — через open-webui или скрипт. В LM Studio — одна кнопка. Если вы работаете с конфиденциальными документами, это реальная ценность.
Из интересного — с июля 2025 года LM Studio поддерживает MCP (Model Context Protocol, стандарт для подключения внешних инструментов к AI). Это означает, что можно подключить к локальной модели свою базу данных, файловую систему или любой другой инструмент — и всё будет работать без интернета.
Когда LM Studio, когда Ollama
| Ситуация | Что взять |
|---|---|
| Просто поговорить с моделью | LM Studio |
| Автоматизация, скрипты, CI/CD | Ollama |
| Работа с документами (RAG) | LM Studio |
| API для Cursor / IDE | Оба работают |
| Сервер без GUI (Linux headless) | Ollama или llmster |
| Несколько параллельных запросов | LM Studio 0.4.0+ |
| Минимальные ресурсы | Ollama |
| Первый раз пробуете локальные модели | LM Studio |
Llmster — это headless-версия LM Studio для серверов без графики. Появился в начале 2026, если нужно развернуть LM Studio на облачном сервере или в CI — это он.
FAQ
Чем LM Studio отличается от Ollama?
LM Studio — это приложение с графическим интерфейсом для запуска локальных моделей. Ollama работает через терминал и API. LM Studio проще для новичков, Ollama гибче для автоматизации.
Какие модели поддерживает LM Studio?
LM Studio поддерживает все модели в формате GGUF и MLX (для Mac): Llama, DeepSeek, Qwen, Mistral, Phi и другие. Поиск встроен в приложение — ищите напрямую из интерфейса.
Работает ли LM Studio на Mac M1/M2/M3?
Да, отлично работает на Apple Silicon. На M2 Pro модели 8B запускаются со скоростью 28-32 токена/сек через Metal GPU. MLX-версии моделей работают быстрее GGUF на Apple Silicon.
Можно ли использовать LM Studio как замену ChatGPT?
Частично. Даёт приватность и работу без интернета, но открытые модели слабее GPT-4o. Для повседневных задач (написать текст, объяснить код, поработать с документом) — вполне. Для сложного reasoning — пока уступает.
Нужна ли видеокарта для LM Studio?
На Mac — нет, достаточно встроенного Metal GPU. На Windows без дискретного GPU модели работают медленно (только CPU). С NVIDIA 8+ ГБ VRAM — нормально. На Linux поддерживаются NVIDIA и AMD RX 9000.
Я использую LM Studio как основной инструмент для работы с локальными моделями — именно потому что не хочу каждый раз вспоминать синтаксис CLI. Ollama у меня тоже стоит, но только для скриптов.
Если хотите покопаться глубже — про локальную транскрипцию через Whisper есть отдельная статья. Или почитайте про RAG — это следующий шаг после того, как разберётесь с базовым запуском моделей.



