нейропоток
ГайдыНачинающий

LM Studio: запускаю локальные AI-модели с GUI без терминала

LM Studio — альтернатива Ollama с графическим интерфейсом. Устанавливаю на Mac, загружаю Llama 4 и DeepSeek, тестирую скорость и сравниваю с Ollama.

Павел·7 мин чтения
LM Studio: запускаю локальные AI-модели с GUI без терминала
Поделиться:TelegramVK

После того как я разобрался с Ollama (писал об этом в статье про Ollama), локальные модели прочно вошли в мой рабочий процесс. Приватность, работа без интернета, ноль расходов — всё это работает. Но каждый раз открывать терминал, печатать команды, копировать вывод в буфер — через пару недель начало раздражать.

Решение нашлось быстро. LM Studio — то же самое, что Ollama, только с нормальным интерфейсом. Скачал, запустил, ткнул мышкой в нужную модель. Никакого терминала.

Гайд для тех, кто уже понимает, зачем нужны локальные LLM (большие языковые модели — это то же самое, что ChatGPT, только запущенные у вас на компьютере, без облака), и хочет работать с ними удобно. Если ещё не пробовали ничего локального — начните со статьи про Ollama, там есть база.

Зачем LM Studio, если уже есть Ollama

Честный ответ: Ollama и LM Studio решают одну задачу разными способами. Ollama — это инструмент для тех, кто любит терминал и автоматизацию. LM Studio — для тех, кто хочет просто пользоваться, не вспоминая команды.

Конкретно:

  • Хотите интегрировать модели в скрипты или делать автоматизацию — Ollama гибче
  • Хотите загрузить модель, поговорить с ней, потом забыть — LM Studio удобнее
  • Работаете с документами (RAG — технология, которая позволяет задавать вопросы к своим файлам) — в LM Studio это встроено из коробки
  • Нужен API как у OpenAI для Cursor или VS Code — оба умеют, LM Studio настраивается проще

Я использую оба. Ollama — в автоматизациях. LM Studio — когда просто хочу поэкспериментировать с новой моделью.

Установка на Mac за 5 минут

Скачиваю с lmstudio.ai. На сайте сразу предлагают версию под вашу платформу — macOS, Windows или Linux. Для Apple Silicon (M1, M2, M3, M4) берём версию с пометкой Apple Silicon.

Установка стандартная: открываем dmg, перетаскиваем в Applications. Требования — macOS 14.0 и 16 ГБ RAM. С 8 ГБ тоже запустится, но маленькие модели.

На моём M2 Pro с 16 ГБ RAM приложение загрузилось за секунд 5. Интерфейс чистый, никаких лишних элементов. Слева панель навигации: Discover (поиск моделей), My Models (скачанные), Chat, Developer (API и сервер), Documents (работа с файлами).

Версия на момент написания — 0.4.8.

Ищу и скачиваю модель

Первое, что нужно сделать — скачать модель. Нажимаю Discover, появляется строка поиска с фильтрами по размеру и типу.

Что выбрать — зависит от RAM:

  • 8 ГБ RAM → модели до 4B параметров. Qwen 2.5 3B, Phi-4-mini
  • 16 ГБ RAM → до 8-14B. Llama 3.2 8B, DeepSeek R1 7B, Qwen 2.5 14B
  • 32 ГБ RAM и больше → 32B и выше. Qwen 2.5 32B, DeepSeek R1 32B

Параметры (B = billion, миллиарды) — это грубая мера сложности модели. Больше параметров = умнее, но медленнее и жрёт больше памяти.

На M2 Pro я обычно держу Llama 3.2 8B или Qwen 2.5 14B (MLX-версию — оптимизирована под Apple Silicon). Нажимаю Download, жду. Модели весят 4-8 ГБ — в зависимости от квантизации (это способ уменьшить размер модели с небольшой потерей качества; LM Studio автоматически предлагает оптимальный вариант для вашего железа).

Скачивается прямо из Hugging Face, визуально — прогресс-бар в интерфейсе.

Запускаю чат

После загрузки иду в Chat, выбираю модель из дропдауна вверху и начинаю разговаривать. Именно так — просто, как в ChatGPT.

Настройки есть, но не обязательные: температура (насколько творческий ответ), длина контекста, системный промпт. Для большинства задач дефолты работают нормально.

Что мне реально понравилось — возможность вести несколько чатов и сохранять историю. В Ollama это надо делать через webUI или скрипты. Тут всё в одном приложении.

В интерфейс встроен поиск по истории чатов, папки для организации. Мелочи, но чувствуется, что продукт делали для реального использования.

API-сервер: подключаю Cursor как к OpenAI

Это то, ради чего многие ставят LM Studio. Можно поднять локальный сервер, который притворяется OpenAI API. Любой инструмент, который работает с OpenAI — Cursor, VS Code с расширениями, собственные скрипты — будет работать с вашими локальными моделями.

Иду в Developer → Start Server. Сервер стартует на localhost:1234.

В Cursor: настройки → Models → добавляю OpenAI-совместимый сервер с Base URL http://localhost:1234/v1 и любым API Key (пустой тоже подойдёт). Всё.

Начиная с версии 0.4.0 LM Studio поддерживает также Anthropic-совместимый API. Можно запускать Claude Code на локальных моделях — это буквально одна из фич, которую они анонсировали в январе 2026. Экзотика, конечно, но работает.

Параллельные запросы. С версии 0.4.0 появился continuous batching — сервер умеет обрабатывать несколько запросов одновременно без деградации скорости. Если вы используете LM Studio как бэкенд для нескольких инструментов одновременно — это важно.

Скорость: LM Studio vs Ollama

Главный практический вопрос. Провёл тест на M2 Pro (16 ГБ RAM), модель — Llama 3.2 8B, одинаковые промпты:

LM Studio (MLX)Ollama (MLX)
Первый токен (с холодного старта)~1.2 сек~0.8 сек
Скорость генерации28-32 токена/сек30-35 токена/сек
RAM использование~5.5 ГБ~5.3 ГБ

Токены — это не просто слова, это единицы текста. Примерно 100 токенов = 75 слов на английском, около 60 на русском.

Разница есть, но она незначительная — 10-15% в пользу Ollama. Это примерно как разница между поездкой на метро и пешей прогулкой: если надо быстро — заметно, для повседневного использования — нет.

Почему Ollama немного быстрее? Меньше накладных расходов из-за отсутствия GUI. LM Studio тратит ресурсы на отрисовку интерфейса — это нормально, iOS-приложения тоже медленнее консольных утилит.

Работа с документами

Функция Documents позволяет загрузить PDF или текстовый файл и разговаривать с ним. Это RAG (Retrieval-Augmented Generation) — технология, при которой модель отвечает на вопросы, опираясь на содержимое документа, а не только на своё обучение.

Скидываю PDF с рабочим договором, спрашиваю «какой срок действия?» — модель отвечает конкретно, ссылаясь на нужный раздел. Всё локально, документ никуда не уходит.

В Ollama это тоже можно сделать, но надо настраивать отдельно — через open-webui или скрипт. В LM Studio — одна кнопка. Если вы работаете с конфиденциальными документами, это реальная ценность.

Из интересного — с июля 2025 года LM Studio поддерживает MCP (Model Context Protocol, стандарт для подключения внешних инструментов к AI). Это означает, что можно подключить к локальной модели свою базу данных, файловую систему или любой другой инструмент — и всё будет работать без интернета.

Когда LM Studio, когда Ollama

СитуацияЧто взять
Просто поговорить с модельюLM Studio
Автоматизация, скрипты, CI/CDOllama
Работа с документами (RAG)LM Studio
API для Cursor / IDEОба работают
Сервер без GUI (Linux headless)Ollama или llmster
Несколько параллельных запросовLM Studio 0.4.0+
Минимальные ресурсыOllama
Первый раз пробуете локальные моделиLM Studio

Llmster — это headless-версия LM Studio для серверов без графики. Появился в начале 2026, если нужно развернуть LM Studio на облачном сервере или в CI — это он.

FAQ

Чем LM Studio отличается от Ollama?

LM Studio — это приложение с графическим интерфейсом для запуска локальных моделей. Ollama работает через терминал и API. LM Studio проще для новичков, Ollama гибче для автоматизации.

Какие модели поддерживает LM Studio?

LM Studio поддерживает все модели в формате GGUF и MLX (для Mac): Llama, DeepSeek, Qwen, Mistral, Phi и другие. Поиск встроен в приложение — ищите напрямую из интерфейса.

Работает ли LM Studio на Mac M1/M2/M3?

Да, отлично работает на Apple Silicon. На M2 Pro модели 8B запускаются со скоростью 28-32 токена/сек через Metal GPU. MLX-версии моделей работают быстрее GGUF на Apple Silicon.

Можно ли использовать LM Studio как замену ChatGPT?

Частично. Даёт приватность и работу без интернета, но открытые модели слабее GPT-4o. Для повседневных задач (написать текст, объяснить код, поработать с документом) — вполне. Для сложного reasoning — пока уступает.

Нужна ли видеокарта для LM Studio?

На Mac — нет, достаточно встроенного Metal GPU. На Windows без дискретного GPU модели работают медленно (только CPU). С NVIDIA 8+ ГБ VRAM — нормально. На Linux поддерживаются NVIDIA и AMD RX 9000.


Я использую LM Studio как основной инструмент для работы с локальными моделями — именно потому что не хочу каждый раз вспоминать синтаксис CLI. Ollama у меня тоже стоит, но только для скриптов.

Если хотите покопаться глубже — про локальную транскрипцию через Whisper есть отдельная статья. Или почитайте про RAG — это следующий шаг после того, как разберётесь с базовым запуском моделей.