DevOps

Self-hosted ИИ: как развернуть LLM на своём сервере

Евгений К. 15 Марта 2026

Стек для self-hosted ИИ

Мы разворачиваем приватные ИИ-решения на серверах клиентов. Вот что используется:

Ollama

Ollama — это runtime для запуска LLM локально. Поддерживает модели Llama 3, Mistral, Qwen, DeepSeek и другие. Устанавливается одной командой и работает через API, совместимый с OpenAI.

Open WebUI

Веб-интерфейс поверх Ollama. Выглядит как ChatGPT, но работает с вашими моделями. Поддерживает историю чатов, управление моделями, RAG-плагины.

Docker + Traefik

Всё разворачивается в Docker-контейнерах. Traefik выступает reverse-proxy с автоматическим HTTPS. Grafana мониторит ресурсы.

Серверы: сколько стоит

Базовый (3 000 ₽/мес)

2 vCPU, 8 GB RAM
Подходит для небольших моделей (7B параметров)
Qwen2.5-7B, Mistral-7B

Стандартный (15 000 ₽/мес)

4 vCPU, 32 GB RAM
Средние модели (14B-32B параметров)
Qwen2.5-32B, Llama-3-8B с RAG

Мощный (50 000 ₽/мес)

8 vCPU, 64 GB RAM + GPU
Большие модели, высокая скорость
DeepSeek-67B, Llama-3-70B

Альтернатива через API

Если self-hosted не подходит — можно использовать API провайдеров (OpenAI, Anthropic, Yandex GPT). Мы помогаем выбрать оптимальный вариант по соотношению цена/качество/приватность.