DevOps
Self-hosted ИИ: как развернуть LLM на своём сервере
Евгений К. 15 Марта 2026
Стек для self-hosted ИИ
Мы разворачиваем приватные ИИ-решения на серверах клиентов. Вот что используется:
Ollama
Ollama — это runtime для запуска LLM локально. Поддерживает модели Llama 3, Mistral, Qwen, DeepSeek и другие. Устанавливается одной командой и работает через API, совместимый с OpenAI.
Open WebUI
Веб-интерфейс поверх Ollama. Выглядит как ChatGPT, но работает с вашими моделями. Поддерживает историю чатов, управление моделями, RAG-плагины.
Docker + Traefik
Всё разворачивается в Docker-контейнерах. Traefik выступает reverse-proxy с автоматическим HTTPS. Grafana мониторит ресурсы.
Серверы: сколько стоит
Базовый (3 000 ₽/мес)
- 2 vCPU, 8 GB RAM
- Подходит для небольших моделей (7B параметров)
- Qwen2.5-7B, Mistral-7B
Стандартный (15 000 ₽/мес)
- 4 vCPU, 32 GB RAM
- Средние модели (14B-32B параметров)
- Qwen2.5-32B, Llama-3-8B с RAG
Мощный (50 000 ₽/мес)
- 8 vCPU, 64 GB RAM + GPU
- Большие модели, высокая скорость
- DeepSeek-67B, Llama-3-70B
Альтернатива через API
Если self-hosted не подходит — можно использовать API провайдеров (OpenAI, Anthropic, Yandex GPT). Мы помогаем выбрать оптимальный вариант по соотношению цена/качество/приватность.