Local ollama + RAG
Набор скриптов для быстрого запуска локальных LLM и RAG-системы.
Модели примерно до 40 млрд параметров (обычно 32b) наиболее реально запускать на домашних ПК разных мощностей.
Меньше параметров → меньше памяти на диске и в ОЗУ → выше скорость (tps) → ниже качество. Больше параметров → больше памяти на диске и в ОЗУ → ниже скорость (tps) → выше качество.
Модели до 7 млрд достаточно хорошо отвечают (до 5-10 tps) на i5-9400 CPU 2.90GHz + 32 Гб ОЗУ без видеокарты, при условии, что в один момент времени одна модель обрабатывает один запрос.
Например, phi4-mini:3.8b, qwen2.5:7b или небольшая llama.
Структура проекта
./
├── rag/ # Директория для работы с RAG
├── up # Скрипт для запуска docker-стека
├── down # Скрипт для остановки docker-стека
├── ollama # Скрипт для выполнения произвольных команд ollama
├── ollama.code-workspace # Конфигурация VSCode Workspace
└── README.md # Этот файл
Стек
- bash
- python, venv, pip
- docker
- ollama
- qdrant
- open-webui
Как использовать
- Запустить
./up - Запустить
./ollama run <название модели>для диалога в терминале - Открыть веб-морду по адресу localhost:9999 для более богатого функционала
Полный список лёгких и средних моделей, которые можно попробовать для разных целей
codegemma:2b
codegemma:7b
codellama:7b
codellama:13b
codellama:34b
codeqwen:1.5b
codeqwen:7b
codestral:22b
deepcoder:1.5b
deepcoder:14b
deepseek-coder:1.3b
deepseek-coder:6.7b
deepseek-coder:33b
deepseek-coder-v2:16b
deepseek-r1:1.5b
deepseek-r1:7b
deepseek-r1:8b
deepseek-r1:14b
deepseek-r1:32b
devstral:24b
dolphin3:8b
gemma:2b
gemma:7b
gemma3:1b
gemma3:4b
gemma3:12b
gemma3:27b
gemma3:270m
gemma3n:e2b
gemma3n:e4b
gpt-oss:20b
granite-code:3b
granite-code:8b
granite-code:20b
granite-code:34b
llama2:7b
llama2:13b
llama3:8b
llama3.1:8b
llama3.2:1b
llama3.2:3b
llava-llama3:8b
magistral:24b
mistral:7b
mistral-nemo:12b
mistral-small:22b
mistral-small:24b
mixtral:8x7b
mxbai-embed-large:latest
nomic-embed-text:latest
openthinker:7b
openthinker:32b
phi:2.7b
phi3:3.8b
phi3:14b
phi3:instruct
phi3:medium
phi3:mini
phi3.5:3.8b
phi4:14b
phi4-mini-reasoning:3.8b
phi4-mini:3.8b
phi4-reasoning:14b
qwen:0.5b
qwen:1.8b
qwen:4b
qwen:7b
qwen:14b
qwen:32b
qwen2:0.5b
qwen2:1.5b
qwen2:7b
qwen2.5:0.5b
qwen2.5:1.5b
qwen2.5:3b
qwen2.5:7b
qwen2.5:14b
qwen2.5:32b
qwen2.5-coder:0.5b
qwen2.5-coder:1.5b
qwen2.5-coder:3b
qwen2.5-coder:7b
qwen2.5-coder:14b
qwen2.5-coder:32b
qwen3:0.6b
qwen3:1.7b
qwen3:4b
qwen3:8b
qwen3:14b
qwen3:30b
qwen3:32b
qwen3-coder:30b
qwq:32b
smollm2:1.7m
smollm2:135m
smollm2:360m
stable-code:3b
stable-code:instruct
starcoder2:3b
starcoder2:7b
starcoder2:15b
Для настройки vscode поставить один из плагинов:
- Cline (полноценный агент/болталка)
- Roo Code (более удобный форк cline)
- Continue (замкнут на своей экосистеме, но позволяет работать с ollama)
- Local AI Pilot (примитивная болталка)
Для настройки idea поставить плагины:
- MCP Server
- File | Settings | Tools | MCP Server:
- Enable MCP Server
- Copy SSE Config
- File | Settings | Tools | MCP Server:
- AI Coding
- File | Settings | Other Settings | AI Coding — настроить API
- в панели AI Coding зайти в MCP и добавить новый, вставив JSON-конфиг SSE, скопированный выше
- в панели AI Coding зайти в Agents, создать нового и дать ему этот MCP-сервер
Плагины должны соединиться с localhost:11434 и подгрузить доступные модели из контейнера.
Использование RAG системы
Для работы RAG системы необходимо обратиться к документу rag/README.md.