Модели до 7 млрд достаточно хорошо отвечают (до 5-10 tps) на i5-9400 CPU 2.90GHz + 32 Гб ОЗУ без видеокарты, при условии, что в один момент времени одна модель обрабатывает один запрос. Например, phi4-mini:3.8b, qwen2.5:7b или небольшая llama.

Структура проекта

./
├── rag/                    # Директория для работы с RAG
├── up                      # Скрипт для запуска docker-стека
├── down                    # Скрипт для остановки docker-стека
├── ollama                  # Скрипт для выполнения произвольных команд ollama
├── ollama.code-workspace   # Конфигурация VSCode Workspace
└── README.md               # Этот файл

Стек

bash
python, venv, pip
docker
ollama
qdrant
open-webui

Как использовать

Запустить ./up
Запустить скрипт из любой и поддиректорий для скачивания и запуска модели в терминале
Открыть веб-морду по адресу localhost:9999

Для настройки vscode поставить один из плагинов:

Для настройки idea поставить плагин:

Плагины должны соединиться с localhost:11434 и подгрузить доступные модели из контейнера.

Использование RAG системы

Для работы RAG системы необходимо обратиться к документу rag/README.md.

README.md Unescape Escape

Local ollama

Структура проекта

Стек

Как использовать

Использование RAG системы

Дополнительные материалы

README.md