Local ollama
Набор скриптов для быстрого запуска локальных LLM.
Модели примерно до 40 млрд параметров (обычно 32b) наиболее реально запускать на домашних ПК разных мощностей.
Меньше параметров → меньше памяти на диске и в ОЗУ → выше скорость (tps) → ниже качество.
Больше параметров → больше памяти на диске и в ОЗУ → ниже скорость (tps) → выше качество.
Модели до 7 млрд достаточно хорошо отвечают (до 5-10 tps) на i5-9400 CPU 2.90GHz + 32 Гб ОЗУ без видеокарты, при условии, что в один момент времени одна модель обрабатывает один запрос. Например, phi4-mini:3.8b, qwen2.5:7b или небольшая llama.
Структура проекта
./
├── rag/ # Директория для работы с RAG
├── up # Скрипт для запуска docker-стека
├── down # Скрипт для остановки docker-стека
├── ollama # Скрипт для выполнения произвольных команд ollama
├── ollama.code-workspace # Конфигурация VSCode Workspace
└── README.md # Этот файл
Стек
- bash
- python, venv, pip
- docker
- ollama
- qdrant
- open-webui
Как использовать
- Запустить
./up - Запустить скрипт из любой и поддиректорий для скачивания и запуска модели в терминале
- Открыть веб-морду по адресу localhost:9999
Для настройки vscode поставить один из плагинов:
Для настройки idea поставить плагин:
Плагины должны соединиться с localhost:11434 и подгрузить доступные модели из контейнера.
Использование RAG системы
Для работы RAG системы необходимо обратиться к документу rag/README.md.