Local ollama
Набор скриптов для быстрого запуска локальных LLM.
Модели подбираются вручную, примерно в пределазх 40 млрд параметров (обычно, максимум 32b или 34b). Такие модели наиболее реально запускать на среднем ПК.
Меньше параметров → меньше памяти на диске и в ОЗУ → выше скорость (tps) → ниже качество.
Больше параметров → больше памяти на диске и в ОЗУ → ниже скорость (tps) → выше качество.
Модели до 7 млрд достаточно хорошо отвечают (до 5-10 tps) на i5-9400 CPU 2.90GHz + 32 Гб ОЗУ без видеокарты, при условии, что в один момент времени одна модель обрабатывает один запрос. Например, phi4-mini:3.8b или qwen2.5:7b.
Стек
- bash
- docker
- ollama
- open-webui
Как использовать
- Запустить
./run.sh - Запустить скрипт из любой и поддиректорий для скачивания и запуска модели в терминале
- Открыть веб-морду по адресу localhost:9999
Для настройки vscode поставить один из плагинов:
Для настройки idea поставить плагин:
Плагины должны соединиться с localhost:11434 и подгрузить доступные модели из контейнера.
Использование RAG системы
RAG (Retrieval-Augmented Generation) система позволяет задавать вопросы по содержимому документации.
Для работы RAG системы необходимо:
-
Установить необходимые системные зависимости (требуется только один раз):
sudo apt install -y python3-pip python3.13-venv -
Создать виртуальное окружение и установить Python-зависимости:
python3 -m venv venv source venv/bin/activate pip install requests numpy scikit-learn -
Запустить сервер Ollama (если еще не запущен):
./run.sh -
Запустить RAG систему:
./run_rag.sh
После запуска система задаст пример вопроса и выведет ответ.