# Local ollama Набор скриптов для быстрого запуска локальных LLM. Модели подбираются вручную, примерно в пределазх 40 млрд параметров (обычно, максимум 32b или 34b). Такие модели наиболее реально запускать на среднем ПК. Меньше параметров → меньше памяти на диске и в ОЗУ → выше скорость (tps) → ниже качество. Больше параметров → больше памяти на диске и в ОЗУ → ниже скорость (tps) → выше качество. Модели до 7 млрд достаточно хорошо отвечают (до 5-10 tps) на i5-9400 CPU 2.90GHz + 32 Гб ОЗУ без видеокарты, при условии, что в один момент времени одна модель обрабатывает один запрос. Например, [phi4-mini:3.8b](phi4-mini/3.8b) или [qwen2.5:7b](qwen2.5/7b). ## Стек * bash * [docker](https://docker.com) * [ollama](https://ollama.com) * [open-webui](https://docs.openwebui.com) ## Как использовать 1. Запустить `./run.sh` 2. Запустить скрипт из любой и поддиректорий для скачивания и запуска модели в терминале 3. Открыть веб-морду по адресу [localhost:9999](http://localhost:9999) Для настройки vscode поставить один из плагинов: * [Cline](https://marketplace.visualstudio.com/items?itemName=saoudrizwan.claude-dev) * [Continue](https://marketplace.visualstudio.com/items?itemName=Continue.continue) * [Local AI Pilot](https://marketplace.visualstudio.com/items?itemName=nr-codetools.localaipilot) Для настройки idea поставить плагин: * [AI Coding](https://plugins.jetbrains.com/plugin/21263-ai-coding ) * [MCP Server](https://plugins.jetbrains.com/plugin/26071-mcp-server) Плагины должны соединиться с `localhost:11434` и подгрузить доступные модели из контейнера. ## Использование RAG системы RAG (Retrieval-Augmented Generation) система позволяет задавать вопросы по содержимому документации. Для работы RAG системы необходимо: 1. Установить необходимые системные зависимости (требуется только один раз): ```bash sudo apt install -y python3-pip python3.13-venv ``` 2. Создать виртуальное окружение и установить Python-зависимости: ```bash python3 -m venv venv source venv/bin/activate pip install requests numpy scikit-learn ``` 3. Запустить сервер Ollama (если еще не запущен): ```bash ./run.sh ``` 4. Запустить RAG систему: ```bash ./run_rag.sh ``` После запуска система задаст пример вопроса и выведет ответ. ## Дополнительные материалы * https://habr.com/ru/companies/minerva_media/articles/909130/ * https://github.com/nagaraj-real/localaipilot-api/blob/main/README.md#chat-models