1
0
Files
ollama/README.md

3.4 KiB
Raw Blame History

Local ollama

Набор скриптов для быстрого запуска локальных LLM.

Модели подбираются вручную, примерно в пределазх 40 млрд параметров (обычно, максимум 32b или 34b). Такие модели наиболее реально запускать на среднем ПК.

Меньше параметров → меньше памяти на диске и в ОЗУ → выше скорость (tps) → ниже качество.

Больше параметров → больше памяти на диске и в ОЗУ → ниже скорость (tps) → выше качество.

Модели до 7 млрд достаточно хорошо отвечают (до 5-10 tps) на i5-9400 CPU 2.90GHz + 32 Гб ОЗУ без видеокарты, при условии, что в один момент времени одна модель обрабатывает один запрос. Например, phi4-mini:3.8b или qwen2.5:7b.

Стек

Как использовать

  1. Запустить ./run.sh
  2. Запустить скрипт из любой и поддиректорий для скачивания и запуска модели в терминале
  3. Открыть веб-морду по адресу localhost:9999

Для настройки vscode поставить один из плагинов:

Для настройки idea поставить плагин:

Плагины должны соединиться с localhost:11434 и подгрузить доступные модели из контейнера.

Использование RAG системы

RAG (Retrieval-Augmented Generation) система позволяет задавать вопросы по содержимому документации.

Для работы RAG системы необходимо:

  1. Установить необходимые системные зависимости (требуется только один раз):

    sudo apt install -y python3-pip python3.13-venv
    
  2. Создать виртуальное окружение и установить Python-зависимости:

    python3 -m venv venv
    source venv/bin/activate
    pip install requests numpy scikit-learn
    
  3. Запустить сервер Ollama (если еще не запущен):

    ./run.sh
    
  4. Запустить RAG систему:

    ./run_rag.sh
    

После запуска система задаст пример вопроса и выведет ответ.

Дополнительные материалы