1
0
Files
ollama/README.md

3.2 KiB
Raw Blame History

Local ollama

Набор скриптов для быстрого запуска локальных LLM.

Модели примерно до 40 млрд параметров (обычно 32b) наиболее реально запускать на домашних ПК разных мощностей.

Меньше параметров → меньше памяти на диске и в ОЗУ → выше скорость (tps) → ниже качество.

Больше параметров → больше памяти на диске и в ОЗУ → ниже скорость (tps) → выше качество.

Модели до 7 млрд достаточно хорошо отвечают (до 5-10 tps) на i5-9400 CPU 2.90GHz + 32 Гб ОЗУ без видеокарты, при условии, что в один момент времени одна модель обрабатывает один запрос. Например, phi4-mini:3.8b, qwen2.5:7b или небольшая llama.

Структура проекта

./
├── rag/                    # Директория для работы с RAG
├── up                      # Скрипт для запуска docker-стека
├── down                    # Скрипт для остановки docker-стека
├── ollama                  # Скрипт для выполнения произвольных команд ollama
├── ollama.code-workspace   # Конфигурация VSCode Workspace
└── README.md               # Этот файл

Стек

Как использовать

  1. Запустить ./up
  2. Запустить скрипт из любой и поддиректорий для скачивания и запуска модели в терминале
  3. Открыть веб-морду по адресу localhost:9999

Для настройки vscode поставить один из плагинов:

Для настройки idea поставить плагин:

Плагины должны соединиться с localhost:11434 и подгрузить доступные модели из контейнера.

Использование RAG системы

Для работы RAG системы необходимо обратиться к документу rag/README.md.

Дополнительные материалы