Mindmap

2025-09-08 12:46:06 +08:00
parent 435d4dfbc2
commit f1aa9f2324
2 changed files with 138 additions and 0 deletions
@@ -260,3 +260,9 @@ python3 rag.py --help
 Этот проект -- пазл, который позволяет пошагово, по косточкам понять и настроить работу RAG.

 Частично (в качестве агентов) в проекте участвовали модели семейств qwen, clause и chatgpt.
+
+## Дополнительные материалы
+
+* https://github.com/ollama/ollama/blob/main/docs/api.md
+* https://habr.com/ru/articles/881268/
+* https://habr.com/ru/companies/oleg-bunin/articles/835910/
@@ -0,0 +1,132 @@
+@startmindmap RAG
+title Mindmap по построению RAG
+' header
+' https://git.axenov.dev/anthony/ollama
+' endheader
+
+* RAG
+
+** Подготовка сырых данных
+*** Количество
+****_ Больше => сложнее
+*** Формат
+**** HTML
+*****_ Очистка
+**** Markdown
+**** JSON
+**** PDF
+***** OCR
+****** Проблема плохого текста\n(сканы, картинки, фото)
+****** Проблема разметки текста\n(колонки, обтекание картинок)
+**** Проблема наличия таблиц
+*****_ Оставить
+*****_ Удалить
+*****_ Конвертировать
+******_ Markdown
+*******_ Таблица
+*******_ Список
+******_ CSV
+*** Качество
+**** Очистка
+*****_ Картинки
+*****_ Бессмысленный текст
+*****_ Разметка HTML, XML, ...
+**** Метаданные
+*****_ Название
+*****_ Ссылка
+*****_ Дата
+*****_ Автор
+*****_ ...
+**** Семантика и смысл текстов
+***** Разделение на осмысленные наборы
+
+** Встраивание данных
+*** Векторизация
+**** Подбор модели эмбеддинга *
+***** Проблема русского языка
+**** Подбор способа разделения
+***** Fixed-length chunking\n(строго по символам)
+******_ самый простой и быстрый
+******_ хорош для длинных текстов
+******_ рвёт тексты с потерей связи
+***** Semantic chunking\n(по смысловым блокам)
+******_ посложнее
+******_ сохраняет логику, даёт больше смысла
+******_ лучше поиск
+******_ чанки могут быть разных размеров
+***** Structural chunking\n(по структуре текстов)
+******_ самый сложный и медленный
+******_ сохраняет контекст
+******_ хорош для сложных и технических текстов
+******_ требует структурированные входные данные
+**** Подбор размера чанка
+*****_ уменьшение
+******_ меньше смысла
+******_ больше нерелевантных результатов и галлюцинаций
+******_ быстрее поиск
+******_ хуже ответ
+*****_ увеличение
+******_ больше смысла
+******_ больше размер контекста
+******_ медленнее поиск
+******_ хуже ответ
+**** Подбор перекрытия чанков
+*****_ уменьшение
+******_ хуже смысловая связь документов
+******_ более уникальные чанки
+*****_ увеличение
+******_ лучше смысловая связь документов
+******_ сильнее дублирование частей чанков
+*** Индексация
+**** Метод хранения чанков
+*****_ chromadb (примитивно на базе sqlite, но медленно)
+*****_ qdrant (быстро, но немного усложняет деплой)
+*****_ postgres + pgvector (сложнее)
+*****_ ...
+
+** Классификация\n(Classification)
+*** Подбор модели классификации
+**** Проблема русского языка
+
+** Поиск и встраивание\n(Embedding)
+***: Подбор модели эмбеддинга *
+<i>та же, что на этапе векторизации</i>;
+***: Подбор top_k
+<i>количество чанков для поиска</i>;
+
+** Ранжирование\n(Re-ranking)
+*** Подбор модели реранкинга
+' **** Проблема русского языка
+***: Подбор top_n
+<i>количество лучших чанков после реранка</i>;
+
+** Генерация ответа
+*** Подбор модели генерации
+**** Проблема размера модели\n(млрд параметров)
+*****_ меньше
+******_ требует меньше ресурсов (RAM, CPU, GPU)
+******_ выше скорость ответа (TPS)
+******_ ниже качество (мешанина токенов, путает язык, игнорирует инструкции)
+*****_ больше
+******_ требует больше ресурсов (RAM, CPU, GPU)
+******_ ниже скорость ответа (TPS)
+******_ выше качество, но может быть избыточно, в зависимости от домена
+*** Подбор системного промпта
+**** Проблема русского языка
+*****_ модель может его не понимать/генерировать
+*****_ язык сложнее, занимает больше токенов в контексте
+**** Проблема размера контекста
+*****: Проблема Lost-in-the-middle
+----
+Исследование:
+* коротко https://huggingface.co/papers/2307.03172
+* целиком https://arxiv.org/abs/2307.03172
+;
+******_ ...
+*****_ Сдвиг контекстного окна
+*****_ Сжатие контекста
+*** Подбор настроек генерации
+****_ temperature
+****_ top_p?
+****_ ...
+@endmindmap