1
0

Почти полная переработка всего rag

- включение qdrant в контур
- использование нормальной эмб-модели
- векторизация текста
- README и туча мелочей
This commit is contained in:
2025-08-25 01:55:46 +08:00
parent c6e498a0c8
commit a9328b4681
19 changed files with 509 additions and 1075 deletions

25
rag/convert.py Normal file
View File

@@ -0,0 +1,25 @@
import os
import argparse
from bs4 import BeautifulSoup
import markdownify
def convert_html_to_md(input_dir, output_dir):
os.makedirs(output_dir, exist_ok=True)
for filename in os.listdir(input_dir):
if filename.endswith(".html"):
input_path = os.path.join(input_dir, filename)
output_filename = os.path.splitext(filename)[0] + ".md"
output_path = os.path.join(output_dir, output_filename)
with open(input_path, "r", encoding="utf-8") as f:
html_content = f.read()
md_content = markdownify.markdownify(html_content, heading_style="ATX")
with open(output_path, "w", encoding="utf-8") as f:
f.write(md_content)
print(f"Converted {input_path} to {output_path}")
if __name__ == "__main__":
parser = argparse.ArgumentParser(description="Конвертер HTML-файлов в Markdown")
parser.add_argument("--input-dir", type=str, default="input_html", help="Директория с HTML-файлами для конвертации")
parser.add_argument("--output-dir", type=str, default="input_md", help="Директория для сохранения Markdown-файлов")
args = parser.parse_args()
convert_html_to_md(args.input_dir, args.output_dir)