Почти полная переработка всего rag
- включение qdrant в контур - использование нормальной эмб-модели - векторизация текста - README и туча мелочей
This commit is contained in:
25
rag/convert.py
Normal file
25
rag/convert.py
Normal file
@@ -0,0 +1,25 @@
|
||||
import os
|
||||
import argparse
|
||||
from bs4 import BeautifulSoup
|
||||
import markdownify
|
||||
|
||||
def convert_html_to_md(input_dir, output_dir):
|
||||
os.makedirs(output_dir, exist_ok=True)
|
||||
for filename in os.listdir(input_dir):
|
||||
if filename.endswith(".html"):
|
||||
input_path = os.path.join(input_dir, filename)
|
||||
output_filename = os.path.splitext(filename)[0] + ".md"
|
||||
output_path = os.path.join(output_dir, output_filename)
|
||||
with open(input_path, "r", encoding="utf-8") as f:
|
||||
html_content = f.read()
|
||||
md_content = markdownify.markdownify(html_content, heading_style="ATX")
|
||||
with open(output_path, "w", encoding="utf-8") as f:
|
||||
f.write(md_content)
|
||||
print(f"Converted {input_path} to {output_path}")
|
||||
|
||||
if __name__ == "__main__":
|
||||
parser = argparse.ArgumentParser(description="Конвертер HTML-файлов в Markdown")
|
||||
parser.add_argument("--input-dir", type=str, default="input_html", help="Директория с HTML-файлами для конвертации")
|
||||
parser.add_argument("--output-dir", type=str, default="input_md", help="Директория для сохранения Markdown-файлов")
|
||||
args = parser.parse_args()
|
||||
convert_html_to_md(args.input_dir, args.output_dir)
|
||||
Reference in New Issue
Block a user