ollama/rag/convert.py

import os
import argparse
from bs4 import BeautifulSoup
import markdownify

def convert_html_to_md(input_dir, output_dir):
    os.makedirs(output_dir, exist_ok=True)
    for filename in os.listdir(input_dir):
        if filename.endswith(".html"):
            input_path = os.path.join(input_dir, filename)
            output_filename = os.path.splitext(filename)[0] + ".md"
            output_path = os.path.join(output_dir, output_filename)
            with open(input_path, "r", encoding="utf-8") as f:
                html_content = f.read()
            md_content = markdownify.markdownify(html_content, heading_style="ATX")
            with open(output_path, "w", encoding="utf-8") as f:
                f.write(md_content)
            print(f"Converted {input_path} to {output_path}")

if __name__ == "__main__":
    parser = argparse.ArgumentParser(description="Конвертер HTML-файлов в Markdown")
    parser.add_argument("--input-dir", type=str, default="input_html", help="Директория с HTML-файлами для конвертации")
    parser.add_argument("--output-dir", type=str, default="input_md", help="Директория для сохранения Markdown-файлов")
    args = parser.parse_args()
    convert_html_to_md(args.input_dir, args.output_dir)