Много мелких доработок
- переименован input_md => data - добавление инфы о дате, версии и авторе изменений conf-страницы в индекс - вывод этой инфы в источниках - вывод статистики последнего ответа - указание имени коллекции для qdrant - мелочи по текстовкам
This commit is contained in:
@@ -15,11 +15,11 @@ def convert_html_to_md(input_dir, output_dir):
|
||||
md_content = markdownify.markdownify(html_content, heading_style="ATX")
|
||||
with open(output_path, "w", encoding="utf-8") as f:
|
||||
f.write(md_content)
|
||||
print(f"Converted {input_path} to {output_path}")
|
||||
print(f"Готово: {output_path}")
|
||||
|
||||
if __name__ == "__main__":
|
||||
parser = argparse.ArgumentParser(description="Конвертер HTML-файлов в Markdown")
|
||||
parser.add_argument("--input-dir", type=str, default="input_html", help="Директория с HTML-файлами для конвертации")
|
||||
parser.add_argument("--output-dir", type=str, default="input_md", help="Директория для сохранения Markdown-файлов")
|
||||
parser.add_argument("--output-dir", type=str, default="data", help="Директория для сохранения Markdown-файлов")
|
||||
args = parser.parse_args()
|
||||
convert_html_to_md(args.input_dir, args.output_dir)
|
||||
|
||||
Reference in New Issue
Block a user