1
0

Много мелких доработок

- переименован input_md => data
- добавление инфы о дате, версии и авторе изменений conf-страницы в индекс
- вывод этой инфы в источниках
- вывод статистики последнего ответа
- указание имени коллекции для qdrant
- мелочи по текстовкам
This commit is contained in:
2025-08-29 08:54:43 +08:00
parent 3f2491db27
commit f3672e6ffd
10 changed files with 136 additions and 53 deletions

View File

@@ -21,7 +21,7 @@ OUTPUT_PATH="./input_html"
[ ! -d "$OUTPUT_PATH" ] && mkdir -p "$OUTPUT_PATH"
for PAGE_ID in "$@"; do
API_ENDPOINT="${CONF_URL}/rest/api/content/${PAGE_ID}?expand=body.view,children.page"
API_ENDPOINT="${CONF_URL}/rest/api/content/${PAGE_ID}?expand=body.view,children.page,version"
echo
echo "Загрузка: $API_ENDPOINT"
@@ -37,25 +37,40 @@ for PAGE_ID in "$@"; do
exit 1
fi
TITLE=$(echo "$RESPONSE" | jq -r .title)
CONTENT=$(echo "$RESPONSE" | jq -r .body.view.value)
if [ -z "$CONTENT" ]; then
echo "Пустая страница, пропущено"
exit
fi
TITLE=$(echo "$RESPONSE" | jq -r .title)
VERSION_NUM=$(echo "$RESPONSE" | jq -r .version.number)
VERSION_WHEN=$(date -d "$(echo "$RESPONSE" | jq -r .version.when)" +'%d.%m.%Y %H:%M:%S %Z')
VERSION_BY=$(echo "$RESPONSE" | jq -r .version.by.username)
TITLE_ESC="${TITLE//\//_}"
FILENAME="$TITLE_ESC.html"
if [ "$(echo "$FILENAME" | wc -c)" -gt 255 ]; then # измерение по байтам, а не длине
FILENAME="${TITLE_ESC:0:120}.html"
fi
HTML_FILEPATH="$OUTPUT_PATH/$FILENAME"
CONTENT=${CONTENT//href=\"\//href=\"$CONF_URL}
CONTENT=${CONTENT//src=\"\//src=\"$CONF_URL}
CONTENT=${CONTENT//href=\"\//href=\"$CONF_URL/}
CONTENT=${CONTENT//src=\"\//src=\"$CONF_URL/}
URL="$CONF_URL/pages/viewpage.action?pageId=$PAGE_ID"
echo -e "@@$URL@@\n<br><html><body>Исходная страница: <a href=\"$URL\">$URL</a><br><br><h1>$TITLE</h1>$CONTENT</body></html>" > "$HTML_FILEPATH"
cat > "$HTML_FILEPATH" <<EOF
<html><body>
<!-- разметка для эмбеддинга -->
@@ $URL @@
^^ $VERSION_NUM ^^
%% $VERSION_BY %%
== $VERSION_WHEN ==
<!-- / разметка для эмбеддинга -->
<h1>$TITLE</h1>
$CONTENT
</body></html>
EOF
echo "Сохранено: $OUTPUT_PATH/$TITLE.html"
CHILD_IDS=$(echo "$RESPONSE" | jq -r '.children.page.results[]?.id' 2>/dev/null)