使用 Jina Reader API 将 HTML 转换为 Markdown 的实践探索

(本文由ChatGPT辅助编写)

随着大型语言模型（LLM）的广泛应用，将网页内容转换为干净、结构化的文本格式已成为数据预处理的重要环节。2024 年 4 月，Jina AI 正式发布了 Jina Reader（https://jina.ai/reader），该 API 通过在 URL 前添加特定前缀，即可将任意网页转换为对 LLM 更友好的 Markdown 格式。随后，在同年 9 月，Jina 又推出了两款专门用于 HTML 转 Markdown 的小型语言模型—— reader-lm-0.5b 和 reader-lm-1.5b。而在最新版本中，Jina 又正式发布了拥有 15 亿参数的 ReaderLM-v2，它不仅能精确转换 HTML 为格式美观的 Markdown，还可以直接生成 JSON 数据，实现了更高的准确性和长文本处理能力（支持高达 512K tokens 的输入输出组合）。

1. Jina Reader API 与 ReaderLM-v2 简介

1.1 背景与发展历程

Jina Reader API：只需在目标 URL 前添加 https://r.jina.ai/ 前缀，即可自动抓取网页并转换为清洁的文本格式。这一方式无需复杂配置或 API 密钥，操作简单、响应迅速。
小型语言模型：初期发布的 reader-lm-0.5b 和 reader-lm-1.5b 专注于 HTML 到 Markdown 的转换任务，但在长文本处理和复杂格式转换上存在一定局限。
ReaderLM-v2：作为第二代模型，ReaderLM-v2 在准确性、长文本支持以及多语言适配方面都有显著提升。它不仅能输出高质量的 Markdown，还能直接生成结构化 JSON 数据，方便后续数据提取和 LLM 调用[citeturn0search11]。

1.2 技术亮点

高准确性：通过全新的训练策略和对比损失，ReaderLM-v2 能够避免在生成长序列时出现重复或循环问题，确保输出内容的连贯性和准确性。
多语言支持：支持包括中文、英文、日语、韩语、法语等 29 种语言，满足全球化应用需求。
扩展性：除了 Markdown 转换，还能直接生成 JSON 数据，为特定领域的数据提取提供便捷接口。

2. 技术原理与工作流程

Jina Reader API 通过以下几个关键步骤实现 HTML 到 Markdown 的转换：

网页抓取与解析
利用代理服务抓取目标网页内容，通过 HTML 解析器构建 DOM 树，提取网页的主要文本、标题、列表、代码块、表格等结构信息，同时自动过滤掉冗余的样式、脚本和广告信息。
内容清洗与结构化
在提取原始内容后，利用正则表达式和启发式规则对文本进行清洗，保留语义关键部分，并根据 HTML 结构转换为符合 Markdown 语法的文本格式。ReaderLM-v2 甚至支持通过指令方式定制输出，例如提取特定部分的内容或生成符合预定义 JSON Schema 的结构化数据。
输出转换
用户可以通过 API 请求直接获得 Markdown 格式的输出，或通过指定参数生成 JSON 数据，便于后续处理或直接供 LLM 进行调用。

3. 实践示例：转换 Python 3.13 新特性文档

下面以 Python 3.13 的新特性文档为例，演示如何使用 Jina Reader API 将 HTML 转换为 Markdown 文件。假设目标 URL 为 https://docs.python.org/3/whatsnew/3.13.html，只需在前面添加 https://r.jina.ai/ 前缀即可。

3.1 使用 curl 进行转换

1
2
3

curl "https://r.jina.ai/https://docs.python.org/3/whatsnew/3.13.html" \
     -H "x-engine: readerlm-v2" \
     -H "Accept: text/event-stream"

上述命令中：

x-engine 请求头指定使用 ReaderLM-v2 引擎进行转换；
Accept: text/event-stream 启用流式传输模式，适用于处理大型或动态网页内容。

执行后，API 将返回一个干净、结构化的 Markdown 文本，其中保留了原文的标题、段落、列表、代码块等结构信息，去除了 HTML 标签、内联样式以及脚本代码。

3.2 在 Google Colab 中测试

为了方便实验，Jina 官方还提供了 Google Colab Notebook 示例。该 Notebook 展示了如何加载目标网页，调用 ReaderLM-v2 模型进行转换，并输出 Markdown 格式的结果。Notebook 已针对 Colab 的 T4 GPU 进行了优化，适合快速体验和验证转换效果。

4. 应用场景与优势

4.1 优化 LLM 调用

减少 Token 数量：通过转换 HTML 为 Markdown，自动剔除冗余标签和无用内容，从而大幅降低后续 LLM 调用时的 Token 数量，提升调用速度和成本效率。
提升模型理解：干净且结构化的文本更容易被 LLM 理解，有助于提高生成质量和问答准确率。

4.2 数据预处理和信息提取

内容聚合：开发者可以利用该接口批量转换各类网页内容，构建新闻摘要、知识库、学术文献分析等应用。
自动化工作流：结合 Zapier、Notion 等工具，可实现自动采集、转换并存储网页数据，构建企业级的知识管理系统[citeturn0search14]。

4.3 多格式输出

除了 Markdown 格式外，ReaderLM-v2 还支持直接生成 JSON 数据，对于需要进一步数据清洗和结构化处理的场景具有显著优势。

5. 总结与展望

Jina Reader API 及其背后的 ReaderLM-v2 模型为网页内容转换提供了高效、精准的解决方案。从简单地在 URL 前添加前缀，到支持定制化指令和多格式输出，这一工具极大地简化了数据预处理流程。对于后续的 LLM 调用、知识库构建以及自动化工作流而言，都能带来显著的效能提升。

展望未来，Jina AI 将继续优化 ReaderLM 系列产品，计划扩展多模态处理能力（例如图片自动标注、视频摘要等），并持续提升转换速度和稳定性。无论是企业级应用还是个人开发者，都可以借助这一开源工具打造更高效的 AI 系统。

以上就是关于如何使用 Jina.ai 接口将 HTML 转换为 Markdown 文件的详细技术分享。希望这篇博客能为大家在数据预处理、知识库构建和 LLM 应用中提供新的思路与灵感。欢迎在评论区分享你的使用体验和改进建议！

参考资料

官方介绍及 ReaderLM-v2 模型发布信息：jina.ai/reader
CSDN 博客关于 ReaderLM-v2 的详细介绍：https://blog.csdn.net/Jina_AI/article/details/145195741