content-extract

content-extract

Robust URL-to-Markdown extraction for OpenClaw workflows. Use when the user wants to "extract/summarize/convert a webpage to markdown" (especially WeChat mp.weixin.qq.com) and web_fetch/browser is blocked or messy. Uses a cheap probe via web_fetch first, then falls back to the official MinerU API (via the local mineru-extract skill) and returns a traceable result contract with source links.

Overview

# content-extract — 上层内容解析入口（MCP 语义对齐，但不跑 MCP Server）

目标：把“给我一个 URL → 产出可读 Markdown + 可追溯入口”变成一个**统一入口**，供后续所有业务 skill（github-explorer、写作类 skills、日报等）复用。

核心原则（来自你发的 Excel Skill 拆解文章的启发）：

**行为规约层**：永远给出可追溯入口（原文 URL + 解析产物路径/链接），绝不编造来源。
**Token 探针**：先用低成本 probe 判断可不可以直接抓；不行再走重解析（MinerU）。
**反弹机制**：失败时返回“下一步动作建议”，而不是一堆异常栈。

工作流（Decision Tree）

输入：`url`

0) **Domain Whitelist（跳过 probe）**：若 URL 属于高概率反爬/动态站点（微信/知乎等），直接走 MinerU

白名单文件：`references/domain-whitelist.md`
对命中白名单的 URL：强制 `model_version=MinerU-HTML`

1) **Probe（低成本）**：优先用 `web_fetch(url)`

目标：拿到正文 markdown（便宜、快）
判断“失败/不合格”条件（见 `references/heuristics.md`）包括：
403/401/反爬
只有“环境异常/验证码/请在微信打开”等提示
内容极短/明显导航页/丢正文

2) **Fallback（高保真）**：走 MinerU 官方 API

调用下游 driver：`skills/mineru-extract/scripts/mineru_parse_documents.py`
对 HTML 页面（微信等）：强制 `model_version=MinerU-HTML`

3) **输出统一结果合同（Result Contract）**

无论用 probe 还是 MinerU，都返回同一套结构：

```json

{

"ok": true,

"source_url": "...",

"engine": "web_fetch" ,

Copy first, validate next

Copy the install command

Check source and behavior

Overview

工作流（Decision Tree）

Validate with a real task

MinerU 调用（给 agent 的确定性脚本）

交付规范（强制）

本 skill 自身不做什么

References

Browse skill packs

Read the install guide

Explore more skills