185-pdf

提取PDF文件和网络文本的内容，支持文本提取、表格识别和格式化输出。当用户需要读取PDF内容、提取网页文本、解析文档文字、看PDF里写了什么、提取网页正文时使用此技能。

user_63c3efa7

未分类 community v1.0.0 1 版本 80000 Key: 无需

★ 0

Stars

📥 4

下载

💾 0

安装

版本

#latest

概述

150-PDF阅读器

提取PDF文件和网络文本的内容，输出结构化的Markdown格式文本。

触发场景

当用户提到以下意图时使用本技能：

读取/提取/解析PDF内容
提取网页/网络文本内容
看看PDF里写了什么
把PDF转成文字
抓取网页正文

工作流程

判断输入类型：用户提供了PDF文件路径还是网页URL
如果是PDF文件：

调用 python3 scripts/main.py pdf <文件路径> 提取内容
支持纯文本PDF和含表格PDF

如果是网页URL：

调用 python3 scripts/main.py url <网址> 提取正文

将提取结果以Markdown格式返回给用户

输入格式

用户通过自然语言描述需求，可能附带：

PDF文件路径（本地路径）
网页URL

输出格式

文本内容：以Markdown格式输出，保留原文段落结构
表格内容：以Markdown表格形式输出
如果提取失败，说明具体原因（文件不存在、加密、网页无法访问等）

边界情况

加密PDF：提示用户文件已加密，无法提取
扫描件PDF（纯图片）：提示用户此为图片PDF，文本提取可能不完整
网页需登录：提示用户网页需要认证，无法直接提取
大文件：提示文件较大，可能只提取前部分内容

版本历史

共 1 个版本

v1.0.0 Initial release 当前

2026-06-11 12:02 安全安全

安全检测

腾讯云安全 (Keen)

安全，无风险

查看报告

腾讯云安全 (Sanbu)

安全，无风险

查看报告

🔗 相关推荐

ai-intelligence

self-improving agent

pskoett

捕获经验教训、错误和纠正，以实现持续改进。使用时机：（1）命令或操作意外失败；（2）用户纠正……

★ 4,055 📥 795,674

security-compliance

Skill Vetter

spclaudehome

AI智能体技能安全预审工具。安装ClawdHub、GitHub等来源技能前，检查风险信号、权限范围及可疑模式。

★ 1,210 📥 266,127

developer-tools

Github

steipete

使用 `gh` CLI 与 GitHub 交互，通过 `gh issue`、`gh pr`、`gh run` 和 `gh api` 管理议题、PR、CI 运行及高级查询。

★ 666 📥 323,769