← 返回
未分类
185-pdf
提取PDF文件和网络文本的内容,支持文本提取、表格识别和格式化输出。当用户需要读取PDF内容、提取网页文本、解析文档文字、看PDF里写了什么、提取网页正文时使用此技能。
提取PDF文件和网络文本的内容,支持文本提取、表格识别和格式化输出。当用户需要读取PDF内容、提取网页文本、解析文档文字、看PDF里写了什么、提取网页正文时使用此技能。
user_63c3efa7
未分类
community
v1.0.0 1 版本 80000 Key: 无需
#latest
概述
150-PDF阅读器
提取PDF文件和网络文本的内容,输出结构化的Markdown格式文本。
触发场景
当用户提到以下意图时使用本技能:
- 读取/提取/解析PDF内容
- 提取网页/网络文本内容
- 看看PDF里写了什么
- 把PDF转成文字
- 抓取网页正文
工作流程
- 判断输入类型:用户提供了PDF文件路径还是网页URL
- 如果是PDF文件:
- 调用
python3 scripts/main.py pdf <文件路径> 提取内容 - 支持纯文本PDF和含表格PDF
- 如果是网页URL:
- 调用
python3 scripts/main.py url <网址> 提取正文
- 将提取结果以Markdown格式返回给用户
输入格式
用户通过自然语言描述需求,可能附带:
输出格式
- 文本内容:以Markdown格式输出,保留原文段落结构
- 表格内容:以Markdown表格形式输出
- 如果提取失败,说明具体原因(文件不存在、加密、网页无法访问等)
边界情况
- 加密PDF:提示用户文件已加密,无法提取
- 扫描件PDF(纯图片):提示用户此为图片PDF,文本提取可能不完整
- 网页需登录:提示用户网页需要认证,无法直接提取
- 大文件:提示文件较大,可能只提取前部分内容
安全检测
腾讯云安全 (Sanbu)
安全,无风险
查看报告
🔗 相关推荐
ai-intelligence
pskoett
捕获经验教训、错误和纠正,以实现持续改进。使用时机:(1)命令或操作意外失败;(2)用户纠正……
★ 4,055
📥 795,674
security-compliance
spclaudehome
AI智能体技能安全预审工具。安装ClawdHub、GitHub等来源技能前,检查风险信号、权限范围及可疑模式。
★ 1,210
📥 266,127
developer-tools
steipete
使用 `gh` CLI 与 GitHub 交互,通过 `gh issue`、`gh pr`、`gh run` 和 `gh api` 管理议题、PR、CI 运行及高级查询。
★ 666
📥 323,769