这问题怎么解决?

大厂情报源 2026-04-09 10:51:54
这两天刷开发者社区,发现一个挺有意思的现象。 很多人开始折腾OpenClaw、搭Agent workflow、接各种Skill。 看起来挺热闹,但真正做起来,很快就会卡在一个地方: Agent其实很多时候是“看不见东西”的。 原因很简单。 真实世界的大量信息并不是结构化数据,而是藏在各种文档里: 发票,PDF,合同,扫描件,截图,表格 这些东西,人看一眼就明白,但如果Agent没有文档解析能力,它其实根本处理不了。 所以很多开发者最近都在补一块能力: 让Agent看懂文档。 最近看到一个动作还挺典型。 基于文心大模型体系训练的文心衍生模型PaddleOCR文档解析能力,已经作为Skill上架到了OpenClaw的ClawHub。 简单理解就是: Agent workflow里现在可以直接调用这套文档解析能力。 比如: 拍张发票 → 自动识别金额、时间、抬头 → 输出结构化信息 或者: 丢一份PDF → 自动提取关键信息 → 进入后续自动化流程。 这种能力以前很多人都是自己接OCR接口、再自己做解析,现在直接一个Skill就能用。 其实这背后反映的是一个更大的变化: 文心能力正在以组件形式进入Agent工具生态。 大模型负责理解和推理, 工具负责执行能力。 而像PaddleOCR这种文档解析,本质上就是在给Agent补“视觉能力”。 这套东西在开发者社区里本来就挺有存在感: GitHub 70k+ star 支持110+语言识别 能解析表格、公式、复杂文档结构。 新一代模型甚至可以处理: 歪着拍的文档 弯折扫描件 复杂版面。 很多现实业务里那些乱七八糟的材料,它基本都能读出来。 当这些能力被做成Skill接进Agent生态,其实意味着一件事: Agent开始真正能处理现实世界的数据,而不只是聊天。

0 阅读:0
大厂情报源

大厂情报源

感谢大家的关注