一个关键词,搜遍全网。 输入任何话题,SuperSearch 瞬间并行检索百度、微信、微博、抖音、
知乎、B站、头条、小红书等 20+ 核心平台,智能去重、按相关性排序、标注内容新鲜度,
5 秒内生成一份结构化舆情报告。支持学术论文、财经分析、政策研究、技术调研等
多场景按需扩展至 160+ 数据源。搜完即看懂,不用自己翻 20 个 App。
v4.0 超强搜索版新增:
v3.0 新增优化:
--max-items 参数:控制输入上限(默认 2000),防止大输入内存飙升
.md 报告 + .json 摘要 + .checkpoint.jsonl 断点
v2.0 已有优化:
当用户说出以下任一意图时必须加载此技能:
首次使用需安装依赖:
cd <skill_dir>/scripts
pip install jieba scikit-learn numpy datasketch tqdm
依赖说明:
| 依赖 | 用途 | 可选? |
|------|------|--------|
| jieba | 中文分词 | 必需 |
| scikit-learn | TF-IDF + Cosine 相似度 | 可选(降级为 Jaccard) |
| numpy | 数值计算 | 可选 |
| datasketch | MinHash + LSH 近似去重 | 强烈推荐(无则降级 O(n²)) |
| tqdm | 进度条显示 | 可选(无则打印简单日志) |
向用户确认:
如果用户需求已经很明确,跳过此步直接执行。
使用 WebSearch 工具同时对以下引擎发起搜索(并行调用,节省时间)。
以下为按优先级分层的推荐搜索列表。
| 目标 | 搜索策略 | 优先级 | 超时建议 |
|------|---------|--------|---------|
| 百度 | WebSearch(query="关键词") 不加站点限定 | 必选 | 10s |
| 微信公众平台 | WebSearch(query="关键词 site:mp.weixin.qq.com") 限定公众号 | 必选 | 10s |
| 微博 | WebSearch(query="关键词 site:微博域名") | 必选 | 10s |
| 今日头条 | WebSearch(query="关键词 site:头条域名") | 必选 | 10s |
| 知乎 | WebSearch(query="关键词 site:知乎域名") | 必选 | 10s |
| B站 | WebSearch(query="关键词 site:B站域名") | 必选 | 10s |
| 抖音 | WebSearch(query="关键词 抖音") 间接搜索 | 必选 | 10s |
| 小红书 | WebSearch(query="关键词 小红书") 间接搜索 | 必选 | 10s |
| 目标 | 搜索策略 | 优先级 | 超时建议 |
|------|---------|--------|---------|
| 360搜索 | WebSearch(query="关键词") 不加站点限定 | 推荐 | 10s |
| 搜狗 | WebSearch(query="关键词") 不加站点限定 | 推荐 | 10s |
| 必应中国 | WebSearch(query="关键词") 不加站点限定 | 推荐 | 10s |
| 新浪新闻 | WebSearch(query="关键词 site:新浪域名") | 推荐 | 10s |
| 腾讯新闻 | WebSearch(query="关键词 site:腾讯新闻域名") | 推荐 | 10s |
| 网易新闻 | WebSearch(query="关键词 site:网易域名") | 推荐 | 10s |
| 澎湃新闻 | WebSearch(query="关键词 site:澎湃域名") | 推荐 | 10s |
| 凤凰网 | WebSearch(query="关键词 site:凤凰网域名") | 推荐 | 10s |
| 新华网 | WebSearch(query="关键词 site:新华网域名") | 推荐 | 10s |
| 人民网 | WebSearch(query="关键词 site:人民网域名") | 推荐 | 10s |
| 快手 | WebSearch(query="关键词 快手") 间接搜索 | 推荐 | 10s |
| 豆瓣 | WebSearch(query="关键词 site:豆瓣域名") | 推荐 | 10s |
| 场景 | 推荐追加平台 |
|------|-------------|
| 学术研究 | 知网、万方、维普、百度学术、Google Scholar |
| 财经分析 | 第一财经、财新、36氪、雪球、华尔街见闻 |
| 技术调研 | GitHub、CSDN、掘金、Stack Overflow |
| 政策法规 | 中国政府网、北大法宝、裁判文书网 |
| 国际资讯 | Google、Bing、DuckDuckGo、Yahoo |
| 医疗健康 | 丁香园、好大夫在线、PubMed |
| 百科知识 | 百度百科、维基百科、MBA智库 |
| 权威央媒 | 央视网、光明网、中国新闻网、环球网 |
| 科技媒体 | 量子位、机器之心、极客公园 |
| 自媒体 | 百家号、知乎专栏 |
并行策略: 每个搜索请求之间无依赖关系,一次性发出所有 WebSearch 调用。
推荐先发第一层(8个必选),然后追加第二层(12个推荐),根据需要再追加第三层。
超时策略: 如果某个引擎响应超过 10 秒,建议放弃该引擎的搜索结果,
继续处理其他引擎的返回,避免阻塞整体流程。
WebSearch 参数优化:
topic: "news" 获取最新资讯
query_keyword_groups 覆盖多角度搜索
数据量控制:
⚠️ v4.0 策略: 以下封闭/半封闭平台直接使用 WebSearch 间接搜索,
不再尝试 WebFetch 直连(反爬率高、成功率低)。
| 封闭平台 | 封闭程度 | 推荐策略 | 兜底方案 |
|---------|---------|---------|---------|
| 抖音 | 完全封闭,反爬率极高 | WebSearch(query="关键词 抖音") | 跳过WebFetch;关注第三方抖音指数 |
| 小红书 | 完全封闭,反爬率极高 | WebSearch(query="关键词 小红书") | 部分内容可通过WebSearch获取 |
| 快手 | 部分封闭 | WebSearch(query="关键词 快手") | 部分页面可直连 |
| 微信搜一搜 | 仅微信App内 | WebSearch(query="关键词 site:mp.weixin.qq.com") | 搜狗微信搜索公开页 |
| 朋友圈 | 完全私密 | 无公开方案 | 依赖用户主动分享的公开内容 |
| 百度指数 | 需登录 | 仅做参考 | 第三方替代数据 |
经验法则: 对已知反爬的域名(抖音、小红书),直接跳过 WebFetch 改用 WebSearch,
避免浪费时间在验证码/登录页上。WebFetch 仅用于第三方聚合站(如搜狗微信搜索公开页)。
将所有搜索结果统一转为 JSONL 格式,每行一个 JSON 对象:
{"platform": "百度", "title": "...", "url": "...", "snippet": "...", "content": "", "source_engine": "WebSearch", "timestamp": "2026-06-06"}
{"platform": "微信", "title": "...", "url": "...", "snippet": "...", "content": "", "source_engine": "WebSearch", "timestamp": "2026-06-06"}
timestamp 字段用于时间新鲜度衰减计算。即使 snippet 中没有明确日期,
v3.0 引擎也会尝试从 snippet 中提取相对时间("3小时前""昨天""6月1日"等)。
保存到临时文件供分析脚本使用,例如:
.workbuddy/tmp/agg_search_关键词.jsonl
调用 scripts/aggregate_search.py 进行:
# 基本用法
python scripts/aggregate_search.py "关键词" "输入jsonl路径" "输出文件前缀"
# 限制输入条数(默认2000)
python scripts/aggregate_search.py "关键词" "输入.jsonl" "report" --max-items 1000
# 从 checkpoint 恢复
python scripts/aggregate_search.py "关键词" "data.checkpoint.jsonl" "report"
脚本输出三个文件:
{前缀}.md — Markdown 报告
{前缀}.json — JSON 分析摘要
{前缀}.checkpoint.jsonl — 原始数据断点(可重新输入跑分析)
分析功能:
--max-items 控制输入上限,超限自动截断并提示
open_result_view 呈现给用户
deliver_attachments 发送报告文件(.md + .json + .checkpoint.jsonl)
报告包含以下章节:
| 问题 | 方案 |
|------|------|
| 某平台搜索无结果 | 跳过该平台,注明"无有效结果" |
| 封闭平台反爬 | 跳过 WebFetch,改用 WebSearch 间接搜索("关键词 + 平台名") |
| 分析脚本依赖未安装 | 自动 pip install,如安装失败则手动用文本分析 |
| 无 datasketch | 降级为传统相似度矩阵去重,提示用户安装 |
| jieba 分词效果差 | 改用直接转写(无需分词,直接用原文做 Jaccard) |
| 数据量过大(>500条) | MinHash 自动处理;矩阵分析截断至 Top 50;--max-items 控制输入 |
| Python 环境问题 | 在系统 Python 中尝试,或直接由 WorkBuddy 做文本分析 |
| 结果太少(不足5条) | 放宽搜索范围,去除站点限定 |
| 分析过程崩溃 | 使用 checkpoint 断点恢复(再次传入 .checkpoint.jsonl) |
如果 Python 脚本无法运行,WorkBuddy 可手动计算 Jaccard 相似度:
共 1 个版本