面向 Claude Code 与 OpenClaw 的 AI/ML 人才搜索与触达执行手册。
当用户提出以下任务时,应优先启用本 skill:
不要从零发明流程。先检查 references/ 与 scripts/ 是否已有成熟模式。
结果必须尽量结构化,并在输出前做分类、去重与字段标准化。
technical_hook 和 talk_track_paragraph 不能空泛,必须和候选人论文、研究方向或主页内容关联。
对此类需求,结果不应只停留在本地 CSV。
适用于:
安装方式通常是把 skill 放到 ~/.claude/skills/ 目录。
适用于:
OpenClaw 常见技能加载位置:
/skills
~/.openclaw/skills
也可通过 ClawHub 安装,并通过“刷新 skills”或重启网关重新索引。
先明确:
| 场景 | 首选方案 | 备用方案 |
|------|----------|----------|
| OpenReview 会议 | scripts/openreview_scraper.py + API | 搜索 + 主页回补 |
| CVF 会议 | scripts/cvf_paper_scraper.py | 补抓 PDF / 页面回退 |
| Hugo Academic 单页卡片 | lab_member_scraper.py 的 card 模式 | BrightData |
| 实验室列表页 + 个人页 | lab_member_scraper.py 的两阶段模式 | BrightData |
| 无固定结构但含邮箱 | 邮箱反向定位法 | BrightData / 手工规则 |
| GitHub 研究者网络 | scripts/github_network_scraper.py | 网页搜索辅助 |
| LinkedIn / 强反爬站点 | BrightData MCP | 降级到公开网页信息 |
| 给定任意 URL | BrightData MCP 或定制脚本 | 多源补充 |
根据场景读取相应脚本或 reference:
references/search-templates.md
references/python-scraping-guide.md
references/anti-scraping-solutions.md
references/url-priority-rules.md
references/conference-paper-scraping.md
至少尽量抽取这些字段:
然后继续做:
references/chinese-surnames.md
references/candidate-classifier.md
references/deduplication-rules.md
references/field-mappings.md
读取:
references/email-templates.md
references/talk-tracks.md
生成邮件时必须填充:
researcher_name
context_affiliation
research_field
technical_hook
talk_track_paragraph
根据用户要求输出为:
如果用户明确提到 OpenClaw、飞书、多维表格、导表或批量写邮件,应把这些步骤视为本 skill 的标准能力,而不是额外加分项。
app_token / table_id
后续如果有新的实践文档,应继续沉淀到 references/prompt-best-practices.md。当前优先复用下面几类高价值提示词模式。
请执行 OpenReview 论文爬取任务:
1. 使用 Mapping-Skill skill 根目录下的 `scripts/openreview_scraper.py` 脚本
2. 初始化爬虫时使用 api2.openreview.net 端点:
scraper = OpenReviewScraper(
username='XXXXXXX',
password='XXXXXXX',
baseurl='https://api2.openreview.net'
)
3. 爬取 ICLR2025 的 5 篇论文(测试)+ https://openreview.net/group?id=ICLR.cc/2025/Conference#tab-accept-oral(记着替换链接)
4. 保存 CSV 到 /tmp/ 目录
5. 创建新的飞书多维表格,按照 Mapping-Skill skill 根目录下的 `scripts/openreview_scraper.py` 脚本中爬取的数据来创建相应字段
6. 批量导入数据到多维表格
7. 返回多维表格链接和统计信息
请执行 CVF 论文爬取任务:
1. 使用 Mapping-Skill skill 根目录下的 `scripts/cvf_paper_scraper.py` 脚本
2. 严格按照脚本中的 extract_emails_from_text() 函数提取邮箱
3. 爬取 ICCV2025 的 5 篇论文(测试)+ https://openaccess.thecvf.com/ICCV2025?day=all(记着替换链接)
4. 保存 CSV 到 /tmp/ 目录
5. 创建新的飞书多维表格,按照 Mapping-Skill skill 根目录下的 `scripts/cvf_paper_scraper.py` 脚本中爬取的数据来创建相应字段
6. 批量导入数据到多维表格
7. 返回多维表格链接和邮箱提取统计
请执行论文作者邮件生成任务:
【数据源】
表格链接:
【第一步:解析表格链接】
1. 从链接中提取 app_token(格式:/base/{app_token})
2. 调用 feishu_bitable_app_table 的 list 接口获取 table_id
3. 验证表格可访问性
【第二步:分批读取论文数据】
1. 使用 feishu_bitable_app_table_record 的 list 操作
2. 分批读取(每批50条),使用 page_token 分页
3. 只提取必要字段:记录ID、论文标题、作者、邮箱、机构
4. 过滤条件:只处理有邮箱的记录
【第三步:确定研究领域】
1. 读取 Mapping-Skill skill 根目录下的 `references/field-mappings.md`
2. 根据论文标题和关键词,使用映射规则确定研究领域
3. 示例:
- "Symmetry Understanding of 3D Shapes" → Computer Vision
- "Efficient Adaptation of Vision Transformer" → NLP
【第四步:生成个性化邮件】
1. 读取 Mapping-Skill skill 根目录下的 `references/email-templates.md`
2. 根据研究领域选择对应模板(共22个领域)
3. 填充占位符:
- {{researcher_name}} → 第一作者姓名
- {{context_affiliation}} → 机构
- {{research_field}} → 研究领域
- {{technical_hook}} → 基于论文标题生成
- {{talk_track_paragraph}} → 从 talk-tracks.md 选择
【第五步:批量更新多维表格】
1. 在多维表格中创建新字段:"推荐邮件"(多行文本)
2. 使用 batch_update 批量更新每条记录
3. 每批最多 500 条
【第六步:验证和统计】
1. 验证邮件内容个性化
2. 返回统计:总计 X 条 / 成功 Y 条 / 失败 Z 条
3. 列出失败原因
【输出】
- 多维表格链接
- 生成统计
- 失败原因列表
1、请你调用BrightData-MCP工具,或者编写爬虫脚本,爬取 <某网站URL> 页面中的所有人员信息。
2、提取信息包括中文名,英文名,个人介绍信息、学术方向、学校和专业信息、工作经历、近期论文著作信息(包含论文名和论文链接)、github链接、个人主页链接、谷歌学术链接、领英链接、知乎链接、B站链接、邮箱等。
3、当前页面缺少邮箱的话,需要进入学者主页或论文链接页面,从里面提取作者们的邮箱。
4、保存到csv文件,然后将csv导入飞书多维表格。
| Name | Type | Affiliation | Field | Chinese? | Email |
|------|------|-------------|-------|----------|-------|
| Wei Zhang | PhD | Tsinghua | RL | Yes (0.92) | wei@tsinghua.edu |
## Candidate: Wei Zhang (张伟)
- Type: PhD Student
- Affiliation: Tsinghua University
- Research Field: Reinforcement Learning
- Chinese: Yes (0.92)
- Email: wei.zhang@tsinghua.edu.cn
- Homepage: ...
- Scholar: ...
- GitHub: ...
### Research Summary
- RLHF
- Reward modeling
- Policy optimization
### Publications
1. ...
2. ...
### Outreach Email
...
至少返回:
按场景加载:
references/search-templates.md
references/profile-schema.md
references/candidate-classifier.md
references/chinese-surnames.md
references/deduplication-rules.md
references/email-templates.md
references/talk-tracks.md
references/python-scraping-guide.md
references/anti-scraping-solutions.md
references/conference-paper-scraping.md
references/practice-cases.md
references/prompt-best-practices.md
references/user-feedback-notes.md
scripts/openreview_scraper.py:OpenReview 会议论文与作者抓取
scripts/cvf_paper_scraper.py:CVF 论文页面 + PDF 邮箱提取
scripts/lab_member_scraper.py:实验室成员抓取(两阶段 / Hugo Academic / 邮箱反向定位)
scripts/github_network_scraper.py:GitHub 研究者网络抽取
scripts/cloudflare_email_decoder.py:Cloudflare XOR 邮箱解密
scripts/httpx_scraper.py:通用异步 HTTP 抓取
scripts/serper_search.py:搜索入口模板
[at] 混淆和 SSL 问题
后续收到新的实践文档后:
references/prompt-best-practices.md
SKILL.md 的“最佳实践提示词”部分补充该功能已支持的明确说明
references/user-feedback-notes.md
evals/evals.json 做后续测试
共 2 个版本