对每篇材料生成一个 .md 文件,严格按以下格式:
### 原文标题
[提取原文标题]
### 发布日期
[提取该篇内容的发布日期]
### 发布作者
[提取发布作者]
### 原文链接
[提取原文链接]
### 核心观点
1. [观点1,≤20字]。[论据1,≤30字]
2. [观点2,≤20字]。[论据2,≤30字]
3. [观点3,≤20字]。[论据3,≤30字]
### 投资建议
[投资建议,40-50字,必须包含方向性表述,提示风险,禁止绝对化表述]
### 判断方向
[🔴强看多 / 🟠偏多 / ⚪中性 / 🔵偏空 / 🟢强看空]
### 分析逻辑
[仅从以下6个中选取,可多选用 `/` 分隔:基本面驱动 / 资金面驱动 / 政策驱动 / 技术面驱动 / 事件驱动 / 产业链驱动]
### 关联标签
[标签1(看多),标签2(看空),标签3,...](至少3个、最多10个,看多→看空→无观点排序,逗号分隔)
### 关注标的
[提取文中提到的具体可交易标的,如股票名称、基金名称等,最多10个,逗号分隔。无明确标的填"无"]
### 时效性
[仅从以下3个中单选:短期(1-5日) / 中期(1-4周) / 长期(1月以上)]
### 原文摘要
[150-200字原文核心段落摘要,保留关键数据和专有名词]
/ 分隔,不得自创关键词详细分级标准和备选项参见 references/standards.md。
在提炼前,将非Markdown/纯文本文件自动转换为Markdown格式,确保后续处理统一。
| 格式 | 扩展名 | 说明 |
|---|---|---|
| ------ | -------- | ------ |
| 已支持 | .md, .txt, .markdown | 直接跳过,无需转换 |
| 文档 | .pdf, .docx, .pptx | Word/PDF/PPT |
| 表格 | .xlsx, .xls | Excel |
| 数据 | .html, .csv, .json, .xml | 网页/结构化数据 |
| 其他 | .epub, .rtf | 电子书/富文本 |
脚本自动检测并使用可用的转换工具(按优先级):
python -m markitdown(推荐,需 pip install markitdown[all],完整格式支持)uvx markitdown(需安装 uv,可能缺少部分可选依赖)pip install markitdown[all] 安装$env:PYTHONIOENCODING="utf-8"; python scripts/convert_to_md.py <file1> [file2] ...
.md/.txt 文件自动跳过output/YYYYMMDD/<原文件名>_raw.md# CONVERTED_FILES / # SKIPPED / # ERRORS 三个段落脚本路径:scripts/convert_to_md.py(相对于本Skill目录)
在提炼前,对新文章与已有摘要进行逐级去重,避免重复处理:
| 级别 | 依据 | 说明 |
|---|---|---|
| ------ | ------ | ------ |
| L1 | 原文链接精确匹配 | 去除UTM等追踪参数后比较,最可靠 |
| L2 | 标题归一化精确匹配 | 去除空格、标点、大小写后比较 |
| L3 | 标题相似度 ≥ 0.85 | 使用编辑距离算法,阈值默认0.85 |
output/ 下所有日期目录的已有MD文件--date 参数限制扫描范围# 方式1:直接传入文章文本
$env:PYTHONIOENCODING="utf-8"; python scripts/dedup_articles.py --new "文章标题1" "文章标题2"
# 方式2:传入文件路径
$env:PYTHONIOENCODING="utf-8"; python scripts/dedup_articles.py --files <f1> [f2] ...
# 限制扫描日期范围
$env:PYTHONIOENCODING="utf-8"; python scripts/dedup_articles.py --new "标题" --date 20260609 20260610
# 输出JSON格式
$env:PYTHONIOENCODING="utf-8"; python scripts/dedup_articles.py --new "标题" --json
# 调整相似度阈值
$env:PYTHONIOENCODING="utf-8"; python scripts/dedup_articles.py --new "标题" --threshold 0.9
脚本路径:scripts/dedup_articles.py(相对于本Skill目录)
所有Markdown文件生成后,运行脚本生成汇总Excel:
$env:PYTHONIOENCODING="utf-8"; python scripts/create_summary_xlsx.py <md1> [md2] ...
[md2] ... :所有生成的Markdown摘要文件路径output/YYYYMMDD/汇总_YYYYMMDD.xlsx(同日内多次处理自动追加)脚本路径:scripts/create_summary_xlsx.py(相对于本Skill目录)
Excel生成后,运行脚本生成"投研观点集思录"HTML网页。支持三种调用方式:
$env:PYTHONIOENCODING="utf-8"; python scripts/create_summary_html.py
自动扫描 output/当天YYYYMMDD/ 目录中的 .md 文件,仅包含当日文章。
$env:PYTHONIOENCODING="utf-8"; python scripts/create_summary_html.py --date 20260610
只包含指定日期目录下的文章。也可指定日期范围(含两端):
$env:PYTHONIOENCODING="utf-8"; python scripts/create_summary_html.py --date 20260609 20260610
$env:PYTHONIOENCODING="utf-8"; python scripts/create_summary_html.py <md1> [md2] ...
output/YYYYMMDD/投研观点集思录.html(YYYYMMDD为运行当日)脚本路径:scripts/create_summary_html.py(相对于本Skill目录)
references/html_design_spec.md| 列 | 类型 | 说明 |
|---|---|---|
| ---- | ------ | ------ |
| ID | 自动编号 | 序号 |
| 原文标题 | 文本 | 文章标题 |
| 发布日期 | 日期(YYYY-MM-DD) | 发布日期 |
| 发布作者 | 文本 | 发布作者 |
| 原文链接 | 超链接文本 | 原文链接 |
| 核心观点 | 文本 | 核心观点 |
| 投资建议 | 文本 | 投资建议 |
| 判断方向 | 单选 | 🔴强看多 / 🟠偏多 / ⚪中性 / 🔵偏空 / 🟢强看空 |
| 分析逻辑 | 多选 | 基本面驱动/资金面驱动/政策驱动/技术面驱动/事件驱动/产业链驱动 |
| 关联标签 | 文本 | 逗号分隔,可附(看多)/(看空) |
| 关注标的 | 文本 | 具体可交易标的,逗号分隔,最多10个 |
| 时效性 | 单选 | 短期(1-5日)/中期(1-4周)/长期(1月以上) |
| 原文摘要 | 文本 | 原文摘要 |
output/YYYYMMDD/output/YYYYMMDD/YYYYMMDD_N_作者.mdoutput/YYYYMMDD/汇总_YYYYMMDD.xlsx(同日内多次处理自动追加)output/YYYYMMDD/投研观点集思录.htmloutput/YYYYMMDD/ 子目录中,按日期组织,支持同日内多次追加共 3 个版本