← 返回
未分类 Key

meta-skills

自我进化的元技能系统,用于管理和优化其他技能的策略。当用户提到"技能优化"、"策略管理"、"自我进化"、"元认知"、"技能迭代"、"性能监控"、"自动改进"、"技能合并"、"组合技能"等关键词时触发。支持策略版本管理、执行日志分析、自动反思、策略变异、离线验证、渐进上线和技能合并等核心能力。现支持 LLM 驱动的反思和验证。
自我进化的元技能系统,用于管理和优化其他技能的策略。当用户提到"技能优化"、"策略管理"、"自我进化"、"元认知"、"技能迭代"、"性能监控"、"自动改进"、"技能合并"、"组合技能"等关键词时触发。支持策略版本管理、执行日志分析、自动反思、策略变异、离线验证、渐进上线和技能合并等核心能力。现支持 LLM 驱动的反思和验证。
A_Shengle
未分类 community v1.0.2 3 版本 93333.3 Key: 需要
★ 0
Stars
📥 14
下载
💾 0
安装
3
版本
#latest

概述

Meta Skill - 自我进化的元技能系统 (v2.1)

Meta Skill 是一个能够自我进化的元技能系统,它通过观察、反思、变异、验证和上线的闭环,持续优化其他技能的表现。

v2.0: 引入真正的 LLM 驱动反思和验证,不再是 Mock 实现。

v2.1: 大幅提升用户体验(友好错误提示、快速启动向导、深度 FAQ/反模式、完整恢复策略、扩展开发指南、输出确定性保障)。

核心理念

不是替代智能,而是增强智能。 Meta Skill 不直接处理用户请求,而是管理那些处理请求的技能的策略。它像一个优秀的教练,通过观察比赛(执行日志)、分析战术(反思)、调整训练方案(变异)、验证效果(离线测试)来提升团队表现。

v2.0 重大改进:

  • 真正的 LLM 集成: 反思器现在真正调用 LLM 分析日志,不再是硬编码规则
  • 真实的策略验证: 验证器现在真正调用 LLM 执行策略,不再是 Mock 模拟
  • 统一的 LLM 客户端: 支持 OpenAI、Claude、Ollama、自定义端点
  • 多算子组合变异: 变异器现在支持同时应用多个变异算子
  • 标准测试集格式: 定义了标准的测试集 JSON Schema
  • 测试集验证和生成工具: 确保测试集质量

系统架构

┌─────────────────────────────────────────────────────────────┐
│                     Meta Skill Runtime                      │
│                                                             │
│  ┌─────────────────┐  ┌─────────────────┐                  │
│  │   安全内核       │  │  可进化策略层    │                  │
│  │ (Hardened Core) │  │ (Evolving Layer)│                  │
│  │                 │  │                 │                  │
│  │ · 策略加载器    │  │ · 调度策略     │                  │
│  │ · 执行沙箱      │  │ · 评估策略     │                  │
│  │ · 日志&监控     │  │ · 优化策略     │                  │
│  │ · 回滚控制器    │  │ · 反思策略     │                  │
│  │ · 权限守卫      │  │ · 进化控制策略 │                  │
│  └────────┬────────┘  └────────┬────────┘                  │
│           │                    │                            │
│           └────────┬───────────┘                            │
│                    │                                        │
│  ┌─────────────────▼───────────────────┐                    │
│  │        策略版本管理 & 元认知管道     │                    │
│  └─────────────────┬───────────────────┘                    │
└────────────────────┼────────────────────────────────────────┘
                     │
         ┌───────────┴───────────┐
         │                       │
  ┌──────▼──────┐        ┌──────▼──────┐
  │ Skill Pool  │        │  LLM Backend│  ← v2.0: 真实 LLM 集成
  └─────────────┘        └─────────────┘

工作流程 (v2.0 更新)

1. 触发机制

Meta Skill 在以下情况下自动启动:

  • 定时触发: 每 N 次技能调用或每 M 小时
  • 事件触发:
  • 调度成功率在滑动窗口内下降 5%
  • 新类型的错误日志突然增多
  • 用户显式反馈不满(连续两次重新生成)
  • 手动触发: 用户明确要求优化或分析技能表现

2. 反思器 (Reflector) - v2.0: LLM 驱动

v2.0 重大改进: 现在真正调用 LLM 分析日志,不再是硬编码规则!

调用 LLM 分析近期的执行日志,识别问题和优化机会。

使用方式:

python scripts/reflector_v2.py --skill-name <skill-name> --time-window 24h \
  --llm-provider openai --llm-model gpt-4

LLM 反思 Prompt:

反思器会使用精心设计的 Prompt 模板,让 LLM 分析:

  1. 路由策略是否存在模式缺陷
  2. 评估标准是否与用户真实满意度一致
  3. 发现哪些新的任务类型未被很好地处理
  4. 生成具体的优化建议

输出: JSON 格式的分析报告,包含:

  • 识别的问题类型和严重程度
  • 优化建议(目标策略、具体操作、预期收益)
  • 困难案例样本
  • 新增: LLM 模型信息、置信度评分

回退机制: 如果 LLM 调用失败,会自动回退到基于规则的分析(简化版)。

3. 策略变异器 (Mutator) - v2.0: 多算子组合

v2.0 重大改进: 支持同时应用多个变异算子,生成多个候选策略!

根据反思器的输出,生成新的策略候选。

变异算子:

  • CLARIFY: 添加更明确的约束或排除项
  • EXEMPLIFY: 从困难案例池生成新的 few-shot 示例
  • ROLE_SET: 调整系统角色设定
  • THRESHOLD_ADJUST: 修改数值型规则参数
  • RULE_ADD: 增加新的 if-then 规则
  • DECOMPOSE: 将复杂决策拆成多步

v2.0 新增特性:

  • 多算子组合: 如果不冲突,可以同时应用多个算子
  • 算子冲突检测: 避免不兼容的算子组合
  • 多个候选策略: 为每个优化建议生成一个候选策略
  • 智能版本管理: 根据算子类型自动选择合适的版本号递增级别

使用方式:

python scripts/mutator_v2.py --reflection-file <reflection.json> --output-dir ./candidates/ \
  --max-candidates 3

输出: 多个候选策略文件(JSON 格式)

4. 离线验证器 (Offline Validator) - v2.0: LLM 驱动

v2.0 重大改进: 现在真正调用 LLM 执行策略,不再是 Mock 模拟!

在新策略上线前进行回归测试和性能评估。

v2.0 验证流程:

  1. 加载候选策略和测试集
  2. 对于每个测试用例:
    • 填充策略的 Prompt 模板
    • 真正调用 LLM 获取输出
    • 解析 LLM 输出
    • 与期望输出对比
  3. 计算成功率、成本、延迟等指标
  4. 与当前策略对比,判断是否达到上线门槛

使用方式:

python scripts/validator_v2.py --candidate-policy <policy.json> --test-set ./test_sets/golden.json \
  --llm-provider openai --llm-model gpt-4

v2.0 验证指标:

  • 成功率(与期望输出匹配)
  • 平均延迟(真实 LLM 调用延迟)
  • 平均 Token 消耗(真实值)
  • 与当前策略的对比

5. 渐进上线 (Gradual Rollout)

通过影子模式、A/B 测试、全量上线三个阶段安全部署新策略。

阶段说明:

  • Stage 1 - 影子模式: 新策略并行运行但不实际执行,仅记录决策
  • Stage 2 - A/B 测试: 10% 流量使用新策略,监控指标
  • Stage 3 - 全量上线: 新策略成为默认版本,持续监控 24 小时

使用方式:

python scripts/rollout.py --policy-id <policy-id> --stage shadow

LLM 配置 (v2.0 新增)

支持的 LLM 提供商

  1. OpenAI (GPT-4, GPT-3.5)
  2. Claude (Anthropic)
  3. Ollama (本地模型,如 Llama 3)
  4. 自定义端点 (OpenAI 兼容接口)

配置方式

方式 1: 环境变量(推荐)

export OPENAI_API_KEY="sk-..."
export ANTHROPIC_API_KEY="sk-..."

方式 2: 配置文件

创建 config.json:

{
  "provider": "openai",
  "model": "gpt-4",
  "api_base": "",
  "temperature": 0.7,
  "max_tokens": 4096,
  "timeout": 60,
  "max_retries": 3
}

方式 3: 命令行参数

python scripts/reflector_v2.py --skill-name xxx \
  --llm-provider openai \
  --llm-model gpt-4 \
  --llm-config config.json

LLM 客户端统一接口

llm_client.py 提供了统一的 LLM 调用接口:

from llm_client import LLMClient, LLMProvider

# 创建客户端
client = LLMClient(
    provider=LLMProvider.OPENAI,
    model="gpt-4",
    temperature=0.7
)

# 生成文本
response = client.complete("你的提示词")

# 生成 JSON(自动解析)
json_response = client.complete_json("生成 JSON 格式的输出")

特性:

  • 自动重试(指数退避)
  • 超时控制
  • 错误 handled
  • 支持多种后端

测试集格式 (v2.0 标准化)

标准格式规范

测试集必须是 JSON 数组,每个测试用例包含:

必需字段:

  • id: 测试用例唯一标识符
  • user_request: 用户输入的请求文本
  • expected_output: 期望的策略输出

可选字段:

  • available_skills: 可用的技能列表(用于路由策略测试)
  • context: 额外上下文信息
  • tags: 测试用例标签(用于分类和筛选)
  • difficulty: 难度等级(easy/medium/hard)
  • created_at: 创建时间
  • source: 测试用例来源(real_log/few_shot/manual)

示例:

[
  {
    "id": "test_001",
    "user_request": "帮我翻译这段英文",
    "expected_output": {
      "selected_skill": "translation-skill",
      "confidence": 0.95
    },
    "available_skills": ["translation-skill", "qa-skill"],
    "tags": ["translation", "easy"],
    "difficulty": "easy",
    "source": "manual"
  }
]

测试集工具

验证测试集格式:

python scripts/test_set_validator.py --test-set ./assets/test_sets/golden.json

生成测试集:

python scripts/test_set_generator.py --logs-file ./logs/skill_execution.json \
  --skill-name my-skill \
  --output ./assets/test_sets/my-skill/golden.json

策略管理

策略包结构

每个策略是一个版本化的 JSON 包:

{
  "policy_id": "routing_v2.3",
  "type": "routing",
  "prompt_template": "你是一个调度专家...",
  "few_shot_examples": [...],
  "rules": {
    "max_retries": 2,
    "prefer_local_model_for_short_text": true
  },
  "metadata": {
    "version": "2.3",
    "parent": "routing_v2.2",
    "performance": {"success_rate": 0.94, "avg_latency_ms": 320},
    "created_by": "auto-evolution",
    "introduced_change": "Added rule to prefer lightweight model"
  }
}

五大核心策略

  1. Routing Policy: 决定用哪个技能或技能组合
  2. Evaluation Policy: 定义如何审查技能输出
  3. Optimization Policy: 定义如何对技能进行变异
  4. Reflection Policy: 元认知 Prompt,分析日志并输出洞察
  5. Evolution Control Policy: 决定何时触发进化、允许哪种变异

安全内核

内核确保系统在任何情况下都能保持稳定:

  • Policy Loader: 加载并验证策略格式
  • Execution Sandbox: 所有策略执行通过统一接口
  • Immutable Logger: 只追加日志,记录所有决策
  • Rollback Manager: 监控 KPI,自动回滚到稳定版本
  • Permission Guard: 三级权限控制(L0/L1/L2)

快速开始 (v2.0 更新)

1. 配置 LLM

方式 1: 使用 OpenAI

export OPENAI_API_KEY="sk-..."

方式 2: 使用本地 Ollama

# 安装 Ollama: https://ollama.com
ollama pull llama3

# 测试
python scripts/llm_client.py --provider ollama --model llama3 \
  --prompt "Hello" --create-config

2. 初始化 Meta Skill

python scripts/init_meta_skill.py --skill-name <target-skill>

这会:

  • 为目标技能创建初始策略
  • 设置日志收集器
  • 初始化测试集

3. 查看技能表现

python scripts/status.py --skill-name <skill-name>

4. 手动触发优化 (v2.0)

# 1. 反思(LLM 驱动)
python scripts/reflector_v2.py --skill-name <skill-name> --time-window 24h \
  --llm-provider openai --llm-model gpt-4

# 2. 变异(多算子组合)
python scripts/mutator_v2.py --reflection-file logs/reflection_*.json \
  --output-dir policies/<skill-name>/routing/candidates/

# 3. 验证(LLM 驱动)
python scripts/validator_v2.py --candidate-policy policies/.../candidate_*.json \
  --test-set assets/test_sets/golden.json \
  --llm-provider openai --llm-model gpt-4

# 4. 上线
python scripts/rollout.py --policy-id <policy-id> --stage shadow

5. 查看优化历史

python scripts/history.py --skill-name <skill-name> --limit 10

最佳实践 (v2.0 更新)

何时使用 Meta Skill

  • 技能表现出现明显下降
  • 需要处理新的任务类型
  • 用户反馈频繁出现相同问题
  • 想要系统化地改进技能

何时不要使用 Meta Skill

  • 技能刚创建,数据不足(需要至少 10 条日志,之前是 100 条)
  • 问题可以通过简单配置解决
  • 需要人工判断的主观优化

监控指标

关注以下核心指标:

  • 调度成功率: 应保持在 90% 以上
  • 用户满意度: 通过隐式反馈(重新生成率)衡量
  • 平均延迟: 应在可接受范围内
  • 成本效率: Token 使用是否合理
  • v2.0 新增: LLM 调用成功率、LLM 响应时间

v2.0 使用建议

  1. 从小模型开始: 如果成本敏感,可以先使用 GPT-3.5 或本地模型
  2. 监控 LLM 成本: 反思和验证会消耗 LLM 调用,注意成本
  3. 定期更新测试集: 使用 test_set_generator.py 从真实日志生成测试集
  4. 验证测试集格式: 使用 test_set_validator.py 确保格式正确

文件结构 (v2.0 更新)

meta-skill/
├── SKILL.md                    # 本文件
├── config.json                 # v2.0: LLM 配置文件
├── scripts/                    # 核心脚本
│   ├── llm_client.py          # v2.0: LLM 客户端统一接口
│   ├── reflector.py            # v1.0: 基于规则的反思器(已废弃)
│   ├── reflector_v2.py        # v2.0: LLM 驱动的反思器
│   ├── mutator.py             # v1.0: 单算子变异器(已废弃)
│   ├── mutator_v2.py          # v2.0: 多算子组合变异器
│   ├── validator.py            # v1.0: Mock 验证器(已废弃)
│   ├── validator_v2.py        # v2.0: LLM 驱动的验证器
│   ├── rollout.py             # 上线管理
│   ├── merger.py              # 技能合并器
│   ├── status.py              # 状态查看
│   ├── history.py             # 历史记录
│   ├── optimize.py            # 一键优化
│   ├── test_set_validator.py  # v2.0: 测试集验证工具
│   ├── test_set_generator.py  # v2.0: 测试集生成工具
│   └── init_meta_skill.py     # 初始化
├── references/                 # 参考文档
│   ├── policy_templates.md    # 策略模板
│   ├── mutation_operators.md  # 变异算子详解
│   └── metrics_guide.md       # 指标指南
├── policies/                   # 策略存储
│   ├── routing/               # 路由策略
│   ├── evaluation/            # 评估策略
│   ├── optimization/          # 优化策略
│   ├── reflection/            # 反思策略
│   └── evolution_control/     # 进化控制策略
├── logs/                       # 执行日志
└── assets/                     # 资源文件
    └── test_sets/             # v2.0: 标准测试集
        ├── test_set_schema.json  # v2.0: JSON Schema
        └── golden.json           # 黄金测试集

示例场景 (v2.0 更新)

场景 1: 技能调度成功率下降

# 1. 查看状态
python scripts/status.py --skill-name translation-skill

# 2. 触发反思(LLM 驱动)
python scripts/reflector_v2.py --skill-name translation-skill --time-window 24h \
  --llm-provider openai --llm-model gpt-4

# 3. 查看分析结果
cat logs/reflection_20260523.json

# 4. 生成候选策略(多算子组合)
python scripts/mutator_v2.py --reflection-file logs/reflection_20260523.json \
  --output-dir policies/routing/candidates/

# 5. 验证候选(LLM 驱动)
python scripts/validator_v2.py \
  --candidate-policy policies/routing/candidates/routing_v2.4.json \
  --test-set assets/test_sets/golden.json \
  --llm-provider openai --llm-model gpt-4

# 6. 渐进上线
python scripts/rollout.py --policy-id routing_v2.4 --stage shadow

场景 2: 使用本地模型(Ollama)

# 1. 安装 Ollama
# macOS: brew install ollama
# Linux: curl -fsSL https://ollama.com/install.sh | sh

# 2. 下载模型
ollama pull llama3

# 3. 使用 Ollama 进行反思
python scripts/reflector_v2.py --skill-name my-skill --time-window 24h \
  --llm-provider ollama --llm-model llama3

# 4. 验证(同样使用 Ollama)
python scripts/validator_v2.py --candidate-policy candidate.json \
  --test-set assets/test_sets/golden.json \
  --llm-provider ollama --llm-model llama3

故障排查 (v2.0 更新)

问题: LLM 调用失败

可能原因:

  • API Key 未设置
  • API 配额用尽
  • 网络问题
  • 模型不存在

解决方案:

# 检查 API Key
echo $OPENAI_API_KEY

# 测试 LLM 连接
python scripts/llm_client.py --provider openai --model gpt-4 \
  --prompt "Hello" --create-config

# 查看详细错误
python scripts/reflector_v2.py --skill-name xxx --llm-provider openai 2>&1 | tee debug.log

问题: 验证器运行太慢

可能原因:

  • 测试集太大
  • LLM 响应慢
  • 并发度不够

解决方案:

# 减少测试集大小
python scripts/test_set_generator.py --logs-file xxx.json \
  --max-examples 10 --output small_test_set.json

# 使用更快的模型
python scripts/validator_v2.py --candidate-policy xxx.json \
  --llm-model gpt-3.5-turbo  # 比 GPT-4 快

# 使用本地模型(无网络延迟)
python scripts/validator_v2.py --candidate-policy xxx.json \
  --llm-provider ollama --llm-model llama3

问题: 反思器输出质量差

可能原因:

  • 日志数据不足
  • Prompt 模板不合适
  • 模型能力不足

解决方案:

# 增加时间窗口
python scripts/reflector_v2.py --skill-name xxx --time-window 72h

# 使用更强的模型
python scripts/reflector_v2.py --skill-name xxx \
  --llm-provider openai --llm-model gpt-4-turbo

# 自定义反思 Prompt
# 编辑 reflector_v2.py 中的 REFLECTION_PROMPT_TEMPLATE

v2.0 改进总结

改进项v1.0v2.0
-------------------
反思器硬编码规则LLM 驱动
验证器Mock 模拟LLM 驱动
变异器单算子多算子组合
LLM 支持OpenAI/Claude/Ollama/自定义
测试集格式不统一标准 JSON Schema
测试集工具验证器 + 生成器
最小样本量10010(降低门槛)
回退机制规则分析(LLM 失败时)

相关资源

  • references/policy_templates.md: 五大策略的详细模板
  • references/mutation_operators.md: 变异算子完整列表
  • references/metrics_guide.md: 指标定义和计算方法
  • config.json: LLM 配置文件示例
  • assets/test_sets/test_set_schema.json: 测试集 JSON Schema

v2.1 发布日期: 2026-06-09

相关文档

  • README.md - 项目说明和快速开始
  • FAQ.md - 常见问题解答(17+ 问题,覆盖从入门到高级场景)
  • CAPABILITIES.md - 能力边界说明(能做什么/不能做什么/替代方案)
  • ANTI_PATTERNS.md - 反模式指南(12 个常见错误 + 真实案例和修复方案)
  • RECOVERY.md - 灾难恢复策略(P0-P4 级故障的自动和手动恢复方案)
  • EXTENSIBILITY.md - 扩展开发指南(如何添加新 LLM 后端、策略类型、变异算子)
  • DETERMINISM.md - 输出确定性保障(6 大策略解决模型随机性问题)
  • RELEASE_v2.0.md - v2.0 发布说明
  • CHANGELOG_v2.md - 详细变更日志

记住: Meta Skill 的目标是让系统变得更好,而不是更复杂。始终关注用户价值,而非技术炫技。

版本历史

共 3 个版本

  • v1.0.2 Initial release 当前
    2026-06-09 02:56 安全 安全
  • v1.0.1 Initial release
    2026-06-09 02:20 安全 安全
  • v1.0.0 Initial release
    2026-06-09 01:39 安全 安全

安全检测

腾讯云安全 (Keen)

安全,无风险
查看报告

腾讯云安全 (Sanbu)

安全,无风险
查看报告

🔗 相关推荐

ai-intelligence

self-improving agent

pskoett
捕获经验教训、错误和纠正,以实现持续改进。使用时机:(1)命令或操作意外失败;(2)用户纠正……
★ 4,055 📥 795,902
ai-intelligence

Self-Improving + Proactive Agent

ivangdavila
自我反思+自我批评+自我学习+自组织记忆。智能体评估自身工作、发现错误并持续改进。
★ 1,349 📥 317,697
security-compliance

Skill Vetter

spclaudehome
AI智能体技能安全预审工具。安装ClawdHub、GitHub等来源技能前,检查风险信号、权限范围及可疑模式。
★ 1,210 📥 266,150