anthropic发了篇长文,介绍面向长期运行应用开发的Harnessdesi

蚁工厂 2026-03-25 09:03:16

anthropic发了篇长文,介绍面向长期运行应用开发的Harness designwww.anthropic.com/engineering/harness-design-long-running-apps长时间自主开发应用的效果很大程度上取决于模型外部的 harness 设计,而不只是模型本身。单个 agent 做长任务,常见两类问题:1. 上下文变长后逐渐失去连贯性,甚至因为快到上下文上限而提前收尾。2. 自评偏乐观,尤其在设计这类主观任务里,模型很容易自我感觉良好。

对问题1 文章的解决办法是把“生成”和“评估”拆开,借鉴 GAN 的思路。具体会扩展成 3 个 agent:Planner:把一句话需求扩成完整产品规格Generator:按阶段实现功能Evaluator:像 QA 一样实际点应用、测接口、查数据库,并按阈值打分。对旧模型,context reset + 结构化交接 比单纯压缩上下文更有效;对更强的新模型,这些脚手架可以逐步简化。

对问题2 文章里会先把“审美”拆成可评分标准:设计整体性、原创性、工艺、功能可用性。然后让生成 agent 做页面,让评估 agent 用 Playwright 实际打开页面、操作、截图、批评,再把反馈喂回去循环 5 到 15 轮。这样才会出现更大胆、更有辨识度的设计。

How I AI

0 阅读:0
蚁工厂

蚁工厂

感谢大家的关注