anthropic发了篇长文，介绍面向长期运行应用开发的Harnessdesi

蚁工厂 2026-03-25 09:03:16

anthropic发了篇长文，介绍面向长期运行应用开发的Harness designwww.anthropic.com/engineering/harness-design-long-running-apps长时间自主开发应用的效果很大程度上取决于模型外部的 harness 设计，而不只是模型本身。单个 agent 做长任务，常见两类问题：1. 上下文变长后逐渐失去连贯性，甚至因为快到上下文上限而提前收尾。2. 自评偏乐观，尤其在设计这类主观任务里，模型很容易自我感觉良好。

对问题1 文章的解决办法是把“生成”和“评估”拆开，借鉴 GAN 的思路。具体会扩展成 3 个 agent：Planner：把一句话需求扩成完整产品规格Generator：按阶段实现功能Evaluator：像 QA 一样实际点应用、测接口、查数据库，并按阈值打分。对旧模型，context reset + 结构化交接比单纯压缩上下文更有效；对更强的新模型，这些脚手架可以逐步简化。

对问题2 文章里会先把“审美”拆成可评分标准：设计整体性、原创性、工艺、功能可用性。然后让生成 agent 做页面，让评估 agent 用 Playwright 实际打开页面、操作、截图、批评，再把反馈喂回去循环 5 到 15 轮。这样才会出现更大胆、更有辨识度的设计。

How I AI

0 阅读：0

感谢大家的关注

作者最新文章

1

猝死删库skill，也顺便把浏览器历史给删了吧

2

MiniMax的官方Skills库更新了下地址：github.com/MiniM

3

美团又发新模型啦。原生多模态模型LongCat-Next，一个模型同时支持文字、

4

从零开始在JAX中进行语言建模与分布式训练的指南www.chuyishang.c

5

AI：我不要你觉得，我要我觉得

6

疑似DeepSeek工作人员的爆料（现在已删）

7

中国计算机学会关于 NeurIPS 禁止部分机构参与投稿的声明近日，NeurIP

8

老图重发

9

cursor发布Composer2模型技术报告了cursor.com/resou

10

anthropic发了篇长文，介绍面向长期运行应用开发的Harness desi

热门分类

科技TOP

1

vivoX300s的爆料也来了，外围规格全部拉满了。6.78英寸144Hz蔡

2

尚界Z7预售价22.98万起，Z7T预售价23.98万起，CLTC续航至高9

3

追觅手机研发首期投入100亿追觅手机开始计划投资100亿，目标到2027年手机团

4

成本压力下，各家都在温和调整3月16日0点，OPPO商城正式开启调价：•一加1

5

苹果变形脸表情火了这个表情看上去不太聪明啊有一股子不聪明又透露着好奇和天真无邪的

6

国家超算互联网免费支持OpenClaw国家超算互联网免费给OpenCla

7

给国内的ai排排座次，感觉有的高了，有的低了，有的太高了，有的太低了。

8

当下高端手机市场同质化严重，各大品牌陷入参数堆砌的内卷怪圈，追觅AURORA手机

9

苹果iOS26.4Beta4可以关掉液态玻璃刺眼动效其实关于玻璃透明效果，

10

真我暂停新机研发啊？？？假的吧，咋可能，前不久不是刚回归OPPO吗，而且rea

科技最新文章

1

荣耀Power2才是真·闷声发财王者WIN系列还在缺货水深火热，Power

2

内存条价格暴跌这事儿，简直像坐过山车！深圳华强北电子市场里，DDR516GB单

3

高科技这块，居然被三轮车硬生生闯进来了谁能想到，2026年最颠覆的科技出圈，居然

4

刚刚！华为小米不涨价的真相曝光！结合一加中国区CEO李杰的“透底”和供应链消息

5

荣耀X80i升级金属中框和1.5K屏，X80i都金属中框了，那定位更高的X80估

6

华为今年可能测试EUV光刻机就是深圳那台原型机顺利的话明年5nm规模量产最

7

当华为畅享90promax续航19小时的测试出来后，震惊了我的三观。知道

8

等等党看到天都塌了[捂脸哭]因为苦苦等待没有及时出手，迎来的却是全面涨价，这下直接

9

哈工大这回算是把天捅破了！谁都没想到，麒麟9020芯片只是个幌子，真正让美国和台

10

iPhone18Pro依旧5000系铝合金很多今年没有买17Pro的同学肯定