
AI器用时时'偷懒'的背后,是敛迹机制的失。本文通过具身机器东说念主场景中的真实案例,揭示AI系统在职务推论中的三大恶疾,并度流露软敛迹与硬敛迹的博弈。从四层混敛迹架构到气象机锁定机制迪庆钢绞线厂,这套工程化处分案正在重塑AI产物的可靠圭臬。
、问题的来源:为什么灵巧的 AI 会”偷懒”?先,在这里共享往时实习的三个月里,我驰驱在业务线(具身机器东说念主):
场景 1:用户说”带我去逛下各个场景”,AI 复兴:”好的,我这就带你逛逛…”——给了提议,但它莫得践诺行动。
场景 2:用户要求”生成份方法法式的红头文献”,AI 说”没问题”,成果委派的文档字体高大、字号造作——输出与委派不匹配。
场景 3:多法子任务推论到半,AI 倏得说”已完成”,但践诺上只作念了前两步——提前秘书完成输出质料差。
算作产物东说念主员,我也和时代扣问过给出的论断是:器用集成太多,器用射中率不幽静,模子偷懒
算作产物东说念主,咱们风气说”用户体验”。但在 AI 系统中,我永久以为可靠比纯真困难,可展望比创造困难。二月份 Harness Engineering(敛迹工程)的驱动兴起,渐渐有了些尝试和念念考,在这里记载共享。
二、中枢细察:软敛迹 vs 硬敛迹在探索处分案时,我发现敛迹机制分为两类,但它们的互异却不小。
2.1 软敛迹:Prompt 敛迹这是常见的式——通过悉心想象的领导词来引 AI 行动:
“`
“对于复杂任务,你须先生成贪图,然后迟缓推论。
每完成步都要讲演用户进程。
不要宣称’已完成’除非你果然调用了器用。”
“`
点:完了资本低,修改纯真,适格调指。
纰谬:依赖 AI 的”自发”,效用率波动大(60-90),在长高下文或压力场景下容易失。
2.2 硬敛迹:编码敛迹这是纪律化的强制逻辑——AI 法绕过代码划定:
“`python
# 前置条款检查
if not plan_generated
raise Error(“须先制定贪图”)
# 器用调用考据
if not tool_calls:
# AI 偷懒了,触发强制行动
force_action
# 成果考据
if not verify_evidence(result):
raise Error(“未能提供推论笔据”)
“`
点: 强制推论,效用率幽静在 95-99,不受高下文长度影响。
纰谬:完了资本,需要编写宽广代码,纯真较低。
工程化原则:不要过度工程化,仅在agent出问题的地过问元气心灵
三、实战案:四层混敛迹架构基于上述细察,咱们尝试了套四层混敛迹体系。
Layer 1:Prompt 敛迹(行动准则)在系统层面界说基本行动准则,适用于格调指和范围评释:
– “口吻业友好”
– “不笃信时坦诚评释”
– “先使用华文回答”
这层的作用是让 AI”知说念应该怎样作念”。
Layer 2:语义考据(参数预校验)在 AI 推论前,对其意图和参数进行预校验,止输入:
“`python
# 示例:方法指示流露
用户输入:”标题用黑体三号字,红,加粗”
流露器索要:
– 字体:SimHei(黑体)
– 字号:16pt(三号)
– 颜:#FF0000(红)
– 方法:bold(加粗)
要是用户说”用大大号字”→ 阻挠:”未识别的字号描绘”
“`
这层的作用是止 AI 诬捏不存在的参数。
Layer 3:气象机锁定(困难的层,止偷懒)这是通盘架构的中枢巧念念——通过气象机强制 AI 提供可考据的笔据。
中枢逻辑:
1. 前置条款检查:须有贪图、有器用日记、有委派物笔据
2.驻留期间监控:每个法子的推论期间不可相配短
3.审计日记记载:每步都有迹可循
果:AI 法说”已完成”除非它果然完成了通盘要动作。
Layer 4:成果考据(委派物真实检查)后步是考据委派物的真实:
“`python
# 文献写入考据
if not os.path.exists(file_path):
raise Error(“文献未践诺创建”)
actual_size = os.path.getsize(file_path)
if abs(actual_size
– expected_size) > 100:
raise Error(“文献大小与预期不符”)
# 数据无缺考据
if not validate_data_integrity(result):
raise Error(“数据考据失败”)
“`
这层确AI 的甘愿与践诺委派致。
四、气象机锁定的妙用:让 AI 法”摸鱼”让我入共享下这个咱们发现的工程巧念念——气象机锁定机制。
4.1 问题配景在多法子任务中,AI 平庸出现以下行动:
– 推论到半就说”已完成”
– 跳过困难法子,平直敷陈奏效
– 器用调用失败后不重试,平直撤销
传统作念法是在 Prompt 中强调”不要偷懒”,但这种“提议式敛迹”果有限。
4.2 气象机处分案咱们引入了气象机锁定,钢绞线中枢是个浮浅的原则:莫得笔据,就不可前进。
推论历程:
“`
法子 N 驱动
↓
前置条款检查
– 有贪图吗?
– 上步完成了吗?
– 有要的高下文吗?
↓ (任不空隙 → 抛出相配)
让 AI 生成器用调用
↓
检查:有器用调用吗?
– 有 → 推论并记载日记
– 莫得 → 触发”强制行动”条约
↓
检查成果:有委派物笔据吗?
– 文献旅途?数据成果?API 反馈?
– 有 → 符号为”已完成”,进入下步
– 莫得 → 符号为”失败”,触发复原计策
↓
通盘法子完成后
– 考据:完成的法子数 = 总法子数?
– 是 → 复返奏效
– 否 → 复返部分失败敷陈
“`
4.3 气象机在模子器用调用化的哄骗用户央求
↓
[ 1 层:意图分类器] → 削弱到 3-5 个候选技能
↓
[ 2 层:语义一样度匹配] → 排序并选出
↓
[ 3 层:参数预校验] → 检查要参数是否王人全
↓
[ 4 层:成果考据器] → 阐发器用调用达到预期果
技巧 1:意图分类器(层过滤)
中枢念念想:先用划定削弱范围,再让 LLM 作念缜密有筹算。 不是把技能一起丢给 LLM,而是先用个轻量的意图分类器
技巧 2:语义一样度匹配 + 置信度阈值(二层过滤)
中枢念念想:用向量一样度量化”匹配程度”,而不是依赖 LLM 的主不雅判断。 当我通过意图分类器削弱到 3-5 个候选技能后,会用镶嵌模子狡计语义一样度
技巧 3:参数预校验(三层过滤)
中枢念念想:在调用器用之前,先检查要参数是否王人全,避”调用失败后再重试”的低轮回。 每个技能都有明确的 required_parameters 界说(参数缺失机触发追问)
五、实战案例:常见问题与化案以下是我在践诺场景中遭逢的典型问题及处分案,仅供念念路参考。
案例 1:机器东说念主”只说不作念”问题:用户说”帮我搜索竞品信息”,机器东说念主复兴”好的,我会帮你搜索…”,但莫得践诺行动。
根因:穷乏器用调用考据机制,AI 不错选择省力的旅途(给提议而不是行动)。
手机号码:15222026333化案:
1. 添加器用调用审计器,检测反馈中是否包含完成声明
2. 要是有完成声明但莫得器用调用记载,强制再行生成
3. 在系统层面树立”说了就作念”的强制条约
案例 2:方法文档频繁出错问题:用户要求”宋体小四,1.5 倍行距”,生成的文档方法高大。
根因:AI 对华文排版术语和洽不准确,且莫得圭臬化映射。
化案:
1. 树立方法术语对照表(如”小四”→”12pt”,”宋体”→”SimSun”)
2. 完了方法指示流露器,强制校验参数有
3. 在输出前进行方法致检查
案例 3:大文献生成被截断问题:生成长敷陈时,文献写到半就住手,内容不无缺。
根因:单次写入过 token 阻隔或缓冲区大小,致截断。
化案:
1. 完了分块写入机制,每块限度在 10,000-13,000 字节(太少调用次数多,太多容易截断)
2. 每块写入后考据无缺
3. 通盘块完成后考据总文献大小
案例 4:器用调用时卡死问题:调用外部 API 时齐集时,通盘任务卡住不动。
根因:穷乏时熔断和重试机制。
化案:
1. 诞生理的时阈值(如 30 秒)
2. 完了指数退缩重试计策(多 3 次,蔓延递加)
3. 提供降案(如主职业失败切换到备用职业)
六、点点念念考:咱们渐渐从关爱模子挪动到关爱系统了这里共享点点近期养虾以过甚他时代尝试的点点念念考吧
2023-2024 年,咱们见证了 AI 本事的爆发式增长。但站在 2026 年的节点回望,决定产物成败的不是模子参数,而是工程化本事。
2023-2024 年,行业的关爱点在于:
“哪个模子强?”(参数鸿沟、理本事、多模态)“Prompt 怎样写好?”(CoT、Few-shot、Role-playing)“怎样微调出垂直域模子?”但到了 2025-2026 年,咱们发现:
主流模子的基线本事也曾迷漫好——GPT-4、Claude、Qwen 等在大多数任务上的施展互异不大用户体验的瓶颈不在模子——而在于“说了不作念”、“提前秘书完成”、“方法高大”这类系统问题可靠成为中枢竞争力——企业客户雅瞻念为 99 的完成率付费,而不是 95 的准确率但不可展望从大模子到openclaw多的是从提议输出到笃信赖福,模子本体是基于概率的引擎——它生成的是”可能的下个 token”,而不是”正确的谜底”。而咱们要作念的中枢即是通过工程技能将概率输出更始为笃信赖福。
算作产物司理,咱们的责任不是追赶新的时代热门,而是把时代更始为用户确切确切赖的产物体验。
这条路还很长,但向也曾昭着。
本文由 @要成为字节小李 原创发布于东说念主东说念主都是产物司理。未经作家许可,箝制转载
题图来自Unsplash,基于CC0条约
相关词条:不锈钢保温 塑料管材设备 预应力钢绞线 玻璃棉板厂家 pvc管道管件胶1.本网站以及本平台支持关于《新广告法》实施的“极限词“用语属“违词”的规定,并在网站的各个栏目、产品主图、详情页等描述中规避“违禁词”。
2.本店欢迎所有用户指出有“违禁词”“广告法”出现的地方,并积极配合修改。
3.凡用户访问本网页,均表示默认详情页的描述,不支持任何以极限化“违禁词”“广告法”为借口理由投诉违反《新广告法》,以此来变相勒索商家索要赔偿的违法恶意行为。
15222026333