迪庆钢绞线厂当 AI 助手驱动”偷懒”：对于 Harness Engineering 的工程化念念考

产品中心 点击次数：135 发布日期：2026-05-28 02:27

AI器用时时'偷懒'的背后，是敛迹机制的失。本文通过具身机器东说念主场景中的真实案例，揭示AI系统在职务推论中的三大恶疾，并度流露软敛迹与硬敛迹的博弈。从四层混敛迹架构到气象机锁定机制迪庆钢绞线厂，这套工程化处分案正在重塑AI产物的可靠圭臬。

、问题的来源：为什么灵巧的 AI 会”偷懒”？

先，在这里共享往时实习的三个月里，我驰驱在业务线（具身机器东说念主）：

场景 1：用户说”带我去逛下各个场景”，AI 复兴：”好的，我这就带你逛逛…”——给了提议，但它莫得践诺行动。

场景 2：用户要求”生成份方法法式的红头文献”，AI 说”没问题”，成果委派的文档字体高大、字号造作——输出与委派不匹配。

场景 3：多法子任务推论到半，AI 倏得说”已完成”，但践诺上只作念了前两步——提前秘书完成输出质料差。

算作产物东说念主员，我也和时代扣问过给出的论断是：器用集成太多，器用射中率不幽静，模子偷懒

算作产物东说念主，咱们风气说”用户体验”。但在 AI 系统中，我永久以为可靠比纯真困难，可展望比创造困难。二月份 Harness Engineering（敛迹工程）的驱动兴起，渐渐有了些尝试和念念考，在这里记载共享。

二、中枢细察：软敛迹 vs 硬敛迹

在探索处分案时，我发现敛迹机制分为两类，但它们的互异却不小。

2.1 软敛迹：Prompt 敛迹

这是常见的式——通过悉心想象的领导词来引 AI 行动：

“`

“对于复杂任务，你须先生成贪图，然后迟缓推论。

每完成步都要讲演用户进程。

不要宣称’已完成’除非你果然调用了器用。”

“`

点：完了资本低，修改纯真，适格调指。

纰谬：依赖 AI 的”自发”，效用率波动大（60-90），在长高下文或压力场景下容易失。

2.2 硬敛迹：编码敛迹

这是纪律化的强制逻辑——AI 法绕过代码划定：

“`python

# 前置条款检查

if not plan_generated

raise Error(“须先制定贪图”)

# 器用调用考据

if not tool_calls:

# AI 偷懒了，触发强制行动

force_action

# 成果考据

if not verify_evidence(result):

raise Error(“未能提供推论笔据”)

“`

点：强制推论，效用率幽静在 95-99，不受高下文长度影响。

纰谬：完了资本，需要编写宽广代码，纯真较低。

工程化原则：不要过度工程化，仅在agent出问题的地过问元气心灵

三、实战案：四层混敛迹架构

基于上述细察，咱们尝试了套四层混敛迹体系。

Layer 1：Prompt 敛迹（行动准则）

在系统层面界说基本行动准则，适用于格调指和范围评释：

– “口吻业友好”

– “不笃信时坦诚评释”

– “先使用华文回答”

这层的作用是让 AI”知说念应该怎样作念”。

Layer 2：语义考据（参数预校验）

在 AI 推论前，对其意图和参数进行预校验，止输入：

“`python

# 示例：方法指示流露

用户输入：”标题用黑体三号字，红，加粗”

流露器索要：

– 字体：SimHei（黑体）

– 字号：16pt（三号）

– 颜：#FF0000（红）

– 方法：bold（加粗）

要是用户说”用大大号字”→ 阻挠：”未识别的字号描绘”

“`

这层的作用是止 AI 诬捏不存在的参数。

Layer 3：气象机锁定（困难的层，止偷懒）

这是通盘架构的中枢巧念念——通过气象机强制 AI 提供可考据的笔据。

中枢逻辑：

1. 前置条款检查：须有贪图、有器用日记、有委派物笔据

2.驻留期间监控：每个法子的推论期间不可相配短

3.审计日记记载：每步都有迹可循

果：AI 法说”已完成”除非它果然完成了通盘要动作。

Layer 4：成果考据（委派物真实检查）

后步是考据委派物的真实：

“`python

# 文献写入考据

if not os.path.exists(file_path):

raise Error(“文献未践诺创建”)

actual_size = os.path.getsize(file_path)

if abs(actual_size

– expected_size) > 100:

raise Error(“文献大小与预期不符”)

# 数据无缺考据

if not validate_data_integrity(result):

raise Error(“数据考据失败”)

“`

这层确AI 的甘愿与践诺委派致。

四、气象机锁定的妙用：让 AI 法”摸鱼”

让我入共享下这个咱们发现的工程巧念念——气象机锁定机制。

4.1 问题配景

在多法子任务中，AI 平庸出现以下行动：

– 推论到半就说”已完成”

– 跳过困难法子，平直敷陈奏效

– 器用调用失败后不重试，平直撤销

传统作念法是在 Prompt 中强调”不要偷懒”，但这种“提议式敛迹”果有限。

4.2 气象机处分案

咱们引入了气象机锁定，钢绞线中枢是个浮浅的原则：莫得笔据，就不可前进。

推论历程：

“`

法子 N 驱动

↓

前置条款检查

– 有贪图吗？

– 上步完成了吗？

– 有要的高下文吗？

↓ (任不空隙 → 抛出相配)

让 AI 生成器用调用

↓

检查：有器用调用吗？

– 有 → 推论并记载日记

– 莫得 → 触发”强制行动”条约

↓

检查成果：有委派物笔据吗？

– 文献旅途？数据成果？API 反馈？

– 有 → 符号为”已完成”，进入下步

– 莫得 → 符号为”失败”，触发复原计策

↓

通盘法子完成后

– 考据：完成的法子数 = 总法子数？

– 是 → 复返奏效

– 否 → 复返部分失败敷陈

“`

4.3 气象机在模子器用调用化的哄骗

用户央求

↓

[ 1 层：意图分类器] → 削弱到 3-5 个候选技能

↓

[ 2 层：语义一样度匹配] → 排序并选出

↓

[ 3 层：参数预校验] → 检查要参数是否王人全

↓

[ 4 层：成果考据器] → 阐发器用调用达到预期果

技巧 1：意图分类器（层过滤）

中枢念念想：先用划定削弱范围，再让 LLM 作念缜密有筹算。不是把技能一起丢给 LLM，而是先用个轻量的意图分类器

技巧 2：语义一样度匹配 + 置信度阈值（二层过滤）

中枢念念想：用向量一样度量化”匹配程度”，而不是依赖 LLM 的主不雅判断。当我通过意图分类器削弱到 3-5 个候选技能后，会用镶嵌模子狡计语义一样度

技巧 3：参数预校验（三层过滤）

中枢念念想：在调用器用之前，先检查要参数是否王人全，避”调用失败后再重试”的低轮回。每个技能都有明确的 required_parameters 界说（参数缺失机触发追问）

五、实战案例：常见问题与化案

以下是我在践诺场景中遭逢的典型问题及处分案，仅供念念路参考。

案例 1：机器东说念主”只说不作念”

问题：用户说”帮我搜索竞品信息”，机器东说念主复兴”好的，我会帮你搜索…”，但莫得践诺行动。

根因：穷乏器用调用考据机制，AI 不错选择省力的旅途（给提议而不是行动）。

手机号码：15222026333

化案：

1. 添加器用调用审计器，检测反馈中是否包含完成声明

2. 要是有完成声明但莫得器用调用记载，强制再行生成

3. 在系统层面树立”说了就作念”的强制条约

案例 2：方法文档频繁出错

问题：用户要求”宋体小四，1.5 倍行距”，生成的文档方法高大。

根因：AI 对华文排版术语和洽不准确，且莫得圭臬化映射。

化案：

1. 树立方法术语对照表（如”小四”→”12pt”，”宋体”→”SimSun”）

2. 完了方法指示流露器，强制校验参数有

3. 在输出前进行方法致检查

案例 3：大文献生成被截断

问题：生成长敷陈时，文献写到半就住手，内容不无缺。

根因：单次写入过 token 阻隔或缓冲区大小，致截断。

化案：

1. 完了分块写入机制，每块限度在 10,000-13,000 字节（太少调用次数多，太多容易截断）

2. 每块写入后考据无缺

3. 通盘块完成后考据总文献大小

案例 4：器用调用时卡死

问题：调用外部 API 时齐集时，通盘任务卡住不动。

根因：穷乏时熔断和重试机制。

化案：

1. 诞生理的时阈值（如 30 秒）

2. 完了指数退缩重试计策（多 3 次，蔓延递加）

3. 提供降案（如主职业失败切换到备用职业）

六、点点念念考：咱们渐渐从关爱模子挪动到关爱系统了

这里共享点点近期养虾以过甚他时代尝试的点点念念考吧

2023-2024 年，咱们见证了 AI 本事的爆发式增长。但站在 2026 年的节点回望，决定产物成败的不是模子参数，而是工程化本事。

2023-2024 年，行业的关爱点在于：

“哪个模子强？”（参数鸿沟、理本事、多模态）“Prompt 怎样写好？”（CoT、Few-shot、Role-playing）“怎样微调出垂直域模子？”

但到了 2025-2026 年，咱们发现：

主流模子的基线本事也曾迷漫好——GPT-4、Claude、Qwen 等在大多数任务上的施展互异不大用户体验的瓶颈不在模子——而在于“说了不作念”、“提前秘书完成”、“方法高大”这类系统问题可靠成为中枢竞争力——企业客户雅瞻念为 99 的完成率付费，而不是 95 的准确率但不可展望

从大模子到openclaw多的是从提议输出到笃信赖福，模子本体是基于概率的引擎——它生成的是”可能的下个 token”，而不是”正确的谜底”。而咱们要作念的中枢即是通过工程技能将概率输出更始为笃信赖福。

算作产物司理，咱们的责任不是追赶新的时代热门，而是把时代更始为用户确切确切赖的产物体验。

这条路还很长，但向也曾昭着。

本文由 @要成为字节小李原创发布于东说念主东说念主都是产物司理。未经作家许可，箝制转载

题图来自Unsplash，基于CC0条约

相关词条:不锈钢保温塑料管材设备预应力钢绞线玻璃棉板厂家 pvc管道管件胶

1.本网站以及本平台支持关于《新广告法》实施的“极限词“用语属“违词”的规定，并在网站的各个栏目、产品主图、详情页等描述中规避“违禁词”。
2.本店欢迎所有用户指出有“违禁词”“广告法”出现的地方，并积极配合修改。
3.凡用户访问本网页，均表示默认详情页的描述，不支持任何以极限化“违禁词”“广告法”为借口理由投诉违反《新广告法》，以此来变相勒索商家索要赔偿的违法恶意行为。

推荐资讯

上一篇：白沙钢绞线规格满产保险供应、干事下千里田间新洋丰全力作念好化肥保供稳价 下一篇：辽源钢绞线生产厂家丨刷新寰球记载、“巨霸”上线！本周，我国多域达成重要冲破

产品中心

助手 AI 驱动投篮迪庆钢绞线厂

产品中心

15222026333