安徽钢绞线_天津瑞通预应力钢绞线

热线电话:15222026333
安徽钢绞线_天津瑞通预应力钢绞线
热门搜索: 念主 须眉 新愿 突发 阅读

迪庆钢绞线厂 当 AI 助手驱动”偷懒”:对于 Harness Engineering 的工程化念念考

产品中心 点击次数:135 发布日期:2026-05-28 02:27
钢绞线

AI器用时时'偷懒'的背后,是敛迹机制的失。本文通过具身机器东说念主场景中的真实案例,揭示AI系统在职务推论中的三大恶疾,并度流露软敛迹与硬敛迹的博弈。从四层混敛迹架构到气象机锁定机制迪庆钢绞线厂,这套工程化处分案正在重塑AI产物的可靠圭臬。

、问题的来源:为什么灵巧的 AI 会”偷懒”?

先,在这里共享往时实习的三个月里,我驰驱在业务线(具身机器东说念主):

场景 1:用户说”带我去逛下各个场景”,AI 复兴:”好的,我这就带你逛逛…”——给了提议,但它莫得践诺行动。

场景 2:用户要求”生成份方法法式的红头文献”,AI 说”没问题”,成果委派的文档字体高大、字号造作——输出与委派不匹配。

场景 3:多法子任务推论到半,AI 倏得说”已完成”,但践诺上只作念了前两步——提前秘书完成输出质料差。

算作产物东说念主员,我也和时代扣问过给出的论断是:器用集成太多,器用射中率不幽静,模子偷懒

算作产物东说念主,咱们风气说”用户体验”。但在 AI 系统中,我永久以为可靠比纯真困难,可展望比创造困难。二月份 Harness Engineering(敛迹工程)的驱动兴起,渐渐有了些尝试和念念考,在这里记载共享。

二、中枢细察:软敛迹 vs 硬敛迹

在探索处分案时,我发现敛迹机制分为两类,但它们的互异却不小。

2.1 软敛迹:Prompt 敛迹

这是常见的式——通过悉心想象的领导词来引 AI 行动:

“`

“对于复杂任务,你须先生成贪图,然后迟缓推论。

每完成步都要讲演用户进程。

不要宣称’已完成’除非你果然调用了器用。”

“`

点:完了资本低,修改纯真,适格调指。

纰谬:依赖 AI 的”自发”,效用率波动大(60-90),在长高下文或压力场景下容易失。

2.2 硬敛迹:编码敛迹

这是纪律化的强制逻辑——AI 法绕过代码划定:

“`python

# 前置条款检查

if not plan_generated

raise Error(“须先制定贪图”)

# 器用调用考据

if not tool_calls:

# AI 偷懒了,触发强制行动

force_action

# 成果考据

if not verify_evidence(result):

raise Error(“未能提供推论笔据”)

“`

点: 强制推论,效用率幽静在 95-99,不受高下文长度影响。

纰谬:完了资本,需要编写宽广代码,纯真较低。

工程化原则:不要过度工程化,仅在agent出问题的地过问元气心灵

三、实战案:四层混敛迹架构

基于上述细察,咱们尝试了套四层混敛迹体系。

Layer 1:Prompt 敛迹(行动准则)

在系统层面界说基本行动准则,适用于格调指和范围评释:

– “口吻业友好”

– “不笃信时坦诚评释”

– “先使用华文回答”

这层的作用是让 AI”知说念应该怎样作念”。

Layer 2:语义考据(参数预校验)

在 AI 推论前,对其意图和参数进行预校验,止输入:

“`python

# 示例:方法指示流露

用户输入:”标题用黑体三号字,红,加粗”

流露器索要:

– 字体:SimHei(黑体)

– 字号:16pt(三号)

– 颜:#FF0000(红)

– 方法:bold(加粗)

要是用户说”用大大号字”→ 阻挠:”未识别的字号描绘”

“`

这层的作用是止 AI 诬捏不存在的参数。

Layer 3:气象机锁定(困难的层,止偷懒)

这是通盘架构的中枢巧念念——通过气象机强制 AI 提供可考据的笔据。

中枢逻辑:

1. 前置条款检查:须有贪图、有器用日记、有委派物笔据

2.驻留期间监控:每个法子的推论期间不可相配短

3.审计日记记载:每步都有迹可循

果:AI 法说”已完成”除非它果然完成了通盘要动作。

Layer 4:成果考据(委派物真实检查)

后步是考据委派物的真实:

“`python

# 文献写入考据

if not os.path.exists(file_path):

raise Error(“文献未践诺创建”)

actual_size = os.path.getsize(file_path)

if abs(actual_size

– expected_size) > 100:

raise Error(“文献大小与预期不符”)

# 数据无缺考据

if not validate_data_integrity(result):

raise Error(“数据考据失败”)

“`

这层确AI 的甘愿与践诺委派致。

四、气象机锁定的妙用:让 AI 法”摸鱼”

让我入共享下这个咱们发现的工程巧念念——气象机锁定机制。

4.1 问题配景

在多法子任务中,AI 平庸出现以下行动:

– 推论到半就说”已完成”

– 跳过困难法子,平直敷陈奏效

– 器用调用失败后不重试,平直撤销

传统作念法是在 Prompt 中强调”不要偷懒”,但这种“提议式敛迹”果有限。

4.2 气象机处分案

咱们引入了气象机锁定,钢绞线中枢是个浮浅的原则:莫得笔据,就不可前进。

推论历程:

“`

法子 N 驱动

前置条款检查

– 有贪图吗?

– 上步完成了吗?

– 有要的高下文吗?

↓ (任不空隙 → 抛出相配)

让 AI 生成器用调用

检查:有器用调用吗?

– 有 → 推论并记载日记

– 莫得 → 触发”强制行动”条约

检查成果:有委派物笔据吗?

– 文献旅途?数据成果?API 反馈?

– 有 → 符号为”已完成”,进入下步

– 莫得 → 符号为”失败”,触发复原计策

通盘法子完成后

– 考据:完成的法子数 = 总法子数?

– 是 → 复返奏效

– 否 → 复返部分失败敷陈

“`

4.3 气象机在模子器用调用化的哄骗

用户央求

[ 1 层:意图分类器] → 削弱到 3-5 个候选技能

[ 2 层:语义一样度匹配] → 排序并选出

[ 3 层:参数预校验] → 检查要参数是否王人全

[ 4 层:成果考据器] → 阐发器用调用达到预期果

技巧 1:意图分类器(层过滤)

中枢念念想:先用划定削弱范围,再让 LLM 作念缜密有筹算。 不是把技能一起丢给 LLM,而是先用个轻量的意图分类器

技巧 2:语义一样度匹配 + 置信度阈值(二层过滤)

中枢念念想:用向量一样度量化”匹配程度”,而不是依赖 LLM 的主不雅判断。 当我通过意图分类器削弱到 3-5 个候选技能后,会用镶嵌模子狡计语义一样度

技巧 3:参数预校验(三层过滤)

中枢念念想:在调用器用之前,先检查要参数是否王人全,避”调用失败后再重试”的低轮回。 每个技能都有明确的 required_parameters 界说(参数缺失机触发追问)

五、实战案例:常见问题与化案

以下是我在践诺场景中遭逢的典型问题及处分案,仅供念念路参考。

案例 1:机器东说念主”只说不作念”

问题:用户说”帮我搜索竞品信息”,机器东说念主复兴”好的,我会帮你搜索…”,但莫得践诺行动。

根因:穷乏器用调用考据机制,AI 不错选择省力的旅途(给提议而不是行动)。

手机号码:15222026333

化案:

1. 添加器用调用审计器,检测反馈中是否包含完成声明

2. 要是有完成声明但莫得器用调用记载,强制再行生成

3. 在系统层面树立”说了就作念”的强制条约

案例 2:方法文档频繁出错

问题:用户要求”宋体小四,1.5 倍行距”,生成的文档方法高大。

根因:AI 对华文排版术语和洽不准确,且莫得圭臬化映射。

化案:

1. 树立方法术语对照表(如”小四”→”12pt”,”宋体”→”SimSun”)

2. 完了方法指示流露器,强制校验参数有

3. 在输出前进行方法致检查

案例 3:大文献生成被截断

问题:生成长敷陈时,文献写到半就住手,内容不无缺。

根因:单次写入过 token 阻隔或缓冲区大小,致截断。

化案:

1. 完了分块写入机制,每块限度在 10,000-13,000 字节(太少调用次数多,太多容易截断)

2. 每块写入后考据无缺

3. 通盘块完成后考据总文献大小

案例 4:器用调用时卡死

问题:调用外部 API 时齐集时,通盘任务卡住不动。

根因:穷乏时熔断和重试机制。

化案:

1. 诞生理的时阈值(如 30 秒)

2. 完了指数退缩重试计策(多 3 次,蔓延递加)

3. 提供降案(如主职业失败切换到备用职业)

六、点点念念考:咱们渐渐从关爱模子挪动到关爱系统了

这里共享点点近期养虾以过甚他时代尝试的点点念念考吧

2023-2024 年,咱们见证了 AI 本事的爆发式增长。但站在 2026 年的节点回望,决定产物成败的不是模子参数,而是工程化本事。

2023-2024 年,行业的关爱点在于:

“哪个模子强?”(参数鸿沟、理本事、多模态)“Prompt 怎样写好?”(CoT、Few-shot、Role-playing)“怎样微调出垂直域模子?”

但到了 2025-2026 年,咱们发现:

主流模子的基线本事也曾迷漫好——GPT-4、Claude、Qwen 等在大多数任务上的施展互异不大用户体验的瓶颈不在模子——而在于“说了不作念”、“提前秘书完成”、“方法高大”这类系统问题可靠成为中枢竞争力——企业客户雅瞻念为 99 的完成率付费,而不是 95 的准确率但不可展望

从大模子到openclaw多的是从提议输出到笃信赖福,模子本体是基于概率的引擎——它生成的是”可能的下个 token”,而不是”正确的谜底”。而咱们要作念的中枢即是通过工程技能将概率输出更始为笃信赖福。

算作产物司理,咱们的责任不是追赶新的时代热门,而是把时代更始为用户确切确切赖的产物体验。

这条路还很长,但向也曾昭着。

本文由 @要成为字节小李 原创发布于东说念主东说念主都是产物司理。未经作家许可,箝制转载

题图来自Unsplash,基于CC0条约

相关词条:不锈钢保温     塑料管材设备     预应力钢绞线    玻璃棉板厂家    pvc管道管件胶

1.本网站以及本平台支持关于《新广告法》实施的“极限词“用语属“违词”的规定,并在网站的各个栏目、产品主图、详情页等描述中规避“违禁词”。
2.本店欢迎所有用户指出有“违禁词”“广告法”出现的地方,并积极配合修改。
3.凡用户访问本网页,均表示默认详情页的描述,不支持任何以极限化“违禁词”“广告法”为借口理由投诉违反《新广告法》,以此来变相勒索商家索要赔偿的违法恶意行为。

产品中心

15222026333