敏捷测试转型 聊聊和 AI 一起思考和工作

鼎叔 · October 23, 2025 · 336 hits

这是鼎叔的第一百二十五篇原创文章。行业大牛和刚毕业的小白,都可以进来聊聊。
欢迎关注公众号《敏捷测试转型》,星标收藏,大量原创思考文章陆续推出。

本来这篇文章的标题是,“聊聊像 AI 一样思考”,后来觉得还可以深入一步,一流团队的成员是共同思考,共同成长的,并不只是彼此模仿。人和 AI 的互动也是通过 “深度思想” 碰撞来彼此提高。
具体如何互动修炼?本文围绕这点尝试解读,算抛砖引玉吧。

亲身体验
这段时间的上手实践,鼎叔发现 deepseek 这类大模型提供的基本推理框架很赞,但是内容并不深刻,比较泛,还需要深入调教。
如果你问他通用型方案,他回答确实很完整,对于自己的非专业领域(如教育,心理学,投资,营销等),输出结果优于靠自己写。但在专业领域,哪怕他读过你写过的所有文章,对于新问题的回答也只能用于参考,要是拿去在公司里交活,一旦被认真看就露馅了。
实践再次印证了自己的判断:自己的专业度是价值产出前面的 1,大模型提效能力是价值产出后面的 0,两者缺一不可。
COT 的原理
上一篇聊聊使用大语言模型的技巧,我们提到了 COT(思维链)深度思考,为什么思维链和 “think it step by step"可以显著提高早期语言模型的回答正确性?
其实和人类写数学作业一样,拿着草稿纸一步步解题,正确性肯定高于直接心算出一个答案。
早期语言模型在每个 step 都有中间的草稿结果,再把数学问题和中间结果一起放入语言模型中继续文字接龙,这样输出的结果就更有保障。当然,deepseek 时代的语言模型早已吸收了 COT 的优点,无需人工提醒了。
这个类比颇有启发,AI 可以像人一样学习,反之亦然。
终极的提示技巧,就是将自己掌握的心智表征,融合到 AI 互动策略中。
强大的提示模版
除了前文提到的 “角色” 定义,还有哪些要素,可以组成一个屡试不爽的强大模版?

答案就在我们作文学习的基本知识中。

比如在小学学到的:时间 + 地点 + 人物 + 事件(开头 + 高潮 + 结尾)。

再比如职场汇报的基本要素,同样是强大的通用模板:角色(who)+ 背景 (background)+ 目标 (Tast)+ 约束 (Constraint)。

约束包含哪些类型?比如:

输出格式(规范结构,长度要求,输出数量要求)
假设前提(如果预算减少一半,如何给出方案)
时效要求(要在什么日期的结果)
避雷提示(不能出现什么内容)

注意,“角色” 也可以看作是调整输出难度和输出风格的 “约束” 要素,比如 “我是一个业余人士,请给我解释 SQL 是什么。”

角色还可以包含性格定义,比如 “幽默可爱,喜欢念诗”。这也可以通过 “风格” 约束来实现。

像人一样高效交流

你平常是怎么高效交流的,就可以把对应的技巧用于提示词策略。

一图胜千言

使用 AI 语言模型进行沟通,往往会输出大量的文本内容,可以利用 AI 的可视化生成能力,把大量文本提炼成各种生动的图表,包括二维表格,流程图,架构图,项目管理甘特图等等。

如果大模型自身没有免费的图片生成功能,可以让它提供可生成图片的脚本语言,然后 COPY 到对应的图片生成平台。

持续追问 AI,塑造满意内容

可以每次追问时都让 AI 生成几个候选的答案,再提出进一步的修改要求,逐步找到理想的答案。

就像雕塑家先从轮廓开始,逐步雕刻出满意的精美作品。

针对 AI 回答的错误频发,用户还可以勾选联网校验(RAG)模式。如果 AI 回复了错误的代码,用户还可以给 AI 提供它看不到的运行错误日志描述。

有时 AI 回答内容太长会突然停止,这时可以鼓励它继续说下去,或者复制上次没说完的内容,让 AI 续写。

担心个人隐私泄漏

不管是企业用户还是个人用户,建议不要在 AI 对话框里直接输入个人隐私信息,如身份证和账号密码,避免 AI 无意存储和泄密。可以使用伪数据或占位符代替。

这与正常人的社交也是同样的道理。

AI 实践中导入自己的知识库和工作流

之前的文章聊聊大模型如何为敏捷研发提效介绍过,AI 在工作实践中,想要提高满意度,还是需要基于自己团队的专属知识进行训练和响应,否则只能回答外界已有的见解。

目前的 AI 平台已经支持个人知识库的导入了,把知识库文本导入后,AI 回答问题可以优先答复和自己知识库相关联的内容,喜大普奔!

此外,还出现了更强的定制工作流能力,AI 交互不限于一问一答,可以根据工作流程度,进行不同分支的逻辑响应。比如提问中涉及 “电话沟通” 诉求的,AI 就会采集用户的联系方式和联系时间,并呈现给工作流的服务提供者。这样就很容易创建出自己的智能客服。

启发:企业 IM 的商业含金量可能被大幅提高,如钉钉,飞书,企业微信,因为企业大量商业和产研文档和数据都可以通过这些工具访问,内置 deepseek 等大模型推理能力后,就可以一键玩出各种提效创新的花来,从而极大提高用户粘性和付费意愿。

AI 大模型的上下文学习能力
所谓上下文学习(ICT: In-Context Learning),就是用户在提示句子中加入特定情景说明或前提,即 “举个例子”,再来评估大模型的输出是否做了相关的改变。

在 2022 年或之前,大模型是缺乏 ICT 的,不管你在提示词中做了什么奇葩的假设条件,大模型都按它认为正确的方式给你结果。也就是说,大模型根本没看懂你的前提条件,只顾自己思考了。

但目前高级大模型已经具备了 ICT 能力,如果你在提示词里 “指鹿为马”,并提醒它 “我的定义和传统定义可能不一样 “,它就会按你的预设条件来答题,罔顾事实。

比如:Prompt 是:

“请把下面这篇新闻进行分类,注意这些类别的定义可能和传统定义不同:

财经类:报道国内外的政治消息,如地缘政治,政党,选举,政策等。

政治类:报道有关产业经济的消息,比如股市,楼市,企业,经营,市场,金融,借贷等。

请为这个新闻分类:

大型科技股涨跌不一,英伟达涨超 5%,市值重回 3 万亿美元上方,奈飞、英特尔涨超 1%,微软、Meta 小幅上涨。特斯拉跌超 3%,亚马逊跌逾 2%,苹果小幅下跌。”

那么大模型对于待分类的新闻会给出完全错误的答案 “政治类”,这反而是符合用户预期的。

上下文学习属于提示工程的一部分,所以它是不会改变模型参数的,重新开始对话进程后,大模型的回答效果就还原了。

在继续追问大模型时,用户也可以更主动地唤醒上下文,比如 “参考刚才的对话,补充 XXX”,“请问刚才方案 2 的结构重新写 XXX”,“请记住我是财务人员,想用 EXCEL 快速处理大量报表... ...”。

让 AI 大模型自我反省

比如追问 “你的答案正确么?”,机器可能会检查出自己的错误。语言模型越升级,反省能力越强大。

之前的语言模型可能会虚伪地承认自己答案的不足,到事实上并不知道错在哪里(承认错误,坚决不改👶)。或许新版本的语言模型把很多反省过程隐藏了,直接把反省修正后的结果给到用户。

如果我们从多 AGI 的视角来看问题,可以让一个语言模型专门给其他语言模型挑毛病,如侵犯隐私和涉嫌违法,就像周伯通的左右手互搏一样,让最终产出越来越好。

这个专挑毛病的 “宪法语言模型” 不需要任何人类标签来识别有害的输出,这样就可以更精确地控制人工智能行为,并且使用更少的人类标签。

具体做法是在强化学习阶段,我们从微调后的模型中采样,使用一个模型来评估两个样本中哪一个更好,再从这个 AI 偏好数据集中训练一个偏好模型。然后,我们使用偏好模型作为奖励信号,进行强化学习,即 “来自 AI 反馈的 RL”(RLAIF)。

类似反省效果的追问还有:“请你解释下刚才的答案”。

要求这个模型解释自己的评估可以持续提高大模型和人类评估之间的相关性,当大模型知道它需要解释评价时,它就倾向于生成更容易解释的评价。

训练一个语言模型应该有明确的评估标准,那就是输出有帮助的,诚实的,无害的答案。

传统的人工标注员经常拒绝回答有争议的问题,这会导致 AI 在 “有帮助” 和 “无害” 之间产生难以调和的矛盾。

由此,我们能够训练一个无害且不回避问题的人工智能助手,通过解释它对有害查询的反对意见来处理这些查询,并提高人工智能决策的人工判断性能和透明度。

虽然语言模型 AI 助手必须避免帮助用户处理不道德的请求,也不要表达冒犯性的语言和情绪,但它应该始终参与并解释为什么拒绝这些请求。

参考论文:Constitutional AI: Harmlessness from AI Feedback

用户还可以把 AI 想象成专家或面试官,让自己成为答题者,看看 AI 能给我输出什么评价和建议,请 AI 给自己输出更多启发性的实例。让 AI 成为自己思考的引导者和检验者。

写在最后

有时候,AI 助手像个唠唠叨叨的技术男,大量输出带有过多技术细节的内容,我自己来整理核心观点可能还高效一些,但是 AI 助手也省去了我搜索查证的精力。

有时候,AI 助手会陷入自我怀疑,它明明推理出了正确的答案,但是因为被某些高频信息误导(对答案不自信),又开始往错误方向去推理,这何尝不是一种 “人性” 表现?

回应本文开头,和 AI 一起思考和工作,就是像人一样对待它,并让它用上你喜欢的心智模型,像人类智者一样思考,和你同时进步。

No Reply at the moment.
需要 Sign In 后方可回复, 如果你还没有账号请点击这里 Sign Up