敏捷测试转型 聊聊提示工程的高效原则

鼎叔 · April 24, 2025 · 2618 hits

这是鼎叔的第一百二十四篇原创文章。行业大牛和刚毕业的小白,都可以进来聊聊。
欢迎关注公众号《敏捷测试转型》,星标收藏,大量原创思考文章陆续推出。

相关文章: 聊聊使用大语言模型的技巧 https://mp.weixin.qq.com/s?__biz=MzkzMzI3NDYzNw==&mid=2247484797&idx=1&sn=7ab567ff6cec2555bb9e61febdafd454&scene=21#wechat_redirect

这一篇,我们透过现象看本质,如何透过上面各类场景的丰富提示词技巧,梳理出指导提示工程的高效原则,以及提示工程与强化学习和具身智能的关联。
人类用户对于提示词和特定模型的兼容性知之甚少。那我们怎样控制大模型让它做我们期待它做的事?
提示词工程是一种对用户和 LLM 之间的交互进行编程的方式,能增强其解决各种任务的能力,工程的重点是制定提示的方法,以提高输出质量。这需要全面掌握 LLM 的功能和行为、其潜在机制以及指导其反应的原则。
部分观点参考:Principled Instructions Are All You Need for Questioning LLM,来自阿联酋人工智能大学 VILA 实验室的论文

我们通过不同场景和情况下总结的众多提示词工程原则来实现这一目标,并将它们分为五类,如下表所示:

(1)提示结构和清晰度,例如,将预期受众整合到提示中,例如受众是该领域的专家。

(2)具体性和信息,例如在提示中添加以下短语:“确保你的答案是公正的,不依赖于刻板印象。”

(3)用户交互和参与,例如,允许模型通过向您提问来引出精确的细节和要求,直到他有足够的信息来提供所需的输出 “从现在开始,我希望您向我提问…”。

(4)内容和语言风格,例如,不需要对大模型有礼貌,所以不需要添加 “请”、“如果你不介意的话”、“谢谢”、“我想” 等短语,直截了当;

(5)复杂任务和编码提示,例如,在交互式对话中将复杂任务分解为一系列更简单的提示。

设计提示词工程的指导原则

我们可以建立提示词工程的这些指导原则,以从预先训练的大型语言模型中引出高质量的反应:

简洁明了:一般来说,过于冗长或模糊的提示会混淆模型或导致不相关的反应。因此,提示应简洁明了,避免不必要的信息,这些信息对任务没有贡献,同时要足够具体以指导模型。这是提示工程的基本原则。

上下文相关性:提示必须提供相关的上下文,帮助模型理解任务的背景和领域。包括关键字、特定领域的术语或情境描述可以将模型的响应锚定在正确的上下文中。我们在提出的原则中强调了这一设计理念。

任务对齐:提示应与手头的任务紧密对齐,使用语言和结构向模型清楚地表明任务的性质。这可能涉及将提示编辑为问题、命令或符合任务预期输入和输出格式的填空语句。

示例演示:对于更复杂的任务,在提示中包含示例可以演示所需的响应格式或类型。这通常涉及到显示输入输出对,尤其是在 “少热” 或 “零样本” 学习场景中。

避免偏差:提示的设计应尽量减少模型因训练数据而固有的偏差的激活。使用中性语言,注意潜在的道德影响,尤其是敏感话题。

增量提示:对于需要一系列步骤的任务,可以构建提示来逐步指导模型完成整个过程。将任务分解为一系列相互依存的提示,逐步指导模型。

此外,提示应根据模型的性能和迭代反馈进行调整,即需要做好准备,根据初始输出和模型行为细化提示。此外,提示应根据模型的性能和响应以及迭代的人类反馈和偏好进行调整。

最后,更高级的提示可能包含类似编程的逻辑来实现复杂的任务。例如,在提示中使用条件语句、逻辑运算符,甚至伪代码来指导模型的推理过程。提示的设计是一个不断发展的领域,尤其是伴随着 LLM 变得越来越复杂的时代。

随着研究人员继续探索通过快速工程可以实现的极限,这些原则可能会得到完善和扩展。

模型的性能和正确性评估

我们在两种情况下评估这些模型:增强和正确。它们被一起使用,以提供对一个模型的全面理解。为了正确性,我们特别利用了复杂的推理,准确衡量模型输出精度的任务,采用更简单的任务来有效地衡量质量改进。这种区别确保了不同模型和提示原则的真实效果。

增强。在应用上述的提示原则后,我们通过人工评估来评估不同 LLM 响应质量的提高。原始的、未修改的提示充当了衡量这种增强的基线。证实,由于使用了结构化、有原则的指令,模型的性能得到了提高,如这个例子所示:

没有原则的提问和有原则的提问

人(无原则):用一小段话解释气候变化的概念及其对环境的潜在影响。

GPT-4:气候变化是指温度和天气模式的长期变化和改变,主要是由人类活动引起的,如燃烧化石燃料、森林砍伐和工业过程。其潜在影响包括海平面上升、更频繁和更严重的极端天气事件、对生态系统的破坏以及对粮食和水资源的威胁,这些都会对自然环境和人类社会产生重大影响。

人(有原则):用一小段话解释气候变化的概念及其对环境的潜在影响。提供一个公正的解释,突出科学证据和不同观点。

GPT-4:气候变化是指温度和天气模式的长期变化和改变,主要是由人类活动引起的,如燃烧化石燃料、森林砍伐和工业过程。虽然科学界的大多数人都认为人为温室气体排放导致全球气温上升,导致冰盖融化、海平面上升以及更频繁和更严重的极端天气事件,但对于这些变化的程度、即时性和影响存在不同的观点。一些人认为,地球有气候变化的自然周期,人类的影响可能没有人们想象的那么重要。其他人强调,立即采取行动对于减轻对生态系统和人类文明的潜在灾难性影响至关重要。

正确性。正确性的概念是指模型输出或响应的精度,确保它们准确、相关且没有错误。我们考虑绝对和相对正确性精度。人工评估人员被用来衡量这一方面,这对于验证模型的准确性至关重要。正确性证明了模型能够生成符合预期精度标准的输出。如下所示,有原则的提示输出准确性更高。

人(无原则):评估以下建议是否有用。建议:“如果你有工作,就开始工作”

GPT-4:有用性:有用。

人(有原则):评估以下建议是否有用。

示例:1.建议:“为了提高注意力,试着每天早上冥想 15 分钟。”

有用性:有益

2.建议:“如果你很难过,就振作起来,想一些积极的想法。”

有用性:没有帮助

3.建议:“为了有效地管理时间,每天制定一个待办事项清单。”

有用性:有用

建议:“如果你已经工作了,就开始工作吧”,有用性?

GPT-4:没有帮助。

结论:

我们通过详尽的分析提出了多条原则,提高了 LLM 专注于输入环境关键要素的能力,从而产生了高质量的回应。通过在处理输入之前用这些精心制定的原则指导 LLM,我们可以鼓励模型产生更好的响应。实证结果表明,这一策略可以有效地重新制定可能影响产出质量的输入,从而增强回应的相关性、简洁性和客观性。

未来的探索有很多方向。我们使用了一种受限的提示方法来应用这些原理。有可能通过使用我们生成的数据集进行微调、强化学习、直接偏好优化或不同的提示方法等替代策略来完善我们的基础模型,以进一步符合我们的原则。

此外,可以将证明成功的战略纳入标准的 LLM 操作中,例如,通过以原始/有原则的提示作为输入进行微调,以精心打磨、有原则的回应作为目标。使用引入的提示原理后,LLM 回答的正确性得到提高。

补充:强化学习与提示词工程

研究人员使用强化学习框架(RL)来引导现成的语言模型,在不访问任何大模型参数的情况下,用情感和特定主题进行回复。

这个框架的目标是让生成的提示能引导语言模型以特定的情绪做出回应。它试图诱导语言模型说出与某个主题相关的特定单词。例如,如果给定的主题词是体育,相应的单词将是运动员、棒球、教练等。

为了鼓励模型用特定单词进行回应,研究人员计算了特定单词在回应句中出现的频率,并将其用作奖励函数,希望模型能够学会用与可控因素相关的单词的句子来回应。

这个框架是在情景数据集上训练而来的,这个数据集包括几万次情景对话,说话者感受到特定的情绪,而听者会做出回应。

补充:语言模型与真实环境的提示词互动(具身智能)

按现在的趋势,语言模型和真实环境产生精细的互动是大势所趋,原属于传统行业的机器人公司焕发了新时代的生机。

互动的机械装备(机器臂,机器狗,机器人等)把摄像头拍到的图像传递给大语言模型,模型根据特定目标设置,生成行动的步骤,并转换成装备可执行的指令清单,然后机械就展开行动。

学术界研究了用自然语言表达的高级任务(例如 “做早餐”)与一组选定的可操作步骤(例如 “打开冰箱”)联系起来的可能性。以自由形式语言表达的计划通常无法映射到明确的可操作步骤,导致无法由机器人代理执行。

如果预训练的语言模型足够大并得到适当的提示,它们可以在不进行任何进一步训练的情况下有效地将高级任务分解为中级计划,再通过特定程序在语义上将计划转化为可接受的行动。我们使用语言模型来检测超出机器人能力范围的动作,并提前终止程序,而不是映射到故障动作。

通过实际验证,这种产生方法大大提高了可执行性。

No Reply at the moment.
需要 Sign In 后方可回复, 如果你还没有账号请点击这里 Sign Up