敏捷测试转型聊聊企业使用 AI 知识库的体验

鼎叔 · 2025年11月06日 · 2301 次阅读

这是鼎叔的第一百二十七篇原创文章。行业大牛和刚毕业的小白，都可以进来聊聊。
欢迎关注公众号《敏捷测试转型》，星标收藏，大量原创思考文章陆续推出。

在之前的文章（聊聊大模型如何为敏捷研发提效）里提到，对于企业内部产研提效而言，最重要的就是拥有高质量的知识库，让 AI 大模型能充分发挥作用，这是所有产研任务的基础：对企业私有业务知识的熟悉。
企业如果从头自研 AI 知识库，哪怕是使用开源框架部署，这个成本还是很大的，需要进行知识库语料的归集，标注，清理和训练。
但这对做企业协同平台的企业微信、钉钉、飞书是利好，因为这些大平台能触达产研过程的内部文档，并能高效部署各类大模型完成内部知识精炼和协作的需求，使用这些平台的企业则无需自己从头造轮子。
随着 DeepSeek（聊聊 DeepSeek）的大火，企业知识库应用果然马上用上了 deekseek 的推理能力，显著提高了 AI 业务和协作知识问答的体验，同时员工也切身感受到 AI 回答的一些局限性。
这篇结合个人的试用体会来聊聊。
还是那句话，你日常是怎么理解研发效能的，你就能把 DeepSeek 用出怎样的风格。

好的方面
在企业内部试用近乎零成本，让善于思考和沟通的人如虎添翼，也让产研专家更容易向团队传播明确的心智方法。
回答问题更契合团队知识的上下文
内部知识库的优点就是外面没有的业务知识和产研数据，AI 问答会优先从内部文档进行知识推理，适用性也大幅提高。
放大员工的 AI 功能使用率
因为 AI 知识库在日常工作中唾手可得，无缝融合到工作环境，方便易用，平常很少使用 AI 产品的员工也容易养成使用习惯。
如果研发机器人在流程各环节中主动推送 AI 处理建议，那使用率就会进一步提升。
自我反省
即使是非常专业的人士，在各种工作汇报中仍然有自己的偏执习惯但不自知，这种偏执有时是来源于展示自己的 “苦劳”。
通过极低成本让 AI 输出 “更简洁”，“更生动”，“更 XX” 的文案，还是会带来不少触动的。
极低成本促进跨团队协作
之前企业内部的知识库是分散在不同部门，不同岗位团队之间的，知识检索效果很弱。AI 回答几乎零成本的汇总答案，形成比较完整的结果。
另外，团队协作中最重要的就是高质量的交付物。
什么叫 “高质量”？这点很难自动判断。如果要依赖纪律和人工判断，那么很容易卷入人际摩擦，“总觉得下游评价过严，吹毛求疵”，“太忙了，人工判断总是推迟，或者很敷衍”。
即使有专家和管理者一同制定交付标准，也不一定能避免上下游团队的抱怨和返工。
现在有了 AI 知识库，只需要按交付标准设置提示词，AI 会帮你点评文档的不足，搭配流程机器人的推送，可大幅降低协作管理者的成本。
从心理学上也能解释，AI 对事不对人，上游员工对于 AI 的合理反馈意见，是更容易接受的，心态也更乐观，想看 AI 是否神奇（或出糗）。用得好的员工还能起到激励其他人的作用，毕竟尝试成本这么低，不体验下在职场上就 “亏了”。
举个案例，之前的文章聊聊需求的价值如何度量提到，高质量的需求应该具备哪些重要信息。那么我就可以用一个强大的 Prompt 得到对需求的评分和修改意见。
"XXXXXX"这个需求的完整度怎么样？请从业务背景，客户价值，期望目标，完整流程图，功能清单和优先级，描述准确性，性能要求，风险描述，数据上报，需求上下游关系描述，这十个方面进行本需求文档的完整度打分，每个方面评价 0 至 10 分，请给出评估的总分。
AI 会给我回复完整的打分表格及相关解释，并给我整体评价。
我先让 AI 生成一个提供以太坊基础交易功能的需求规格文档，再问它上面这个问题，答复如下：

放大专家的方法论
接着上面的案例，我作为专家，想推广一个需要员工主动分析的需求精益方案，成本是很高的。这个过程需要培训和度量，还要让各方管理者认同，大家都觉得收益大于成本，才愿意尝试，花费时间也很长。
在企业内用 AI 手段落地，成本可能会显著降低。专家的方法论，就是提示词模版，AI 分析的效果可能比不上专业员工的分析，但是 “零成本 + 趣味性” 把创新的火烧起来还是很容易的。
AI 虽然在内容生成上容易出现不靠谱，但是在思考总结框架和分类打分上表现不俗。
擅长分类和总结
这和之前的 AI 效能实践感受一致：对于分类型任务，AI 大模型 “看起来” 完成得很惊艳。
而基于内部文档的总结型任务，效果不差，会上价值，思考框架完整，大维度不会漏。是否有闪光点则看人品了。
有待提升的方面
对于直接使用企业 IM 平台提供的 AI 知识库的公司，遇到的麻烦还是绕不过去，即：没有对内部文档做标准和分类，文档质量和概念参差不齐。
信息安全方面
对于强调知识产权的企业而言，这点是至关重要的。AI 知识库能力的提供方，如何证明内部的文档数据，以及由此推理出来的商业观点，不被传播到企业以外？
如何在 “低成本搭建易用性强的知识库” 和 “信息安全” 之间取得平衡？这个真不容易。
采纳率低
从实际体验来看，我很难把 deepseek 回答的方案直接拿来使用。粗看生成方案挺清晰挺专业，细看内容到处是坑。人看不懂的需求文档，有了 AI 还是不懂；人不敢在评审会上提问题，有了 AI 还是不敢提。因为怕提了问题被追问，怕因为 AI 幻觉给自己带来尴尬。
具体负面表现和可能的原因如下：
一明明是针对特定文档来询问问题，结果中掺杂了对大量其他文档的分析内容，显得信息冗余，不精准。
难点也在这里，你很难既让 AI 知识库遗忘某些知识，又想要完整地回答问题。
二如果不指定角色，AI 的回答会混杂不少技术细节。
比如我询问这个产品经理的需求文档存在哪些描述不够准确的地方。AI 回答中有不少内容是来源于代码分析，比如命名不规范，而该文档根本没有涉及。
另外，明明我的问题是偏宏观的 “团队协作提升”，回答中也会带上具体的技术架构设计困难。
三对内部知识的理解尺度不一，导致输出方案的细节有很强的揉杂感，需要大量修改。参考的各种文档来自不同的角色，文档的质量和风格不同，主题范围不同，强行总结很容易怪怪的。
通过复杂的提示语约束条件，可能能缓解这个问题，具体效果还有待观察。
四给出的改进措施经常脱离实际，超出了团队的资源和承受成本，或者不是团队目前的痛点。
五有时给出的措施又太通用，对所有团队都适合，对本团队没有什么特别参考意义。
默认输出的篇幅比较短
这可能是企业 AI 知识库限制了输出篇幅（token），导致了回答的方案比较单薄，浅尝即止，如果能让用户配置输出长度就更方便了。
基于上面各种表现，对于比较复杂的业务逻辑，AI 提出的产研建议不敢直接采纳，还是需要员工熟悉业务或技术再做判断。
下一阶段的拓展
集体梳理提示语清单，赋能企业 IM 机器人
分角色，分阶段，分场景，给员工梳理出推荐的提示语清单。对于提高协作效能，提示风险的提示语，直接交给机器人动态下发给相关团队，或者可一键查看生成结果。
这类推送提示语要满足满意度高或采纳率高的要求，否则可能对部分员工带来不必要的打扰。
清单里还可以包含如何追问的句子，通过精准的追问，避免回答总是太宽泛。
敏捷知识 +AI 提效机器人
清单如果引入敏捷协作的经典理念，就可以把 AI 流程机器人瞬间变成敏捷小教练。
具体敏捷问题清单可以参考这篇文章：聊聊敏捷团队调查问卷
知识库文档的补充，分类和淘汰
提高采纳率的基础还是高质量的内部文档和数据。如果参考的文档很泛滥或很低质，会增加员工的查证成本，进而降低长期使用意愿。
相关团队可以发力的动作有这几个：
补充多样化文档和数据（在符合信息安全的前提下）：除了需求文档，还有代码，图表，日志，市场反馈等。
给文档进行分类，方便推理时聚焦回答的层次和角度。比如从产品经理的角度，从开发人员的角度，从管理者的角度，从某特性团队的角度。避免大而泛，视角跳跃的答案。
对过时或劣质文档进行淘汰，给员工随时反馈文档问题的入口。内部文档肯定有很多已被替换的过时文档，或者随意记录的临时文档，如果能够通过标签在搜索或训练中过滤掉这些文档，可以提高 AI 回答的满意度。

AI 编程的成熟度
作为工程师的一员，我们迟早要适应借助 AI 编程来提效的趋势，工程师未来的竞争对手，一定是善于利用 AI 编程的人。我们如何来评价和选用企业使用的 AI 编程平台呢？
这里完全可以借鉴自动驾驶领域（这也是 AI 应用的核心细分领域）的能力等级：

L0：完全人类编程，无需工具支持。
L1：AI 基础辅助编程，在人类编程时，根据人类的需求提供基础的功能。
L2: 部分 AI 自动编程，AI 和人类共同完成编程过程
L3: 有条件的 AI 自动编程，大部分条件下，编程工作由 AI 自主完成，但在部分条件下的工作还需要人工介入完成
L4: 高度 AI 自动编程，人只需要校正要求，适当监控和质疑结果
L5：完全 AI 编程，人只需要提要求（目的地）

各大 AI 编程平台如何提升上述能力，提高用户体验和投入产出比，我们未来可以再深入调研。

最后想说：企业内部 AI 实践对员工的影响
不专业不敬业的内容输出角色，在职场上的可替代性大幅增加。因为专业和敬业的员工，借助 AI 的高效率 + 自己的责任心，可以输出更多有价值的内容。
掌握方法论的骨干和专家，更能够获得价值变现的杠杆，借助 AI 的模仿思考和交互能力，把自己的先进方法传播给更大的团队。

暂无回复。

需要登录后方可回复, 如果你还没有账号请点击这里注册。

敏捷测试转型 聊聊企业使用 AI 知识库的体验

作者

敏捷测试转型

敏捷测试转型 聊聊企业使用 AI 知识库的体验

敏捷测试转型聊聊企业使用 AI 知识库的体验

敏捷测试转型聊聊企业使用 AI 知识库的体验