ycwdaaaa (孙高飞) · 回帖

互联网 - 专升本和统招本科真的差的这大吗？ at 2024年01月16日

环境很差，大家都一样，只能慢慢等待，熬到行情变好的时候。听说 24 年美国要开始降息了，没准是个变好的开始。大家都各自保重，坚持住

花菜】我的 2023 年终总结 at 2024年01月15日

老哥在 23 年还真是满坎坷的，祝愿后面一切顺利

我的 2023 年终总结 -- 一个小小工程师的 15 年 at 2024年01月12日

emmmm。。。。。职业危机其实是有的，你没看到我周围部门的人被裁成什么样子了，地图工程团队的所有测试被一锅端了。我其实不确定自己能拿这个薪水还能拿几年了。我这个人什么事都往坏了想，所以也是为什么这些年一直保持学习 -- 都是焦虑惹的祸。卖知识就是个尝试吧，我的心态就是能做出来当做副业也挺好的，做不出来也接受，我是没太放在心上。就当做是督促我创作的东西。要不然真心懈怠了，没动力更新文章。

做测试的最后一年 at 2024年01月10日

祝楼主未来一篇坦荡吧，也祝愿还在测试行业工作的伙伴一些顺遂

我们是如何测试人工智能的（四）补充：模型全生命周期流程与测试图 at 2024年01月10日

感谢支持~~ 回答一下问题：比如人工智能中，做计算机视觉场景下，会用到容器化中的边缘计算能力。因为系统需要对接很多的摄像头，这些终端设备都是部署在边缘侧的。还有就是模型训练和部署模型推理服务的时候，也都是用容器化进行部署的。现在的人工智能系统基本都是在 k8s 中部署的。

我的 2023 年终总结 -- 一个小小工程师的 15 年 at 2024年01月09日

每个人都是不可复制的，还是得走出自己的路

我的 2023 年终总结 -- 一个小小工程师的 15 年 at 2024年01月09日

应该是的，我自己是这么转变的

我的 2023 年终总结 -- 一个小小工程师的 15 年 at 2024年01月09日

所以还得继续当牛马努力挣钱

人工智能产品测试的学习路线 at 2024年01月05日

感谢你的支持~

人工智能产品测试的学习路线 at 2024年01月05日

感谢大家的支持，星球已经加入了 20 多个人了

人工智能产品测试的学习路线 at 2024年01月05日

估计得有 2,3 个月吧。

领导想推行自动化测试，但是实际使用后发现不稳定，反而加重了测试工作量，要怎么和领导反馈？ at 2024年01月03日

嗯，怎么说呢。如果是以前的我，那还是很较真的，我会跟领导说清楚并且尝试反抗一下。但后来我慢慢知道了，有时候想改变领导的想法是不太现实的。所以呢，你可以考虑把问题反向抛给领导。比如你觉得工作量更多了，那就直接体现在排期上。原来 3 天能做完，你就排 4 天或者 5 天。因为你确定要调整自动化。测试周期拉长了自然就有人桶到领导那，领导自然就会查是什么原因，到时候你如实说就行了。感受到了排期压力，慢慢的领导也就不坚持做这个事情了。

就是别试图靠打嘴炮说服领导。要用事实告诉他，这样就是不行。

大佬们关于索引的测试你们是怎么设计测试用例的 at 2024年01月03日

我还真没做过这种测试。一般索引优化了是为了性能吧。你直接做性能测试不行么

学多门语言不会串吗？ at 2023年12月30日

我经常会串，而且会导致我每个语言的语法都记不熟。有时候都要现查。

基于大模型的 app 自动遍历工具-GptTraversal at 2023年12月28日

兄弟对匿名是不是有啥误解。。。。。。

基于大模型的 app 自动遍历工具-GptTraversal at 2023年12月28日

是啊，这不是显示的匿名用户么

基于大模型的 app 自动遍历工具-GptTraversal at 2023年12月28日

额，这个为啥要匿名啊

我们是如何测试人工智能的（一）基础效果篇（内含大模型的测试内容） at 2023年12月25日

我不了解你们的业务，不太好下判断。但如果是效果类的评估，那门方法都是一样的，不管是底层还是上层。就看你们的业务把模型的计算结果转换成了什么形式。效果的自动化测试流程很简单，收集数据，给数据打标注，把数据输入模型，然后把计算结果和预先的标注结果对比。

年底遭遇裁员，如何面对？ at 2023年12月25日

这个年头真的没什么好的建议，只能祝愿楼主早日找到新工作。

如何收集线上的用户访问模型？ at 2023年12月23日

收集用户行为么？应该都是埋点做的吧。

我们是如何测试人工智能的（一）基础效果篇（内含大模型的测试内容） at 2023年12月22日

嗯，会说的。但我可能不会分的那么清楚，因为在我们这里都是测试来做的。
我也没有很详细的对比数据，翻译场景我们一般都是用 meteor 或者 rouge，生成式模型里，我一般用 bert。

两份 offer，该如何抉择？ at 2023年12月03日

个人建议，如果想在未来有更好的职业发展。还是尽量避免外包岗位

大模型的测评或者测试怎么进行？ at 2023年11月27日

等这周从上海回来，下周看看总结写一下。最近太忙了，都没什么功夫

大模型的测评或者测试怎么进行？ at 2023年11月15日

好像可以有哎，我想想要不要写个帖子

大模型的测评或者测试怎么进行？ at 2023年11月15日

大语言模型要如何评估

NLP 领域的模型评估方法向来都是繁杂和枯燥的，因为它没有什么可以炫技的地方，只能一点点按部就班的收集数据并进行评估。由于自然语言的复杂和多样性，这也导致了我们需要
评估的内容非常多。所以需要建立起一套或多套的问卷来进行评估。当然也可以用行业公开的数据集和指标。比如在语言安全方面（内容审核）可以使用 Safety-Prompts，
中文安全 prompts，用于评测和提升大模型的安全性，将模型的输出与人类的价值观对齐。

也可以使用中文通用大模型评测标准 SuperCLUE，23 年 5 月在国内刚推出，它主要回答的问题是：中文大模型的效果情况，包括但不限于"这些模型不同任务的效果情况"、"相较于国际上的代表性模型做到了什么程度"、 "这些模型与人类的效果对比如何"。
该标准可通过多个层面，考验市面上主流的中文 GPT 大模型的能力。一是基础能力，包括常见的有代表性的模型能力，如语义理解、对话、逻辑推理、角色模拟、代码、生成与创作等 10 项能力；二是专业能力，包括中学、大学与专业考试，涵盖从数学、物理、地理到社会科学等 50 多项能力；三是中文特性能力，针对有中文特点的任务，包括中文成语、诗歌、文学、字形等 10 项能力。

或者 C-Eval：