最近在玩大模型评测。方向:1.有准确结果的返回脚本解析 :比如 1+1 的结果。 2 .近似度问题:一段文本,请总结主题思想,使用语义近似度断言 3. 主观评测的问题,使用高级模型来断言:关公战秦琼那个更加厉害。
已经跳出这个行业 2 年了,还是喜欢在这个论坛看帖子,这个行业薪资待遇配不上大家的极客精神,9 成的从业者都是耗材,在耗尽之前尽量的去赚块钱热钱,不要被所谓的技术迷了眼。一句话:那个技术赚钱就学那个,能坑就坑,能骗就骗。
思路:1.标准协议客户端协议开发的可以从代码层做自动化 2.非标的做 UI 层图像比对自动化 3.不同的系统分开做避坑