背景:公司有一个上传 word 文档和图片的功能,面对 c 端,需求要搞一个检测上传的文档和图片有没有违规内容检测的功能。开发对接了第三方搞了一个检测的接口,现要测试这个接口是不是真能检测出违禁图片。
疑惑:
1.这要怎么测,真的找一些不同类别的违禁图片然后去上传看看会不会拦截吗?
2.顺便想到了人家第三方是怎么开发出来的,搞一堆违禁图片深度学习吗?(这一条不是重点)
大厂的经验分享下,我们之前做过屏蔽字和图片的上传审核,屏蔽字上,公司平台搭了个 ai 框架,先拦截屏蔽字,再做语义分析。但是我们项目实际接入测试时,还是发现了些问题,比如一些 tw 的 td 人的名字,是无法完全覆盖的;比如一些分词算法,“黑夜总会来临”,夜总会会被分词屏蔽,他们的 ai 判定机制还需要进一步训练。我们图片完全是人工审核。另外抖音应该用了 ai+ 人,我实际使用时发现过 ai 没有过滤掉的图片