QQ 浏览器的 feeds 视频每天有数亿的播放量,视频的质量会影响用户使用 QB 的体验。如何在海量的视频库中发现劣质视频,一直是视频运营的重要关注点。常用的方式是,给视频加一个举报按钮,让用户来举报,这是一个直接且有效的方式。
但是鉴于举报的按钮不明显,用户不知道举报功能等原因,依然有大量的劣质视频没有被发现。通过观察发现,劣质的视频通常会有大量的用户在评论里面吐槽。
因此想到通过评论内容判断视频的质量,实践中使用了 tensorflow 训练模型。当前会将评论分为标题不符,广告宣传,内容重复过时等类别。
要训练模型,必须要有相应的训练集和验证集,视频评论有 8 个分类每个分类都需要大量的数据。首先在视频后台的播放记录中获取播放量比较大的视频 vid,然后通过视频的 http 接口,通过 vid 获取评论。通过这种方式每天能拿到上百万的评论,但是这些评论大部分都是用户正常的评论。
QQ 浏览器资讯之前已经做过类似的模型,资讯包含了一个情感分类(正面,负面)的模型,吐槽的内容一般都是在负面评论里面。所以前期会将所有的评论使用情感分析,得到大量的负反馈评论。通过这个步骤可以从百万级别的评论中筛选出十万级别的负面评论。
已经有了十多万的负面评论,但是这些数据依然不能用于训练,需要标注分类后才能用于训练。评论的标注是在企鹅众测(https://wetask.qq.com/tasks?type=0)上完成的,企鹅众测上有多种类型的数据标注,不同的用户有不同的擅长领域。因此前期组内选出了 60 个标注的测试题,放在众测上做用户的测试和筛选,选出成绩比较高的众测用户作为之后的核心视频评论标注用户。
核心用户选择完成后就能发布标注任务了,任务包含说明,需要标注的评论内容等信息。众测用户收到任务后,就可以在手机 APP 上进行标注了。
众测的后台会将同一个题目随机分给 3 个不同的众测用户标注,然后将 3 个标注结果进行统计,如果某个分类结果有 2 个以上的用户标注,则为有效的评论标注,否则该评论不使用。
有了标注的数据,就可以训练模型了。视频的评论使用工具是 tensorflow,网络是 CNN,速度比 RNN 快很多。具体是训练文章网络上已经有很多,可以网上搜索 “文本分类 tensorflow” 参考。
评测的模型训练完成后,就可以用来评测线上的数据了。线上数据的获取,视频这边是从播放记录拿的数据。使用 QQ 浏览器每播放完一个视频,就会将视频的播放记录上报到后台,其中就有 vid 字段。在数据工厂 [一个数据平台] 建立每日任务,统计每天播放量比较大的 vid,然后将 vid 导入到 mdb[一个数据库平台] 数据库。
将评测的脚本放到公司的 Docker 上,评测脚本每天定时执行。执行时从 mdb 获取 vid,然后脚本根据 vid 获取视频的评论。
将一个视频的所有评论使用模型评测,如果评论结果为问题视频(根据负面视频的占比),还会将该 vid 对应的信息补全(视频标题,封面图等信息)方面后期运营同学处理评测结果。
模型评测出的视频,不会是 100% 的问题视频,总会有失误的情况。因此将评测出的视频放到了一个 mdb 的表里面,由运营同学再次人工审核下线,而不是直接下线。运营的前端同学做了前端页面,从数据库读取视频,然后执行下线操作。
运营同学点击删除按钮后,该视频的 vid 就会进入视频系统的黑名单。进入黑名单的视频不仅不会得到相关视频的推荐,并且无法直接播放,访问时会直接提示已经删除。
当前的的评测模型每天能识别出 100 多个问题视频,经过人工确认的视频有 40-80 个,占比 70% 左右。运营同学手工确认的问题视频,后台也会收集用来优化模型。
最后放一张负反馈流程的全图:
关注腾讯移动品质中心 TMQ,获取更多测试干货!