AI测试 如何提升 OCR 测试的效率?

Test soldier · 2018年03月03日 · 最后由 猪头君 回复于 2018年04月02日 · 1457 次阅读

论坛里有做 OCR 测试的么?

共收到 1 条回复 时间 点赞

分享一下之前的经验:

  1. 样式:
    字体:机打单据需要覆盖包括宋体、黑体、微软雅黑等字体(视业务需求),手写单据需要到业务人员中采样
    宽度:如果是等宽字体只需要覆盖通常情况即可,但是如果是非等宽字体,例如 “长 12” 这里,汉字和数字宽度不等的,需要对不同宽度覆盖
    全角半角:如果需求有,那么需要两边都覆盖

  2. 取值范围限定的字段需要保证正常识别
    例如:是否有 XX 记录、费用归属月份这种

  3. 数字需要保证识别正常,尤其是价格、时间、电话这种

  4. 上下承接关系的字段需要保证识别正常
    例如审批流程的节点名称

  5. 如果单据中有需要根据空格、表格或者逗号拆字识别的字段,需要明确需求后注意单独写用例覆盖
    例如: “李总 1988-01-01 审批通过”,“2017-12|12|31|33”

总结:大多数人员对 OCR 这个技术理解有问题,OCR 识别率不是 100% 的,尤其是中文,人名、长句子、生僻字、换行段落、标点、公式识别错误非常普遍,如果文件本身包含图片的话结果惨不忍睹也是正常情况,需要保证技术能保证的部分,技术无法实现的部分不要深究!!!

需要 登录 后方可回复, 如果你还没有账号请点击这里 注册