分享一下之前的经验:
样式:
字体:机打单据需要覆盖包括宋体、黑体、微软雅黑等字体(视业务需求),手写单据需要到业务人员中采样
宽度:如果是等宽字体只需要覆盖通常情况即可,但是如果是非等宽字体,例如 “长 12” 这里,汉字和数字宽度不等的,需要对不同宽度覆盖
全角半角:如果需求有,那么需要两边都覆盖
取值范围限定的字段需要保证正常识别
例如:是否有 XX 记录、费用归属月份这种
数字需要保证识别正常,尤其是价格、时间、电话这种
上下承接关系的字段需要保证识别正常
例如审批流程的节点名称
如果单据中有需要根据空格、表格或者逗号拆字识别的字段,需要明确需求后注意单独写用例覆盖
例如: “李总 1988-01-01 审批通过”,“2017-12|12|31|33”
总结:大多数人员对 OCR 这个技术理解有问题,OCR 识别率不是 100% 的,尤其是中文,人名、长句子、生僻字、换行段落、标点、公式识别错误非常普遍,如果文件本身包含图片的话结果惨不忍睹也是正常情况,需要保证技术能保证的部分,技术无法实现的部分不要深究!!!