Python 哪位大佬有好用的 pytesseract 简体中文字库,默认的不是很好用

Heroman · 2021年10月18日 · 最后由 Heroman 回复于 2021年10月19日 · 1875 次阅读

默认的经过二值化之后很明显的两个字都识别不到

共收到 3 条回复 时间 点赞
  1. 你把二值化后多余的背景剪掉再试试看能不能识别,有可能不是字库不好,而是背景太大,ocr 没有识别出对应的文字区域。先确定 pytesseract 能否识别你的样本再来思考后面的问题。
  2. 能否讲一下做 ocr 的目的是什么?识别控件,点击或者断言?通常很少有做全屏 OCR 的场景,有可能有其他更简单的方法达到你的目的。

不是应该在做二值化值钱就裁剪适当大小吗?你试试这个图在微信能否识别出文字。

转用了 百度的 OCR,特别好使

Heroman 关闭了讨论 10月19日 15:48
需要 登录 后方可回复, 如果你还没有账号请点击这里 注册