最近做了一些图片比较以及文字识别的工作,现把用到的工具与模块总结一下,供大家参考。
PIL(Python Imaging Library Python,图像处理类库)提供了通用的图像处理功能,以及大量有用的基本图像操作,比如图像缩放、裁剪、旋转、颜色转换等。
http://pythonware.com/products/pil/
sudo apt-get install python-imaging
http://effbot.org/imagingbook/pil-index.htm#tools-reference
Image
通常主要用到 Image Module,具体例子请参考下面的链接。很推荐!
http://effbot.org/imagingbook/image.htm#examples
ImageFilter
有时候我们需要对图片做一些降噪处理,可以用 ImageFilter 模块,ImageFilter 是 PIL 的滤镜模块,通过这些预定义的滤镜,可以方便的对图片进行一些过滤操作,从而去掉图片中的噪音 (部分的消除),这样可以降低将来处理的复杂度 (如模式识别等)。
http://effbot.org/imagingbook/imagefilter.htm
滤镜名称 含义
ImageFilter.BLUR 模糊滤镜
ImageFilter.CONTOUR 轮廓
ImageFilter.EDGE_ENHANCE 边界加强
ImageFilter.EDGE_ENHANCE_MORE 边界加强 (阀值更大)
ImageFilter.EMBOSS 浮雕滤镜
ImageFilter.FIND_EDGES 边界滤镜
ImageFilter.SMOOTH 平滑滤镜
ImageFilter.SMOOTH_MORE 平滑滤镜 (阀值更大)
ImageFilter.SHARPEN 锐化滤镜
ImageMagick 是一个免费的创建、编辑、合成图片的软件。它可以读取、转换、写入多种格式的图片。图片切割、颜色替换、各种效果的应用,图片的旋转、组合,文本,直线,多边形,椭圆,曲线,附加到图片伸展旋转。也可做图片比较。
http://www.imagemagick.org/script/binary-releases.php
sudo apt-get install imagemagick
brew install imagemagick
### 参考链接:
http://www.imagemagick.org/script/index.php
http://www.imagemagick.com.cn/
一些例子:
http://www.imagemagick.org/Usage/basics/#im_commands
ImageMagick 有 Python 封装的包,我在应用过程中觉得不太好用,所以就直接用下面的方式了
Tesseract 的 OCR 引擎目前已作为开源项目发布在 Google Project,其项目主页在这里查看https://github.com/tesseract-ocr,
它支持中文 OCR,并提供了一个命令行工具。python 中对应的包是 pytesseract. 通过这个工具我们可以识别图片上的文字。
https://github.com/tesseract-ocr/tesseract/wiki/Downloads
sudo apt-get install tesseract-ocr
brew install tesseract
安装 python 包
sudo pip install pytesseract
tesseract-ocr 已经提供了多种语言训练文本,当识别中文时,我们需要下载训练文件 “chi_sim.traineddata” 从下面的链接(https://github.com/tesseract-ocr/tessdata),
然后拷贝到安装路径下的 tessdata 文件 夹下,比如 Ubuntu"/usr/share/tesseract-ocr/tessdata"关于训练自己的样本,请参考下面的链接,这块研究的不多
http://www.cnblogs.com/samlin/p/Tesseract-OCR.html
未完