OCR文字识别引擎tesseract的使用方法

先从google下载tesseract的安装程序

https://tesseract-ocr.googlecode.com/files/tesseract-ocr-setup-3.02.02.exe

安装的时候最好选择中文(简体繁体)字库,识别中方会好些

安装后在 C:\Program Files (x86)\Tesseract-OCR 有tesseract.exe的命令行程序,直接调用它就可以识别图片里面的文字

假设当前目录是:C:\Program Files (x86)\Tesseract-OCR,使用命令行就可以识别出图片里面的内容:

tesseract.exe b.jpg b -l chi_sim

b.jpg:在C:\Program Files (x86)\Tesseract-OCR目录下面的一张图片

b:识别后输出的文件名称,不需要后缀,默认是txt

-l chi_sim:使用C:\Program Files (x86)\Tesseract-OCR\tessdata目录下面的“chi_sim.traineddata”作为字库,后缀可以不输入,其它语言的字库可以另外下载。

如果不指定字库,默认使用英文识别,例如:tesseract.exe b.jpg b

tesseract除了命令行启用,还可以使用接口调用,在安装的时候可以选择API,然后参照文档进行编写。

image

发表评论