先从google下载tesseract的安装程序
https://tesseract-ocr.googlecode.com/files/tesseract-ocr-setup-3.02.02.exe
安装的时候最好选择中文(简体繁体)字库,识别中方会好些
安装后在 C:\Program Files (x86)\Tesseract-OCR 有tesseract.exe的命令行程序,直接调用它就可以识别图片里面的文字
假设当前目录是:C:\Program Files (x86)\Tesseract-OCR,使用命令行就可以识别出图片里面的内容:
tesseract.exe b.jpg b -l chi_sim
b.jpg:在C:\Program Files (x86)\Tesseract-OCR目录下面的一张图片
b:识别后输出的文件名称,不需要后缀,默认是txt
-l chi_sim:使用C:\Program Files (x86)\Tesseract-OCR\tessdata目录下面的“chi_sim.traineddata”作为字库,后缀可以不输入,其它语言的字库可以另外下载。
如果不指定字库,默认使用英文识别,例如:tesseract.exe b.jpg b
tesseract除了命令行启用,还可以使用接口调用,在安装的时候可以选择API,然后参照文档进行编写。