OCR文字识别引擎tesseract的使用方法 - 不想买菜网站开发技术分享

先从google下载tesseract的安装程序

安装的时候最好选择中文（简体繁体）字库，识别中方会好些

安装后在 C:\Program Files (x86)\Tesseract-OCR 有tesseract.exe的命令行程序，直接调用它就可以识别图片里面的文字

假设当前目录是：C:\Program Files (x86)\Tesseract-OCR，使用命令行就可以识别出图片里面的内容：

tesseract.exe b.jpg b -l chi_sim

b.jpg：在C:\Program Files (x86)\Tesseract-OCR目录下面的一张图片

b：识别后输出的文件名称，不需要后缀，默认是txt

-l chi_sim：使用C:\Program Files (x86)\Tesseract-OCR\tessdata目录下面的“chi_sim.traineddata”作为字库，后缀可以不输入，其它语言的字库可以另外下载。

如果不指定字库，默认使用英文识别，例如：tesseract.exe b.jpg b

tesseract除了命令行启用，还可以使用接口调用，在安装的时候可以选择API，然后参照文档进行编写。

Post Views: 63