pytesseract安装,中文识别OCR

浏览: 1967

网上搜一堆解决问题的文章都没用

1. 安装 pytesseract

pip install pytesseract

跑python识别程序,下列语句会报错

pytesseract.image_to_string(Image.open(filename))

报错:

Error opening data file /usr/local/share/tessdata/eng.traineddata Please make sure the TESSDATA_PREFIX environment variable is set to your "tessdata" directory. Failed loading language 'eng' Tesseract couldn't load any languages! Could not initialize tesseract.

2. 在Windows中需安装tesseract,如下载 tesseract-ocr-setup-4.00.00dev.exe 安装

3. 并新建用户变量

TESSDATA_PREFIX
D:\Program Files (x86)\Tesseract-OCR

4.  再次运行,会有如下报错

tesseract.exe 已停止工作
pytesseract.pytesseract.TesseractError: (3221225477, ‘’) 

因为安装的是版本4.0了,解决需卸载,并下载安装tesseract 3.02.02 版本,sourceforge有历史安装文件和中文包下载

https://sourceforge.net/projects/tesseract-ocr-alt/files/
https://nchc.dl.sourceforge.net/project/tesseract-ocr-alt/tesseract-ocr-setup-3.02.02.exe

5.下载中文 chi_sim下载,解包到D:\Program Files (x86)\Tesseract-OCR\tessdata

https://nchc.dl.sourceforge.net/project/tesseract-ocr-alt/tesseract-ocr-3.02.chi_sim.tar.gz

6. 跑程序,但是识别结果真烂

材料成分识别成了材料咸分。。。


CentOS 7 安装 tesseract

sudo yum install tesseract -y
pip3 install pytesseract
vi ~/.bash_profile
export TESSDATA_PREFIX=/usr/share/tesseract/tessdata
source ~/.bash_profile
yum install -y tesseract-langpack-chi_sim # 中文包

参考:

https://www.devzoneoriginal.com/2020/11/how-to-install-tesseract-on-centos.html

推荐 0
本文由 safa 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

0 个评论

要回复文章请先登录注册