Windows 10系统安装Tesseract-OCR并配置TESSERACT_HOME和TESSDATA_PREFIX实用教程

2024-07-10 18:22 Windows 10系统安装Tesseract-OCR并配置TESSERACT_HOME和TESSDATA_PREFIX实用教程已关闭评论

在Windows 10系统上安装Tesseract-OCR并配置环境变量是一项相对直接的任务。以下详细教程:

第1步:下载Tesseract-OCR

  1. 访问Tesseract-OCR的GitHub发布页面:Tesseract-OCR releases
  2. 查找适用于Windows的最新稳定版本,通常是一个.msi.exe安装文件。
  3. 下载适合你系统的版本(32位或64位)。

第2步:安装Tesseract-OCR

  1. 双击下载的.msi.exe文件开始安装。
  2. 跟随安装向导的指示进行操作,默认设置通常是可以接受的。
  3. 安装完成后,你会在“开始”菜单中看到Tesseract的快捷方式。

第3步:配置环境变量

为了使Tesseract可以在任何目录下运行,你需要将其添加到系统PATH环境变量中。同时,你还需要配置TESSDATA_PREFIX变量来指向Tesseract的训练数据(traineddata文件)所在的目录。

  1. 打开“环境变量编辑器”
  2. 右键点击“计算机”或“此电脑”,选择“属性”。
  3. 点击“高级系统设置”。
  4. 在“系统属性”窗口中,点击“环境变量”。

  5. 编辑系统变量

  6. 在“系统变量”区域中找到Path变量,点击“编辑”。
  7. 添加Tesseract的安装目录到Path变量中,例如:C:\Program Files\Tesseract-OCR
  8. 确认更改。

  9. 创建TESSDATA_PREFIX变量

  10. 点击“新建”,创建一个新的系统变量。
  11. 变量名:TESSDATA_PREFIX
  12. 变量值:Tesseract的tessdata目录,通常位于C:\Program Files\Tesseract-OCR\tessdata

第4步:测试安装

打开命令提示符或PowerShell,输入以下命令来测试是否正确安装和配置了Tesseract:

tesseract --version

如果一切正常,你将看到Tesseract的版本信息输出。

第5步:安装额外的语言包(如果需要)

Tesseract默认可能只包含了英语语言包。如果你需要其他语言支持,可以从Tesseract GitHub仓库下载对应的.traineddata文件,然后将它们放到Tesseract的tessdata目录下。

完成以上步骤后,你就可以在Windows 10上使用Tesseract-OCR进行光学字符识别了。

记住,每次更改环境变量后,都需要重启命令行界面或系统才能使更改生效。此外,如果你打算在Python或其他编程环境中使用Tesseract,确保你的编程环境也能够访问这些环境变量。

python使用tesseract识别图片文字实例

  1. 首先,安装了pytesseractPillow库。可以通过pip安装:
pip install pytesseract Pillow
  1. 接下来,确保Tesseract OCR已经安装在你的系统上。在Ubuntu或Debian上,可以使用如下命令安装:
sudo apt-get install tesseract-ocr

对于其他操作系统,你可以参考Tesseract OCR的官方文档获取安装指南。

  1. 确保pytesseract知道Tesseract的安装位置。如果Tesseract不在你的系统PATH中,你需要手动设置它。在Python脚本中添加以下代码:
import pytesseract
pytesseract.pytesseract.tesseract_cmd = r'<path_to_tesseract>'

<path_to_tesseract>替换为实际的Tesseract可执行文件的位置,例如在Windows上可能是C:\\Program Files\\Tesseract-OCR\\tesseract.exe

  1. 使用以下Python代码来读取图像并提取文本:
import pytesseract
from PIL import Image

# 打开图片
img = Image.open('20240710163100.png')

# 使用Tesseract OCR识别图片中的文字
text = pytesseract.image_to_string(img, lang='chi_sim')

# 输出识别的文字
print(text)

20240710163100.jpg替换为你要识别的图像的实际路径。

这就是一个基本的流程,可以根据需要调整图像预处理步骤,比如缩放、旋转、灰度化、二值化等,以提高识别准确率。例如,使用PIL库的ImageOps.autocontrast()方法可以增强图像对比度,从而提高OCR效果。

需要注意,Tesseract的识别效果很大程度上依赖于输入图像的质量,包括清晰度、对比度、倾斜角度等。如果图像质量不佳,可能需要进一步的图像处理来优化结果。

如果你找不到tesseract-OCR.exe或不想找,公众号回复“tesseract-ocr”获取下载连接

当前文章价值2.57元,扫一扫支付后添加微信提供帮助!(如不能解决您的问题,可以申请退款)

你可能感兴趣的文章

来源:每日教程每日一例,深入学习实用技术教程,关注公众号TeachCourse
转载请注明出处: https://teachcourse.cn/3583.html ,谢谢支持!

资源分享

如何给WordPress长文章添加分页功能 如何给WordPress长文章添加分页
浅谈dt.jar、tools.jar和rt.jar 浅谈dt.jar、tools.jar和rt.jar
关于刘翔妈妈我听闻的一件事,绝对不是个好伺候的婆婆 关于刘翔妈妈我听闻的一件事,绝
浅谈Android DVM 浅谈Android DVM

评论已关闭!