Windows 10系统安装Tesseract-OCR并配置TESSERACT_HOME和TESSDATA_PREFIX实用教程

在Windows 10系统上安装Tesseract-OCR并配置环境变量是一项相对直接的任务。以下详细教程：

第1步：下载Tesseract-OCR

访问Tesseract-OCR的GitHub发布页面：Tesseract-OCR releases。
查找适用于Windows的最新稳定版本，通常是一个.msi或.exe安装文件。
下载适合你系统的版本（32位或64位）。

第2步：安装Tesseract-OCR

双击下载的.msi或.exe文件开始安装。
跟随安装向导的指示进行操作，默认设置通常是可以接受的。
安装完成后，你会在“开始”菜单中看到Tesseract的快捷方式。

第3步：配置环境变量

为了使Tesseract可以在任何目录下运行，你需要将其添加到系统PATH环境变量中。同时，你还需要配置TESSDATA_PREFIX变量来指向Tesseract的训练数据（traineddata文件）所在的目录。

打开“环境变量编辑器”：
右键点击“计算机”或“此电脑”，选择“属性”。
点击“高级系统设置”。
在“系统属性”窗口中，点击“环境变量”。
编辑系统变量：
在“系统变量”区域中找到Path变量，点击“编辑”。
添加Tesseract的安装目录到Path变量中，例如：C:\Program Files\Tesseract-OCR。
确认更改。
创建TESSDATA_PREFIX变量：
点击“新建”，创建一个新的系统变量。
变量名：TESSDATA_PREFIX
变量值：Tesseract的tessdata目录，通常位于C:\Program Files\Tesseract-OCR\tessdata。

第4步：测试安装

打开命令提示符或PowerShell，输入以下命令来测试是否正确安装和配置了Tesseract：

tesseract --version

如果一切正常，你将看到Tesseract的版本信息输出。

第5步：安装额外的语言包（如果需要）

Tesseract默认可能只包含了英语语言包。如果你需要其他语言支持，可以从Tesseract GitHub仓库下载对应的.traineddata文件，然后将它们放到Tesseract的tessdata目录下。

完成以上步骤后，你就可以在Windows 10上使用Tesseract-OCR进行光学字符识别了。

记住，每次更改环境变量后，都需要重启命令行界面或系统才能使更改生效。此外，如果你打算在Python或其他编程环境中使用Tesseract，确保你的编程环境也能够访问这些环境变量。

python使用tesseract识别图片文字实例

首先，安装了pytesseract和Pillow库。可以通过pip安装：

pip install pytesseract Pillow

接下来，确保Tesseract OCR已经安装在你的系统上。在Ubuntu或Debian上，可以使用如下命令安装：

sudo apt-get install tesseract-ocr

对于其他操作系统，你可以参考Tesseract OCR的官方文档获取安装指南。

确保pytesseract知道Tesseract的安装位置。如果Tesseract不在你的系统PATH中，你需要手动设置它。在Python脚本中添加以下代码：

import pytesseract
pytesseract.pytesseract.tesseract_cmd = r'<path_to_tesseract>'

将<path_to_tesseract>替换为实际的Tesseract可执行文件的位置，例如在Windows上可能是C:\\Program Files\\Tesseract-OCR\\tesseract.exe。

使用以下Python代码来读取图像并提取文本：

import pytesseract
from PIL import Image

# 打开图片
img = Image.open('20240710163100.png')

# 使用Tesseract OCR识别图片中的文字
text = pytesseract.image_to_string(img, lang='chi_sim')

# 输出识别的文字
print(text)

将20240710163100.jpg替换为你要识别的图像的实际路径。

这就是一个基本的流程，可以根据需要调整图像预处理步骤，比如缩放、旋转、灰度化、二值化等，以提高识别准确率。例如，使用PIL库的ImageOps.autocontrast()方法可以增强图像对比度，从而提高OCR效果。

需要注意，Tesseract的识别效果很大程度上依赖于输入图像的质量，包括清晰度、对比度、倾斜角度等。如果图像质量不佳，可能需要进一步的图像处理来优化结果。

如果你找不到tesseract-OCR.exe或不想找，公众号回复“tesseract-ocr”获取下载连接

你可能感兴趣的文章

来源：每日教程， 每日一例，深入学习实用技术教程，关注公众号TeachCourse
转载请注明出处： https://teachcourse.cn/3583.html ，谢谢支持！

资源分享

分类：windows 标签：pytesseract, tesseract ocr, 图片识别文字

Windows 10系统安装Tesseract-OCR并配置TESSERACT_HOME和TESSDATA_PREFIX实用教程

第1步：下载Tesseract-OCR

第2步：安装Tesseract-OCR

第3步：配置环境变量

第4步：测试安装

第5步：安装额外的语言包（如果需要）

python使用tesseract识别图片文字实例

你可能感兴趣的文章

资源分享

python目录文件操作

WordPress文章分页插件：Multi-page Toolkit

011-ubuntu sudo ufw查看现有防火墙规则

Kotlin比较多种单例的写法，哪一种单例性能最优？

结合FirstComposeApp项目深入学习案例

Android开发工程师创建项目需要掌握的Git命令

network-protocol-engineer.skill

php关键字yield详细介绍

如何使用SVN提交项目备份？

99-学习案例汇总

赞助2.00

第1步：下载Tesseract-OCR

第2步：安装Tesseract-OCR

第3步：配置环境变量

第4步：测试安装

第5步：安装额外的语言包（如果需要）

python使用tesseract识别图片文字实例

你可能感兴趣的文章

资源分享

选择：

赞助2.00