在Windows 10系统上安装Tesseract-OCR并配置环境变量是一项相对直接的任务。以下详细教程:
第1步:下载Tesseract-OCR
- 访问Tesseract-OCR的GitHub发布页面:Tesseract-OCR releases。
- 查找适用于Windows的最新稳定版本,通常是一个
.msi或.exe安装文件。 - 下载适合你系统的版本(32位或64位)。
第2步:安装Tesseract-OCR
- 双击下载的
.msi或.exe文件开始安装。 - 跟随安装向导的指示进行操作,默认设置通常是可以接受的。
- 安装完成后,你会在“开始”菜单中看到Tesseract的快捷方式。
第3步:配置环境变量
为了使Tesseract可以在任何目录下运行,你需要将其添加到系统PATH环境变量中。同时,你还需要配置TESSDATA_PREFIX变量来指向Tesseract的训练数据(traineddata文件)所在的目录。
- 打开“环境变量编辑器”:
- 右键点击“计算机”或“此电脑”,选择“属性”。
- 点击“高级系统设置”。
-
在“系统属性”窗口中,点击“环境变量”。
-
编辑系统变量:
- 在“系统变量”区域中找到
Path变量,点击“编辑”。 - 添加Tesseract的安装目录到
Path变量中,例如:C:\Program Files\Tesseract-OCR。 -
确认更改。
-
创建
TESSDATA_PREFIX变量: - 点击“新建”,创建一个新的系统变量。
- 变量名:
TESSDATA_PREFIX - 变量值:Tesseract的
tessdata目录,通常位于C:\Program Files\Tesseract-OCR\tessdata。
第4步:测试安装
打开命令提示符或PowerShell,输入以下命令来测试是否正确安装和配置了Tesseract:
tesseract --version
如果一切正常,你将看到Tesseract的版本信息输出。
第5步:安装额外的语言包(如果需要)
Tesseract默认可能只包含了英语语言包。如果你需要其他语言支持,可以从Tesseract GitHub仓库下载对应的.traineddata文件,然后将它们放到Tesseract的tessdata目录下。
完成以上步骤后,你就可以在Windows 10上使用Tesseract-OCR进行光学字符识别了。
记住,每次更改环境变量后,都需要重启命令行界面或系统才能使更改生效。此外,如果你打算在Python或其他编程环境中使用Tesseract,确保你的编程环境也能够访问这些环境变量。
python使用tesseract识别图片文字实例
- 首先,安装了
pytesseract和Pillow库。可以通过pip安装:
pip install pytesseract Pillow
- 接下来,确保Tesseract OCR已经安装在你的系统上。在Ubuntu或Debian上,可以使用如下命令安装:
sudo apt-get install tesseract-ocr
对于其他操作系统,你可以参考Tesseract OCR的官方文档获取安装指南。
- 确保
pytesseract知道Tesseract的安装位置。如果Tesseract不在你的系统PATH中,你需要手动设置它。在Python脚本中添加以下代码:
import pytesseract
pytesseract.pytesseract.tesseract_cmd = r'<path_to_tesseract>'
将<path_to_tesseract>替换为实际的Tesseract可执行文件的位置,例如在Windows上可能是C:\\Program Files\\Tesseract-OCR\\tesseract.exe。
- 使用以下Python代码来读取图像并提取文本:
import pytesseract
from PIL import Image
# 打开图片
img = Image.open('20240710163100.png')
# 使用Tesseract OCR识别图片中的文字
text = pytesseract.image_to_string(img, lang='chi_sim')
# 输出识别的文字
print(text)
将20240710163100.jpg替换为你要识别的图像的实际路径。
这就是一个基本的流程,可以根据需要调整图像预处理步骤,比如缩放、旋转、灰度化、二值化等,以提高识别准确率。例如,使用PIL库的ImageOps.autocontrast()方法可以增强图像对比度,从而提高OCR效果。
需要注意,Tesseract的识别效果很大程度上依赖于输入图像的质量,包括清晰度、对比度、倾斜角度等。如果图像质量不佳,可能需要进一步的图像处理来优化结果。

如果你找不到tesseract-OCR.exe或不想找,公众号回复“tesseract-ocr”获取下载连接
当前文章价值2.57元,扫一扫支付后添加微信提供帮助!(如不能解决您的问题,可以申请退款)

评论已关闭!