如何使用 Tesseract 从 Linux 命令行执行 OCR

已发表: 2022-01-29

Linux 笔记本电脑上的终端窗口。 — Fatmawati Achmad Zaenuri/Shutterstock

您可以使用 Tesseract OCR 引擎在 Linux 命令行上从图像中提取文本。它快速、准确，支持大约 100 种语言。以下是如何使用它。

光学字符识别

光学字符识别 (OCR) 是一种查看和查找图像中的单词，然后将它们提取为可编辑文本的能力。对于人类来说，这个简单的任务对于计算机来说是非常困难的。至少可以说，早期的努力很笨拙。如果字体或大小不符合 OCR 软件的喜好，计算机通常会感到困惑。

尽管如此，这一领域的先驱者仍然受到高度尊重。如果您丢失了文档的电子副本，但仍有打印版本，OCR 可以重新创建可编辑的电子版本。即使结果不是 100% 准确，这仍然可以节省大量时间。

通过一些手动整理，您将获得您的文档。人们原谅了它所犯的错误，因为他们了解 OCR 包所面临的任务的复杂性。另外，这比重新输入整个文档要好。

从那以后，情况有了显着改善。由 Hewlett Packard 编写的 Tesseract OCR 应用程序于 1980 年代作为商业应用程序开始。它于 2005 年开源，现在得到 Google 的支持。它具有多语言功能，被认为是可用的最准确的 OCR 系统之一，您可以免费使用它。

安装 Tesseract OCR

要在 Ubuntu 上安装 Tesseract OCR，请使用以下命令：

 sudo apt-get install tesseract-ocr

在 Fedora 上，命令是：

 须藤 dnf 安装 tesseract

在 Manjaro 上，您需要输入：

 sudo pacman -Syu tesseract

使用 Tesseract OCR

我们将对 Tesseract OCR 提出一系列挑战。我们的第一个包含文本的图像是从《通用数据保护条例》的第 63 条独奏会中摘录的。让我们看看 OCR 是否可以读取（并保持清醒）。

摘自 GDPR 独奏会 63

广告

这是一个棘手的图像，因为每个句子都以微弱的上标数字开头，这在立法文件中很常见。

我们需要给tesseract命令一些信息，包括：

我们希望它处理的图像文件的名称。
它将创建以保存提取的文本的文本文件的名称。 我们不必提供文件扩展名（它始终是 .txt）。如果同名文件已经存在，它将被覆盖。
我们可以使用--dpi选项告诉tesseract图像的每英寸点数 (dpi) 分辨率是多少。 如果我们不提供 dpi 值， tesseract会尝试找出它。

我们的图像文件名为“recital-63.png”，其分辨率为 150 dpi。我们将从它创建一个名为“recital.txt”的文本文件。

我们的命令如下所示：

 tesseract 独奏会-63.png 独奏会--dpi 150

结果非常好。唯一的问题是上标——它们太暗而无法正确阅读。高质量的图像对于获得良好的效果至关重要。

从演奏会 63 中提取文本。

tesseract已将上标数字解释为引号 (") 和度数符号 (°)，但实际文本已被完美提取（必须修剪图像的右侧以适合此处）。

广告

最后一个字符是一个字节，十六进制值为0x0C，即回车。

下面是另一张不同大小的文字图片，包括粗体和斜体。

带有不同大小文本的图像以粗体和斜体显示。

该文件的名称是“bold-italic.png”。我们要创建一个名为“bold.txt”的文本文件，所以我们的命令是：

 tesseract粗体斜体.png粗体--dpi 150

这篇没有任何问题，文本被完美地提取出来。

使用不同的语言

Tesseract OCR 支持大约 100 种语言。要使用一种语言，您必须先安装它。当您在列表中找到要使用的语言时，请记下其缩写。我们将安装对威尔士语的支持。它的缩写是“cym”，是“Cymru”的缩写，意思是威尔士语。

安装包名为“tesseract-ocr-”，末尾标注语言缩写。要在 Ubuntu 中安装威尔士语言文件，我们将使用：

 sudo apt-get install tesseract-ocr-cym

广告

带有文字的图像如下。这是威尔士国歌的第一节。

图片包含威尔士国歌第一节的文字。

让我们看看 Tesseract OCR 是否能够应对挑战。我们将使用-l （语言）选项让tesseract知道我们想要使用的语言：

 tesseract hen-wlad-fy-nhadau.png 国歌 -l cym --dpi 150

tesseract完美应对，如下面的摘录文本所示。 Da iawn ，正方体 OCR。

提取的威尔士语文本。

如果您的文档包含两种或多种语言（例如威尔士语到英语词典），您可以使用加号 ( + ) 告诉tesseract添加另一种语言，如下所示：

 tesseract image.png 文本文件 -l eng+cym+fra

将 Tesseract OCR 与 PDF 结合使用

tesseract命令旨在处理图像文件，但它无法读取 PDF。但是，如果您需要从 PDF 中提取文本，您可以先使用另一个实用程序来生成一组图像。单个图像将代表 PDF 的单个页面。

您需要的pdftppm实用程序应该已经安装在您的 Linux 计算机上。我们将用于示例的 PDF 是 Alan Turing 关于人工智能的开创性论文“计算机与智能”的副本。

A.M.《计算机与智能》扉页PDF图灵。

广告

我们使用-png选项来指定我们要创建 PNG 文件。我们的 PDF 文件名为“turing.pdf”。我们将图像文件命名为“turing-01.png”、“turing-02.png”等：

 pdftoppm -png 图灵.pdf 图灵

要使用单个命令对每个图像文件运行tesseract ，我们需要使用 for 循环。对于我们的每个“turing- nn.png ”文件，我们运行tesseract ，并创建一个名为“text-”的文本文件，加上“turing- nn ”作为图像文件名的一部分：

 对于我在图灵-??.png； 做 tesseract "$i" "text-$i" -l eng; 完毕;

要将所有文本文件合并为一个，我们可以使用cat ：

 cat text-turing* > complete.txt

那么，它是怎么做的呢？很好，如下所示。不过，第一页看起来很有挑战性。它具有不同的文本样式和大小以及装饰。页面右边缘还有一个垂直的“水印”。

但是，输出接近原始。显然，格式丢失了，但文本是正确的。

图灵 PDF 中提取文本的第一页。

垂直水印被转录为页面底部的一行乱码。文本太小，无法被tesseract准确读取，但很容易找到并删除它。最糟糕的结果将是每行末尾的杂散字符。

广告

奇怪的是，第二页问题和答案列表开头的单个字母被忽略了。 PDF 中的部分如下所示。

图灵论文 PDF 中的问题和答案列表。

正如您在下面看到的，问题仍然存在，但每行开头的“Q”和“A”都丢失了。

从图灵 PDF 的问答页面中提取的文本。

图表也不会被正确转录。让我们看看当我们尝试从图灵 PDF 中提取如下所示的内容时会发生什么。

图灵 PDF 中的“输入”和“最后状态”图。

正如您在下面的结果中看到的那样，字符被读取，但图表的格式丢失了。

从图灵 PDF 中的图表中提取的文本。

再次， tesseract与小尺寸的下标作斗争，并且它们被错误地渲染。

广告

不过，平心而论，这仍然是一个不错的结果。我们无法提取简单的文本，但后来故意选择了这个示例，因为它提出了挑战。

需要时的好解决方案

OCR 不是您每天都需要使用的东西。但是，当确实需要时，很高兴知道您拥有最好的 OCR 引擎之一。

分享，谢谢！

麦克风无法在 Mac 上工作？这是解决方法

Apple MacBook 和许多台式机 Mac 具有内置麦克风。但是，您也可以通过 USB、3.5 毫米音频插孔或蓝牙连接耳机和其他麦克风。以下是修复在 Mac 上无法使用的麦克风的方法。

如何在 Linux 上使用 fd 命令

在 Linux 上，fd 是 find 命令的一种更简单的替代方法。它具有简化的语法，使用合理的默认值，并具有内置的常识行为。让我们逐步了解它。

Mac 相机不工作？这是解决方法

Apple MacBook 和台式机 Mac 通常包含内置网络摄像头。您还可以通过 USB 将外部网络摄像头连接到 Mac。如果您的网络摄像头无法正常工作，或者在 macOS 中似乎已断开连接或不可用，您可以采取几个步骤（希望）让它再次运行。

如何在 YouTube 上制作播放列表

YouTube 播放列表是创建包含您喜爱的视频的定制列表的最佳方式。您可以按频道或兴趣将视频分组，也可以分享您的播放列表供其他人使用或编辑。

如何在 Linux 上使用 ss 命令

ss 命令是经典 netstat 的现代替代品。您可以在 Linux 上使用它来获取有关网络连接的统计信息。以下是如何使用这个方便的工具。