如何从 Word、Excel 和 PowerPoint 文档中提取图像、文本和嵌入文件
已发表: 2022-01-29假设有人向您发送了包含大量图像的 Word 文档,并且您希望将这些图像保存在硬盘上。 您可以通过一个简单的技巧从 Microsoft Office 文档中提取图像。
如果您有嵌入图像或其他文件的 Word (.docx)、Excel (.xlsx) 或 PowerPoint (.pptx) 文件,您可以提取它们(以及文档的文本),而无需单独保存每个文件. 最重要的是,您不需要任何额外的软件。 基于 Office XML 的文件格式(docx、xlsx 和 pptx)实际上是压缩档案,您可以像使用 Windows 的任何普通 .zip 文件一样打开它们。 从那里,您可以提取图像、文本和其他嵌入文件。 如果您愿意,可以使用 Windows 的内置 .zip 支持或 7-Zip 之类的应用程序。
如果您需要从较旧的办公文档(如 .doc、.xls 或 .ppt 文件)中提取文件,您可以使用一小块免费软件来完成。 我们将在本指南末尾详细介绍该过程。
如何提取较新的 Office 文件(.docx、.xlsx 或 .pptx)的内容
要访问基于 XML 的 Office 文档的内部内容,请打开文件资源管理器(或 Windows 7 中的 Windows 资源管理器),导航到要从中提取内容的文件,然后选择该文件。
按“F2”重命名文件并将扩展名(.docx、.xlsx 或 .pptx)更改为“.zip”。 保留文件名的主要部分。 完成后按“Enter”。
以下对话框显示有关更改文件扩展名的警告。 单击“是”。
Windows 会自动将该文件识别为压缩文件。 要提取文件的内容,请右键单击文件并从弹出菜单中选择“全部提取”。
在“选择目标并提取文件”对话框中,将提取 .zip 文件内容的路径显示在“文件将被提取到此文件夹”编辑框中。 默认情况下,会在 .zip 文件所在的文件夹中创建一个与文件名(不带文件扩展名)同名的文件夹。 要将文件解压缩到不同的文件夹,请单击“浏览”。
导航到要提取 .zip 文件内容的位置,如有必要,单击“新建文件夹”以创建新文件夹。 单击“选择文件夹”。
要打开文件资源管理器(或 Windows 资源管理器)窗口,其中包含已提取文件的文件夹在提取后显示,请选中“完成时显示提取的文件”复选框,以便在框中有一个复选标记。 点击“提取”。
如何访问提取的图像
如果您的原始文件是 Word 文档(或 Excel 文档为“xl”或 PowerPoint 文档为“ppt”),则提取的内容中包含一个名为“word”的文件夹。 双击“word”文件夹将其打开。
双击“媒体”文件夹。
原始文件中的所有图像都在“媒体”文件夹中。 提取的文件是文档使用的原始图像。 在文档内部,可能会调整大小或设置其他属性,但提取的文件是未应用这些属性的原始图像。
如何访问提取的文本
如果您的 PC 上没有安装 Office,并且需要从 Word(或 Excel 或 PowerPoint)文件中提取文本,您可以在“word”文件夹中的“document.xml”文件中访问提取的文本.
您可以在文本编辑器(如记事本或写字板)中打开此文件,但在特殊的 XML 编辑器(如免费程序 XML Notepad)中更容易阅读。 无论文档本身应用的样式和/或格式如何,文件中的所有文本都以纯文本块的形式提供。 当然,如果你要下载免费软件来查看本文,不妨下载 LibreOffice,它可以阅读 Microsoft Office 文档。
如何提取嵌入式 OLE 对象或附加文件
要在无法访问 Word 时访问 Word 文档中的嵌入文件,请首先在写字板(Windows 内置)中打开 Word 文件。 您可能会注意到一些嵌入的文件图标没有显示,但它们仍然存在。 一些嵌入文件可能有部分文件名。 写字板不支持 Word 的所有功能,因此某些内容可能显示不正确。 但是您应该能够访问这些文件。
如果我们右键单击示例 Word 文件中的嵌入文件之一,选项之一是“打开 PDF 对象”。 这将在您 PC 上的默认 PDF 阅读器程序中打开 PDF 文件。 从那里,您可以将 PDF 文件保存到硬盘。
如果写字板没有打开文件的选项,请在此处记下其文件类型。 例如,我们在本文档中的第二个文件是一个 .mp3 文件。
然后,返回到“[Document] 中的文件”文件夹,双击“word”文件夹中的“embeddings”文件夹。
不幸的是,文件类型没有保留在文件名中。 它们都有一个“.bin”文件扩展名。 如果您知道文件中嵌入了哪些类型的文件,您可能可以通过文件的大小推断出哪个文件是哪个文件。 在我们的示例中,我们的文档中嵌入了一个 PDF 文件和一个 MP3 文件。 因为 MP3 文件很可能比 PDF 文件大,我们可以通过查看文件的大小来确定哪个文件是哪个文件,然后使用正确的扩展名重命名它们。 下面,我们正在重命名 MP3 文件。

请注意,并非所有文件都必须使用此过程打开 - 例如,我们的 PDF 文件从写字板正确打开,但我们无法通过重命名其 .bin 文件来打开它。
解压缩压缩文件的内容后,您可以将原始文件的扩展名恢复为 .docx、.xlsx 或 .pptx。 该文件将保持原样,可以在相应的程序中正常打开。
如何从旧版 Office 文档(.doc、.xls 或 .ppt)中提取图像
如果您需要从 Office 2003(或更早版本)文档中提取图像,可以使用名为 Office Image Extraction Wizard 的免费工具来简化此任务。 该程序还允许您一次从多个文档(相同或不同类型)中提取图像。 下载该程序并安装它(如果您不想安装它,也可以使用便携式版本)。
运行程序,将显示欢迎屏幕。 点击下一步”。
首先,我们需要选择要从中提取图像的文件。 在输入和输出屏幕上,单击文档编辑框右侧的“浏览”(文件夹图标)按钮。
导航到包含所需文档的文件夹,选择它,然后单击“打开”。
包含所选文件的文件夹将自动成为输出文件夹。 要在该文件夹中创建与所选文件同名的子文件夹,请单击“在此处创建文件夹”复选框,以便在框中有一个复选标记。 然后,单击“下一步”。
在“准备开始”屏幕上,单击“开始”开始提取图像。
提取过程中将显示以下屏幕。
在完成屏幕上,单击“单击此处打开目标文件夹”以查看生成的图像文件。
因为我们选择创建一个子文件夹,所以我们得到一个文件夹,其中包含从文件中提取的图像文件。
您将看到所有图像作为编号文件。
您还可以一次从多个文件中提取图像。 为此,在输入和输出屏幕上,单击“批处理模式”复选框,以便在框中有一个复选标记。
批量输入和输出屏幕显示。 点击“添加文件”。
在“打开”对话框中,导航到包含要从中提取图像的任何文件的文件夹,使用“Shift”或“Ctrl”键选择多个文件,然后单击“打开”。
您可以从另一个文件夹添加文件,方法是再次单击“添加文件”,导航到“打开”对话框中的文件夹,选择所需文件,然后单击“打开”。
添加要从中提取图像的所有文件后,您可以选择为每个文档在与将保存图像文件的每个文档相同的文件夹中创建一个单独的文件夹,方法是单击“为每个文档”复选框,因此框中有一个复选标记。
您还可以将输出文件夹指定为“与每个文件的输入文件夹相同”,或者使用该选项下方的编辑框和“浏览”按钮输入或选择自定义文件夹。 选择所需选项后,单击“下一步”。
在“准备开始”屏幕上单击“开始”。
以下屏幕显示提取进度。
提取的图像数量显示在已完成屏幕上。 单击“关闭”以关闭 Office 图像提取向导。
如果您选择为每个文档创建一个单独的文件夹,您将看到与包含图像的文件同名的文件夹,无论您指定哪个输出文件夹。
同样,我们将所有图像作为每个文档的编号文件。
现在您可以重命名图像、移动它们并在您自己的文档中使用它们。 只要确保您有权合法使用它们。