如何從 Word、Excel 和 PowerPoint 文檔中提取圖像、文本和嵌入文件

已發表: 2022-01-29

假設有人向您發送了包含大量圖像的 Word 文檔,並且您希望將這些圖像保存在硬盤上。 您可以通過一個簡單的技巧從 Microsoft Office 文檔中提取圖像。

如果您有嵌入圖像或其他文件的 Word (.docx)、Excel (.xlsx) 或 PowerPoint (.pptx) 文件,您可以提取它們(以及文檔的文本),而無需單獨保存每個文件. 最重要的是,您不需要任何額外的軟件。 基於 Office XML 的文件格式(docx、xlsx 和 pptx)實際上是壓縮檔案,您可以像使用 Windows 的任何普通 .zip 文件一樣打開它們。 從那裡,您可以提取圖像、文本和其他嵌入文件。 如果您願意,可以使用 Windows 的內置 .zip 支持或 7-Zip 之類的應用程序。

如果您需要從較舊的辦公文檔(如 .doc、.xls 或 .ppt 文件)中提取文件,您可以使用一小塊免費軟件來完成。 我們將在本指南末尾詳細介紹該過程。

如何提取較新的 Office 文件(.docx、.xlsx 或 .pptx)的內容

要訪問基於 XML 的 Office 文檔的內部內容,請打開文件資源管理器(或 Windows 7 中的 Windows 資源管理器),導航到要從中提取內容的文件,然後選擇該文件。

按“F2”重命名文件並將擴展名(.docx、.xlsx 或 .pptx)更改為“.zip”。 保留文件名的主要部分。 完成後按“Enter”。

廣告

以下對話框顯示有關更改文件擴展名的警告。 單擊“是”。

Windows 會自動將該文件識別為壓縮文件。 要提取文件的內容,請右鍵單擊文件並從彈出菜單中選擇“全部提取”。

在“選擇目標並提取文件”對話框中,將提取 .zip 文件內容的路徑顯示在“文件將被提取到此文件夾”編輯框中。 默認情況下,會在 .zip 文件所在的文件夾中創建一個與文件名(不帶文件擴展名)同名的文件夾。 要將文件解壓縮到不同的文件夾,請單擊“瀏覽”。

導航到要提取 .zip 文件內容的位置,如有必要,單擊“新建文件夾”以創建新文件夾。 單擊“選擇文件夾”。

要打開文件資源管理器(或 Windows 資源管理器)窗口,其中包含已提取文件的文件夾在提取後顯示,請選中“完成時顯示提取的文件”複選框,以便在框中有一個複選標記。 點擊“提取”。

如何訪問提取的圖像

如果您的原始文件是 Word 文檔(或 Excel 文檔為“xl”或 PowerPoint 文檔為“ppt”),則提取的內容中包含一個名為“word”的文件夾。 雙擊“word”文件夾將其打開。

雙擊“媒體”文件夾。

廣告

原始文件中的所有圖像都在“媒體”文件夾中。 提取的文件是文檔使用的原始圖像。 在文檔內部,可能會調整大小或設置其他屬性,但提取的文件是未應用這些屬性的原始圖像。

如何訪問提取的文本

如果您的 PC 上沒有安裝 Office,並且需要從 Word(或 Excel 或 PowerPoint)文件中提取文本,您可以在“word”文件夾中的“document.xml”文件中訪問提取的文本.

您可以在文本編輯器(如記事本或寫字板)中打開此文件,但在特殊的 XML 編輯器(如免費程序 XML Notepad)中更容易閱讀。 無論文檔本身應用的樣式和/或格式如何,文件中的所有文本都以純文本塊的形式提供。 當然,如果你要下載免費軟件來查看本文,不妨下載 LibreOffice,它可以閱讀 Microsoft Office 文檔。

如何提取嵌入式 OLE 對像或附加文件

要在無法訪問 Word 時訪問 Word 文檔中的嵌入文件,請首先在寫字板(Windows 內置)中打開 Word 文件。 您可能會注意到一些嵌入的文件圖標沒有顯示,但它們仍然存在。 一些嵌入文件可能有部分文件名。 寫字板不支持 Word 的所有功能,因此某些內容可能顯示不正確。 但是您應該能夠訪問這些文件。

如果我們右鍵單擊示例 Word 文件中的嵌入文件之一,選項之一是“打開 PDF 對象”。 這將在您 PC 上的默認 PDF 閱讀器程序中打開 PDF 文件。 從那裡,您可以將 PDF 文件保存到硬盤。

如果寫字板沒有打開文件的選項,請在此處記下其文件類型。 例如,我們在本文檔中的第二個文件是一個 .mp3 文件。

廣告

然後,返回到“[Document] 中的文件”文件夾,雙擊“word”文件夾中的“embeddings”文件夾。

不幸的是,文件類型沒有保留在文件名中。 它們都有一個“.bin”文件擴展名。 如果您知道文件中嵌入了哪些類型的文件,您可能可以通過文件的大小推斷出哪個文件是哪個文件。 在我們的示例中,我們的文檔中嵌入了一個 PDF 文件和一個 MP3 文件。 因為 MP3 文件很可能比 PDF 文件大,我們可以通過查看文件的大小來確定哪個文件是哪個文件,然後使用正確的擴展名重命名它們。 下面,我們正在重命名 MP3 文件。

請注意,並非所有文件都必須使用此過程打開 - 例如,我們的 PDF 文件從寫字板正確打開,但我們無法通過重命名其 .bin 文件來打開它。

解壓縮壓縮文件的內容後,您可以將原始文件的擴展名恢復為 .docx、.xlsx 或 .pptx。 該文件將保持原樣,可以在相應的程序中正常打開。

如何從舊版 Office 文檔(.doc、.xls 或 .ppt)中提取圖像

如果您需要從 Office 2003(或更早版本)文檔中提取圖像,可以使用名為 Office Image Extraction Wizard 的免費工具來簡化此任務。 該程序還允許您一次從多個文檔(相同或不同類型)中提取圖像。 下載該程序並安裝它(如果您不想安裝它,也可以使用便攜式版本)。

運行程序,將顯示歡迎屏幕。 點擊下一步”。

廣告

首先,我們需要選擇要從中提取圖像的文件。 在輸入和輸出屏幕上,單擊文檔編輯框右側的“瀏覽”(文件夾圖標)按鈕。

導航到包含所需文檔的文件夾,選擇它,然後單擊“打開”。

包含所選文件的文件夾將自動成為輸出文件夾。 要在該文件夾中創建與所選文件同名的子文件夾,請單擊“在此處創建文件夾”複選框,以便在框中有一個複選標記。 然後,單擊“下一步”。

在“準備開始”屏幕上,單擊“開始”開始提取圖像。

提取過程中將顯示以下屏幕。

在完成屏幕上,單擊“單擊此處打開目標文件夾”以查看生成的圖像文件。

因為我們選擇創建一個子文件夾,所以我們得到一個文件夾,其中包含從文件中提取的圖像文件。

您將看到所有圖像作為編號文件。

廣告

您還可以一次從多個文件中提取圖像。 為此,在輸入和輸出屏幕上,單擊“批處理模式”複選框,以便在框中有一個複選標記。

批量輸入和輸出屏幕顯示。 點擊“添加文件”。

在“打開”對話框中,導航到包含要從中提取圖像的任何文件的文件夾,使用“Shift”或“Ctrl”鍵選擇多個文件,然後單擊“打開”。

您可以從另一個文件夾添加文件,方法是再次單擊“添加文件”,導航到“打開”對話框中的文件夾,選擇所需文件,然後單擊“打開”。

添加要從中提取圖像的所有文件後,您可以選擇為每個文檔在與將保存圖像文件的每個文檔相同的文件夾中創建一個單獨的文件夾,方法是單擊“為每個文檔”複選框,因此框中有一個複選標記。

您還可以將輸出文件夾指定為“與每個文件的輸入文件夾相同”,或者使用該選項下方的編輯框和“瀏覽”按鈕輸入或選擇自定義文件夾。 選擇所需選項後,單擊“下一步”。

在“準備開始”屏幕上單擊“開始”。

以下屏幕顯示提取進度。

廣告

提取的圖像數量顯示在已完成屏幕上。 單擊“關閉”以關閉 Office 圖像提取嚮導。

如果您選擇為每個文檔創建一個單獨的文件夾,您將看到與包含圖像的文件同名的文件夾,無論您指定哪個輸出文件夾。

同樣,我們將所有圖像作為每個文檔的編號文件。

現在您可以重命名圖像、移動它們並在您自己的文檔中使用它們。 只要確保您有權合法使用它們。