這里簡單介紹2種Java讀取PDF文件內容的方法,分別是PDFBox和Spire.PDF,感興趣的朋友可以嘗試一下:

一、PDFBox

這是Apache提供的一個免費、開源工具,專門用于操作PDF文檔,目前支持加密/解密PDF文檔,從PDF文檔中導出表單數據,向已有PDF文檔追加內容,以及切分PDF文檔等,導入項目或工程的話,可以直接下載Jar包,也可以直接Maven引入,如下:

java

導入成功后,我們就可以直接編碼讀取PDF文件內容了,測試代碼如下,基本思路先加載PDF文件,創建PDDocument對象,然后再創建一個PDFTextStripper文本剝離器,最后再直接獲取PDF文本內容即可,整個過程不難,理解起來也非常容易:

java

二、Spire.PDF

這也是一個專門用于讀取PDF文件內容的Java工具包,商業版需要付費購買,也有個人免費版,但功能比較局限,只能提取前10頁內容,目前支持文本、圖片等內容提取,導入項目或工程的話,可以直接下載Jar包,也可以直接Maven引入,如下:

java

導入完成后,我們就可以直接編碼來讀取PDF文件內容了,測試代碼如下,基本思路先加載PDF文件,然后循環遍歷每頁提取內容(文本的話是extractText方法,圖片的話是extractImages方法),最后再輸出或保存提取內容即可:

java

目前,就分享這2種Java讀取PDF文件內容的方法吧。總的來說,整個過程非常簡單,只要你有一定Java基礎,熟悉一下上面的代碼和示例,很快就能掌握的,當然,你也可以使用其他工具包,像iTika等也都非常不錯