這里簡(jiǎn)單介紹2種Java讀取PDF文件內(nèi)容的方法,分別是PDFBox和Spire.PDF,感興趣的朋友可以嘗試一下:

一、PDFBox

這是Apache提供的一個(gè)免費(fèi)、開源工具,專門用于操作PDF文檔,目前支持加密/解密PDF文檔,從PDF文檔中導(dǎo)出表單數(shù)據(jù),向已有PDF文檔追加內(nèi)容,以及切分PDF文檔等,導(dǎo)入項(xiàng)目或工程的話,可以直接下載Jar包,也可以直接Maven引入,如下:

java

導(dǎo)入成功后,我們就可以直接編碼讀取PDF文件內(nèi)容了,測(cè)試代碼如下,基本思路先加載PDF文件,創(chuàng)建PDDocument對(duì)象,然后再創(chuàng)建一個(gè)PDFTextStripper文本剝離器,最后再直接獲取PDF文本內(nèi)容即可,整個(gè)過程不難,理解起來也非常容易:

java

二、Spire.PDF

這也是一個(gè)專門用于讀取PDF文件內(nèi)容的Java工具包,商業(yè)版需要付費(fèi)購(gòu)買,也有個(gè)人免費(fèi)版,但功能比較局限,只能提取前10頁(yè)內(nèi)容,目前支持文本、圖片等內(nèi)容提取,導(dǎo)入項(xiàng)目或工程的話,可以直接下載Jar包,也可以直接Maven引入,如下:

java

導(dǎo)入完成后,我們就可以直接編碼來讀取PDF文件內(nèi)容了,測(cè)試代碼如下,基本思路先加載PDF文件,然后循環(huán)遍歷每頁(yè)提取內(nèi)容(文本的話是extractText方法,圖片的話是extractImages方法),最后再輸出或保存提取內(nèi)容即可:

java

目前,就分享這2種Java讀取PDF文件內(nèi)容的方法吧??偟膩碚f,整個(gè)過程非常簡(jiǎn)單,只要你有一定Java基礎(chǔ),熟悉一下上面的代碼和示例,很快就能掌握的,當(dāng)然,你也可以使用其他工具包,像iTika等也都非常不錯(cuò)