Java如何讀取pdf的內(nèi)容?
這里簡(jiǎn)單介紹2種Java讀取PDF文件內(nèi)容的方法,分別是PDFBox和Spire.PDF,感興趣的朋友可以嘗試一下:
一、PDFBox
這是Apache提供的一個(gè)免費(fèi)、開源工具,專門用于操作PDF文檔,目前支持加密/解密PDF文檔,從PDF文檔中導(dǎo)出表單數(shù)據(jù),向已有PDF文檔追加內(nèi)容,以及切分PDF文檔等,導(dǎo)入項(xiàng)目或工程的話,可以直接下載Jar包,也可以直接Maven引入,如下:

導(dǎo)入成功后,我們就可以直接編碼讀取PDF文件內(nèi)容了,測(cè)試代碼如下,基本思路先加載PDF文件,創(chuàng)建PDDocument對(duì)象,然后再創(chuàng)建一個(gè)PDFTextStripper文本剝離器,最后再直接獲取PDF文本內(nèi)容即可,整個(gè)過程不難,理解起來也非常容易:

二、Spire.PDF
這也是一個(gè)專門用于讀取PDF文件內(nèi)容的Java工具包,商業(yè)版需要付費(fèi)購(gòu)買,也有個(gè)人免費(fèi)版,但功能比較局限,只能提取前10頁(yè)內(nèi)容,目前支持文本、圖片等內(nèi)容提取,導(dǎo)入項(xiàng)目或工程的話,可以直接下載Jar包,也可以直接Maven引入,如下:

導(dǎo)入完成后,我們就可以直接編碼來讀取PDF文件內(nèi)容了,測(cè)試代碼如下,基本思路先加載PDF文件,然后循環(huán)遍歷每頁(yè)提取內(nèi)容(文本的話是extractText方法,圖片的話是extractImages方法),最后再輸出或保存提取內(nèi)容即可:


