導航:首頁 > 編程語言 > javapdfbox讀取文字

javapdfbox讀取文字

發布時間:2023-07-14 07:06:55

A. java讀取pdf文件的時候出現異常

ava.lang.NoClassDefFoundError: org/fontbox/cmap/CMapParser

很明顯了少了一個jar包,從了、org/fontbox/cmap/CMapParser來看,jar包名字可能帶fontbox的名字,你在網路回上檢索下 fontbox .jar試試能不能找到答這個jar包呢?

B. java解析pdf文字順序不對

修復你的PDF軟體或者調整頁面順序。
java解析pdf獲取pdf中內容信息:
第一種 使用開源組織提供的開源框架 pdfboxapi ; https://pdfbox.apache.org/
特點:免費,功能強大,解析中文或許會存在亂碼,默認格式有點亂,沒有國產解析的那麼美化。
想要按行讀取:可以按照指定的模板,對pdf進行修改添加刪除等操作,總之操作很騷,很強大。
1.pdfbox 需要帶入依賴。
2.代碼
第二種使用國產的框架 Spire.PDF包含兩種版本
1 免費版。
https://www.e-iceblue.cn/Downloads/Free-Spire-PDF-JAVA.html
友情提示: 免費版有 10 頁的頁數輸出限制,在輸出結果文檔時只能輸出前10頁。將 PDF 文檔轉換為圖片、word、HTML、XPS等格式時,僅支持轉換前 10 頁。如超出限制,可升級到商業版,我們僅對免費版進行不定期維護。
2 商業版本。
https://www.e-iceblue.cn/Introce/Spire-PDF-JAVA.html。
api。
http://e-iceblue.cn/licensing/install-spirepdf-for-java-from-maven-repository.html。
特點:商業版本收費,免費版本有限制,可供開發人員調試,解析格式友好,解析結果是按照行顯示,對pdf 圖形 ,水印 ,文本, 條形碼等添加增刪改操作,總之個人感覺比pdfbox順手,但就是收費啊,誰讓咱公司沒錢呢。
主要功能:
只需 Free Spire.PDF for Java,無需 Adobe Acrobat。
Free Spire.PDF for Java 是一款完全獨立的 PDF 類庫。它的運行環境無需安裝 Adobe Acrobat 或其他任何第三方組件。
多樣化的PDF文檔操作功能。
Free Spire.PDF for Java 支持畫文本、圖片、表格、條形碼、形狀到 PDF,提取文本和圖片,創建、填充和刪除 PDF 表單,添加文本/圖片水印到 PDF,添加、更新和刪除 PDF 書簽,操作超鏈接、附件和注釋,以及添加圖片/文本印章到 PDF 等。
文檔信息設置。
Free Spire.PDF for Java 支持設置 PDF 文檔信息,例如文檔屬性設置,偏好設置(頁面方向,頁面大小,縮放比例等)。
高質量的文檔轉換功能。
Free Spire.PDF for Java 支持將 PDF 文檔高質量地轉換為 Word、HTML、XPS、圖片、SVG 和 PDF/A 格式,以及將 XPS 文檔高質量地轉換為 PDF 格式。
文檔安全性設置。
Free Spire.PDF for Java 支持給 PDF 文檔添加和驗證數字簽名,加密和解密 PDF 文檔,修改 PDF 文檔的安全許可權,以及檢測簽名後的 PDF 文檔是否被修改。
易於集成。
開發人員可以輕易地將 Free Spire.PDF for Java 集成到 Java(J2SE和J2EE)應用程序中。

C. java 讀取pdf, word, excel, ppt文檔的內容,下了POI包,但是不知道怎麼用,剛學java,求告訴一下怎麼辦

讀取pdf需要下載pdfbox:
http://pdfbox.apache.org/
新建一個Project,然後把POI的src導入到該工程。
【How to create an Eclipse Project 】你可以參考:
http://mail-archives.apache.org/mod_mbox/poi-dev/201204.mbox/%3cCAPt+24QbEryNixQFuPhEsKx16oHcn_h5xEa0x9uMSEVYLe-fPw@mail.gmail.com%3e

D. 如何用java讀取pdf文檔的部分內容

你需要用到 api

https://pdfbox.apache.org/1.8/cookbook/textextraction.html

例子如下

importjava.io.File;
importjava.io.IOException;
importorg.apache.pdfbox.pdmodel.PDDocument;
importorg.apache.pdfbox.text.PDFTextStripper;
importorg.apache.pdfbox.text.PDFTextStripperByArea;

try{
PDDocumentdocument=null;
document=PDDocument.load(newFile("test.pdf"));
document.getClass();
if(!document.isEncrypted()){
PDFTextStripperByAreastripper=newPDFTextStripperByArea();
stripper.setSortByPosition(true);
PDFTextStripperTstripper=newPDFTextStripper();
Stringst=Tstripper.getText(document);
System.out.println("Text:"+st);
}
}catch(Exceptione){
e.printStackTrace();
}

E. java讀取pdf判斷文字旋轉方向

嗯……關於java讀取pdf的話,推薦閣下試試pdfbox這個工具,能夠支持中文,但是缺點在於不能讀取圖片形式的pdf,比如將一篇文章照下來,存成圖片,做的pdf識別不了。如果閣下想要做圖像方面的文字識別的話,可以考慮使用tesseract這個工具,同樣識別中文!關於文字的旋轉方向……在下的思路是每次將文字進行九十度旋轉,並進行識別,能識別出來的時候,計算出旋轉角度即可!思路僅供參考,祝閣下學習愉快!

閱讀全文

與javapdfbox讀取文字相關的資料

熱點內容
淘寶領券app哪個最好 瀏覽:830
化學家app有什麼實驗 瀏覽:625
抓包微信朋友圈網址 瀏覽:461
夢100王子攻略app 瀏覽:897
二級菜單js 瀏覽:145
高考有哪些好網站 瀏覽:346
哪個網站看動漫可以開倍速 瀏覽:319
mpf格式文件夾顯示瀏覽器圖標 瀏覽:359
圖紙上可以看哪些數據 瀏覽:546
手機轉發文件在哪裡 瀏覽:445
掃描版pdf文件如何刪減內容 瀏覽:95
秀米在哪裡加psd文件 瀏覽:760
津e通app在哪裡下載 瀏覽:95
釘釘app如何進入公司 瀏覽:974
蘋果6plus不是官網維修靠譜嗎 瀏覽:19
手機中的應用程序在哪個文件夾 瀏覽:27
聯想windows7如何重新連接網路 瀏覽:716
蘭州找租房哪個app最靠譜 瀏覽:641
PP助手怎麼樣可以下載蘋果軟體嘛 瀏覽:172
macxip文件 瀏覽:190

友情鏈接