亚洲乱色熟女一区二区三区丝袜,天堂√中文最新版在线,亚洲精品乱码久久久久久蜜桃图片,香蕉久久久久久av成人,欧美丰满熟妇bbb久久久

LOGO OA教程 ERP教程 模切知識交流 PMS教程 CRM教程 開發(fā)文檔 其他文檔  
 
網(wǎng)站管理員

高質(zhì)量PDF內(nèi)容提取工具PDF-Extract-Kit

admin
2024年7月24日 23:51 本文熱度 2033

項目簡介


PDF-Extract-Kit通過集成多個模型實現(xiàn)了PDF高質(zhì)量提取,適用于學(xué)術(shù)論文、教科書、研究報告和財務(wù)報表等多種文檔類型,在掃描模糊或有水印的情況下也能保持高魯棒性

1、布局檢測采用LayoutLMv3模型進行區(qū)域檢測,包括圖像、表格、標(biāo)題、文本等

2、公式檢測上采用YOLOv8,包含行內(nèi)公式和行間公式

3、公式識別上采用UniMERNet識別

4、光學(xué)字符識別使用PaddleOCR進行文本識別

對于公式識別,UniMERNet可以媲美商業(yè)軟件;OCR上使用PaddleOCR,對中英文OCR效果不錯,之前分享過

PDF內(nèi)容提取框架如下圖所示

結(jié)合多樣性PDF文檔標(biāo)注,我們訓(xùn)練了魯棒的布局檢測和公式檢測模型。在論文、教材、研報、財報等多樣性的PDF文檔上,我們的pipeline都能得到準(zhǔn)確的提取結(jié)果,對于掃描模糊、水印等情況也有較高魯棒性。


評測指標(biāo)

現(xiàn)有開源模型多基于Arxiv論文類型數(shù)據(jù)進行訓(xùn)練,面對多樣性的PDF文檔,提前質(zhì)量遠不能達到實用需求。相比之下,我們的模型經(jīng)過多樣化數(shù)據(jù)訓(xùn)練,可以適應(yīng)各種類型文檔提取。

布局檢測

我們與現(xiàn)有的開源Layout檢測模型做了對比,包括DocXchain、Surya、360LayoutAnalysis的兩個模型。而LayoutLMv3-SFT指的是我們在LayoutLMv3-base-chinese預(yù)訓(xùn)練權(quán)重的基礎(chǔ)上進一步做了SFT訓(xùn)練后的模型。論文驗證集由402張論文頁面構(gòu)成,教材驗證集由587張不同來源的教材頁面構(gòu)成。

模型論文驗證集教材驗證集
mAPAP50AR50mAPAP50AR50
DocXchain52.869.577.334.950.163.5
Surya24.239.466.113.923.349.9
360LayoutAnalysis-Paper37.753.659.820.731.343.6
360LayoutAnalysis-Report35.146.955.925.433.745.1
LayoutLMv3-SFT77.693.395.567.982.787.9


公式檢測

我們與開源的模型Pix2Text-MFD做了對比。另外,YOLOv8-Trained是我們在YOLOv8l模型的基礎(chǔ)上訓(xùn)練后的權(quán)重。論文驗證集由255張論文頁面構(gòu)成,多源驗證集由789張不同來源的頁面構(gòu)成,包括教材、書籍等。

模型論文驗證集多源驗證集
AP50AR50AP50AR50
Pix2Text-MFD60.164.658.962.8
YOLOv8-Trained87.789.982.487.3


公式識別

公式識別我們使用的是Unimernet的權(quán)重,沒有進一步的SFT訓(xùn)練,其精度驗證結(jié)果可以在其GitHub頁面獲取。

使用教程

環(huán)境安裝

conda create -n pipeline python=3.10
pip install -r requirements.txt
pip install --extra-index-url https://miropsota.github.io/torch_packages_builder detectron2==0.6+pt2.3.1cu121

安裝完環(huán)境后,可能會遇到一些版本沖突導(dǎo)致版本變更,如果遇到了版本相關(guān)的報錯,可以嘗試下面的命令重新安裝指定版本的庫。

pip install pillow==8.4.0

除了版本沖突外,可能還會遇到torch無法調(diào)用的錯誤,可以先把下面的庫卸載,然后重新安裝cuda12和cudnn。

pip uninstall nvidia-cusparse-cu12

項目鏈接

https://github.com/opendatalab/PDF-Extract-Kit/blob/main/README-zh_CN.md


該文章在 2024/7/24 23:53:50 編輯過
關(guān)鍵字查詢
相關(guān)文章
正在查詢...
點晴ERP是一款針對中小制造業(yè)的專業(yè)生產(chǎn)管理軟件系統(tǒng),系統(tǒng)成熟度和易用性得到了國內(nèi)大量中小企業(yè)的青睞。
點晴PMS碼頭管理系統(tǒng)主要針對港口碼頭集裝箱與散貨日常運作、調(diào)度、堆場、車隊、財務(wù)費用、相關(guān)報表等業(yè)務(wù)管理,結(jié)合碼頭的業(yè)務(wù)特點,圍繞調(diào)度、堆場作業(yè)而開發(fā)的。集技術(shù)的先進性、管理的有效性于一體,是物流碼頭及其他港口類企業(yè)的高效ERP管理信息系統(tǒng)。
點晴WMS倉儲管理系統(tǒng)提供了貨物產(chǎn)品管理,銷售管理,采購管理,倉儲管理,倉庫管理,保質(zhì)期管理,貨位管理,庫位管理,生產(chǎn)管理,WMS管理系統(tǒng),標(biāo)簽打印,條形碼,二維碼管理,批號管理軟件。
點晴免費OA是一款軟件和通用服務(wù)都免費,不限功能、不限時間、不限用戶的免費OA協(xié)同辦公管理系統(tǒng)。
Copyright 2010-2025 ClickSun All Rights Reserved