成人网站免费观看视频,欧洲成人无码在线

DoNews > 商業(yè) > 云知聲Unisound U1-OCR大模型發(fā)布，開啟OCR 3.0時代

云知聲Unisound U1-OCR大模型發(fā)布，開啟OCR 3.0時代

楊亮 2026-02-26 16:16:30

305976

分享到

DoNews2月26日消息，就在剛剛，云知聲正式推出 Unisound U1-OCR 文檔智能基礎(chǔ)大模型。作為首個工業(yè)級文檔智能基座，該模型憑借 “性能 SOTA、可信可驗、開箱即用、高效部署、強適配” 五大核心優(yōu)勢，打破傳統(tǒng)文檔處理邊界，樹立起行業(yè)新標桿。

技術(shù)跨越：從 OCR 2.0 邁向 3.0

文檔智能（Document Intelligence）是指利用人工智能技術(shù)自動閱讀和理解文檔影像，并進行內(nèi)容的讀取、理解、分類及關(guān)鍵信息提取。

傳統(tǒng)視覺方案（OCR 1.0，以CRNN 為代表）僅能識別文字，新一代多模態(tài)方案（OCR 2.0，以VLM為代表）具備端到端版面理解能力和文字識別能力。

而 Unisound U1-OCR 則正式開啟 OCR 3.0 時代——在理解版面的基礎(chǔ)上，進一步洞察文檔深層語義，實現(xiàn)自動分類與業(yè)務(wù)級信息抽取，完成了從“字符感知”到“文檔認知”的質(zhì)的飛躍。

實力領(lǐng)跑：多項權(quán)威評測穩(wěn)居全球第一梯隊

Unisound U1-OCR是一款達到國際頂尖水平（SOTA）的文檔智能理解模型，其核心優(yōu)勢在于突破了傳統(tǒng)模型“只讀文字、不懂排版”的瓶頸，能夠像人類專家一樣“看懂”復(fù)雜文檔。

為適應(yīng)OCR 3.0 時代對于文檔業(yè)務(wù)級結(jié)構(gòu)化抽取的新要求，Unisound U1-OCR 采用 ViT + LLM 架構(gòu)，其中視覺編碼器部分采用 NaViT 架構(gòu)，實現(xiàn)文檔分辨率動態(tài)處理，模型參數(shù)規(guī)模 3B 量級，兼顧模型計算效率與文檔深層語義信息理解的能力要求。除此之外，模型還提出了多項創(chuàng)新舉措：

首先，它擁有“先懂結(jié)構(gòu)，再讀內(nèi)容”的智慧。傳統(tǒng)模型往往按順序死板閱讀，而Unisound U1-OCR首創(chuàng)了“語義驅(qū)動+動態(tài)聚焦”策略。

如同人類閱讀習(xí)慣，先梳理文檔目錄、標題的層級關(guān)系，再按需提取內(nèi)容。模型能自動構(gòu)建文檔的“語義地圖”，精準識別標題、圖表與正文的從屬關(guān)系，即使面對排版混亂的極端場景，也能條理清晰地提取信息。

其次，它具備敏銳的“空間感知力”。通過強化空間對齊模塊，模型能充分利用文字在頁面上的位置信息，主動理解元素間的空間布局。結(jié)合動態(tài)分辨率技術(shù)，無論是密集表格還是圖文混排，它都能精準還原文檔結(jié)構(gòu)，徹底解決了以往模型“張冠李戴”的空間盲區(qū)。

此外，模型采用Multi-Token Prediction（MTP）技術(shù)——在預(yù)測當(dāng)前 Token時，同步考慮未來多個Token的概率分布，大幅提升長文檔邏輯連貫性。

配合全任務(wù)強化學(xué)習(xí)策略，增強模型對版式結(jié)構(gòu)的全局預(yù)見性并在推理階段將模型生成效率提升了80%以上。在訓(xùn)練階段，采用多任務(wù)協(xié)同強化訓(xùn)練方案，實現(xiàn)文檔結(jié)構(gòu)還原、文檔分類與信息抽取的深度對齊。

強化訓(xùn)練策略圍繞“語義+坐標”雙目標優(yōu)化，針對坐標回溯的 IoU 精度進行專項強化，有效遏制定位幻覺，確保輸出結(jié)果的物理可信度。通過多檔位分辨率擾動與Mask采樣策略，顯著提升了模型多場景文檔圖像的理解能力。

憑借這些創(chuàng)新，Unisound U1-OCR在多項權(quán)威測試中均獲業(yè)界SOTA表現(xiàn)，真正實現(xiàn)了從“識別文字”到“理解文檔”的跨越。

1. OmniDocBench V1.5評測SOTA

在OmniDocBench V1.5評測中，Unisound U1-OCR以95.1分取得SOTA表現(xiàn)（如圖1），領(lǐng)先GLM-OCR，Deepseek-OCR2，Gemini-3-Pro，GPT-5.2等主流模型，實現(xiàn)了精度與泛化能力的雙重突破。

圖1 Unisound U1-OCR在OmniDocBench V1.5的評測得分對比?

2. D4LA評測SOTA

在D4LA評測中，F(xiàn)1 分數(shù)達 90.8（如圖 2），大幅領(lǐng)先 DocLayout-YOLO（87.3）PP-StructureV3（86.0）。無需微調(diào)即可高精度解析學(xué)術(shù)論文、財務(wù)報表等 11 類高復(fù)雜度文檔。

圖2 基于D4LA評測的文檔版面解析橫向?qū)Ρ冉Y(jié)果

3. ?DocLayNet評測SOTA

在DocLayNet評測中，F(xiàn)1 分數(shù) 95.9（如圖 3），超越 MinerU 2.5、PP-StructureV3 等模型。在表格識別、跨頁關(guān)聯(lián)、微小文本檢測等高難任務(wù)上優(yōu)勢顯著，魯棒性極強。

圖3 基于DocLayNet評測的文檔版面解析橫向?qū)Ρ冉Y(jié)果

4. 業(yè)務(wù)相關(guān)評測SOTA

在內(nèi)部業(yè)務(wù)測試中（如圖 4），其信息抽取與文書分類能力超越 Gemini-2.5-Flash、Qwen-235B-VL 等主流通用商業(yè)和開源模型。特別是在醫(yī)療入院記錄、出院小結(jié)等強業(yè)務(wù)場景中，領(lǐng)先優(yōu)勢尤為明顯，Unisound U1-OCR 以 3B 規(guī)模的參數(shù)獲得比更大規(guī)模通用 VLM 更好的評測性能。與較小尺寸的文檔解析任務(wù)模型相比，得益于模型多項創(chuàng)新舉措，在業(yè)務(wù)級信息抽取等深層語義信息理解的能力表現(xiàn)更好。

圖4 基于業(yè)務(wù)數(shù)據(jù)集的文書分類和信息抽取能力橫向?qū)Ρ仍u測結(jié)果

面向真實場景：4大核心能力助推U1-OCR從“讀懂”邁向“執(zhí)行”

作為開啟OCR 3.0時代的文檔智能基礎(chǔ)大模型，除了在通用評測中斬獲多項SOTA，Unisound U1-OCR更立足工業(yè)級場景需求，打造了四大核心能力，實現(xiàn)從‘讀懂’到‘執(zhí)行’的業(yè)務(wù)落地。

1. 可信可查：精準溯源，結(jié)果可驗

模型獨創(chuàng)“坐標－文本－語義”融合架構(gòu)，實現(xiàn)像素級精準定位與完整證據(jù)鏈構(gòu)建。在完成信息抽取的同時，系統(tǒng)精準標示信息在文檔中的來源位置，使結(jié)果審核過程全透明、可追溯，從技術(shù)層面保障文檔處理結(jié)果的可信度，徹底解決傳統(tǒng)文檔處理“結(jié)果不可驗”的行業(yè)難題。

例如，在企業(yè)審核場景中，審核人員無需大海撈針般翻閱原文，點擊抽取結(jié)果即可實時高亮定位原始位置。這種“人機協(xié)同”的閉環(huán)將審核耗時縮短至秒級，讓人工漏檢率降至最低，真正實現(xiàn)了“可信任的AI”。

2. 業(yè)務(wù)融合：開箱即用，Agent Ready

通用OCR工具在專業(yè)領(lǐng)域存在局限——例如醫(yī)保結(jié)算單中“自付一”“自付二”與“個人自費”的邏輯關(guān)系，或合同中金額大小寫的校驗規(guī)則，都需要領(lǐng)域知識支撐。

Unisound U1-OCR在基礎(chǔ)模型之上，融入了云知聲在醫(yī)療、金融等領(lǐng)域的行業(yè)知識積累，模型可基于業(yè)務(wù)邏輯進行多字段關(guān)聯(lián)校驗。在內(nèi)部業(yè)務(wù)測試中，面向50余種常見業(yè)務(wù)文書的分類準確率超過99%。

3. 高效部署，安全可控

模型深度支持私有化與離線部署，可在無外網(wǎng)環(huán)境下穩(wěn)定運行，完美匹配政務(wù)、醫(yī)療、金融等高安全等級行業(yè)的數(shù)據(jù)隱私保護需求。同時，通過版面級并行解碼與多Token預(yù)測架構(gòu)等優(yōu)化措施，一份十多頁的文檔，整理處理可在數(shù)秒內(nèi)完成，高效的文檔處理能力，讓工業(yè)級文檔智能能力觸手可及。

4. 超強適配，攻克復(fù)雜場景

針對企業(yè)實際業(yè)務(wù)中遇到的非標準拍照、文檔彎折模糊、復(fù)雜花式排版、多語言混排等各類極端復(fù)雜文檔場景，Unisound U1-OCR仍能保持穩(wěn)定、高精度的處理表現(xiàn)，徹底擺脫傳統(tǒng)技術(shù)對標準化文檔的依賴，真正適配企業(yè)真實業(yè)務(wù)的全場景需求。

真實場景驗證，實力可鑒

1. 可信信息抽取案例

案例1：模型能夠深度理解業(yè)務(wù)需求，實現(xiàn)數(shù)據(jù)的“即抽即用”。醫(yī)療費用清單抽取中，模型能自動理解語義，兼容不同醫(yī)院的寫法差異（如將原圖中的“總計”“合計金額”等描述統(tǒng)一對齊映射至數(shù)據(jù)庫的“總費用”字段），并根據(jù)業(yè)務(wù)字段抽取規(guī)則精準剔除無關(guān)的大類干擾項，實現(xiàn)結(jié)果直接入庫。

同時，模型支持像素級的坐標回溯，通過不同顏色將抽取結(jié)果與原圖位置一一對應(yīng)（如圖所示），這種透明的可信體系讓傳統(tǒng)的“全文重讀”進化為“秒級定點確認”，在保障數(shù)據(jù)入庫準度的同時，實現(xiàn)了業(yè)務(wù)效率的質(zhì)變。

2. 業(yè)務(wù)知識融合案例

案例2：模型支持單圖內(nèi)多文檔自動識別與分割，精準區(qū)分病歷、處方等混疊文件。無需人工預(yù)分類，即可一鍵完成混合單據(jù)的自動化歸檔與提取，讓海量雜亂文檔處理簡單高效。

案例3：即使面對拍照遮擋、內(nèi)容缺失的非理想文檔，模型仍能憑借深層語義洞察準確判定類別。這種對復(fù)雜長尾場景的高兼容性，確保系統(tǒng)在實戰(zhàn)中無死角，大幅提升自動化處理成功率。

3. 復(fù)雜版式識別案例

案例4：傳統(tǒng)方案在解析報紙、期刊等多欄穿插、圖文交織的復(fù)雜版面時，易陷入“下一段該讀哪里”的閱讀迷航。而Unisound U1-OCR模型的突破在于，它不再機械地按固定順序掃描頁面，而是像人一樣，結(jié)合上下文語義與版面邏輯，自動判斷段落的承接關(guān)系，精準梳理出符合人類閱讀習(xí)慣的內(nèi)容流。