自多模態(tài)大模型問世以來,大模型強(qiáng)大的圖像理解和內(nèi)容生成能力,給光學(xué)字符識(shí)別(OCR)技術(shù)注入了諸多想象空間,同時(shí)也引發(fā)客戶疑問:大模型是否能完全取代“小模型”,成為文檔識(shí)別領(lǐng)域的全新解決方案? 本文將深入探討這一問題。
要理解這場討論,我們首先需要了解OCR技術(shù)的發(fā)展歷程。
●傳統(tǒng)OCR時(shí)代:早期OCR技術(shù)主要依賴模板匹配和特征提取,在處理規(guī)范的印刷字符時(shí)表現(xiàn)尚可,但面對字體變化、手寫體或圖像噪聲時(shí),準(zhǔn)確率便難如人意。
●深度學(xué)習(xí)時(shí)代(小模型時(shí)代):隨著以CNN、RNN為代表的深度學(xué)習(xí)技術(shù)興起,OCR能力迎來了質(zhì)的飛躍。通過自動(dòng)學(xué)習(xí)圖像的高級語義特征,這些專用“小模型”大幅提升了識(shí)別的準(zhǔn)確率和魯棒性,能夠處理自然場景、手寫體等復(fù)雜情況。這一時(shí)期的OCR流程通常由文字檢測、文字識(shí)別、信息抽取等多個(gè)模型串聯(lián)完成。
●大模型時(shí)代:當(dāng)前,以Transformer架構(gòu)為核心的大模型,憑借數(shù)以億計(jì)的龐大參數(shù)和在海量數(shù)據(jù)上的預(yù)訓(xùn)練,展現(xiàn)出強(qiáng)大的語言理解、生成和跨模態(tài)處理能力。應(yīng)用于OCR領(lǐng)域,它們不僅能“看清”文字,更能“看懂”文字背后的邏輯與語義。
大模型的優(yōu)勢固然顯著,但若將其直接應(yīng)用于嚴(yán)肅的生產(chǎn)環(huán)境,其短板同樣不容忽視。
大模型的優(yōu)勢:
1.端到端處理:多模態(tài)大模型能將傳統(tǒng)OCR的多步驟流程合而為一,直接從圖像輸出結(jié)構(gòu)化結(jié)果,減少了中間環(huán)節(jié)的誤差累積。
2.超強(qiáng)泛化:得益于海量數(shù)據(jù)的訓(xùn)練,大模型能很好地適應(yīng)從未見過的新版式、新樣本,無需針對性訓(xùn)練即可達(dá)到較高的識(shí)別準(zhǔn)確率。
3.語義理解:這是大模型的核心優(yōu)勢。它能深入理解文本的上下文和內(nèi)在邏輯,在處理合同、財(cái)報(bào)等長文檔的信息抽取任務(wù)時(shí),表現(xiàn)遠(yuǎn)超傳統(tǒng)OCR。
4.多語種支持:大模型可在訓(xùn)練中同時(shí)學(xué)習(xí)多種語言,輕松實(shí)現(xiàn)多語言混合文檔的識(shí)別與理解。
大模型的劣勢:
1.成本高昂:無論是訓(xùn)練所需的高端GPU集群、海量標(biāo)注數(shù)據(jù),還是推理時(shí)巨大的算力消耗,都意味著極高的硬件和運(yùn)營成本。對于身份證識(shí)別這類日調(diào)用量可達(dá)千萬次的高頻場景,采用大模型的成本是難以承受的。
2.速度緩慢:復(fù)雜的結(jié)構(gòu)和龐大的參數(shù)規(guī)模導(dǎo)致大模型識(shí)別速度遠(yuǎn)低于小模型,難以滿足金融等領(lǐng)域?qū)I(yè)務(wù)處理實(shí)時(shí)性的高要求。
3.字符級識(shí)別率偏低:在OCR最基礎(chǔ)的字符識(shí)別任務(wù)上,原生大模型精度反而不及精調(diào)的小模型,尤其在處理手寫體、生僻字、相似字符(如“己”與“已”)以及低分辨率圖像時(shí),錯(cuò)誤率明顯更高。
4.“幻覺”現(xiàn)象:大模型可能會(huì)“腦補(bǔ)”出圖像中實(shí)際不存在的內(nèi)容,或在字段為空時(shí)強(qiáng)制輸出一個(gè)看似合理的值。這種“無中生有”的致命缺陷在要求數(shù)據(jù)絕對準(zhǔn)確的場景中是不可接受的。
5.結(jié)果無法溯源:原生大模型通常不提供識(shí)別文本在原圖中的精確坐標(biāo)位置,導(dǎo)致識(shí)別錯(cuò)誤時(shí)無法定位核驗(yàn),也無法滿足金融、醫(yī)療等行業(yè)對數(shù)據(jù)可追溯的合規(guī)審計(jì)要求。
顯然,小模型在成本、速度、特定場景精度上的優(yōu)勢使其在未來3-5年內(nèi)仍將是OCR領(lǐng)域的主力軍。因此,大模型與小模型的深度融合,實(shí)現(xiàn)優(yōu)勢互補(bǔ),才是現(xiàn)階段OCR領(lǐng)域的最佳解決方案。
理論的最終價(jià)值在于實(shí)踐。易道博識(shí)推出的智能文檔處理平臺(tái)(DeepIDP),正是基于大小模型高度融合的思想,為企業(yè)構(gòu)建起一個(gè)兼顧性能、成本與靈活性的AI能力基座。
1. 創(chuàng)新協(xié)同架構(gòu),實(shí)現(xiàn)全場景文檔處理
DeepIDP創(chuàng)新地將專用小模型與經(jīng)過二次訓(xùn)練優(yōu)化的金融大模型進(jìn)行協(xié)同部署,實(shí)現(xiàn)了性能、成本與靈活性的最佳平衡。
●專用小模型處理核心業(yè)務(wù):針對身份證、銀行卡、發(fā)票等版式固定、處理頻率極高的文檔,平臺(tái)調(diào)用專用小模型,以最低的資源占用和最快的速度,實(shí)現(xiàn)高達(dá)99%以上的識(shí)別精度。
●優(yōu)化大模型處理“非標(biāo)&長尾”文檔:對于版式千變?nèi)f化、字段不定的非標(biāo)文檔(如各類申請單、對賬單),平臺(tái)則調(diào)用大模型處理。值得一提的是,該大模型經(jīng)過了海量專業(yè)OCR數(shù)據(jù)的二次訓(xùn)練和調(diào)優(yōu),其識(shí)別準(zhǔn)確率、處理速度均遠(yuǎn)超同參數(shù)規(guī)模的原生大模型,并完美解決了原生大模型無法溯源的問題,支持將每個(gè)抽取字段精準(zhǔn)關(guān)聯(lián)回原始單據(jù)的坐標(biāo)位置,實(shí)現(xiàn)了數(shù)據(jù)的可追溯、可核驗(yàn)。
2. 統(tǒng)一AI基座,簡化信創(chuàng)遷移與運(yùn)維
在信創(chuàng)背景下,金融機(jī)構(gòu)面臨著適配多種國產(chǎn)硬件的挑戰(zhàn)。DeepIDP從底層原生適配主流國產(chǎn)化硬件(如C86+DCU、ARM+昇騰),通過一套統(tǒng)一的軟件架構(gòu),屏蔽了底層硬件差異,讓企業(yè)告別“一硬一軟”的多版本維護(hù)噩夢,極大降低了開發(fā)與運(yùn)維成本。
3. 提供AI原子能力,方便智能體編排調(diào)用
DeepIDP不止于識(shí)別,它將強(qiáng)大的文檔處理能力封裝為可供智能體(Agent)和自動(dòng)化工作流(Workflow)靈活編排調(diào)用的AI“原子能力”,讓文檔處理真正深入業(yè)務(wù)決策環(huán)節(jié)。
以財(cái)務(wù)審核場景為例,一個(gè)財(cái)務(wù)審核Agent可以自動(dòng)完成全流程:
●自動(dòng)分類:調(diào)用平臺(tái)的圖像分割與分類能力,區(qū)分發(fā)票、申請單、合同等不同票據(jù)。
●智能分發(fā):將發(fā)票等標(biāo)準(zhǔn)單據(jù)交由小模型快速提取數(shù)據(jù),將合同等復(fù)雜文檔交由大模型深度解析。
●智能審核:結(jié)合企業(yè)規(guī)則庫,利用大模型的推理能力進(jìn)行智能判斷(如費(fèi)用是否超標(biāo)),并自動(dòng)輸出審核結(jié)論。
技術(shù)的發(fā)展并非簡單的線性替代。面對大模型的浪潮,我們應(yīng)認(rèn)識(shí)到其優(yōu)勢與局限。易道博識(shí)智能文檔處理平臺(tái)(DeepIDP)的實(shí)踐證明,通過大小模型的深度融合與系統(tǒng)化的工程設(shè)計(jì),我們能夠構(gòu)建一個(gè)既能發(fā)揮大模型泛化和理解能力,又能保留小模型高效和精準(zhǔn)優(yōu)勢的強(qiáng)大平臺(tái),這才是推動(dòng)文檔處理智能化走向下一個(gè)階段的務(wù)實(shí)且高效的路徑。
1. 問:為什么多模態(tài)大模型不能直接取代所有傳統(tǒng)的OCR識(shí)別?
答:盡管大模型泛化能力強(qiáng),但在處理身份證等高頻標(biāo)準(zhǔn)文檔時(shí),存在成本高昂、速度慢、字符級識(shí)別率偏低等問題。在這些場景下,專用小模型具備成本低、速度快、識(shí)別精度高的優(yōu)勢,是更經(jīng)濟(jì)高效的選擇。
2. 問:易道博識(shí)的智能文檔處理平臺(tái)如何解決金融行業(yè)的信創(chuàng)國產(chǎn)化難題?
答:平臺(tái)通過統(tǒng)一的軟件架構(gòu),從底層原生適配主流國產(chǎn)硬件(如C86+DCU、ARM+昇騰)。這避免了企業(yè)因硬件不同而維護(hù)多套軟件版本的難題,極大降低了開發(fā)與運(yùn)維成本,并保障了企業(yè)AI能力投資的連續(xù)性和可擴(kuò)展性。
3. 問:對于版式多變的非標(biāo)文檔(如各類申請單),你們的大模型識(shí)別方案有什么優(yōu)勢?
答:我們采用經(jīng)專業(yè)OCR數(shù)據(jù)二次訓(xùn)練的大模型,其識(shí)別準(zhǔn)確率和速度均遠(yuǎn)超原生大模型。更關(guān)鍵的是,它支持將抽取的每個(gè)字段精準(zhǔn)關(guān)聯(lián)回原始單據(jù)的坐標(biāo)位置,解決了原生大模型結(jié)果無法溯源、難以人工核驗(yàn)的問題。