大語言模型的出現,推動了人工智能在企業中的應用。許多組織正嘗試將AI融入業務流程。然而,隨著在實際業務場景中的深入應用,單純依賴單一通用大模型的局限性也開始顯現。
通用大語言模型因其廣泛的知識覆蓋和處理多樣化任務的能力而備受關注。但從企業級應用的角度看,其局限性同樣突出:
●運行成本:通用大模型龐大的參數量,對硬件資源有極高要求,部署和運行成本高昂。
●輸出可控性:由于訓練數據的廣博與復雜,通用大模型的輸出可能存在不準確或與事實不符的“幻覺”現象。在金融、法律等對信息準確性有嚴格要求的行業,構成了嚴重的操作風險。
●決策可解釋性:通用大模型的決策邏輯通常不透明,形成了“黑箱”問題。這對于那些業務流程需要滿足合規性與可追溯審計要求的行業,是一個核心障礙。
人工智能領域的一個重要發展方向是小型語言模型的應用。小型語言模型,是為特定領域或任務進行深度優化的模型。它們的技術優勢在于:
●高精度與高可靠性:通過在特定行業的數據集上進行訓練,小模型在處理專業任務時,其精度和可靠性通常優于通用模型。
●高效率與低成本:更小的模型規模意味著更快的處理速度和更低的部署成本。同時,小模型更易于實現私有化部署,有助于保障企業數據的安全可控。
●高可解釋性:小模型的內部邏輯相對清晰,更便于進行監管和合規性審查。
行業內的共識是,未來并非由某一種模型主導,而是會形成一個“多模型協同”的技術生態。
在這種生態中,不同類型的模型各司其職。一個先進的AI系統應具備“模型路由”能力,即根據接收到的任務類型,系統能動態地將其分配給最適合處理該任務的模型。這種架構可以最大化地結合不同模型的優勢,實現系統整體在效率、成本和可靠性上的最優化。
這一技術理念,已在對可靠性要求極高的金融行業中得到實踐和驗證。金融業務涉及大量文檔處理,文件種類繁多,既有版式固定的標準化文檔,也有格式各異的非標文檔,是檢驗AI模型能力的理想場景。
以易道博識的智能文檔處理平臺為例(簡稱DeepIDP),該平臺采用了“大小模型協同”架構,
●用小模型處理高頻、標準化任務。對于業務中出現頻率最高、版式最標準的文檔,例如身份證、銀行卡等,平臺會調用傳統OCR識別模型進行處理。
●用大模型處理復雜、非標準化任務。當遇到版式不固定、內容復雜的合同、財務報表、業務申請表等“長尾文檔”時,平臺則會調用大模型來進行抽取,它并非通用LLM,而是專為金融行業文檔進行深度訓練的模型,能夠精準理解并抽取復雜版式中的關鍵信息 。
這種協同架構為業務帶來了切實價值,并直接解決了前述通用模型的局限:
1、解決“黑箱”問題,確保合規:與通用大模型不同,易道博識的GIE大模型能夠實現“數據可溯源”,即抽取的每一個字段都能準確關聯回原始單據上的相應位置 。這保證了數據的真實性和可審計性,滿足了金融業務的合規要求 。
2、優化成本效益:通過將不同任務智能地分配給最合適的模型,實現了硬件資源的合理利用和高效協同,為企業在成本與性能之間找到了最佳平衡點 。
企業在進行AI技術布局時,應超越“模型越大越好”的單一維度,轉向構建一個更為靈活和高效的多模型應用體系。
1. 問:為什么多模態大模型不能直接取代所有傳統的OCR識別?
答:盡管大模型泛化能力強,但在處理身份證等高頻標準文檔時,存在成本高昂、速度慢、字符級識別率偏低等問題。在這些場景下,專用小模型具備成本低、速度快、識別精度高的優勢,是更經濟高效的選擇。
2. 問:易道博識的智能文檔處理平臺如何解決金融行業的信創國產化難題?
答:平臺通過統一的軟件架構,從底層原生適配主流國產硬件(如C86+DCU、ARM+昇騰)。這避免了企業因硬件不同而維護多套軟件版本的難題,極大降低了開發與運維成本,并保障了企業AI能力投資的連續性和可擴展性。
3. 問:對于版式多變的非標文檔(如各類申請單),你們的大模型識別方案有什么優勢?
答:我們采用經專業OCR數據二次訓練的大模型,其識別準確率和速度均遠超原生大模型。更關鍵的是,它支持將抽取的每個字段精準關聯回原始單據的坐標位置,解決了原生大模型結果無法溯源、難以人工核驗的問題。