數(shù)字經(jīng)濟(jì)快速發(fā)展的背后,全球數(shù)據(jù)總量呈現(xiàn)出爆發(fā)式增長趨勢(shì)。智能文檔處理(IDP)技術(shù)能夠高效地從多格式文檔中捕捉、提取和處理數(shù)據(jù),幫助機(jī)構(gòu)和企業(yè)大幅提升文檔處理效率,節(jié)約時(shí)間和人力成本。近期,合合信息智能文字識(shí)別產(chǎn)品通過中國信息通信研究院(以下簡(jiǎn)稱“中國信通院”)“可信AI—智能文檔處理系統(tǒng)”評(píng)估工作,并獲得“5級(jí)”評(píng)定。據(jù)悉,“5級(jí)”為該模塊最高評(píng)定等級(jí)。
(相關(guān)資料圖)
人工智能技術(shù)的應(yīng)用場(chǎng)景正在不斷拓展,其發(fā)展也面臨著產(chǎn)品能力參差不齊、缺乏行業(yè)基準(zhǔn)和標(biāo)桿、安全可信要求落實(shí)不明確等問題。中國信通院于2018年起逐步構(gòu)建和完善“可信AI”評(píng)測(cè)體系,助力人工智能技術(shù)的發(fā)展和產(chǎn)業(yè)的健康成長,“智能文檔處理”是近兩年來新增的評(píng)測(cè)項(xiàng)目之一。
中國信通院智能文檔處理系統(tǒng)評(píng)測(cè)體系介紹(圖源:中國信通院)
國際數(shù)據(jù)公司(IDC)最新發(fā)布的預(yù)測(cè)數(shù)據(jù)顯示,中國數(shù)據(jù)量規(guī)模將從2022年的23.88ZB增長至2027年的76.6ZB,年均增長速度(CAGR)達(dá)到26.3%。其中,企業(yè)數(shù)據(jù)量占據(jù)70%,目前僅有24%的數(shù)據(jù)被用于分析或AI決策。由此可見,企業(yè)在經(jīng)營中沉淀下來的數(shù)據(jù),有大部分價(jià)值尚待釋放。
計(jì)算機(jī)信息化系統(tǒng)中的數(shù)據(jù)分為結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),人們?nèi)粘I?、工作中所接觸到的各類辦公文檔、文本、圖片、報(bào)表都屬于非結(jié)構(gòu)化數(shù)據(jù)。由于格式復(fù)雜、標(biāo)準(zhǔn)多樣,非結(jié)構(gòu)化數(shù)據(jù)處理起來既困難又耗時(shí),智能文檔處理技術(shù)可以把關(guān)鍵信息從半結(jié)構(gòu)化/非結(jié)構(gòu)化數(shù)據(jù)中提取出來,進(jìn)一步實(shí)現(xiàn)業(yè)務(wù)流程的端到端自動(dòng)化。IDC認(rèn)為,智能文檔處理技術(shù)是提升部分行業(yè)、業(yè)務(wù)、流程的核心生產(chǎn)要素,隨著與應(yīng)用和流程自動(dòng)化的深度整合,潛在的應(yīng)用場(chǎng)景廣泛,普及空間較大。
目前,智能文檔處理技術(shù)已被廣泛應(yīng)用于文檔數(shù)字化管理、自動(dòng)化流程、圖文提取等業(yè)務(wù)場(chǎng)景,并加速滲透金融、政務(wù)、醫(yī)療、海關(guān)等垂直領(lǐng)域。中國信通院持續(xù)關(guān)注智能文檔處理技術(shù)及應(yīng)用的發(fā)展情況,依據(jù)《自然語言處理技術(shù)和產(chǎn)品評(píng)估方法 第8部分:智能文檔處理系統(tǒng)》,全方位評(píng)估企業(yè)智能文檔處理的技術(shù)先進(jìn)度。
評(píng)估結(jié)果顯示,合合信息智能文檔處理產(chǎn)品在通用能力及AI核心能力方面均表現(xiàn)優(yōu)異:
通用能力方面,合合信息產(chǎn)品在信息抽取、表格文字識(shí)別、版面分析等方面均獲得5分評(píng)分。表格文字識(shí)別、版面分析是文檔處理的難點(diǎn),合合信息表格文字識(shí)別技術(shù)支持識(shí)別圖片/PDF格式文檔中的多類型表格內(nèi)容。在財(cái)報(bào)相關(guān)表格識(shí)別測(cè)試中,合合信息有線表識(shí)別單元格結(jié)構(gòu)準(zhǔn)確率高于98%;無線表識(shí)別在保證表格區(qū)域內(nèi)容的完整性的同時(shí),檢測(cè)準(zhǔn)確率較傳統(tǒng)方法顯著提升。
合合信息“表格文字識(shí)別”處理效果展示
合合信息版面分析技術(shù)通過解決版面分割、區(qū)域間的邏輯關(guān)系處理等方面的難題,可將文檔圖像切分成不同類型內(nèi)容(文本、圖形、公式、表格等)的區(qū)域,并分析區(qū)域之間的關(guān)系,讓機(jī)器更精準(zhǔn)地確定文檔中的文字位置、字體、大小和排版方式,從各類版式復(fù)雜的圖片文檔中精準(zhǔn)獲取信息。
AI核心能力方面,合合信息產(chǎn)品在NLP領(lǐng)域的文本分類、知識(shí)圖譜領(lǐng)域的實(shí)體識(shí)別、關(guān)系抽取及OCR領(lǐng)域的字符識(shí)別、文本行識(shí)別均獲得5分評(píng)分,并支持文本生成、事件抽取等高階處理能力,其中準(zhǔn)確率、召回率、F1值等指標(biāo)評(píng)分總體較高。
資料顯示,合合信息創(chuàng)立于2006年,是一家人工智能及大數(shù)據(jù)科技企業(yè)。合合信息智能文檔處理產(chǎn)品是一款集圖像處理、文檔質(zhì)量判斷、文檔識(shí)別、版面分析、文檔結(jié)構(gòu)化信息抽取、存儲(chǔ)、檢索、管理等技術(shù)于一體的智能文檔解決方案產(chǎn)品,旨在幫助個(gè)人和企業(yè)實(shí)現(xiàn)文檔信息化管理。
此外,本月,中國信通院攜手合合信息啟動(dòng)了《文檔圖像篡改檢測(cè)標(biāo)準(zhǔn)》制定工作,中國圖象圖形學(xué)學(xué)會(huì)、中國科學(xué)技術(shù)大學(xué)等知名學(xué)術(shù)機(jī)構(gòu)參與聯(lián)合編制。該檢測(cè)標(biāo)準(zhǔn)將基于產(chǎn)業(yè)現(xiàn)狀,圍繞“細(xì)粒度”視覺差異偽造圖像鑒別、生成式圖像判別等行業(yè)焦點(diǎn)議題,凝聚行業(yè)共識(shí),為中國“可信AI”在機(jī)器視覺、圖像處理領(lǐng)域的體系建設(shè)提供有力支持。(柯巖)