安永《生命科學4.0報告》曾用FV=ID描述生命科學的未來價值,即未來價值等于“創(chuàng)新”的“數(shù)據(jù)”次方。左右“價值”指數(shù)增長的“數(shù)據(jù)”,影響著科研成果的獲取。
根據(jù)《全民健康信息化調(diào)查報告》醫(yī)院大數(shù)據(jù)應用情況調(diào)研結(jié)果顯示,2021年我國三級醫(yī)院醫(yī)療大數(shù)據(jù)平均應用率不足20%,二級醫(yī)院不足5%,即使是熱度最高的臨床數(shù)據(jù),也只有1/5的醫(yī)院嘗試展開研究。
(相關資料圖)
各類醫(yī)院大數(shù)據(jù)應用開展情況(數(shù)據(jù)來源:《全民健康信息化調(diào)查報告》)
為了打破醫(yī)療大數(shù)據(jù)慘淡的應用現(xiàn)狀,協(xié)助醫(yī)生挖掘各式醫(yī)療數(shù)據(jù)中的潛在價值,廣州中康數(shù)字科技有限公司借助百度飛槳深度學習、文心大模型等人工智能技術(shù),結(jié)合自研的數(shù)據(jù)采集網(wǎng)絡、大數(shù)據(jù)處理技術(shù)與生態(tài)化的健康產(chǎn)業(yè)平臺,打造“基于文心大模型的AI臨床科研大數(shù)據(jù)平臺”。
基于文心大模型構(gòu)建的AI臨床科研大數(shù)據(jù)平臺
將大模型應用于醫(yī)療,究竟能在醫(yī)療領域掀起怎樣的波瀾?近日,在百度飛槳承辦的第四屆OpenI/O啟智開發(fā)者大會“深度學習與大模型產(chǎn)業(yè)應用專場”上,中康科技數(shù)字醫(yī)療人工智能技術(shù)產(chǎn)品總監(jiān)黃毅寧做了進一步分享。
多模態(tài)醫(yī)療大數(shù)據(jù)處理,AI助力心臟驟停預警
通常而言,開發(fā)者們可以利用深度學習技術(shù)處理文本數(shù)據(jù)、圖像數(shù)據(jù)、文圖多模態(tài)等各類數(shù)據(jù),而多模態(tài)數(shù)據(jù)在醫(yī)療領域尤其常見。
“我們之前跟一位心內(nèi)科專家研究AI心臟驟停預警的課題。心臟驟停場景與常見的肺結(jié)節(jié)、肺炎等場景不一樣,它具有突發(fā)性,所以AI技術(shù)的應用強調(diào)預測而非診斷。因此,要實現(xiàn)對心臟驟停進行盡可能精準地預警,我們不僅需要處理患者的臨床數(shù)據(jù),還需要分析心電圖數(shù)據(jù)、檢驗數(shù)據(jù),甚至患者發(fā)病時所處環(huán)境的水文氣象數(shù)據(jù)。從理論上講,數(shù)據(jù)源越豐富,模型預測越精準。”黃毅寧解釋道。
為了有效利用多模態(tài)大數(shù)據(jù),中康科技基于飛槳搭建了AI臨床科研大數(shù)據(jù)平臺。具體而言,中康以飛槳自然語言處理模型庫PaddleNLP為基礎,采用通用信息抽取技術(shù)文心ERNIE-UIE進行醫(yī)療數(shù)據(jù)結(jié)構(gòu)化;以中文醫(yī)療預訓練模型文心ERNIE-Health為底座,應用于醫(yī)療文本理解、分析等更多下游任務上。
除NLP技術(shù)外,CV等各領域技術(shù)也必不可少。中康科技運用了飛槳計算機視覺檢測模型庫PaddleDetection,采用RetinaNet和SSD進行目標檢測,還基于飛槳時序建模庫PaddleTS的USAD和SCINet進行時序數(shù)據(jù)特征抽取,最終實現(xiàn)包括患者臨床數(shù)據(jù)、心電圖、心電時序、水文氣象等等多模態(tài)數(shù)據(jù)融合處理、解析與理解。
對于心臟驟?;颊叨?,發(fā)病后的每一分鐘救治時間都彌足珍貴。如果能夠通過預警提前感知危險,相信能夠挽救更多生命。融合各類模態(tài)數(shù)據(jù)的全新技術(shù)方案下,平臺預警效果顯著提升,已經(jīng)能夠提前5-10個小時預測患者心臟驟停的情況,助力醫(yī)療服務質(zhì)量大幅提升。豐富、多樣的醫(yī)療數(shù)據(jù)經(jīng)有效治理后,能夠進一步為臨床醫(yī)生提供輔助決策,也為后續(xù)的一系列臨床科研打下了堅實基礎。
心臟驟停臨床科研課題應用結(jié)構(gòu)
從高維空間提取關鍵信息,AI助力康復診療服務
算力不足以處理大量的高維度數(shù)據(jù)是醫(yī)生科研過程中常常遇見的另一個問題。譬如,在訓練超聲AI的過程中,研究人員需要從超聲影像的高維空間提取關鍵信息,但是在條件一般的醫(yī)院很難做到復雜度很高的模型訓練與預測。面對這一情況,基于文心大模型的AI臨床科研大數(shù)據(jù)平臺可以為醫(yī)生提供強大的運算能力,使從前很難做到的高維度深度學習建模變得更容易。
為了更清晰地厘清高維度數(shù)據(jù)處理的價值,中康科技談到了與一位康復科主任合作研究的“四肢關節(jié)活動度AI識別模型建設”這一課題。簡單來說,該課題的目的是要用視頻的方式評估人們的行動力,替代傳統(tǒng)的問卷調(diào)查,幫助患者洞悉康復過程中的每一處變化并做出對應決策,最終縮短康復時間,提升康復效率。
“在使用問卷評估行動力時,人們常常會在填寫時摻雜主觀因素,導致最終評估結(jié)果出現(xiàn)偏差,”黃毅寧告訴動脈網(wǎng),“通過要求用戶完成指定的姿態(tài)動作,使用視頻檢測的方式可以解決這一問題,更客觀更全面地完成用戶的行動力分級評價。”
這個課題的第一步是對人體姿態(tài)進行采集及分析處理,這一步驟中,中康科技運用了飛槳PaddleDetection視覺檢測模型庫,包括HRNet、DarkPose、SWAHR等模型自動化識別人體重要關節(jié)點,再使用PaddlePaddle深度學習框架構(gòu)建時間圖卷積神經(jīng)網(wǎng)絡根據(jù)關節(jié)點運動軌跡、運動幅度、運動速率等信息,實現(xiàn)用戶的行動力等級評價,并針對性不同等級用戶提供更精準地個性化的診療服務。
通過百度AI技術(shù)識別人體姿態(tài)動作,并對人群進行行動力等級分類的過程
500倍效率提升后,文心大模型不止于科研臨床大數(shù)據(jù)
除了上述兩種醫(yī)學科研常見問題外,中康還將基于飛槳,針對醫(yī)院數(shù)據(jù)的復雜情況,繼續(xù)深化數(shù)據(jù)治理。
舉個例子。根據(jù)某科室主任反饋,以往整理一個700名患者包含600個字段的專病數(shù)據(jù)庫,需要5名臨床醫(yī)生利用一整年工作以外的時間去人工整理,數(shù)據(jù)的利用存在嚴重的滯后問題。
而采用PaddleNLP的文心ERNIE-UIE,可自動抽取專病語料的關鍵字段,形成結(jié)構(gòu)化數(shù)據(jù)。ERNIE-UIE具備高效的零樣本抽取能力、少樣本微調(diào)能力,僅需標注少量樣本,微調(diào)訓練之后即可達到極高精度。PaddleNLP還提供了信息抽取全流程方案,覆蓋“數(shù)據(jù)標注-微調(diào)訓練-通過模型蒸餾進行性能加速-部署”各個環(huán)節(jié),對于不太熟悉NLP深層技術(shù)原理的醫(yī)療領域從業(yè)者,非常友好。
總的來說,百度飛槳和文心大模型幫助中康科技實現(xiàn)數(shù)據(jù)治理能力的三級提升。
第一級,相較于傳統(tǒng)人工作業(yè),科研平臺的自然語言處理能力能將時間效率提升約10倍(時間短);第二級,基于文心大模型的小樣本學習僅需使用原來十分之一的數(shù)據(jù)量即可完成建模,效率再次提升10倍(數(shù)據(jù)量變小);第三級,規(guī)范化標準化的數(shù)據(jù)治理使得一個專病數(shù)據(jù)庫能服務于多個科研項目,效率再次提升約5倍,整體實現(xiàn)約500倍的效率提升。
“基于文心大模型的AI臨床科研大數(shù)據(jù)平臺”已在國內(nèi)眾多知名醫(yī)院落地實際應用,且已獲得各醫(yī)院主任的廣泛認可。某省級醫(yī)院主任表示:“原本臨床科研課題中符合入組條件的患者數(shù)據(jù)只能依靠人工整理和篩選的方式獲取到,但自從應用了人工智能技術(shù)后,這一工作的難度與耗時極大縮小,切實給我們的科研工作帶來很大幫助”。
基于文心大模型的AI臨床科研大數(shù)據(jù)平臺正在以領先的AI技術(shù)助力客戶推進科研項目,進一步推進學科研究事業(yè)發(fā)展。
人工作業(yè)與平臺賦能的數(shù)據(jù)治理應用效果對比
不過,效率的飛速提升并非打造AI臨床科研大數(shù)據(jù)平臺的全部目的。目前,中康科技已經(jīng)規(guī)劃好了基于飛槳和文心大模型繼續(xù)擴展大數(shù)據(jù)平臺的應用邊界的具體路徑。
據(jù)黃毅寧透露,中康將基于本身在醫(yī)療領域深厚的數(shù)據(jù)積累,對文心ERNIE-Health進行領域適應的大模型訓練,進而將其應用于醫(yī)學領域各類NLP任務之中。
AI臨床科研大數(shù)據(jù)平臺還將進一步對藥品說明、醫(yī)學病歷等內(nèi)容進行信息抽取及中文醫(yī)學術(shù)語對齊,自動構(gòu)建醫(yī)學知識圖譜。
這意味著,曾經(jīng)的AI臨床科研大數(shù)據(jù)平臺將跳出臨床數(shù)據(jù)范疇,逐步將醫(yī)院全域大數(shù)據(jù)納入治理范疇。
中康科技CTO唐珂軻博士表示,中康科技與百度飛槳通過技術(shù)研發(fā)、生態(tài)共建等方面搭建了合作橋梁,實現(xiàn)了繁榮共贏。未來,中康科技期待與百度飛槳建立更緊密的合作關系,以百度飛槳和文心大模型的人工智能技術(shù)優(yōu)勢,以中康科技在健康產(chǎn)業(yè)大數(shù)據(jù)的領先者地位、醫(yī)學科研領域的技術(shù)積累和沉淀,實現(xiàn)產(chǎn)品與方案的聯(lián)合創(chuàng)新。期待雙方全方位、多領域、更深入的交流,為中國醫(yī)學科研事業(yè)持續(xù)賦能,共創(chuàng)生命科學領域新篇章。
百度飛槳,賦能醫(yī)療產(chǎn)業(yè)智能化、培養(yǎng)復合型AI人才
最后黃毅寧談到了與百度飛槳合作的開始。
黃毅寧——中康科技數(shù)字醫(yī)療人工智能技術(shù)產(chǎn)品總監(jiān),也是百度AICA首席AI架構(gòu)師培養(yǎng)計劃 6期班學員。正是這份特殊的經(jīng)歷,讓黃毅寧看到了飛槳與醫(yī)療大數(shù)據(jù)融合的價值。
加速產(chǎn)業(yè)AI大生產(chǎn),復合型AI人才培養(yǎng)至關重要。百度AICA首席AI架構(gòu)師培養(yǎng)計劃由深度學習技術(shù)及應用國家工程研究中心與百度聯(lián)合發(fā)起,旨在培養(yǎng)集“分析業(yè)務問題、掌握模型算法、操刀落地應用”于一身的首席AI架構(gòu)師。
伴隨人工智能愈發(fā)深入地應用于醫(yī)療領域,百度AICA首席AI架構(gòu)師培養(yǎng)計劃的未來價值愈發(fā)值得期待。當更多人才進入醫(yī)療人工智能領域,推動更多運營、健康等大數(shù)據(jù)走向應用,我們將能夠看到一個更加智慧的醫(yī)療體系,為更多患者謀求新生。(動脈網(wǎng))