TECHNOLOGY
AI預(yù)訓(xùn)練模型在智慧政務(wù)中的實踐
一、智慧政務(wù)背景與挑戰(zhàn)
1、智慧政務(wù)發(fā)展背景
智慧政務(wù)是指采用人工智能等前沿技術(shù),通過流程創(chuàng)新,整合跨部門資源,提升政府高效履職、便捷服務(wù)、智慧決策的社會治理能力,為公眾、企業(yè)及政府部門自身提供智慧化的政務(wù)服務(wù)。
最新發(fā)布的“中華人民共和國國民經(jīng)濟(jì)和社會發(fā)展第十四個五年規(guī)劃和2035年遠(yuǎn)景目標(biāo)綱要”指出,要大力發(fā)展人工智能、云計算、大數(shù)據(jù)、物聯(lián)網(wǎng)等重點(diǎn)產(chǎn)業(yè),以及智慧政務(wù)、智能交通、智慧教育、智慧醫(yī)療等數(shù)字化應(yīng)用場景,加快建設(shè)數(shù)字社會和數(shù)字政府。在智慧政務(wù)領(lǐng)域,“綱要”提出:推進(jìn)政務(wù)服務(wù)一網(wǎng)通辦,推廣應(yīng)用電子證照、電子合同、電子簽章、電子發(fā)票、電子檔案,健全政務(wù)服務(wù)評價體系。
2、智慧政務(wù)發(fā)展挑戰(zhàn)
政務(wù)信息化通過多年的發(fā)展演進(jìn),各級政務(wù)部門先后建設(shè)了信息系統(tǒng),有部分的部門還建設(shè)了數(shù)據(jù)中心,收集了大量的數(shù)據(jù)。但現(xiàn)有系統(tǒng)大多是解決部門內(nèi)的業(yè)務(wù)問題,數(shù)據(jù)中心也僅限于數(shù)據(jù)收集和統(tǒng)計,并沒有進(jìn)行有效的數(shù)據(jù)挖掘,數(shù)據(jù)價值未能得到有效利用。
政務(wù)業(yè)務(wù)系統(tǒng)數(shù)據(jù)有明顯的垂直領(lǐng)域特征,比如非結(jié)構(gòu)化數(shù)據(jù)多、數(shù)據(jù)價值密度高、數(shù)據(jù)行文規(guī)范正式,但缺乏高質(zhì)量的標(biāo)注數(shù)據(jù)、缺少挖掘提煉。要在部門內(nèi)部、跨部門,以及為公眾用戶提供高質(zhì)量的數(shù)據(jù)服務(wù),核心的問題之一是如何運(yùn)用人工智能前沿技術(shù),深入挖掘數(shù)據(jù)中的高價值信息。
人工智能領(lǐng)域在語音、視頻等感知智能上發(fā)展迅速,但在以自然語言處理為核心的認(rèn)知智能方面進(jìn)展緩慢,難以有效支撐高質(zhì)量的政務(wù)數(shù)據(jù)理解,形成有價值的數(shù)據(jù),為政務(wù)應(yīng)用賦能。近兩年,以預(yù)訓(xùn)練語言模型為代表的人工智能語義分析技術(shù)得到了快速發(fā)展,為有效挖掘和提煉數(shù)據(jù)價值提供了基礎(chǔ)。
二、AI預(yù)訓(xùn)練模型發(fā)展
1、AI預(yù)訓(xùn)練模型概述
隨著深度學(xué)習(xí)的發(fā)展,包括卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)、注意力機(jī)制在內(nèi)的各種神經(jīng)網(wǎng)絡(luò)應(yīng)用于語義分析的研究如火如荼,但由于語義分析任務(wù)的數(shù)據(jù)集不足以支撐將網(wǎng)絡(luò)做深,無法將參數(shù)擴(kuò)大,難以發(fā)揮具有深度神經(jīng)網(wǎng)絡(luò)網(wǎng)絡(luò)深度和海量參數(shù)的表示能力,在實際應(yīng)用中泛化效果不佳。
近幾年的研究表明,在大型語料庫上進(jìn)行訓(xùn)練的模型可以學(xué)習(xí)到基礎(chǔ)或者通用的語言知識表示,對后續(xù)的語義分析任務(wù)大為有益。這樣既能避免神經(jīng)網(wǎng)絡(luò)在小數(shù)據(jù)上的過擬合的問題,也能避免每次從頭開始訓(xùn)練新模型。
預(yù)訓(xùn)練模型(Pre-training mode)是指使用海量通用的文本語料進(jìn)行無監(jiān)督訓(xùn)練得到的語言模型。后續(xù)的語義分析任務(wù)包括分類、相似度計算、問答、糾錯、摘要等任務(wù)可以基于預(yù)訓(xùn)練模型,結(jié)合領(lǐng)域數(shù)據(jù)進(jìn)行調(diào)優(yōu)(Fine-tuning)。
2、AI預(yù)訓(xùn)練模型發(fā)展階段
AI預(yù)訓(xùn)練模型經(jīng)歷了兩個階段的發(fā)展:
第一個階段,預(yù)訓(xùn)練模型以詞嵌入(Word2Vec)技術(shù)為代表,通過設(shè)計模型,訓(xùn)練學(xué)習(xí)獲得文本的語義向量表示。下游任務(wù)使用語義向量表示輸入數(shù)據(jù),選擇合適的算法完成具體的分析任務(wù)。本階段詞嵌入表示的語義是上下文無關(guān)的,在深層的語義計算和應(yīng)用效果依然有限。
第二個階段,預(yù)訓(xùn)練模型不僅學(xué)習(xí)上下文相關(guān)的詞嵌入,還學(xué)習(xí)包括語義關(guān)系、句子關(guān)系、問答等基礎(chǔ)模型。在下游任務(wù)中,這些模型既能提供文本語義向量表示,還能利用下游任務(wù)的數(shù)據(jù)進(jìn)行調(diào)優(yōu)。本階段以雙向編碼表示預(yù)訓(xùn)練模型BERT為代表,包括ELOM,GPT,BERT等。
ELMO
ELMO(Embedding from Language Model)。ELMO采用雙向循環(huán)神經(jīng)網(wǎng)絡(luò)特征抽取架構(gòu),將每一個單詞對應(yīng)兩個隱藏狀態(tài),進(jìn)行拼接得到單詞的Embedding表示。在不同的上下文得到與上下文匹配的動態(tài)詞語義向量,比Word2Vec靜態(tài)語義向量有了不小的進(jìn)步。
GPT
GPT(Generative Pre-Training)。GPT是生成式預(yù)訓(xùn)練模型,采用的訓(xùn)練方法分為兩步,第一步利用無標(biāo)簽的文本數(shù)據(jù)集訓(xùn)練語言模型,第二步是根據(jù)具體的下游任務(wù),包括問答,文本分類等對模型進(jìn)行微調(diào)。GPT繼續(xù)采用單向的Transformer特征獲取架構(gòu)進(jìn)行訓(xùn)練,使用文本的上文來表達(dá)文本語義。
BERT
BERT(Bidirectional Encoder Representations from Transformers)。BERT的結(jié)構(gòu)如下圖示,采用雙向、基于注意力機(jī)制的多層Transformer編碼特征抽取和預(yù)訓(xùn)練+調(diào)優(yōu)兩階段架構(gòu)。
圖1:Bert預(yù)訓(xùn)練+調(diào)優(yōu)兩階段架構(gòu)
BERT的訓(xùn)練包括兩個任務(wù),第一個任務(wù)是掩碼語言模型,隨機(jī)把一些字符掩碼,通過預(yù)測掩碼字符來訓(xùn)練模型;第二個任務(wù)是將兩個句子拼接送入BERT模型,通過預(yù)測這兩個句子的順序關(guān)系進(jìn)行訓(xùn)練。這樣BERT在訓(xùn)練過程中不僅學(xué)習(xí)到了雙向文本語義表示,還能學(xué)習(xí)到下游任務(wù)的基礎(chǔ)模型。
總結(jié)來看,ELMO,GPT,BERT在編碼器、訓(xùn)練方法、特征捕獲能力不同,在實際的語義理解和分析應(yīng)用中BERT具有非常大的優(yōu)勢。
BERT預(yù)訓(xùn)練模型
BERT預(yù)訓(xùn)練模型因為其應(yīng)用優(yōu)勢,迅速發(fā)展成為模型家族,包括ERNIE,RoBerta,UniLM,Albert等典型變種。
ERNIE
ERNIE是通過集成外部知識來提升模型表達(dá)能力。ERNIE有兩條路徑,第一條路徑是通過掩蓋掉整個詞語而非字符來提升語義表達(dá)能力,稱為Enhanced Representation through Knowledge Integration。第二條路徑則引入了基于知識圖譜的語言常識信息,以提升模型的常識理解能力,稱為Enhanced Language Representation with Informative Entities。
RoBERTa
RoBERTa(A Robustly Optimized BERT Pre-training Approach)采用了更大的模型參數(shù)、更多的訓(xùn)練數(shù)據(jù)、更大的批次數(shù)據(jù)量,在訓(xùn)練方法上采用動態(tài)掩碼的方法,每次向模型輸入樣本都會生成新的掩碼模式,在大量數(shù)據(jù)不斷輸入的過程中,模型會逐漸適應(yīng)不同的掩碼策略,學(xué)習(xí)不同的語言表征,更容易泛化。
UniLM
UniLM(Unified Language Model Pre-training for Natural Language Understanding and Generation)通過改進(jìn)模型訓(xùn)練方法,通過擴(kuò)展使模型同時具備自然語言理解和自然語言生成的統(tǒng)一預(yù)訓(xùn)練模型。
Albert
Albert(A Lite BERT)是輕量級的BERT模型。Albert通過矩陣分解技術(shù)對編碼部分處理,大幅降低編碼部分的參數(shù)量。通過參數(shù)共享減小提升訓(xùn)練速度;并將下一句預(yù)測任務(wù)調(diào)整為句子順序預(yù)測任務(wù),以便更好的學(xué)習(xí)句間語義關(guān)系。
三、AI預(yù)訓(xùn)練模型在行業(yè)的落地流程
AI在行業(yè)落地,首先是對業(yè)務(wù)需求的梳理和理解,總結(jié)語義分析的需求和業(yè)務(wù)數(shù)據(jù)現(xiàn)狀;其次是根據(jù)業(yè)務(wù)要求進(jìn)行語義方案的技術(shù)選型和建模;最后按業(yè)務(wù)應(yīng)用要求集成應(yīng)用、評估、改進(jìn),形成閉環(huán)。如下圖示:
圖2:行業(yè)應(yīng)用落地流程
需求理解和分解
根據(jù)行業(yè)應(yīng)用對業(yè)務(wù)流程智能輔助、知識抽取、信息服務(wù)等各方面進(jìn)行需求梳理,將業(yè)務(wù)需求分解為語義分析任務(wù),包括分類,聚類、查重,摘要,糾錯,抽取,檢索、智能推薦等。
行業(yè)預(yù)訓(xùn)練模型
學(xué)術(shù)界研究有兩個特點(diǎn),第一是大多只研究通用模型,和行業(yè)應(yīng)用有差距,第二是為了效果不怎么考慮成本。在具體行業(yè)落地時,需要根據(jù)行業(yè)的數(shù)據(jù)特征分析以及成本分析,確定行業(yè)領(lǐng)域預(yù)訓(xùn)練模型的方案。
模型調(diào)優(yōu)
在行業(yè)應(yīng)用落地,模型調(diào)優(yōu)可以有兩個選擇。第一方案是根據(jù)行業(yè)數(shù)據(jù)重新訓(xùn)練預(yù)訓(xùn)練模型,然后根據(jù)具體NLP任務(wù)進(jìn)行模型調(diào)優(yōu)。第二種方案是直接引用已經(jīng)訓(xùn)練好的通用預(yù)訓(xùn)練模型,然后根據(jù)具體NLP任務(wù)進(jìn)行模型調(diào)優(yōu)。采用前者需要考慮行業(yè)數(shù)據(jù)和模型訓(xùn)練成本,采用后者需要根據(jù)業(yè)務(wù)應(yīng)用選擇合適的路徑。
模型部署
業(yè)務(wù)語義模型在行業(yè)實際應(yīng)用部署重點(diǎn)需要考慮的問題包括準(zhǔn)確性、并發(fā)性能、響應(yīng)時延等,在模型性能和模型成本之間尋找平衡點(diǎn)??赡艿男阅芴嵘桨赴ㄕ麴s、剪枝和量化等,需要根據(jù)行業(yè)應(yīng)用的實際環(huán)境和需求評估選擇。
效果評估與改進(jìn)閉環(huán)
業(yè)務(wù)語義模型集成到業(yè)務(wù)應(yīng)用,部署上線后可以通過采集應(yīng)用效果,對模型應(yīng)用效果評估,并將應(yīng)用效果反饋至語義建模任務(wù)。通過在線應(yīng)用的實際評估來不斷改進(jìn)語義建模,提升模型的服務(wù)效果和能力,形成改進(jìn)閉環(huán)。
四、AI預(yù)訓(xùn)練模型在智慧政務(wù)中的應(yīng)用
政務(wù)應(yīng)用的典型用戶包括終端用戶、工作人員、主管領(lǐng)導(dǎo)。終端用戶關(guān)注如何快速獲取政務(wù)相關(guān)的政策、制度、流程,如何準(zhǔn)確和快速便捷地辦理相關(guān)的業(yè)務(wù)。工作人員關(guān)注如何快速進(jìn)行業(yè)務(wù)審批辦理,降低人力投入、提升工作效率。主管領(lǐng)導(dǎo)在業(yè)務(wù)的基礎(chǔ)上更關(guān)注業(yè)務(wù)分布、業(yè)務(wù)趨勢及有效措施,以滿足決策的需求。
以某政務(wù)部門智慧應(yīng)用為例,海泰方圓在調(diào)研業(yè)務(wù)場景、充分與業(yè)務(wù)用戶溝通的基礎(chǔ)上,深入理解用戶需求和痛點(diǎn),將用戶的需求分解梳理,形成專業(yè)的AI需求,以通用NLP技術(shù)為基礎(chǔ),融合預(yù)訓(xùn)練模型技術(shù),基于行業(yè)數(shù)據(jù)進(jìn)行AI建模,快速完成落地。本應(yīng)用為用戶提供文獻(xiàn)檢索與推薦、摘要、糾錯、分類、查重、篩查、落實承辦部門、綜述等十多項智慧化服務(wù),在提升終端用戶體驗、減輕工作人員負(fù)擔(dān)、智能輔助領(lǐng)導(dǎo)決策等方面獲得了良好、顯著的效果。
從技術(shù)到行業(yè)應(yīng)用的成功落地,需要綜合考慮業(yè)務(wù)理解、應(yīng)用規(guī)劃、技術(shù)開發(fā)、行業(yè)部署等方面內(nèi)容。海泰方圓公司作為一家擁有核心技術(shù)的可信數(shù)據(jù)服務(wù)領(lǐng)軍企業(yè),在安全、人工智能、大數(shù)據(jù)等方面有深厚的積累,長期服務(wù)黨政領(lǐng)域,通過將AI預(yù)訓(xùn)練模型技術(shù)結(jié)合行業(yè)應(yīng)用實踐經(jīng)驗,可以為用戶提供快捷有效的智慧服務(wù),助力電子政務(wù)往智慧政務(wù)的演進(jìn)。