前沿技術(shù)

TECHNOLOGY

密碼創(chuàng)新

隱私計算

數(shù)據(jù)安全治理

人工智能

瀏覽器

工業(yè)互聯(lián)網(wǎng)

量子密碼

后量子密碼

零信任

區(qū)塊鏈

AI預(yù)訓(xùn)練模型

數(shù)據(jù)智能治理

首頁 - 前沿技術(shù) - 人工智能 -

AI預(yù)訓(xùn)練模型在智慧政務(wù)中的實踐

一、智慧政務(wù)背景與挑戰(zhàn)

1、智慧政務(wù)發(fā)展背景

智慧政務(wù)是指采用人工智能等前沿技術(shù)，通過流程創(chuàng)新，整合跨部門資源，提升政府高效履職、便捷服務(wù)、智慧決策的社會治理能力，為公眾、企業(yè)及政府部門自身提供智慧化的政務(wù)服務(wù)。

最新發(fā)布的“中華人民共和國國民經(jīng)濟(jì)和社會發(fā)展第十四個五年規(guī)劃和2035年遠(yuǎn)景目標(biāo)綱要”指出，要大力發(fā)展人工智能、云計算、大數(shù)據(jù)、物聯(lián)網(wǎng)等重點(diǎn)產(chǎn)業(yè)，以及智慧政務(wù)、智能交通、智慧教育、智慧醫(yī)療等數(shù)字化應(yīng)用場景，加快建設(shè)數(shù)字社會和數(shù)字政府。在智慧政務(wù)領(lǐng)域，“綱要”提出：推進(jìn)政務(wù)服務(wù)一網(wǎng)通辦，推廣應(yīng)用電子證照、電子合同、電子簽章、電子發(fā)票、電子檔案，健全政務(wù)服務(wù)評價體系。

2、智慧政務(wù)發(fā)展挑戰(zhàn)

政務(wù)信息化通過多年的發(fā)展演進(jìn)，各級政務(wù)部門先后建設(shè)了信息系統(tǒng)，有部分的部門還建設(shè)了數(shù)據(jù)中心，收集了大量的數(shù)據(jù)。但現(xiàn)有系統(tǒng)大多是解決部門內(nèi)的業(yè)務(wù)問題，數(shù)據(jù)中心也僅限于數(shù)據(jù)收集和統(tǒng)計，并沒有進(jìn)行有效的數(shù)據(jù)挖掘，數(shù)據(jù)價值未能得到有效利用。

政務(wù)業(yè)務(wù)系統(tǒng)數(shù)據(jù)有明顯的垂直領(lǐng)域特征，比如非結(jié)構(gòu)化數(shù)據(jù)多、數(shù)據(jù)價值密度高、數(shù)據(jù)行文規(guī)范正式，但缺乏高質(zhì)量的標(biāo)注數(shù)據(jù)、缺少挖掘提煉。要在部門內(nèi)部、跨部門，以及為公眾用戶提供高質(zhì)量的數(shù)據(jù)服務(wù)，核心的問題之一是如何運(yùn)用人工智能前沿技術(shù)，深入挖掘數(shù)據(jù)中的高價值信息。

人工智能領(lǐng)域在語音、視頻等感知智能上發(fā)展迅速，但在以自然語言處理為核心的認(rèn)知智能方面進(jìn)展緩慢，難以有效支撐高質(zhì)量的政務(wù)數(shù)據(jù)理解，形成有價值的數(shù)據(jù)，為政務(wù)應(yīng)用賦能。近兩年，以預(yù)訓(xùn)練語言模型為代表的人工智能語義分析技術(shù)得到了快速發(fā)展，為有效挖掘和提煉數(shù)據(jù)價值提供了基礎(chǔ)。

二、AI預(yù)訓(xùn)練模型發(fā)展

1、AI預(yù)訓(xùn)練模型概述

隨著深度學(xué)習(xí)的發(fā)展，包括卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)、注意力機(jī)制在內(nèi)的各種神經(jīng)網(wǎng)絡(luò)應(yīng)用于語義分析的研究如火如荼，但由于語義分析任務(wù)的數(shù)據(jù)集不足以支撐將網(wǎng)絡(luò)做深，無法將參數(shù)擴(kuò)大，難以發(fā)揮具有深度神經(jīng)網(wǎng)絡(luò)網(wǎng)絡(luò)深度和海量參數(shù)的表示能力，在實際應(yīng)用中泛化效果不佳。

近幾年的研究表明，在大型語料庫上進(jìn)行訓(xùn)練的模型可以學(xué)習(xí)到基礎(chǔ)或者通用的語言知識表示，對后續(xù)的語義分析任務(wù)大為有益。這樣既能避免神經(jīng)網(wǎng)絡(luò)在小數(shù)據(jù)上的過擬合的問題，也能避免每次從頭開始訓(xùn)練新模型。

預(yù)訓(xùn)練模型（Pre-training mode）是指使用海量通用的文本語料進(jìn)行無監(jiān)督訓(xùn)練得到的語言模型。后續(xù)的語義分析任務(wù)包括分類、相似度計算、問答、糾錯、摘要等任務(wù)可以基于預(yù)訓(xùn)練模型，結(jié)合領(lǐng)域數(shù)據(jù)進(jìn)行調(diào)優(yōu)（Fine-tuning）。

2、AI預(yù)訓(xùn)練模型發(fā)展階段

AI預(yù)訓(xùn)練模型經(jīng)歷了兩個階段的發(fā)展：

第一個階段，預(yù)訓(xùn)練模型以詞嵌入（Word2Vec）技術(shù)為代表，通過設(shè)計模型，訓(xùn)練學(xué)習(xí)獲得文本的語義向量表示。下游任務(wù)使用語義向量表示輸入數(shù)據(jù)，選擇合適的算法完成具體的分析任務(wù)。本階段詞嵌入表示的語義是上下文無關(guān)的，在深層的語義計算和應(yīng)用效果依然有限。

第二個階段，預(yù)訓(xùn)練模型不僅學(xué)習(xí)上下文相關(guān)的詞嵌入，還學(xué)習(xí)包括語義關(guān)系、句子關(guān)系、問答等基礎(chǔ)模型。在下游任務(wù)中，這些模型既能提供文本語義向量表示，還能利用下游任務(wù)的數(shù)據(jù)進(jìn)行調(diào)優(yōu)。本階段以雙向編碼表示預(yù)訓(xùn)練模型BERT為代表，包括ELOM，GPT，BERT等。

ELMO

ELMO（Embedding from Language Model）。ELMO采用雙向循環(huán)神經(jīng)網(wǎng)絡(luò)特征抽取架構(gòu)，將每一個單詞對應(yīng)兩個隱藏狀態(tài)，進(jìn)行拼接得到單詞的Embedding表示。在不同的上下文得到與上下文匹配的動態(tài)詞語義向量，比Word2Vec靜態(tài)語義向量有了不小的進(jìn)步。

GPT

GPT（Generative Pre-Training）。GPT是生成式預(yù)訓(xùn)練模型，采用的訓(xùn)練方法分為兩步，第一步利用無標(biāo)簽的文本數(shù)據(jù)集訓(xùn)練語言模型，第二步是根據(jù)具體的下游任務(wù)，包括問答，文本分類等對模型進(jìn)行微調(diào)。GPT繼續(xù)采用單向的Transformer特征獲取架構(gòu)進(jìn)行訓(xùn)練，使用文本的上文來表達(dá)文本語義。

BERT

BERT（Bidirectional Encoder Representations from Transformers）。BERT的結(jié)構(gòu)如下圖示，采用雙向、基于注意力機(jī)制的多層Transformer編碼特征抽取和預(yù)訓(xùn)練+調(diào)優(yōu)兩階段架構(gòu)。

圖1：Bert預(yù)訓(xùn)練+調(diào)優(yōu)兩階段架構(gòu)

BERT的訓(xùn)練包括兩個任務(wù)，第一個任務(wù)是掩碼語言模型，隨機(jī)把一些字符掩碼，通過預(yù)測掩碼字符來訓(xùn)練模型；第二個任務(wù)是將兩個句子拼接送入BERT模型，通過預(yù)測這兩個句子的順序關(guān)系進(jìn)行訓(xùn)練。這樣BERT在訓(xùn)練過程中不僅學(xué)習(xí)到了雙向文本語義表示，還能學(xué)習(xí)到下游任務(wù)的基礎(chǔ)模型。

總結(jié)來看，ELMO，GPT，BERT在編碼器、訓(xùn)練方法、特征捕獲能力不同，在實際的語義理解和分析應(yīng)用中BERT具有非常大的優(yōu)勢。

BERT預(yù)訓(xùn)練模型

BERT預(yù)訓(xùn)練模型因為其應(yīng)用優(yōu)勢，迅速發(fā)展成為模型家族，包括ERNIE，RoBerta，UniLM，Albert等典型變種。

ERNIE

ERNIE是通過集成外部知識來提升模型表達(dá)能力。ERNIE有兩條路徑，第一條路徑是通過掩蓋掉整個詞語而非字符來提升語義表達(dá)能力，稱為Enhanced Representation through Knowledge Integration。第二條路徑則引入了基于知識圖譜的語言常識信息，以提升模型的常識理解能力，稱為Enhanced Language Representation with Informative Entities。

RoBERTa

RoBERTa（A Robustly Optimized BERT Pre-training Approach）采用了更大的模型參數(shù)、更多的訓(xùn)練數(shù)據(jù)、更大的批次數(shù)據(jù)量，在訓(xùn)練方法上采用動態(tài)掩碼的方法，每次向模型輸入樣本都會生成新的掩碼模式，在大量數(shù)據(jù)不斷輸入的過程中，模型會逐漸適應(yīng)不同的掩碼策略，學(xué)習(xí)不同的語言表征，更容易泛化。

UniLM

UniLM（Unified Language Model Pre-training for Natural Language Understanding and Generation）通過改進(jìn)模型訓(xùn)練方法，通過擴(kuò)展使模型同時具備自然語言理解和自然語言生成的統(tǒng)一預(yù)訓(xùn)練模型。

Albert

Albert（A Lite BERT）是輕量級的BERT模型。Albert通過矩陣分解技術(shù)對編碼部分處理，大幅降低編碼部分的參數(shù)量。通過參數(shù)共享減小提升訓(xùn)練速度；并將下一句預(yù)測任務(wù)調(diào)整為句子順序預(yù)測任務(wù)，以便更好的學(xué)習(xí)句間語義關(guān)系。

三、AI預(yù)訓(xùn)練模型在行業(yè)的落地流程

AI在行業(yè)落地，首先是對業(yè)務(wù)需求的梳理和理解，總結(jié)語義分析的需求和業(yè)務(wù)數(shù)據(jù)現(xiàn)狀；其次是根據(jù)業(yè)務(wù)要求進(jìn)行語義方案的技術(shù)選型和建模；最后按業(yè)務(wù)應(yīng)用要求集成應(yīng)用、評估、改進(jìn)，形成閉環(huán)。如下圖示：

圖2：行業(yè)應(yīng)用落地流程

需求理解和分解

根據(jù)行業(yè)應(yīng)用對業(yè)務(wù)流程智能輔助、知識抽取、信息服務(wù)等各方面進(jìn)行需求梳理，將業(yè)務(wù)需求分解為語義分析任務(wù)，包括分類，聚類、查重，摘要，糾錯，抽取，檢索、智能推薦等。

行業(yè)預(yù)訓(xùn)練模型

學(xué)術(shù)界研究有兩個特點(diǎn)，第一是大多只研究通用模型，和行業(yè)應(yīng)用有差距，第二是為了效果不怎么考慮成本。在具體行業(yè)落地時，需要根據(jù)行業(yè)的數(shù)據(jù)特征分析以及成本分析，確定行業(yè)領(lǐng)域預(yù)訓(xùn)練模型的方案。

模型調(diào)優(yōu)

在行業(yè)應(yīng)用落地，模型調(diào)優(yōu)可以有兩個選擇。第一方案是根據(jù)行業(yè)數(shù)據(jù)重新訓(xùn)練預(yù)訓(xùn)練模型，然后根據(jù)具體NLP任務(wù)進(jìn)行模型調(diào)優(yōu)。第二種方案是直接引用已經(jīng)訓(xùn)練好的通用預(yù)訓(xùn)練模型，然后根據(jù)具體NLP任務(wù)進(jìn)行模型調(diào)優(yōu)。采用前者需要考慮行業(yè)數(shù)據(jù)和模型訓(xùn)練成本，采用后者需要根據(jù)業(yè)務(wù)應(yīng)用選擇合適的路徑。

模型部署

業(yè)務(wù)語義模型在行業(yè)實際應(yīng)用部署重點(diǎn)需要考慮的問題包括準(zhǔn)確性、并發(fā)性能、響應(yīng)時延等，在模型性能和模型成本之間尋找平衡點(diǎn)?？赡艿男阅芴嵘桨赴ㄕ麴s、剪枝和量化等，需要根據(jù)行業(yè)應(yīng)用的實際環(huán)境和需求評估選擇。

效果評估與改進(jìn)閉環(huán)

業(yè)務(wù)語義模型集成到業(yè)務(wù)應(yīng)用，部署上線后可以通過采集應(yīng)用效果，對模型應(yīng)用效果評估，并將應(yīng)用效果反饋至語義建模任務(wù)。通過在線應(yīng)用的實際評估來不斷改進(jìn)語義建模，提升模型的服務(wù)效果和能力，形成改進(jìn)閉環(huán)。

四、AI預(yù)訓(xùn)練模型在智慧政務(wù)中的應(yīng)用

政務(wù)應(yīng)用的典型用戶包括終端用戶、工作人員、主管領(lǐng)導(dǎo)。終端用戶關(guān)注如何快速獲取政務(wù)相關(guān)的政策、制度、流程，如何準(zhǔn)確和快速便捷地辦理相關(guān)的業(yè)務(wù)。工作人員關(guān)注如何快速進(jìn)行業(yè)務(wù)審批辦理，降低人力投入、提升工作效率。主管領(lǐng)導(dǎo)在業(yè)務(wù)的基礎(chǔ)上更關(guān)注業(yè)務(wù)分布、業(yè)務(wù)趨勢及有效措施，以滿足決策的需求。

以某政務(wù)部門智慧應(yīng)用為例，海泰方圓在調(diào)研業(yè)務(wù)場景、充分與業(yè)務(wù)用戶溝通的基礎(chǔ)上，深入理解用戶需求和痛點(diǎn)，將用戶的需求分解梳理，形成專業(yè)的AI需求，以通用NLP技術(shù)為基礎(chǔ)，融合預(yù)訓(xùn)練模型技術(shù)，基于行業(yè)數(shù)據(jù)進(jìn)行AI建模，快速完成落地。本應(yīng)用為用戶提供文獻(xiàn)檢索與推薦、摘要、糾錯、分類、查重、篩查、落實承辦部門、綜述等十多項智慧化服務(wù)，在提升終端用戶體驗、減輕工作人員負(fù)擔(dān)、智能輔助領(lǐng)導(dǎo)決策等方面獲得了良好、顯著的效果。

從技術(shù)到行業(yè)應(yīng)用的成功落地，需要綜合考慮業(yè)務(wù)理解、應(yīng)用規(guī)劃、技術(shù)開發(fā)、行業(yè)部署等方面內(nèi)容。海泰方圓公司作為一家擁有核心技術(shù)的可信數(shù)據(jù)服務(wù)領(lǐng)軍企業(yè)，在安全、人工智能、大數(shù)據(jù)等方面有深厚的積累，長期服務(wù)黨政領(lǐng)域，通過將AI預(yù)訓(xùn)練模型技術(shù)結(jié)合行業(yè)應(yīng)用實踐經(jīng)驗，可以為用戶提供快捷有效的智慧服務(wù)，助力電子政務(wù)往智慧政務(wù)的演進(jìn)。

AI預(yù)訓(xùn)練模型在智慧政務(wù)中的實踐

一、智慧政務(wù)背景與挑戰(zhàn)

1、智慧政務(wù)發(fā)展背景

2、智慧政務(wù)發(fā)展挑戰(zhàn)

二、AI預(yù)訓(xùn)練模型發(fā)展

1、AI預(yù)訓(xùn)練模型概述

2、AI預(yù)訓(xùn)練模型發(fā)展階段