前沿技術(shù)

TECHNOLOGY

首頁(yè) - 前沿技術(shù) - 人工智能 -

數(shù)據(jù)治理邁入AI智能化時(shí)代

伴隨全球信息化的浪潮,人類(lèi)社會(huì)的數(shù)據(jù)量高速增長(zhǎng),數(shù)據(jù)的巨大價(jià)值逐漸被認(rèn)識(shí),數(shù)據(jù)正在成為新時(shí)代的石油和生產(chǎn)要素。在國(guó)家層面,政府對(duì)數(shù)據(jù)發(fā)展進(jìn)行了頂層設(shè)計(jì)和整體布局,大力推動(dòng)產(chǎn)業(yè)政策、法規(guī)和標(biāo)準(zhǔn)的建設(shè),并在十四五規(guī)劃中提出“加快數(shù)字化發(fā)展,建設(shè)數(shù)字中國(guó)”的目標(biāo),加快國(guó)家數(shù)據(jù)戰(zhàn)略布局步伐。在產(chǎn)業(yè)層面,數(shù)據(jù)治理是數(shù)字產(chǎn)業(yè)化和產(chǎn)業(yè)數(shù)字化轉(zhuǎn)型的關(guān)鍵。隨著企業(yè)信息化進(jìn)程,數(shù)據(jù)治理同步演進(jìn)。數(shù)據(jù)治理歷經(jīng)手工時(shí)代,以結(jié)構(gòu)化數(shù)據(jù)為主的大數(shù)據(jù)時(shí)代,發(fā)展到如今全面應(yīng)用AI人工智能技術(shù)的智慧化數(shù)據(jù)治理時(shí)代。下面簡(jiǎn)單回顧數(shù)據(jù)治理的發(fā)展階段。

 

一、數(shù)據(jù)治理發(fā)展階段

 

手工階段

 

在信息化初期,企業(yè)通常以建設(shè)信息系統(tǒng)來(lái)處理業(yè)務(wù)流程,不同的業(yè)務(wù)數(shù)據(jù)存儲(chǔ)在不同的文件系統(tǒng)或者數(shù)據(jù)庫(kù)中。大量獨(dú)立的信息系統(tǒng)導(dǎo)致數(shù)據(jù)隔離、數(shù)據(jù)壁壘嚴(yán)重,難以對(duì)用戶(hù)、企業(yè)提供融合數(shù)據(jù)服務(wù),嚴(yán)重影響數(shù)字化管理。

 

大數(shù)據(jù)時(shí)代

 

企業(yè)信息化產(chǎn)生了大量的數(shù)據(jù)。企業(yè)通過(guò)數(shù)據(jù)匯聚,打破了數(shù)據(jù)壁壘,將不同業(yè)務(wù)部門(mén)的數(shù)據(jù)匯聚到一起,提供數(shù)據(jù)服務(wù),從而將數(shù)據(jù)服務(wù)從業(yè)務(wù)系統(tǒng)中獨(dú)立出來(lái)。本階段數(shù)據(jù)治理以結(jié)構(gòu)化數(shù)據(jù)分析為主,為了避免再次形成結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)壁壘,全面引入人工智能勢(shì)在必行。

 

智慧化時(shí)代

 

數(shù)據(jù)匯聚為數(shù)據(jù)治理奠定了良好的基礎(chǔ)。AI技術(shù)的快速進(jìn)步幫助數(shù)據(jù)治理邁入智慧化時(shí)代。AI智能技術(shù)被廣泛引入到數(shù)據(jù)治理中,實(shí)現(xiàn)數(shù)據(jù)挖掘,形成高價(jià)值的資產(chǎn)數(shù)據(jù)。與大數(shù)據(jù)技術(shù)融合的AI智能技術(shù)會(huì)加速金融、政務(wù)、教育等行業(yè)的數(shù)據(jù)智慧化進(jìn)程,提升用戶(hù)體驗(yàn)、降本增效、支撐科學(xué)決策,充分發(fā)揮數(shù)據(jù)的社會(huì)價(jià)值,推動(dòng)整個(gè)產(chǎn)業(yè)蓬勃發(fā)展。

 

二、數(shù)據(jù)治理智慧化

 

數(shù)據(jù)治理智慧化是通過(guò)應(yīng)用人工智能技術(shù),融合處理結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù),達(dá)到數(shù)據(jù)智能治理、價(jià)值挖掘、安全流通等目標(biāo)。下面依次描述在數(shù)據(jù)治理的標(biāo)準(zhǔn)構(gòu)建、智能捕獲、核心數(shù)據(jù)識(shí)別、價(jià)值數(shù)據(jù)挖掘、敏感數(shù)據(jù)過(guò)濾、精準(zhǔn)數(shù)據(jù)服務(wù)等關(guān)鍵流程中對(duì)人工智能技術(shù)的需求。

 

數(shù)據(jù)標(biāo)準(zhǔn)構(gòu)建

 

行業(yè)數(shù)據(jù)治理關(guān)鍵的步驟是數(shù)據(jù)標(biāo)準(zhǔn)構(gòu)建。結(jié)合行業(yè)對(duì)流程、服務(wù)、決策的需求,建立數(shù)據(jù)定義、數(shù)據(jù)處理、數(shù)據(jù)應(yīng)用以及數(shù)據(jù)安全的標(biāo)準(zhǔn),難度大、成本高,需要利用人工智能技術(shù)對(duì)構(gòu)建過(guò)程進(jìn)行提升和改進(jìn)。

 

數(shù)據(jù)智能捕獲

 

治理數(shù)據(jù)的來(lái)源多樣,可能是文件系統(tǒng)、消息中間件、數(shù)據(jù)庫(kù)、實(shí)時(shí)數(shù)據(jù)接口等;數(shù)據(jù)類(lèi)型千差萬(wàn)別,包括結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù);數(shù)據(jù)質(zhì)量參差不齊?,F(xiàn)有的數(shù)據(jù)采集方法大多依靠人工規(guī)則或策略,智能化程度低。

 

核心數(shù)據(jù)識(shí)別

 

核心數(shù)據(jù)識(shí)別是數(shù)據(jù)治理前提。從海量的數(shù)據(jù)中識(shí)別核心數(shù)據(jù)僅靠專(zhuān)家經(jīng)驗(yàn)耗時(shí)耗力、成本高,需要引入AI智能技術(shù)進(jìn)行輔助識(shí)別。

 

價(jià)值數(shù)據(jù)挖掘

 

價(jià)值數(shù)據(jù)挖掘是數(shù)據(jù)治理的核心和目標(biāo)。經(jīng)過(guò)預(yù)處理的數(shù)據(jù)進(jìn)入治理系統(tǒng)之后,需要根據(jù)業(yè)務(wù)場(chǎng)景要求,定義數(shù)據(jù)分析任務(wù),訓(xùn)練支持結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的算法模型,進(jìn)行價(jià)值數(shù)據(jù)的挖掘。

 

敏感數(shù)據(jù)過(guò)濾

 

實(shí)際業(yè)務(wù)系統(tǒng)中的數(shù)據(jù)存在大量風(fēng)險(xiǎn)和敏感的信息,這些數(shù)據(jù)只適合給授權(quán)的用戶(hù)訪(fǎng)問(wèn)。需要有智能化的方法過(guò)濾、篩選需要開(kāi)放的數(shù)據(jù),以降低風(fēng)險(xiǎn)。

 

精準(zhǔn)數(shù)據(jù)服務(wù)

 

數(shù)據(jù)的價(jià)值在于應(yīng)用、流通和開(kāi)放共享服務(wù)。數(shù)據(jù)開(kāi)放的難點(diǎn)之一是面對(duì)大量的非結(jié)構(gòu)化數(shù)據(jù)包括語(yǔ)音、圖像、視頻和文本數(shù)據(jù),用戶(hù)很難快速找到自己需要的信息和知識(shí),亟需引入有效的技術(shù)手段實(shí)現(xiàn)信息抽取和精準(zhǔn)數(shù)據(jù)服務(wù)。

 

三、海泰方圓數(shù)據(jù)內(nèi)容智能分析平臺(tái)(HT-DIP)

 

1、行業(yè)挑戰(zhàn)

 

行業(yè)經(jīng)過(guò)多年的信息化發(fā)展,逐步建立了匯聚各類(lèi)數(shù)據(jù)的數(shù)據(jù)中心,完成了數(shù)據(jù)集中。但因?yàn)槿狈ο冗M(jìn)有效的技術(shù)手段對(duì)多源異構(gòu)的數(shù)據(jù)進(jìn)行智能分析挖掘,只能大量依靠專(zhuān)家經(jīng)驗(yàn)和人工投入進(jìn)行數(shù)據(jù)分析處理,成本高且效果有限,難以支撐行業(yè)用戶(hù)體驗(yàn)提升、業(yè)務(wù)流程改善和科學(xué)決策需求,實(shí)現(xiàn)從信息化、數(shù)據(jù)化向智慧化轉(zhuǎn)換。

 

2、產(chǎn)品定義

 

海泰數(shù)據(jù)內(nèi)容智能分析平臺(tái)(HT-DIP)是一款基于深度學(xué)習(xí)、自然語(yǔ)言處理、預(yù)訓(xùn)練等人工智能技術(shù),融合行業(yè)經(jīng)驗(yàn)和知識(shí),面向各類(lèi)政企用戶(hù)提供內(nèi)容分析、智能數(shù)據(jù)治理、流程智能化服務(wù)的軟件平臺(tái)。

 

3、系統(tǒng)架構(gòu)

 

HT-DIP包括語(yǔ)義智慧語(yǔ)義學(xué)習(xí)系統(tǒng)、智慧語(yǔ)義能力庫(kù)、智慧語(yǔ)義服務(wù)引擎三個(gè)子系統(tǒng)。智慧語(yǔ)義學(xué)習(xí)系統(tǒng)用于行業(yè)數(shù)據(jù)管理和行業(yè)模型訓(xùn)練、評(píng)測(cè)與發(fā)布,生成語(yǔ)義能力,形成語(yǔ)義能力庫(kù)。智慧語(yǔ)義服務(wù)引擎通過(guò)集成語(yǔ)義能力庫(kù),與客戶(hù)應(yīng)用系統(tǒng)對(duì)接,提供內(nèi)容智能分析服務(wù)和業(yè)務(wù)流程智能化服務(wù)。智慧語(yǔ)義能力庫(kù)包括預(yù)置語(yǔ)義服務(wù)能力和自主訓(xùn)練產(chǎn)生的行業(yè)語(yǔ)義服務(wù)能力兩部分。

 

圖:海泰方圓數(shù)據(jù)內(nèi)容智能分析平臺(tái)架構(gòu)

 

4、智慧語(yǔ)義能力庫(kù)能力

 

  • 系統(tǒng)預(yù)置語(yǔ)義服務(wù)能力

 

包括詞法分析、句法分析、詞向量、句向量、內(nèi)容糾錯(cuò)、摘要生成、信息檢索等系列基礎(chǔ)語(yǔ)義服務(wù)能力。

 

  • 用戶(hù)訓(xùn)練語(yǔ)義服務(wù)能力

 

用戶(hù)可利用行業(yè)數(shù)據(jù),訓(xùn)練、評(píng)測(cè)、發(fā)布、部署行業(yè)專(zhuān)用的AI模型,生成用戶(hù)自定義的語(yǔ)義服務(wù)能力,包括分類(lèi)、查重、相似、實(shí)體、關(guān)系抽取服務(wù)。

 

5、產(chǎn)品特色

 

  • 基于國(guó)密技術(shù)的模型安全

 

平臺(tái)基于國(guó)密技術(shù)保護(hù)行業(yè)AI算法模型服務(wù)和應(yīng)用數(shù)據(jù)的安全。

 

  • 零門(mén)檻模型定制能力

 

平臺(tái)屏蔽底層計(jì)算資源、深度學(xué)習(xí)框架,用戶(hù)可以根據(jù)業(yè)務(wù)需求完成建模和訓(xùn)練,零代碼開(kāi)發(fā),無(wú)需關(guān)心底層技術(shù)。

 

  • 深度行業(yè)融合、成熟可靠的AI技術(shù)

 

平臺(tái)已經(jīng)在相關(guān)行業(yè)進(jìn)行規(guī)模商用部署,融合深度學(xué)習(xí)、自然語(yǔ)言處理、預(yù)訓(xùn)練等AI技術(shù)和行業(yè)專(zhuān)家經(jīng)驗(yàn),利用行業(yè)數(shù)據(jù)構(gòu)建AI算法模型,為用戶(hù)提供穩(wěn)定可靠的智慧化服務(wù)。

 

  • 靈活廣泛的部署適配能力

 

平臺(tái)支持在信創(chuàng)環(huán)境和常規(guī)X86環(huán)境下部署,提供人工智能內(nèi)容分析服務(wù)和業(yè)務(wù)流程智能化能力。

 

  • 智能服務(wù)全程可視化

 

平臺(tái)為用戶(hù)提供可見(jiàn)的數(shù)據(jù)質(zhì)量、可視化的模型訓(xùn)練過(guò)程、直觀的模型語(yǔ)義能力、可量化的模型應(yīng)用效果。

 

6、典型應(yīng)用場(chǎng)景

 

HT-DIP的典型應(yīng)用場(chǎng)景包括提供智能咨詢(xún)、智能審批、科學(xué)決策服務(wù)的智慧政務(wù)場(chǎng)景;提供案件推理、法務(wù)助手服務(wù)的智能法務(wù)場(chǎng)景;提供學(xué)習(xí)效果評(píng)估、個(gè)性化推薦、教學(xué)評(píng)測(cè)服務(wù)的智慧教育場(chǎng)景;提供報(bào)告審核、智能客服服務(wù)的金融風(fēng)控等場(chǎng)景。HT-DIP可應(yīng)用于智慧數(shù)據(jù)治理的標(biāo)準(zhǔn)構(gòu)建、數(shù)據(jù)采集、價(jià)值數(shù)據(jù)挖掘、敏感數(shù)據(jù)過(guò)濾、精準(zhǔn)數(shù)據(jù)服務(wù)等環(huán)節(jié),利用人工智能技術(shù)實(shí)現(xiàn)業(yè)務(wù)流程智慧化,充分釋放業(yè)務(wù)數(shù)據(jù)的社會(huì)價(jià)值。

 

在標(biāo)準(zhǔn)構(gòu)建階段,平臺(tái)利用指標(biāo)建模、編碼去重、數(shù)據(jù)模型分類(lèi)等方法實(shí)現(xiàn)標(biāo)準(zhǔn)構(gòu)建方法提升。在數(shù)據(jù)采集階段,通過(guò)模型將業(yè)務(wù)經(jīng)驗(yàn)轉(zhuǎn)換為模型策略,智能捕獲有潛在價(jià)值數(shù)據(jù)。在核心數(shù)據(jù)識(shí)別階段,通過(guò)樣本數(shù)據(jù)建模業(yè)務(wù)模型,一方面擴(kuò)展領(lǐng)域知識(shí)庫(kù),一方面從海量數(shù)據(jù)中識(shí)別核心數(shù)據(jù)資產(chǎn)。在價(jià)值數(shù)據(jù)挖掘階段,平臺(tái)不僅能通過(guò)文本向量化、分類(lèi)打標(biāo)、信息抽取等手段,形成價(jià)值數(shù)據(jù)資產(chǎn)。平臺(tái)還能對(duì)多源異構(gòu)數(shù)據(jù)進(jìn)行融合分析,實(shí)現(xiàn)業(yè)務(wù)流程智能化。在敏感數(shù)據(jù)過(guò)濾階段,平臺(tái)可以識(shí)別和篩選潛在違規(guī)的風(fēng)險(xiǎn)數(shù)據(jù)實(shí)現(xiàn)分類(lèi)分級(jí)。在數(shù)據(jù)開(kāi)放服務(wù)階段,平臺(tái)通過(guò)對(duì)用戶(hù)和數(shù)據(jù)的雙向建模,既能理解用戶(hù)查詢(xún)內(nèi)容,獲取用戶(hù)需要的信息,還能根據(jù)用戶(hù)行為,主動(dòng)推薦用戶(hù)可能感興趣的內(nèi)容。

 

HT-DIP已經(jīng)在行業(yè)大規(guī)模部署應(yīng)用。以某政務(wù)用戶(hù)應(yīng)用為例,HT-DIP利用用戶(hù)數(shù)據(jù)訓(xùn)練生成專(zhuān)用的算法模型,融合業(yè)務(wù)應(yīng)用,實(shí)時(shí)接入用戶(hù)數(shù)據(jù)進(jìn)行內(nèi)容分析挖掘,為終端用戶(hù)提供內(nèi)容檢查、摘要生成、信息檢索等精準(zhǔn)數(shù)據(jù)服務(wù),為工作人員提供信息抽取、文獻(xiàn)智能分類(lèi)、敏感性過(guò)濾、內(nèi)容查重、智能審批等流程智能化服務(wù),為主管領(lǐng)導(dǎo)提供價(jià)值數(shù)據(jù)挖掘、總結(jié)性結(jié)論生成等科學(xué)決策服務(wù)。

 

售后在線(xiàn)客服

售前咨詢(xún)
010-59790009轉(zhuǎn)8055

售后服務(wù)
400-109-9696