希嘉線上技術(shù)沙龍已經(jīng)舉辦了多期,在主題報告之外,我們每期也會在線解答老師們關(guān)注的數(shù)據(jù)治理相關(guān)問題。現(xiàn)將2020年4月2日“高校數(shù)據(jù)治理項目中對傳統(tǒng)共享庫的改造實踐”一期的精彩問答記錄如下,供大家交流。
?
問 題 一
我們現(xiàn)在講的是共享庫的改造,學(xué)校之前還沒有建數(shù)據(jù)平臺,目前建設(shè)上有沒有什么合理的建議呢?
?
1)?? 首先,數(shù)據(jù)平臺可以單獨立項建設(shè),而且是可以先于信息系統(tǒng)建設(shè)的;
?
2)?? 其次,數(shù)據(jù)平臺先于大量MIS系統(tǒng)上線應(yīng)該說治理阻力更小,對數(shù)據(jù)管理、質(zhì)量提升反而是好事;
?
3)?? 對于之前沒有數(shù)據(jù)平臺的學(xué)校,建議采用標(biāo)準(zhǔn)先行、統(tǒng)一要求建設(shè)、逐步接入管理、優(yōu)化迭代的步驟進(jìn)行;
?
4)?? 標(biāo)準(zhǔn)先行,即在大量MIS系統(tǒng)未建設(shè)時,通過已有部分MIS系統(tǒng)或線下數(shù)據(jù)的整理,結(jié)合學(xué)校業(yè)務(wù)開展特點,先行建設(shè)數(shù)據(jù)標(biāo)準(zhǔn),定義校級平臺所需元數(shù)據(jù)標(biāo)準(zhǔn)、代碼表標(biāo)準(zhǔn)和編碼標(biāo)準(zhǔn),后期MIS建設(shè)中統(tǒng)一使用該套標(biāo)準(zhǔn);
?
5)?? 統(tǒng)一要求建設(shè),即對信息化建設(shè)過程中的各環(huán)節(jié)提出具體要求。如項目立項階段規(guī)定數(shù)據(jù)所有權(quán)屬學(xué)校,建設(shè)過程中需對數(shù)據(jù)質(zhì)量進(jìn)行驗證,涉及校級代碼和編碼的必須使用校級平臺統(tǒng)一數(shù)據(jù),建設(shè)完成后必須提供數(shù)據(jù)庫管理員賬號、數(shù)據(jù)字段、配合學(xué)校進(jìn)行數(shù)據(jù)接入等;
?
6)?? 逐步接入管理,即根據(jù)MIS系統(tǒng)建設(shè)進(jìn)度,建設(shè)一個接入一個,并在數(shù)據(jù)平臺上對該批數(shù)據(jù)權(quán)責(zé)、數(shù)據(jù)質(zhì)量檢測規(guī)則、數(shù)據(jù)交換關(guān)系等進(jìn)行管理配置,將數(shù)據(jù)一批一批的逐步完善和管理起來;
?
7)?? 優(yōu)化迭代,即隨著MIS數(shù)據(jù)接入越來越多,首先通過管理行為,發(fā)現(xiàn)質(zhì)量問題溯源修正,逐步提升數(shù)據(jù)質(zhì)量。其次通過數(shù)據(jù)樣本的增加,修正之前因MIS系統(tǒng)少數(shù)標(biāo)準(zhǔn)考慮不周的情況。再次,通過長時間的治理行為,積累管理流程和經(jīng)驗,從管理方法上優(yōu)化;
?
總體來說,沒有MIS系統(tǒng)或建設(shè)較少的情況,從信息化建設(shè)初期即進(jìn)行相應(yīng)規(guī)范,先行建設(shè)數(shù)據(jù)平臺,反而數(shù)據(jù)治理面臨的配合困難和管理阻力更小,可以實現(xiàn)后發(fā)先至、彎道超車的效果。
?
?
問 題 二
信息化處為了增加對數(shù)據(jù)庫的管控能力,全校就一套數(shù)據(jù)庫,這種方案可行嗎?
高校教師是否需要對不同的數(shù)據(jù)庫有比較深入的了解?
這套模式(你們碰到)使用的高校多嗎?
API開放平臺使用是不是很方便,可以快速從數(shù)據(jù)庫構(gòu)建API接口?
就數(shù)據(jù)共享方式而言,過去數(shù)據(jù)表的共享效率相對較高,API方式則更安全,但在共享數(shù)據(jù)量較多的情況下效率較低,如何解決?
?
?
1) 當(dāng)前高校普遍面臨數(shù)據(jù)安全、數(shù)據(jù)分散、數(shù)據(jù)運(yùn)維的困難,業(yè)務(wù)系統(tǒng)建設(shè)時是分散的,而且更加偏重軟件功能的實現(xiàn)而忽略了備份、安全方面的問題。因此,在當(dāng)前數(shù)據(jù)安全、數(shù)據(jù)利用更加頻繁的時代,使用“數(shù)據(jù)一個庫”的方式更加便于統(tǒng)一管理和運(yùn)維,但相應(yīng)帶來了集中的風(fēng)險。如一個數(shù)據(jù)庫的操作不規(guī)范引起宕機(jī),可能影響其他系統(tǒng)數(shù)據(jù)庫的運(yùn)行。所以推薦的方式是:信息中心建立統(tǒng)一的數(shù)據(jù)中心平臺,也可以是虛擬化,提供不同種類、版本的數(shù)據(jù)庫服務(wù)器資源,由信息中心統(tǒng)一分配數(shù)據(jù)庫資源并承擔(dān)數(shù)據(jù)庫運(yùn)維工作(分配、優(yōu)化、備份、巡檢),業(yè)務(wù)系統(tǒng)廠商只對自己的數(shù)據(jù)庫有DDL和DML權(quán)限,而無管理員權(quán)限。這樣整體數(shù)據(jù)庫環(huán)境在信息中心的統(tǒng)一管理之下,數(shù)據(jù)的協(xié)調(diào)不存在問題,業(yè)務(wù)系統(tǒng)互相之間獨立互不影響。所以我們推薦的方式是:“數(shù)據(jù)一個庫”,但不是一個物理庫,而是一個大的數(shù)據(jù)中心,信息中心整體分配、運(yùn)維,廠商各自使用自己的數(shù)據(jù)庫。
?
2) 這種情況對于高校老師的數(shù)據(jù)庫運(yùn)維能力確實要求較高,需要熟悉不同數(shù)據(jù)庫的部署、運(yùn)維操作、架構(gòu)等。不過,通過數(shù)據(jù)庫整體運(yùn)維,數(shù)據(jù)收集、廠商協(xié)調(diào)的瓶頸將不復(fù)存在。整體運(yùn)維的技術(shù)門檻,參考金融、證券行業(yè),可以委托專業(yè)的數(shù)據(jù)庫運(yùn)維廠商以年度為服務(wù)周期,定期、定次對數(shù)據(jù)中心全部數(shù)據(jù)庫進(jìn)行備份檢查、巡檢、調(diào)優(yōu)、配合遷移等。無論是投入精力還是協(xié)調(diào)數(shù)據(jù)所需的接口費(fèi)用,整體運(yùn)維服務(wù)外包的投入要低得多。
?
3) 目前還比較少,因為高校信息化建設(shè)是分階段、分廠商獨立建設(shè)的,當(dāng)時也沒有現(xiàn)在數(shù)據(jù)時代對數(shù)據(jù)資源這么重視,主要還是分散建設(shè)的,沒有項目驅(qū)動也不可能有大規(guī)模的遷移動作。但這是一個趨勢,也是一種好的管理方式,可以朝著這個方向努力。
?
4) 數(shù)據(jù)開放平臺操作較之ESB這類重型的業(yè)務(wù)總線相對簡單得多,數(shù)據(jù)API封裝流程10分鐘可以學(xué)會,基于軟件的操作一個接口2分鐘就可以完成。
?
5)?數(shù)據(jù)API的使用也是需要分場景的。在高校傳統(tǒng)的數(shù)據(jù)共享場景,使用數(shù)據(jù)API在絕大部分場景是沒有問題的,因為共享的數(shù)據(jù)體量不大,即使是廠商提出要求要大批量數(shù)據(jù),也是可以通過業(yè)務(wù)優(yōu)化,如:增加篩選條件、優(yōu)化業(yè)務(wù)需求邏輯,來減少共享的數(shù)據(jù)體量。對于必要的大批量數(shù)據(jù)供給場景,可以在平臺中通過開放數(shù)據(jù)庫鏈接讓其自助獲取,因為數(shù)據(jù)庫底層為ADG方案,其獲取的是備庫數(shù)據(jù),不可修改,解決大批量數(shù)據(jù)的共享問題,同時保障數(shù)據(jù)安全,實現(xiàn)可管理的目標(biāo)。
?
?
問 題 三
我們經(jīng)常聽說主數(shù)據(jù)平臺和大數(shù)據(jù)平臺,希嘉數(shù)據(jù)產(chǎn)品體系來講,是一套東西,還是分開不同的?
?
?
1)?? 這兩個詞匯是在不同分類下的概念術(shù)語。主數(shù)據(jù)是根據(jù)數(shù)據(jù)分類,將數(shù)據(jù)分為業(yè)務(wù)數(shù)據(jù)、主數(shù)據(jù)、元數(shù)據(jù)這些,而主數(shù)據(jù)專指在不同業(yè)務(wù)系統(tǒng)之間均需用到的這一部分?jǐn)?shù)據(jù),如單位表、人員表、客戶表、產(chǎn)品表這些。而大數(shù)據(jù)平臺則是指有基于傳統(tǒng)關(guān)系型數(shù)據(jù)倉庫概念,結(jié)合近些年來Hadoop生態(tài),進(jìn)化出的一類可以完成不同類型、體量的數(shù)據(jù)存儲、交換、批量/實時性計算的一套綜合平臺;
?
2)?? 主數(shù)據(jù)平臺側(cè)重于主數(shù)據(jù)在組織內(nèi)部的統(tǒng)一和交換,而大數(shù)據(jù)平臺則側(cè)重于大規(guī)模批量計算分析、算法挖掘、實時流數(shù)據(jù)供給等;
?
3)?? 在高校行業(yè),希嘉提供的是一套基于關(guān)系型數(shù)據(jù)庫與Hadoop平臺混合物理實現(xiàn)的大數(shù)據(jù)平臺,主數(shù)據(jù)是其中的一部分。除了主數(shù)據(jù),這一套大數(shù)據(jù)平臺還有全量集成的業(yè)務(wù)系統(tǒng)其他業(yè)務(wù)數(shù)據(jù),以及校內(nèi)大體量的認(rèn)證、防火墻、網(wǎng)絡(luò)等日志數(shù)據(jù),還有基于治理過程中產(chǎn)生的數(shù)據(jù)全責(zé)、數(shù)據(jù)結(jié)構(gòu)、映射關(guān)系、質(zhì)量問題等業(yè)務(wù)或技術(shù)元數(shù)據(jù);
?
4)?? 所以,大數(shù)據(jù)平臺包含主數(shù)據(jù),主數(shù)據(jù)是大數(shù)據(jù)平臺的組成部分。
?
?
問 題 四
治理總是階段性的,治理完成之后怎么能維持戰(zhàn)果?
?
?
1)?? 階段性的數(shù)據(jù)治理項目完成后,需要從兩個方面維持戰(zhàn)果:一方面是數(shù)據(jù)管理技術(shù)體系的持續(xù)使用和維護(hù),一方面是管理體系的形成和執(zhí)行;
?
2)?? 數(shù)據(jù)管理技術(shù)體系使用和維護(hù),依賴于校方老師掌握并基于數(shù)據(jù)管理相關(guān)軟件工具,持續(xù)的使用其進(jìn)行數(shù)據(jù)的集成、開發(fā)和管理工作,重要性為30%。希嘉的數(shù)據(jù)中臺產(chǎn)品定位是高教行業(yè)數(shù)據(jù)治理產(chǎn)品,希望交付給客戶能夠自主使用和管理數(shù)據(jù)的工具和能力。因此,產(chǎn)品在設(shè)計之初就考慮使用門檻的問題。如希嘉統(tǒng)一數(shù)據(jù)集成管道均基于可視化界面進(jìn)行接口配置,少了重型ETL工具的概念層、模型層,所見即所得,省去理解操作困難。希嘉統(tǒng)一數(shù)據(jù)開放平臺產(chǎn)品發(fā)布API,根據(jù)產(chǎn)品文檔基于軟件界面2分鐘即可配置一個數(shù)據(jù)API,供數(shù)據(jù)使用者申請調(diào)用;
?
3)???管理體系的形成和執(zhí)行,則需要在治理過程中總結(jié)數(shù)據(jù)治理的主要困難,對這些困難制定校級的管理制度、流程和技術(shù)規(guī)范,這樣在下階段的治理工作中就有法可依、有章可循,我們稱之為數(shù)據(jù)治理的長效機(jī)制,重要性為70%。例如,當(dāng)前治理的主要困難是數(shù)據(jù)收不上來、質(zhì)量問題很大,針對該情況,需要結(jié)合當(dāng)期治理工具體系、流程,在制度層面進(jìn)行規(guī)范:數(shù)據(jù)屬于學(xué)校,業(yè)務(wù)系統(tǒng)廠商需無條件開放數(shù)據(jù)庫賬號,并對數(shù)據(jù)權(quán)屬進(jìn)行明確定義。數(shù)據(jù)質(zhì)量問題經(jīng)治理過程中發(fā)現(xiàn),那么相應(yīng)的要有數(shù)據(jù)質(zhì)量問題反饋、修正、重新接入等標(biāo)準(zhǔn)工作流程定義。
?
?
問 題 五
ODI是指Oracle的ODI還是希嘉自己的產(chǎn)品?
數(shù)據(jù)治理是應(yīng)在什么情況下(或階段)開始治理?
?
?
1)?? ODI指的就是Oracle Data Integrator(ODI)產(chǎn)品;
?
2)???數(shù)據(jù)治理在任何情況下都可以進(jìn)行,在MIS系統(tǒng)相對較少或基本沒有的情況,可以采用標(biāo)準(zhǔn)先行的方案,在MIS系統(tǒng)建設(shè)之前即對數(shù)據(jù)標(biāo)準(zhǔn)進(jìn)行統(tǒng)一的校級規(guī)定,規(guī)范信息化建設(shè)過程,從數(shù)據(jù)產(chǎn)生開始就規(guī)范數(shù)據(jù)的質(zhì)量要求,甚至是在有些數(shù)據(jù)還處于線下管理時,倒逼業(yè)務(wù)部門進(jìn)行信息化建設(shè)。在系統(tǒng)較多,且存在標(biāo)準(zhǔn)不一、質(zhì)量不高、共享效率低下等問題時,數(shù)據(jù)治理更加宜早不宜遲。越早治理,則面臨的改動風(fēng)險越小、校內(nèi)各方協(xié)同效率越高。
?
?
問 題 六
中臺產(chǎn)品對實時數(shù)據(jù)和非實時數(shù)據(jù)的計算分別采取哪種計算模式?效率如何?我了解到現(xiàn)在很多大數(shù)據(jù)的框架都提供流式計算的能力,不知道希嘉平臺有沒有提供這方面的能力?在學(xué)校場景里,實時數(shù)據(jù)要求場景雖不是很多,但我們在建設(shè)過程中也遇到過,怎么保證數(shù)據(jù)的實時性和準(zhǔn)確性?達(dá)到的實時性是秒級還是豪秒級?
?
?
1) 分為兩個場景:實時和非實時數(shù)據(jù)共享交換場景,實時和非實時共享計算場景;
?
2) 實時和非實時數(shù)據(jù)共享交換場景:對于其中的非實時場景,一般基于共享庫提供API或者ETL推送方式;對于實施共享交換場景,交換共享的目標(biāo)是業(yè)務(wù)通過數(shù)據(jù)聯(lián)動實現(xiàn)某個業(yè)務(wù)的開展,即業(yè)務(wù)層交互。這種場景首選是ESB或SOA架構(gòu)在兩個業(yè)務(wù)系統(tǒng)間通過消息通訊實現(xiàn)業(yè)務(wù)交互。這種技術(shù)在高校中的使用并不是很廣泛,尤其是高校各個廠商之間缺乏統(tǒng)一的業(yè)務(wù)交換標(biāo)準(zhǔn)和規(guī)范,所以導(dǎo)致業(yè)務(wù)集成上面有一定的困難,因此退一步進(jìn)行實時性數(shù)據(jù)集成,其中一種方式就是使用開放平臺直接封裝源頭數(shù)據(jù)庫實現(xiàn)數(shù)據(jù)實時供給。這種方式與原來ETL過程相比,都是點對點的交換共享,但有幾個區(qū)別:1.實時性更高;2.數(shù)據(jù)源數(shù)據(jù)通過開放平臺封裝,所有申請審核和使用的記錄在平臺上是有記錄的可管理。還有一些技術(shù)手段,如ODI的CDC同步、OGG等。
?
3) 實時和非實時共享計算場景:這種要求在我們的架構(gòu)中也有體現(xiàn)。我們的數(shù)據(jù)底層平臺是關(guān)系型數(shù)據(jù)庫與Hadoop平臺實現(xiàn)的,因此對于實時和非實時的計算場景,我們可以基于 Flume + Kafka 對數(shù)據(jù)進(jìn)行采集,使用Spark Streaming流計算或者HIVE之類的離線批量計算組件實現(xiàn)計算,這方面在希嘉的一些應(yīng)用產(chǎn)品,如校園公共安全中有較為具體的落地方案;
?
4)?因為數(shù)據(jù)產(chǎn)生的頻率、計算分析過程的原因,目前應(yīng)該是十秒級。
?
?
問 題 七
希嘉的數(shù)據(jù)湖和傳統(tǒng)的ODS有什么區(qū)別?
?
?
不嚴(yán)格區(qū)分的話,數(shù)據(jù)湖就是傳統(tǒng)的ODS,設(shè)置數(shù)據(jù)湖或者ODS的目的是盡量減小對業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫的性能壓力。嚴(yán)格區(qū)分的話,傳統(tǒng)ODS是將需要繼承的數(shù)據(jù),“脈沖式”的采集到ODS,而希嘉的數(shù)據(jù)湖概念是,將業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫中用不著的一些臨時表、備份表、系統(tǒng)表等過濾掉,把帶有業(yè)務(wù)屬性的數(shù)據(jù)全量抽取過來,集中到一個數(shù)據(jù)湖中,并添加對應(yīng)注釋,以便后期需要使用時能夠識別、找到對應(yīng)數(shù)據(jù)。
?
?
問 題 八
能不能介紹一下文檔型數(shù)據(jù)的管理和使用經(jīng)驗?
?
?
1) 我們的體系中有一個數(shù)據(jù)填報工具,用來處理線下的Excel表格的數(shù)據(jù)形態(tài)。因為高校的確有很多數(shù)據(jù)都在線下,所以這個數(shù)據(jù)我們是不能忽略的,需要把這部分?jǐn)?shù)據(jù)集成到數(shù)據(jù)平臺中;
?
2) 填報工具能夠批量建表,可以使用Excel一次性定義很多表結(jié)構(gòu),實現(xiàn)批量建表;
?
3) 能夠批量導(dǎo)入數(shù)據(jù)的同時,進(jìn)行初步的數(shù)據(jù)質(zhì)量問題過濾。比如,有一個字段是性別,這個性別本身存的是男/女,Excel表填寫得很自由,如果多一個空格,那么在計算機(jī)嚴(yán)格的字符匹配函數(shù)中,多一個空格的數(shù)據(jù)與沒有空格的數(shù)據(jù)就是兩個字符串,在關(guān)聯(lián)查詢時會引起數(shù)據(jù)匹配問題;
?
4) 填報工具能夠?qū)崿F(xiàn)權(quán)限管控。對于不同用戶設(shè)置不同權(quán)限,比如某一個用戶只能查看數(shù)據(jù),另外一個用戶可以修改數(shù)據(jù)結(jié)構(gòu),還有一個用戶可以修改表中某幾個字段,再有一個用戶可以修改表中的另外幾個字段,用這樣的方式可以實現(xiàn)數(shù)據(jù)線上化的編輯和修改,保障數(shù)據(jù)安全;
?
5) 總結(jié)來說,一些線下的數(shù)據(jù),例如當(dāng)前校內(nèi)的臨時人員,并不在人事管理系統(tǒng)中管理,那么通過填報工具,可以實現(xiàn)對這部分?jǐn)?shù)據(jù)的采集和入庫。
?