新聞中心
專業(yè)的數(shù)據(jù)管理基礎設施及服務供應商
何江:以客戶場景為驅動,前瞻性架構布局撬動數(shù)據(jù)潛能
發(fā)布日期:
2024-06-28

隨著數(shù)據(jù)量呈爆炸式增長,如何高效管理和利用這些數(shù)據(jù)成為決策支持的關鍵。數(shù)據(jù)倉庫作為數(shù)據(jù)存儲、處理和分析的核心,其重要性日益凸顯。而數(shù)據(jù)倉庫的分層建設,則是提升數(shù)據(jù)倉庫效能、優(yōu)化數(shù)據(jù)處理流程的重要保障。本期對話希嘉資深數(shù)據(jù)專家何江先生,全面介紹希嘉對于數(shù)據(jù)倉庫的理解,以及希嘉數(shù)據(jù)資源中心數(shù)據(jù)架構如何以前瞻性架構布局,幫助客戶撬動數(shù)據(jù)潛能,最大化數(shù)據(jù)價值。


何江:以客戶場景為驅動,前瞻性架構布局撬動數(shù)據(jù)潛能


希嘉資深數(shù)據(jù)專家何江在數(shù)據(jù)倉庫架構建設、數(shù)據(jù)治理等方面有著豐富的經(jīng)驗,對于技術發(fā)展路線以及數(shù)據(jù)倉庫的未來發(fā)展有著深刻認知,是希嘉數(shù)據(jù)資源中心數(shù)據(jù)架構的主要設計者。





Q:希嘉對于數(shù)據(jù)倉庫和數(shù)據(jù)分層是怎么理解的?

希嘉認為面對數(shù)字時代的海量數(shù)據(jù)和智能化、自主可控的需求,數(shù)據(jù)倉庫作為數(shù)據(jù)“落地”的業(yè)務場景,是實現(xiàn)決策支持的關鍵技術環(huán)節(jié)。


在說數(shù)據(jù)倉庫之前,先給大家簡單講講數(shù)據(jù)價值在哪?數(shù)據(jù)之所以存在價值,就是想數(shù)據(jù)作為生產(chǎn)要素體現(xiàn)資產(chǎn)價值,這需要對日常業(yè)務記錄的各類數(shù)據(jù)信息進行聚合分析,通過形而上學哲學思維,透過現(xiàn)象找到業(yè)務本質(zhì)的規(guī)律、問題。從而更加有針對性、精準性調(diào)整政策策略,實現(xiàn)業(yè)務精進優(yōu)化。那么如何能讓我們高效、迅速、準確的找到我們想要的數(shù)據(jù),并快速實現(xiàn)聚合分析呢?基于這個目的,數(shù)據(jù)倉庫概念應運而生。數(shù)據(jù)倉庫既可以存儲積累海量的業(yè)務數(shù)據(jù),又可以通過合理數(shù)據(jù)分層架構和優(yōu)異計算查詢性能,從而實現(xiàn)高效、迅速、準確的數(shù)據(jù)聚合分析。


那么數(shù)倉分層又是什么呢?概念上是傳統(tǒng)管理學中分層次管理。舉個例子,項目、事情、生產(chǎn)商品都需要把一個整體拆分成幾個步驟分步來實現(xiàn),數(shù)據(jù)分析也是同樣的道理。數(shù)據(jù)在這個過程中會有不同的形態(tài)和存儲結構,從中找到幾個關鍵形態(tài)和結構切分步驟就成了數(shù)據(jù)倉庫分層雛形。正如工廠產(chǎn)品,有分層的模塊化生產(chǎn)能快速大量生產(chǎn)一樣,數(shù)據(jù)倉庫有分層存儲管理也可以同樣實現(xiàn)高效、迅速、準確的數(shù)據(jù)應用產(chǎn)品生產(chǎn)。


希嘉基于數(shù)據(jù)倉庫分層概念,推出具備6大特性數(shù)據(jù)倉庫產(chǎn)品:


數(shù)據(jù)結構清晰化:每一個數(shù)據(jù)分層都有它的作用域,在使用表的時候能更方便地定位和理解。


數(shù)據(jù)關系條理化:源系統(tǒng)間存在復雜數(shù)據(jù)關系,當同時存在多個系統(tǒng)時,如何取數(shù)決策成為關鍵。對相同主題的數(shù)據(jù)進行統(tǒng)一建模,把復雜的數(shù)據(jù)關系梳理成條理清晰的數(shù)據(jù)模型,避免上述問題。


數(shù)據(jù)血緣白盒化:簡單理解就是我們最終給業(yè)務呈現(xiàn)的是能直接使用的業(yè)務表,但是它的來源有很多,如果有一張來源表出問題,我們能夠快速準確地定位到問題,清楚它的危害范圍,并加以改正。


數(shù)據(jù)復用最大化:以規(guī)范數(shù)據(jù)的分層,滿足不同使用場景和數(shù)據(jù)粒度需求,極大減少重復計算。通過匯總層的引入,避免了下游邏輯的重復計算,節(jié)省了開發(fā)時間和精力,減少了不必要的數(shù)據(jù)冗余,實現(xiàn)計算結果復用,存儲和計算成本降低。


數(shù)據(jù)處理簡單化:將復雜任務分解成多個步驟來完成,每層只處理單一步驟,保障數(shù)據(jù)的準確性,在數(shù)據(jù)出現(xiàn)問題后,也只需從有問題的步驟開始修復。對于使用者而言,將數(shù)據(jù)按照層次結構組織可以優(yōu)化查詢路徑,減少數(shù)據(jù)掃描和查詢時間,提高查詢性能。


業(yè)務影響最小化:當源業(yè)務系統(tǒng)的業(yè)務規(guī)則發(fā)生變化時,只需調(diào)整相應層次的數(shù)據(jù)處理邏輯,而無需對整個數(shù)據(jù)倉庫進行重構,降低維護成本,提高數(shù)據(jù)穩(wěn)定性和連續(xù)性,加強數(shù)據(jù)倉庫的可擴展性。


數(shù)智化時代,數(shù)據(jù)倉庫作為最核心、挑戰(zhàn)最大的技術環(huán)節(jié)之一,希嘉堅持“前瞻性架構布局、以客戶場景為驅動”,在架構設計上,采用存-算-管分離架構,幫助客戶更好撬動數(shù)據(jù)潛能,最大化數(shù)據(jù)價值;在數(shù)據(jù)服務上,實現(xiàn)與應用場景的深度融合,實現(xiàn)智能預測、智能決策等數(shù)據(jù)分析智能化。



Q:當前教育數(shù)字化轉型在數(shù)據(jù)倉庫方面更加關注什么?

國家政策層面有關數(shù)據(jù)的立法與政策支持層出不窮,從《數(shù)據(jù)安全法》到《數(shù)字中國建設整體布局規(guī)劃》,涉及數(shù)據(jù)基礎設施建設、數(shù)據(jù)分析、數(shù)據(jù)安全、數(shù)據(jù)確權等各個方面。事實上,教育數(shù)字化轉型已經(jīng)步入到2.0時代,各大高校希望通過行之有效的方式治理數(shù)據(jù),幫助自身在降本增效的前提下創(chuàng)造新的價值,這將是高校業(yè)務創(chuàng)新的源泉,也是數(shù)據(jù)時代里的核心競爭力。


隨著數(shù)據(jù)規(guī)模的爆炸式增長、數(shù)據(jù)來源和數(shù)據(jù)類型的多元化,數(shù)據(jù)分析、數(shù)據(jù)挖掘的內(nèi)涵也在不斷深化。與之相伴的,高校在數(shù)據(jù)倉庫建設上新增了兩大關注點:高并發(fā)海量數(shù)據(jù)處理和數(shù)據(jù)實時計算。


一方面,由于數(shù)據(jù)量的增長和數(shù)據(jù)源的多樣化,數(shù)據(jù)倉庫的彈性擴容和兼容多種數(shù)據(jù)類型的能力就尤為重要。傳統(tǒng)數(shù)據(jù)倉庫往往采用軟硬件結合的一體機模式,擴容成本高,能夠處理的數(shù)據(jù)結構相對單一,因此對高并發(fā)海量數(shù)據(jù)處理顯得“力不從心”。這就要求數(shù)據(jù)倉庫有著合理優(yōu)秀的架構支持高并發(fā)查詢場景和高吞吐量復雜分析場景,為業(yè)務提供高效的數(shù)據(jù)支持和洞察。


另一方面,數(shù)據(jù)倉庫需要支持不斷涌現(xiàn)的新場景下的用戶需求和針對這些新場景產(chǎn)生的數(shù)據(jù)分析新要求,即不僅需要提供“絲滑”的用戶體驗,還需要更加精準、快速的數(shù)據(jù)分析能力。這就要求數(shù)據(jù)分析從“事后”不斷前移,貼近數(shù)據(jù)產(chǎn)生的時間,最終滿足實時計算、實時推理決策。



Q:在現(xiàn)實落地層面,希嘉如何幫助高校以數(shù)據(jù)分層實現(xiàn)數(shù)字化高質(zhì)量發(fā)展?

數(shù)據(jù)倉庫在建設過程中,對數(shù)據(jù)的組織管理上,不僅要根據(jù)業(yè)務進行縱向的主題域劃分,還需要橫向的數(shù)倉分層規(guī)范。優(yōu)秀的分層設計是項目建設成功的核心要素,讓數(shù)據(jù)易理解和高復用是分層的核心目標。


希嘉結合多年的數(shù)據(jù)治理和數(shù)倉實施經(jīng)驗,綜合當前市場數(shù)字化轉型不斷深入的需求,提出了“做精核心數(shù)據(jù)倉庫,開展場景數(shù)據(jù)服務”新主張,推出了希嘉數(shù)據(jù)資源中心數(shù)據(jù)架構方案。該方案通過 ODS-DWD-DWS-ADS 的架構完成數(shù)據(jù)抽取、清洗、轉義、分類、重組、合并、拆分、統(tǒng)計等,使大數(shù)據(jù)得到高性能、低成本、高效率、高質(zhì)量的使用,為企業(yè)級客戶構建數(shù)字化新基座。


何江:以客戶場景為驅動,前瞻性架構布局撬動數(shù)據(jù)潛能


ODS(數(shù)據(jù)貼源層):存儲多個業(yè)務系統(tǒng)、前端埋點、爬蟲獲取等的一系列數(shù)據(jù)源的數(shù)據(jù)。希嘉認為,ODS層作為最基礎的一層同時也最重要,如同大廈地基,時刻影響著樓層的穩(wěn)定性。為此,希嘉以“應采盡采”為原則,保障結構化數(shù)據(jù)、非結構化數(shù)據(jù)的采入,最大限度的保存原始數(shù)據(jù),完成數(shù)據(jù)積存。


DWD(數(shù)據(jù)明細層):與原表保持同一粒度的基礎上根據(jù)業(yè)務過程對ODS層數(shù)據(jù)進行去除臟數(shù)據(jù),按照業(yè)務過程對表進行歸類和關聯(lián),經(jīng)過ETL得到與業(yè)務過程相對應的事實表。希嘉在DWD層以“一數(shù)一源”為原則,解析數(shù)據(jù)血緣、理清數(shù)據(jù)資產(chǎn),實現(xiàn)問題可追溯、漏洞可填補,實現(xiàn)數(shù)據(jù)從采集、治理、管理到最終發(fā)布的全過程白盒化。


DWS(數(shù)據(jù)服務層):把DWD層中的表根據(jù)事實按照更高維度進行上卷的聚合操作,得到在某一維度或者多個維度上的匯總數(shù)據(jù)或指標。在越來越深入的數(shù)據(jù)管理和服務項目中,希嘉發(fā)現(xiàn) ODS-DWD-ADS 數(shù)據(jù)倉庫架構在面對復雜的業(yè)務場景時,會出現(xiàn)計算資源混亂和浪費的問題,同時也是煙囪式開發(fā)的根源。希嘉針對復雜業(yè)務場景,以“數(shù)據(jù)共享”為原則,在增加的DWS層中抽象出一些通用的維度(例如用戶ID、性別、時間等),并根據(jù)這些維度進行統(tǒng)計,讓使用者查詢速度快、獲取數(shù)據(jù)易,使用起來更舒適。


ADS(數(shù)據(jù)應用層):存放數(shù)據(jù)產(chǎn)品個性化的統(tǒng)計指標數(shù)據(jù),報表數(shù)據(jù)。通常根據(jù)業(yè)務需求,提供數(shù)據(jù)產(chǎn)品和數(shù)據(jù)分析需使用的數(shù)據(jù)。希嘉在ADS層以“應用為王”為原則,為某一特定業(yè)務需求而建立,基于某一個特定主題或業(yè)務領域建模,滿足該領域的數(shù)據(jù)分析和查詢需求。


希嘉認為數(shù)倉分層的目的是讓數(shù)據(jù)更規(guī)范、更清晰、更易用,而不是為了分層而去分層,所以遵循因實制宜的準則,針對客戶實際需求,有選擇的、定制化的搭建數(shù)據(jù)資源中心數(shù)據(jù)架構,滿足客戶各類型的運用和分析需求,實現(xiàn)高效數(shù)字化轉型。


目前,希嘉數(shù)據(jù)資源中心數(shù)據(jù)架構方案已在多個高校中實踐,在某高校項目中,學校為了加快數(shù)據(jù)應用開發(fā)上線速度、提升數(shù)據(jù)中心數(shù)據(jù)利用效率、推進學校應用創(chuàng)新的工作進度,學校采用了希嘉提出的更適合在線數(shù)據(jù)分析應用的數(shù)據(jù)資源中心四層架構(ODS+DWD+DWS+ADS)來建設校級數(shù)據(jù)倉庫,以“管理+服務+決策”的創(chuàng)新化、協(xié)同化、服務化、智能化的智慧校園數(shù)智底座,實現(xiàn)各類業(yè)務線上化、管理單元全覆蓋,為師生提供集成化、個性化、智能化的信息和應用服務。


希嘉深知數(shù)據(jù)存儲并不是數(shù)倉建設的最終目的地,所以不斷探索和迭代數(shù)倉分層架構,旨在降低數(shù)據(jù)使用門檻,提高數(shù)據(jù)使用體驗,為企業(yè)級客戶提供易于操作管理的數(shù)字化新基座,幫助客戶更敏捷的創(chuàng)新業(yè)務,更準確的洞察業(yè)務,加速釋放數(shù)據(jù)價值。



Q:新一輪數(shù)字化轉型拉開帷幕,希嘉數(shù)據(jù)倉庫會向哪些方向發(fā)展?

“十三五”時期,我國大數(shù)據(jù)產(chǎn)業(yè)快速起步,產(chǎn)業(yè)發(fā)展取得顯著成效,《“十四五”大數(shù)據(jù)產(chǎn)業(yè)發(fā)展規(guī)劃》更是提到:到2025年,我國大數(shù)據(jù)產(chǎn)業(yè)規(guī)模預計將突破3萬億元。希嘉認為在數(shù)字化產(chǎn)業(yè)不斷升級迭代中,會對數(shù)據(jù)倉庫的易用性、性能等提出更高要求。希嘉將從業(yè)務需求和技術趨勢兩個方向出發(fā),以客戶為中心,以提升客戶滿意度為原則,尋求新突破。


業(yè)務需求:提高分析的實時性。隨著業(yè)務的發(fā)展和技術的進步,希嘉不再滿足于T+1的分析需求和固化的實時統(tǒng)計,更期望業(yè)務發(fā)生后秒級/分鐘級延遲即可看到統(tǒng)計結果;同時,功能上期望實現(xiàn)交互性探查分析數(shù)據(jù),毫秒/秒級返回結果保持良好的用戶體驗。


技術趨勢:融合統(tǒng)一是必經(jīng)之路。隨著業(yè)務需求的不斷增長,客戶對數(shù)據(jù)的實時性要求也越來越高,希嘉認為現(xiàn)代化數(shù)據(jù)倉庫需要具備高速的數(shù)據(jù)處理和分析能力,能夠實時響應和處理大規(guī)模數(shù)據(jù)流。同時,架構“減負”已成為發(fā)展的重要目標。因此,像融合數(shù)據(jù)庫、超融合數(shù)據(jù)庫、湖倉一體、流批一體等具有“融合統(tǒng)一”特征的數(shù)據(jù)庫開始涌現(xiàn)。


希嘉作為專業(yè)的數(shù)據(jù)管理基礎設施及服務供應商,致力于構建信息互通、資源共享、能力協(xié)同、開放合作、互利共贏的生態(tài)系統(tǒng)。相比于和廠商進行存量競爭,我們更愿意與各大廠商攜手合作,共同擴展市場,圍繞數(shù)據(jù)的集成、存儲、治理、建模、分析、挖掘和流通等數(shù)據(jù)全生命周期提供優(yōu)質(zhì)服務,構建明日數(shù)據(jù)世界。