新聞中心
專業(yè)的數(shù)據(jù)管理基礎(chǔ)設(shè)施及服務(wù)供應(yīng)商
數(shù)倉為何需要分層建設(shè)?怎么分?
發(fā)布日期:
2024-03-22

隨著信息技術(shù)的迅猛發(fā)展,數(shù)據(jù)量呈爆炸式增長,如何高效管理和利用這些數(shù)據(jù)成為各行業(yè)決策支持的關(guān)鍵。數(shù)據(jù)倉庫作為數(shù)據(jù)存儲、處理和分析的核心平臺,其重要性日益凸顯。而數(shù)據(jù)倉庫的分層建設(shè),則是提升數(shù)據(jù)倉庫效能、優(yōu)化數(shù)據(jù)處理流程的重要保障。



為什么需要數(shù)倉分層


數(shù)倉一般是用來保存大量歷史數(shù)據(jù)的,這些數(shù)據(jù)可能是業(yè)務(wù)數(shù)據(jù),也可能是日志數(shù)據(jù)。由于數(shù)據(jù)量級很大,如果直接查詢數(shù)倉中的原始數(shù)據(jù)會造成SQL運行很慢,甚至跑不出來結(jié)果或者報錯。


而分層要做的就是對原始數(shù)據(jù)重新做歸納整理,在不同層級對數(shù)據(jù)或者指標(biāo)做不同粒度的抽象。經(jīng)過分層后,同一個指標(biāo)可能在不同層的數(shù)據(jù)中都有體現(xiàn),看似重復(fù),實則每個層級中指標(biāo)的粒度不完全一致,為用戶進(jìn)行數(shù)據(jù)管理帶來6大價值點:


數(shù)據(jù)結(jié)構(gòu)清晰化:每一個數(shù)據(jù)分層都有它的作用域,在使用表的時候能更方便地定位和理解。


數(shù)據(jù)關(guān)系條理化:源系統(tǒng)間存在復(fù)雜的數(shù)據(jù)關(guān)系,當(dāng)同時存在多個系統(tǒng)時,取數(shù)該如何決策呢?數(shù)據(jù)倉庫會對相同主題的數(shù)據(jù)進(jìn)行統(tǒng)一建模,把復(fù)雜的數(shù)據(jù)關(guān)系梳理成條理清晰的數(shù)據(jù)模型,就可避免上述問題了。


數(shù)據(jù)血緣白盒化:簡單理解就是我們最終給業(yè)務(wù)呈現(xiàn)的是能直接使用的業(yè)務(wù)表,但是它的來源有很多,如果有一張來源表出問題,我們能夠快速準(zhǔn)確地定位到問題,清楚它的危害范圍,并加以改正。


數(shù)據(jù)復(fù)用最大化:規(guī)范數(shù)據(jù)的分層,能夠滿足不同使用場景和數(shù)據(jù)粒度的需求,極大減少重復(fù)計算。通過匯總層的引入,避免了下游邏輯的重復(fù)計算,節(jié)省了開發(fā)時間和精力,減少了不必要的數(shù)據(jù)冗余,實現(xiàn)計算結(jié)果復(fù)用,存儲和計算成本降低。


數(shù)據(jù)問題簡單化:將復(fù)雜任務(wù)分解成多個步驟來完成,每層只處理單一的步驟,保障數(shù)據(jù)的準(zhǔn)確性,在數(shù)據(jù)出現(xiàn)問題后,也只需從有問題的步驟開始修復(fù)。對于使用者而言,將數(shù)據(jù)按照層次結(jié)構(gòu)組織可以優(yōu)化查詢路徑,減少數(shù)據(jù)掃描和查詢時間,提高查詢性能。


業(yè)務(wù)影響最小化:當(dāng)源業(yè)務(wù)系統(tǒng)的業(yè)務(wù)規(guī)則發(fā)生變化時,只需調(diào)整相應(yīng)層次的數(shù)據(jù)處理邏輯,而無需對整個數(shù)據(jù)倉庫進(jìn)行重構(gòu),降低維護(hù)成本,提高數(shù)據(jù)穩(wěn)定性和連續(xù)性,加強(qiáng)數(shù)據(jù)倉庫的可擴(kuò)展性。



常見數(shù)倉分層方式


在實際的工作中,我們都希望自己的數(shù)據(jù)能夠有序流轉(zhuǎn),設(shè)計者和使用者能夠清晰地知道數(shù)據(jù)的全生命周期。優(yōu)秀可靠的數(shù)倉體系,需要明晰良好的數(shù)據(jù)分層結(jié)構(gòu)。合理的分層,能夠使數(shù)據(jù)體系更加清晰,讓復(fù)雜問題得以簡化。那么常見的數(shù)倉分層方式有哪些?每一層的原則又怎么定義呢?下面給大家講講當(dāng)前較為常見的數(shù)倉分層方式:



  • 操作數(shù)據(jù)存儲層(ODS):存儲源系統(tǒng)中的數(shù)據(jù),主要用于數(shù)據(jù)采集、清洗和轉(zhuǎn)換等處理,保持?jǐn)?shù)據(jù)原貌。

  • 維度數(shù)據(jù)存儲層(DIM):存儲數(shù)據(jù)倉庫中的維度信息,如客戶維度、時間維度等。通常采用維度建模方式,如星型模型或雪花模型。

  • 數(shù)據(jù)倉庫存儲層(DWD/DW/DWS):存儲數(shù)據(jù)倉庫中的事實表,是數(shù)據(jù)倉庫的核心存儲層。可以根據(jù)業(yè)務(wù)需求進(jìn)一步細(xì)分為明細(xì)層、輕度匯總層等。

  • 中間結(jié)果數(shù)據(jù)存儲層(IDS/TMP):存儲ETL過程中的中間結(jié)果,如數(shù)據(jù)清洗、數(shù)據(jù)轉(zhuǎn)換和數(shù)據(jù)計算等臨時數(shù)據(jù)。

  • 數(shù)據(jù)集市存儲層(DM/ADS):存儲面向特定業(yè)務(wù)領(lǐng)域的數(shù)據(jù)集市或應(yīng)用層數(shù)據(jù),主要用于數(shù)據(jù)分析和報表展示等。




希嘉數(shù)據(jù)資源中心數(shù)據(jù)架構(gòu)方案



數(shù)倉在建設(shè)過程中,對數(shù)據(jù)的組織管理上,不僅要根據(jù)業(yè)務(wù)進(jìn)行縱向的主題域劃分,還需要橫向的數(shù)倉分層規(guī)范。優(yōu)秀的分層設(shè)計是項目建設(shè)成功的核心要素,讓數(shù)據(jù)易理解和高復(fù)用是分層的核心目標(biāo)。


希嘉結(jié)合多年的數(shù)據(jù)治理和數(shù)倉實施經(jīng)驗,綜合當(dāng)前市場數(shù)字化轉(zhuǎn)型不斷深入的需求,提出了“做精核心數(shù)據(jù)倉庫,開展場景數(shù)據(jù)服務(wù)”新主張,推出了希嘉數(shù)據(jù)資源中心數(shù)據(jù)架構(gòu)方案。該建設(shè)方案通過?ODS-DWD-DWS-ADS?的架構(gòu)完成數(shù)據(jù)抽取、清洗、轉(zhuǎn)義、分類、重組、合并、拆分、統(tǒng)計等,使大數(shù)據(jù)得到高性能、低成本、高效率、高質(zhì)量的使用,為企業(yè)級客戶構(gòu)建數(shù)字化新基座。


希嘉數(shù)倉架構(gòu)圖


ODS(數(shù)據(jù)貼源層):存儲來自多個業(yè)務(wù)系統(tǒng)、前端埋點、爬蟲獲取等的一系列數(shù)據(jù)源的數(shù)據(jù)。希嘉認(rèn)為,ODS層作為最基礎(chǔ)的一層同時也是最重要的,如同大廈地基,時刻影響著樓層的穩(wěn)定性。為此,希嘉以“應(yīng)采盡采為”原則,保障結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)的采入,最大限度的保存原始數(shù)據(jù),完成數(shù)據(jù)積存。


DWD(數(shù)據(jù)明細(xì)層):與原表保持同一粒度的基礎(chǔ)上根據(jù)業(yè)務(wù)過程對ODS的數(shù)據(jù)進(jìn)行去除臟數(shù)據(jù),按照業(yè)務(wù)過程對表進(jìn)行歸類和關(guān)聯(lián),經(jīng)過ETL得到與業(yè)務(wù)過程相對應(yīng)的事實表。希嘉在DWD層以“一數(shù)一源”為原則,解析數(shù)據(jù)血緣、理清數(shù)據(jù)資產(chǎn),實現(xiàn)問題可追溯、漏洞可填補(bǔ),實現(xiàn)數(shù)據(jù)從采集、治理、管理到最終發(fā)布的全過程白盒化。


DWS(數(shù)據(jù)服務(wù)層):把DWD中的表根據(jù)事實按照更高的維度進(jìn)行上卷的聚合操作,得到在某一維度或者多個維度上的匯總數(shù)據(jù)或指標(biāo)。在越來越深入的數(shù)據(jù)管理和服務(wù)項目中,希嘉發(fā)現(xiàn) ODS-DWD-ADS 數(shù)據(jù)倉庫架構(gòu)面對復(fù)雜的業(yè)務(wù)場景,會出現(xiàn)計算資源混亂和浪費的問題,同時也是煙囪式開發(fā)的根源。希嘉針對復(fù)雜的業(yè)務(wù)場景,以“數(shù)據(jù)共享”為原則,在增加的DWS層中抽象出一些通用的維度(例如用戶ID、性別、時間等),并根據(jù)這些維度進(jìn)行統(tǒng)計,讓使用者查詢速度快、獲取數(shù)據(jù)易,使用起來更舒適。


ADS(數(shù)據(jù)應(yīng)用層):存放數(shù)據(jù)產(chǎn)品個性化的統(tǒng)計指標(biāo)數(shù)據(jù),報表數(shù)據(jù)。通常根據(jù)業(yè)務(wù)需求,提供數(shù)據(jù)產(chǎn)品和數(shù)據(jù)分析需使用的數(shù)據(jù)。希嘉在ADS層以“應(yīng)用為王”為原則,為某一特定業(yè)務(wù)需求而建立,基于某一個特定主題或業(yè)務(wù)領(lǐng)域建模,滿足該領(lǐng)域的數(shù)據(jù)分析和查詢需求。


希嘉認(rèn)為數(shù)倉分層的目的是讓數(shù)據(jù)更規(guī)范、清晰更易用,而不是為了分層而去分層,所以遵循因?qū)嵵埔说臏?zhǔn)則,針對客戶實際需求,有選擇的、定制化的搭建數(shù)據(jù)資源中心數(shù)據(jù)架構(gòu),滿足客戶各類型的運用和分析需求,實現(xiàn)高效數(shù)字化轉(zhuǎn)型。



小 結(jié)


希嘉深知數(shù)據(jù)存儲并不是數(shù)倉建設(shè)的最終目的地,所以不斷探索和迭代數(shù)倉分層架構(gòu),旨在降低數(shù)據(jù)使用門檻,提高數(shù)據(jù)使用體驗,為企業(yè)級客戶提供易于操作管理的數(shù)字化新基座,幫助客戶更敏捷的創(chuàng)新業(yè)務(wù),更準(zhǔn)確的洞察業(yè)務(wù),加速釋放數(shù)據(jù)價值。