新聞中心
專業(yè)的數(shù)據(jù)管理基礎(chǔ)設(shè)施及服務(wù)供應(yīng)商
湖+倉混合業(yè)務(wù)架構(gòu)的四大痛點及湖倉一體五大核心能力
發(fā)布日期:
2023-12-29

為了滿足數(shù)據(jù)類型存儲、多場景分析以及新誕生的AIGC等業(yè)務(wù)訴求,企業(yè)的數(shù)據(jù)混合部署模式,數(shù)據(jù)湖、數(shù)據(jù)倉庫、關(guān)系型數(shù)據(jù)庫等多種架構(gòu)并存,數(shù)據(jù)倉庫和數(shù)據(jù)湖為兩套獨立的系統(tǒng),數(shù)據(jù)倉庫和數(shù)據(jù)湖之間通過ETL進(jìn)行數(shù)據(jù)交換。這種架構(gòu)一般如下圖所示:


湖+倉混合業(yè)務(wù)架構(gòu)的四大痛點及湖倉一體五大核心能力

倉+湖的混合架構(gòu) ? ?

來源:CCSA TA601


這種混合架構(gòu)一般是在信息化建設(shè)過程中,隨者業(yè)務(wù)需求的新增,逐步構(gòu)建起來的混合架構(gòu),前期并沒有統(tǒng)一的規(guī)劃,這種混合架構(gòu)雖然可以完成多種數(shù)據(jù)結(jié)構(gòu)的存儲、解決了傳統(tǒng)數(shù)據(jù)倉庫在海量數(shù)據(jù)下加載慢、數(shù)據(jù)查詢效率低、難以融合多種異構(gòu)數(shù)據(jù)源進(jìn)行分析的問題,但也存在一些弊端。


01倉+湖的混合架構(gòu)的主要問題

倉+湖的混合架構(gòu)主要存在以下主要的問題:

一、數(shù)據(jù)冗余,增加存儲成本。湖倉混合架構(gòu)中,數(shù)據(jù)湖和數(shù)據(jù)倉庫都需要進(jìn)行數(shù)據(jù)冗余備份,同時,混合架構(gòu)可能導(dǎo)致部分?jǐn)?shù)據(jù)存儲在Hadoop平臺和MPP平臺,進(jìn)一步增加了數(shù)據(jù)冗余,增加了存儲成本。例如為了滿足數(shù)據(jù)分析師和數(shù)據(jù)科學(xué)家的需求,同一張表在MPP和hadoop系統(tǒng)都各自存儲一份,由于兩個系統(tǒng)都是分布式系統(tǒng),分布式系統(tǒng)就意味著數(shù)據(jù)備份等一張表存儲3份,如果在兩個系統(tǒng)存儲,就可能是一張表存儲了6次,因此,數(shù)據(jù)冗余較大。?


二、是兩個系統(tǒng)間額外的ETL流程導(dǎo)致時效性差。在湖倉混合架構(gòu)中,數(shù)據(jù)通常先進(jìn)入數(shù)據(jù)湖進(jìn)行批處理,然后再進(jìn)入數(shù)據(jù)倉庫,最后為上層應(yīng)用提供查詢服務(wù)。整個數(shù)據(jù)鏈路過長,湖入倉的過程還需要進(jìn)行一次ETL,這會影響查詢的時效性。?


三、是數(shù)據(jù)一致性保障低,增加數(shù)據(jù)校驗成本。在混合架構(gòu)中,兩個系統(tǒng)之間通過數(shù)據(jù)遷移來實現(xiàn)數(shù)據(jù)流動,但在遷移過程中容易出現(xiàn)數(shù)據(jù)不一致的問題,這增加了數(shù)據(jù)一致性校驗的成本。雖然在現(xiàn)在kappa技術(shù)架構(gòu)中也支持實時的數(shù)據(jù)處理,但是因為實時處理無法全量處理數(shù)據(jù),因此在數(shù)據(jù)去重計算等存在問題,數(shù)據(jù)準(zhǔn)確性存在問題,數(shù)據(jù)準(zhǔn)確性以批處理為準(zhǔn)。?


四、是混合架構(gòu)復(fù)雜,開發(fā)運維難度大、成本高。由于混合架構(gòu)采用了兩種孤立的技術(shù)棧進(jìn)行部署,導(dǎo)致數(shù)據(jù)架構(gòu)復(fù)雜,平臺的開發(fā)和運維難度也增加,相應(yīng)的成本也會增加。由于當(dāng)前混合架構(gòu),在不同的開發(fā)框架下不能實現(xiàn)DataOps的開發(fā)運維一體化技術(shù)理念。


02湖倉一體的核心能力”

隨著云計算的廣泛應(yīng)用,2020年Databricks提出了“湖倉一體”概念。在這個概念的推動下,云原生技術(shù)(如容器、DataOps和微服務(wù))與大數(shù)據(jù)技術(shù)進(jìn)一步融合,采用了存算分離架構(gòu)。同時,利用云原生的資源彈性擴縮容和按需分配的特點,實現(xiàn)了資源的集約化,降低了成本。這也促進(jìn)了湖倉一體技術(shù)的發(fā)展。


湖倉一體將數(shù)據(jù)湖作為中心的數(shù)據(jù)存儲層與數(shù)據(jù)倉庫作為數(shù)據(jù)處理和分析層進(jìn)行整合。數(shù)據(jù)湖作為一個存儲原始和各式各樣的數(shù)據(jù)的匯集地,提供了存儲大量數(shù)據(jù)的能力,并且充分體現(xiàn)了數(shù)據(jù)的彈性和靈活性。而數(shù)據(jù)倉庫則用于數(shù)據(jù)的加工、轉(zhuǎn)換和聚合,以提供更高級別的查詢和分析服務(wù)。通過湖倉一體的架構(gòu),企業(yè)可以更加靈活地管理和利用大量的數(shù)據(jù)。


它提供了更多的數(shù)據(jù)來源和數(shù)據(jù)類型,使得企業(yè)可以更全面地掌握數(shù)據(jù),更好地支持決策和業(yè)務(wù)需求。同時,湖倉一體還能夠提供更高的數(shù)據(jù)一致性和數(shù)據(jù)質(zhì)量,避免了數(shù)據(jù)孤島和冗余。此外,湖倉一體還借助先進(jìn)的云原生技術(shù),如容器、DataOps和微服務(wù)等,實現(xiàn)資源的高效利用和成本的降低。


湖+倉混合業(yè)務(wù)架構(gòu)的四大痛點及湖倉一體五大核心能力


通過以上圖可以了解,湖倉一體主要需要具備匯、存、算、管、服五種核心能力。


一、湖倉集成能力


1. 統(tǒng)一管理外部數(shù)據(jù)源:能夠方便地管理各種外部數(shù)據(jù)源,包括關(guān)系型數(shù)據(jù)庫、NoSQL數(shù)據(jù)庫、分布式文件系統(tǒng)等。

2. 數(shù)據(jù)對象轉(zhuǎn)換與管理:數(shù)據(jù)倉庫能夠?qū)?shù)據(jù)湖中的數(shù)據(jù)對象轉(zhuǎn)換為數(shù)據(jù)倉庫的數(shù)據(jù)對象,并進(jìn)行數(shù)據(jù)和權(quán)限管理(即升倉)。同時,還支持將數(shù)據(jù)倉庫中價值密度較低的數(shù)據(jù)進(jìn)行入湖操作。?

3. 實時與批量數(shù)據(jù)入湖與入倉:湖倉一體具備實時和批量數(shù)據(jù)的入湖和入倉能力,能夠滿足不同場景下的數(shù)據(jù)處理需求。同時,還能夠?qū)θ牒蝿?wù)進(jìn)行配置和管理,提供靈活性和可控性。


二、湖倉存儲能力


1. 存算分離和資源擴縮容:湖倉一體允許獨立部署數(shù)據(jù)存儲和計算資源,同時支持動態(tài)擴展和縮減存儲和計算資源的能力,實現(xiàn)了存算分離。?

2. 存儲分級:湖倉一體支持對數(shù)據(jù)進(jìn)行冷熱分級存儲,以便更好地管理和利用不同類型的數(shù)據(jù)。例如可以將數(shù)據(jù)存儲分成:熱數(shù)據(jù)、標(biāo)準(zhǔn)數(shù)據(jù)、低頻、歸檔、冷歸檔等不同數(shù)據(jù)層次。

3. 數(shù)據(jù)湖格式和事務(wù)支持:湖倉一體支持多種數(shù)據(jù)存儲引擎以及數(shù)據(jù)湖存儲格式,并具備事務(wù)支持處理能力,同時還能夠在線調(diào)整數(shù)據(jù)模式(schema)。?

4. 數(shù)據(jù)緩存加速:湖倉一體具備數(shù)據(jù)緩存加速能力,支持配置多種緩存策略,以提高存儲和訪問數(shù)據(jù)的速度。?

5. 存儲加密:湖倉一體還支持?jǐn)?shù)據(jù)加密的存儲能力,保障敏感數(shù)據(jù)的安全性。

6. 數(shù)據(jù)生命周期管理:湖倉一體還支持?jǐn)?shù)據(jù)通過監(jiān)控數(shù)據(jù)訪問頻次,將存儲到數(shù)據(jù)湖中的數(shù)據(jù)自動分層的能力。


三、湖倉計算能力


1. 存儲生態(tài)能力:湖倉一體允許數(shù)倉引擎對數(shù)據(jù)湖數(shù)據(jù)進(jìn)行讀寫操作,同時數(shù)據(jù)湖引擎也可以對數(shù)倉數(shù)據(jù)進(jìn)行讀寫操作。

2. 兼容常見的計算引擎:湖倉一體配置方式兼容常見的計算引擎。計算引擎可以使用計算資源。

3. 統(tǒng)一開發(fā)平臺:湖倉一體提供統(tǒng)一的開發(fā)平臺,支持流批一體的開發(fā)模式、用于湖倉數(shù)據(jù)的開發(fā)、作業(yè)調(diào)度和任務(wù)運維監(jiān)控。?

4. 支持常見的數(shù)據(jù)開發(fā):湖倉一體常見的數(shù)據(jù)開發(fā)應(yīng)用場景,例如批量開發(fā)、流式開發(fā)、指標(biāo)計算等。

5. 計算資源彈性擴縮容:湖倉一體支持計算資源的彈性擴縮容,并且能夠監(jiān)控彈性資源。

6. 數(shù)據(jù)處理的事務(wù)性:湖倉一體支持?jǐn)?shù)據(jù)更新,實現(xiàn)支持事務(wù)的存儲層。


四、湖倉管理能力


1. 元數(shù)據(jù)管理能力:能夠自動發(fā)現(xiàn)、識別和采集元數(shù)據(jù),并進(jìn)行統(tǒng)一存儲管理。?

2. 數(shù)據(jù)權(quán)限管理能力:對湖倉內(nèi)的數(shù)據(jù)實現(xiàn)統(tǒng)一的權(quán)限管理。?

3. 數(shù)據(jù)評估能力:可以評估數(shù)據(jù)的訪問頻次、時間、數(shù)據(jù)量等維度。通過數(shù)據(jù)頻次監(jiān)控能力,可以自動將數(shù)據(jù)分到不同的數(shù)據(jù)層次種

4. 統(tǒng)一湖倉血緣能力:能夠清晰描述數(shù)據(jù)的流轉(zhuǎn)和生命周期。?

5. 數(shù)據(jù)質(zhì)量管理能力:支持設(shè)置數(shù)據(jù)質(zhì)量規(guī)則、進(jìn)行校驗以及質(zhì)量管理。?

6. 數(shù)據(jù)加密能力:在湖倉異構(gòu)訪問過程中支持對敏感數(shù)據(jù)進(jìn)行加密。?

7. 統(tǒng)一數(shù)據(jù)建模能力:提供邏輯模型和物理模型,并提供數(shù)據(jù)模型的生命周期管理。


五、湖倉服務(wù)能力


1. 統(tǒng)一的認(rèn)證和授權(quán)體系:湖倉一體提供統(tǒng)一的認(rèn)證和授權(quán)體系,確保數(shù)據(jù)的安全訪問和權(quán)限控制。?

2. 統(tǒng)一的數(shù)據(jù)服務(wù)能力:湖倉一體提供統(tǒng)一的數(shù)據(jù)發(fā)布服務(wù)的能力,確保應(yīng)用層可以通過數(shù)據(jù)服務(wù)使用湖倉的數(shù)據(jù)。

3. 統(tǒng)一的數(shù)據(jù)分析能力:湖倉一體提供統(tǒng)一的數(shù)據(jù)分析的能力例如科學(xué)計算、向量計算、機器學(xué)習(xí)等多場景融合分析,可以基于湖倉統(tǒng)一數(shù)據(jù)集進(jìn)行在線的數(shù)據(jù)分析。


湖倉一體技術(shù)作為新一代數(shù)據(jù)架構(gòu),仍面臨著許多技術(shù)難題等待解決。其中,如何實現(xiàn)數(shù)據(jù)的高效存儲和訪問、如何保障數(shù)據(jù)的安全性和隱私性、如何實現(xiàn)數(shù)據(jù)質(zhì)量的提升和管理,以及如何處理不同數(shù)據(jù)源的異構(gòu)性等問題都是挑戰(zhàn)著湖倉一體技術(shù)的發(fā)展。


此外,如何實現(xiàn)靈活的數(shù)據(jù)集成和數(shù)據(jù)協(xié)同,以及如何應(yīng)對不斷增長的數(shù)據(jù)量和不斷變化的業(yè)務(wù)需求也是需要解決的關(guān)鍵問題。面對這些挑戰(zhàn),湖倉一體技術(shù)需要不斷創(chuàng)新和改進(jìn),引入先進(jìn)的技術(shù)手段和方法,與業(yè)界合作共同解決這些難題,以實現(xiàn)數(shù)據(jù)治理的全面、高效和可持續(xù)發(fā)展。


來源:ruby的數(shù)據(jù)漫談。版權(quán)歸作者及源出處所有,僅代表作者個人觀點,與本號立場無關(guān)。若所引用的內(nèi)容來源標(biāo)注有誤或涉及侵權(quán),請及時聯(lián)系處理。