破解數據孤島難題，企業需要什么樣的大數據平臺？

轉載贊收藏評論

舉報 2022-05-09

掃描,分享朋友圈

單模型數據庫“落伍”，多模型大數據平臺應運而生

在數字化轉型早期，企業的數據采集、存儲、分析、決策和應用場景往往相對單一、成熟，企業只需購買市面上對應的數據庫產品即可滿足自身需求。這個階段，對企業來說，單模型數據庫基本夠用。

但是，隨著數字化轉型的深入和企業的快速發展，當面對業務擴展、不可預測的需求變化和企業管理標準的提高等各類情況出現時，單模型數據庫就會“失效”，因為企業可能需要使用關系型存儲、文本存儲、圖存儲、對象存儲、搜索引擎、地理空間存儲、鍵值存儲、寬表存儲、時序數據存儲、事件存儲等更豐富的數據存儲模型。

問題在于企業各自獨立的大數據和數據庫產品如同一個個數據孤島，成為不同場景、項目、業務和部門間數據互通的壁壘。并且，企業使用多種單模型數據庫將會導致數據冗余、數據一致性治理難、數據跨庫分析難、資源配置難等一系列問題。同時，多產品的語言與接口不統一，學習成本高，運維成本高，系統的總擁有成本也會不斷升高。

簡言之，這些各自獨立的大數據和數據庫產品已經不適應企業發展的需求。

越來越多的企業逐漸意識到，未來的大數據平臺，既要為不同的項目場景配置不同數據模型以保障其高性能，又要讓數據操作和運維更便捷、更統一。在這樣的需求推動下，在一個統一平臺中用多種數據模型的“多模型大數據架構”應運而生，開始快速發展。

多模型大數據架構的本質是在一個單一軟件平臺內，針對不同的應用場景配置不同的數據模型，并將操作和運維等管理工作統一化、標準化，從而在保障數據平臺性能的前提下大幅簡化數據平臺運維管理難度，提升平臺的彈性與可擴展性，解決不同業務部門間存在的數據孤島問題。

多模型大數據平臺的“進化”

在多模型大數據架構的發展初期，業內主流產品僅僅是簡單地將多個單模型數據庫使用統一的界面組合在一起。這種平臺內部依舊保留了多種類型的數據庫，如關系型數據庫、文檔存儲、鍵值存儲、圖數據庫等，且不同數據庫依舊采用各自獨立的代碼實現。

換句話說，這種多模型架構本質上仍然是單模型架構的延伸，只是在形式上將數據孤島問題隱藏在統一的用戶界面背后。簡言之，它并沒有真正解決問題。

隨著企業痛點再次凸顯，業界開始出現原生的多模型大數據平臺。在這樣的平臺上，企業可以將所有業務數據匯聚起來，通過平臺搭配的工具操作數據，從而挖掘數據中潛藏的價值。總體而言，原生多模型大數據平臺需要具備以下特點：

滿足一站式數據處理需求，能幫助用戶完成一個數據處理的全鏈路；

處理多種數據模型，包括關系型數據、圖數據、文本數據等；

具備強大的存儲和計算能力，有能力幫助客戶在海量數據中探索價值。

相比早期的拼裝式多模型大數據架構，原生多模型大數據平臺具有天然優勢：

更強大的數據一致性。業務需要不同的數據模型時，多模型大數據平臺天然支持一份邏輯數據實現多種數據建模，并應用于多個不同場景，避免了使用多個單一數據模型產品時需要面對的數據一致性、數據導入導出延時、數據冗余等問題。

更靈活的資源彈性。多模型大數據平臺將不同模型的存儲和計算資源池化，可以根據業務需要隨時增減數據模型的種類，靈活部署和回收計算和存儲資源，真正做到按需分配，用完回收，更靈活、更充分的使用好存儲計算資源。

更簡潔的操作與運維。多個單模型數據庫產品往往接口不同、語法各異，開發人員學習成本高昂，專業技能門檻高。使用統一的多模型大數據平臺時，開發人員只用學習統一的語言、統一的接口來操作多個數據模型，難度顯著降低。

原生多模型大數據平臺一誕生，很快獲得企業青睞。據悉，在 2020 年前，業內主流的多模型大數據架構主要分為三種實現路徑，但是各有各的問題。具體而言：

第一種：以 IBM DB2 和 Oracle DB 為代表，分別支持 6 個和 3 個模型種類。這一實現路徑為每一種新數據模型開發獨立完整的存算策略。其缺點是存算耦合，支持的模型越多，系統的開發量和復雜度就越高，消耗的存算資源也較多。

第二種：以 MongoDB 和 MySQL 為代表，均支持 3 個模型種類。該路徑用單一存儲引擎支撐多個存儲模型。缺點是由于不同計算數據模型對存儲的要求不同，單一存儲引擎無法隨之匹配適合的存儲策略，從而限制了多模型數據庫的性能。

第三種：以 Couchbase 和 MarkLogic 為代表，分別支持 2 個和 4 個模型種類。第三條路徑在多種獨立數據庫之上提供統一的用戶界面，對底層多個數據庫進行轉發。缺點是由于底層多個數據庫開發語言不一致，導致實際開發時的高難度，排除故障的成本也較高。

為解決上述三條傳統實現路徑存在的問題，星環科技于 2020 年實現了基于分層設計的第四種多模型大數據統一架構：提供了統一接口層、統一的計算引擎層、統一的分布式存儲管理層以及統一的資源調度層，基于存算解耦支持 10 種數據模型。該架構應用于星環科技自研的大數據平臺產品 TDH（Transwarp Data Hub）上。

不一樣的多模型大數據架構：星環科技多模型統一架構

據悉，星環科技的多模型統一架構采用“異構存儲，四層統一”設計，利用統一語言、計算、存儲、資源重構大數據軟件棧，在一個平臺上支持十種數據模型，有效降低數據開發和運維的難度，極大提升了用戶開發效率。

本文系作者授權數英發表，內容為作者獨立觀點，不代表數英立場。
轉載請在文章開頭和結尾顯眼處標注：作者、出處和鏈接。不按規范轉載侵權必究。