隨著數(shù)據(jù)量爆發(fā)式增長和數(shù)據(jù)實時性要求的提升,傳統(tǒng)的數(shù)據(jù)倉庫與數(shù)據(jù)湖分離架構在成本、復雜度和時效性上面臨挑戰(zhàn)。騰訊云基于流式計算與存儲技術,創(chuàng)新性地提出了流式湖倉統(tǒng)一存儲(Streaming Lakehouse)的實踐方案,為數(shù)據(jù)處理和存儲支持服務開辟了全新路徑,助力企業(yè)構建高效、實時、統(tǒng)一的數(shù)據(jù)底座。
一、 流式湖倉統(tǒng)一存儲:架構演進的核心
流式湖倉統(tǒng)一存儲并非簡單的技術疊加,而是對數(shù)據(jù)存儲、處理與服務模式的深度重構。其核心在于:
- 統(tǒng)一存儲層:以對象存儲(如騰訊云COS)為基礎,構建一個支持海量、多模態(tài)數(shù)據(jù)(結構化、半結構化、非結構化)低成本存儲的統(tǒng)一數(shù)據(jù)湖。
- 流式入湖:摒棄傳統(tǒng)的批量T+1數(shù)據(jù)搬運,通過消息隊列(如TDMQ)、數(shù)據(jù)接入服務(DTS)等,實現(xiàn)業(yè)務數(shù)據(jù)從源頭到數(shù)據(jù)湖的實時、不間斷流式寫入,確保數(shù)據(jù)的“新鮮度”。
- 表格式抽象:在原始存儲之上,引入Iceberg、Hudi等開源表格式(或騰訊云自研優(yōu)化格式),為流式到達的原始數(shù)據(jù)提供數(shù)據(jù)庫般的ACID事務、模式演進、時間旅行等管理能力,構成“湖倉”的關鍵特性。
- 統(tǒng)一服務層:在此統(tǒng)一的存儲與表格式之上,同時支持流處理(Flink)、批處理(Spark)、交互式分析(Presto/Trino)以及AI訓練等多種計算引擎的直接分析,實現(xiàn)“一份數(shù)據(jù),多種計算”。
二、 數(shù)據(jù)處理范式的革新
在流式湖倉架構下,數(shù)據(jù)處理流程被極大簡化和加速:
- 實時ETL與CDC:數(shù)據(jù)庫的變更數(shù)據(jù)(CDC)可實時流式入湖,并基于流處理引擎(如騰訊云Oceanus Flink)在湖內直接進行清洗、轉換、打寬,形成可直接服務于分析的實時數(shù)倉層。
- 增量處理成為常態(tài):計算任務(無論是分析查詢還是模型訓練)大部分可基于增量數(shù)據(jù)展開,避免了全量掃描,資源利用率和處理時效性得到數(shù)量級提升。
- 流批一體計算:開發(fā)人員可以用同一套流處理API(如Flink SQL)同時處理實時流和湖中的歷史批量數(shù)據(jù),業(yè)務邏輯統(tǒng)一,維護成本降低。
三、 存儲支持服務的關鍵能力
騰訊云在提供底層存儲與計算資源的通過一系列托管服務,降低了流式湖倉的構建與運維復雜度:
- 全托管數(shù)據(jù)入湖服務:提供從各類數(shù)據(jù)庫、日志系統(tǒng)、消息隊列到數(shù)據(jù)湖的一站式、免運維數(shù)據(jù)實時接入通道,自動處理分庫分表合并、格式轉換等臟活累活。
- 智能數(shù)據(jù)管理與優(yōu)化:
- 自動 compaction:后臺自動合并小文件,優(yōu)化查詢性能。
- 數(shù)據(jù)生命周期管理:基于策略自動將熱、溫、冷數(shù)據(jù)分層存儲(如從標準COS到歸檔存儲),優(yōu)化成本。
- 數(shù)據(jù)治理與元數(shù)據(jù)管理:提供統(tǒng)一的數(shù)據(jù)目錄、血緣追蹤、數(shù)據(jù)質量監(jiān)控與敏感數(shù)據(jù)發(fā)現(xiàn)能力。
- 無縫集成的計算引擎服務:提供全托管的流計算Oceanus、彈性MapReduce(EMR)、數(shù)據(jù)倉庫CDW等服務,這些服務開箱即用地支持從統(tǒng)一湖倉中讀寫數(shù)據(jù),用戶無需關心底層集成細節(jié)。
- 安全與合規(guī)保障:在統(tǒng)一存儲層集成細粒度的權限控制(如Ranger)、數(shù)據(jù)加密(服務端/客戶端)、網絡隔離(VPC)及審計日志,滿足企業(yè)級安全要求。
四、 實踐價值與場景
騰訊云流式湖倉統(tǒng)一存儲實踐已在泛互聯(lián)網、金融、零售等行業(yè)落地,其價值凸顯于:
- 實時數(shù)據(jù)中臺:支撐實時大屏、實時推薦、風控監(jiān)控等對數(shù)據(jù)延遲要求秒級甚至毫秒級的場景。
- 一體化數(shù)據(jù)分析:為BI報表、即席查詢、數(shù)據(jù)科學探索提供一致、最新的數(shù)據(jù)視圖,消除數(shù)據(jù)孤島。
- AI工程化:為特征工程和模型訓練提供海量、統(tǒng)一且持續(xù)更新的數(shù)據(jù)源,加速AI迭代。
###
騰訊云流式湖倉統(tǒng)一存儲實踐,通過將流式數(shù)據(jù)管道、統(tǒng)一低成本存儲與現(xiàn)代化表格式深度融合,并輔以強大的托管數(shù)據(jù)服務,成功構建了面向未來的數(shù)據(jù)處理與存儲支持體系。它不僅解決了數(shù)據(jù)時效與成本效率的平衡難題,更通過統(tǒng)一的服務接口,讓數(shù)據(jù)能夠更流暢、更自由地賦能業(yè)務創(chuàng)新,成為企業(yè)數(shù)字化轉型進程中堅實而敏捷的數(shù)據(jù)基礎設施。