国产毛片一区二区精品丨奇米影视7777狠狠狠狠色丨成人影院yy111111在线丨青青在线免费观看丨山村大伦淫第1部分阅读小说丨一边捏奶头一边高潮视频丨激情五月视频丨天天做日日做天天添天天欢公交车丨亚洲欧美日韩成人一区在线丨精品国产电影久久九九丨动漫美女露胸网站丨97丨九色丨蜜臀丨精品综合久久88少妇激情丨亚洲成人av免费观看丨国产69精品久久久久毛片丨国产乱码一区二区三区咪爱丨人人添人人澡人人澡人人人人丨日韩av免费看丨国产手机在线视频丨91最新在线视频丨欧美xx孕妇丨久久精品视频7丨欧美日激情丨一个人看的毛片丨yyyy11111少妇无码影院

億信華辰

連續(xù)3年穩(wěn)坐商務智能應用榜首
與此同時,億信華辰在數(shù)據(jù)治理領(lǐng)域榮登五強
首頁行業(yè)資訊數(shù)據(jù)分析

淺談大數(shù)據(jù)的過去、現(xiàn)在和未來

時間:2022-06-14來源:互聯(lián)網(wǎng)瀏覽數(shù):734

相信身處于大數(shù)據(jù)領(lǐng)域的讀者多少都能感受到,大數(shù)據(jù)技術(shù)的應用場景正在發(fā)生影響深遠的變化: 隨著實時計算、Kubernetes 的崛起和 HTAP、流批一體的大趨勢,之前相對獨立的大數(shù)據(jù)技術(shù)正逐漸和傳統(tǒng)的在線業(yè)務融合。關(guān)于該話題,筆者早已如鯁在喉,但因拖延癥又犯遲遲沒有動筆,最終借最近參加多項會議收獲不少感悟的契機才能克服懶惰寫下這片文章。 本文旨在簡單回顧大數(shù)據(jù)的歷史,然后概括當前的主要發(fā)展趨勢以及筆者的思考,最后不免主觀地展望未來。 01、過去:先進與落后并存 大數(shù)據(jù)起源于 21 世紀初 Web 2.0[1] 帶來的互聯(lián)網(wǎng)爆發(fā)性增長,當時 Google、雅虎等頭部公司的數(shù)據(jù)量級已經(jīng)遠超單機可處理,并且其中大部分數(shù)據(jù)是網(wǎng)頁文本這樣的非結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù),用傳統(tǒng)的數(shù)據(jù)庫基本無法處理,因此開始探索新型的數(shù)據(jù)存儲和計算技術(shù)。在 2003-2006 年里,Google 發(fā)布了內(nèi)部研發(fā)成果的論文,即被稱為 Google 三駕馬車的 GFS、MapReduce 和 Bigtable 論文。在此期間,雅虎基于 GFS/MapReduce 論文建立了開源的 Hadoop 項目,奠定了后續(xù)十多年大數(shù)據(jù)發(fā)展的基礎(chǔ),也在同時大數(shù)據(jù)一詞被廣泛被用于描述這類數(shù)據(jù)量過大或過于復雜而無法通過傳統(tǒng)單機技術(shù)處理的系統(tǒng)[2]。 然而,雖然以 MapReduce 作為代表的通用數(shù)據(jù)存儲計算框架在搜索引擎場景獲得巨大成功,但是在于之存在競爭關(guān)系的數(shù)據(jù)庫社區(qū)看來,MapReduce 是一次巨大的倒退(”A major step backwards”)[3]。主要原因大致如下: 編程模型的巨大倒退,缺乏 schema 和高級數(shù)據(jù)訪問語言 實現(xiàn)非常原始,基本是暴力遍歷而不是使用索引 理念落后,是 25 年前的技術(shù)實現(xiàn) 缺少當時 DBMS 標配的大部分特性,比如事務、數(shù)據(jù)更新 與當時 DBMS 用戶依賴的工具不兼容 在筆者看來,這篇論文直言不諱地指出了大數(shù)據(jù)系統(tǒng)的不足,時至今日仍非常有指導意義。而此后的十多年,也正是大數(shù)據(jù)系統(tǒng)逐漸完善彌補這些缺陷的過程,比如 Hive/Spark 填補了高級編程模型的空白,Parquet/ORC 等存儲格式給文件添加了索引,如今的數(shù)據(jù)湖又在實現(xiàn)缺失的 ACID 事務特性。不過值得一提的是,這些批評是對于通用數(shù)據(jù)庫場景而言,因為搜索引擎場景針對的是無結(jié)構(gòu)化/非結(jié)構(gòu)化數(shù)據(jù),而且 Google 搜索本身就是一個巨大的倒排索引(因此無需額外索引)。 由于大數(shù)據(jù)系統(tǒng)特性上的種種不足和技術(shù)棧的獨立性,大數(shù)據(jù)在過去的十多年中雖然發(fā)展迅猛,各種項目百花齊放,但應用場景仍很大程度上局限在數(shù)據(jù)倉庫、機器學習等數(shù)據(jù)準確性要求沒有那么高的場景下。其中很多項目也在設(shè)計之初就定位在某些細分應用場景而不是通用場景,比如 Hive 定位為數(shù)據(jù)倉庫,Storm 定位為對于離線數(shù)據(jù)倉庫的實時增量補充[5]。雖然這可以視為支持大數(shù)據(jù)量級而做的 trade-off,但客觀上也造成了大數(shù)據(jù)生態(tài)圈的非常復雜,要完整地用好大數(shù)據(jù),通常要引入至少十余個組件,無論對于大數(shù)據(jù)團隊還是用戶而言都有較高的門檻。 02、現(xiàn)在:百花齊放與融合統(tǒng)一 所謂天下大勢分久必合,一方面大數(shù)據(jù)生態(tài)中各類組件獨立的開發(fā)使用成本在業(yè)務穩(wěn)定后已經(jīng)成為不可小覷的開支,另一方面技術(shù)發(fā)展也使得不少組件有共享底層設(shè)施或技術(shù)棧的基礎(chǔ),因此 “融合” 將是當下最為明顯的趨勢,具體分為幾個方向: 計算的流批一體、存儲的流批一體、在離線服務混部、HTAP。 1.計算的流批一體 計算的流批一體指的是用同一套計算框架同時來實現(xiàn)流計算和批計算,目標是解決 Lambda 架構(gòu)離線批處理和實時流處理兩個不同編程模型的重復數(shù)據(jù)管道的問題。 之所以會形成這樣的架構(gòu),主要原因是實時流計算發(fā)展早期無法提供準確一次的語義(Exactly-Once Semantics),在出現(xiàn)異常重試或數(shù)據(jù)延遲的情況下很容易導致數(shù)據(jù)少算或多算,因此需要依賴成熟可靠的離線批計算來定時修正數(shù)據(jù)。兩者在數(shù)據(jù)準確性上的差別主要來源于:離線批計算的數(shù)據(jù)是有界的(因此不用考慮數(shù)據(jù)是否完整)且允許較高延遲,因而幾乎不需要在數(shù)據(jù)準確性和延遲間做 trade-off;而實時流計算非常依賴輸入數(shù)據(jù)的低延遲,如果某個時間點產(chǎn)生的業(yè)務數(shù)據(jù)沒有及時被處理,那么它很可能被錯誤地算入下個統(tǒng)計計算窗口,可能導致前后兩個窗口的數(shù)據(jù)都不準確。 然而,2015 年 Google Dataflow Model 論文的發(fā)布[6]厘清了流處理和批處理的對立統(tǒng)一的關(guān)系,即批處理是流處理的特例,這為流批一體的大趨勢奠定了基礎(chǔ)。本文不打算過于深入 Dataflow Model 內(nèi)容,簡單來說,論文引入了對于流處理至關(guān)重要的兩個概念:Watermark 和 Accumulation Mode(結(jié)果累積模式)。Watermark 由數(shù)據(jù)本身的業(yè)務時間提取而成(這被稱為 Event Time 時間特性),表示對輸入數(shù)據(jù)的業(yè)務時間的估計。依據(jù) Watermark 而不是數(shù)據(jù)處理時間來觸發(fā)計算,這樣可以很大程度上解決流計算對延遲的依賴問題。另一方面,Accumulation Mode 定義了流計算不同執(zhí)行產(chǎn)生的結(jié)果之間的關(guān)系,從而使得流計算可以先輸出不完整的中間結(jié)果,然后再逐步修正,最終收斂至準確結(jié)果。 在開源界,最早采用流批一體計算模型的計算框架 Flink/Beam 等,在經(jīng)過幾年的迭代后流批一體已經(jīng)逐漸達到生產(chǎn)可用,并陸續(xù)在前沿的公司落地。由于流批一體涉及到大量業(yè)務改造,在目前 Lambda 架構(gòu)已經(jīng)穩(wěn)定運行多年的情況下,推動存量業(yè)務的改造的主要動力來源有: 降本增效。避免同時建設(shè)兩套數(shù)據(jù)管道的機器和人力成本。 對齊口徑。批處理的 schema 與流處理的 schema 可能存在不一致,比如同一個指標在批處理可能是天粒度,而流處理是分鐘粒度。這樣的不一致導致同時使用流和批的結(jié)果時容易出錯。 值得注意的是,流批一體并不是將 Lambda 架構(gòu)中的離線管道改為與實時管道相同的引擎,并與之前一樣雙跑,而是令作業(yè)可以靈活在兩種模式上自由切換。通常來說,對延遲不敏感的業(yè)務可以用批的模式執(zhí)行來提高資源利用率,而當業(yè)務變?yōu)檠舆t敏感時可以無縫切換為實時流處理模式。而在需要修正實時計算結(jié)果時,也可以直接采用 Kappa 架構(gòu)[7]的方式復制一個作業(yè)以批模式來重刷部分數(shù)據(jù)。 2.存儲的流批一體 眾所周知,批處理中常讀寫文件系統(tǒng),用文件作為存儲抽象;而流處理中常讀寫消息隊列,用隊列作為存儲抽象。在 Lambda 架構(gòu)中,我們常常要將同時數(shù)據(jù)寫入 HDFS、S3 等文件系統(tǒng)或?qū)ο蟠鎯┡幚硎褂茫懭?Kafka 等消息隊列供流處理使用。盡管消息隊列通過只保留最近一段時間的數(shù)據(jù)來減少數(shù)據(jù)存儲成本,但這樣兩套系統(tǒng)的冗余仍造成很大的機器資源開銷和人力資源成本。在計算的流批一體大趨勢下,存儲的流批一體的推進自然也是順水推舟。 不過不同于計算有 Dataflow Model 這樣能讓業(yè)界達成 “批處理是流處理特例” 共識的重量級論文,存儲的流批一體仍處在基于文件系統(tǒng)和基于消息隊列兩種流派不相伯仲的狀況。基于文件來實現(xiàn)隊列特性的代表是 Iceberg/Hudi/DeltaLake 等數(shù)據(jù)湖,而以隊列來實現(xiàn)文件特性的代表是 Pulsar/Prevega 等新型消息隊列系統(tǒng)。 在筆者看來,文件存儲和隊列存儲經(jīng)過一定的改進都可以滿足流批一體的需求,比如 Pulsar 支持將數(shù)據(jù)歸檔到分級存儲并可選擇 Segment(文件) API 或 Message(隊列) API 來讀取,而 Iceberg 支持文件的批量讀取或流式地監(jiān)聽文件。然而結(jié)合計算的流批一體而言,兩者在寫入更新 API 方面有根本的不同,并且該不同點進一步導致了兩者的許多不同特性: 更新方式。雖然文件和隊列在大數(shù)據(jù)場景下通常都是以 Append 方式寫入,但文件支持對已經(jīng)寫入數(shù)據(jù)的更新,而隊列則不允許直接更新,而是通過寫入新數(shù)據(jù)加 Compact 刪除舊數(shù)據(jù)的方式來間接更新。這意味著在批處理中讀寫隊列或在流處理中讀寫文件都有一些不自然(下文會詳細說明)。在數(shù)據(jù)湖等基于文件的存儲中,流式讀取通常以監(jiān)聽 Changelog 的方式實現(xiàn);而在基于隊列的存儲中,批處理要重算更新結(jié)果,則無法直接刪除或覆蓋之前已經(jīng)寫入隊列的結(jié)果,要么轉(zhuǎn)為 Changelog 要么重建一個新隊列。版本控制。由于更新方式的不同,文件中的數(shù)據(jù)是可變的,而隊列中的數(shù)據(jù)是不可變的。文件表示某個時間點的狀態(tài),因此數(shù)據(jù)湖需要版本控制以增加回溯的功能;而相對地,隊列則表示一段時間內(nèi)狀態(tài)變化的事件,本來有 Event Sourcing 的能力,因此不需要版本控制。并行寫入。文件有唯一的寫鎖,只允許單個進程寫入。數(shù)據(jù)湖通常以整個目錄作為一個表暴露給用戶,如果有多并行寫入,則在該目錄下為每個并行進程新增基于文件的快照進行隔離(MVCC)。而相對地,隊列本來就支持并行寫入,因此無需快照隔離。其實這個差異也是由于兩者不同的更新方式導致的,因為隊列 Append-Only 的方式保證了并發(fā)寫入也不會導致數(shù)據(jù)丟失,而文件則不然。 通過上述的分析,相信不少讀者已經(jīng)隱約感覺到:基于文件的存儲類似流表二象性中的表,適合用于保存可以被查詢的可變狀態(tài)(計算的最終結(jié)果或中間結(jié)果),而基于隊列的存儲類似表示流表二象性中的流,適合用于保存被流計算引擎讀取的事件流(Changelog 數(shù)據(jù))。 雖然流表二象性能使得兩者可以交替使用,但若使用不當會導致數(shù)據(jù)在流表兩種狀態(tài)間進行不必要的轉(zhuǎn)換,并給下游業(yè)務造成額外的麻煩。具體來講,如果文件系統(tǒng)中存的是 Changelog 數(shù)據(jù),那么下游進行流式讀取(監(jiān)聽)時,讀到的是 Changelog 的 Changelog,完全不合理。相對地,如果消息隊列存的是非 Changelog 數(shù)據(jù),那么該隊列則丟失了更新的能力,任何更新都會導致消息不同版本的同時存在。由于目前 Changelog 類型一般由 CDC 或者流計算的聚合、Join 產(chǎn)生,還未推廣到一般的 MQ 使用場景,所以后一種問題更常發(fā)生。但筆者認為,Changelog 是更加流原生的格式,未來大概會標準化并普及到隊列存儲中,目前非 Changelog 的數(shù)據(jù)則可以被看作是 Append-Only 業(yè)務的特例。 上述的結(jié)論可以被應用到當前熱門的實時數(shù)倉建設(shè)中。除了 Lambda 架構(gòu),當前實時數(shù)倉架構(gòu)主要有 Kappa 架構(gòu)和實時 OLAP 變體兩種[9],無論哪種通常都使用 Kafka/Pulsar 等 MQ 作為 ODS/DWD/DWS 等中間層的存儲,OLAP 數(shù)據(jù)庫或 OLTP 數(shù)據(jù)庫作為 ADS 應用層的儲存。這樣的架構(gòu)主要問題在于不夠靈活,比如若想直接基于 DWD 層做一些 Ad-hoc 分析,那么常要將 DWD 層 MQ 中的數(shù)據(jù)再導出到數(shù)據(jù)庫再做查詢。 可能有讀者會問,如果使用 Flink 直接讀 MQ 數(shù)據(jù)來算呢?其實是可以的,因為像 Pulsar 也提供了無限期的存儲,但效率會比較低,主要原因是 MQ 無法提供索引來實現(xiàn)謂詞下推等優(yōu)化[10],另外經(jīng)過聚合或者 Join 的數(shù)據(jù)是 Changelog 格式,數(shù)據(jù)流中會包含舊版本的冗余數(shù)據(jù)。因此業(yè)界有新的趨勢是用 Iceberg 等數(shù)據(jù)湖來代替 MQ 作為數(shù)倉中間層的存儲,這樣的優(yōu)點是能比較好地對接離線數(shù)倉及其長久以來的業(yè)務模式,而代價則是數(shù)據(jù)延遲可能變?yōu)榻鼘崟r。以本文 “文件適合存儲狀態(tài)” 的觀點來講,實時數(shù)倉中需要被業(yè)務查詢的表的確更適合用文件存儲,因為業(yè)務需要的是狀態(tài),而不關(guān)心變更歷史。 3.在離線混部 在離線混部指的是將在線業(yè)務與大數(shù)據(jù)場景的實時、離線業(yè)務混合部署在相同的物理集群上,目的是提高機器的利用率。由于歷史原因,在線業(yè)務和大數(shù)據(jù)業(yè)務的技術(shù)棧是相對獨立的,因而理所當然地分開部署: 在線業(yè)務使用為 k8s/Mesos 代表的集群管理器,而大數(shù)據(jù)業(yè)務通常使用 Hadoop 生態(tài)原生的 YARN 作為集群管理器。然而隨著集群規(guī)模的擴大,資源利用率不足的問題日益突顯,例如通常 CPU 平均占用不足 20%。解決問題的最佳辦法便是打破不同業(yè)務獨立集群的邊界實現(xiàn)混部,并利用業(yè)務資源的潮汐現(xiàn)象和優(yōu)先級進行動態(tài)的資源分配。實際上很多公司在離線混部已經(jīng)有多年的探索,而最近一兩年 k8s 的迅猛發(fā)展大大加速了業(yè)務(包括大數(shù)據(jù))上云的進度,因而在離線混部再次成為熱點。 在離線混部技術(shù)的難點主要是統(tǒng)一集群管理器、資源隔離和資源調(diào)度這幾點,下文逐點展開。 首先,統(tǒng)一在離線的集群管理器是混部的基礎(chǔ)。目前大多數(shù)公司是 k8s 與 YARN 并存的狀態(tài),但在云原生的大趨勢下,大數(shù)據(jù)組件也逐步對 k8s 提供頭等的支持,看起來 k8s 一統(tǒng)集群資源只是時間問題。不過 k8s 的要做到這點也絕非一路平坦,一是 k8s 的一級調(diào)度設(shè)計并不能很好地滿足很多批計算作業(yè)的復雜調(diào)度,二是 k8s 當前能掌控的集群規(guī)模一般在 5000 節(jié)點左右,比起 YARN 差了一個量級[11]。因此在當前階段,業(yè)界大多是選擇 YARN on k8s 的方式來漸進式地遷移。常見的做法是在 k8s pod 里啟動 NM,讓 YARN 部分 NM 節(jié)點運行在 k8s 上。 然后,資源隔離是混部的核心。雖然 k8s 提供資源管理,但是僅限于 CPU、內(nèi)存兩個維度,而網(wǎng)絡(luò)和磁盤 IO 卻暫未納入考慮[12]。這對于在混部大數(shù)據(jù)業(yè)務而言顯然是不夠的,因為大數(shù)據(jù)業(yè)務可以很輕松地將機器的網(wǎng)絡(luò)或磁盤打滿,嚴重影響在線業(yè)務。要達到生產(chǎn)的資源隔離,通常需要 Linux 內(nèi)核級別的支持,這超出本文的范圍和筆者的知識儲備,不再詳述。 最后,資源調(diào)度是服務質(zhì)量的保證。調(diào)度器需要考慮物理節(jié)點的資源異構(gòu)、同類業(yè)務充分打散分布和業(yè)務的部署偏好來優(yōu)化調(diào)度,優(yōu)化效率并最大程度避免相互干擾。此外,集群調(diào)度器會按照優(yōu)先級來進行資源超發(fā)。在業(yè)務低峰期,空閑的資源可以用于跑優(yōu)先級低、延遲不敏感的離線作業(yè),然而在業(yè)務出現(xiàn)突發(fā)流量或發(fā)現(xiàn)在線作業(yè)受到離線作業(yè)干擾時,集群調(diào)度器需要快速讓離線作業(yè)退出并讓出資源。 4.HTAP HTAP 全稱是 Hybrid Transactional Analytical Processing (混合事務分析處理),即同時支持在線事務查詢和分析查詢。前文所說的計算和存儲的流批一體是實時和離線技術(shù)棧上的融合,在離線混部是大數(shù)據(jù)業(yè)務與在線業(yè)務運維管理上的融合,而 HTAP 就是最終的大數(shù)據(jù)和在線業(yè)務技術(shù)棧上的融合。自 2014 年 Gartner 提出該概念后,HTAP 成為了數(shù)據(jù)庫領(lǐng)域最為熱門的方向。除了簡化 OLTP 和 OLAP 兩套技術(shù)棧的復雜架構(gòu)外,HTAP 還有一個重要的需求背景: 隨著數(shù)據(jù)場景從企業(yè)內(nèi)部決策支持,到用作為線上增值服務的算法模型輸入(比如推薦、廣告),再到直接作為面向用戶的數(shù)據(jù)服務(比如淘寶生意參謀、滴滴行車軌跡等),OLTP 和 OLAP 的邊界正變得越來越模糊。 HTAP 從架構(gòu)來看分為兩類: 單系統(tǒng)同時服務于 OLTP 和 OLAP,或有兩套系統(tǒng)分別服務于 OLTP 和 OLAP。現(xiàn)在業(yè)界比較熱門的 TiDB、OceanBase 和 Google 的 F1 Lightning 都屬于后者。在這類系統(tǒng)中,OLTP 和 OLAP 分別有獨立的存儲和計算引擎,并依靠內(nèi)建的同步機制來將 OLTP 系統(tǒng)中的行存數(shù)據(jù)同步到 OLAP 系統(tǒng)轉(zhuǎn)為適合分析業(yè)務的列存數(shù)據(jù)。在此之上,查詢優(yōu)化器對外提供統(tǒng)一的查詢?nèi)肟冢瑢⒉煌愋偷牟樵兎謩e路由到合適的系統(tǒng)中。 比起傳統(tǒng)的基于 Hadoop 生態(tài)的數(shù)據(jù)倉庫,HTAP 的優(yōu)點是: 內(nèi)置可靠的數(shù)據(jù)同步機制,避免建立 OLTP 庫到數(shù)據(jù)倉庫的復雜 ETL 管道,同時也提高了數(shù)據(jù)一致性(比如 TiDB 和 F1 Lightning 都提供與 OLTP 一致的可重復讀一致性)。 對用戶友好的統(tǒng)一查詢接口,屏蔽了底層引擎的復雜性,大大降低了 OLAP 的門檻。這使得在有授權(quán)的情況下,線上業(yè)務團隊能利用 OLAP 進行輕量級數(shù)據(jù)分析,而數(shù)據(jù)分析團隊也能利用 OLTP 進行快速的點查。 數(shù)據(jù)安全性更有保障。將數(shù)據(jù)在不同組件間移動容易造成權(quán)限不一致和安全漏洞,而 HTAP 可以復用 OLTP 的數(shù)據(jù)權(quán)限和避免數(shù)據(jù)跨組件訪問來避免這些問題。 雖然 HTAP 的愿景非常美好,但要構(gòu)建經(jīng)得起業(yè)務檢驗的 HTAP 系統(tǒng)并不容易。數(shù)據(jù)庫和大數(shù)據(jù)領(lǐng)域先后有多次嘗試,不過目前算得上成功的案例屈指可數(shù),其主要難點在于: OLTP 和 OLAP 資源的隔離。由于 OLAP 常包含一些資源密集的復雜查詢,OLTP 和 OLAP 公用的組件很容易產(chǎn)生資源競爭,從而干擾優(yōu)先級更高的 OLTP 查詢。在早些年的案例中,共享計算和存儲的 HTAP 都不能獲得很好的效果,因此最近的 HTAP 數(shù)據(jù)庫都在硬件級別進行兩者負載的隔離,也就是獨立的存儲和計算。 數(shù)據(jù)同步機制如何確保數(shù)據(jù)一致性和新鮮度(freshness)。不同于基于 Hadoop 的數(shù)據(jù)倉庫通常允許小時級別的數(shù)據(jù)延遲和不一致窗口,HTAP 通常承諾強一致性以保證一個查詢無論被路由到 OLTP 系統(tǒng)還是 OLAP 系統(tǒng)都能獲得一致結(jié)果,這對數(shù)據(jù)同步機制的性能和容錯性都提出很高的要求。目前在 HTAP 領(lǐng)域稱得上 State of the art 的兩個數(shù)據(jù)庫里,F(xiàn)1 Lightning 使用無入侵的 CDC 方式進行同步,TiDB 基于 Raft 算法進行數(shù)據(jù)復制。前者松耦合,但實現(xiàn)比較復雜;后者更加簡潔優(yōu)雅,但會受 OLTP 設(shè)計的約束,比如復制的數(shù)據(jù)塊大小需要與 OLTP 一致[16]。 淺談大數(shù)據(jù)的過去、現(xiàn)在和未來 如何利有機結(jié)合 OLTP 和 OLAP 工作負載。目前的 HTAP 像同一個門面后的兩套獨立系統(tǒng),一個查詢要么交給 OLTP 處理,要么交給 OLAP 處理,并沒有產(chǎn)生 1 + 1 > 2 的化學反應。IBM 指出,真正的 OLAP 是在同一個事務里高效地處理 OLTP 和 OLAP 兩種工作負載[15]。要做到這點,靠數(shù)據(jù)同步的 HTAP 架構(gòu)大概難以做到,需要從分布式事務算法層面來解決。 盡管 HTAP 還未被廣泛應用,但可以預見未來將在很大程度上影響數(shù)據(jù)倉庫架構(gòu)。在數(shù)據(jù)規(guī)模不大、分析需求簡單的場景下,HTAP 將成為最為流行的解決方案。 03、未來:回歸本質(zhì) “融合” 是大數(shù)據(jù)當前發(fā)展的大勢,這點從歷史的發(fā)展規(guī)律角度可以窺見其必然性。對于新出現(xiàn)的技術(shù)挑戰(zhàn),在最初的探索期各類解決方案總是層出不窮,其中采用 Greenfield 方式的解決方案可能會將已有的基礎(chǔ)推倒重來,相比原有技術(shù)帶來一定的退化(Regression)。退化限制了新技術(shù)的應用場景,導致新舊兩種技術(shù)的雙軌制,但只要核心功能沒有太大變化,這樣的割裂這往往只是暫時的。 回顧大數(shù)據(jù)的發(fā)展歷史,“大數(shù)據(jù)” 一詞原本用于描述數(shù)據(jù)規(guī)模、多樣性和處理性能給數(shù)據(jù)管理帶來的挑戰(zhàn),而后續(xù)被用于描述為處理這類問題而構(gòu)建的數(shù)據(jù)系統(tǒng),即 “大數(shù)據(jù)系統(tǒng)”。由于這類系統(tǒng)基于與傳統(tǒng)數(shù)據(jù)不同的基礎(chǔ)構(gòu)建,并舍棄后者標配的事務特性,導致難以應用到線上業(yè)務,通常只用于數(shù)據(jù)倉庫、機器學習等對數(shù)據(jù)延遲、數(shù)據(jù)準確性要求稍微低一點的場景,而這類業(yè)務場景又逐漸被稱為 “大數(shù)據(jù)業(yè)務”。 然而,大數(shù)據(jù)技術(shù)本質(zhì)是數(shù)據(jù)密集型的分布式系統(tǒng),而隨著分布式系統(tǒng)的發(fā)展和普及,大數(shù)據(jù)系統(tǒng)在功能特性和業(yè)務場景的限制終將被打破,與新出現(xiàn)的以 Spanner 為代表的 NewSQL 分布式數(shù)據(jù)庫并無明顯界限。屆時,”大數(shù)據(jù)” 一詞也許會和很多 buzzword 一樣逐漸消失在歷史的長河,回歸到通用的分布式系統(tǒng)的本質(zhì)。水平擴展、優(yōu)秀容錯性、高可用的分布式特性將成為各種系統(tǒng)的標配,無論在 OLTP 或者 OLAP 場景。
(部分內(nèi)容來源網(wǎng)絡(luò),如有侵權(quán)請聯(lián)系刪除)
立即免費申請產(chǎn)品試用 免費試用
相關(guān)文章推薦
相關(guān)主題

人工
客服

立即掃碼
享受一對一服務
億信微信二維碼

預約
演示

您好,商務咨詢請聯(lián)系

400咨詢:4000011866

久久图片视频| 女人高潮内射99精品| 久久精品国产亚洲a∨蜜臀| jizz偷窥| 成人在线免费av| 久久人人爽av亚洲精品天堂| h片免费网站| 日本中文在线视频| 免费人成网站在线观看不| 国产精品毛片av在线看| 日日射天天操| 日本一道本在线| 黑人巨大xxxxx性猛交| 人妻无码中文久久久久专区| 欧美成人资源| 又色又爽又黄又硬的视频免费观看| 欧美jizzhd精品欧美丰满 | 毛片无遮挡高清免费| 黄色av一区| 精品乱码一卡二卡四卡| 九色视频导航| 极品美女极度色诱视频在线| 中文无线乱码二三四区| 奇米影视7777久久精品| 我要色综合网| 99精品国产福利一区二区| 青青成线在人线免费啪| 婷婷导航| 麻豆视频国产精品| 秋霞影院av| 偷窥日本少妇撒尿chinese| 激情狠狠| 久久久精品94久久精品| 日韩中文字幕免费在线观看| 2024男人天堂| 国产精品偷拍| 9色在线视频| 国产精品国产a级| 久久精品国产久精国产| 性色av免费观看| 国产精品精品久久久久久| 午夜av毛片| 成人动作片在线观看| 国产精品99久久久久人中文网介绍| 久草大| 日韩内射激情视频在线播放免费| 无码精品人妻一区二区三区av| 农村一级毛片| 日本十八禁黄无遮禁视频免费| 无码国模产在线观看免费| 国内成人精品2018免费看| 深夜免费福利视频| 日韩一区二区三区在线| xxnn成人免费视频| 亚州无限乱码一二三四麻豆| 免费国产黄色片| 欧美性猛交| 亚洲品牌自拍一品区9| 亚洲国产成人精品无码区在线秒播 | 日日碰狠狠添天天爽超碰97| 四虎4545www精品视频| 国产精品偷伦视频免费手机播放| 国产欧美成人一区二区a片| 最近中文2019字幕第二页| 午夜视频体内射.com.com| 奇米色777欧美一区二区| 久久伊人网视频| 香蕉欧美成人精品a∨在线观看| 国产91会所女技师在线观| 欧美精品成人在线| 国产又黄又爽| 亚洲一区二区二区久久成人婷婷| 国产手机av片在线观看| 久久99久久久| 午夜在线播放| 久久99精品久久久久久hb| 国产av无码国产av毛片| 卡一卡二卡三免费视频| 一本久久a久久免费精品不卡| 放荡富婆videos√| 日本少妇一级| 在线亚洲自拍| 中文乱码免费一区二区| 性视频网站免费| 少妇高潮太爽了在线视| 亚洲一二三区在线| 日本无遮羞打屁股网站视频| 国产黄大片在线观看画质优化| 超碰成人av| 色婷婷狠狠久久综合五月| 一区二区精品视频| 日本三级一区| 久热这里只有精品12| 人妻人人看人妻人人添| 在线 色| 91精品视频在线免费观看| 国产一区二区三区四区精华| 欧美激情国产在线| 国产福利一区二区| 色婷网| 亚洲色成人网站www永久四虎| 99在线精品视频免费观看20| 男女后进式猛烈xx00动态图片| 欧美综合在线观看视频| 欧美成人不卡| 国产av亚洲第一女人av| 国产成人av在线影院无毒| 麻豆专区一区二区三区四区五区| 亚洲午夜理论无码电影| 亚洲免费国产午夜视频| 国产伦精品一区二区三区在线观看| 夜夜综合| 亚洲xxxxxx| 欧美又黑又粗| 亚洲精品粉嫩美女一区| 日日夜夜爱爱| 国产男女精品| 亚洲一区二区经典在线播放| www久久久天天com| 肉体裸交丰满丰满少妇在线观看 | 波多野吉衣av无码| 色婷婷五月综合激情中文字幕| 黄色a大片| 影音先锋中文字幕在线视频| 久久久亚洲精品视频| www..com色| 亚洲国产精品ⅴa在线播放| 国产精品69人妻无码久久| 国产97自拍| 国产 日韩 另类 视频一区| 黄色国产在线播放| 国产少妇露脸精品| 午夜亚洲国产理论片二级港台二级| 婷婷色中文网| 羞羞涩涩视频| 综合色在线| 成年人看的黄色| 五月天婷婷在线视频| 特黄熟妇丰满人妻无码| 国产免费久久精品99re丫丫一| 97精品在线观看| 国产一级做a爱片在线看免| 毛片av在线播放| 78亚洲精品久久久蜜桃网| 天天摸夜夜添狠狠添高潮出水 | 国产精品久久久久久人妻精品动漫| 色偷偷网站视频| 国产传媒资源网站| 国产精品99久久久精品无码| 色网在线看| 伊人涩| 久久人妻少妇偷人精品综合桃色 | 免费视频色| 免费观看成人毛片| 添女人囗交vk| 亚洲午夜1000理论片aa| 亚洲v欧美v日韩v国产v| 色综合欧美在线视频区| 亚洲精品国产精品乱码不99| 国产精品无码a∨精品影院| 国产精品一区二区三区久久| 亚洲 小说 欧美 激情 另类| 色草在线| 国产精品区av| 国产极品91| 3d动漫精品啪啪一区二区免费| 97精品人人妻人人| 18禁床震无遮掩视频| 国产爽爽久久影院hd| 无码人妻精品一区二| 无码免费中文字幕视频| 人人妻人人澡人人爽人人精品浪潮| 豆花视频在线| 国产精品麻豆成人av电影艾秋| 国产美女av| 天天搞夜夜爽| 久久日av| 在线播放一级片| 男人天堂最新网址| 欧洲熟妇精品视频| 亚洲精品国产电影| 中本亚洲欧美国产日韩| 日本国产网站| 中文字幕亚洲综合久久2020| 国产成人免费高清直播| 美国人性欧美xxxx| 国产精成人品免费观看| 久久这里只精品国产免费9| 久久国内精品一区二区三区| 午夜男人的天堂| 自拍一区在线| 亚洲风情亚aⅴ在线发布| 男女车车的车车网站w98免费| 日本嫩草影院| 超碰97国产精品人人cao| 日本少妇内射视频播放舔| 97国产精品人妻无码久久久| 日日人人爽人人爽人人片av| 中文字幕日韩高清| 亚日韩欧美| 色五月五月丁香亚洲综合网| 97av视频在线观看| 亚洲精品99久久久久久| 日韩草逼视频| 亚洲鲁鲁| 国产最新av在线播放不卡| 开心激情婷婷| 国产精品揄拍一区二区久久国内亚洲精| 综合天堂av久久久久久久| 夜色资源ye321 在线观看| 欧美自拍视频| 午夜片在线| 亚洲免费毛片| 妹子干综合网| 成年女人午夜性视频| 人人草网| 国产成年无码av片在线| 超碰96在线| 午夜精品视频一区| av无码中出一区二区三区| 极品少妇露脸一区二区| 日韩精品短视频| 免费xxxx大片国产在线| 亚洲成av不卡无码无码不卡 | 亚洲欧美精品无码一区二区三区| 五月婷婷六月丁香综合| av在线手机版| 成人免费mmmmm视频| 欧美牲交黑粗硬大| 国产精品5区| 午夜福利片国产精品| 亚洲精品无码永久中文字幕| 欧美一级视频免费| 亚洲综合无码久久精品综合| 免费av中文字幕| 国产精品国一国二在线| 91精品国产综合久久福利不卡| 久久久久久亚洲精品不卡| 综合精品| 九九av在线| 国产精品自拍在线| 美女又爽又黄网站视频| 蜜臀av色欲a片无人一区| 黄色片视频免费观看| 国产欧美日韩二区| 欧美hdse| 亚洲一区二区三区尿失禁| 欧美性xxxxx极品少妇偷拍| 7777欧美成是人在线观看| 国内自拍在线观看| 美女一级| 国产黄色片免费| 日本无遮真人祼交视频| 91激情在线观看| 国内成人精品2018免费看| 久久精品无码专区免费| 美女乱淫免费视频网站| 秋霞福利网| 国产3p露脸普通话对白| 少妇一级视频| 日噜噜夜噜噜| 日本在线资源| 日本黄又爽又大高潮毛片| 精品人妻中文av一区二区三区| 国产放荡对白视频一区二区| 一区久久| 国产精品日韩精品欧美精品| 亚洲人成综合网站7777香蕉| 国产av一区二区精品凹凸| 精品一区二区三区在线观看视频 | 一区二区视频网| 人妻在卧室被老板疯狂进入国产| 亚洲综合热| 成人免费在线网站| 风间由美一二三区av片| 久久黄色免费视频| 久久国产乱子伦免费精品| 色综合色综合| 色欲av伊人久久大香线蕉影院| 国产露出视频| 韩国美女啪啪| 中文字幕四区| a级大片在线观看| 影音先锋人妻av中文字幕久久| 欧美色图俺去了| 成人免费公开视频| 欧美v亚洲| 性欧美牲交xxxxx视频欧美| 少妇一级免费| 最激烈的床震娇喘视频出水| 亚洲www啪成人一区二区| 91波多野结衣| 中国女人一级一次看片| 国产内射在线激情一区| 亚洲美女黄色片| 先锋影音av资源在线观看| 国产人妻久久精品一区二区三区 | 99精品国产一区二区三区2021| 51国产偷自视频区视频| 成人久久免费| 性少妇videoxxⅹ中国69| 国产精品久久久久久久免费软件| 亚洲一区二区免费在线观看| 中日韩美中文字幕av一区| 精品久久久久久久久久岛国gif| 成年人在线观看av | 手机看片日韩在线| 天天爽天天干| 久久久久亚洲精品男人的天堂| 久久一区精品| 国内一级黄色| 美国成人免费视频| 男女扒开双腿猛进入免费看污| 2021国产精品香蕉在线观看| 播放男人添女人下边视频| 久久这里只有精品8| 亚洲激情综合| ⅹ一art唯美在线观看| 亚洲一卡二卡三卡四卡无卡麻豆| 在线色播| 超碰老司机| 无码视频一区二区三区| 日韩激情视频在线| wwwav麻豆| 99精品免费久久久久久久久日本| 四十五十老熟妇乱孑视频| 97毛片| 午夜爱| 国产在线精品视频二区| 亚洲人成网亚洲欧洲无码 | 精品成人在线观看| 波多野结衣中文一区| 亚洲天堂第一| 伊人久久大香线蕉av色| 午夜福利50集在线看| 亚洲a区在线观看| 疯狂做爰的爽文多肉小说王爷| 网站黄在线| 色又黄又爽18禁免费网站现观看| 免费1级做爰片在线观看爱|