睿帆科技如何用好數(shù)據(jù)庫這把利器?挖掘未來“鉆石礦”
21世紀的“鉆石礦”是什么?“大數(shù)據(jù)。”
近年來,大數(shù)據(jù)因其在社會生產(chǎn)、流通、分配、消費活動以及經(jīng)濟運行機制等方面發(fā)揮著重要的作用,一直被認為是“未來的新石油”。今年,國家發(fā)改委重點指出,擴大投資,新基建是重點,制定加快新型基礎(chǔ)設(shè)施建設(shè)和發(fā)展的意見,實施全國一體化大數(shù)據(jù)中心建設(shè)重大工程,大數(shù)據(jù)戰(zhàn)略已上升為國家戰(zhàn)略高度,積極落實推進大數(shù)據(jù)發(fā)展政策。
被上升到國家戰(zhàn)略的大數(shù)據(jù),行業(yè)市場廣闊。去年中國信息通信研究院在發(fā)展白皮書中提到,綜合國內(nèi)外環(huán)境、新興技術(shù)發(fā)展等多種因素,測算2018年我國大數(shù)據(jù)產(chǎn)業(yè)增速約為15%,產(chǎn)值達到5405億元。
賽迪數(shù)據(jù)也曾顯示,2018年中國大數(shù)據(jù)產(chǎn)業(yè)規(guī)模為4384.5億元,同比增長23.5%;到2021年,中國大數(shù)據(jù)產(chǎn)業(yè)規(guī)模將超過8000億元。
市場廣闊的背后,大數(shù)據(jù)被有效儲存、使用的情況卻不容樂觀,甚至只有10%的利用率,如何喚醒大量“沉睡的”數(shù)據(jù)并從中尋找、分析有價值的信息,促進業(yè)務(wù)發(fā)展,無疑是一個巨大挑戰(zhàn)。
機遇與挑戰(zhàn)并存,隨著5G時代的到來,各行各業(yè)各領(lǐng)域數(shù)據(jù)化、信息化之后產(chǎn)生的數(shù)據(jù)呈現(xiàn)井噴式增長,推動著大數(shù)據(jù)的蓬勃發(fā)展。此外,人工智能、數(shù)據(jù)中臺等新技術(shù)新概念的興起,也推送了大數(shù)據(jù)產(chǎn)業(yè)的轉(zhuǎn)型和融合。
目前,行業(yè)頭部企業(yè)數(shù)據(jù)每年以PB級甚至上百PB爆炸式增長,催生了對于PB級數(shù)據(jù)量在線或?qū)崟r數(shù)據(jù)分析的處理能力的需求。如何存儲,使用這些數(shù)據(jù),成為SAAS賽道上,各個大數(shù)據(jù)服務(wù)商需要深思的問題。
極速的交互查詢引擎
睿帆科技就是這些大數(shù)據(jù)服務(wù)商的其中之一,如何存儲、利用大數(shù)據(jù),從一開始睿帆科技就思考的很清晰。
睿帆科技的創(chuàng)始團隊發(fā)現(xiàn),面對龐大的數(shù)據(jù)量,很多企業(yè)早期主要通過抽樣數(shù)據(jù)來獲取結(jié)論。抽樣之后的數(shù)據(jù)變成百萬級或千萬級,是原始數(shù)據(jù)的一個子集,和實際情況會有很大的偏差,導(dǎo)致根據(jù)樣本得出的結(jié)論可靠性大大降低。
為了追求數(shù)據(jù)的準確性,有的企業(yè)不得不降低數(shù)據(jù)處理的實時性,采用離線處理的方式,但是數(shù)據(jù)的價值就在于其時效性,越早分析越能得到快速準確的反饋和響應(yīng),并及時利用結(jié)論指導(dǎo)后續(xù)的業(yè)務(wù)工作。
此時,一款針對海量數(shù)據(jù)進行實時即席查詢分析的數(shù)據(jù)庫就顯得尤其關(guān)鍵,它甚至決定了企業(yè)是否能以比競爭對手更低的成本,更快的速度解決問題,構(gòu)建起核心競爭力。
對此,睿帆自研了一款分布式分析型數(shù)據(jù)庫雪球DB。
雪球DB是一款純列式數(shù)據(jù)庫,提供海量結(jié)構(gòu)化數(shù)據(jù)存儲和高并發(fā)查詢。針對此前采用離線手段提高數(shù)據(jù)的準確性,卻失去了時效性的痛點,雪球DB則提供PB級數(shù)據(jù)聯(lián)機分析處理,實現(xiàn)高吞吐即席查詢(Ad-hoc)和多維分析場景。
雪球DB對于上述痛點,各個擊破??偟膩碚f,雪球DB打破了傳統(tǒng)架構(gòu)的讀寫瓶頸,實現(xiàn)海量數(shù)據(jù)的簡單查詢可以在毫秒級返回查詢結(jié)果。
簡單來說,雪球DB的特點就是:快速、穩(wěn)定、易用。滿足了海量數(shù)據(jù)的實時交互式查詢需求。但做到這些并不是一件容易的事情,雪球DB從研發(fā)到第一版正式推出,花了近5年的時間。到了2019年6年,睿帆科技正式推出雪球DB 1.0版本。
雪球DB通過列式存儲、向量化執(zhí)行方式,達到單表千億級數(shù)據(jù)簡單查詢響應(yīng)時間在毫秒級別,能夠高效、極速,支持多并發(fā)即席查詢。雪球DB可以為數(shù)據(jù)保留多個副本,并對數(shù)據(jù)的多個副本之間自動進行同步,保證數(shù)據(jù)安全。另外,還具備海量數(shù)據(jù)的實時加載以及索引、數(shù)組及嵌套等功能。
雪球DB的定位一開始并不清晰,“在最開始研發(fā)的時候,我們主要是為了解決如何快速響應(yīng)交互式查詢的問題,但是后來我們其實是開發(fā)出了一款通用的OLAP產(chǎn)品數(shù)據(jù)倉庫,進而解決了交互式查詢的問題。”睿帆科技CTO王雪博士回憶道。
作為一款通用的OLAP產(chǎn)品數(shù)據(jù)倉庫,雪球DB主要有兩個兩個使用場景,一種是作為通用的OLAP數(shù)據(jù)庫來使用,另一種就是極致快速響應(yīng)交互式查詢引擎。但最終,在長期的摸索中,雪球DB的產(chǎn)品定位越發(fā)清晰,“我們其實就想把雪球DB作為一個極速的交互查詢引擎來使用?!蓖跹└嬖V獵云網(wǎng)。
“快”
今年10月份,睿帆科技正式推出雪球DB 2.0版本?!昂偷谝话嫜┣駾B相比,新版雪球DB在易用性、可拓展性上做了增強。”王雪談到。
具體而言,“雪球DB”的特點主要在于列式存儲,向量化執(zhí)行引擎,去中心化的集群架構(gòu)以及數(shù)據(jù)自動均衡、副本同步拷貝的能力。
列式存儲,相比于行式存儲將每一行的數(shù)據(jù)連續(xù)存儲不同,列存是連續(xù)存儲每一列的數(shù)據(jù)。
它的優(yōu)勢是在數(shù)據(jù)讀取時,只需要讀取參與計算的列,這極大降低了IO的消耗,加快了查詢速度。與此同時,同一列中的數(shù)據(jù)屬于同一類型,這使得列式存儲可對數(shù)據(jù)進行高達十倍以上的壓縮,這節(jié)省了存儲空間和成本消耗,非常適合大數(shù)據(jù)查詢分析。
向量化執(zhí)行引擎,對內(nèi)存中的數(shù)據(jù),一個數(shù)據(jù)集調(diào)用一次指令(而非每一行調(diào)用一次),不僅減少了函數(shù)調(diào)用次數(shù),而且可以充分發(fā)揮指令的并行能力,大幅縮短了計算耗時。相當于讓數(shù)據(jù)處理的效率有了幾何倍的提升。
應(yīng)對節(jié)點宕機時的負載均衡優(yōu)化,是睿帆開發(fā)的一項專利技術(shù),主要是針對傳統(tǒng)分布式系統(tǒng)節(jié)點宕機時可能造成剩余節(jié)點負載不均的問題。雪球DB能夠根據(jù)系統(tǒng)整體容量自動地生成和配置副本策略,使得雪球DB能夠在一個節(jié)點宕機時,保證剩余各節(jié)點負載相對均衡,避免雪崩效應(yīng)。雪球DB可以在不同的節(jié)點上維護相同數(shù)據(jù)的多個副本。如果當前節(jié)點發(fā)生故障,則自動切換由其副本提供服務(wù)。
這些核心特點使得“雪球DB”在根本上解決了交互式查詢在數(shù)據(jù)量大的時候效率低下的問題,滿足了海量數(shù)據(jù)在線交互、多維分析和高效查詢,確保數(shù)據(jù)分析結(jié)果更真實?!翱?。”王雪用一個字總結(jié)了雪球DB新版本的特點,“加載數(shù)據(jù)快,查詢數(shù)據(jù)快,實時更新也快,和其他傳統(tǒng)數(shù)據(jù)廠商相比,一個快字可以涵蓋雪球DB所有的特點?!?
“實時性、高效性、承壓性”
目前,雪球DB2.0版本已經(jīng)在電信、軌交、安防、大型公共工程等領(lǐng)域使用,針對大型公共工程場景,王雪談到了兩個具體的場景案例。
大型公共工程是一個比較典型的場景,它每天產(chǎn)生的數(shù)據(jù)量不大,數(shù)據(jù)通過實時消息隊列接入實時流引擎進行處理,處理之后的數(shù)據(jù)進入到NoSQL數(shù)據(jù)庫中供給用戶進行實時交互式查詢。NoSQL數(shù)據(jù)庫無法支撐復(fù)雜的SQL查詢,且無法對接報表制作工具,相比NoSQL數(shù)據(jù)庫,雪球DB則既可以響應(yīng)用戶的復(fù)雜實時SQL查詢,也可以實時加載和更新數(shù)據(jù)。
另外一個比較典型的場景在于安防場景,客戶使用雪球DB進行碰撞多維分析。具體來說,就是從雪球DB里面執(zhí)行兩個查詢生成兩個數(shù)據(jù)集合,并對這兩個數(shù)據(jù)集合進行并、交、差、補的集合運算得出結(jié)果。
在采訪中,王雪博士還透露了雪球DB 3.0版本將會在明年推出。相比于雪球DB 2.0版本而言,3.0版本的雪球DB將支持OLAP和OLTP雙引擎,可以滿足不同的場景。
OLTP數(shù)據(jù)庫可滿足交易型操作,保證操作的事務(wù)性,而OLAP數(shù)據(jù)庫則專門設(shè)計用于支持復(fù)雜的分析操作,可以根據(jù)分析人員要求快速、靈活地進行大數(shù)據(jù)量的復(fù)雜查詢處理,并且以一種直觀而易懂的形式將查詢結(jié)果提供給決策人員。
舉例來說,電信場景下對交互查詢實時性、高效性、復(fù)雜性的要求,OLAP引擎則更為適用。
雪球DB 3.0版本和2.0版本將是兩個獨立并行的產(chǎn)品。未來,雪球DB 3.0版本除了已經(jīng)覆蓋的場景外,還會拓展到金融領(lǐng)域。
談及雪球DB的未來,王雪表示,雪球DB一方面會和大數(shù)據(jù)生態(tài)圈里面的其他產(chǎn)品做成集合,即與睿帆的另外三款產(chǎn)品成一套組合拳,由零距大數(shù)據(jù)中臺作為“低代碼”+“數(shù)據(jù)中臺”的最下層依托,附加極速查詢的分布式分析型數(shù)據(jù)庫雪球DB與少量語料即可完成文本識別的大禹中文智慧文本平臺,形成了覆蓋結(jié)構(gòu)化、非結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)的一整套系統(tǒng)。這套系統(tǒng)所有的產(chǎn)品都支持PB級以上的數(shù)據(jù)處理能力,這使得產(chǎn)品的性能和承壓性更強。
另外一個方向即將服務(wù)產(chǎn)品化,換句話說就是云化,“雪球DB要上云,但是上云也需要解決一些問題,這些問題我們已經(jīng)在逐步的解決過程之中?!蓖跹┱劦?。
猜你喜歡
邊緣計算技術(shù)研發(fā)商中視云集團宣布完成20億元A輪融資
由翼龍實業(yè)領(lǐng)投,溪金實業(yè)跟投。尋找算力龍頭股(二)|斥巨資將新華三納入麾下,紫光股份在謀一盤大棋?
行業(yè)數(shù)字化轉(zhuǎn)型已從“上好云”發(fā)展到“用好云”的新階段。Tiger Global、凱雷投資集團領(lǐng)投,神策數(shù)據(jù)完成2億美元D輪融資
明勢資本、DCM、線性資本、紅杉中國、華平投資、Bessemer Ventures、M31 資本、襄禾資本、五源資本、GGV 紀源資本跟投。清華x-lab創(chuàng)業(yè)DNA基金、啟恒產(chǎn)業(yè)投資基金加持,寓科未來完成D+輪融資
此次D+輪融資資金將用于智能軟硬件開發(fā)、大數(shù)據(jù)產(chǎn)業(yè)基地建設(shè)等方面。