睿帆科技如何用好數(shù)據(jù)庫這把利器?挖掘未來“鉆石礦”

        獵云網(wǎng)蘇舒2020-12-16 12:21 大公司
        作為一個極速的交互查詢引擎,雪球DB 2.0版本可以用“快”涵蓋所有性能。

        21世紀的“鉆石礦”是什么?“大數(shù)據(jù)。”

        近年來,大數(shù)據(jù)因其在社會生產(chǎn)、流通、分配、消費活動以及經(jīng)濟運行機制等方面發(fā)揮著重要的作用,一直被認為是“未來的新石油”。今年,國家發(fā)改委重點指出,擴大投資,新基建是重點,制定加快新型基礎(chǔ)設(shè)施建設(shè)和發(fā)展的意見,實施全國一體化大數(shù)據(jù)中心建設(shè)重大工程,大數(shù)據(jù)戰(zhàn)略已上升為國家戰(zhàn)略高度,積極落實推進大數(shù)據(jù)發(fā)展政策。

        被上升到國家戰(zhàn)略的大數(shù)據(jù),行業(yè)市場廣闊。去年中國信息通信研究院在發(fā)展白皮書中提到,綜合國內(nèi)外環(huán)境、新興技術(shù)發(fā)展等多種因素,測算2018年我國大數(shù)據(jù)產(chǎn)業(yè)增速約為15%,產(chǎn)值達到5405億元。

        賽迪數(shù)據(jù)也曾顯示,2018年中國大數(shù)據(jù)產(chǎn)業(yè)規(guī)模為4384.5億元,同比增長23.5%;到2021年,中國大數(shù)據(jù)產(chǎn)業(yè)規(guī)模將超過8000億元。

        市場廣闊的背后,大數(shù)據(jù)被有效儲存、使用的情況卻不容樂觀,甚至只有10%的利用率,如何喚醒大量“沉睡的”數(shù)據(jù)并從中尋找、分析有價值的信息,促進業(yè)務(wù)發(fā)展,無疑是一個巨大挑戰(zhàn)。

        機遇與挑戰(zhàn)并存,隨著5G時代的到來,各行各業(yè)各領(lǐng)域數(shù)據(jù)化、信息化之后產(chǎn)生的數(shù)據(jù)呈現(xiàn)井噴式增長,推動著大數(shù)據(jù)的蓬勃發(fā)展。此外,人工智能、數(shù)據(jù)中臺等新技術(shù)新概念的興起,也推送了大數(shù)據(jù)產(chǎn)業(yè)的轉(zhuǎn)型和融合。

        目前,行業(yè)頭部企業(yè)數(shù)據(jù)每年以PB級甚至上百PB爆炸式增長,催生了對于PB級數(shù)據(jù)量在線或?qū)崟r數(shù)據(jù)分析的處理能力的需求。如何存儲,使用這些數(shù)據(jù),成為SAAS賽道上,各個大數(shù)據(jù)服務(wù)商需要深思的問題。

        極速的交互查詢引擎


        睿帆科技就是這些大數(shù)據(jù)服務(wù)商的其中之一,如何存儲、利用大數(shù)據(jù),從一開始睿帆科技就思考的很清晰。

        睿帆科技的創(chuàng)始團隊發(fā)現(xiàn),面對龐大的數(shù)據(jù)量,很多企業(yè)早期主要通過抽樣數(shù)據(jù)來獲取結(jié)論。抽樣之后的數(shù)據(jù)變成百萬級或千萬級,是原始數(shù)據(jù)的一個子集,和實際情況會有很大的偏差,導(dǎo)致根據(jù)樣本得出的結(jié)論可靠性大大降低。

        為了追求數(shù)據(jù)的準確性,有的企業(yè)不得不降低數(shù)據(jù)處理的實時性,采用離線處理的方式,但是數(shù)據(jù)的價值就在于其時效性,越早分析越能得到快速準確的反饋和響應(yīng),并及時利用結(jié)論指導(dǎo)后續(xù)的業(yè)務(wù)工作。

        此時,一款針對海量數(shù)據(jù)進行實時即席查詢分析的數(shù)據(jù)庫就顯得尤其關(guān)鍵,它甚至決定了企業(yè)是否能以比競爭對手更低的成本,更快的速度解決問題,構(gòu)建起核心競爭力。

        對此,睿帆自研了一款分布式分析型數(shù)據(jù)庫雪球DB。

        雪球DB是一款純列式數(shù)據(jù)庫,提供海量結(jié)構(gòu)化數(shù)據(jù)存儲和高并發(fā)查詢。針對此前采用離線手段提高數(shù)據(jù)的準確性,卻失去了時效性的痛點,雪球DB則提供PB級數(shù)據(jù)聯(lián)機分析處理,實現(xiàn)高吞吐即席查詢(Ad-hoc)和多維分析場景。

        來源:企業(yè)供圖

        雪球DB對于上述痛點,各個擊破??偟膩碚f,雪球DB打破了傳統(tǒng)架構(gòu)的讀寫瓶頸,實現(xiàn)海量數(shù)據(jù)的簡單查詢可以在毫秒級返回查詢結(jié)果。

        簡單來說,雪球DB的特點就是:快速、穩(wěn)定、易用。滿足了海量數(shù)據(jù)的實時交互式查詢需求。但做到這些并不是一件容易的事情,雪球DB從研發(fā)到第一版正式推出,花了近5年的時間。到了2019年6年,睿帆科技正式推出雪球DB 1.0版本。

        雪球DB通過列式存儲、向量化執(zhí)行方式,達到單表千億級數(shù)據(jù)簡單查詢響應(yīng)時間在毫秒級別,能夠高效、極速,支持多并發(fā)即席查詢。雪球DB可以為數(shù)據(jù)保留多個副本,并對數(shù)據(jù)的多個副本之間自動進行同步,保證數(shù)據(jù)安全。另外,還具備海量數(shù)據(jù)的實時加載以及索引、數(shù)組及嵌套等功能。

        雪球DB的定位一開始并不清晰,“在最開始研發(fā)的時候,我們主要是為了解決如何快速響應(yīng)交互式查詢的問題,但是后來我們其實是開發(fā)出了一款通用的OLAP產(chǎn)品數(shù)據(jù)倉庫,進而解決了交互式查詢的問題。”睿帆科技CTO王雪博士回憶道。

        作為一款通用的OLAP產(chǎn)品數(shù)據(jù)倉庫,雪球DB主要有兩個兩個使用場景,一種是作為通用的OLAP數(shù)據(jù)庫來使用,另一種就是極致快速響應(yīng)交互式查詢引擎。但最終,在長期的摸索中,雪球DB的產(chǎn)品定位越發(fā)清晰,“我們其實就想把雪球DB作為一個極速的交互查詢引擎來使用?!蓖跹└嬖V獵云網(wǎng)。

        “快”


        今年10月份,睿帆科技正式推出雪球DB 2.0版本?!昂偷谝话嫜┣駾B相比,新版雪球DB在易用性、可拓展性上做了增強。”王雪談到。

        具體而言,“雪球DB”的特點主要在于列式存儲,向量化執(zhí)行引擎,去中心化的集群架構(gòu)以及數(shù)據(jù)自動均衡、副本同步拷貝的能力。

        列式存儲,相比于行式存儲將每一行的數(shù)據(jù)連續(xù)存儲不同,列存是連續(xù)存儲每一列的數(shù)據(jù)。

        它的優(yōu)勢是在數(shù)據(jù)讀取時,只需要讀取參與計算的列,這極大降低了IO的消耗,加快了查詢速度。與此同時,同一列中的數(shù)據(jù)屬于同一類型,這使得列式存儲可對數(shù)據(jù)進行高達十倍以上的壓縮,這節(jié)省了存儲空間和成本消耗,非常適合大數(shù)據(jù)查詢分析。

        向量化執(zhí)行引擎,對內(nèi)存中的數(shù)據(jù),一個數(shù)據(jù)集調(diào)用一次指令(而非每一行調(diào)用一次),不僅減少了函數(shù)調(diào)用次數(shù),而且可以充分發(fā)揮指令的并行能力,大幅縮短了計算耗時。相當于讓數(shù)據(jù)處理的效率有了幾何倍的提升。

        應(yīng)對節(jié)點宕機時的負載均衡優(yōu)化,是睿帆開發(fā)的一項專利技術(shù),主要是針對傳統(tǒng)分布式系統(tǒng)節(jié)點宕機時可能造成剩余節(jié)點負載不均的問題。雪球DB能夠根據(jù)系統(tǒng)整體容量自動地生成和配置副本策略,使得雪球DB能夠在一個節(jié)點宕機時,保證剩余各節(jié)點負載相對均衡,避免雪崩效應(yīng)。雪球DB可以在不同的節(jié)點上維護相同數(shù)據(jù)的多個副本。如果當前節(jié)點發(fā)生故障,則自動切換由其副本提供服務(wù)。

        這些核心特點使得“雪球DB”在根本上解決了交互式查詢在數(shù)據(jù)量大的時候效率低下的問題,滿足了海量數(shù)據(jù)在線交互、多維分析和高效查詢,確保數(shù)據(jù)分析結(jié)果更真實?!翱?。”王雪用一個字總結(jié)了雪球DB新版本的特點,“加載數(shù)據(jù)快,查詢數(shù)據(jù)快,實時更新也快,和其他傳統(tǒng)數(shù)據(jù)廠商相比,一個快字可以涵蓋雪球DB所有的特點?!?

        “實時性、高效性、承壓性”


        目前,雪球DB2.0版本已經(jīng)在電信、軌交、安防、大型公共工程等領(lǐng)域使用,針對大型公共工程場景,王雪談到了兩個具體的場景案例。

        大型公共工程是一個比較典型的場景,它每天產(chǎn)生的數(shù)據(jù)量不大,數(shù)據(jù)通過實時消息隊列接入實時流引擎進行處理,處理之后的數(shù)據(jù)進入到NoSQL數(shù)據(jù)庫中供給用戶進行實時交互式查詢。NoSQL數(shù)據(jù)庫無法支撐復(fù)雜的SQL查詢,且無法對接報表制作工具,相比NoSQL數(shù)據(jù)庫,雪球DB則既可以響應(yīng)用戶的復(fù)雜實時SQL查詢,也可以實時加載和更新數(shù)據(jù)。

        另外一個比較典型的場景在于安防場景,客戶使用雪球DB進行碰撞多維分析。具體來說,就是從雪球DB里面執(zhí)行兩個查詢生成兩個數(shù)據(jù)集合,并對這兩個數(shù)據(jù)集合進行并、交、差、補的集合運算得出結(jié)果。

        來源:企業(yè)供圖

        在采訪中,王雪博士還透露了雪球DB 3.0版本將會在明年推出。相比于雪球DB 2.0版本而言,3.0版本的雪球DB將支持OLAP和OLTP雙引擎,可以滿足不同的場景。

        OLTP數(shù)據(jù)庫可滿足交易型操作,保證操作的事務(wù)性,而OLAP數(shù)據(jù)庫則專門設(shè)計用于支持復(fù)雜的分析操作,可以根據(jù)分析人員要求快速、靈活地進行大數(shù)據(jù)量的復(fù)雜查詢處理,并且以一種直觀而易懂的形式將查詢結(jié)果提供給決策人員。

        舉例來說,電信場景下對交互查詢實時性、高效性、復(fù)雜性的要求,OLAP引擎則更為適用。

        雪球DB 3.0版本和2.0版本將是兩個獨立并行的產(chǎn)品。未來,雪球DB 3.0版本除了已經(jīng)覆蓋的場景外,還會拓展到金融領(lǐng)域。

        談及雪球DB的未來,王雪表示,雪球DB一方面會和大數(shù)據(jù)生態(tài)圈里面的其他產(chǎn)品做成集合,即與睿帆的另外三款產(chǎn)品成一套組合拳,由零距大數(shù)據(jù)中臺作為“低代碼”+“數(shù)據(jù)中臺”的最下層依托,附加極速查詢的分布式分析型數(shù)據(jù)庫雪球DB與少量語料即可完成文本識別的大禹中文智慧文本平臺,形成了覆蓋結(jié)構(gòu)化、非結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)的一整套系統(tǒng)。這套系統(tǒng)所有的產(chǎn)品都支持PB級以上的數(shù)據(jù)處理能力,這使得產(chǎn)品的性能和承壓性更強。

        另外一個方向即將服務(wù)產(chǎn)品化,換句話說就是云化,“雪球DB要上云,但是上云也需要解決一些問題,這些問題我們已經(jīng)在逐步的解決過程之中?!蓖跹┱劦?。

        【本文為合作媒體授權(quán)博望財經(jīng)轉(zhuǎn)載,文章版權(quán)歸原作者及原出處所有。文章系作者個人觀點,不代表博望財經(jīng)立場,轉(zhuǎn)載請聯(lián)系原作者及原出處獲得授權(quán)。有任何疑問都請聯(lián)系(聯(lián)系(微信公眾號ID:AppleiTree)。免責聲明:本網(wǎng)站所有文章僅作為資訊傳播使用,既不代表任何觀點導(dǎo)向,也不構(gòu)成任何投資建議?!?/div>

        猜你喜歡

        国产精品久久亚洲一区二区| 狠狠入ady亚洲精品| 久久久久亚洲AV无码观看| 亚洲人成无码网站久久99热国产| 亚洲免费福利在线视频| 亚洲国产成+人+综合| 亚洲人成777在线播放| 亚洲中文字幕人成乱码 | 亚洲精品国产精品国自产观看| 黑人粗长大战亚洲女2021国产精品成人免费视频 | 亚洲精品午夜视频| 亚洲无删减国产精品一区| 亚洲v高清理论电影| 亚洲AV午夜成人片| 亚洲国语精品自产拍在线观看| 久久精品亚洲视频| 亚洲国产日韩一区高清在线| 麻豆亚洲AV永久无码精品久久| 久久久久亚洲AV片无码下载蜜桃| 亚洲一区二区三区高清| 亚洲高清无在码在线电影不卡| 亚洲成人福利在线| 亚洲六月丁香婷婷综合| 亚洲日韩精品无码专区加勒比☆ | 国产亚洲精品bv在线观看| 亚洲一线产区二线产区区| 亚洲欧美日韩中文无线码| 朝桐光亚洲专区在线中文字幕 | 亚洲成?Ⅴ人在线观看无码| 亚洲日本中文字幕天堂网| 亚洲综合伊人久久综合| 亚洲va国产va天堂va久久| 久久99亚洲网美利坚合众国| 亚洲国产精品人久久电影| 中文字幕精品三区无码亚洲| 亚洲AV日韩AV永久无码色欲| 亚洲精品一级无码鲁丝片| 亚洲精品无码久久千人斩| 久久亚洲AV无码精品色午夜| 中文字幕 亚洲 有码 在线 | 久久精品国产亚洲AV大全|