大數(shù)據(jù)分析到底需要多少種工具?
大數(shù)據(jù)如今已經(jīng)不再是什么新的名詞,五中全會(huì)大數(shù)據(jù)上升為國(guó)家戰(zhàn)略,BAT巨頭早已布局多年,大數(shù)據(jù)時(shí)代已經(jīng)真正來(lái)臨,但我們真的準(zhǔn)備好了么?
大家都知道大數(shù)據(jù)中蘊(yùn)含大量的數(shù)據(jù)價(jià)值,比如說(shuō)淘寶與天貓的用戶消費(fèi)行為、滴滴打車(chē)可以知道用戶每天去了哪里、用戶在優(yōu)酷上都看了那些視頻、移動(dòng)運(yùn)營(yíng)商的海量客戶終端信息以及上網(wǎng)行為等、大型零售商每天的銷(xiāo)售數(shù)據(jù),訂餐網(wǎng)上用戶每天吃了什么,等等大數(shù)據(jù)金礦無(wú)處不在。但淘出來(lái)的才是金子,否則只是一堆土而 已,即占用場(chǎng)地,還要花錢(qián)去保管和維護(hù)這堆土。
大數(shù)據(jù)時(shí)代金礦已經(jīng)有了,如何利用好這個(gè)金礦,某種意義上取決于我們手上的工具。熟話說(shuō)“沒(méi)有那金剛鉆,就別攬瓷器活”,工具是否適用,直接決定著我們能否進(jìn)行挖金,以及挖金的速度與效率。適合用鐵鍬還是挖掘機(jī),對(duì)挖金來(lái)說(shuō)有著質(zhì)的不同。
第一個(gè)金剛鉆Hadoop
Hadoop是大數(shù)據(jù)時(shí)代的第一個(gè)金剛鉆。筆者從08年開(kāi)始研究hadoop源碼,當(dāng)時(shí)中文資料還是比較少的,國(guó)內(nèi)除了BAT外其他公司用的也很少,初次 接觸hadoop是因?yàn)楸划?dāng)時(shí)公司的流量系統(tǒng)所困擾,當(dāng)時(shí)公司網(wǎng)站的流量已經(jīng)達(dá)到了每天接近一個(gè)億的水平,最初選擇了postgresql來(lái)計(jì)算數(shù)據(jù),但 是普通機(jī)器根本無(wú)法計(jì)算,無(wú)奈之下我們花大價(jià)錢(qián)買(mǎi)了128G內(nèi)存(在當(dāng)時(shí)是很奢侈的)的服務(wù)器,運(yùn)行在postgresql的內(nèi)存表里才勉勉強(qiáng)強(qiáng)的計(jì)算出 來(lái)。直到有一天遇到了hadoop,你懂的,一個(gè)HiveSql在幾臺(tái)普通硬件的機(jī)器上,一億數(shù)據(jù)幾個(gè)小時(shí)就出結(jié)果了。
如今Hadoop已經(jīng)不再神秘,相關(guān)書(shū)籍越來(lái)越多。但是伴隨著互聯(lián)網(wǎng)技術(shù)的日新月異,Hadoop已經(jīng)不能滿足用戶了。數(shù)據(jù)時(shí)效性差,以及查詢的響應(yīng)效率 低,那些對(duì)時(shí)效性要求較高的用戶場(chǎng)景無(wú)法滿足。Hadoo目前面臨兩兩方面的挑戰(zhàn),第一,數(shù)據(jù)從產(chǎn)生到能夠最終出結(jié)果要等待數(shù)小時(shí),時(shí)效性較差。第二,多 個(gè)Job任務(wù),相互之間爭(zhēng)搶資源,而且由于采用暴力掃描原始數(shù)據(jù)的方式,對(duì)機(jī)器資源的消耗太大,每天能夠跑的計(jì)算任務(wù)個(gè)數(shù)十分有限。
第二個(gè)利器阿里JStorm
JStorm的出現(xiàn)主要是因?yàn)镠adoop滿足不了支付寶成交實(shí)時(shí)分析的需求。阿里的雙十一活動(dòng)以及其他活動(dòng)都有對(duì)阿里網(wǎng)站成交流量實(shí)時(shí)展示的需求,通過(guò)運(yùn)營(yíng)活動(dòng),來(lái)了解開(kāi)始的幾分鐘或者幾秒鐘內(nèi),實(shí)時(shí)流入了多少的流量,帶來(lái)多大的成交。正巧當(dāng)時(shí)Apache Storm正式開(kāi)源,阿里團(tuán)隊(duì)認(rèn)為Storm正適合阿里的業(yè)務(wù),但是Storm的核心邏輯采用Clojure編寫(xiě),熟悉這門(mén)語(yǔ)言的太少,另外業(yè)務(wù)需要定制 化的邏輯,故阿里團(tuán)隊(duì)花費(fèi)3個(gè)多月的時(shí)間閱讀Storm的源碼,并將其Clojure部分更換為Java代碼。筆者曾是團(tuán)隊(duì)的一員,有幸成為其 committer,離開(kāi)阿里后,團(tuán)隊(duì)其他兄弟將其開(kāi)源,貢獻(xiàn)了出去,如今Jstorm已經(jīng)被Apache接受,正式成為Storm項(xiàng)目的子項(xiàng)目。
Storm能夠滿足企業(yè)對(duì)數(shù)據(jù)時(shí)效性的要求,但跟現(xiàn)有的其他大數(shù)據(jù)的實(shí)時(shí)系統(tǒng)一樣,都是采用預(yù)計(jì)算的方式。因流式系統(tǒng)不保存原始日志,數(shù)據(jù)只能安裝固定的 維度和粒度進(jìn)行計(jì)算與匯總,例如只能按照淘寶的類目、分鐘等維度匯總統(tǒng)計(jì)。眾所周知,運(yùn)營(yíng)情況是千遍萬(wàn)化的,很多都是突發(fā)事件,維度并不能預(yù)先固定,很多 事物也需要多方面展示,要經(jīng)過(guò)數(shù)次的不同角度、不同粒度的鉆取,來(lái)發(fā)現(xiàn)運(yùn)營(yíng)活動(dòng)的規(guī)律。基于這種場(chǎng)景,我們需要保留原始日志,同時(shí)需要非常快速的對(duì)這些原 始日志進(jìn)行快分析與計(jì)算。這樣高需求的場(chǎng)景,數(shù)據(jù)工具既要有hadoop+hive計(jì)算的靈活性,又要有Jstorm的時(shí)效性和速度。Storm就顯出了 它的不足。
新生代數(shù)據(jù)挖掘機(jī)延云YDB
YDB是延云針對(duì)用戶對(duì)大數(shù)據(jù)檢索快速、實(shí)時(shí)、多維度的需求而開(kāi)發(fā)的分析軟件,可以說(shuō)是筆者的心頭好。
YDB將傳統(tǒng)數(shù)據(jù)庫(kù)索引技術(shù)應(yīng)用在大數(shù)據(jù)技術(shù)上,打破目前大數(shù)據(jù)計(jì)算技術(shù)的僵局。將大數(shù)據(jù)檢索向時(shí)效性更強(qiáng),查詢方式更 靈活,執(zhí)行效率更高的方向演進(jìn)。雖然引用傳統(tǒng)索引技術(shù),但是對(duì)硬件的需求并不比hadoop高,不會(huì)讓小型用戶望而卻步。技術(shù)上YDB采用Java語(yǔ)言編 寫(xiě),接地氣,Sql接口用戶也更易于上手使用,同時(shí)每天千億增量萬(wàn)億總量的數(shù)據(jù)量也能滿足高端用戶的需求。YDB主要技術(shù)方向在大索引,大索引的好處在于 加快了檢索的速度,減少查詢中的分組、統(tǒng)計(jì)和排序時(shí)間,提高系統(tǒng)的性能和響應(yīng)時(shí)間來(lái)節(jié)約資源。大索引技術(shù)的運(yùn)用才能使YDB在如此大規(guī)模的數(shù)據(jù)量下依然保 持查詢響應(yīng)時(shí)間在幾秒,數(shù)據(jù)導(dǎo)入延遲在幾分鐘。
責(zé)任編輯:售電衡衡
-
碳中和戰(zhàn)略|趙英民副部長(zhǎng)致辭全文
2020-10-19碳中和,碳排放,趙英民 -
兩部門(mén):推廣不停電作業(yè)技術(shù) 減少停電時(shí)間和停電次數(shù)
2020-09-28獲得電力,供電可靠性,供電企業(yè) -
國(guó)家發(fā)改委、國(guó)家能源局:推廣不停電作業(yè)技術(shù) 減少停電時(shí)間和停電次數(shù)
2020-09-28獲得電力,供電可靠性,供電企業(yè)
-
碳中和戰(zhàn)略|趙英民副部長(zhǎng)致辭全文
2020-10-19碳中和,碳排放,趙英民 -
深度報(bào)告 | 基于分類監(jiān)管與當(dāng)量協(xié)同的碳市場(chǎng)框架設(shè)計(jì)方案
2020-07-21碳市場(chǎng),碳排放,碳交易 -
碳市場(chǎng)讓重慶能源轉(zhuǎn)型與經(jīng)濟(jì)發(fā)展并進(jìn)
2020-07-21碳市場(chǎng),碳排放,重慶
-
兩部門(mén):推廣不停電作業(yè)技術(shù) 減少停電時(shí)間和停電次數(shù)
2020-09-28獲得電力,供電可靠性,供電企業(yè) -
國(guó)家發(fā)改委、國(guó)家能源局:推廣不停電作業(yè)技術(shù) 減少停電時(shí)間和停電次數(shù)
2020-09-28獲得電力,供電可靠性,供電企業(yè) -
2020年二季度福建省統(tǒng)調(diào)燃煤電廠節(jié)能減排信息披露
2020-07-21火電環(huán)保,燃煤電廠,超低排放
-
四川“專線供電”身陷違法困境
2019-12-16專線供電 -
我國(guó)能源替代規(guī)范法律問(wèn)題研究(上)
2019-10-31能源替代規(guī)范法律 -
區(qū)域鏈結(jié)構(gòu)對(duì)于數(shù)據(jù)中心有什么影響?這個(gè)影響是好是壞呢!