大數(shù)據(jù)技術(shù)實(shí)施與應(yīng)用
在發(fā)展歷程上,大數(shù)據(jù)與云計(jì)算很類似,開始都搞不清是什么概念,但有很多人在說,難免南轅北轍。一個非常有趣現(xiàn)象:會有很多人說大數(shù)據(jù)不是什么,但很少有人說是什么。但這都不妨礙大數(shù)據(jù)成為產(chǎn)業(yè)發(fā)展趨勢。
當(dāng)務(wù)之急是不糾纏于概念,直接關(guān)注有哪些應(yīng)用可以落地,可以采用哪些大數(shù)據(jù)技術(shù)。
技術(shù)三分天下
傳統(tǒng)數(shù)據(jù)處理技術(shù)以數(shù)據(jù)庫技術(shù)為主,主要應(yīng)用在聯(lián)機(jī)事物處理(OLTP)的應(yīng)用場合,后來的數(shù)據(jù)倉庫、數(shù)據(jù)集市都是數(shù)據(jù)庫技術(shù)的發(fā)展和延伸。數(shù)據(jù)庫技術(shù)已經(jīng)有30年的歷史,可以將其概括為一句話“一種架構(gòu)支持所有應(yīng)用”。數(shù)據(jù)庫技術(shù)以結(jié)構(gòu)化數(shù)據(jù)為主,而結(jié)構(gòu)化數(shù)據(jù)也是價值密度最高的數(shù)據(jù)。而半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)價值密度相對比較低,如果采用傳統(tǒng)數(shù)據(jù)庫技術(shù)處理這些數(shù)據(jù),會被認(rèn)為得不償失。
大數(shù)據(jù)時代,以Hadoop為代表的NoSQL技術(shù),以列式數(shù)據(jù)處理為代表的MPP NewSQL技術(shù)應(yīng)運(yùn)而生,為半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)提供了技術(shù)支撐基礎(chǔ),以互聯(lián)網(wǎng)企業(yè)為代表,創(chuàng)造了各種新的商業(yè)模式,也開啟了大數(shù)據(jù)應(yīng)用的時代。
在大數(shù)據(jù)時代,對于分析類應(yīng)用的需求不斷增加,特別對于傳統(tǒng)行業(yè)/企業(yè),大數(shù)據(jù)分析需求首先包括結(jié)構(gòu)化數(shù)據(jù),這已經(jīng)分析了30多年,如今結(jié)構(gòu)化數(shù)據(jù)分析需要與各種半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)分析相結(jié)合,用全數(shù)據(jù)的視野,指導(dǎo)行業(yè)/企業(yè)的業(yè)務(wù)應(yīng)用和實(shí)踐。這就導(dǎo)致一種架構(gòu)難以完全滿足大數(shù)據(jù)的需求,“多種架構(gòu)支持多類應(yīng)用”就成為了大數(shù)據(jù)處理應(yīng)用的基本思路,出現(xiàn)了OldSQL、NewSQL和NoSQL三分天下的市場格局。
傳統(tǒng)OldSQL數(shù)據(jù)庫以O(shè)racle、IBM DB2、Sybase等為主,NewSQL以EMC Greenplum、HP Vertica、SAPSybaseIQ、Teradata、IBM Netezza、微軟PDW以及南大通用的Gbase 8a 為主;而NoSQL包括Cassandra、Mon goDB、CouchDB、Redis、Riak和Hbase等,豐富的產(chǎn)品技術(shù)為用戶提供了豐富的選擇。
混搭不可避免
大數(shù)據(jù)應(yīng)用采用多種架構(gòu)支撐不可避免。據(jù)中國移動業(yè)務(wù)支撐系統(tǒng)部高級工程師何鴻凌介紹,中國移動就采用了MPP和Hadoop混搭架構(gòu),配合原有數(shù)據(jù)倉系統(tǒng),開展大數(shù)據(jù)的應(yīng)用。其中,傳統(tǒng)DW(數(shù)據(jù)倉庫)做高價值數(shù)據(jù),也就是結(jié)構(gòu)化數(shù)據(jù)的加工,MPP做長期結(jié)構(gòu)化數(shù)據(jù)的存儲和自助分析,Hadoop用于非結(jié)構(gòu)化數(shù)據(jù)處理、挖掘和歷史存儲。
何鴻凌表示,MPP是將傳統(tǒng)分布式數(shù)據(jù)庫的理論運(yùn)行在X86上的實(shí)踐,用列存、內(nèi)存和副本等進(jìn)行了優(yōu)化。MPP基本可以替代傳統(tǒng)DW,但在大數(shù)據(jù)時代,還是有挑戰(zhàn)。那就是由于它精確地進(jìn)行數(shù)據(jù)分布的原因,可擴(kuò)展性和高可用比較難以達(dá)到。按照CAP理論,一種系統(tǒng)不可能什么都追求。因此國內(nèi)較大的MPP集群也就幾十個節(jié)點(diǎn),國際上可以看到100~200節(jié)點(diǎn)的集群。根據(jù)中國移動數(shù)據(jù)處理得需求,起碼也需要300~400個節(jié)點(diǎn)。
“大數(shù)據(jù)主要是要應(yīng)用,而現(xiàn)在很多的應(yīng)用都不是由IT開發(fā)的,是自助的,這就需要MPP中要提供沙盒,讓業(yè)務(wù)部門或第三方能自助地分析和開發(fā)。我們當(dāng)然不希望每個沙盒都是物理的MPP集群,這樣不僅安裝維護(hù)復(fù)雜,而且會造成數(shù)據(jù)重復(fù)。所以我們希望的是讓MPP的能力像云計(jì)算那樣對外提供按需服務(wù),實(shí)現(xiàn)虛擬化。”他說。
談到Hadoop,中國移動認(rèn)為Hbase和HDFS很好,但Map/Reduce使用起來需要一些技術(shù)能力,Hadoop 2.0中Map/Reduce已經(jīng)不再是唯一的執(zhí)行框架,而縮減為Yarn框架下的一個應(yīng)用了。對于Hadooperyan,其優(yōu)勢在于數(shù)據(jù)處理的成本,較之?dāng)?shù)據(jù)倉庫內(nèi)廉價很多,但在效率上還有差距,這是其數(shù)據(jù)分布策略所造成所的,這也是為什么中國移動還要選擇MPP進(jìn)行混搭因。
Hadoop技術(shù)難點(diǎn)主要是在Map/Reduce、各個作業(yè)之間都需要落地到HDFS上,這個效率會很差,而且沒有全局優(yōu)化。Spark解決了這些問題,包括用內(nèi)存緩存、流水線和全局優(yōu)化,因此中國移動用Spark作為處理引擎。據(jù)了解,中國移動準(zhǔn)備將長期數(shù)據(jù)放到Hadoop上做自助查詢,既能縮小MPP的規(guī)模,也能降低成本,當(dāng)然這樣的查詢效率就不如在MPP上了。
大數(shù)據(jù)應(yīng)用落地情況
混搭也好,多種模式也好,運(yùn)用這些框架和技術(shù)手段的大數(shù)據(jù)應(yīng)用,究竟會對現(xiàn)有模式產(chǎn)生哪些影響呢?大數(shù)據(jù)應(yīng)用又是怎么樣落地接地氣的呢?也許中國移動的大數(shù)據(jù)應(yīng)用實(shí)踐會給我們一些啟示。
總結(jié)來看,中國移動大數(shù)據(jù)應(yīng)用有三個方面:一是讓中國移動現(xiàn)有商業(yè)模式更加有競爭力;二是發(fā)掘新的商業(yè)模式,讓別的行
責(zé)任編輯:張星光
-
權(quán)威發(fā)布 | 新能源汽車產(chǎn)業(yè)頂層設(shè)計(jì)落地:鼓勵“光儲充放”,有序推進(jìn)氫燃料供給體系建設(shè)
2020-11-03新能源,汽車,產(chǎn)業(yè),設(shè)計(jì) -
中國自主研制的“人造太陽”重力支撐設(shè)備正式啟運(yùn)
2020-09-14核聚變,ITER,核電 -
探索 | 既耗能又可供能的數(shù)據(jù)中心 打造融合型綜合能源系統(tǒng)
2020-06-16綜合能源服務(wù),新能源消納,能源互聯(lián)網(wǎng)
-
新基建助推 數(shù)據(jù)中心建設(shè)將迎爆發(fā)期
2020-06-16數(shù)據(jù)中心,能源互聯(lián)網(wǎng),電力新基建 -
泛在電力物聯(lián)網(wǎng)建設(shè)下看電網(wǎng)企業(yè)數(shù)據(jù)變現(xiàn)之路
2019-11-12泛在電力物聯(lián)網(wǎng) -
泛在電力物聯(lián)網(wǎng)建設(shè)典型實(shí)踐案例
2019-10-15泛在電力物聯(lián)網(wǎng)案例
-
新基建之充電樁“火”了 想進(jìn)這個行業(yè)要“心里有底”
2020-06-16充電樁,充電基礎(chǔ)設(shè)施,電力新基建 -
燃料電池汽車駛?cè)雽こ0傩占疫€要多久?
-
備戰(zhàn)全面電動化 多部委及央企“定調(diào)”充電樁配套節(jié)奏
-
權(quán)威發(fā)布 | 新能源汽車產(chǎn)業(yè)頂層設(shè)計(jì)落地:鼓勵“光儲充放”,有序推進(jìn)氫燃料供給體系建設(shè)
2020-11-03新能源,汽車,產(chǎn)業(yè),設(shè)計(jì) -
中國自主研制的“人造太陽”重力支撐設(shè)備正式啟運(yùn)
2020-09-14核聚變,ITER,核電 -
能源革命和電改政策紅利將長期助力儲能行業(yè)發(fā)展
-
探索 | 既耗能又可供能的數(shù)據(jù)中心 打造融合型綜合能源系統(tǒng)
2020-06-16綜合能源服務(wù),新能源消納,能源互聯(lián)網(wǎng) -
5G新基建助力智能電網(wǎng)發(fā)展
2020-06-125G,智能電網(wǎng),配電網(wǎng) -
從智能電網(wǎng)到智能城市