電力消費(fèi)大數(shù)據(jù)智能分析技術(shù)——用電大數(shù)據(jù)分析平臺(tái)

2018-04-17 15:27:59 互聯(lián)網(wǎng)+智慧售電　點(diǎn)擊量：評(píng)論 (0)

5.2.3 用電大數(shù)據(jù)分析平臺(tái)參照云計(jì)算技術(shù)體系結(jié)構(gòu)與處理工具，并結(jié)合電力用戶側(cè)大數(shù)據(jù)分析的實(shí)際需要，搭建以分析計(jì)算為主的電力用戶側(cè)大...

5.2.3 用電大數(shù)據(jù)分析平臺(tái)

參照云計(jì)算技術(shù)體系結(jié)構(gòu)與處理工具，并結(jié)合電力用戶側(cè)大數(shù)據(jù)分析的實(shí)際需要，搭建以分析計(jì)算為主的電力用戶側(cè)大數(shù)據(jù)管理平臺(tái)，其基本架構(gòu)如圖5-24所示，分為應(yīng)用層、私有云計(jì)算層、數(shù)據(jù)管理層。

此框架主要是結(jié)合云計(jì)算技術(shù)，利用 Hadoop搭建電力用戶側(cè)大數(shù)據(jù)管理平臺(tái)，在平臺(tái)上采用HDFS( Hadoop分布式文件系統(tǒng))、HBase ( hadoop數(shù)據(jù)庫(kù))與Hive( Hadoop數(shù)據(jù)倉(cāng)庫(kù)工具)建立大數(shù)據(jù)存儲(chǔ)系統(tǒng)，在平臺(tái)上搭建 MapReduce并行化計(jì)算框架和 Spark內(nèi)存并行化計(jì)算框架作為大數(shù)據(jù)計(jì)算分析系統(tǒng)，對(duì)電力用戶側(cè)的大數(shù)據(jù)進(jìn)行分析。

數(shù)據(jù)管理層主要是對(duì)數(shù)據(jù)進(jìn)行采集和集成整合。數(shù)據(jù)采集主要包括從智能電表、 SCADA系統(tǒng)和各種傳感器中采集的數(shù)據(jù)，這些數(shù)據(jù)不僅包括電網(wǎng)內(nèi)部的數(shù)據(jù)，還包括大量相關(guān)的數(shù)據(jù)，這些數(shù)據(jù)由不同產(chǎn)商的設(shè)備產(chǎn)生，模態(tài)千差萬(wàn)別，各單位數(shù)據(jù)口徑不一，形成了海量異構(gòu)數(shù)據(jù)流，加工整合困難。這些數(shù)據(jù)的集成整合主要是指將傳統(tǒng)系統(tǒng)產(chǎn)生的數(shù)據(jù)遷移至私有云平臺(tái)，進(jìn)行高效的管理。

電力消費(fèi)大數(shù)據(jù)智能分析技術(shù)——用電大數(shù)據(jù)分析平臺(tái)

圖5-24用電大數(shù)據(jù)分析架構(gòu)

雖然各廠商都提供了相應(yīng)的應(yīng)用程序編程接口(application pro-gramming interface，API)，但其自動(dòng)化程度并不高。簡(jiǎn)單地使用API對(duì)大數(shù)據(jù)進(jìn)行操作效率不高，需要使用第三方工具進(jìn)行操作，如Sqoop和Datanucleus等。Sqoop是一款在Hadoop和關(guān)系數(shù)據(jù)庫(kù)之間進(jìn)行相互轉(zhuǎn)移數(shù)據(jù)的工具，利用Sqoop可以使各個(gè)子系統(tǒng)的數(shù)據(jù)在大數(shù)據(jù)平臺(tái)上進(jìn)行整合。 Datanucleus是一款開源的java持久化工具，可以對(duì)HBase、 Cassandra多種非關(guān)系型數(shù)據(jù)庫(kù)進(jìn)行操作。

平臺(tái)針對(duì)數(shù)據(jù)集成整合這一難點(diǎn)采用Sqoop工具對(duì)數(shù)據(jù)進(jìn)行抽取整合工作，將各個(gè)獨(dú)立的系統(tǒng)產(chǎn)生的數(shù)據(jù)及歷史數(shù)據(jù)利用Sqoop抽取整合到Hive與HBase中。使用Datanucleus對(duì)列存儲(chǔ)數(shù)據(jù)庫(kù)進(jìn)行操作，將基于云計(jì)算的應(yīng)用產(chǎn)生的在線數(shù)據(jù)寫入到HBase中。大數(shù)據(jù)的抽取整合流程如圖5-25所示。

電力消費(fèi)大數(shù)據(jù)智能分析技術(shù)——用電大數(shù)據(jù)分析平臺(tái)

圖5-25用電大數(shù)據(jù)整合抽取流程

云計(jì)算層利用Hadoop搭建而成，大數(shù)據(jù)存儲(chǔ)在分布式文件系統(tǒng)HDFS中，利用Hive、Pig和HBase對(duì)數(shù)據(jù)進(jìn)行管理，電力大數(shù)據(jù)在存儲(chǔ)方面已進(jìn)行了一些研究，例如有文獻(xiàn)提出利用云計(jì)算存儲(chǔ)、運(yùn)算技術(shù)進(jìn)行電力數(shù)據(jù)中心的搭建；有文獻(xiàn)在云計(jì)算平臺(tái)上將數(shù)據(jù)映射成數(shù)據(jù)空間的點(diǎn)集，充分利用計(jì)算存儲(chǔ)資源，實(shí)現(xiàn)數(shù)據(jù)集到數(shù)據(jù)中心的布局方案；有文獻(xiàn)在對(duì)數(shù)據(jù)進(jìn)行存儲(chǔ)時(shí)考慮到數(shù)據(jù)的安全性，利用HBase高性能優(yōu)勢(shì)和現(xiàn)代密碼技術(shù)，將密鑰與密文的管理分離，開發(fā)了基于Ha-doop的智能電網(wǎng)數(shù)據(jù)安全存儲(chǔ)原型系統(tǒng)。該平臺(tái)利用HBase存儲(chǔ)電力負(fù)荷數(shù)據(jù)和相關(guān)數(shù)據(jù)， HBase數(shù)據(jù)庫(kù)是列為存儲(chǔ)單元的，方便對(duì)整列數(shù)據(jù)進(jìn)行查詢，而隨后使用的隨機(jī)森林算法在學(xué)習(xí)過(guò)程中需要多次對(duì)整列數(shù)據(jù)進(jìn)行讀取計(jì)算，對(duì)數(shù)據(jù)的操作需求符合HBase數(shù)據(jù)存儲(chǔ)的特點(diǎn)。

利用并行化計(jì)算模型MapReduce對(duì)大數(shù)據(jù)進(jìn)行并行化批量計(jì)算分析，而對(duì)數(shù)據(jù)密集型的迭代計(jì)算采用基于內(nèi)存的并行化計(jì)算模型Spark。Spark是一個(gè)開源的分布式集群系統(tǒng)，用于大數(shù)據(jù)的快速處理分析。Spark克服了Hadoop在迭代計(jì)算上的不足，現(xiàn)已成為Apache的頂級(jí)項(xiàng)目。Spark提供了一種內(nèi)存并行化計(jì)算框架，框架將作業(yè)所需數(shù)據(jù)讀入內(nèi)存，所需數(shù)據(jù)時(shí)直接從內(nèi)存中查詢，這樣比基于磁盤的MapReduce訪問(wèn)數(shù)據(jù)的速度快，減少了作業(yè)的運(yùn)行時(shí)間，也減少了IO操作。

并行計(jì)算模型主要是對(duì)大量的數(shù)據(jù)進(jìn)行挖掘，其計(jì)算模型主要有MapReduce、Dremel、Dryad和Cascading等，該平臺(tái)主要利用Map Re-duce模型對(duì)電力用戶側(cè)大數(shù)據(jù)進(jìn)行挖掘分析。

應(yīng)用層主要是利用私有云計(jì)算集群強(qiáng)大的存儲(chǔ)和計(jì)算分析能力為企業(yè)各部門提供決策和指導(dǎo)功能接口。

責(zé)任編輯：電力交易小郭

免責(zé)聲明：本文僅代表作者個(gè)人觀點(diǎn)，與本站無(wú)關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實(shí)，對(duì)本文以及其中全部或者部分內(nèi)容、文字的真實(shí)性、完整性、及時(shí)性本站不作任何保證或承諾，請(qǐng)讀者僅作參考，并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。

我要收藏

個(gè)贊