大云網(wǎng) 新技術(shù)泛在電力物聯(lián)網(wǎng) 正文

電力消費大數(shù)據(jù)智能分析技術(shù)——用電大數(shù)據(jù)分析平臺

2018-04-17 15:27:59 互聯(lián)網(wǎng)+智慧售電　點擊量：評論 (0)

5 2 3 用電大數(shù)據(jù)分析平臺參照云計算技術(shù)體系結(jié)構(gòu)與處理工具，并結(jié)合電力用戶側(cè)大數(shù)據(jù)分析的實際需要，搭建以分析計算為主的電力用戶側(cè)大

5.2.3 用電大數(shù)據(jù)分析平臺

參照云計算技術(shù)體系結(jié)構(gòu)與處理工具，并結(jié)合電力用戶側(cè)大數(shù)據(jù)分析的實際需要，搭建以分析計算為主的電力用戶側(cè)大數(shù)據(jù)管理平臺，其基本架構(gòu)如圖5-24所示，分為應用層、私有云計算層、數(shù)據(jù)管理層。

此框架主要是結(jié)合云計算技術(shù)，利用 Hadoop搭建電力用戶側(cè)大數(shù)據(jù)管理平臺，在平臺上采用HDFS( Hadoop分布式文件系統(tǒng))、HBase ( hadoop數(shù)據(jù)庫)與Hive( Hadoop數(shù)據(jù)倉庫工具)建立大數(shù)據(jù)存儲系統(tǒng)，在平臺上搭建 MapReduce并行化計算框架和 Spark內(nèi)存并行化計算框架作為大數(shù)據(jù)計算分析系統(tǒng)，對電力用戶側(cè)的大數(shù)據(jù)進行分析。

數(shù)據(jù)管理層主要是對數(shù)據(jù)進行采集和集成整合。數(shù)據(jù)采集主要包括從智能電表、 SCADA系統(tǒng)和各種傳感器中采集的數(shù)據(jù)，這些數(shù)據(jù)不僅包括電網(wǎng)內(nèi)部的數(shù)據(jù)，還包括大量相關(guān)的數(shù)據(jù)，這些數(shù)據(jù)由不同產(chǎn)商的設(shè)備產(chǎn)生，模態(tài)千差萬別，各單位數(shù)據(jù)口徑不一，形成了海量異構(gòu)數(shù)據(jù)流，加工整合困難。這些數(shù)據(jù)的集成整合主要是指將傳統(tǒng)系統(tǒng)產(chǎn)生的數(shù)據(jù)遷移至私有云平臺，進行高效的管理。

電力消費大數(shù)據(jù)智能分析技術(shù)——用電大數(shù)據(jù)分析平臺

圖5-24用電大數(shù)據(jù)分析架構(gòu)

雖然各廠商都提供了相應的應用程序編程接口(application pro-gramming interface，API)，但其自動化程度并不高。簡單地使用API對大數(shù)據(jù)進行操作效率不高，需要使用第三方工具進行操作，如Sqoop和Datanucleus等。Sqoop是一款在Hadoop和關(guān)系數(shù)據(jù)庫之間進行相互轉(zhuǎn)移數(shù)據(jù)的工具，利用Sqoop可以使各個子系統(tǒng)的數(shù)據(jù)在大數(shù)據(jù)平臺上進行整合。 Datanucleus是一款開源的java持久化工具，可以對HBase、 Cassandra多種非關(guān)系型數(shù)據(jù)庫進行操作。

平臺針對數(shù)據(jù)集成整合這一難點采用Sqoop工具對數(shù)據(jù)進行抽取整合工作，將各個獨立的系統(tǒng)產(chǎn)生的數(shù)據(jù)及歷史數(shù)據(jù)利用Sqoop抽取整合到Hive與HBase中。使用Datanucleus對列存儲數(shù)據(jù)庫進行操作，將基于云計算的應用產(chǎn)生的在線數(shù)據(jù)寫入到HBase中。大數(shù)據(jù)的抽取整合流程如圖5-25所示。

電力消費大數(shù)據(jù)智能分析技術(shù)——用電大數(shù)據(jù)分析平臺

圖5-25用電大數(shù)據(jù)整合抽取流程

云計算層利用Hadoop搭建而成，大數(shù)據(jù)存儲在分布式文件系統(tǒng)HDFS中，利用Hive、Pig和HBase對數(shù)據(jù)進行管理，電力大數(shù)據(jù)在存儲方面已進行了一些研究，例如有文獻提出利用云計算存儲、運算技術(shù)進行電力數(shù)據(jù)中心的搭建；有文獻在云計算平臺上將數(shù)據(jù)映射成數(shù)據(jù)空間的點集，充分利用計算存儲資源，實現(xiàn)數(shù)據(jù)集到數(shù)據(jù)中心的布局方案；有文獻在對數(shù)據(jù)進行存儲時考慮到數(shù)據(jù)的安全性，利用HBase高性能優(yōu)勢和現(xiàn)代密碼技術(shù)，將密鑰與密文的管理分離，開發(fā)了基于Ha-doop的智能電網(wǎng)數(shù)據(jù)安全存儲原型系統(tǒng)。該平臺利用HBase存儲電力負荷數(shù)據(jù)和相關(guān)數(shù)據(jù)， HBase數(shù)據(jù)庫是列為存儲單元的，方便對整列數(shù)據(jù)進行查詢，而隨后使用的隨機森林算法在學習過程中需要多次對整列數(shù)據(jù)進行讀取計算，對數(shù)據(jù)的操作需求符合HBase數(shù)據(jù)存儲的特點。

利用并行化計算模型MapReduce對大數(shù)據(jù)進行并行化批量計算分析，而對數(shù)據(jù)密集型的迭代計算采用基于內(nèi)存的并行化計算模型Spark。Spark是一個開源的分布式集群系統(tǒng)，用于大數(shù)據(jù)的快速處理分析。Spark克服了Hadoop在迭代計算上的不足，現(xiàn)已成為Apache的頂級項目。Spark提供了一種內(nèi)存并行化計算框架，框架將作業(yè)所需數(shù)據(jù)讀入內(nèi)存，所需數(shù)據(jù)時直接從內(nèi)存中查詢，這樣比基于磁盤的MapReduce訪問數(shù)據(jù)的速度快，減少了作業(yè)的運行時間，也減少了IO操作。

并行計算模型主要是對大量的數(shù)據(jù)進行挖掘，其計算模型主要有MapReduce、Dremel、Dryad和Cascading等，該平臺主要利用Map Re-duce模型對電力用戶側(cè)大數(shù)據(jù)進行挖掘分析。

應用層主要是利用私有云計算集群強大的存儲和計算分析能力為企業(yè)各部門提供決策和指導功能接口。