大數(shù)據(jù)其實就是個大胖子!
近年來,有關(guān)大數(shù)據(jù)的熱點話題一浪高過一浪,關(guān)注大數(shù)據(jù)應(yīng)用的人也越來越多。總體來說,人們對大數(shù)據(jù)的前景持樂觀態(tài)度,比如談到大數(shù)據(jù)的技術(shù)特征,人們最容易想起的就是4個v:vast(數(shù)量龐大)、variety(種
近年來,有關(guān)大數(shù)據(jù)的熱點話題一浪高過一浪,關(guān)注大數(shù)據(jù)應(yīng)用的人也越來越多。總體來說,人們對大數(shù)據(jù)的前景持樂觀態(tài)度,比如談到大數(shù)據(jù)的技術(shù)特征,人們最容易想起的就是4個“v”:vast(數(shù)量龐大)、variety(種類繁多)、velocity(增長迅速)和value(總價值高)。這些都沒錯,但仔細一想,它們都是偏重說明大數(shù)據(jù)的正面優(yōu)勢的。但其實,大也有大的難處,大數(shù)據(jù)也不可避免地存在著一些負(fù)面劣勢,大數(shù)據(jù)部就是個大胖子麼,這些"胖”可以概括四點:
inflated——大數(shù)據(jù)是肥胖的。大數(shù)據(jù)的大不僅僅體現(xiàn)在數(shù)據(jù)記錄的行數(shù)多,更體現(xiàn)在字段變量的列數(shù)多,這就為分析多因素之間的關(guān)聯(lián)性帶來了難度。哪怕是最簡單的方差分析,計算一兩個還行,計算一兩百個就讓人望而生畏了。
unstructured——大數(shù)據(jù)是非結(jié)構(gòu)化的。大數(shù)據(jù)的結(jié)構(gòu)也是非常復(fù)雜的,既包括像交易額、時間等連續(xù)型變量,像性別、工作類型等離散型變量這樣傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù),更增添了如文本、社會關(guān)系網(wǎng)絡(luò),乃至語音、圖像等大量新興的非結(jié)構(gòu)化數(shù)據(jù),而這些非結(jié)構(gòu)化數(shù)據(jù)蘊含的信息量往往更加巨大,但分析手段卻略顯單薄。
incomplete——大數(shù)據(jù)是殘缺的。在現(xiàn)實的世界里,由于用戶登記的信息不全、計算機數(shù)據(jù)存儲的錯誤等種種原因,數(shù)據(jù)缺失是常見的現(xiàn)象。在大數(shù)據(jù)的場景下,數(shù)據(jù)缺失更是家常便飯,這就為后期的分析與建模質(zhì)量增加了不確定的風(fēng)險。
abnormal——大數(shù)據(jù)是異常的。大數(shù)據(jù)里還有不少異常值(outlier)。比如某些連續(xù)型變量(如一個短期時間內(nèi)的交易金額)的取值太大,某些離散型變量(如某個被選購的產(chǎn)品名稱)里的某個水平值出現(xiàn)的次數(shù)太少,等等。如果不刪除,很可能干擾模型系數(shù)的計算和評估;如果直接刪除,又覺得缺乏說服力,容易引起他人的質(zhì)疑。這使得分析人員落到了一個進退兩難的境地。
利用大數(shù)據(jù)的分析,已經(jīng)可以預(yù)見和分析出很多當(dāng)下時代的大趨勢了。但是,數(shù)據(jù)的真實性如何保證?如果沒有全面、客觀認(rèn)識大數(shù)據(jù)的過程,即便得到很多可預(yù)見的數(shù)據(jù),又有幾分準(zhǔn)確性?想要真正運用好大數(shù)據(jù),并不是一項在常規(guī)條件下數(shù)據(jù)分析的簡單升級,而是一項需要大智慧的綜合工作。
inflated——大數(shù)據(jù)是肥胖的。大數(shù)據(jù)的大不僅僅體現(xiàn)在數(shù)據(jù)記錄的行數(shù)多,更體現(xiàn)在字段變量的列數(shù)多,這就為分析多因素之間的關(guān)聯(lián)性帶來了難度。哪怕是最簡單的方差分析,計算一兩個還行,計算一兩百個就讓人望而生畏了。
unstructured——大數(shù)據(jù)是非結(jié)構(gòu)化的。大數(shù)據(jù)的結(jié)構(gòu)也是非常復(fù)雜的,既包括像交易額、時間等連續(xù)型變量,像性別、工作類型等離散型變量這樣傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù),更增添了如文本、社會關(guān)系網(wǎng)絡(luò),乃至語音、圖像等大量新興的非結(jié)構(gòu)化數(shù)據(jù),而這些非結(jié)構(gòu)化數(shù)據(jù)蘊含的信息量往往更加巨大,但分析手段卻略顯單薄。
incomplete——大數(shù)據(jù)是殘缺的。在現(xiàn)實的世界里,由于用戶登記的信息不全、計算機數(shù)據(jù)存儲的錯誤等種種原因,數(shù)據(jù)缺失是常見的現(xiàn)象。在大數(shù)據(jù)的場景下,數(shù)據(jù)缺失更是家常便飯,這就為后期的分析與建模質(zhì)量增加了不確定的風(fēng)險。
abnormal——大數(shù)據(jù)是異常的。大數(shù)據(jù)里還有不少異常值(outlier)。比如某些連續(xù)型變量(如一個短期時間內(nèi)的交易金額)的取值太大,某些離散型變量(如某個被選購的產(chǎn)品名稱)里的某個水平值出現(xiàn)的次數(shù)太少,等等。如果不刪除,很可能干擾模型系數(shù)的計算和評估;如果直接刪除,又覺得缺乏說服力,容易引起他人的質(zhì)疑。這使得分析人員落到了一個進退兩難的境地。
利用大數(shù)據(jù)的分析,已經(jīng)可以預(yù)見和分析出很多當(dāng)下時代的大趨勢了。但是,數(shù)據(jù)的真實性如何保證?如果沒有全面、客觀認(rèn)識大數(shù)據(jù)的過程,即便得到很多可預(yù)見的數(shù)據(jù),又有幾分準(zhǔn)確性?想要真正運用好大數(shù)據(jù),并不是一項在常規(guī)條件下數(shù)據(jù)分析的簡單升級,而是一項需要大智慧的綜合工作。
責(zé)任編輯:熊川
免責(zé)聲明:本文僅代表作者個人觀點,與本站無關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實,對本文以及其中全部或者部分內(nèi)容、文字的真實性、完整性、及時性本站不作任何保證或承諾,請讀者僅作參考,并請自行核實相關(guān)內(nèi)容。
我要收藏
個贊
-
權(quán)威發(fā)布 | 新能源汽車產(chǎn)業(yè)頂層設(shè)計落地:鼓勵“光儲充放”,有序推進氫燃料供給體系建設(shè)
2020-11-03新能源,汽車,產(chǎn)業(yè),設(shè)計 -
中國自主研制的“人造太陽”重力支撐設(shè)備正式啟運
2020-09-14核聚變,ITER,核電 -
探索 | 既耗能又可供能的數(shù)據(jù)中心 打造融合型綜合能源系統(tǒng)
2020-06-16綜合能源服務(wù),新能源消納,能源互聯(lián)網(wǎng)
-
新基建助推 數(shù)據(jù)中心建設(shè)將迎爆發(fā)期
2020-06-16數(shù)據(jù)中心,能源互聯(lián)網(wǎng),電力新基建 -
泛在電力物聯(lián)網(wǎng)建設(shè)下看電網(wǎng)企業(yè)數(shù)據(jù)變現(xiàn)之路
2019-11-12泛在電力物聯(lián)網(wǎng) -
泛在電力物聯(lián)網(wǎng)建設(shè)典型實踐案例
2019-10-15泛在電力物聯(lián)網(wǎng)案例
-
新基建之充電樁“火”了 想進這個行業(yè)要“心里有底”
2020-06-16充電樁,充電基礎(chǔ)設(shè)施,電力新基建 -
燃料電池汽車駛?cè)雽こ0傩占疫€要多久?
-
備戰(zhàn)全面電動化 多部委及央企“定調(diào)”充電樁配套節(jié)奏
-
權(quán)威發(fā)布 | 新能源汽車產(chǎn)業(yè)頂層設(shè)計落地:鼓勵“光儲充放”,有序推進氫燃料供給體系建設(shè)
2020-11-03新能源,汽車,產(chǎn)業(yè),設(shè)計 -
中國自主研制的“人造太陽”重力支撐設(shè)備正式啟運
2020-09-14核聚變,ITER,核電 -
能源革命和電改政策紅利將長期助力儲能行業(yè)發(fā)展
-
探索 | 既耗能又可供能的數(shù)據(jù)中心 打造融合型綜合能源系統(tǒng)
2020-06-16綜合能源服務(wù),新能源消納,能源互聯(lián)網(wǎng) -
5G新基建助力智能電網(wǎng)發(fā)展
2020-06-125G,智能電網(wǎng),配電網(wǎng) -
從智能電網(wǎng)到智能城市