大數(shù)據(jù)處在青春期
現(xiàn)在的大數(shù)據(jù)(公司)就像一個(gè)懵懵懂懂的青春期少年,充滿活力和想象力,但卻遠(yuǎn)未達(dá)到成熟。它的潛在價(jià)值讓人著迷,但世人依然不知何處才是他將一展身手的舞臺(tái)。 維克托?邁爾?舍恩伯格的《大數(shù)據(jù)時(shí)
現(xiàn)在的大數(shù)據(jù)(公司)就像一個(gè)懵懵懂懂的青春期少年,充滿活力和想象力,但卻遠(yuǎn)未達(dá)到成熟。它的潛在價(jià)值讓人著迷,但世人依然不知何處才是他將一展身手的舞臺(tái)。
維克托?邁爾?舍恩伯格的《大數(shù)據(jù)時(shí)代》被國人奉為經(jīng)典,其觀點(diǎn)被反復(fù)引用,出現(xiàn)在各類文章之中,但也引起了不小的爭議。但本文不是對《大數(shù)據(jù)時(shí)代》的批判,而是從數(shù)據(jù)分析發(fā)展的維度去探討大數(shù)據(jù)的朦朧面目。
大數(shù)據(jù)的興起不過是最近幾年的事情,大量的案例都與互聯(lián)網(wǎng)科技公司相關(guān),其代表性的軟件和算法都與谷歌和雅虎公司的科技人員密不可分。對于這些科技人員來說,“數(shù)據(jù)”幾乎與”大數(shù)據(jù)“同義,而他們的主要工作就是通過根據(jù)這些海量的數(shù)據(jù)進(jìn)行“推薦”——即將A匹配給B,如把合適網(wǎng)頁匹配給關(guān)鍵詞,把特定廣告匹配給特定用戶等等。而要做好匹配,則必須對于數(shù)據(jù)間的相關(guān)性進(jìn)行研究…… 看過《大數(shù)據(jù)時(shí)代》的同志們,看到這里有沒有獲得一些啟發(fā)呢?
為什么除了互聯(lián)網(wǎng)公司外,其他公司都對“大數(shù)據(jù)”興趣寥寥呢?這是因?yàn)楝F(xiàn)實(shí)中,許多數(shù)重要的數(shù)據(jù)集都是小數(shù)據(jù),比如財(cái)務(wù)數(shù)據(jù),銷售數(shù)據(jù)等等,而擁有大量數(shù)據(jù)的金融和醫(yī)藥行業(yè)本就沒有停止過數(shù)據(jù)應(yīng)用。商業(yè)環(huán)境的改變遠(yuǎn)非一朝一夕,如何將大數(shù)據(jù)應(yīng)用到傳統(tǒng)行業(yè)中遠(yuǎn)比買一堆設(shè)備來存儲(chǔ)個(gè)全數(shù)據(jù)要難得多。
另一方面,大數(shù)據(jù)并不一定更好,濫用大數(shù)據(jù)只會(huì)產(chǎn)生更糟糕的效果,比如只要數(shù)據(jù)量足夠大,任何變量之間總能找到某種相關(guān)性。傳統(tǒng)統(tǒng)計(jì)學(xué)的驚人之處在于你只需要一個(gè)很小的樣本,就能對總體做出一個(gè)明確的描述。精選一個(gè)合適的樣本很有可能勝過一個(gè)混亂的大數(shù)據(jù)集所得到的結(jié)果。事實(shí)上,在很多情況中,采集100%的數(shù)據(jù)得到的預(yù)測模型精度可能就比采集10%的數(shù)據(jù)得到的模型高1%不到。
大數(shù)據(jù)還處于青春期,對其下定論顯然為時(shí)過早,但目前的趨勢表明它與較大規(guī)模的傳統(tǒng)數(shù)據(jù)分析截然不同。傳統(tǒng)的統(tǒng)計(jì)學(xué)和數(shù)據(jù)分析方法是歸納性的——根據(jù)部分對總體進(jìn)行判斷;從樣本來估計(jì)總體的范圍;通過一些觀察來給整個(gè)系統(tǒng)設(shè)定一種理論。與此相反,大數(shù)據(jù)看起來關(guān)心的主要是單個(gè)數(shù)據(jù)點(diǎn)。已知某個(gè)特定的用戶喜歡某部特定的電源,那么他還可能喜歡其他哪些電影?這個(gè)問題截然不同于問哪些電影通常更可能受哪些人喜歡?
正像青春期的少年容易被引入歧途,大數(shù)據(jù)的能力也有可能被不懷好意的人所利用。翻看各種應(yīng)用案例不難發(fā)現(xiàn)大數(shù)據(jù)的主要數(shù)據(jù)來源是人的行為——從瀏覽了哪些網(wǎng)頁,到去過哪些地方,數(shù)不勝數(shù)。通過對一個(gè)個(gè)人的數(shù)據(jù)分析(而不是對一個(gè)群體的分析),可以用來做定向廣告,也可以用來提高體有患大病風(fēng)險(xiǎn)者的保險(xiǎn)價(jià)格,乃至向管理層預(yù)警有可能跳槽或者上班開小差的員工。大數(shù)據(jù)要成為一樣對人類社會(huì)有用的工具,離不開一套完善的隱私保護(hù)體系,目前這方面的工作遠(yuǎn)沒有達(dá)到被重視的程度。
責(zé)任編輯:何健
免責(zé)聲明:本文僅代表作者個(gè)人觀點(diǎn),與本站無關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實(shí),對本文以及其中全部或者部分內(nèi)容、文字的真實(shí)性、完整性、及時(shí)性本站不作任何保證或承諾,請讀者僅作參考,并請自行核實(shí)相關(guān)內(nèi)容。
我要收藏
個(gè)贊
-
曹志剛:我們期待風(fēng)電成為中國的主力能源
2020-11-17風(fēng)電,能源,主力能源 -
張鈞:未來配電網(wǎng)內(nèi)涵特征與發(fā)展框架研究
-
習(xí)近平:持續(xù)增強(qiáng)電力裝備、新能源等領(lǐng)域的全產(chǎn)業(yè)鏈優(yōu)勢
2020-11-02電力裝備,新能源,通信設(shè)備
-
曹志剛:我們期待風(fēng)電成為中國的主力能源
2020-11-17風(fēng)電,能源,主力能源 -
張鈞:未來配電網(wǎng)內(nèi)涵特征與發(fā)展框架研究
-
杜祥琬:創(chuàng)新觀念,推動(dòng)能源高質(zhì)量發(fā)展
2020-09-28能源,創(chuàng)新,觀點(diǎn)