撥開云霧:破除大數(shù)據(jù)的四大常見誤區(qū)
誤區(qū)一:所有數(shù)據(jù)都將盡在掌握
從很多方面來看,我們目前生活的時(shí)代都前所未有的,過去從未面對(duì)過如此龐大的數(shù)據(jù)量。把MB和PB的概念拋在腦后吧,現(xiàn)在EB(即艾字節(jié))級(jí)別的數(shù)據(jù)已經(jīng)真實(shí)存在。筆者最近剛剛拜讀了一份報(bào)告,文章指出生活在當(dāng)今工業(yè)化社會(huì)的人們每天所接觸并使用的信息比十五世紀(jì)時(shí)一個(gè)人一生所能接觸的信息量還大。
由于數(shù)據(jù)總量之龐大完全可以用深不可測(cè)形容,目前任何個(gè)人或者機(jī)構(gòu)甚至無法對(duì)與特定主題相關(guān)的全部數(shù)據(jù)進(jìn)行存儲(chǔ)及檢索,更不用說整體數(shù)據(jù)量了。沒錯(cuò),就連搜索巨頭谷歌也不例外。谷歌公司的軟件只會(huì)檢測(cè)表面Web而非深層Web。有人估計(jì)后者的實(shí)際大小將達(dá)到前者的二十五倍。因此,當(dāng)大家在搜索任何信息時(shí),其列出的內(nèi)容只占互聯(lián)網(wǎng)實(shí)際信息總量的4%到6%。
即使我們放低要求,也無法獲取自己需要的某些有價(jià)值的信息,例如哪些特定客戶曾經(jīng)購(gòu)買過我的作品——雖然Amazon以及巴諾商店這樣的網(wǎng)站肯定保留了此類信息。我個(gè)人非常樂于結(jié)識(shí)自己的讀者,然而即使是在大數(shù)據(jù)如火如荼的當(dāng)下,這部分信息仍然遙不可及。總而言之,我們永遠(yuǎn)無法獲得所有相關(guān)數(shù)據(jù)。
誤區(qū)二:需要掌握全部數(shù)據(jù)
毫無疑問,龐大的數(shù)據(jù)量有助于解決問題,但千萬不要誤以為所有數(shù)據(jù)在業(yè)務(wù)決策方面都擁有其必要性。明智的大數(shù)據(jù)機(jī)構(gòu)已經(jīng)清醒地意識(shí)到,捕捉全部相關(guān)信息除了浪費(fèi)資源之外毫無意義。
似乎每天都有新的數(shù)據(jù)源出現(xiàn),但可以肯定的是它們并非都具有實(shí)際價(jià)值。舉例來說,電子郵件信息中通常包含重要的企業(yè)動(dòng)態(tài)信息,明智的公司會(huì)以此為目標(biāo)挖掘數(shù)據(jù)以評(píng)估員工情緒、猜測(cè)哪些員工有可能辭職。
但這并不意味著所有電子郵件都有關(guān)注的必要。企業(yè)郵箱中往往充斥著大量垃圾郵件,浪費(fèi)資源對(duì)其內(nèi)容加以分析無疑是種愚蠢的行為。
我們并不需要掌握全部數(shù)據(jù)。沒錯(cuò),數(shù)據(jù)的確是越多越好,但請(qǐng)別把時(shí)間浪費(fèi)在無法完成的任務(wù)上。
誤區(qū)三:大數(shù)據(jù)擁有穩(wěn)定的收益
大家可能聽說過這樣一條格言:“我擁有自己能夠處理的所有數(shù)據(jù),只是缺乏足夠的信息。”在之前的文章中,我曾經(jīng)提到過利用外來數(shù)據(jù)真正指導(dǎo)業(yè)務(wù)決策是件極為困難的事情。我們甚至無法百分之百確定企業(yè)合并、新產(chǎn)品推出、公司合資乃至個(gè)別員工離職等狀況。
難道大數(shù)據(jù)不正是在幫助我們應(yīng)對(duì)不確定性嗎?這么說是沒錯(cuò),不過千萬別把降低不確定性與消除不確定性混為一談。也許未來這一愿望會(huì)變成現(xiàn)實(shí),但至少目前還不行,而且在可以預(yù)見的未來實(shí)現(xiàn)的機(jī)會(huì)也很渺茫。
對(duì)PB級(jí)非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行分析能夠有效幫助企業(yè)了解客戶情緒。不過千萬別誤以為大數(shù)據(jù)能夠消弭所有不確定性內(nèi)容。生活與業(yè)務(wù)中總是存在難以預(yù)知的狀況,只有做好多方面準(zhǔn)備才能有備無患。
誤區(qū)四:大數(shù)據(jù)屬于暫時(shí)性趨勢(shì)
我們可以認(rèn)為目前大數(shù)據(jù)的代言人應(yīng)該是Nate Silver——至少在他離開《紐約時(shí)報(bào)》之前的狀態(tài)。這位知名博主兼統(tǒng)計(jì)學(xué)家曾在2012的美國(guó)大選中預(yù)測(cè)奧巴馬將贏得九成民眾的支持,最終結(jié)果也證實(shí)了他的判斷。更令人驚訝的是,競(jìng)選期間的民意調(diào)查顯示奧巴馬與羅姆尼相比居于劣勢(shì)。Silver的統(tǒng)計(jì)模型非常準(zhǔn)確,他也因此成為人們心目中的預(yù)測(cè)達(dá)人。
可以肯定的是,大數(shù)據(jù)與數(shù)據(jù)科學(xué)的概念將在未來幾年中逐漸淡化,但其影響與處理流程仍將繼續(xù)存在。我們不喜歡拿大堆專業(yè)術(shù)語和行話唬弄人,但那些堅(jiān)信大數(shù)據(jù)屬于暫時(shí)性趨勢(shì)的專家實(shí)在是愚不可及。可以肯定的是今年我們共同產(chǎn)生及消耗的數(shù)據(jù)量必然要高于去年。
大數(shù)據(jù)中的不確定因素永遠(yuǎn)無法徹底消除、這項(xiàng)技術(shù)也不足以回答所有問題。不過僅僅將其作為暫時(shí)性趨勢(shì)加以處理很可能讓你的企業(yè)陷入危局。現(xiàn)在各機(jī)構(gòu)應(yīng)該盡快意識(shí)到大數(shù)據(jù)的重要意義,一味抗拒只會(huì)讓企業(yè)在大數(shù)據(jù)的洪流中處于被動(dòng)并最終折戟沉沙。
責(zé)任編輯:何健
-
碳中和戰(zhàn)略|趙英民副部長(zhǎng)致辭全文
2020-10-19碳中和,碳排放,趙英民 -
兩部門:推廣不停電作業(yè)技術(shù) 減少停電時(shí)間和停電次數(shù)
2020-09-28獲得電力,供電可靠性,供電企業(yè) -
國(guó)家發(fā)改委、國(guó)家能源局:推廣不停電作業(yè)技術(shù) 減少停電時(shí)間和停電次數(shù)
2020-09-28獲得電力,供電可靠性,供電企業(yè)
-
碳中和戰(zhàn)略|趙英民副部長(zhǎng)致辭全文
2020-10-19碳中和,碳排放,趙英民 -
深度報(bào)告 | 基于分類監(jiān)管與當(dāng)量協(xié)同的碳市場(chǎng)框架設(shè)計(jì)方案
2020-07-21碳市場(chǎng),碳排放,碳交易 -
碳市場(chǎng)讓重慶能源轉(zhuǎn)型與經(jīng)濟(jì)發(fā)展并進(jìn)
2020-07-21碳市場(chǎng),碳排放,重慶
-
兩部門:推廣不停電作業(yè)技術(shù) 減少停電時(shí)間和停電次數(shù)
2020-09-28獲得電力,供電可靠性,供電企業(yè) -
國(guó)家發(fā)改委、國(guó)家能源局:推廣不停電作業(yè)技術(shù) 減少停電時(shí)間和停電次數(shù)
2020-09-28獲得電力,供電可靠性,供電企業(yè) -
2020年二季度福建省統(tǒng)調(diào)燃煤電廠節(jié)能減排信息披露
2020-07-21火電環(huán)保,燃煤電廠,超低排放
-
四川“專線供電”身陷違法困境
2019-12-16專線供電 -
我國(guó)能源替代規(guī)范法律問題研究(上)
2019-10-31能源替代規(guī)范法律 -
區(qū)域鏈結(jié)構(gòu)對(duì)于數(shù)據(jù)中心有什么影響?這個(gè)影響是好是壞呢!