www.e4938.cn-老师你下面太紧了拔不出来,99re8这里有精品热视频免费,国产第一视频一区二区三区,青青草国产成人久久

<button id="60qo0"></button>

<strike id="60qo0"></strike>
<del id="60qo0"></del>
<fieldset id="60qo0"><menu id="60qo0"></menu></fieldset>
  • 大數(shù)據(jù)來襲,你準備好了嗎

    2014-06-12 09:31:39 大云網(wǎng)  點擊量: 評論 (0)
    最近有一則這樣的笑話在網(wǎng)上流程開來,有一個美國數(shù)學教授平生最怕坐飛機,他研究了近20年的統(tǒng)計數(shù)據(jù),發(fā)現(xiàn)恐怖分子帶炸彈上飛機的幾率其實非常低,但是他還不安心,他又進一步研究數(shù)據(jù)發(fā)現(xiàn),兩個人同時帶炸彈上
    最近有一則這樣的笑話在網(wǎng)上流程開來,“有一個美國數(shù)學教授平生最怕坐飛機,他研究了近20年的統(tǒng)計數(shù)據(jù),發(fā)現(xiàn)恐怖分子帶炸彈上飛機的幾率其實非常低,但是他還不安心,他又進一步研究數(shù)據(jù)發(fā)現(xiàn),兩個人同時帶炸彈上飛機的幾率幾乎為零,于是從此他坐飛機都自己攜帶一枚炸彈。”這雖然是一個簡單笑話,但卻是一個大數(shù)據(jù)分析的真實案例。這名科學家最終的做法固然可笑,但是在整個過程中,他收集整理了20年來與之相關(guān)的數(shù)據(jù),包括天氣數(shù)據(jù)、航班信息、新聞事件、乘客信息、出租車信息、交通信息、監(jiān)控信息等等大量的相關(guān)數(shù)據(jù),通過自己的研究,整理和分析了數(shù)據(jù)之間的相關(guān)性,構(gòu)建了數(shù)據(jù)分析模型,并最終得出了分析結(jié)果。那么,什么才是大數(shù)據(jù)呢?
    "大數(shù)據(jù)"是一個體量特別大,數(shù)據(jù)類別特別大的數(shù)據(jù)集,并且這樣的數(shù)據(jù)集無法用傳統(tǒng)數(shù)據(jù)庫工具對其內(nèi)容進行抓取、管理和處理。 "大數(shù)據(jù)"首先是指數(shù)據(jù)體量(volumes)?大,指代大型數(shù)據(jù)集,一般在10TB?規(guī)模左右,但在實際應用中,很多企業(yè)用戶把多個數(shù)據(jù)集放在一起,已經(jīng)形成了PB級的數(shù)據(jù)量;其次是指數(shù)據(jù)類別(variety)大,數(shù)據(jù)來自多種數(shù)據(jù)源,數(shù)據(jù)種類和格式日漸豐富,已沖破了以前所限定的結(jié)構(gòu)化數(shù)據(jù)范疇,囊括了半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。接著是數(shù)據(jù)處理速度(Velocity)快,在數(shù)據(jù)量非常龐大的情況下,也能夠做到數(shù)據(jù)的實時處理。最后一個特點是指數(shù)據(jù)真實性(Veracity)高,隨著社交數(shù)據(jù)、企業(yè)內(nèi)容、交易與應用數(shù)據(jù)等新數(shù)據(jù)源的興趣,傳統(tǒng)數(shù)據(jù)源的局限被打破,企業(yè)愈發(fā)需要有效的信息之力以確保其真實性及安全性。
    "大數(shù)據(jù)"的概念遠不止大量的數(shù)據(jù)(TB)和處理大量數(shù)據(jù)的技術(shù),而是涵蓋了人們在大規(guī)模數(shù)據(jù)的基礎上可以做的事情,而這些事情在小規(guī)模數(shù)據(jù)的基礎上是無法實現(xiàn)的。換句話說,大數(shù)據(jù)讓我們以一種前所未有的方式,通過對海量數(shù)據(jù)進行分析,獲得有巨大價值的產(chǎn)品和服務,或深刻的洞見,最終形成創(chuàng)新之力。
    由此可見,大數(shù)據(jù)的建設,我們首先要明確我們分析的目標,需要具備一個高性能的、大容量的具備數(shù)據(jù)采集、存儲、分析和展現(xiàn)能力的那么一個平臺或者系統(tǒng)。這就需要考慮以下幾個問題:數(shù)據(jù)從何而來?海量的數(shù)據(jù)如何存儲?這么多相關(guān)或非相關(guān)的數(shù)據(jù)怎么分析?分析出來結(jié)果如何展示?因此考慮上述問題,大數(shù)據(jù)分析不應該是一個系統(tǒng),而應該一個平臺,是一個可以收集存儲不同格式不同規(guī)模的海量數(shù)據(jù)的高度數(shù)據(jù)共享的平臺,是一個隨時根據(jù)需求建立模型分析和展示不同結(jié)果的平臺。
     

    圖1 大數(shù)據(jù)平臺系統(tǒng)結(jié)構(gòu)
    1.      數(shù)據(jù)采集
    大數(shù)據(jù)的采集是指利用多個數(shù)據(jù)庫來接收發(fā)自客戶端(Web、App或者傳感器形式等)的數(shù)據(jù),并且用戶可以通過這些數(shù)據(jù)庫來進行簡單的查詢和處理工作。比如使用傳統(tǒng)的關(guān)系型數(shù)據(jù)庫MySQL和Oracle等來存儲數(shù)據(jù),除此之外,Redis和MongoDB這樣的NoSQL數(shù)據(jù)庫也常用于數(shù)據(jù)的采集。
       在大數(shù)據(jù)的采集過程中,其主要特點和挑戰(zhàn)是并發(fā)數(shù)高,因為同時有可能會有成千上萬的用戶來進行訪問和操作,比如火車票售票網(wǎng)站和淘寶,它們并發(fā)的訪問量在峰值時達到上百萬,所以需要在采集端部署大量數(shù)據(jù)庫才能支撐。并且如何在這些數(shù)據(jù)庫之間進行負載均衡和分片的確是需要深入的思考和設計。
    2.      數(shù)據(jù)預處理
    雖然采集端本身會有很多數(shù)據(jù)庫,但是如果要對這些海量數(shù)據(jù)進行有效的分析,還是應該將這些來自前端的數(shù)據(jù)導入到一個集中的大型分布式數(shù)據(jù)庫,或者分布式存儲集群,并且可以在導入基礎上做一些簡單的清洗和預處理工作。導入與預處理過程的特點和挑戰(zhàn)主要是導入的數(shù)據(jù)量大,每秒鐘的導入量經(jīng)常會達到百兆,甚至千兆級別。
    3.      數(shù)據(jù)分析
    統(tǒng)計與分析主要利用分布式數(shù)據(jù)庫,或者分布式計算集群來對存儲于其內(nèi)的海量數(shù)據(jù)進行普通的分析和分類匯總等,以滿足大多數(shù)常見的分析需求,在這方面,一些實時性需求會用到EMC的GreenPlum、Oracle的Exadata,以及基于MySQL的列式存儲Infobright等,而一些批處理,或者基于半結(jié)構(gòu)化數(shù)據(jù)的需求可以使用Hadoop。統(tǒng)計與分析這部分的主要特點和挑戰(zhàn)是分析涉及的數(shù)據(jù)量大,其對系統(tǒng)資源,特別是I/O會有極大的占用。
    4.      數(shù)據(jù)挖掘
    與前面統(tǒng)計和分析過程不同的是,數(shù)據(jù)挖掘一般沒有什么預先設定好的主題,主要是在現(xiàn)有數(shù)據(jù)上面進行基于各種算法的計算,從而起到預測(Predict)的效果,從而實現(xiàn)一些高級別數(shù)據(jù)分析的需求。比較典型算法有用于聚類的Kmeans、用于統(tǒng)計學習的SVM和用于分類的NaiveBayes,主要使用的工具有Hadoop的Mahout等。該過程的特點和挑戰(zhàn)主要是用于挖掘的算法很復雜,并且計算涉及的數(shù)據(jù)量和計算量都很大,常用數(shù)據(jù)挖掘算法都以單線程為主。
    5.      結(jié)果呈現(xiàn)
        當通過分析子系統(tǒng)對數(shù)據(jù)分析和處理完畢,需要從在獨立的數(shù)據(jù)庫存放計算和分析結(jié)果,并最終通過分析展示子系統(tǒng)將分析結(jié)果展現(xiàn)給數(shù)據(jù)需求者。分析展示子系統(tǒng)采用B/S架構(gòu)構(gòu)建一個Web應用,可以是更多的用戶以最便捷的方式查看到分析結(jié)果。
      上述內(nèi)容就是普遍的一個大數(shù)據(jù)分析的基本步驟,大數(shù)據(jù)分析平臺是運用了多種技術(shù)構(gòu)建的一個整體,對基礎設施建設具有很高要求,也是實現(xiàn)大數(shù)據(jù)分析平臺的關(guān)鍵,而分析模型和方法建立則是大數(shù)據(jù)分析的核心,其中每一個環(huán)節(jié)都包含了大量技術(shù)應用。例如:
    數(shù)據(jù)采集:ETL工具負責將分布的、異構(gòu)數(shù)據(jù)源中的數(shù)據(jù)如關(guān)系數(shù)據(jù)、平面數(shù)據(jù)文件等抽取到臨時中間層后進行清洗、轉(zhuǎn)換、集成,最后加載到數(shù)據(jù)倉庫或數(shù)據(jù)集市中,成為聯(lián)機分析處理、數(shù)據(jù)挖掘的基礎。
    數(shù)據(jù)存取:關(guān)系數(shù)據(jù)庫、NOSQL、SQL等。
    基礎架構(gòu):云存儲、分布式文件存儲等。
    數(shù)據(jù)處理:自然語言處理(NLP,NaturalLanguageProcessing)是研究人與計算機交互的語言問題的一門學科。處理自然語言的關(guān)鍵是要讓計算機"理解"自然語言,所以自然語言處理又叫做自然語言理解(NLU,NaturalLanguage Understanding),也稱為計算語言學(Computational Linguistics。一方面它是語言信息處理的一個分支,另一方面它是人工智能(AI, Artificial Intelligence)的核心課題之一。
    統(tǒng)計分析:假設檢驗、顯著性檢驗、差異分析、相關(guān)分析、T檢驗、方差分析、卡方分析、偏相關(guān)分析、距離分析、回歸分析、簡單回歸分析、多元回歸分析、逐步回歸、回歸預測與殘差分析、嶺回歸、logistic回歸分析、曲線估計、因子分析、聚類分析、主成分分析、因子分析、快速聚類法與聚類法、判別分析、對應分析、多元對應分析(最優(yōu)尺度分析)、bootstrap技術(shù)等等。
    數(shù)據(jù)挖掘:分類 (Classification)、估計(Estimation)、預測(Prediction)、相關(guān)性分組或關(guān)聯(lián)規(guī)則(Affinity grouping or association rules)、聚類(Clustering)、描述和可視化、Description and Visualization)、復雜數(shù)據(jù)類型挖掘(Text, Web ,圖形圖像,視頻,音頻等)
    模型預測:預測模型、機器學習、建模仿真。
    結(jié)果呈現(xiàn):云計算、標簽云、關(guān)系圖等。(彭勇)
    大云網(wǎng)官方微信售電那點事兒

    責任編輯:葉雨田

    免責聲明:本文僅代表作者個人觀點,與本站無關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實,對本文以及其中全部或者部分內(nèi)容、文字的真實性、完整性、及時性本站不作任何保證或承諾,請讀者僅作參考,并請自行核實相關(guān)內(nèi)容。
    我要收藏
    個贊
    ?
    国产真实乱子伦精品视频| 久久久精品国产一区| 亚洲人成伊人成综合网中文| 无码国内精品久久人妻| 成全动漫视频在线观看完整版| 铜铜铜铜铜铜铜好多免费观看| 88久久精品无码一区二区毛片| 国产成人精品日本亚洲18| 欧美日韩中文字幕久久久不卡| 樱桃电视剧免费观看影视大全|