【應(yīng)用】撩開(kāi)分布式存儲(chǔ)神秘面紗
我們?cè)?011年開(kāi)始研究試驗(yàn)云計(jì)算技術(shù),到2013年形成了長(zhǎng)距雙活資源池體系,并引入SDNOverlay技術(shù)進(jìn)行測(cè)試和試點(diǎn),通過(guò)SDN實(shí)現(xiàn)彈性網(wǎng)絡(luò)資源池,強(qiáng)化網(wǎng)絡(luò)自動(dòng)化部署能力,加快資源交付時(shí)間。資源池中計(jì)算、網(wǎng)絡(luò)彈性部署能力相對(duì)較強(qiáng),而原先資源池存儲(chǔ)主要采用的傳統(tǒng)集中FCSan技術(shù),在面對(duì)資源池各種各樣存儲(chǔ)需求時(shí)逐漸成為瓶頸,存儲(chǔ)技術(shù)門(mén)檻高、成本高、并發(fā)IO受限、線(xiàn)性擴(kuò)展能力差以及不具備按需分配的能力成為急需要解決的問(wèn)題。于是萌發(fā)了想利用傳統(tǒng)的X86服務(wù)器+廉價(jià)的SATA盤(pán)作為塊存儲(chǔ)的想法。2013年的10月,在杭州西湖邊的青騰茶館第一次遇到了顧炯炯大師,在交流了華為的虛擬化軟件的同時(shí),我也講了基于X86存儲(chǔ)的基本想法,炯炯大師表示華為已經(jīng)在開(kāi)發(fā)基于X86分布式塊存儲(chǔ),預(yù)計(jì)可以在2014年開(kāi)發(fā)完成。現(xiàn)在回想起來(lái),當(dāng)時(shí)炯炯大師的說(shuō)法給我很大的信心,而我的想法也給炯炯大師很大的信心。后來(lái)也和國(guó)內(nèi)外的存儲(chǔ)廠(chǎng)家進(jìn)行了交流很溝通。2014年通過(guò)前期測(cè)試和招標(biāo)(華為、中興、EMC、HP、HDS應(yīng)標(biāo))最終確定采用華為FusionStorage分布式塊存儲(chǔ)。在2014年年底投入正式商用,2015年2月6日聯(lián)合華為召開(kāi)新聞發(fā)布會(huì),是業(yè)界第一個(gè)投入商用的分布式塊存儲(chǔ)。在后來(lái)的使用中,和我預(yù)想的一樣成功替代傳統(tǒng)FCSAN高端存儲(chǔ),自從使用FusionStorage后,就沒(méi)有新購(gòu)或擴(kuò)容FCSAN。
分布式存儲(chǔ)的架構(gòu)
一般來(lái)說(shuō),分布式存儲(chǔ)不管是文件存儲(chǔ)、對(duì)象存儲(chǔ)還是塊存儲(chǔ)的基本架構(gòu)都是大同小異的。即客戶(hù)端或應(yīng)用端、元數(shù)據(jù)(MDS)服務(wù)器和數(shù)據(jù)節(jié)點(diǎn)服務(wù)器。
客戶(hù)端和元數(shù)據(jù)服務(wù)器之間交互是“信令交互”,而客戶(hù)端到數(shù)據(jù)節(jié)點(diǎn)是“媒體交互”。元數(shù)據(jù)服務(wù)器或通過(guò)數(shù)據(jù)節(jié)點(diǎn)服務(wù)器獲取各節(jié)點(diǎn)服務(wù)器的基本配置情況和狀態(tài)信息。
比如,客戶(hù)端需要讀取某一個(gè)文件的信息,客戶(hù)端會(huì)將相應(yīng)的要求發(fā)給元數(shù)據(jù)服務(wù)器:“喂!我需要XXX,存在哪里了”,元數(shù)據(jù)服務(wù)器查詢(xún)后回答“你到xxx服務(wù)器的xxx地址+xxx服務(wù)器的xxx地址取”。客戶(hù)端拿到這個(gè)指示后,向這2臺(tái)服務(wù)器發(fā)出指令,數(shù)據(jù)節(jié)點(diǎn)獲得指令后,將相應(yīng)的數(shù)據(jù)返回給客戶(hù)端。
大家可能都會(huì)奇怪,為什么塊存儲(chǔ)、對(duì)象和文件的架構(gòu)都是一樣的。有什么區(qū)別呢?我們?cè)谇懊婊A(chǔ)知識(shí)講述中,塊存儲(chǔ)是一種裸設(shè)備,它是將存儲(chǔ)設(shè)備以“塊”的方式直接提供給客戶(hù),由客戶(hù)自己的操作系統(tǒng)里的文件系統(tǒng)進(jìn)行管理。即分布式塊存儲(chǔ)里是沒(méi)有文件系統(tǒng)的,是通過(guò)客戶(hù)端直接將最簡(jiǎn)單明了的命令傳遞給存儲(chǔ)的“塊”來(lái)執(zhí)行。而對(duì)象存儲(chǔ)和文件存儲(chǔ)雖然結(jié)構(gòu)類(lèi)似,但并不將存儲(chǔ)底層的“塊”直接提供出來(lái),而是通過(guò)隱藏著一個(gè)文件系統(tǒng),包裝成為“文件”或“對(duì)象”提供出來(lái)。這些存儲(chǔ)“不挑”操作系統(tǒng)或終端,最終執(zhí)行命令的是存儲(chǔ)里面的文件系統(tǒng)操控存儲(chǔ)執(zhí)行的,所以共享性很好。文件存儲(chǔ)通過(guò)“目錄+文件名+偏移量”來(lái)檢索,文件間有目錄層次的;而對(duì)象存儲(chǔ)采用“唯一對(duì)象ID+偏移量”來(lái)檢索,對(duì)象扁平存儲(chǔ)的,是沒(méi)有層次的。而且塊、對(duì)象、文件存儲(chǔ)是可以相互轉(zhuǎn)換的,這個(gè)問(wèn)題以后單獨(dú)講。
華為的FusionStorage是一個(gè)典型的“塊”存儲(chǔ),我們來(lái)了解一下結(jié)構(gòu)。
FusionStorage也分成了MDC、OSD和Client三部分。和其他分布式存儲(chǔ)重大的差別是,MDC是記錄、更新OSD服務(wù)器、磁盤(pán)等的狀態(tài),并把這些狀態(tài)數(shù)據(jù)實(shí)時(shí)同步給Vbs,由Vbs計(jì)算出來(lái)數(shù)據(jù)所落的位置。MDC可以單獨(dú)部署,也可以集中部署,也可以分布部署。如果MDC全出現(xiàn)故障,并不會(huì)影響存儲(chǔ)的正常運(yùn)行。但是如果在MDC故障期間OSD的狀態(tài)發(fā)生了改變,比如某塊磁盤(pán)故障,就會(huì)導(dǎo)致部分IO訪(fǎng)問(wèn)不正常。所以一般MDC部署在3臺(tái)OSD上,確保安全。一般分布式存儲(chǔ)的MDC采用的是數(shù)據(jù)庫(kù)或內(nèi)存儲(chǔ)數(shù)據(jù)庫(kù)來(lái)記錄數(shù)據(jù)塊和物理位置關(guān)系。客戶(hù)端向MDC發(fā)出詢(xún)問(wèn)位置的請(qǐng)求,MDC查詢(xún)數(shù)據(jù)庫(kù)后返回請(qǐng)求數(shù)據(jù)的存儲(chǔ)位置。這種方法存儲(chǔ)訪(fǎng)問(wèn)的速度較慢,而且MDC作為交通的“樞紐”,絕對(duì)是整個(gè)存儲(chǔ)的核心,當(dāng)MDC發(fā)生故障,會(huì)導(dǎo)致整個(gè)存儲(chǔ)都不能使用。但是采取這個(gè)方式,也有好處,比如可以根據(jù)不同需求設(shè)置不同的副本策略等。
責(zé)任編輯:蔣桂云
-
亞坦新能:技術(shù)驅(qū)動(dòng)光伏
2018-04-13光伏 -
【戶(hù)外必備】Biolite隨時(shí)能充電的太陽(yáng)能板
-
超級(jí)電容器在分布式微電網(wǎng)中的應(yīng)用
-
中電聯(lián)公布沿海電煤采購(gòu)指數(shù)CECI第19期:電煤價(jià)格跌破500元
-
把核電帶到人群中 中國(guó)核電核科普步步生花
-
超低排放機(jī)組脫硫漿液循環(huán)泵運(yùn)行方式優(yōu)化
2018-04-13超低排放
-
中國(guó)風(fēng)電新增裝機(jī)容量開(kāi)始走向下行
-
解密低風(fēng)速風(fēng)電開(kāi)發(fā)
-
印度重啟風(fēng)電開(kāi)發(fā)項(xiàng)目 企業(yè)如何把握這一輪復(fù)蘇