分布式存儲(chǔ)早期主要用于互聯(lián)網(wǎng)日志、企業(yè)備份歸檔、開(kāi)發(fā)測(cè)試等場(chǎng)景,這些場(chǎng)景無(wú)疑是低價(jià)值場(chǎng)景,成本是第yi訴求甚至訴求。然此一時(shí)彼一時(shí),士別三日也當(dāng)刮目相看。首先是分布式存儲(chǔ)產(chǎn)品能力已今非昔比,逐漸具備了承載企業(yè)高價(jià)值業(yè)務(wù)的關(guān)鍵能力,例如毫秒級(jí)時(shí)延、TB/s級(jí)帶寬、雙活/3DC業(yè)務(wù)級(jí)容災(zāi)、端到端DIF等,無(wú)論是結(jié)構(gòu)化數(shù)據(jù)還是非結(jié)構(gòu)化數(shù)據(jù)的承載,功能完備性的比較大短板早已補(bǔ)齊。其次,分布式存儲(chǔ)已走入眾多高價(jià)值關(guān)鍵業(yè)務(wù),如運(yùn)營(yíng)商BOM業(yè)務(wù)、金融渠道類(lèi)業(yè)務(wù)以及超算、油藏探測(cè)HPC等高價(jià)值業(yè)務(wù),通過(guò)大規(guī)模應(yīng)用實(shí)踐來(lái)檢驗(yàn)成色。(小道消息,某些高價(jià)值場(chǎng)景全閃出貨價(jià)達(dá)到1000美金/TB以上啦)看完...
分布式存儲(chǔ)架構(gòu)由三個(gè)部分組成:客戶端、元數(shù)據(jù)服務(wù)器和數(shù)據(jù)服務(wù)器??蛻舳素?fù)責(zé)發(fā)送讀寫(xiě)請(qǐng)求,緩存文件元數(shù)據(jù)和文件數(shù)據(jù)。元數(shù)據(jù)服務(wù)器負(fù)責(zé)管理元數(shù)據(jù)和處理客戶端的請(qǐng)求,是整個(gè)系統(tǒng)的核xin組件。數(shù)據(jù)服務(wù)器負(fù)責(zé)存放文件數(shù)據(jù),保證數(shù)據(jù)的可用性和完整性。該架構(gòu)的好處是性能和容量能夠同時(shí)拓展,系統(tǒng)規(guī)模具有很強(qiáng)的伸縮性。分布式存儲(chǔ)分為文件存儲(chǔ)、對(duì)象存儲(chǔ)和塊存儲(chǔ),但它們?nèi)N存儲(chǔ)方式的基本架構(gòu)都是大同小異的。即客戶端或應(yīng)用端、元數(shù)據(jù)(MDS)服務(wù)器和數(shù)據(jù)節(jié)點(diǎn)服務(wù)器。客戶端和元數(shù)據(jù)服務(wù)器之間交互是“信令交互”,而客戶端到數(shù)據(jù)節(jié)點(diǎn)是“媒體交互”。元數(shù)據(jù)服務(wù)器或通過(guò)數(shù)據(jù)節(jié)點(diǎn)服務(wù)器獲取各節(jié)點(diǎn)服務(wù)器的基本配置情況和狀態(tài)信...
在整個(gè)結(jié)構(gòu)中,機(jī)頭中是整個(gè)分布式存儲(chǔ)系統(tǒng)的核xin部件,整個(gè)存儲(chǔ)系統(tǒng)的高級(jí)功能都在其中實(shí)現(xiàn)??刂破髦械能浖?shí)現(xiàn)對(duì)磁盤(pán)的管理,將磁盤(pán)抽象化為存儲(chǔ)資源池,然后劃分為L(zhǎng)UN提供給服務(wù)器使用。這里的LUN其實(shí)就是在服務(wù)器上看到的磁盤(pán)。當(dāng)然,一些集中式存儲(chǔ)本身也是文件服務(wù)器,可以提供共享文件服務(wù)。無(wú)論如何,從上面我們可以看出集中式存儲(chǔ)比較大的特點(diǎn)是有一個(gè)統(tǒng)一的入口,所有數(shù)據(jù)都要經(jīng)過(guò)這個(gè)入口,這個(gè)入口就是存儲(chǔ)系統(tǒng)的機(jī)頭。這也就是集中式存儲(chǔ)區(qū)別于分布式存儲(chǔ)明顯的特點(diǎn)。 分布式存儲(chǔ)系統(tǒng),分布式存儲(chǔ)架構(gòu)及原理。泰州魏晉元興分布式存儲(chǔ)的一般架構(gòu) 分布式存儲(chǔ)系統(tǒng)中還可能使用基于寫(xiě)多個(gè)存儲(chǔ)節(jié)點(diǎn)的復(fù)制協(xié)議(Rep...
實(shí)際上分布式存儲(chǔ),高性能與高可用是矛盾的,比如要設(shè)計(jì)一個(gè)分布式存儲(chǔ)系統(tǒng),出于對(duì)性能的考慮,記錄數(shù)據(jù)時(shí)先寫(xiě)一個(gè)份數(shù)據(jù)到某個(gè)機(jī)器上并立即返回,然后異步發(fā)起多個(gè)數(shù)據(jù)備份過(guò)程(副本)。這種設(shè)計(jì)的性能比較好,但存在“容錯(cuò)性”的風(fēng)險(xiǎn),即寫(xiě)完數(shù)據(jù)后,目標(biāo)機(jī)器立即發(fā)生故障,會(huì)導(dǎo)致數(shù)據(jù)丟失!如果同時(shí)寫(xiě)多個(gè)副本,每個(gè)副本寫(xiě)成功以后再返回,則又導(dǎo)致性能下降,因?yàn)檫@個(gè)過(guò)程取決于慢的那臺(tái)機(jī)器的性能。這就是高性能與高可用之間的矛盾。而要真正從根本上克服這些矛盾,解決分布式存儲(chǔ)的高性能和高可用問(wèn)題,更有效的是對(duì)于分布式文件系統(tǒng)和分布式存儲(chǔ)系統(tǒng)架構(gòu)進(jìn)行優(yōu)化和改進(jìn),從而從源頭解決這些問(wèn)題。 運(yùn)維告訴你分布式存儲(chǔ)的那些“坑”...
分布式存儲(chǔ)系統(tǒng)需要使用多臺(tái)服務(wù)器共同存儲(chǔ)數(shù)據(jù),而隨著服務(wù)器數(shù)量的增加,服務(wù)器出現(xiàn)故障的概率也在不斷增加。為了保證在有服務(wù)器出現(xiàn)故障的情況下系統(tǒng)仍然可用。一般做法是把一個(gè)數(shù)據(jù)分成多份存儲(chǔ)在不同的服務(wù)器中。但是由于故障和并行存儲(chǔ)等情況的存在,同一個(gè)數(shù)據(jù)的多個(gè)副本之間可能存在不一致的情況。這里稱(chēng)保證多個(gè)副本的數(shù)據(jù)完全一致的性質(zhì)為一致性。分布式存儲(chǔ)系統(tǒng)需要多臺(tái)服務(wù)器同時(shí)工作。當(dāng)服務(wù)器數(shù)量增多時(shí),其中的一些服務(wù)器出現(xiàn)故障是在所難免的。我們希望這樣的情況不會(huì)對(duì)整個(gè)系統(tǒng)造成太大的影響。在系統(tǒng)中的一部分節(jié)點(diǎn)出現(xiàn)故障之后,系統(tǒng)的整體不影響客服端的讀/寫(xiě)請(qǐng)求稱(chēng)為可用性。 運(yùn)維告訴你分布式存儲(chǔ)的那些“坑”。南通...
一般分布式存儲(chǔ)的MDC采用的是數(shù)據(jù)庫(kù)或內(nèi)存儲(chǔ)數(shù)據(jù)庫(kù)來(lái)記錄數(shù)據(jù)塊和物理位置關(guān)系??蛻舳讼騇DC發(fā)出詢問(wèn)位置的請(qǐng)求,MDC查詢數(shù)據(jù)庫(kù)后返回請(qǐng)求數(shù)據(jù)的存儲(chǔ)位置。這種方法存儲(chǔ)訪問(wèn)的速度較慢,而且MDC作為交通的“樞紐”,是整個(gè)存儲(chǔ)的核xin,當(dāng)MDC發(fā)生故障,會(huì)導(dǎo)致整個(gè)存儲(chǔ)都不能使用。但是采取這個(gè)方式,也有好處,比如可以根據(jù)不同需求設(shè)置不同的副本策略等。對(duì)象存儲(chǔ)對(duì)象存儲(chǔ)是在同樣容量下提供的存儲(chǔ)性能比文件存儲(chǔ)更好,又能像文件存儲(chǔ)一樣有很好的共享性。實(shí)際使用中,性能不是對(duì)象存儲(chǔ)關(guān)注的問(wèn)題,需要高性能可以用塊存儲(chǔ),容量才是對(duì)象存儲(chǔ)關(guān)注的問(wèn)題。所以對(duì)象存儲(chǔ)的持久化層的硬盤(pán)數(shù)量更多,單盤(pán)的容量也更大...
分布式存儲(chǔ)在大數(shù)據(jù)環(huán)境下,元數(shù)據(jù)的體量也非常大,元數(shù)據(jù)的存取性能是整個(gè)分布式文件系統(tǒng)性能的關(guān)鍵。常見(jiàn)的元數(shù)據(jù)管理可以分為集中式和分布式元數(shù)據(jù)管理架構(gòu)。集中式元數(shù)據(jù)管理架構(gòu)采用單一的元數(shù)據(jù)服務(wù)器,實(shí)現(xiàn)簡(jiǎn)單.但是存在單點(diǎn)故障等問(wèn)題。分布式元數(shù)據(jù)管理架構(gòu)則將元數(shù)據(jù)分散在多個(gè)結(jié)點(diǎn)上.進(jìn)而解決了元數(shù)據(jù)服務(wù)器的性能瓶頸等問(wèn)題.并提高了元數(shù)據(jù)管理架構(gòu)的可擴(kuò)展性,但實(shí)現(xiàn)較為復(fù)雜,并引入了元數(shù)據(jù)一致性的問(wèn)題。另外,還有一種無(wú)元數(shù)據(jù)服務(wù)器的分布式架構(gòu),通過(guò)在線算法組織數(shù)據(jù),不需要專(zhuān)yong的元數(shù)據(jù)服務(wù)器。但是該架構(gòu)對(duì)數(shù)據(jù)一致性的保障很困難.實(shí)現(xiàn)較為復(fù)雜。文件目錄遍歷操作效率低下,并且缺乏文件系統(tǒng)全局監(jiān)控管理功...
目測(cè)分布式存儲(chǔ)領(lǐng)域有兩個(gè)派系,一派是SDS(軟件定義存儲(chǔ)),一派是軟硬一體。前者以vSAN、Ceph為代biao,以軟件廠商為主在推廣。分布式存儲(chǔ)軟件+通用服務(wù)器組合,打著重定義存儲(chǔ)市場(chǎng)的旗幟,頗有“有王侯將相寧有種乎”的氣勢(shì);另一派是存儲(chǔ)老牌存儲(chǔ)玩家的產(chǎn)品,他們以軟硬一體為主,如Isilon、HCP等。誰(shuí)主沉浮很難判斷,不過(guò)我們不妨從產(chǎn)業(yè)動(dòng)態(tài)窺見(jiàn)一斑。雖然用過(guò)的客戶都詬病分布式存儲(chǔ)軟件+服務(wù)器的方式存在各種兼容性、可靠性、可維護(hù)性的問(wèn)題,但筆者認(rèn)為SDS這種模式會(huì)長(zhǎng)期存在,尤其是在傳統(tǒng)的低端領(lǐng)域,如備份歸檔、開(kāi)發(fā)測(cè)試環(huán)境。而越往高duan走,軟硬一體越是占據(jù)主流。業(yè)界主流廠商也在持續(xù)推出...
由于異常的存在,分布式存儲(chǔ)系統(tǒng)設(shè)計(jì)時(shí)往往會(huì)將數(shù)據(jù)冗余存儲(chǔ)多份,每一份稱(chēng)為一個(gè)副本)。這樣,當(dāng)某一個(gè)節(jié)點(diǎn)出現(xiàn)故障時(shí),可以從其他副本上讀到數(shù)據(jù)??梢赃@么認(rèn)為,副本是分布式存儲(chǔ)系統(tǒng)容錯(cuò)技術(shù)的手段。由于多個(gè)副本的存在,如何保證副本之間的一致性是整個(gè)分布式系統(tǒng)的理論核xin。數(shù)據(jù)一致性這個(gè)單詞在平常開(kāi)發(fā)中,或者各種文章中都能經(jīng)常看見(jiàn),我們常常聽(tīng)見(jiàn)什么東西數(shù)據(jù)不一致了,造成了一定的損失,趕快修復(fù)一下。那有幾種一致性呢?a、時(shí)間一致性:要求所有數(shù)據(jù)組件的數(shù)據(jù)在任意時(shí)刻都是完全一致的;b、事物一致性:事務(wù)一致性只能存在在事務(wù)開(kāi)始前的和事務(wù)完成之后,在事務(wù)過(guò)程中數(shù)據(jù)有可能不一致,比如A轉(zhuǎn)100元給B...
分布式存儲(chǔ)系統(tǒng),是將數(shù)據(jù)分散存儲(chǔ)在多個(gè)du立的設(shè)備上。傳統(tǒng)的網(wǎng)絡(luò)存儲(chǔ)系統(tǒng)采用集中的存儲(chǔ)服務(wù)器存放所有數(shù)據(jù),存儲(chǔ)服務(wù)器成為系統(tǒng)性能的瓶頸,也是可靠性和安全性的焦點(diǎn),不能滿足大規(guī)模存儲(chǔ)應(yīng)用的需要。分布式網(wǎng)絡(luò)存儲(chǔ)系統(tǒng)采用可擴(kuò)展的系統(tǒng)結(jié)構(gòu),利用多臺(tái)存儲(chǔ)服務(wù)器分擔(dān)存儲(chǔ)負(fù)荷,利用位置服務(wù)器定位存儲(chǔ)信息,它不但提高了系統(tǒng)的可靠性、可用性和存取效率,還易于擴(kuò)展。分布式存儲(chǔ)系統(tǒng)需要使用多臺(tái)服務(wù)器共同存儲(chǔ)數(shù)據(jù),而隨著服務(wù)器數(shù)量的增加,服務(wù)器出現(xiàn)故障的概率也在不斷增加。為了保證在有服務(wù)器出現(xiàn)故障的情況下系統(tǒng)仍然可用。一般做法是把一個(gè)數(shù)據(jù)分成多份存儲(chǔ)在不同的服務(wù)器中。但是由于故障和并行存儲(chǔ)等情況的存在,同...
為了保證分布式存儲(chǔ)系統(tǒng)的高可靠和高可用,數(shù)據(jù)在系統(tǒng)中一般存儲(chǔ)多個(gè)副本。當(dāng)某個(gè)副本所在的存儲(chǔ)節(jié)點(diǎn)出現(xiàn)故障時(shí),分布式存儲(chǔ)系統(tǒng)能夠自動(dòng)將服務(wù)切換到其他的副本,從而實(shí)現(xiàn)自動(dòng)容錯(cuò)。分布式存儲(chǔ)系統(tǒng)通過(guò)復(fù)制協(xié)議將數(shù)據(jù)同步到多個(gè)存儲(chǔ)節(jié)點(diǎn),并確保多個(gè)副本之間的數(shù)據(jù)一致性??蛻舳藢?xiě)請(qǐng)求發(fā)送給主副本,主副本將寫(xiě)請(qǐng)求復(fù)制到其他備副本,常見(jiàn)的做法是同步操作日志(CommitLog)。主副本首先將操作日志同步到備副本,備副本回放操作日志,完成后通知主副本。接著,主副本修改本機(jī),等到所有的操作都完成后再通知客戶端寫(xiě)成功。下圖中的復(fù)制協(xié)議要求主備同步成功才可以返回客戶端寫(xiě)成功,這種協(xié)議稱(chēng)為強(qiáng)同步協(xié)議。 干貨:一文看懂分...
在分布式存儲(chǔ)的容災(zāi)中,一個(gè)重要的手段就是多時(shí)間點(diǎn)快照技術(shù),使得用戶生產(chǎn)系統(tǒng)能夠?qū)崿F(xiàn)一定時(shí)間間隔下的各版本數(shù)據(jù)的保存。特別值得一提的是,多時(shí)間點(diǎn)快照技術(shù)支持同時(shí)提取多個(gè)時(shí)間點(diǎn)樣本同時(shí)恢復(fù),這對(duì)于很多邏輯錯(cuò)誤的災(zāi)難定位十分有用,如果用戶有多臺(tái)服務(wù)器或虛擬機(jī)可以用作系統(tǒng)恢復(fù),通過(guò)比照和分析,可以快速找到哪個(gè)時(shí)間點(diǎn)才是需要回復(fù)的時(shí)間點(diǎn),降低了故障定位的難度,縮短了定位時(shí)間。這個(gè)功能還非常有利于進(jìn)行故障重現(xiàn),從而進(jìn)行分析和研究,避免災(zāi)難在未來(lái)再次發(fā)生。多副本技術(shù),數(shù)據(jù)條帶化放置,多時(shí)間點(diǎn)快照和周期增量復(fù)制等技術(shù)為分布式存儲(chǔ)的高可靠性提供了保障。 分布式存儲(chǔ)是未來(lái)趨勢(shì)。徐州大數(shù)據(jù)分布式存儲(chǔ)架構(gòu)實(shí)戰(zhàn) ...
分布式存儲(chǔ)在大數(shù)據(jù)環(huán)境下,數(shù)據(jù)規(guī)模和復(fù)雜度的增加往往非常迅速,對(duì)系統(tǒng)的擴(kuò)展性能要求較高。實(shí)現(xiàn)存儲(chǔ)系統(tǒng)的高可擴(kuò)展性首先要解決兩個(gè)方面的重要問(wèn)題,包含元數(shù)據(jù)的分配和數(shù)據(jù)的透明遷移。元數(shù)據(jù)的分配主要通過(guò)靜態(tài)子樹(shù)劃分技術(shù)實(shí)現(xiàn),后者則側(cè)重?cái)?shù)據(jù)遷移算法的優(yōu)化。此外,大數(shù)據(jù)存儲(chǔ)體系規(guī)模龐大.結(jié)點(diǎn)失效率高,因此還需要完成一定的自適應(yīng)管理功能。系統(tǒng)必須能夠根據(jù)數(shù)據(jù)量和計(jì)算的工作量估算所需要的結(jié)點(diǎn)個(gè)數(shù),并動(dòng)態(tài)地將數(shù)據(jù)在結(jié)點(diǎn)間遷移。以實(shí)現(xiàn)負(fù)載均衡;同時(shí).結(jié)點(diǎn)失效時(shí),數(shù)據(jù)必須可以通過(guò)副本等機(jī)制進(jìn)行恢復(fù),不能對(duì)上層應(yīng)用產(chǎn)生影響。 布式存儲(chǔ)解決如何將數(shù)據(jù)存到多臺(tái)機(jī)器上,并且提供可用性,可靠性和一致性等問(wèn)題。江蘇大道云...
由于異常的存在,分布式存儲(chǔ)系統(tǒng)設(shè)計(jì)時(shí)往往會(huì)將數(shù)據(jù)冗余存儲(chǔ)多份,每一份稱(chēng)為一個(gè)副本)。這樣,當(dāng)某一個(gè)節(jié)點(diǎn)出現(xiàn)故障時(shí),可以從其他副本上讀到數(shù)據(jù)。可以這么認(rèn)為,副本是分布式存儲(chǔ)系統(tǒng)容錯(cuò)技術(shù)的手段。由于多個(gè)副本的存在,如何保證副本之間的一致性是整個(gè)分布式系統(tǒng)的理論核xin。數(shù)據(jù)一致性這個(gè)單詞在平常開(kāi)發(fā)中,或者各種文章中都能經(jīng)常看見(jiàn),我們常常聽(tīng)見(jiàn)什么東西數(shù)據(jù)不一致了,造成了一定的損失,趕快修復(fù)一下。那有幾種一致性呢?a、時(shí)間一致性:要求所有數(shù)據(jù)組件的數(shù)據(jù)在任意時(shí)刻都是完全一致的;b、事物一致性:事務(wù)一致性只能存在在事務(wù)開(kāi)始前的和事務(wù)完成之后,在事務(wù)過(guò)程中數(shù)據(jù)有可能不一致,比如A轉(zhuǎn)100元給B...
軟硬件解耦的分布式存儲(chǔ)在性能設(shè)計(jì)上存在兩大天然缺陷:標(biāo)準(zhǔn)服務(wù)器不具備機(jī)房突然斷電時(shí)保護(hù)內(nèi)存數(shù)據(jù)的電池(BBU),所以只能用SSD卡/盤(pán)來(lái)做數(shù)據(jù)緩存。SSD的時(shí)延遠(yuǎn)高于內(nèi)存,導(dǎo)致業(yè)界絕大多數(shù)的軟硬解耦的分布式存儲(chǔ)時(shí)延無(wú)法和生產(chǎn)存儲(chǔ)媲美。單獨(dú)采購(gòu)的分布式存儲(chǔ)軟件無(wú)法和第三方服務(wù)器的SSD盤(pán)緊密配合,從而無(wú)法像業(yè)界先進(jìn)的全閃存存儲(chǔ)一樣實(shí)現(xiàn)全局垃圾回收,控制數(shù)量眾多的SSD盤(pán)各自的垃圾回收導(dǎo)致的生產(chǎn)應(yīng)用時(shí)延波動(dòng)。軟硬件一體的分布式存儲(chǔ)有機(jī)會(huì)克服如上兩大缺陷。我們看到業(yè)界先進(jìn)的分布式存儲(chǔ)產(chǎn)品,采用了類(lèi)似于全閃存存儲(chǔ)的電池保護(hù)(BBU)、系統(tǒng)級(jí)全局垃圾回收,達(dá)到了媲美傳統(tǒng)生產(chǎn)存儲(chǔ)的高并發(fā)壓力下...
Ceph:目前應(yīng)用廣的開(kāi)源分布式存儲(chǔ)系統(tǒng),已得到眾多廠商的支持,許多超融合系統(tǒng)的分布式存儲(chǔ)都是基于Ceph深度定制。而且Ceph已經(jīng)成為L(zhǎng)INUX系統(tǒng)和OpenStack的“標(biāo)配”,用于支持各自的存儲(chǔ)系統(tǒng)。Ceph可以提供對(duì)象存儲(chǔ)、塊設(shè)備存儲(chǔ)和文件系統(tǒng)存儲(chǔ)服務(wù)。同時(shí)支持三種不同類(lèi)型的存儲(chǔ)服務(wù)的特性,在分布式存儲(chǔ)系統(tǒng)中,是很少見(jiàn)的。a、Ceph沒(méi)有采用HDFS的元數(shù)據(jù)尋址的方案,而且采用CRUSH算法,數(shù)據(jù)分布均衡,并行度高。而且在支持塊存儲(chǔ)特性上,數(shù)據(jù)可以具有強(qiáng)一致性,可以獲得傳統(tǒng)集中式存儲(chǔ)的使用體驗(yàn)。b、對(duì)象存儲(chǔ)服務(wù),Ceph支持Swift和S3的API接口。在塊存儲(chǔ)方面,支持精...
由于異常的存在,分布式存儲(chǔ)系統(tǒng)設(shè)計(jì)時(shí)往往會(huì)將數(shù)據(jù)冗余存儲(chǔ)多份,每一份稱(chēng)為一個(gè)副本)。這樣,當(dāng)某一個(gè)節(jié)點(diǎn)出現(xiàn)故障時(shí),可以從其他副本上讀到數(shù)據(jù)??梢赃@么認(rèn)為,副本是分布式存儲(chǔ)系統(tǒng)容錯(cuò)技術(shù)的手段。由于多個(gè)副本的存在,如何保證副本之間的一致性是整個(gè)分布式系統(tǒng)的理論核xin。數(shù)據(jù)一致性這個(gè)單詞在平常開(kāi)發(fā)中,或者各種文章中都能經(jīng)常看見(jiàn),我們常常聽(tīng)見(jiàn)什么東西數(shù)據(jù)不一致了,造成了一定的損失,趕快修復(fù)一下。那有幾種一致性呢?a、時(shí)間一致性:要求所有數(shù)據(jù)組件的數(shù)據(jù)在任意時(shí)刻都是完全一致的;b、事物一致性:事務(wù)一致性只能存在在事務(wù)開(kāi)始前的和事務(wù)完成之后,在事務(wù)過(guò)程中數(shù)據(jù)有可能不一致,比如A轉(zhuǎn)100元給B...
隨著網(wǎng)絡(luò)帶寬的高速增長(zhǎng),在軟件上的消耗已成為網(wǎng)絡(luò)性能的瓶頸,而通過(guò)繞過(guò)CPU實(shí)現(xiàn)高性能傳輸?shù)腞DMA網(wǎng)絡(luò)成為分布式存儲(chǔ)不錯(cuò)的選擇。RDMA(RemoteDirectMemoryAccess),可以簡(jiǎn)單理解為網(wǎng)卡完全繞過(guò)CPU實(shí)現(xiàn)兩個(gè)服務(wù)器之間的內(nèi)存數(shù)據(jù)交換。其作為一種硬件實(shí)現(xiàn)的網(wǎng)絡(luò)傳輸技術(shù),可以大幅提升網(wǎng)絡(luò)傳輸效率,幫助網(wǎng)絡(luò)IO密集的業(yè)務(wù)(比如分布式存儲(chǔ)、分布式數(shù)據(jù)庫(kù)等)獲得更低的時(shí)延以及更高的吞吐。初的RDMA是實(shí)現(xiàn)在IB(Infiniband)上,由于其新的硬件技術(shù)棧成本比較高,主要用于HPC(高性能計(jì)算)等少數(shù)場(chǎng)景。而新的技術(shù)發(fā)展下,能夠?qū)崿F(xiàn)在以太網(wǎng)上使用RDMA。 分布式存儲(chǔ)與數(shù)據(jù)...
實(shí)際上分布式存儲(chǔ),高性能與高可用是矛盾的,比如要設(shè)計(jì)一個(gè)分布式存儲(chǔ)系統(tǒng),出于對(duì)性能的考慮,記錄數(shù)據(jù)時(shí)先寫(xiě)一個(gè)份數(shù)據(jù)到某個(gè)機(jī)器上并立即返回,然后異步發(fā)起多個(gè)數(shù)據(jù)備份過(guò)程(副本)。這種設(shè)計(jì)的性能比較好,但存在“容錯(cuò)性”的風(fēng)險(xiǎn),即寫(xiě)完數(shù)據(jù)后,目標(biāo)機(jī)器立即發(fā)生故障,會(huì)導(dǎo)致數(shù)據(jù)丟失!如果同時(shí)寫(xiě)多個(gè)副本,每個(gè)副本寫(xiě)成功以后再返回,則又導(dǎo)致性能下降,因?yàn)檫@個(gè)過(guò)程取決于慢的那臺(tái)機(jī)器的性能。這就是高性能與高可用之間的矛盾。而要真正從根本上克服這些矛盾,解決分布式存儲(chǔ)的高性能和高可用問(wèn)題,更有效的是對(duì)于分布式文件系統(tǒng)和分布式存儲(chǔ)系統(tǒng)架構(gòu)進(jìn)行優(yōu)化和改進(jìn),從而從源頭解決這些問(wèn)題。 分布式存儲(chǔ)在數(shù)據(jù)治理過(guò)程中的優(yōu)勢(shì)...
無(wú)論如何波折,分布式存儲(chǔ)未來(lái)可期:正所謂不管白貓、黑貓,抓到老鼠的就是好貓。我們相信在較長(zhǎng)一段時(shí)間內(nèi),分布式存儲(chǔ)軟硬件一體和軟硬件解耦會(huì)長(zhǎng)期共存??傮w而言,筆者認(rèn)為隨著數(shù)據(jù)價(jià)值的增高,場(chǎng)景對(duì)數(shù)據(jù)可靠性的要求隨之會(huì)越來(lái)越嚴(yán)苛,市場(chǎng)的天平就會(huì)更多偏向軟硬件一體;與此相反,場(chǎng)景對(duì)數(shù)據(jù)可靠性的敏感度越低、短期成本敏感度越高,市場(chǎng)的天平就會(huì)更多的偏向軟硬件解耦。分布式存儲(chǔ)的發(fā)展歷程無(wú)論如何波折,我們更愿意相信它終會(huì)是部正劇,在整個(gè)存儲(chǔ)市場(chǎng)中占據(jù)海量數(shù)據(jù)承載的主力軍位置,鏗鏘而立,并給人以無(wú)窮回味!集中式存儲(chǔ)和分布式存儲(chǔ)的區(qū)別在哪里?淮安四大開(kāi)源分布式存儲(chǔ)技術(shù)有哪些 為了保證分布式存儲(chǔ)系統(tǒng)的高可靠和高可...
說(shuō)到分布式存儲(chǔ),我們先來(lái)看一下傳統(tǒng)的存儲(chǔ)是怎么個(gè)樣子。傳統(tǒng)的存儲(chǔ)也稱(chēng)為集中式存儲(chǔ),從概念上可以看出來(lái)是具有集中性的,也就是整個(gè)存儲(chǔ)是集中在一個(gè)系統(tǒng)中的,但集中式存儲(chǔ)并不是一個(gè)單獨(dú)的設(shè)備,是集中在一套系統(tǒng)當(dāng)中的多個(gè)設(shè)備,比如下圖中的EMC存儲(chǔ)就需要幾個(gè)機(jī)柜來(lái)存放。在這個(gè)存儲(chǔ)系統(tǒng)中包含很多組件,除了核xin的機(jī)頭(控制器)、磁盤(pán)陣列和交換機(jī)等設(shè)備外,還有管理設(shè)備等輔助設(shè)備。結(jié)構(gòu)中包含一個(gè)機(jī)頭,這個(gè)是存儲(chǔ)系統(tǒng)中為核xin的部件。通常在機(jī)頭中有包含兩個(gè)控制器,互為備用,避免硬件故障導(dǎo)致整個(gè)存儲(chǔ)系統(tǒng)的不可用。 五大主流分布式存儲(chǔ)技術(shù)對(duì)比分析,你 pick 哪一種?鹽城大道云行分布式存儲(chǔ)系統(tǒng)架構(gòu) 如...
分布式存儲(chǔ)系統(tǒng)需要使用多臺(tái)服務(wù)器共同存儲(chǔ)數(shù)據(jù),而隨著服務(wù)器數(shù)量的增加,服務(wù)器出現(xiàn)故障的概率也在不斷增加。為了保證在有服務(wù)器出現(xiàn)故障的情況下系統(tǒng)仍然可用。一般做法是把一個(gè)數(shù)據(jù)分成多份存儲(chǔ)在不同的服務(wù)器中。但是由于故障和并行存儲(chǔ)等情況的存在,同一個(gè)數(shù)據(jù)的多個(gè)副本之間可能存在不一致的情況。這里稱(chēng)保證多個(gè)副本的數(shù)據(jù)完全一致的性質(zhì)為一致性。分布式存儲(chǔ)系統(tǒng)需要多臺(tái)服務(wù)器同時(shí)工作。當(dāng)服務(wù)器數(shù)量增多時(shí),其中的一些服務(wù)器出現(xiàn)故障是在所難免的。我們希望這樣的情況不會(huì)對(duì)整個(gè)系統(tǒng)造成太大的影響。在系統(tǒng)中的一部分節(jié)點(diǎn)出現(xiàn)故障之后,系統(tǒng)的整體不影響客服端的讀/寫(xiě)請(qǐng)求稱(chēng)為可用性。 分布式存儲(chǔ)“避坑”指南。南京數(shù)據(jù)分布式...
軟硬件解耦的分布式存儲(chǔ)在性能設(shè)計(jì)上存在兩大天然缺陷:標(biāo)準(zhǔn)服務(wù)器不具備機(jī)房突然斷電時(shí)保護(hù)內(nèi)存數(shù)據(jù)的電池(BBU),所以只能用SSD卡/盤(pán)來(lái)做數(shù)據(jù)緩存。SSD的時(shí)延遠(yuǎn)高于內(nèi)存,導(dǎo)致業(yè)界絕大多數(shù)的軟硬解耦的分布式存儲(chǔ)時(shí)延無(wú)法和生產(chǎn)存儲(chǔ)媲美。單獨(dú)采購(gòu)的分布式存儲(chǔ)軟件無(wú)法和第三方服務(wù)器的SSD盤(pán)緊密配合,從而無(wú)法像業(yè)界先進(jìn)的全閃存存儲(chǔ)一樣實(shí)現(xiàn)全局垃圾回收,控制數(shù)量眾多的SSD盤(pán)各自的垃圾回收導(dǎo)致的生產(chǎn)應(yīng)用時(shí)延波動(dòng)。軟硬件一體的分布式存儲(chǔ)有機(jī)會(huì)克服如上兩大缺陷。我們看到業(yè)界先進(jìn)的分布式存儲(chǔ)產(chǎn)品,采用了類(lèi)似于全閃存存儲(chǔ)的電池保護(hù)(BBU)、系統(tǒng)級(jí)全局垃圾回收,達(dá)到了媲美傳統(tǒng)生產(chǎn)存儲(chǔ)的高并發(fā)壓力下...
正所謂長(zhǎng)江后浪推前浪,分布式存儲(chǔ)快速增長(zhǎng)是不可否認(rèn)的,這從各大廠商的業(yè)績(jī)報(bào)告和分析師報(bào)告就能看出來(lái),但想要把企業(yè)外置存儲(chǔ)這個(gè)前浪拍死在沙灘上還是步子邁太大,不現(xiàn)實(shí)。企業(yè)外置存儲(chǔ)在相當(dāng)長(zhǎng)的一段時(shí)間內(nèi),仍然是主流。它主要面向企業(yè)傳統(tǒng)應(yīng)用如ERP/CRM/HIS等,數(shù)據(jù)量不大但對(duì)可靠性、性能有極zhi要求,如銀行Core-Banking,從可靠性、生態(tài)層面,分布式存儲(chǔ)都不是比較好選擇。分布式存儲(chǔ)主要面向海量數(shù)據(jù)、新興業(yè)務(wù)場(chǎng)景,如HPC/EDA、大數(shù)據(jù),這類(lèi)場(chǎng)景以二進(jìn)制文件、視頻、圖片等非結(jié)構(gòu)化數(shù)據(jù)為主,數(shù)據(jù)量極大。所以從場(chǎng)景來(lái)看,二者場(chǎng)景是有明確區(qū)隔的,按場(chǎng)景并存是比較好的選擇。 分布式存儲(chǔ)在數(shù)...
那么現(xiàn)在問(wèn)題來(lái)了,如果我們要選擇分布式存儲(chǔ),選擇哪種好呢?其實(shí)它們各有各的優(yōu)勢(shì)和使用場(chǎng)景,具體要看需求。(1)HDFS:主要用于大數(shù)據(jù)的存儲(chǔ)場(chǎng)景,是Hadoop大數(shù)據(jù)架構(gòu)中的存儲(chǔ)組件。HDFS在開(kāi)始設(shè)計(jì)的時(shí)候,就已經(jīng)明確的它的應(yīng)用場(chǎng)景,就是大數(shù)據(jù)服務(wù)。(2)Ceph:目前應(yīng)用廣的開(kāi)源分布式存儲(chǔ)系統(tǒng),已得到眾多廠商的支持,許多超融合系統(tǒng)的分布式存儲(chǔ)都是基于Ceph深度定制。而且Ceph已經(jīng)成為L(zhǎng)INUX系統(tǒng)和OpenStack的“標(biāo)配”,用于支持各自的存儲(chǔ)系統(tǒng)。Ceph可以提供對(duì)象存儲(chǔ)、塊設(shè)備存儲(chǔ)和文件系統(tǒng)存儲(chǔ)服務(wù)。同時(shí)支持三種不同類(lèi)型的存儲(chǔ)服務(wù)的特性,在分布式存儲(chǔ)系統(tǒng)中,是很少見(jiàn)的...
與傳統(tǒng)的存儲(chǔ)架構(gòu)使用RAID模式來(lái)保證數(shù)據(jù)的可靠性不同,分布式存儲(chǔ)采用了多副本備份機(jī)制。在存儲(chǔ)數(shù)據(jù)之前,分布式存儲(chǔ)對(duì)數(shù)據(jù)進(jìn)行了分片,分片后的數(shù)據(jù)按照一定的規(guī)則保存在集群節(jié)點(diǎn)上。為了保證多個(gè)數(shù)據(jù)副本之間的一致性,分布式存儲(chǔ)通常采用的是一個(gè)副本寫(xiě)入,多個(gè)副本讀取的強(qiáng)一致性技術(shù),使用鏡像、條帶、分布式校驗(yàn)等方式滿足租戶對(duì)于可靠性不同的需求。在讀取數(shù)據(jù)失敗的時(shí)候,系統(tǒng)可以通過(guò)從其他副本讀取數(shù)據(jù),重新寫(xiě)入該副本進(jìn)行恢復(fù),從而保證副本的總數(shù)固定。當(dāng)數(shù)據(jù)長(zhǎng)時(shí)間處于不一致?tīng)顟B(tài)時(shí),系統(tǒng)會(huì)自動(dòng)數(shù)據(jù)重建恢復(fù),同時(shí)租戶可設(shè)定數(shù)據(jù)恢復(fù)的帶寬規(guī)則,小化對(duì)業(yè)務(wù)的影響。 分布式存儲(chǔ)是未來(lái)數(shù)字產(chǎn)業(yè)生態(tài)系統(tǒng)構(gòu)建與新基建的重要...
如何保證分布式存儲(chǔ)的高性能與高可用?大家可能想到的是,除了傳統(tǒng)架構(gòu)里面的備份、HotStandby、雙活、多活這種架構(gòu)之外,對(duì)于保證分布式存儲(chǔ)系統(tǒng)的高可靠和高可用,數(shù)據(jù)在系統(tǒng)中一般存儲(chǔ)多個(gè)副本。當(dāng)某個(gè)存儲(chǔ)節(jié)點(diǎn)出故障時(shí),系統(tǒng)能夠自動(dòng)將服務(wù)切換到其他的副本,從而實(shí)現(xiàn)自動(dòng)容錯(cuò)。分布式存儲(chǔ)系統(tǒng)通過(guò)復(fù)制協(xié)議將數(shù)據(jù)同步到多個(gè)存儲(chǔ)節(jié)點(diǎn),并確保多個(gè)副本之間的數(shù)據(jù)一致性。同一份數(shù)據(jù)有多個(gè)副本,只有一個(gè)為主副本Primary,其他的副本為備份副本Backup,數(shù)據(jù)從主副本復(fù)制到備份副本,采用終一致性來(lái)保證數(shù)據(jù)和事物的完整。 難言之隱,分布式存儲(chǔ)軟硬件解耦究竟難在哪里?杭州大規(guī)模分布式存儲(chǔ)系統(tǒng)架構(gòu) 由...
開(kāi)源分布式存儲(chǔ)軟件的出現(xiàn),一定程度上降低了存儲(chǔ)的門(mén)檻,小公司可快速包裝出存儲(chǔ)產(chǎn)品,帶動(dòng)服務(wù)器銷(xiāo)售。但產(chǎn)品同質(zhì)化問(wèn)題是所有開(kāi)源不得不面臨的問(wèn)題,由于架構(gòu)限制,很難在不動(dòng)架構(gòu)的情況下,真正做出差異化競(jìng)爭(zhēng)力?;ヂ?lián)網(wǎng)類(lèi)公司、部分科研機(jī)構(gòu),以及有技術(shù)情結(jié)和充足資金投入的客戶可能選擇開(kāi)源,而對(duì)于金融、電信運(yùn)營(yíng)商、大企業(yè)商用HPC、有關(guān)部門(mén)等對(duì)可靠性、性能、安全合規(guī)有要求的企業(yè),開(kāi)源從來(lái)不是第yi選擇,因?yàn)閿?shù)據(jù)太重要了。(聽(tīng)說(shuō),國(guó)內(nèi)某知ming銀行曾經(jīng)投入500人基于開(kāi)源軟件搭建分布式存儲(chǔ),投入巨大且無(wú)法達(dá)銀行業(yè)務(wù)對(duì)性能、可靠性、易運(yùn)維訴求,終于2年后放棄。) 萬(wàn)萬(wàn)沒(méi)想到,分布式存儲(chǔ)系統(tǒng)的一致性是......
分布式存儲(chǔ)架構(gòu)由三個(gè)部分組成:客戶端、元數(shù)據(jù)服務(wù)器和數(shù)據(jù)服務(wù)器。客戶端負(fù)責(zé)發(fā)送讀寫(xiě)請(qǐng)求,緩存文件元數(shù)據(jù)和文件數(shù)據(jù)。元數(shù)據(jù)服務(wù)器負(fù)責(zé)管理元數(shù)據(jù)和處理客戶端的請(qǐng)求,是整個(gè)系統(tǒng)的核xin組件。數(shù)據(jù)服務(wù)器負(fù)責(zé)存放文件數(shù)據(jù),保證數(shù)據(jù)的可用性和完整性。該架構(gòu)的好處是性能和容量能夠同時(shí)拓展,系統(tǒng)規(guī)模具有很強(qiáng)的伸縮性。分布式存儲(chǔ)分為文件存儲(chǔ)、對(duì)象存儲(chǔ)和塊存儲(chǔ),但它們?nèi)N存儲(chǔ)方式的基本架構(gòu)都是大同小異的。即客戶端或應(yīng)用端、元數(shù)據(jù)(MDS)服務(wù)器和數(shù)據(jù)節(jié)點(diǎn)服務(wù)器??蛻舳撕驮獢?shù)據(jù)服務(wù)器之間交互是“信令交互”,而客戶端到數(shù)據(jù)節(jié)點(diǎn)是“媒體交互”。元數(shù)據(jù)服務(wù)器或通過(guò)數(shù)據(jù)節(jié)點(diǎn)服務(wù)器獲取各節(jié)點(diǎn)服務(wù)器的基本配置情況和狀態(tài)信...
分布式存儲(chǔ)早期主要用于互聯(lián)網(wǎng)日志、企業(yè)備份歸檔、開(kāi)發(fā)測(cè)試等場(chǎng)景,這些場(chǎng)景無(wú)疑是低價(jià)值場(chǎng)景,成本是第yi訴求甚至訴求。然此一時(shí)彼一時(shí),士別三日也當(dāng)刮目相看。首先是分布式存儲(chǔ)產(chǎn)品能力已今非昔比,逐漸具備了承載企業(yè)高價(jià)值業(yè)務(wù)的關(guān)鍵能力,例如毫秒級(jí)時(shí)延、TB/s級(jí)帶寬、雙活/3DC業(yè)務(wù)級(jí)容災(zāi)、端到端DIF等,無(wú)論是結(jié)構(gòu)化數(shù)據(jù)還是非結(jié)構(gòu)化數(shù)據(jù)的承載,功能完備性的比較大短板早已補(bǔ)齊。其次,分布式存儲(chǔ)已走入眾多高價(jià)值關(guān)鍵業(yè)務(wù),如運(yùn)營(yíng)商BOM業(yè)務(wù)、金融渠道類(lèi)業(yè)務(wù)以及超算、油藏探測(cè)HPC等高價(jià)值業(yè)務(wù),通過(guò)大規(guī)模應(yīng)用實(shí)踐來(lái)檢驗(yàn)成色。(小道消息,某些高價(jià)值場(chǎng)景全閃出貨價(jià)達(dá)到1000美金/TB以上啦)看完...