我們現(xiàn)在生活在數(shù)據(jù)時(shí)代。測(cè)量電子數(shù)據(jù)儲(chǔ)存總量并非易事。但在2013年,人們通過(guò)IDC估算出全世界儲(chǔ)存的電子數(shù)據(jù)總量為4.4澤字節(jié),預(yù)計(jì)到2020年,該數(shù)字將會(huì)增長(zhǎng)十倍,達(dá)到44澤字節(jié)。那么,我們應(yīng)該如何有效地整理如此大量的數(shù)據(jù)呢?更何況數(shù)據(jù)總量每年都在增加。我們需要通過(guò)并行計(jì)算和存儲(chǔ)基礎(chǔ)設(shè)施來(lái)處理大量數(shù)據(jù)。根據(jù)這項(xiàng)需求,Hadoop提供了并行處理功能和可靠的信息擴(kuò)縮功能。為達(dá)成這一目標(biāo),Hadoop利用了強(qiáng)大的Hadoop分布式文件系統(tǒng)(HDFS),這是一種優(yōu)化的擴(kuò)縮性強(qiáng)的并行文件系統(tǒng),非常適合在商用硬件集群上運(yùn)行大量序列數(shù)據(jù)集時(shí)使用。
How to improve HDFS performance? Add more nodes, add more disks? No, Memblaze PCIe SSD offers better performance with less nodes. 3 data nodes, each with one SSD performance is better than 7 data nodes, each with 6 HDDs.
如何提高HDFS的性能?是該增加更多節(jié)點(diǎn),還是增加更多磁盤(pán)?都不是。Memblaze PCIe閃存卡能夠以很少的節(jié)點(diǎn)提供更好的性能。3個(gè)數(shù)據(jù)節(jié)點(diǎn)(每個(gè)節(jié)點(diǎn)配一個(gè)SSD)比7個(gè)數(shù)據(jù)節(jié)點(diǎn)(每個(gè)節(jié)點(diǎn)配6個(gè)硬盤(pán)驅(qū)動(dòng)器)性能更佳。
Benchmark Procedure
基準(zhǔn)程序
The test process aims at evaluate HDFS performance with PCIe SSD.
本測(cè)試的目的是評(píng)估配備PCIe SSD的HDFS性能。
TestDFSIO is used to measure performance of HDFS and stress both network and IO subsystems. The command read and write files in HDFS which is useful in measuring system-wide performance and exposing network bottlenecks on the NameNode and DataNodes. A majority of MapReduce workloads are IO bound more than compute and hence TestDFSIO can provide an accurate initial picture of such scenarios.
TestDFSIO的作用是測(cè)量網(wǎng)絡(luò)和IO子系統(tǒng)的HDFS性能。HDFS的讀取/寫(xiě)入文件命令可用于測(cè)量整個(gè)系統(tǒng)的性能,并揭露Name節(jié)點(diǎn)和數(shù)據(jù)節(jié)點(diǎn)的網(wǎng)絡(luò)瓶頸。大部分映射化簡(jiǎn)計(jì)算模式(MapReduce)工作負(fù)載都屬于IO密集型(IO bound),而非計(jì)算密集型,所以TestDFSIO可以對(duì)此情況作出準(zhǔn)確的初步描述。
上一篇:2016-3-22 品格翻譯繼續(xù)為國(guó)家發(fā)改委提供翻譯服務(wù)。翻譯語(yǔ)種:英譯中。翻譯內(nèi)容:清潔電力計(jì)劃。
下一篇:2016-3-17 品格翻譯為西安西電開(kāi)關(guān)電氣有限公司提供翻譯服務(wù)。翻譯語(yǔ)種:中譯英。翻譯內(nèi)容:公司介紹。