我們現(xiàn)在生活在數(shù)據(jù)時代。測量電子數(shù)據(jù)儲存總量并非易事。但在2013年,人們通過IDC估算出全世界儲存的電子數(shù)據(jù)總量為4.4澤字節(jié),預(yù)計到2020年,該數(shù)字將會增長十倍,達(dá)到44澤字節(jié)。那么,我們應(yīng)該如何有效地整理如此大量的數(shù)據(jù)呢?更何況數(shù)據(jù)總量每年都在增加。我們需要通過并行計算和存儲基礎(chǔ)設(shè)施來處理大量數(shù)據(jù)。根據(jù)這項(xiàng)需求,Hadoop提供了并行處理功能和可靠的信息擴(kuò)縮功能。為達(dá)成這一目標(biāo),Hadoop利用了強(qiáng)大的Hadoop分布式文件系統(tǒng)(HDFS),這是一種優(yōu)化的擴(kuò)縮性強(qiáng)的并行文件系統(tǒng),非常適合在商用硬件集群上運(yùn)行大量序列數(shù)據(jù)集時使用。
How to improve HDFS performance? Add more nodes, add more disks? No, Memblaze PCIe SSD offers better performance with less nodes. 3 data nodes, each with one SSD performance is better than 7 data nodes, each with 6 HDDs.
如何提高HDFS的性能?是該增加更多節(jié)點(diǎn),還是增加更多磁盤?都不是。Memblaze PCIe閃存卡能夠以很少的節(jié)點(diǎn)提供更好的性能。3個數(shù)據(jù)節(jié)點(diǎn)(每個節(jié)點(diǎn)配一個SSD)比7個數(shù)據(jù)節(jié)點(diǎn)(每個節(jié)點(diǎn)配6個硬盤驅(qū)動器)性能更佳。
Benchmark Procedure
基準(zhǔn)程序
The test process aims at evaluate HDFS performance with PCIe SSD.
本測試的目的是評估配備PCIe SSD的HDFS性能。
TestDFSIO is used to measure performance of HDFS and stress both network and IO subsystems. The command read and write files in HDFS which is useful in measuring system-wide performance and exposing network bottlenecks on the NameNode and DataNodes. A majority of MapReduce workloads are IO bound more than compute and hence TestDFSIO can provide an accurate initial picture of such scenarios.
TestDFSIO的作用是測量網(wǎng)絡(luò)和IO子系統(tǒng)的HDFS性能。HDFS的讀取/寫入文件命令可用于測量整個系統(tǒng)的性能,并揭露Name節(jié)點(diǎn)和數(shù)據(jù)節(jié)點(diǎn)的網(wǎng)絡(luò)瓶頸。大部分映射化簡計算模式(MapReduce)工作負(fù)載都屬于IO密集型(IO bound),而非計算密集型,所以TestDFSIO可以對此情況作出準(zhǔn)確的初步描述。
上一篇:2016-3-8 品格翻譯為某文化公司提供翻譯服務(wù)。翻譯語種:中譯阿(阿拉伯語)。翻譯內(nèi)容:中國傳統(tǒng)文化(《龍龕手鑒》)。
下一篇:2016-2-26 品格翻譯繼續(xù)為某知名律所提供翻譯服務(wù)。翻譯語種:中譯英。翻譯內(nèi)容:法律行業(yè)新聞。