我們現(xiàn)在生活在數(shù)據(jù)時代。測量電子數(shù)據(jù)儲存總量并非易事。但在2013年,人們通過IDC估算出全世界儲存的電子數(shù)據(jù)總量為4.4澤字節(jié),預計到2020年,該數(shù)字將會增長十倍,達到44澤字節(jié)。那么,我們應該如何有效地整理如此大量的數(shù)據(jù)呢?更何況數(shù)據(jù)總量每年都在增加。我們需要通過并行計算和存儲基礎(chǔ)設施來處理大量數(shù)據(jù)。根據(jù)這項需求,Hadoop提供了并行處理功能和可靠的信息擴縮功能。為達成這一目標,Hadoop利用了強大的Hadoop分布式文件系統(tǒng)(HDFS),這是一種優(yōu)化的擴縮性強的并行文件系統(tǒng),非常適合在商用硬件集群上運行大量序列數(shù)據(jù)集時使用。
How to improve HDFS performance? Add more nodes, add more disks? No, Memblaze PCIe SSD offers better performance with less nodes. 3 data nodes, each with one SSD performance is better than 7 data nodes, each with 6 HDDs.
如何提高HDFS的性能?是該增加更多節(jié)點,還是增加更多磁盤?都不是。Memblaze PCIe閃存卡能夠以很少的節(jié)點提供更好的性能。3個數(shù)據(jù)節(jié)點(每個節(jié)點配一個SSD)比7個數(shù)據(jù)節(jié)點(每個節(jié)點配6個硬盤驅(qū)動器)性能更佳。
Benchmark Procedure
基準程序
The test process aims at evaluate HDFS performance with PCIe SSD.
本測試的目的是評估配備PCIe SSD的HDFS性能。
TestDFSIO is used to measure performance of HDFS and stress both network and IO subsystems. The command read and write files in HDFS which is useful in measuring system-wide performance and exposing network bottlenecks on the NameNode and DataNodes. A majority of MapReduce workloads are IO bound more than compute and hence TestDFSIO can provide an accurate initial picture of such scenarios.
TestDFSIO的作用是測量網(wǎng)絡和IO子系統(tǒng)的HDFS性能。HDFS的讀取/寫入文件命令可用于測量整個系統(tǒng)的性能,并揭露Name節(jié)點和數(shù)據(jù)節(jié)點的網(wǎng)絡瓶頸。大部分映射化簡計算模式(MapReduce)工作負載都屬于IO密集型(IO bound),而非計算密集型,所以TestDFSIO可以對此情況作出準確的初步描述。
上一篇:2016-3-22 品格翻譯繼續(xù)為國家發(fā)改委提供翻譯服務。翻譯語種:英譯中。翻譯內(nèi)容:清潔電力計劃。
下一篇:2016-3-17 品格翻譯為西安西電開關(guān)電氣有限公司提供翻譯服務。翻譯語種:中譯英。翻譯內(nèi)容:公司介紹。