Twitter Boosts Performance and Cost Efficiency

Twitter increases Hadoop performance and cost efficiency with caching, fast SSDs and more compute.

Executive Overview
Storage I/O can be a significant performance bottleneck for Hadoop* clusters, especially in hyperscale deployments like those at Twitter, where a single cluster can have up to 10,000 nodes and nearly 100 PB of logical storage. The typical Hadoop cluster at Twitter contains over 100,000 hard disk drives (HDDs)—but this configuration was reaching an I/O performance limit because while HDD capacity has increased over time, HDD performance has not significantly changed.2 Therefore, simply adding more, bigger HDDs wasn’t going to solve Twitter’s scaling challenges—in fact, it would make things worse as the I/O per GB decreases. Adding more spindles per node was not feasible due to space and power limitations.

Working in collaboration with an Intel engineering team, Twitter engineers conducted a series of experiments that revealed that storing temporary files managed by YARN* (Yet Another Resource Negotiator*) on a fast SSD enabled significant performance improvements on existing hardware (up to a 50 percent reduction in runtime).3 The team also discovered that removing a storage I/O bottleneck enabled them to use larger hard drives while simultaneously increasing processor utilization, which in turn resulted in the ability to use higher-core-count processors. This positively affected storage performance, and contributed to higher data center density by reducing the number of required HDDs.

Higher density leads to total cost of ownership (TCO) savings through energy efficiency, fewer racks, and a smaller data center footprint. Overall, Twitter expects that caching temporary data and increasing core counts will result in approximately 30 percent lower TCO and over 50 percent faster runtimes, compared to their legacy production cluster configuration.1

Read the white paper - Boosting Hadoop* Performance and Cost Efficiency with Caching, Fast SSDs, and More Compute

Explore Related Products and Solutions

Intel® Xeon® Scalable Processors

Drive actionable insight, count on hardware-based security, and deploy dynamic service delivery with Intel® Xeon® Scalable processors.

Learn more

Intel® SSD DC Series

Intel® SSDs for the data center are optimized for performance, reliability, and endurance.

Learn more

通知および免責事項

インテル® テクノロジーの機能と利点はシステム構成によって異なり、対応するハードウェアやソフトウェア、またはサービスの有効化が必要となる場合があります。実際の性能はシステム構成によって異なります。絶対的なセキュリティーを提供できるコンピューター・システムはありません。詳細については、各システムメーカーまたは販売店にお問い合わせいただくか、http://www.intel.co.jp を参照してください。// 性能に関するテストに使用されるソフトウェアとワークロードは、性能がインテル® マイクロプロセッサーだけに最適化されていることがあります。SYSmark* や MobileMark* などの性能テストは、特定のコンピューター・システム、コンポーネント、ソフトウェア、操作、機能を使用して測定したものです。結果はこれらの要因によって異なります。製品の購入を検討される場合は、他の製品と組み合わせた場合の本製品の性能など、ほかの情報や性能テストも参考にして、パフォーマンスを総合的に評価することをお勧めします。詳細については、https://www.intel.co.jp/benchmarks (英語) を参照してください。// 性能の測定結果はシステム構成の詳細に記載された日付時点のテストに基づいています。また、現在公開中のすべてのセキュリティー・アップデートが適用されているとは限りません。詳細については、公開されている構成情報を参照してください。絶対的なセキュリティーを提供できる製品やコンポーネントはありません。// 記載されているコスト削減シナリオは、指定の状況と構成で、特定のインテル® プロセッサー搭載製品が将来のコストに及ぼす影響と実現されるコスト削減の例を示すためのものです。状況によって異なる可能性があります。インテルは、いかなるコストもコスト削減も保証いたしません。// インテルは、本資料で参照しているサードパーティーのベンチマーク・データまたはウェブサイトについて管理や監査を行っていません。本資料で参照しているウェブサイトにアクセスし、本資料で参照しているデータが正確かどうかを確認してください。// いくつかのテスト結果は、インテル社内での分析またはアーキテクチャーのシミュレーションあるいはモデリングで推定 / シュミレートされており、情報提供を目的として提供されています。システム・ハードウェア、ソフトウェア、構成などの違いにより、実際の性能は掲載された性能テストや評価とは異なる場合があります。

免責事項

1

ベースライン:シングルソケットインテル® Xeon® E3-1230 プロセッサーv6(4コア); 32〜64 GB RAM ; 1x1TBまたは2TB HDD ; インテル® S4500 240 GB ブートディスク ; 1 GbE〜10 GbE イーサネット ; キャッシュなし。テスト:シングルソケットインテル® Xeon® Gold 6262 プロセッサー(24コア); 192 GB RAM ; インテル® S4500 240 GB ブートディスク ; 8x 6 TB HDD ; 1xインテル® SSD DC P4610 6.4TB ; 25 GbE イーサネット ; インテル® キャッシュアクセラレーションソフトウェア(インテル® CAS)を使用したキャッシュ。OS:Twitter CentOS* 6 デリバティブ、カーネルバージョン2.6.74-t1.el6.x86_64(アップストリーム4.14.12カーネルに基づく)、BIOSバージョン:D3WWM11、マイクロコードバージョン:0xb000021。

2

Backblaze、2018年9月「ハードディスクドライブ(HDD)とソリッドステートドライブ(SSD):違いは何ですか?」https://www.backblaze.com/blog/hdd-versus-ssd-whats-the-diff/​​​

3

ベースライン:デュアルソケットインテル® Xeon® E5-2630プロセッサーv4 @ 2.2 GHz(10コア/ソケットあたり20スレッド); 128 GB RAM ; 12x6TB 7200 RPM SATA HDD ; 1x SATA SSDブートディスク; 25 GbEイーサネット。6つのラックにまたがる102ノード。ワークロード:Gridmix* およびTerasort *。Gridmix スコア:3309秒 ; Terasort スコア:5504秒 ; テスト : デュアルソケットインテル® Xeon® E5-2630プロセッサーv4 @ 2.2 GHz(10コア/ソケットあたり20スレッド); 128 GB RAM ; 12x6TB 7200 RPM SATA HDD ; 1x SATA SSDブートディスク; 750 GB Intel® Optane™ DC P4800X NVMe* ベースのSSD ; 25 GbEイーサネット ; 6つのラックにまたがる102ノード。ワークロード:Gridmix* および Terasort*。Gridmix スコア:2396秒 ; Terasortスコア:2640秒 ; OS:Twitter CentOS* 6デリバティブ、カーネル。