adtech studio

Amazon EC2 コンピューティング最適化インスタンスC5でベンチマーク

mkato By mkato

AWS Linux 検証

アドテク本部インフラエンジニアの加藤です。

Amazon EC2 の新しいハイパーバイザを採用したコンピューティング最適化インスタンスC5が、バージニア北部、オレゴン、アイルランドの 3リージョンで利用可能になったようです。

C4インスタンスはローンチ直後から東京リージョンで使えたことを考えると少し残念ですが、早速 バージニア北部リージョンに ローンチされたばかりのC5インスタンスを作成してベンチマークを行いたいと思います。

C5インスタンスについては、Amazon Web Services ブログ に説明があります。

 

C5インスタンスベンチ結果

早速ですが、 C5インスタンス全6インスタンスのベンチマークの結果です。

Amazon Linux AMI 2017.09.1 (HVM), SSD Volume Type – ami-6057e21a と汎用 SSD(GP2) 40GBの構成で、UnixBench 5.1.3での計測しました。

1 parallel
System Benchmarks Index Values c5.large c5.xlarge c5.2xlarge c5.4xlarg c5.9xlarg c5.18xlarge
Dhrystone 2 using register variables 3610.1 3612.1 3605.4 3610.3 3705 3704.5
Double-Precision Whetstone 743.2 745 745.8 746.5 713.6 717.2
Execl Throughput 1725 1289.1 1278.3 1327.4 1234.1 806.1
File Copy 1024 bufsize 2000 maxblocks 3444.6 3474.2 3075.6 3444.7 3479.1 3540.2
File Copy 256 bufsize 500 maxblocks 2347.7 2393.2 2362.1 2378 2443.2 2450.9
File Copy 4096 bufsize 8000 maxblocks 3884.6 5193.4 4411 5924.1 6472.2 6505.1
Pipe Throughput 2375.7 2383.3 2383.8 2390.8 2446.2 2443.4
Pipe-based Context Switching 269.8 230.7 210.6 234.5 398.8 398.5
Process Creation 1480.8 942.5 1040.7 1095.3 1231.5 742.1
Shell Scripts (1 concurrent) 2491.7 2465.7 2553.1 2649.4 2385 1934.5
Shell Scripts (8 concurrent) 2796.2 4663.2 7367.3 9218 9271.1 8266.7
System Call Overhead 3046.2 3030.5 3021.9 3016 3112.5 3123.6
System Benchmarks Index Score 1944.9 1932 1962.9 2111.5 2226.5 2010.6

 

2 parallel 4 parallel 8 parallel 16 parallel
System Benchmarks Index Values c5.large c5.xlarge c5.2xlarge c5.4xlarg c5.9xlarg c5.18xlarge
Dhrystone 2 using register variables 4520.8 8978.6 18040.9 36123.9 57776 57756.7
Double-Precision Whetstone 1601.8 3183.6 6382.9 12801.6 11925.4 11923.7
Execl Throughput 2679 3943 7038.8 11781.5 13948.8 11471.5
File Copy 1024 bufsize 2000 maxblocks 4237.9 2433.9 2259.2 2255.3 2541.7 1563.5
File Copy 256 bufsize 500 maxblocks 2791.5 1595.7 1426.2 1458.6 1699.6 1075.2
File Copy 4096 bufsize 8000 maxblocks 8161.7 4979.5 4395 4777.6 5432.5 3609.9
Pipe Throughput 3166.6 6301.9 12620 25226.8 37952.6 37913.5
Pipe-based Context Switching 1662.5 3323.5 6948.8 13753.4 5018.7 5649.2
Process Creation 2599.1 3494.6 5323.3 8494.1 9817.2 8300
Shell Scripts (1 concurrent) 2847.5 5324.2 9668.9 18837.9 30006.1 31711.3
Shell Scripts (8 concurrent) 2739.2 5179.9 9327.9 18128.2 37960.8 49635.7
System Call Overhead 4751.5 5283.1 5186.6 5091.7 3560.3 2482.8
System Benchmarks Index Score 3148.7 4110.2 6070.9 9336.6 10457.4 9124.5

C5 世代で新しく使えるようになった c5.18xlarge  は、ベンチマークの並列数の問題か Total Score がc5.9xlarg より低い値になってしまいましたが、Shell Scripts (8 concurrent) を見ると c5.9xlarg と比べて1.3倍になっています。

処理速度だけではなく 72 GiB RAM  10Gbps Networkのc5.9xlarg に比べてc5.18xlarge は 144 GiB RAM  25Gbps Network が使える点もポイントになるかと思います。

 

C4 vs C5

続いてC4インスタンスと比べて、どの程度の性能が上がっているか、同じvCPU数ののc5.2xlarge/c4.2xlarge で確認したいと思います。

こちらもAmazon Linux AMI 2017.09.1 (HVM), SSD Volume Type – ami-6057e21a と汎用 SSD(GP2) 40GBの構成で、UnixBench 5.1.3での計測しました。

1parallel 8 parallel
System Benchmarks Index Values c5.2xlarge c4.2xlarge c5.2xlarge c4.2xlarge
Dhrystone 2 using register variables 3605.4 3256.6 110.71% 18040.9 14734.9 122.44%
Double-Precision Whetstone 745.8 839 88.89% 6382.9 5837.7 109.34%
Execl Throughput 1278.3 1192.4 107.20% 7038.8 6195 113.62%
File Copy 1024 bufsize 2000 maxblocks 3075.6 3540.7 86.86% 2259.2 2549.1 88.63%
File Copy 256 bufsize 500 maxblocks 2362.1 2279.8 103.61% 1426.2 1597.1 89.30%
File Copy 4096 bufsize 8000 maxblocks 4411 7127.3 61.89% 4395 5584.3 78.70%
Pipe Throughput 2383.8 2308.6 103.26% 12620 10331.4 122.15%
Pipe-based Context Switching 210.6 134.5 156.58% 6948.8 5029.6 138.16%
Process Creation 1040.7 897.8 115.92% 5323.3 4919.4 108.21%
Shell Scripts (1 concurrent) 2553.1 2405.5 106.14% 9668.9 9060.1 106.72%
Shell Scripts (8 concurrent) 7367.3 6771.8 108.79% 9327.9 8800 106.00%
System Call Overhead 3021.9 2665.6 113.37% 5186.6 6592.1 78.68%
System Benchmarks Index Score 1962.9 1903.9 103.10% 6070.9 5856.4 103.66%

C4/C5では、CPU世代の進化だけでなく、KVMベースの 新ハイパーバイザが採用されたようなので、期待値が高かったのですが、今回の条件では微増という結果になりましたが、東京リージョン提供後に改めて比較したいと思います。

 

おまけプライベートクラウド vs パブリッククラウド

 

おまけで、アドテクスタジオにおいて、OpenStack ocata を採用/構築したプライベートクラウド IZANAMI で利用可能なフレーバーからコア数/RAMの似通ったar1-standard-8との比較を行います。

プライベートクラウドではAmazon Linuxの利用ができないため、ar1-standard-8のみCentOS7.4で計測しています。

1 parallel 8 parallel
System Benchmarks Index Values c5.2xlarge ar1-standard-8 c5.2xlarge ar1-standard-8
Dhrystone 2 using register variables 3605.4 2523.8 142.86% 18040.9 20138.7 89.58%
Double-Precision Whetstone 745.8 668.3 111.60% 6382.9 5345.3 119.41%
Execl Throughput 1278.3 813.7 157.10% 7038.8 6698.6 105.08%
File Copy 1024 bufsize 2000 maxblocks 3075.6 2392.4 128.56% 2259.2 3222.6 70.10%
File Copy 256 bufsize 500 maxblocks 2362.1 1518.3 155.58% 1426.2 2056.7 69.34%
File Copy 4096 bufsize 8000 maxblocks 4411 5234.3 84.27% 4395 6862.1 64.05%
Pipe Throughput 2383.8 1185.5 201.08% 12620 9463.1 133.36%
Pipe-based Context Switching 210.6 754 27.93% 6948.8 6013.7 115.55%
Process Creation 1040.7 766.3 135.81% 5323.3 4849.4 109.77%
Shell Scripts (1 concurrent) 2553.1 1734.2 147.22% 9668.9 9009.7 107.32%
Shell Scripts (8 concurrent) 7367.3 5867.4 125.56% 9327.9 9621 96.95%
System Call Overhead 3021.9 1487 203.22% 5186.6 3980 130.32%
System Benchmarks Index Score 1962.9 1594.7 123.09% 6070.9 6183.1 98.19%

手前味噌ではありますが Skylake 世代の C5 インスタンスに比べて、IZANAMI は2世代前のHaswell(E5-2680 v3)を利用した環境にもかかわらず、Total Scoreは肉薄した(8 parallel は負けてない) 結果となりました。

 

最後に

アドテクスタジオでは 、パブリッククラウド、プライベートクラウドを要件によって使い分けたり、ダイレクトコネクトを利用したハイブリッドクライドとして運用しています。

C5インスタンスのように、高性能高コストパフォーマンスのインスタンスの、東京リージョンで使える日がまちどおしいですね。