FLOPS

換算表
ヨタ(Y)	1024
ゼタ(Z)	1021
エクサ(E)	1018
ペタ(P)	1015
テラ(T)	1012
ギガ(G)	109
メガ(M)	106

FLOPS（フロップス、Floating-point Operations Per Second）はコンピュータの性能指標の一つ。

概要

FLoating point number Operations Per Secondの名称が示す通り、1秒間に浮動小数点演算が何回できるかの指標値ひいては性能値の事を指す。

ハードウェアの仕様として用いられるのは理論値であるが、ベンチマークソフトなどの計測から導き出される計測値は、理論値からは原則的に下がる。その為、理論値だけでなく、「理論的に算出された値の何%で実際のプログラムが動作するか」ということが重要になる（実測値）。実際の値が理論値に近いほど、より効率的なコンピュータだと考えられるからである。

パーソナルコンピュータ（以下PCと表記）向けのCPUやGPUメーカーは、計算ノードとしては単一のノードとなるので通常理論値で発表する（理論値がほぼそのまま実効値となる）が、一般的に並列方式スーパーコンピュータ（以下スパコンと表記）では多数の計算ノードのクラスタとして構築されるため、実際の計算能力を理論値に近づけるには高度な運用能力が必要であり、理論値ではなく LINPACK ベンチマークでの実測値がよく使われている。

2016年前後の時点において、普及している家庭用のPCのCPUはGFLOPS、スパコンの世界1位はPFLOPSの単位であるが、ムーアの法則にそって高速化が進んでおり、2018年に並列度1億でLINPACK性能値はEFLOPSの単位に到達すると予想されている^[1]。2000年頃からの理論値ではPCとスパコンの比例値は、おおよそ1万倍の差で推移している。

2020年4月現在、世界最高速のスパコンはFrontierで1.102EFLOPS^[2]。分散コンピューティングでは、Folding@homeが一時的に2.4EFLOPSを突破した^[3]。

代表的なハードウェアの浮動小数点数演算能力

PC (Intel)


名称	コア数	クロック	FLOPS（倍精度）	理論値/実測値	理論値の計算式	参照
Pentium	1コア	300MHz	300 MFLOPS	理論値	1 FLOPS/Clock × 300MHz
Pentium II	1コア	450MHz	450 MFLOPS	理論値	1 FLOPS/Clock × 450MHz
Pentium III	1コア	1.4GHz	2.1 GFLOPS	理論値	1.5 FLOPS/Clock × 1.4GHz
Pentium M	1コア	2.26GHz	3.39 GFLOPS	理論値	1.5 FLOPS/Clock × 2.26GHz	^[4]
Pentium 4	1コア	3.8GHz	7.6 GFLOPS	理論値	2 FLOPS/Clock × 3.8GHz	^[4]
Pentium D	2コア	3.6GHz	14.4 GFLOPS	理論値	2 FLOPS/Clock × 3.6GHz × 2コア	^[4]
Intel Atom (Bonnell)	2コア	1.8GHz	5.4 GFLOPS	理論値	1.5 FLOPS/Clock × 1.8GHz × 2コア
Core Solo	1コア	1.83GHz	2.75 GFLOPS	理論値	1.5 FLOPS/Clock × 1.83GHz	^[5]
Core Duo	2コア	2.33GHz	6.99 GFLOPS	理論値	1.5 FLOPS/Clock × 2.33GHz × 2コア	^[5]
Core 2 Duo	2コア	3.33GHz	26.64 GFLOPS	理論値	4 FLOPS/Clock × 3.33GHz × 2コア	^[5]
Core 2 Extreme	4コア	3.2GHz	51.2 GFLOPS	理論値	4 FLOPS/Clock × 3.2GHz × 4コア	^[5]
Core i7 (Nehalem)	4コア	3.33GHz	53.28 GFLOPS	理論値	4 FLOPS/Clock × 3.33GHz × 4コア	^[5]
Core i7 (Westmere)	6コア	3.46GHz	83.04 GFLOPS	理論値	4 FLOPS/Clock × 3.46GHz × 6コア	^[5]
Core i7 (Sandy Bridge)	6コア	3.3GHz	158.4 GFLOPS	理論値	8 FLOPS/Clock × 3.3GHz × 6コア	^[5]^[6]
Core i7 (Haswell)	8コア	3.0 GHz (ベース) 3.5 GHz (ターボ)	384 GFLOPS (ベース) 448 GFLOPS (ターボ)	理論値	16 FLOPS/Clock × 3.0 GHz × 8コア
Core i7 (Broadwell)	10コア	3.0 GHz (ベース) 3.5 GHz (ターボ)	480 GFLOPS (ベース) 560 GFLOPS (ターボ)	理論値	16 FLOPS/Clock × 3.0 GHz × 10コア
Core i9(Rocket Lake)	8コア	5.2 GHz (ターボ)	665 GFLOPS (ターボ)	理論値	16 FLOPS/Clock × 5.2 GHz × 8コア	^[7]
Core i9(Alder Lake)	P8/E8	5.2/4.0 GHz (ターボ)	1.18 TFLOPS (ターボ)	理論値	16 FLOPS/Clock × 5.2 GHz × 8コア + 16 FLOPS/Clock × 4.0 GHz × 8コア	^[8]

Core 2 Duoより1クロックで SSE で加算と乗算が計算できる^[9]ようになり128ビット幅だと倍精度で 4 FLOPS/クロック。Sandy Bridgeより搭載した Intel AVXは256ビット幅なので8FLOPS/クロック。Intel FMAは融合積和命令により1命令で積と和の2演算ができるので16FLOPS/クロック^[10]。単精度だと、これらの演算回数は2倍^[11]。Atomは1クロックで1つのSSE加算命令が、2クロックで1つのSSE乗算命令が実行できる^[12]ため、合計すると倍精度で3FLOPS/クロックとなる。

サーバ (Intel)


名称	コア数	クロック	FLOPS（倍精度）	理論値/実測値	理論値の計算式
Xeon (Nehalem)	8コア	2.26 GHz	72.32 GFLOPS	理論値	4 FLOPS/Clock × 2.26 GHz × 8コア
Xeon (Westmere)	10コア	2.4 GHz	96 GFLOPS	理論値	4 FLOPS/Clock × 2.4 GHz × 10コア
Xeon (Sandy Bridge)	8コア	3.1 GHz	198.4 GFLOPS	理論値	8 FLOPS/Clock × 3.1 GHz × 8コア
Xeon (Ivy Bridge)	15コア	2.8 GHz	336 GFLOPS	理論値	8 FLOPS/Clock × 2.8 GHz × 15コア
Xeon (Haswell)	18コア	2.3 GHz	662.4 GFLOPS	理論値	16 FLOPS/Clock × 2.3 GHz × 18コア
Xeon (Broadwell)	24コア	2.2 GHz(ベース) 3.4 GHz(ターボ)	0.845 TFLOPS(ベース) 1.306 TFLOPS(ターボ)	理論値	16 FLOPS/Clock × 3.4 GHz × 24コア
Xeon Phi (Knights Corner)	61コア	1.238 GHz(ベース) 1.33 GHz(ターボ)	1.208 TFLOPS(ベース) 1.298 TFLOPS(ターボ)	理論値	16 FLOPS/Clock × 1.33 GHz × 61コア
Xeon Phi (Knights Landing)	72コア	1.5 GHz(ベース) 1.7 GHz(ターボ)	3.456 TFLOPS(ベース) 3.917 TFLOPS(ターボ)	理論値	32 FLOPS/Clock × 1.7 GHz × 72コア

PC/Server (AMD)


名称	コア数	クロック	FLOPS（倍精度）	理論値/実測値	理論値の計算式	参照
Phenom II (X4 980 Black Edition)	4コア	3.7GHz	59.2 GFLOPS	理論値	4 FLOPS/Clock × 3.7GHz × 4コア
Phenom II (X6 1100T Black Edition)	6コア	3.3GHz	79.2 GFLOPS	理論値	4 FLOPS/Clock × 3.3GHz × 6コア
AMD Fusion E Series (Bobcat)	2コア	1.65GHz	6.6 GFLOPS	理論値	2 FLOPS/Clock × 1.65GHz × 2コア
AMD Opteron (Magny-Cours)	12コア	2.5GHz	120 GFLOPS	理論値	4 FLOPS/Clock × 2.5GHz × 12コア	^[6]
AMD FX (Bulldozer)	8コア/4モジュール	3.9GHz	124.8 GFLOPS	理論値	8 FLOPS/Clock × 3.9GHz × 4モジュール
AMD Opteron (Interlagos)	16コア/8モジュール	3.1GHz	198.4 GFLOPS	理論値	8 FLOPS/Clock × 3.1GHz × 8モジュール
Ryzen 9 (Vermeer)	16コア	4.9GHz（ブースト）	1.254 TFLOPS	理論値	16 FLOPS/Clock × 4.9GHz × 16コア
EPYC (Milan)	64コア	3.5GHz（ブースト）	2.509 TFLOPS（ベース） 3.584 TFLOPS（ブースト）	理論値	16 FLOPS/Clock × 3.5GHz × 64コア

Bulldozer は1モジュールにつき2つの128ビット積和演算器があり、倍精度は2つのFMA命令を同時実行することにより 8 FLOPS/Cycle。

ARM


名称	コア数	クロック	FLOPS	理論値/実測値	理論値の計算式
ARM11	1コア	700MHz	単精度：700 MFLOPS	理論値	単精度：1 FLOPS/Clock × 700MHz
ARM Cortex-A8	1コア	1GHz	単精度：4 GFLOPS	理論値	単精度：4 FLOPS/Clock × 1GHz
ARM Cortex-A9	4コア	1.5GHz	単精度：24 GFLOPS 倍精度：9 GFLOPS	理論値	単精度：4 FLOPS/Clock × 1.5GHz × 4コア倍精度：1.5 FLOPS/Clock × 1.5GHz × 4コア
ARM Cortex-A15	4コア	2.0GHz	単精度：64 GFLOPS 倍精度：16 GFLOPS	理論値	単精度：8 FLOPS/Clock × 2.0GHz × 4コア倍精度：2 FLOPS/Clock × 2.0GHz × 4コア
ARM Cortex-A57	4コア	2.8GHz	単精度：89.6 GFLOPS 倍精度：44.8 GFLOPS	理論値	単精度：8 FLOPS/Clock × 2.8GHz × 4コア倍精度：4 FLOPS/Clock × 2.8GHz × 4コア

NetWalker PC-Z1: CPU 3.2GFLOPS(ARM Cortex-A8 800MHz,SIMD), 0.64GFLOPS(同VFP)

ARM NEON はCortex-A15までは倍精度が扱えなく、単精度のみ^[13]。ARM NEON は 128ビット幅で単精度だと 4 FLOPS/Cycle だが、Cortex-A15 は FMA があるので 8 FLOPS/Cycle。

倍精度は、Cortex-A9 は VFPv3 により、2 cycle で足し算2回、乗算1回、合計3演算できるので、1.5 FLOPS/Cycle。Cortex-A15 は VFPv4 により、1 cycle で1回 FMA が計算できるので、2 FLOPS/Cycle。Cortex-A57より、NEONでも倍精度が扱えるようになる。

ゲーム機

※いずれも単精度（FP32）

ドリームキャスト: 1.4GFLOPS（SH-4単体）^[14]
Xbox: 1.5GFLOPS
Xbox 360: 115.2GFLOPS（Xenon単体）^[15]、240GFLOPS（Xenos GPU単体）^[15]、1TFLOPS （システム全体）:但し詳しい内訳は不明^[16]
Xbox One: 1.3TFLOPS(GPU単体)^[17]、Xbox One S: 1.4TFLOPS(GPU単体)^[17]、Xbox One X: 6TFLOPS(GPU単体)^[17]
Xbox Series X: 12.15TFLOPS(GPU単体)^[18]、Xbox Series S: 4TFLOPS(GPU単体)^[18]
PlayStation Portable: CPU 2.6GFLOPS / 9.6GFLOPS（ピーク時/システム全体）
PlayStation 2: 6.2GFLOPS（Emotion Engine単体）^[19]
PlayStation 3: 218GFLOPS（Cell Broadband Engine単体）^[20]、224GFLOPS （RSX単体）^[21]、2TFLOPS （システム全体）:但し詳しい内訳は不明^[22]
PlayStation 4: 1.84TFLOPS（GPU単体）^[21]、PlayStation 4 Pro: 4.2TFLOPS（GPU単体）^[23]
PlayStation 5:10.3TFLOPS(GPU単体)^[24]

スーパーコンピュータ


名称	FLOPS	理論値/実測値	システム概要	参照
ENIAC	300FLOPS		1946年完成
CRAY-1	160MFLOPS	倍精度, 理論ピーク性能値	1976年初号機納入
ディープ・ブルー	11.38GFLOPS		1989年開発開始、1997年チェス世界チャンピオンと対戦し、勝利
地球シミュレータ（第1世代）	35.86TFLOPS	倍精度, LINPACK実測値	TOP500 Jun 2002 1位
TSUBAME 1.2	87.01TFLOPS	倍精度, LINPACK実測値	TOP500 Jun 2009 41位
T2Kオープンスパコン	101.74TFLOPS	倍精度, LINPACK実測値
地球シミュレータ（第2世代）	122.4TFLOPS		TOP500 Jun 2009 16位
GPUクラスタ（長崎大学、濱田剛ら）	158TFLOPS			^[25]
Blue Gene/L	478.2TFLOPS		TOP500 Nov 2007 1位
IBM Roadrunner	1.105PFLOPS	倍精度, LINPACK実測値	TOP500 Jun 2008 1位
TSUBAME 2.0	1.192PFLOPS	倍精度, LINPACK実測値	TOP500 Nov 2011 4位 Xeon + NVIDIA Tesla
天河一号A	2.566PFLOPS	倍精度, LINPACK実測値	TOP500 Nov 2010 1位理論値 4.701 PFLOPS。実行効率 54.6% Xeon + NVIDIA Tesla
TSUBAME 2.5	2.843PFLOPS	倍精度, LINPACK実測値	TOP500 Nov 2013 11位 , Green500 6位理論値 5.609 PFLOPS。実行効率 50.7% Xeon + NVIDIA Tesla
京	10.510PFLOPS	倍精度, LINPACK実測値	TOP500 Jun 2011 1位実行効率 93.2%^[26] - CPU数88,128個, 理論値 11,280,384 GFLOPS (=128 GFLOPS×88,128)	^[27]^[28]
IBM Sequoia	17.172PFLOPS	倍精度, LINPACK実測値	TOP500 Nov 2012 1位理論値 20.133 PFLOPS。実行効率 85.3% PowerPC A2
天河二号	61.445PFLOPS	倍精度, LINPACK実測値	TOP500 Jun 2013 1位理論値 100.679 PFLOPS。実行効率 61.0% Xeon E5-2692v2 + Xeon Phi 31S1P
神威太湖之光	93.01PFLOPS		TOP500 Jun 2016 1位理論値 125.436 PFLOPS。実行効率 74.1% SW26010, Sunway
Summit	143.5PFLOPS		TOP500 Jun 2018 1位理論値 200.795 PFLOPS。実行効率 71.4% Power9 22C, Mellanox dual-rail EDR InfiniBand
富岳	442.01PFLOPS	倍精度, LINPACK実測値	TOP500 Jun 2020 1位理論値 520PFLOPS。実行効率　82.3％
Frontier	1102.00PFLOPS (1.102EFLOPS)	倍精度, LINPACK実測値	TOP500 Jun 2022 1位理論値1685.65PLOPS。実行効率 65.4% 史上初めてLINPACKでEFLOPSを達成

分散コンピューティング


名称	FLOPS	日付	参加台数	Active率	参照
BOINC	2.958PFLOPS	2009年12月6日			^[29]
	8.563PFLOPS	2013年12月26日	986,613台	8.51%
	161.081PFLOPS	2015年2月3日	376,688台	3.54%
	160.76PFLOPS	2017年3月14日	739,507台	4.79%
SETI@home (BOINCに含む)	658.210TFLOPS	2013年12月26日
SETI@home (BOINCに含む)	731.599TFLOPS	2009年12月6日
UD Agent	65TFLOPS	2001年10月01日	約96万台
Folding@home	4.273PFLOPS	2008年11月22日	Active 353,966 CPU (参加約355万台)
	5.427PFLOPS	2012年3月23日
	2.4EFLOPS	2020年4月14日			^[3]

グラフィックスカード

単精度の積和算を 2 FLOPS/Clock で行える。

NVIDIA

GeForce 8600 GTS: 92.8GFLOPS / 139GFLOPS（積和算 / 積和算、積算合計）
GeForce 8800 GT: 336GFLOPS / 504GFLOPS（積和算 / 積和算、積算合計）
GeForce 9600 GT: 208GFLOPS / 312GFLOPS（積和算 / 積和算、積算合計）
GeForce 9800 GTX+: 470GFLOPS / 705GFLOPS（積和算 / 積和算、積算合計）
GeForce GTX 280: 622GFLOPS / 933GFLOPS（積和算 / 積和算、積算合計）^[30]^[31]


名称	コア数	クロック	FLOPS	理論値/実測値	理論値の計算式	参照
GeForce GTX 480	480	1401 MHz	単精度：1.345 TFLOPS	理論値	単精度：2 FLOPS/Clock × 1401 MHz × 480コア
GeForce GTX 580	512	1544 MHz	単精度：1.581 TFLOPS	理論値	単精度：2 FLOPS/Clock × 1544 MHz × 512コア
GeForce GTX 590 (2GPU合計)	1024	1214 MHz	単精度：2.488 TFLOPS	理論値	単精度：2 FLOPS/Clock × 1214 MHz × 1024コア
GeForce GTX 680	1536	1006 MHz	単精度：3.090 TFLOPS 倍精度：129 GFLOPS	理論値	単精度：2 FLOPS/Clock × 1006 MHz × 1536コア倍精度：1/12 FLOPS/Clock × 1006 MHz × 1536コア
GeForce GTX 690 (2GPU合計)	3072	915 MHz	単精度：5.621 TFLOPS 倍精度：234 GFLOPS	理論値	単精度：2 FLOPS/Clock × 915 MHz × 3072コア倍精度：1/12 FLOPS/Clock × 915 MHz × 3072コア
GeForce GTX 780 Ti Special Black Edition	2880	1000 MHz	単精度：5.76 TFLOPS 倍精度：240 GFLOPS	理論値	単精度：2 FLOPS/Clock × 1000 MHz × 2880コア倍精度：1/12 FLOPS/Clock × 1000 MHz × 2880コア
GeForce GTX TITAN X	3072	1000 MHz	単精度：6.144 TFLOPS 倍精度：192 GFLOPS	理論値	単精度：2 FLOPS/Clock × 1000 MHz × 3072コア倍精度：1/16 FLOPS/Clock × 1000MHz × 3072コア	^[32]
GeForce GTX TITAN Z (2GPU合計)	5760	705 MHz	単精度：8.12 TFLOPS 倍精度：2.71 TFLOPS	理論値	単精度：2 FLOPS/Clock × 705 MHz × 5760コア倍精度：2/3 FLOPS/Clock × 705 MHz × 5760コア	^[33]
GeForce GTX 980	2048	1126 MHz	単精度：4.612 TFLOPS 倍精度：144 GFLOPS	理論値	単精度：2 FLOPS/Clock × 1126 MHz × 2048コア倍精度：1/16 FLOPS/Clock × 1126 MHz × 2048コア	^[34]
GeForce GTX 1080	2560	1733 MHz	単精度：8.872 TFLOPS 倍精度：277 GFLOPS	理論値	単精度：2 FLOPS/Clock × 1733 MHz × 2560コア倍精度：1/16 FLOPS/Clock × 1733 MHz × 2560コア	^[35]
GeForce RTX 2080	2944	1710 MHz	単精度：10.07 TFLOPS 倍精度：314 GFLOPS	理論値 (RT,TensorCoreを除く)	単精度：2 FLOPS/Clock × 1710 MHz × 2944コア倍精度：1/16 FLOPS/Clock × 1710 MHz × 2944コア	^[36]
GeForce RTX 3080	8704	1710 MHz	単精度：29.77 TFLOPS 倍精度：465 GFLOPS	理論値 (RT,TensorCoreを除く)	単精度：2 FLOPS/Clock × 1710 MHz × 8704コア倍精度：1/32 FLOPS/Clock × 1710 MHz × 8704コア	^[37]
GeForce RTX 4080 16GB	9728	2504 MHz	単精度：48.74 TFLOPS 倍精度：761 GFLOPS	理論値 (RT,TensorCoreを除く)	単精度：2 FLOPS/Clock × 2504 MHz × 9728コア倍精度：1/32 FLOPS/Clock × 2505 MHz × 9728コア	^[38]
GeForce RTX 4090	16384	2520 MHz	単精度：82.58 TFLOPS 倍精度：1.290 TFLOPS	理論値 (RT,TensorCoreを除く)	単精度：2 FLOPS/Clock × 2520 MHz × 16384コア倍精度：1/32 FLOPS/Clock × 2520 MHz × 16384コア	^[38]

AMD


名称	コア数	クロック	FLOPS	理論値/実測値	理論値の計算式	参照
Radeon HD 3650	120	725MHz	単精度：174 GFLOPS	理論値	単精度：2 FLOPS/Clock × 725MHz × 120コア
Radeon HD 3870	320	825MHz	単精度：496 GFLOPS	理論値	単精度：2 FLOPS/Clock × 825MHz × 320コア
Radeon HD 4670	320	750MHz	単精度：480 GFLOPS	理論値	単精度：2 FLOPS/Clock × 750MHz × 320コア
Radeon HD 4870	800	750MHz	単精度：1.2 TFLOPS	理論値	単精度：2 FLOPS/Clock × 750MHz × 800コア
Radeon HD 5870	1600	850MHz	単精度：2.72 TFLOPS	理論値	単精度：2 FLOPS/Clock × 850MHz × 1600コア
Radeon HD 5970 (2GPU合計)	3200	725MHz	単精度：4.64 TFLOPS	理論値	単精度：2 FLOPS/Clock × 725MHz × 3200コア	^[39]
Radeon HD 6970	1536	880MHz	単精度：2.703 TFLOPS 倍精度：0.676 TFLOPS	理論値	単精度：2 FLOPS/Clock × 880MHz × 1536コア倍精度：0.5 FLOPS/Clock × 880MHz × 1536コア	^[40]
Radeon HD 6990 (2GPU合計)	3072	830 MHz	単精度：5.1 TFLOPS 倍精度：1.275 TFLOPS	理論値	単精度：2 FLOPS/Clock × 830 MHz × 3072コア倍精度：0.5 FLOPS/Clock × 830MHz × 3072コア
Radeon HD 7970 GHz Edition	2048	1.05 GHz	単精度：4.301 TFLOPS 倍精度：1.075 TFLOPS	理論値	単精度：2 FLOPS/Clock × 1.05 GHz × 2048コア倍精度：0.5 FLOPS/Clock × 1.05 GHz × 2048コア	^[41]^[40]
Radeon HD 7990 (2GPU合計)	4096	1.0 GHz	単精度：8.192 TFLOPS 倍精度：2.048 TFLOPS	理論値	単精度：2 FLOPS/Clock × 1.0 GHz × 4096コア倍精度：0.5 FLOPS/Clock × 1.0 GHz × 4096コア	^[41]
Radeon R9 290X	2816	1.0 GHz	単精度：5.632 TFLOPS 倍精度：1.408 TFLOPS	理論値	単精度：2 FLOPS/Clock × 1.0 GHz × 2816コア倍精度：0.5 FLOPS/Clock × 1.0 GHz × 2816コア
Radeon R9 295X2 (2GPU合計)	5632	1.018 GHz	単精度：11.467 TFLOPS 倍精度：2.867 TFLOPS	理論値	単精度：2 FLOPS/Clock × 1.018 GHz × 5632コア倍精度：0.5 FLOPS/Clock × 1.018 GHz × 5632コア

ハイエンドでは倍精度(fp64)は 0.5 FLOPS/Cycle であるが、ミドルレンジ以下は 0.125 FLOPS/Cycle^[42] であったり、倍精度の計算が出来なかったりする。

Intel


名称	EU数	クロック	FLOPS	理論値/実測値	理論値の計算式	参照
Intel GMA X4500	10	800MHz	単精度：32 GFLOPS	理論値	単精度：4 FLOPS/Clock × 10EU × 800MHz	^[43]
Intel HD Graphics (Clarkdale)	12	900MHz	単精度：43.2 GFLOPS	理論値	単精度：4 FLOPS/Clock × 12EU × 900MHz	^[43]
Intel HD Graphics 3000	12	1.35GHz (Max)	単精度：129.6 GFLOPS	理論値	単精度：8 FLOPS/Clock × 12EU × 1.35GHz	^[43]
Intel HD Graphics 4000	16	1.35GHz (Max)	単精度：345.6 GFLOPS	理論値	単精度：16 FLOPS/Clock × 16EU × 1.35GHz	^[44]
Intel HD Graphics (Haswell)	10	1.2GHz (Max)	単精度：192 GFLOPS	理論値	単精度：16 FLOPS/Clock × 10EU × 1.2GHz	^[44]
Intel Iris Pro Graphics 5200	40	1.3GHz (Max)	単精度：832 GFLOPS 倍精度：208 GFLOPS	理論値	単精度：16 FLOPS/Clock × 40EU × 1.3GHz 倍精度：4 FLOPS/Clock × 40EU × 1.3GHz	^[45]
Iris Pro Graphics 6200	48	1.15GHz (Max)	単精度：883 GFLOPS 倍精度：220.8 GFLOPS	理論値	単精度：16 FLOPS/Clock × 48EU × 1.15GHz 倍精度：4 FLOPS/Clock × 48EU × 1.15GHz	^[46]
Intel HD Graphics 530 (Skylake)	24	1.15GHz (Max)	単精度：441.6 GFLOPS 倍精度：110.4 GFLOPS	理論値	単精度：16 FLOPS/Clock × 24EU × 1.15GHz 倍精度：4 FLOPS/Clock × 24EU × 1.15GHz	^[47]

HD Graphicsの各EUは4-way SIMDの演算器を備えており、1命令で4並列の単精度浮動小数点演算が可能である。Sandy Bridgeより前の世代では1クロックでEUあたり1つの加算もしくは乗算命令を実行可能で、4FLOPS/EU。Sandy Bridge世代では1クロックでEUあたり1つのFMA命令を実行可能で、8FLOPS/EU。Ivy Bridge世代以降は1クロックでEUあたり2つのFMA命令を実行可能で、16FLOPS/EUとなる。

Qualcomm Snapdragon


名称	ALU数	クロック	FLOPS（単精度）	理論値/実測値	理論値の計算式	参照
Adreno 200	8	245MHz	3.92 GFLOPS	理論値	2 FLOPS/ALU × 245MHz × 8ALU
Adreno 203 Adreno 205	16	245MHz	7.84 GFLOPS	理論値	2 FLOPS/ALU × 245MHz × 16ALU
Adreno 220	32	266MHz	17.0 GFLOPS	理論値	2 FLOPS/ALU × 266MHz × 32ALU
Adreno 225	32	400MHz	25.6 GFLOPS	理論値	2 FLOPS/ALU × 400MHz × 32ALU
Adreno 320 (Snapdragon S4 Pro)	64	400MHz	57 GFLOPS	理論値	2.25 FLOPS/ALU × 400MHz × 64ALU	^[48]
Adreno 320 (Snapdragon 600)	96	400MHz	86.4 GFLOPS	理論値	2.25 FLOPS/ALU × 400MHz × 96ALU	^[48]
Adreno 330 (Snapdragon 800)	128	450MHz	129.6 GFLOPS	理論値	2.25 FLOPS/ALU × 450MHz × 128ALU	^[48]
Adreno 430 (Snapdragon 810)	288	500MHz	324 GFLOPS	理論値	2.25 FLOPS/ALU × 500MHz × 288ALU

Appleシリコン


チップセット	GPU コア / クラスタ	GPU MHz	FLOPS	デバイス	GPU モデルと理論値の計算式	参照
Apple A4	1 Core	200MHz	1.6 GFLOPS	iPhone 4	PowerVR SGX535 @ 200 MHz (2vec4) 4 x 2 х 0.200 = 1.6 GFLOPS	^[49]
Apple A4	1 Core	250MHz	2 GFLOPS	iPad	PowerVR SGX535 @ 250 MHz (2vec4) 4 x 2 х 0.250 = 2 GFLOPS
Apple A5	2 Cores	200MHz	14.4 GFLOPS	iPhone 4S	PowerVR SGX543MP2 (dual-core) @ 250 MHz 2vec4 + 1 scalar: 4х2+1=9 * 8 х 0.200 х 9 = 14.4 GFLOPS	^[50]
Apple A5	2 Cores	250MHz	18 GFLOPS	iPad 2	PowerVR SGX543MP2 (dual-core) @ 200 MHz 2vec4 + 1 scalar: 4х2+1=9 * 8 х 0.200 х 9 = 18 GFLOPS	^[50]
Apple A5X	4 Cores	250MHz	36 GFLOPS	iPad 3	PowerVR SGX543MP4 (quad-core) @ 250 MHz 2vec4 + 1 scalar: 4х2+1=9 * 16 х 0.250 х 9 = 36 GFLOPS	^[50]
Apple A6	3 Cores	250MHz	27 GFLOPS	iPhone 5	PowerVR SGX543MP3 (tri-core) @ 250 MHz 2vec4 + 1 scalar: 4х2+1=9 * 12 х 0.250 х 9 = 27 GFLOPS	^[50]
Apple A6X	4 Cores	280MHz	80 GFLOPS	iPad 4	PowerVR SGX554MP4 (quad-core) @ 280 MHz 2vec4 + 1 scalar: 4х2+1=9 * 32 х 0.280 х 9 = 80 GFLOPS	^[51]
Apple A7	4 Clusters	450MHz	115.2 GFLOPS	iPhone 5S	PowerVR G6430 (quad-clusters) @ 450 MHz 64 USC x 4 Clusters x 0.450 = 115.2 GFLOPS	^[52]
Apple A7	4 Clusters	533MHz	136.4 GFLOPS	iPad Air	PowerVR G6430 (quad-clusters) @ 533 MHz 64 USC x 4 Clusters x 0.533 = 136.4 GFLOPS	^[52]
Apple A8	4 Clusters	450MHz	115.2 GFLOPS	iPhone 6/6 Plus	PowerVR G6450 (quad-clusters) @ 450 MHz 64 USC x 4 Clusters x 0.450 = 115.2 GFLOPS	^[53]
Apple A8X	8 Clusters	450MHz	230.4 GFLOPS	iPad Air 2	PowerVR GXA6850 @ 450 MHz 64 USC x 8 Clusters x 0.450 = 230.4 GFLOPS	^[54]^[55]
Apple A9	6 Clusters	650MHz	249.6GFLOPS	iPhone 6s/6s Plus	PowerVR Series 7XT GT7600
Apple A9X	12 Clusters	650MHz	499.2 GFLOPS	iPad Pro	PowerVR Series 7XT GT7600
Apple A10 Fusion	6 Clusters	900 MHz	364.8 GFLOPS	iPhone 7/7 Plus, iPad (第6世代), iPad (第7世代)	PowerVR Series 7XT GT7600 Plus
Apple A10X Fusion	12 Clusters	1000 MHz	768 GFLOPS	12.9インチiPad Pro (第2世代), 10.5インチiPad Pro, Apple TV 4K	PowerVR Series 7XT GT7600 Plus
Apple A11	3 Clusters	1066 MHz	409.3 GFLOPS	iPhone 8/8 Plus, iPhone X
Apple A12 Bionic	4 Clusters	1125 MHz	576 GFLOPS	iPhone XR, iPhone XS/XS Max, iPad Air (第3世代), iPad mini (第5世代), iPad (第8世代), Apple TV 4K (第2世代)
Apple A12X Bionic	7 Clusters	1340 MHz	1200 GFLOPS	iPad Pro
Apple A12Z Bionic	8 Clusters	1340 MHz	1372 GFLOPS	iPad Pro, Developer Transition Kit
Apple A13 Bionic	4 Clusters	1350 MHz	691 GFLOPS	iPhone 11シリーズ, iPhone SE (第2世代), iPad (第9世代)
Apple A14 Bionic	4 Clusters	975 MHz	998 GFLOPS	iPhone 12シリーズ, iPad Air (第4世代), iPad (第10世代)
Apple A15	4 Clusters 5 Clusters	1.2 GHz	1.4 TFLOPS 1.5 TFLOPS	iPhone 13シリーズ, iPhone 14/14 Plus, iPhone SE (第3世代),iPad mini (第6世代), Apple TV 4K (第3世代)
Apple A16	5 Clusters	1.2 GHz	2.0 TFLOPS	iPhone 14 Pro/14 Pro Max,
Apple M1	7 Clusters 8 Clusters	1.28 GHz	2.6 TFLOPS	MacBook Air, Mac mini, iMac, iPad Pro
Apple M1 Pro	14 Clusters 16 Clusters	1.3 GHz	4.5 TFLOPS 5.3 TFLOPS	MacBook Pro
Apple M1 Max	24 Clusters 32 Clusters		7.8 TFLOPS 10.6 TFLOPS	MacBook Pro, Mac Studio
Apple M1 Ultra	48 Clusters 64 Clusters		15.6 TFLOPS 21.2 TFLOPS	Mac Studio
Apple M2	8 Clusters 10 Clusters	1.4 GHz	3.6 TFLOPS	MacBook Air, Mac mini, iPad Pro
Apple M2 Pro	16 Clusters 19 Clusters		6.8 TFLOPS	Mac mini, MacBook Pro
Apple M2 Max	30 Clusters 38 Clusters		13.6 TFLOPS	MacBook Pro, Mac Studio
Apple M2 Ultra	60 Clusters 72 Clusters		27.2 TFLOPS	Mac Studio, Mac Pro

Texas Instruments OMAP


名称	コア数	クロック	FLOPS（単精度）	理論値/実測値	理論値の計算式	参照
PowerVR SGX 540	4	384MHz	6.1 GFLOPS	理論値	4 FLOPS/コア × 384MHz × 4コア

NVIDIA Tegra


名称	ALU数	クロック	FLOPS（単精度）	理論値/実測値	理論値の計算式	参照
Tegra 2	8	333MHz	5.6 GFLOPS	理論値	2 FLOPS/ALU × 333MHz × 8ALU
Tegra 3	12	500MHz	12.48 GFLOPS	理論値	2 FLOPS/ALU × 520MHz × 12ALU	^[56]^[57]
Tegra 4i	60	660MHz	79.2 GFLOPS	理論値	2 FLOPS/ALU × 660MHz × 60ALU	^[58]
Tegra 4	72	672MHz	96.768 GFLOPS	理論値	2 FLOPS/ALU × 672MHz × 72ALU	^[57]
Tegra K1	192	950MHz	365 GFLOPS	理論値	2 FLOPS/ALU × 950MHz × 192ALU
Tegra X1	256	1.0 GHz	512 GFLOPS	理論値	2 FLOPS/ALU × 1.0GHz × 256ALU	^[59]

Samsung Exynos


名称	コア数	クロック	FLOPS（単精度）	理論値/実測値	理論値の計算式	参照
Exynos 3	1	200MHz	3.2 GFLOPS	理論値	16 FLOPS × 200MHz
Exynos 4 Dual (45nm)	4	266MHz	9.6 GFLOPS	理論値	9 FLOPS/コア × 266MHz × 4コア
Exynos 4 Dual (32nm)	4	400MHz	14.4 GFLOPS	理論値	9 FLOPS/コア × 400MHz × 4コア
Exynos 4 Quad	4	440MHz	15.84 GFLOPS	理論値	9 FLOPS/コア × 440MHz × 4コア
Exynos 5 Dual	4	533MHz	72.5 GFLOPS	理論値	Mali T604 MP4 (quad-core) @ 533MHz * 16FP + 1 TMU = 17 x 2 ALU x 4 Core x 0.533= 72.488 GFLOPS	^[60]
Exynos 5410 Octa	3	533MHz	51.2 GFLOPS	理論値	PowerVR SGX544MP3 (tri-core) @ 533MHz * 2vec4=8 * 12 х 0.533 х 8 = 51.2 GFLOPS
Exynos 5420 Octa	6	533MHz	102.4 GFLOPS	理論値	Mali T628 MP6 (six-core) @ 533MHz * 16FP x 2 ALU x 6 Core x 0.533 = 102.4 GFLOPS	^[61]

GPUアクセラレーター


名称	コア数	クロック	FLOPS	理論値/実測値	理論値の計算式	参照
NVIDIA Tesla C870	128	1.35 GHz	単精度：345.6 GFLOPS 倍精度：不可	理論値	単精度：2 FLOPS/Clock × 1.35 GHz × 128コア
NVIDIA Tesla C1060	240	1.3 GHz	単精度：622 GFLOPS 倍精度：78 GFLOPS	理論値	単精度：2 FLOPS/Clock × 1.3 GHz × 240コア倍精度：1/4 FLOPS/Clock × 1.3 GHz × 240コア
NVIDIA Tesla C2070	448	1.15 GHz	単精度：1.03 TFLOPS 倍精度：0.515 TFLOPS	理論値	単精度：2 FLOPS/Clock × 1.15 GHz × 448コア倍精度：1 FLOPS/Clock × 1.15 GHz × 448コア
NVIDIA Tesla K10 (2GPU合計)	3072	745 MHz	単精度：4.58 TFLOPS 倍精度：0.19 TFLOPS	理論値	単精度：2 FLOPS/Clock × 745 MHz × 3072コア倍精度：1/12 FLOPS/Clock × 745 MHz × 3072コア	^[62]
NVIDIA Tesla K20	2496	706 MHz	単精度：3.52 TFLOPS 倍精度：1.17 TFLOPS	理論値	単精度：2 FLOPS/Clock × 706 MHz × 2496コア倍精度：2/3 FLOPS/Clock × 706 MHz × 2496コア	^[62]
NVIDIA Tesla K40	2880	745 MHz	単精度：4.29 TFLOPS 倍精度：1.43 TFLOPS	理論値	単精度：2 FLOPS/Clock × 745 MHz × 2880コア倍精度：2/3 FLOPS/Clock × 745 MHz × 2880コア	^[62]
NVIDIA Tesla K80 (2GPU合計)	4992	562 MHz	単精度：5.61 TFLOPS 倍精度：1.87 TFLOPS	理論値	単精度：2 FLOPS/Clock × 562 MHz × 4992コア倍精度：2/3 FLOPS/Clock × 562 MHz × 4992コア
NVIDIA Tesla P100 16GB	3584	1329MHz	単精度：9.526 TFLOPS 倍精度：4.763 TFLOPS	理論値	単精度：2 FLOPS/Clock × 1329 MHz × 3584コア倍精度：1 FLOPS/Clock × 1329 MHz × 3584コア
AMD FirePro S9150	2816		単精度：5.07 TFLOPS 倍精度：2.53 TFLOPS	理論値		^[63]
AMD FirePro S9170	2816		単精度：5.24 TFLOPS 倍精度：2.62 TFLOPS	理論値		^[64]

FPGA

アルテラ
名称	クロック	FLOPS (単精度、積和算)	理論値/実測値	理論値の計算式
Stratix IV	445 MHz	理論値 245 GFLOPS 実測値 171 GFLOPS	理論値	64x64の行列のかけ算1つで128個のDSPを消費し、24.45 GFLOPS。DSP は最大1288個なので、244.5 GFLOPS。FPGAでは整数の積和算は1クロックで計算できるが、GPUとは異なり浮動小数点のかけ算は 445MHz 動作で11クロック必要^[65]^[66]。それに対して、GPUは1クロックで行える。
Stratix V	388 MHz	1.568 TFLOPS	理論値	2048 multiplier / 64 * 49 GFLOPS (388 MHz) = 1.568 TFLOPS^[67]。単精度の乗算には 27x27 の multiplier が単精度浮動小数点数あたり 64 個必要。
Stratix 10	1 GHz	10 TFLOPS	理論値	2 FLOPS * 5000 DSP * 1 GHz = 10 TFLOPS^[68]。

ザイリンクス
名称	FLOPS (単精度)	理論値/実測値	理論値の計算式
Virtex-5 SX240T	162.52 GFLOPS	理論値	^[69]^[70]
Virtex-6 SX475T	450 GFLOPS	理論値	^[69]
Virtex-7	833 GFLOPS	理論値	^[71]
Virtex UltraScale	1.739 TFLOPS	理論値	^[71]

脚注

[脚注の使い方]

外部リンク

TOP500 スーパーコンピュータランキング
- TOP500 List 2014/11

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]

[33]

[34]

[35]

[36]

[37]

[38]

[39]

[40]

[41]

[42]

[43]

[44]

[45]

[46]

[47]

[48]

[49]

[50]

[51]

[52]

[53]

[54]

[55]

[56]

[57]

[58]

[59]

[60]

[61]

[62]

[63]

[64]

[65]

[66]

[67]

[68]

[69]

[70]

[71]

Search