FLOPS

コンピュータの性能指標

FLOPS(フロップス、Floating-point Operations Per Second)はコンピュータ性能指標の一つ。

換算表
接頭辞FLOPS
ヨタ(Y)1024
ゼタ(Z)1021
エクサ(E)1018
ペタ(P)1015
テラ(T)1012
ギガ(G)109
メガ(M)106

概要

FLoating point number Operations Per Secondの名称が示す通り、1秒間に浮動小数点演算が何回できるかの指標値ひいては性能値の事を指す。

ハードウェアの仕様として用いられるのは理論値であるが、ベンチマークソフトなどの計測から導き出される計測値は、理論値からは原則的に下がる。その為、理論値だけでなく、「理論的に算出された値の何%で実際のプログラムが動作するか」ということが重要になる(実測値)。実際の値が理論値に近いほど、より効率的なコンピュータだと考えられるからである。

パーソナルコンピュータ(以下PCと表記)向けのCPUGPUメーカーは、計算ノードとしては単一のノードとなるので通常理論値で発表する(理論値がほぼそのまま実効値となる)が、一般的に並列方式スーパーコンピュータ(以下スパコンと表記)では多数の計算ノードのクラスタとして構築されるため、実際の計算能力を理論値に近づけるには高度な運用能力が必要であり、理論値ではなく LINPACK ベンチマークでの実測値がよく使われている。

2016年前後の時点において、普及している家庭用のPCのCPUはGFLOPS、スパコンの世界1位はPFLOPSの単位であるが、ムーアの法則にそって高速化が進んでおり、2018年に並列度1億でLINPACK性能値はEFLOPSの単位に到達すると予想されている[1]2000年頃からの理論値ではPCとスパコンの比例値は、おおよそ1万倍の差で推移している。

2020年4月現在、世界最高速のスパコンはFrontierで1.102EFLOPS[2]。分散コンピューティングでは、Folding@homeが一時的に2.4EFLOPSを突破した[3]

代表的なハードウェアの浮動小数点数演算能力

PC (Intel)

名称コア数クロックFLOPS(倍精度)理論値/実測値理論値の計算式参照
Pentium1コア300MHz300 MFLOPS理論値1 FLOPS/Clock × 300MHz
Pentium II1コア450MHz450 MFLOPS理論値1 FLOPS/Clock × 450MHz
Pentium III1コア1.4GHz2.1 GFLOPS理論値1.5 FLOPS/Clock × 1.4GHz
Pentium M1コア2.26GHz3.39 GFLOPS理論値1.5 FLOPS/Clock × 2.26GHz[4]
Pentium 41コア3.8GHz7.6 GFLOPS理論値2 FLOPS/Clock × 3.8GHz[4]
Pentium D2コア3.6GHz14.4 GFLOPS理論値2 FLOPS/Clock × 3.6GHz × 2コア[4]
Intel Atom
(Bonnell)
2コア1.8GHz5.4 GFLOPS理論値1.5 FLOPS/Clock × 1.8GHz × 2コア
Core Solo1コア1.83GHz2.75 GFLOPS理論値1.5 FLOPS/Clock × 1.83GHz[5]
Core Duo2コア2.33GHz6.99 GFLOPS理論値1.5 FLOPS/Clock × 2.33GHz × 2コア[5]
Core 2 Duo2コア3.33GHz26.64 GFLOPS理論値4 FLOPS/Clock × 3.33GHz × 2コア[5]
Core 2 Extreme4コア3.2GHz51.2 GFLOPS理論値4 FLOPS/Clock × 3.2GHz × 4コア[5]
Core i7
(Nehalem)
4コア3.33GHz53.28 GFLOPS理論値4 FLOPS/Clock × 3.33GHz × 4コア[5]
Core i7
(Westmere)
6コア3.46GHz83.04 GFLOPS理論値4 FLOPS/Clock × 3.46GHz × 6コア[5]
Core i7
(Sandy Bridge)
6コア3.3GHz158.4 GFLOPS理論値8 FLOPS/Clock × 3.3GHz × 6コア[5][6]
Core i7
(Haswell)
8コア3.0 GHz (ベース)
3.5 GHz (ターボ)
384 GFLOPS (ベース)
448 GFLOPS (ターボ)
理論値16 FLOPS/Clock × 3.0 GHz × 8コア
Core i7
(Broadwell)
10コア3.0 GHz (ベース)
3.5 GHz (ターボ)
480 GFLOPS (ベース)
560 GFLOPS (ターボ)
理論値16 FLOPS/Clock × 3.0 GHz × 10コア
Core i9(Rocket Lake)8コア5.2 GHz (ターボ)665 GFLOPS (ターボ)理論値16 FLOPS/Clock × 5.2 GHz × 8コア[7]
Core i9(Alder Lake)P8/E85.2/4.0 GHz (ターボ)1.18 TFLOPS (ターボ)理論値16 FLOPS/Clock × 5.2 GHz × 8コア

+ 16 FLOPS/Clock × 4.0 GHz × 8コア

[8]

Core 2 Duoより1クロックで SSE で加算と乗算が計算できる[9]ようになり128ビット幅だと倍精度で 4 FLOPS/クロック。Sandy Bridgeより搭載した Intel AVXは256ビット幅なので8FLOPS/クロック。Intel FMA融合積和命令により1命令で積と和の2演算ができるので16FLOPS/クロック[10]。単精度だと、これらの演算回数は2倍[11]。Atomは1クロックで1つのSSE加算命令が、2クロックで1つのSSE乗算命令が実行できる[12]ため、合計すると倍精度で3FLOPS/クロックとなる。

サーバ (Intel)

名称コア数クロックFLOPS(倍精度)理論値/実測値理論値の計算式参照
Xeon
(Nehalem)
8コア2.26 GHz72.32 GFLOPS理論値4 FLOPS/Clock × 2.26 GHz × 8コア
Xeon
(Westmere)
10コア2.4 GHz96 GFLOPS理論値4 FLOPS/Clock × 2.4 GHz × 10コア
Xeon
(Sandy Bridge)
8コア3.1 GHz198.4 GFLOPS理論値8 FLOPS/Clock × 3.1 GHz × 8コア
Xeon
(Ivy Bridge)
15コア2.8 GHz336 GFLOPS理論値8 FLOPS/Clock × 2.8 GHz × 15コア
Xeon
(Haswell)
18コア2.3 GHz662.4 GFLOPS理論値16 FLOPS/Clock × 2.3 GHz × 18コア
Xeon
(Broadwell)
24コア2.2 GHz(ベース)
3.4 GHz(ターボ)
0.845 TFLOPS(ベース)
1.306 TFLOPS(ターボ)
理論値16 FLOPS/Clock × 3.4 GHz × 24コア
Xeon Phi
(Knights Corner)
61コア1.238 GHz(ベース)
1.33 GHz(ターボ)
1.208 TFLOPS(ベース)
1.298 TFLOPS(ターボ)
理論値16 FLOPS/Clock × 1.33 GHz × 61コア
Xeon Phi
(Knights Landing)
72コア1.5 GHz(ベース)
1.7 GHz(ターボ)
3.456 TFLOPS(ベース)
3.917 TFLOPS(ターボ)
理論値32 FLOPS/Clock × 1.7 GHz × 72コア

PC/Server (AMD)

名称コア数クロックFLOPS(倍精度)理論値/実測値理論値の計算式参照
Phenom II
(X4 980 Black Edition)
4コア3.7GHz59.2 GFLOPS理論値4 FLOPS/Clock × 3.7GHz × 4コア
Phenom II
(X6 1100T Black Edition)
6コア3.3GHz79.2 GFLOPS理論値4 FLOPS/Clock × 3.3GHz × 6コア
AMD Fusion E Series
(Bobcat)
2コア1.65GHz6.6 GFLOPS理論値2 FLOPS/Clock × 1.65GHz × 2コア
AMD Opteron
(Magny-Cours)
12コア2.5GHz120 GFLOPS理論値4 FLOPS/Clock × 2.5GHz × 12コア[6]
AMD FX
(Bulldozer)
8コア/4モジュール3.9GHz124.8 GFLOPS理論値8 FLOPS/Clock × 3.9GHz × 4モジュール
AMD Opteron
(Interlagos)
16コア/8モジュール3.1GHz198.4 GFLOPS理論値8 FLOPS/Clock × 3.1GHz × 8モジュール
Ryzen 9
(Vermeer)
16コア4.9GHz(ブースト)1.254 TFLOPS理論値16 FLOPS/Clock × 4.9GHz × 16コア
EPYC
(Milan)
64コア3.5GHz(ブースト)2.509 TFLOPS(ベース)
3.584 TFLOPS(ブースト)
理論値16 FLOPS/Clock × 3.5GHz × 64コア

Bulldozer は1モジュールにつき2つの128ビット積和演算器があり、倍精度は2つのFMA命令を同時実行することにより 8 FLOPS/Cycle。

ARM

名称コア数クロックFLOPS理論値/実測値理論値の計算式参照
ARM111コア700MHz単精度:700 MFLOPS理論値単精度:1 FLOPS/Clock × 700MHz
ARM Cortex-A81コア1GHz単精度:4 GFLOPS理論値単精度:4 FLOPS/Clock × 1GHz
ARM Cortex-A94コア1.5GHz単精度:24 GFLOPS
倍精度:9 GFLOPS
理論値単精度:4 FLOPS/Clock × 1.5GHz × 4コア
倍精度:1.5 FLOPS/Clock × 1.5GHz × 4コア
ARM Cortex-A154コア2.0GHz単精度:64 GFLOPS
倍精度:16 GFLOPS
理論値単精度:8 FLOPS/Clock × 2.0GHz × 4コア
倍精度:2 FLOPS/Clock × 2.0GHz × 4コア
ARM Cortex-A574コア2.8GHz単精度:89.6 GFLOPS
倍精度:44.8 GFLOPS
理論値単精度:8 FLOPS/Clock × 2.8GHz × 4コア
倍精度:4 FLOPS/Clock × 2.8GHz × 4コア
  • NetWalker PC-Z1: CPU 3.2GFLOPS(ARM Cortex-A8 800MHz,SIMD), 0.64GFLOPS(同VFP)

ARM NEON はCortex-A15までは倍精度が扱えなく、単精度のみ[13]。ARM NEON は 128ビット幅で単精度だと 4 FLOPS/Cycle だが、Cortex-A15 は FMA があるので 8 FLOPS/Cycle。

倍精度は、Cortex-A9 は VFPv3 により、2 cycle で足し算2回、乗算1回、合計3演算できるので、1.5 FLOPS/Cycle。Cortex-A15 は VFPv4 により、1 cycle で1回 FMA が計算できるので、2 FLOPS/Cycle。Cortex-A57より、NEONでも倍精度が扱えるようになる。

ゲーム機

※いずれも単精度(FP32)

スーパーコンピュータ

名称FLOPS理論値/実測値システム概要参照
ENIAC300FLOPS1946年完成
CRAY-1160MFLOPS倍精度, 理論ピーク性能値1976年初号機納入
ディープ・ブルー11.38GFLOPS1989年開発開始、1997年チェス世界チャンピオンと対戦し、勝利
地球シミュレータ
(第1世代)
35.86TFLOPS倍精度, LINPACK実測値TOP500 Jun 2002 1位
TSUBAME 1.287.01TFLOPS倍精度, LINPACK実測値TOP500 Jun 2009 41位
T2Kオープンスパコン101.74TFLOPS倍精度, LINPACK実測値
地球シミュレータ
(第2世代)
122.4TFLOPSTOP500 Jun 2009 16位
GPUクラスタ
長崎大学濱田剛ら)
158TFLOPS[25]
Blue Gene/L478.2TFLOPSTOP500 Nov 2007 1位
IBM Roadrunner1.105PFLOPS倍精度, LINPACK実測値TOP500 Jun 2008 1位
TSUBAME 2.01.192PFLOPS倍精度, LINPACK実測値TOP500 Nov 2011 4位

Xeon + NVIDIA Tesla

天河一号A2.566PFLOPS倍精度, LINPACK実測値TOP500 Nov 2010 1位

理論値 4.701 PFLOPS。実行効率 54.6%
Xeon + NVIDIA Tesla

TSUBAME 2.52.843PFLOPS倍精度, LINPACK実測値TOP500 Nov 2013 11位 , Green500 6位

理論値 5.609 PFLOPS。実行効率 50.7%
Xeon + NVIDIA Tesla

10.510PFLOPS倍精度, LINPACK実測値TOP500 Jun 2011 1位

実行効率 93.2%[26] - CPU数88,128個, 理論値 11,280,384 GFLOPS (=128 GFLOPS×88,128)

[27][28]
IBM Sequoia17.172PFLOPS倍精度, LINPACK実測値TOP500 Nov 2012 1位

理論値 20.133 PFLOPS。実行効率 85.3%
PowerPC A2

天河二号61.445PFLOPS倍精度, LINPACK実測値TOP500 Jun 2013 1位

理論値 100.679 PFLOPS。実行効率 61.0%
Xeon E5-2692v2 + Xeon Phi 31S1P

神威太湖之光93.01PFLOPSTOP500 Jun 2016 1位

理論値 125.436 PFLOPS。実行効率 74.1%
SW26010, Sunway

Summit143.5PFLOPSTOP500 Jun 2018 1位

理論値 200.795 PFLOPS。実行効率 71.4%
Power9 22C, Mellanox dual-rail EDR InfiniBand

富岳442.01PFLOPS倍精度, LINPACK実測値TOP500 Jun 2020 1位

理論値 520PFLOPS。実行効率 82.3%

Frontier1102.00PFLOPS
(1.102EFLOPS)
倍精度, LINPACK実測値TOP500 Jun 2022 1位

理論値1685.65PLOPS。実行効率 65.4%
史上初めてLINPACKでEFLOPSを達成

分散コンピューティング

名称FLOPS日付参加台数Active率参照
BOINC2.958PFLOPS2009年12月6日[29]
8.563PFLOPS2013年12月26日986,613台8.51%
161.081PFLOPS2015年2月3日376,688台3.54%
160.76PFLOPS2017年3月14日739,507台4.79%
SETI@home
(BOINCに含む)
658.210TFLOPS2013年12月26日
731.599TFLOPS2009年12月6日
UD Agent65TFLOPS2001年10月01日約96万台
Folding@home4.273PFLOPS2008年11月22日Active 353,966 CPU
(参加約355万台)
5.427PFLOPS2012年3月23日
2.4EFLOPS2020年4月14日[3]

グラフィックスカード

単精度の積和算を 2 FLOPS/Clock で行える。

NVIDIA

名称コア数クロックFLOPS理論値/実測値理論値の計算式参照
GeForce GTX 4804801401 MHz単精度:1.345 TFLOPS理論値単精度:2 FLOPS/Clock × 1401 MHz × 480コア
GeForce GTX 5805121544 MHz単精度:1.581 TFLOPS理論値単精度:2 FLOPS/Clock × 1544 MHz × 512コア
GeForce GTX 590
(2GPU合計)
10241214 MHz単精度:2.488 TFLOPS理論値単精度:2 FLOPS/Clock × 1214 MHz × 1024コア
GeForce GTX 68015361006 MHz単精度:3.090 TFLOPS
倍精度:129 GFLOPS
理論値単精度:2 FLOPS/Clock × 1006 MHz × 1536コア
倍精度:1/12 FLOPS/Clock × 1006 MHz × 1536コア
GeForce GTX 690
(2GPU合計)
3072915 MHz単精度:5.621 TFLOPS
倍精度:234 GFLOPS
理論値単精度:2 FLOPS/Clock × 915 MHz × 3072コア
倍精度:1/12 FLOPS/Clock × 915 MHz × 3072コア
GeForce GTX 780 Ti
Special Black Edition
28801000 MHz単精度:5.76 TFLOPS
倍精度:240 GFLOPS
理論値単精度:2 FLOPS/Clock × 1000 MHz × 2880コア
倍精度:1/12 FLOPS/Clock × 1000 MHz × 2880コア
GeForce GTX TITAN X30721000 MHz単精度:6.144 TFLOPS
倍精度:192 GFLOPS
理論値単精度:2 FLOPS/Clock × 1000 MHz × 3072コア
倍精度:1/16 FLOPS/Clock × 1000MHz × 3072コア
[32]
GeForce GTX TITAN Z
(2GPU合計)
5760705 MHz単精度:8.12 TFLOPS
倍精度:2.71 TFLOPS
理論値単精度:2 FLOPS/Clock × 705 MHz × 5760コア
倍精度:2/3 FLOPS/Clock × 705 MHz × 5760コア
[33]
GeForce GTX 98020481126 MHz単精度:4.612 TFLOPS
倍精度:144 GFLOPS
理論値単精度:2 FLOPS/Clock × 1126 MHz × 2048コア
倍精度:1/16 FLOPS/Clock × 1126 MHz × 2048コア
[34]
GeForce GTX 108025601733 MHz単精度:8.872 TFLOPS
倍精度:277 GFLOPS
理論値単精度:2 FLOPS/Clock × 1733 MHz × 2560コア
倍精度:1/16 FLOPS/Clock × 1733 MHz × 2560コア
[35]
GeForce RTX 208029441710 MHz単精度:10.07 TFLOPS
倍精度:314 GFLOPS
理論値

(RT,TensorCoreを除く)

単精度:2 FLOPS/Clock × 1710 MHz × 2944コア
倍精度:1/16 FLOPS/Clock × 1710 MHz × 2944コア
[36]
GeForce RTX 308087041710 MHz単精度:29.77 TFLOPS

倍精度:465 GFLOPS

理論値

(RT,TensorCoreを除く)

単精度:2 FLOPS/Clock × 1710 MHz × 8704コア

倍精度:1/32 FLOPS/Clock × 1710 MHz × 8704コア

[37]
GeForce RTX 4080 16GB97282504 MHz単精度:48.74 TFLOPS

倍精度:761 GFLOPS

理論値

(RT,TensorCoreを除く)

単精度:2 FLOPS/Clock × 2504 MHz × 9728コア

倍精度:1/32 FLOPS/Clock × 2505 MHz × 9728コア

[38]
GeForce RTX 4090163842520 MHz単精度:82.58 TFLOPS

倍精度:1.290 TFLOPS

理論値

(RT,TensorCoreを除く)

単精度:2 FLOPS/Clock × 2520 MHz × 16384コア

倍精度:1/32 FLOPS/Clock × 2520 MHz × 16384コア

[38]

AMD

名称コア数クロックFLOPS理論値/実測値理論値の計算式参照
Radeon HD 3650120725MHz単精度:174 GFLOPS理論値単精度:2 FLOPS/Clock × 725MHz × 120コア
Radeon HD 3870320825MHz単精度:496 GFLOPS理論値単精度:2 FLOPS/Clock × 825MHz × 320コア
Radeon HD 4670320750MHz単精度:480 GFLOPS理論値単精度:2 FLOPS/Clock × 750MHz × 320コア
Radeon HD 4870800750MHz単精度:1.2 TFLOPS理論値単精度:2 FLOPS/Clock × 750MHz × 800コア
Radeon HD 58701600850MHz単精度:2.72 TFLOPS理論値単精度:2 FLOPS/Clock × 850MHz × 1600コア
Radeon HD 5970
(2GPU合計)
3200725MHz単精度:4.64 TFLOPS理論値単精度:2 FLOPS/Clock × 725MHz × 3200コア[39]
Radeon HD 69701536880MHz単精度:2.703 TFLOPS
倍精度:0.676 TFLOPS
理論値単精度:2 FLOPS/Clock × 880MHz × 1536コア
倍精度:0.5 FLOPS/Clock × 880MHz × 1536コア
[40]
Radeon HD 6990
(2GPU合計)
3072830 MHz単精度:5.1 TFLOPS
倍精度:1.275 TFLOPS
理論値単精度:2 FLOPS/Clock × 830 MHz × 3072コア
倍精度:0.5 FLOPS/Clock × 830MHz × 3072コア
Radeon HD 7970
GHz Edition
20481.05 GHz単精度:4.301 TFLOPS
倍精度:1.075 TFLOPS
理論値単精度:2 FLOPS/Clock × 1.05 GHz × 2048コア
倍精度:0.5 FLOPS/Clock × 1.05 GHz × 2048コア
[41][40]
Radeon HD 7990
(2GPU合計)
40961.0 GHz単精度:8.192 TFLOPS
倍精度:2.048 TFLOPS
理論値単精度:2 FLOPS/Clock × 1.0 GHz × 4096コア
倍精度:0.5 FLOPS/Clock × 1.0 GHz × 4096コア
[41]
Radeon R9 290X28161.0 GHz単精度:5.632 TFLOPS
倍精度:1.408 TFLOPS
理論値単精度:2 FLOPS/Clock × 1.0 GHz × 2816コア
倍精度:0.5 FLOPS/Clock × 1.0 GHz × 2816コア
Radeon R9 295X2
(2GPU合計)
56321.018 GHz単精度:11.467 TFLOPS
倍精度:2.867 TFLOPS
理論値単精度:2 FLOPS/Clock × 1.018 GHz × 5632コア
倍精度:0.5 FLOPS/Clock × 1.018 GHz × 5632コア

ハイエンドでは倍精度(fp64)は 0.5 FLOPS/Cycle であるが、ミドルレンジ以下は 0.125 FLOPS/Cycle[42] であったり、倍精度の計算が出来なかったりする。

Intel

名称EUクロックFLOPS理論値/実測値理論値の計算式参照
Intel GMA X450010800MHz単精度:32 GFLOPS理論値単精度:4 FLOPS/Clock × 10EU × 800MHz[43]
Intel HD Graphics (Clarkdale)12900MHz単精度:43.2 GFLOPS理論値単精度:4 FLOPS/Clock × 12EU × 900MHz[43]
Intel HD Graphics 3000121.35GHz (Max)単精度:129.6 GFLOPS理論値単精度:8 FLOPS/Clock × 12EU × 1.35GHz[43]
Intel HD Graphics 4000161.35GHz (Max)単精度:345.6 GFLOPS理論値単精度:16 FLOPS/Clock × 16EU × 1.35GHz[44]
Intel HD Graphics (Haswell)101.2GHz (Max)単精度:192 GFLOPS理論値単精度:16 FLOPS/Clock × 10EU × 1.2GHz[44]
Intel Iris Pro Graphics 5200401.3GHz (Max)単精度:832 GFLOPS
倍精度:208 GFLOPS
理論値単精度:16 FLOPS/Clock × 40EU × 1.3GHz
倍精度:4 FLOPS/Clock × 40EU × 1.3GHz
[45]
Iris Pro Graphics 6200481.15GHz (Max)単精度:883 GFLOPS
倍精度:220.8 GFLOPS
理論値単精度:16 FLOPS/Clock × 48EU × 1.15GHz
倍精度:4 FLOPS/Clock × 48EU × 1.15GHz
[46]
Intel HD Graphics 530
(Skylake)
241.15GHz (Max)単精度:441.6 GFLOPS
倍精度:110.4 GFLOPS
理論値単精度:16 FLOPS/Clock × 24EU × 1.15GHz
倍精度:4 FLOPS/Clock × 24EU × 1.15GHz
[47]

HD Graphicsの各EUは4-way SIMDの演算器を備えており、1命令で4並列の単精度浮動小数点演算が可能である。Sandy Bridgeより前の世代では1クロックでEUあたり1つの加算もしくは乗算命令を実行可能で、4FLOPS/EU。Sandy Bridge世代では1クロックでEUあたり1つのFMA命令を実行可能で、8FLOPS/EU。Ivy Bridge世代以降は1クロックでEUあたり2つのFMA命令を実行可能で、16FLOPS/EUとなる。

Qualcomm Snapdragon

名称ALU数クロックFLOPS(単精度)理論値/実測値理論値の計算式参照
Adreno 2008245MHz3.92 GFLOPS理論値2 FLOPS/ALU × 245MHz × 8ALU
Adreno 203
Adreno 205
16245MHz7.84 GFLOPS理論値2 FLOPS/ALU × 245MHz × 16ALU
Adreno 22032266MHz17.0 GFLOPS理論値2 FLOPS/ALU × 266MHz × 32ALU
Adreno 22532400MHz25.6 GFLOPS理論値2 FLOPS/ALU × 400MHz × 32ALU
Adreno 320
(Snapdragon S4 Pro)
64400MHz57 GFLOPS理論値2.25 FLOPS/ALU × 400MHz × 64ALU[48]
Adreno 320
(Snapdragon 600)
96400MHz86.4 GFLOPS理論値2.25 FLOPS/ALU × 400MHz × 96ALU[48]
Adreno 330
(Snapdragon 800)
128450MHz129.6 GFLOPS理論値2.25 FLOPS/ALU × 450MHz × 128ALU[48]
Adreno 430
(Snapdragon 810)
288500MHz324 GFLOPS理論値2.25 FLOPS/ALU × 500MHz × 288ALU

Appleシリコン

チップセットGPU コア / クラスタGPU MHzFLOPSデバイスGPU モデルと理論値の計算式参照
Apple A4
1 Core
200MHz
1.6 GFLOPS
iPhone 4
PowerVR SGX535 @ 200 MHz (2vec4)

4 x 2 х 0.200 = 1.6 GFLOPS

[49]
250MHz
2 GFLOPS
iPad
PowerVR SGX535 @ 250 MHz (2vec4)

4 x 2 х 0.250 = 2 GFLOPS

Apple A5
2 Cores
200MHz
14.4 GFLOPS
iPhone 4S
PowerVR SGX543MP2 (dual-core) @ 250 MHz

2vec4 + 1 scalar: 4х2+1=9 * 8 х 0.200 х 9 = 14.4 GFLOPS

[50]
250MHz
18 GFLOPS
iPad 2
PowerVR SGX543MP2 (dual-core) @ 200 MHz

2vec4 + 1 scalar: 4х2+1=9 * 8 х 0.200 х 9 = 18 GFLOPS

[50]
Apple A5X
4 Cores
250MHz
36 GFLOPS
iPad 3
PowerVR SGX543MP4 (quad-core) @ 250 MHz

2vec4 + 1 scalar: 4х2+1=9 * 16 х 0.250 х 9 = 36 GFLOPS

[50]
Apple A6
3 Cores
250MHz
27 GFLOPS
iPhone 5
PowerVR SGX543MP3 (tri-core) @ 250 MHz

2vec4 + 1 scalar: 4х2+1=9 * 12 х 0.250 х 9 = 27 GFLOPS

[50]
Apple A6X
4 Cores
280MHz
80 GFLOPS
iPad 4
PowerVR SGX554MP4 (quad-core) @ 280 MHz

2vec4 + 1 scalar: 4х2+1=9 * 32 х 0.280 х 9 = 80 GFLOPS

[51]
Apple A7
4 Clusters
450MHz
115.2 GFLOPS
iPhone 5S
PowerVR G6430 (quad-clusters) @ 450 MHz

64 USC x 4 Clusters x 0.450 = 115.2 GFLOPS

[52]
533MHz
136.4 GFLOPS
iPad Air
PowerVR G6430 (quad-clusters) @ 533 MHz

64 USC x 4 Clusters x 0.533 = 136.4 GFLOPS

[52]
Apple A8
4 Clusters
450MHz
115.2 GFLOPS
iPhone 6/6 Plus
PowerVR G6450 (quad-clusters) @ 450 MHz

64 USC x 4 Clusters x 0.450 = 115.2 GFLOPS

[53]
Apple A8X
8 Clusters
450MHz
230.4 GFLOPS
iPad Air 2
PowerVR GXA6850 @ 450 MHz

64 USC x 8 Clusters x 0.450 = 230.4 GFLOPS

[54][55]
Apple A96 Clusters650MHz249.6GFLOPSiPhone 6s/6s PlusPowerVR Series 7XT GT7600
Apple A9X12 Clusters650MHz499.2 GFLOPSiPad Pro
Apple A10 Fusion6 Clusters900 MHz364.8 GFLOPSiPhone 7/7 Plus, iPad (第6世代), iPad (第7世代)PowerVR Series 7XT GT7600 Plus
Apple A10X Fusion12 Clusters1000 MHz768 GFLOPS12.9インチiPad Pro (第2世代),

10.5インチiPad Pro,

Apple TV 4K

Apple A113 Clusters1066 MHz409.3 GFLOPSiPhone 8/8 Plus, iPhone X
Apple A12 Bionic4 Clusters1125 MHz576 GFLOPSiPhone XR,

iPhone XS/XS Max,

iPad Air (第3世代),

iPad mini (第5世代),

iPad (第8世代),

Apple TV 4K (第2世代)

Apple A12X Bionic7 Clusters1340 MHz1200 GFLOPSiPad Pro
Apple A12Z Bionic8 Clusters1372 GFLOPSiPad Pro, Developer Transition Kit
Apple A13 Bionic4 Clusters1350 MHz691 GFLOPSiPhone 11シリーズ, iPhone SE (第2世代), iPad (第9世代)
Apple A14 Bionic4 Clusters975 MHz998 GFLOPSiPhone 12シリーズ,

iPad Air (第4世代), iPad (第10世代)

Apple A154 Clusters

5 Clusters

1.2 GHz1.4 TFLOPS

1.5 TFLOPS

iPhone 13シリーズ, iPhone 14/14 Plus, iPhone SE (第3世代),iPad mini (第6世代), Apple TV 4K (第3世代)
Apple A165 Clusters1.2 GHz2.0 TFLOPSiPhone 14 Pro/14 Pro Max,
Apple M17 Clusters

8 Clusters

1.28 GHz2.6 TFLOPSMacBook Air, Mac mini, iMac, iPad Pro
Apple M1 Pro14 Clusters

16 Clusters

1.3 GHz4.5 TFLOPS

5.3 TFLOPS

MacBook Pro
Apple M1 Max24 Clusters

32 Clusters

7.8 TFLOPS

10.6 TFLOPS

MacBook Pro, Mac Studio
Apple M1

Ultra

48 Clusters

64 Clusters

15.6 TFLOPS

21.2 TFLOPS

Mac Studio
Apple M28 Clusters

10 Clusters

1.4 GHz3.6 TFLOPSMacBook Air, Mac mini, iPad Pro
Apple M2 Pro16 Clusters

19 Clusters

6.8 TFLOPSMac mini, MacBook Pro
Apple M2 Max30 Clusters

38 Clusters

13.6 TFLOPSMacBook Pro, Mac Studio
Apple M2 Ultra60 Clusters

72 Clusters

27.2 TFLOPSMac Studio, Mac Pro

Texas Instruments OMAP

名称コア数クロックFLOPS(単精度)理論値/実測値理論値の計算式参照
PowerVR SGX 5404384MHz6.1 GFLOPS理論値4 FLOPS/コア × 384MHz × 4コア

NVIDIA Tegra

名称ALU数クロックFLOPS(単精度)理論値/実測値理論値の計算式参照
Tegra 28333MHz5.6 GFLOPS理論値2 FLOPS/ALU × 333MHz × 8ALU
Tegra 312500MHz12.48 GFLOPS理論値2 FLOPS/ALU × 520MHz × 12ALU[56][57]
Tegra 4i60660MHz79.2 GFLOPS理論値2 FLOPS/ALU × 660MHz × 60ALU[58]
Tegra 472672MHz96.768 GFLOPS理論値2 FLOPS/ALU × 672MHz × 72ALU[57]
Tegra K1192950MHz365 GFLOPS理論値2 FLOPS/ALU × 950MHz × 192ALU
Tegra X12561.0 GHz512 GFLOPS理論値2 FLOPS/ALU × 1.0GHz × 256ALU[59]

Samsung Exynos

名称コア数クロックFLOPS(単精度)理論値/実測値理論値の計算式参照
Exynos 31200MHz3.2 GFLOPS理論値16 FLOPS × 200MHz
Exynos 4 Dual (45nm)4266MHz9.6 GFLOPS理論値9 FLOPS/コア × 266MHz × 4コア
Exynos 4 Dual (32nm)4400MHz14.4 GFLOPS理論値9 FLOPS/コア × 400MHz × 4コア
Exynos 4 Quad4440MHz15.84 GFLOPS理論値9 FLOPS/コア × 440MHz × 4コア
Exynos 5 Dual4533MHz72.5 GFLOPS理論値Mali T604 MP4 (quad-core) @ 533MHz * 16FP + 1 TMU = 17 x 2 ALU x 4 Core x 0.533= 72.488 GFLOPS[60]
Exynos 5410 Octa3533MHz51.2 GFLOPS理論値PowerVR SGX544MP3 (tri-core) @ 533MHz * 2vec4=8 * 12 х 0.533 х 8 = 51.2 GFLOPS
Exynos 5420 Octa6533MHz102.4 GFLOPS理論値Mali T628 MP6 (six-core) @ 533MHz * 16FP x 2 ALU x 6 Core x 0.533 = 102.4 GFLOPS[61]

GPUアクセラレーター

名称コア数クロックFLOPS理論値/実測値理論値の計算式参照
NVIDIA Tesla C8701281.35 GHz単精度:345.6 GFLOPS
倍精度:不可
理論値単精度:2 FLOPS/Clock × 1.35 GHz × 128コア
NVIDIA Tesla C10602401.3 GHz単精度:622 GFLOPS
倍精度:78 GFLOPS
理論値単精度:2 FLOPS/Clock × 1.3 GHz × 240コア
倍精度:1/4 FLOPS/Clock × 1.3 GHz × 240コア
NVIDIA Tesla C20704481.15 GHz単精度:1.03 TFLOPS
倍精度:0.515 TFLOPS
理論値単精度:2 FLOPS/Clock × 1.15 GHz × 448コア
倍精度:1 FLOPS/Clock × 1.15 GHz × 448コア
NVIDIA Tesla K10
(2GPU合計)
3072745 MHz単精度:4.58 TFLOPS
倍精度:0.19 TFLOPS
理論値単精度:2 FLOPS/Clock × 745 MHz × 3072コア
倍精度:1/12 FLOPS/Clock × 745 MHz × 3072コア
[62]
NVIDIA Tesla K202496706 MHz単精度:3.52 TFLOPS
倍精度:1.17 TFLOPS
理論値単精度:2 FLOPS/Clock × 706 MHz × 2496コア
倍精度:2/3 FLOPS/Clock × 706 MHz × 2496コア
[62]
NVIDIA Tesla K402880745 MHz単精度:4.29 TFLOPS
倍精度:1.43 TFLOPS
理論値単精度:2 FLOPS/Clock × 745 MHz × 2880コア
倍精度:2/3 FLOPS/Clock × 745 MHz × 2880コア
[62]
NVIDIA Tesla K80
(2GPU合計)
4992562 MHz単精度:5.61 TFLOPS
倍精度:1.87 TFLOPS
理論値単精度:2 FLOPS/Clock × 562 MHz × 4992コア
倍精度:2/3 FLOPS/Clock × 562 MHz × 4992コア
NVIDIA Tesla P100 16GB35841329MHz単精度:9.526 TFLOPS
倍精度:4.763 TFLOPS
理論値単精度:2 FLOPS/Clock × 1329 MHz × 3584コア
倍精度:1 FLOPS/Clock × 1329 MHz × 3584コア
AMD FirePro S91502816単精度:5.07 TFLOPS
倍精度:2.53 TFLOPS
理論値[63]
AMD FirePro S91702816単精度:5.24 TFLOPS
倍精度:2.62 TFLOPS
理論値[64]

FPGA

アルテラ
名称クロックFLOPS
(単精度、積和算)
理論値/実測値理論値の計算式
Stratix IV445 MHz理論値 245 GFLOPS
実測値 171 GFLOPS
理論値64x64の行列のかけ算1つで128個のDSPを消費し、24.45 GFLOPS。DSP は最大1288個なので、244.5 GFLOPS。FPGAでは整数の積和算は1クロックで計算できるが、GPUとは異なり浮動小数点のかけ算は 445MHz 動作で11クロック必要[65][66]。それに対して、GPUは1クロックで行える。
Stratix V388 MHz1.568 TFLOPS理論値2048 multiplier / 64 * 49 GFLOPS (388 MHz) = 1.568 TFLOPS[67]。単精度の乗算には 27x27 の multiplier が単精度浮動小数点数あたり 64 個必要。
Stratix 101 GHz10 TFLOPS理論値2 FLOPS * 5000 DSP * 1 GHz = 10 TFLOPS[68]
ザイリンクス
名称クロックFLOPS
(単精度)
理論値/実測値理論値の計算式
Virtex-5 SX240T162.52 GFLOPS理論値[69][70]
Virtex-6 SX475T450 GFLOPS理論値[69]
Virtex-7833 GFLOPS理論値[71]
Virtex UltraScale1.739 TFLOPS理論値[71]

脚注

関連項目

外部リンク