Pokazywanie postów oznaczonych etykietą gpu. Pokaż wszystkie posty
Pokazywanie postów oznaczonych etykietą gpu. Pokaż wszystkie posty

Zestawienie kart graficznych - CUDA

Współcześnie (2018.07.05) do testów używam układ NVS5200m, o dosyć skromnych możliwościach (renderuje 400 klatek mniej od obecnie top'owego fermi 2.1)
http://www.gpuzoo.com/GPU-NVIDIA/Quadro_NVS_5200M.html

NVS-5200M (Fermi)
96 cores, 1 GHz
1 GB, 14 GB/s, 64 b.
CUDA compute capability 2.1

GeForce GTX 750 Ti (Maxwell)
640 cores, 1 GHz
2 GB, 86 GB/s, 128 b.
CUDA compute capability: 5.0

GTX 660 TI (Kepler, GK104)
1344 cores, 1 GHz
2 GB, 144 GB/s, 192 b.
CUDA compute capability: 3.0
2,5 TFLOPS Single-precision floating point performance

GeForce GTX 960 (Maxwell)
1024 cores, 1,1 GHz
2 GB, 86 GB/s, 128 b.
CUDA compute capability: 5.2

GeForce GTX 980 (Maxwell)
2048 cores, 1,1 GHz
4 GB, 224 GB/s, 256 b.
CUDA compute capability: 5.2

GeForce GTX 1050 (Pascal)
640 cores, 1,3 GHz (2 GB)
768 cores, 1,3 GHz (4 GB)
112 GB/s, 128 b.
CUDA compute capability: 6.1

GeForce GTX 1060 (Pascal)
1152 cores, 1,5 GHz (3 GB)
1280 cores, 1,5 GHz (6 GB)
192 GB/s, 192 b.
CUDA compute capability: 6.1
4 TFLOP/s Single-precision floating point performance

GeForce GTX 1070 (Pascal)
1920 cores, 1,5GHz
8 GB, 256 GB/s, 256 b.
CUDA compute capability: 6.1
6 TFLOP/s Single-precision floating point performance

GeForce GTX 1080 (Pascal)
2560 cores, 1,6 GHz
8 GB, 320 GB/s, 256 b.
CUDA compute capability: 6.1
9 TFLOPS

Tesla K80 (2 x GK210)(Kepler)
4992 cores (2 x 2496), 0,6 GHz
24 GB ECC (2 x 12 GB), 2 x 240 GB/s, 384 b.  - GDDR5
CUDA compute capability: 3.7
5,6 TFLOPS (taktowanie standardowe), 8,74 TFLOPS (taktowanie Boost) - Single-precision floating point performance
Wydajność obliczeń o podwójnej precyzji do 2,91 Teraflops z wykorzystaniem technologii NVIDIA GPU Boost
Wydajność obliczeń o pojedynczej precyzji do 8,74 Teraflops z wykorzystaniem technologii NVIDIA GPU Boost

Tesla P100 (Pascal)
3584 cores
16 GB 732 GB/s
12 GB 549 GB/s
9,3 TFLOPS Single-precision floating point performance (PCIe)
10,6 TFLOPS Single-precision floating point performance (NVLink)

Titan X (Pascal GP102)
3584 cores, 1,4 GHz    - 1531 MHz w trybie GPU Boost 3.0, 56-procesorów strumieniujących, 224-TMU i 96-ROP.
12 GB, 480 GB/s, 384 b.  - GDDR5X - jest to jedna z najszybszych technologii pamięci na świecie.
CUDA compute capability: 6.1
11 TFLOPS Single-precision floating point performance


Dla porównania dane procesora ogólnego przeznaczenia:
i7-3740QM CPU @ 2.70GHz (Ivy Bridge)
Max. memory bandwidth: 25.6 GB/s
0,172 TFLOPS



Efektywność energetyczna: 

T10 GPU wydany w 2010 roku: 2 GFLOPS/W
Fermi GPU wydany w 2010 roku: 3 GFLOPS/W
Kepler GPU wydany w 2012 roku: 25 razy wydajniejszy od Fermi 6 GFLOPS/W
Maxwell GPU wydany w 2014 roku: 35 razy wydajniejszy od Kepler 16 GFLOPS/W
Pascal GPU wydany w 2016 roku: 10 razy wydajniejszy od Maxwell.


********

Więcej informacji:
Informatyka, FreeBSD, Debian


***

Inne wpisy:



Update: 2018.07.17
Create: 2018.07.17

Sposób szacowania ilości operacji zmiennoprzecinkowych na sekundę dla CPU

Przykładowy procesor:
i7-3740QM CPU   @ 2.70GHz (Ivy Bridge)
Procesor wykonuje 16 operacji zmiennoprzecinkowych pojedynczej precyzji, co wynika z:
16 SP FLOPs/cycle:  8-wide AVX addition + 8-wide AVX multiplication 
Szacujemy wydajnosć SP Flops:
1 x 4 x 2,7 x 16 = 172 GFLOPS = 0,172 TFLOPS
(jeden procesor fizyczny) x (cztery rdzenie bez HT) x (częstotliwość w GHz) x (ilość operacji na cykl zegarowy)


********

Więcej informacji:
Informatyka, FreeBSD, Debian


***

Inne wpisy:



Update: 2018.07.17
Create: 2018.07.17