Feature: nvidia-nccl

Daniel Baumann daniel.baumann at bfh.ch
Sun Apr 28 13:12:18 CEST 2019


Hallo zusammen

Die NVIDIA "Collective Communications library" ist eine hochoptimierte
Library welche es ermoeglicht, dass Prozesse welche via GPU berechnet
werden, ueber die Rechnergrenze hinweg auf mehreren Systemen
parallelisiert skaliert werden koennen. Dies ermoeglicht bei unseren
Number Cruncher dass ein einzelne Berechnung nicht nur eine Karte auf
einem System, sondern (theoretisch) alle Karten auf aller Number
Crunchern (aktuell 2x K80 und 6x P100) gleichzeitig benutzt werden koennen.

Die Library wird in der Regel nicht direkt benutzt, sondern als Backend
eines Frameworks/anderen Programmes wie z.B. Matlab, TensorFlow, etc.
welches dann statt auf einer GPU "lokal" die gleichen Berechnungen
transparent (d.h. ohne Anpassungen am Code aus User-Sicht) im "Netzwerk"
dafuer aber massiv schneller ausfuehrt:

  https://developer.nvidia.com/nccl

nvidia-nccl ist in Debian bis auf weiteres nicht enthalten, wir haben
Pakete zur Verwendung mit cuda 9.2 (buster) und cuda 10.0 (buster mit
backports) hochgeladen.

Gruesse,
Daniel

-- 
Berner Fachhochschule / Bern University of Applied Sciences
Services / IT-Services
Daniel Baumann
Teamleiter Linux Services
___________________________________________________________
Dammweg 3, CH-3013 Bern
Telefon direkt +41 31 848 48 22
Telefon Servicedesk +41 31 848 48 48
daniel.baumann at bfh.ch
https://bfh.ch
https://bfh.science



More information about the bfh-linux-news mailing list