Feature: nvidia-nccl
Daniel Baumann
daniel.baumann at bfh.ch
Sun Apr 28 13:12:18 CEST 2019
Hallo zusammen
Die NVIDIA "Collective Communications library" ist eine hochoptimierte
Library welche es ermoeglicht, dass Prozesse welche via GPU berechnet
werden, ueber die Rechnergrenze hinweg auf mehreren Systemen
parallelisiert skaliert werden koennen. Dies ermoeglicht bei unseren
Number Cruncher dass ein einzelne Berechnung nicht nur eine Karte auf
einem System, sondern (theoretisch) alle Karten auf aller Number
Crunchern (aktuell 2x K80 und 6x P100) gleichzeitig benutzt werden koennen.
Die Library wird in der Regel nicht direkt benutzt, sondern als Backend
eines Frameworks/anderen Programmes wie z.B. Matlab, TensorFlow, etc.
welches dann statt auf einer GPU "lokal" die gleichen Berechnungen
transparent (d.h. ohne Anpassungen am Code aus User-Sicht) im "Netzwerk"
dafuer aber massiv schneller ausfuehrt:
https://developer.nvidia.com/nccl
nvidia-nccl ist in Debian bis auf weiteres nicht enthalten, wir haben
Pakete zur Verwendung mit cuda 9.2 (buster) und cuda 10.0 (buster mit
backports) hochgeladen.
Gruesse,
Daniel
--
Berner Fachhochschule / Bern University of Applied Sciences
Services / IT-Services
Daniel Baumann
Teamleiter Linux Services
___________________________________________________________
Dammweg 3, CH-3013 Bern
Telefon direkt +41 31 848 48 22
Telefon Servicedesk +41 31 848 48 48
daniel.baumann at bfh.ch
https://bfh.ch
https://bfh.science
More information about the bfh-linux-news
mailing list