High-Performance Data-Analytics Cluster
Die optimale Infrastruktur für Big-Data und maschinelles Lernen
Hardware
Derzeit besteht die Hardware-Ausstattung des Clusters aus insgesamt 18 Servern, die über ein Infiniband-Netzwerk mit 56 Gbit/s miteinander verbunden sind. In Kombination mit dem Hadoop Framework ist der Cluster speziell darauf ausgerichtet große Datenmengen effizient zu verarbeiten, und intensive Rechenprozesse parallel/verteilt auszuführen. Zudem stehen eine Reihe fortschrittlicher KI-Tools zur Verfügung, mit denen verschiedene Schritte und Ansätze im Data-Science Workflow abgebildet werden können. Der Data-Analytics-Cluster bietet die Möglichkeit, je nach Anforderung, individuelle Umgebungen für Data-Science-Projekte bereitzustellen.
Hardware Facts
- 1 File-Server:
DELL Poweredge R730xd
Intel(R) Xeon(R) CPUs: 20 Cores / 40 Threads, 128 GB RAM, 72 TB HDD
- 3 Virtualisierungs-Server:
2 DELL Poweredge R730, 1 DELL Poweredge R740
Intel(R) Xeon(R) CPUs: 76 Cores / 152 Threads, 640 GB RAM, 40 TB HDD
AMD GPU: 1792 GPU-Cores, 8 GB GPU-RAM
- 7 Daten-Knoten:
6 DELL Poweredge R730, 1 Fujitsu Primergy RX2540 M5
Intel(R) Xeon(R) CPUs: 156 Cores / 312 Threads, 1.024 GB RAM, 216 TB HDD
- 7 GPU-Knoten:
4 DELL Poweredge R730, 3 Fujitsu Primergy RX2540 M5
Intel(R) Xeon(R) CPUs: 192 Cores / 384 Threads, 2.560 GB RAM, 264 TB HDD
nvidia GPUs (8 x TESLA P100, 6 x TESLA V100): 59.392 CUDA-Cores, 288 GB GPU-RAM
- 1 NAS:
Synology RS3617xs+
Intel(R) Xeon(R) CPU: 6 Cores / 12 Threads, 8 GB RAM, 72 TB HDD
- Rack-internes Infiniband-Netzwerk:
FDR 56 Gbit/s
In Summe:
- CPUs: 450 Cores / 900 Threads
- RAM: 4,36 TB
- HDD: 664 TB
- GPU-RAM: 296 GB
- GPU-Cores: 61.184 (CUDA Cores)
Design und Sicherheit
Besonders auf Sicherheit, Schutz und Integrität von Daten wurden beim Design der Cluster-Architektur großer Wert gelegt. Von den Benutzerschnittstellen bis zur Backup-Schicht erstrecken sich insgesamt 4 Sicherheitszonen, um sämtliche Daten in jeder Ebene zu schützen. Die Datenübertragung in den Cluster erfolgt durchgängig über verschlüsselte Verbindungen, Zugriffsberechtigungen auf abgelegte Daten sind maximal beschränkt. Somit wird ein verantwortungsbewusster Umgang mit sensiblen Datensätzen und Informationen gewährleistet. Über ein doppelt redundantes, verteiltes Dateisystem (Hadoop HDFS) mit angebundenem Backup-Layer (NAS) erfolgt ein zusätzlicher Schutz vor Datenverlusten.