چگونه گلوگاه در استفاده از GPU را تشخیص دهم؟

با بررسی GPU utilization با ابزارهایی مانند nvidia-smi و پروفایلینگ با nsys/Nsight میتوانید ببینید که آیا فشار روی GPU است یا CPU/I/O.

آیا استفاده از mixed precision همیشه مفید است؟

بیشتر مواقع بله؛ mixed precision باعث کاهش حافظه و افزایش throughput میشود اما باید برای بخشهای حساس مدل دقت کنید و در صورت نیاز برخی قسمتها را در FP32 نگه دارید.

بهترین ذخیرهسازی برای دیتاستهای بزرگ چیست؟

ذخیرهسازی محلی NVMe برای دسترسی سریع توصیه میشود؛ در محیطهای چندنودی از Lustre/Ceph یا S3-compatible استفاده کنید.

برای آموزش توزیعشده چه شبکهای نیاز است؟

برای مدلهای بزرگ توصیه میشود از 25/40/100GbE یا InfiniBand استفاده کنید؛ اگر RDMA/InfiniBand در دسترس باشد، ارتباطات سریعتر و پایدارتر خواهند بود.

چه ابزارهایی برای پروفایلینگ پیشنهاد میشود؟

NVIDIA Nsight Systems (nsys)، Nsight Compute، PyTorch Profiler و TensorBoard Profiler برای تحلیل درون فریمورک و perf/atop/iostat برای بررسی سیستم توصیه میشوند.

Ein umfassender Leitfaden zur Optimierung der GPU-Leistung für Deep Learning

Warum ist die GPU-Leistungsoptimierung für Deep Learning wichtig?
Schlüsselelemente und Vision
Engpässe identifizieren
1. Nützliche nvidia-smi-Befehle und Topologieprüfung
Empfohlene Profiling-Tools
Systemeinstellungen und Treiber (Linux)
Framework-Optimierung (PyTorch und TensorFlow)
1. PyTorch – Schnelle und praktische Einrichtung
2. TensorFlow – Praktische Einstellungen
Daten- und E/A-Management
Netzwerkeinstellungen und verteiltes Lernen
Erhöhte GPU-Speichereffizienz
Technische Tipps und nützliche Umgebungsvariablen
Sicherheits- und Betriebsmanagement
Empfohlene Konfiguration je nach Bedarf
Praxisszenarien und Beispielbefehle
Schlussfolgerung und abschließender Vorschlag
Häufig gestellte Fragen

Warum ist die GPU-Leistungsoptimierung für Deep Learning wichtig?

Die Optimierung der GPU-Leistung für Deep Learning ist eine grundlegende Herausforderung für alle, die an der Schulung und Inferenz großer Modelle arbeiten. Ziel Dieser Leitfaden bietet praktische und technische Hinweise zur Steigerung der GPU-Leistung in On-Premises- und Cloud-Umgebungen: von der Treiberoptimierung und Betriebssystemkonfiguration bis hin zur E/A-Optimierung, Frameworks, Profilerstellung und verteiltem Training.

Dieser Text richtet sich an Website-Administratoren, DevOps-Experten, Forscher im Bereich Deep Learning und MLOps-Teams und soll ihnen bei der Auswahl der richtigen Hardwarekombination helfen (z. B. GPU-Cloud-Grafikserver mit Zugriff auf …). Mehr als 85 Standorte) und Softwareoptimierung, um die kürzeste Trainingszeit und die größte Produktivität zu erreichen.

Schlüsselelemente und Vision

Um die Leistung zu optimieren, müssen wir vier Hauptbereiche berücksichtigen. Jeder dieser Bereiche kann, einzeln oder in Kombination, Engpässe verursachen, die die Produktivität verringern.

GPU-Computing: Verwendung von Tensorkerne, gemischte Präzision und Kerneloptimierung.
GPU-Speicher und dessen Verwaltung: Verhindern Sie OOM, verwenden Sie Aktivierungs-Checkpointing und den Speicherverbrauch reduzieren.
Ein-/Ausgabe und Datenverarbeitung (Datenpipeline): NVMe, Prefetch, DALI oder tf.data zur Beseitigung von E/A-Engpässen.
Netzwerk im verteilten Lernen (Netzwerk): Latenz und Bandbreite zwischen den Knoten, Verwendung von RDMA/InfiniBand und NCCL-Einstellungen.

Engpässe identifizieren

Die genaue Diagnose des Engpasses ist der erste Schritt. Wenn GPU-Auslastung Der Wert ist niedrig und man erwartet einen höheren; normalerweise liegt das Problem bei der CPU oder den Ein-/Ausgabegeräten.

Zu den grundlegenden Diagnoseinstrumenten gehören nvidia-smi und NVIDIA-Profilierungstools wie nsys Und Nsight Diese Tools liefern Informationen über SM-Nutzung, Speicher und Stromverbrauch.

Nützliche nvidia-smi-Befehle und Topologieprüfung

nvidia-smi --query-gpu=utilization.gpu,utilization.memory,memory.total,memory.used --format=csv
nvidia-smi topo -m

Empfohlene Profiling-Tools

Nutzen Sie die folgenden Tools für eine detailliertere Analyse:

NVIDIA Nsight Systems (nsys) Und Nsight Compute Für die Timing-Profilierung von Kern und Speicher.
PyTorch Profiler Und TensorBoard Profiler Zur Analyse innerhalb des vorgegebenen Rahmens.
Systemwerkzeuge wie z.B. perf, Spitze Und iostat Um CPU und Festplatte zu überprüfen.

Implementierungsbeispiel nsys:

nsys profile --trace=cuda,cudnn,osrt -o my_profile python train.py

Systemeinstellungen und Treiber (Linux)

Installieren Sie eine saubere Umgebung, die mit den CUDA/cuDNN-Versionen kompatibel ist. Wichtige Punkte:

Prüfen Sie stets die Kompatibilität zwischen der NVIDIA-Treiberversion, dem CUDA Toolkit und cuDNN.
Für dedizierte Server, Aktivierung Persistenzmodus Durch Anpassen des GPU-Takts lassen sich Frequenzschwankungen verhindern:

sudo nvidia-smi -pm 1
sudo nvidia-smi -ac <memClock,graphicsClock>

Seien Sie vorsichtig beim Ändern der Frequenz (Wechselstrom); diese Einstellung ist nur auf dedizierten Servern geeignet.

Die Einrichtung von Docker mit GPU-Unterstützung ist ein Beispiel für die grundlegenden Schritte:

sudo apt-get install -y nvidia-docker2
sudo systemctl restart docker
docker run --gpus '"device=0,1"' --rm -it your-image:tag bash

Beispiel für die Installation des Treibers und von nvidia-docker (allgemeines Beispiel für Ubuntu):

sudo apt update && sudo apt install -y build-essential dkms
# add NVIDIA repository and install driver and cuda-toolkit per NVIDIA guide
sudo apt install -y nvidia-docker2
sudo systemctl restart docker

Framework-Optimierung (PyTorch und TensorFlow)

Frameworks verfügen über Funktionen zur optimalen Nutzung der Hardware; ihre korrekte Konfiguration hat einen direkten Einfluss auf Durchsatz und Speicherverbrauch.

PyTorch – Schnelle und praktische Einrichtung

Aktivierung des cuDNN-Autotuners für Modelle mit festen Eingaben:

torch.backends.cudnn.benchmark = True

Verwendung gemischter Präzision mit torch.cuda.amp So verwenden Sie Tensor-Kerne:

scaler = torch.cuda.amp.GradScaler()
with torch.cuda.amp.autocast(): outputs = model(inputs)

DataLoader: Erhöhen Anzahl_Arbeiter Solange die CPU oder die E/A keinen Flaschenhals darstellen, verwenden Sie pin_memory=True Und persistent_workers=True:

DataLoader(dataset, batch_size=..., num_workers=8, pin_memory=True, persistent_workers=True, prefetch_factor=2)

Probe Gradientenakkumulation Um eine größere Charge ohne OOM zu simulieren:

loss = model(...) / accumulation_steps
scaler.scale(loss).backward()
if (step+1) % accumulation_steps == 0:
    scaler.step(optimizer)
    scaler.update()
    optimizer.zero_grad()

TensorFlow – Praktische Einstellungen

Gemischte Präzision aktivieren:

from tensorflow.keras import mixed_precision
mixed_precision.set_global_policy('mixed_float16')

tf.data: Verwenden Sie Prefetch, Map mit num_parallel_calls=tf.data.AUTOTUNE Und ein Cache für kleine Sammlungen:

dataset = dataset.map(..., num_parallel_calls=tf.data.AUTOTUNE).prefetch(tf.data.AUTOTUNE)

Einstellung für GPU-Speicherwachstum:

gpus = tf.config.experimental.list_physical_devices('GPU')
tf.config.experimental.set_memory_growth(gpus[0], True)

Daten- und E/A-Management

Die Ein-/Ausgabe kann schnell zu einem Engpass werden, insbesondere bei großen Datensätzen und Lasten auf mehreren Knoten.

NVMe Für große Datensätze wird die lokale Speicherung empfohlen, um von schnellen Ein-/Ausgabeoperationen zu profitieren.
In einer Multi-Node-Umgebung sollten verteilte Dateisysteme (Lustre, Ceph) oder S3-kompatible Objektspeicher verwendet werden.
Bei statischen Daten (wie Vektoren oder vorgefertigten Modellen) kann die Verwendung eines CDN und globaler Abdeckung (85+ Standorte) die Download-Latenz reduzieren.
Bild- und Videoverarbeitung: NVIDIA DALI kann die Vorverarbeitung von der CPU auf die GPU verlagern und so die CPU-Belastung reduzieren.

Netzwerkeinstellungen und verteiltes Lernen

Für das Training auf mehreren Knoten sollte NCCL als Backend für die Kommunikation zwischen den GPUs verwendet werden. Netzwerke mit RDMA/InfiniBand sind leistungsfähiger als TCP über Ethernet.

Nützliche Umgebungseinstellungen:

export NCCL_DEBUG=INFO
export NCCL_SOCKET_IFNAME=eth0
export NCCL_IB_DISABLE=0

Netzwerkempfehlung: Verwenden Sie 25/40/100GbE oder InfiniBand für verteiltes Training großer Modelle.

Beispiel für die Ausführung von PyTorch DDP innerhalb von Docker:

docker run --gpus all --shm-size=1g --ulimit memlock=-1 --ulimit stack=67108864 your-image
python -m torch.distributed.run --nproc_per_node=4 --nnodes=2 --node_rank=0 --rdzv_endpoint=master:29500 train.py

Erhöhte GPU-Speichereffizienz

Folgende Lösungen tragen dazu bei, den Speicherverbrauch zu reduzieren und die Skalierbarkeit zu erhöhen:

Gemischte Genauigkeit (FP16) und Tensor-Kerne, um den Verbrauch zu reduzieren und den Durchsatz zu erhöhen.
Aktivierungs-Checkpointing Nicht alle Aktivierungen speichern und sie bei einem Rollback neu erstellen.
Technologien wie ZeRO (DeepSpeed) Und FSDP (PyTorch Fully Sharded Data Parallel) für die Speicherverteilung zwischen GPUs.
Die Genauigkeit in Teilen des Modells (wie z. B. Einbettungen) wird reduziert, während sensible Teile in FP32 beibehalten werden.

Technische Tipps und nützliche Umgebungsvariablen

Einige Umgebungsvariablen und Systemeinstellungen, die oft nützlich sind:

GPU-Zuweisungssteuerung mit CUDA_VISIBLE_DEVICES=0,1.
Zum Debuggen von CUDA_LAUNCH_BLOCKING=1 Verwendung (Problem, es verursacht Verlangsamung).
Passen Sie die Anzahl der CPU-Threads an, um eine Überbelegung zu vermeiden:

export OMP_NUM_THREADS=4
export MKL_NUM_THREADS=4

Für NCCL in Cloud-Umgebungen mit hohem Ethernet-Anteil:

export NCCL_SOCKET_IFNAME=ens5
export NCCL_IB_DISABLE=1

Sicherheits- und Betriebsmanagement

Zuverlässiges Betriebsmanagement ist für Produktionsumgebungen unerlässlich:

Sichern Sie den SSH-Zugriff mit einem öffentlichen Schlüssel, eliminieren Sie die Passwortanmeldung und schließen Sie unnötige Ports.
Planen Sie Treiberaktualisierungen und erstellen Sie Snapshots, bevor Sie auf Cloud-Servern ein Upgrade durchführen.
Modelle sollten zur Isolation in einem Container (nvidia-docker) ausgeführt werden; verwenden Sie dazu das NVIDIA Device Plugin oder den GPU Operator in Kubernetes.
Nutzung geschützter Server Anti-DDoS und Überwachung von Produktionsumgebungen mit eingehendem Datenverkehr.

Empfohlene Konfiguration je nach Bedarf

Hardwarekonfiguration basierend auf dem Aufgabentyp:

Entwicklung und Erprobung (Lokale / kleine Experimente): 1x NVIDIA T4 oder RTX 3080, 32-64 GB RAM, NVMe 1 TB, 8 CPU-Kerne.
Mittlere Bildung (Forschung): 2-4x A100/RTX 6000, 256 GB RAM, NVMe 2-4 TB, 32-64 CPU-Kerne, 25-100 GbE.
Inferenz / Niedrige Latenz: Hochleistungs-GPU und -Speicher (z. B. A10/A30), NVMe für Modelle, Autoscaling-Cluster, CDN für Modelle und Daten.
Rendering/Rechenintensive Aufgaben: GPU mit hohen FP32-Spezifikationen, viel VRAM und NVLink, falls gemeinsamer Speicher benötigt wird.

Praxisszenarien und Beispielbefehle

Häufig verwendete Befehle und Beispiele, die beim Untersuchen und Ausführen von Modellen hilfreich sind:

GPU-Status anzeigen:

watch -n1 nvidia-smi

Ausführen eines PyTorch-Containers mit Zugriff auf alle GPUs und begrenztem Speicher:

docker run --gpus all --memory=128g --cpus=32 -it my-pytorch:latest bash

Beispielhafter PyTorch-Codeausschnitt für AMP und DataLoader:

model.train()
scaler = torch.cuda.amp.GradScaler()
for data, target in dataloader:
    data, target = data.cuda(non_blocking=True), target.cuda(non_blocking=True)
    optimizer.zero_grad()
    with torch.cuda.amp.autocast():
        output = model(data)
        loss = loss_fn(output, target)
    scaler.scale(loss).backward()
    scaler.step(optimizer)
    scaler.update()

Schlussfolgerung und abschließender Vorschlag

Die Verbesserung der GPU-Leistung für Deep Learning erfordert eine Kombination von Optimierungen auf mehreren Ebenen: die richtige Hardware (GPU, NVMe, schnelles Netzwerk), die richtigen Treiber und Containerisierung, Optimierung der Datenpipeline und die Nutzung von Funktionen wie gemischte Präzision, Aktivierungs-Checkpointing und verteiltes Lernen.

Die regelmäßige Profilerstellung und Messung der Veränderungen nach jeder Optimierung ist der beste Weg, um die wirklichen Engpässe zu identifizieren.

Wenn Sie eine fertige Infrastruktur für Training oder Inferenz benötigen, bietet Ihnen unser GPU-Cloud-Service Zugriff auf GPU-Server mit einer Vielzahl von Grafikkarten, NVMe-SSDs, latenzarmen Netzwerken und DDoS-Schutz in über 1000 Ländern. 85 Standorte Bietet eine Welt.

Ein umfassender Leitfaden zur Optimierung der GPU-Leistung für Deep Learning

Warum ist die GPU-Leistungsoptimierung für Deep Learning wichtig?

Schlüsselelemente und Vision

Engpässe identifizieren

Nützliche nvidia-smi-Befehle und Topologieprüfung

Empfohlene Profiling-Tools

Systemeinstellungen und Treiber (Linux)

Framework-Optimierung (PyTorch und TensorFlow)

PyTorch – Schnelle und praktische Einrichtung

TensorFlow – Praktische Einstellungen

Daten- und E/A-Management

Netzwerkeinstellungen und verteiltes Lernen

Erhöhte GPU-Speichereffizienz

Technische Tipps und nützliche Umgebungsvariablen

Sicherheits- und Betriebsmanagement

Empfohlene Konfiguration je nach Bedarf

Praxisszenarien und Beispielbefehle

Schlussfolgerung und abschließender Vorschlag

Häufig gestellte Fragen

1. Wie kann ich einen Flaschenhals bei der GPU-Auslastung identifizieren?

2. Ist die Verwendung gemischter Genauigkeit immer sinnvoll?

3. Welches Speichermedium eignet sich am besten für große Datensätze?

4. Welches Netzwerk wird für verteiltes Lernen benötigt?

5. Welche Tools werden für die Profilerstellung empfohlen?

In diesem Artikel:

Beitrag verfasst von: Elahe

ServerEine umfassende Anleitung zur Verwendung von Wget zum Herunterladen von Dateien und zur Arbeit mit REST-APIs.

SpielSo richten Sie einen Team Fortress 2 Online-Spielserver ein

WordPress-Schulung und -Installation auf gehosteten und lokalen Servern

Was ist Hosting und Domain?

Der Unterschied zwischen internen und externen Hosting-Servern

Hetzner Hosting

Hetzner verbietet die Bereitstellung dedizierter Server für das Mining!

Wie man eine .htaccess-Datei in cPanel erstellt oder bearbeitet

WordPress-Hosting nutzen

Amazon (AWS) APIs und Services: Alles, was Sie wissen müssen

Ein umfassender Leitfaden zur Optimierung der GPU-Leistung für Deep Learning

Warum ist die GPU-Leistungsoptimierung für Deep Learning wichtig?

Schlüsselelemente und Vision

Engpässe identifizieren

Nützliche nvidia-smi-Befehle und Topologieprüfung

Empfohlene Profiling-Tools

Systemeinstellungen und Treiber (Linux)

Framework-Optimierung (PyTorch und TensorFlow)

PyTorch – Schnelle und praktische Einrichtung

TensorFlow – Praktische Einstellungen

Daten- und E/A-Management

Netzwerkeinstellungen und verteiltes Lernen

Erhöhte GPU-Speichereffizienz

Technische Tipps und nützliche Umgebungsvariablen

Sicherheits- und Betriebsmanagement

Empfohlene Konfiguration je nach Bedarf

Praxisszenarien und Beispielbefehle

Schlussfolgerung und abschließender Vorschlag

Häufig gestellte Fragen

In diesem Artikel:

Beitrag verfasst von: Elahe

Folgen

Das könnte Ihnen auch gefallen