چگونه گلوگاه در استفاده از GPU را تشخیص دهم؟

با بررسی GPU utilization با ابزارهایی مانند nvidia-smi و پروفایلینگ با nsys/Nsight میتوانید ببینید که آیا فشار روی GPU است یا CPU/I/O.

آیا استفاده از mixed precision همیشه مفید است؟

بیشتر مواقع بله؛ mixed precision باعث کاهش حافظه و افزایش throughput میشود اما باید برای بخشهای حساس مدل دقت کنید و در صورت نیاز برخی قسمتها را در FP32 نگه دارید.

بهترین ذخیرهسازی برای دیتاستهای بزرگ چیست؟

ذخیرهسازی محلی NVMe برای دسترسی سریع توصیه میشود؛ در محیطهای چندنودی از Lustre/Ceph یا S3-compatible استفاده کنید.

برای آموزش توزیعشده چه شبکهای نیاز است؟

برای مدلهای بزرگ توصیه میشود از 25/40/100GbE یا InfiniBand استفاده کنید؛ اگر RDMA/InfiniBand در دسترس باشد، ارتباطات سریعتر و پایدارتر خواهند بود.

چه ابزارهایی برای پروفایلینگ پیشنهاد میشود؟

NVIDIA Nsight Systems (nsys)، Nsight Compute، PyTorch Profiler و TensorBoard Profiler برای تحلیل درون فریمورک و perf/atop/iostat برای بررسی سیستم توصیه میشوند.

Derin Öğrenme İçin GPU Performansını Optimize Etmeye Yönelik Kapsamlı Bir Kılavuz

Derin öğrenme için GPU performans optimizasyonu neden önemlidir?
Temel unsurlar ve vizyon
Darboğazların belirlenmesi
1. Faydalı nvidia-smi komutları ve topoloji kontrolü
Önerilen profil oluşturma araçları
Sistem Ayarları ve Sürücüler (Linux)
Çerçeve düzeyinde optimizasyon (PyTorch ve TensorFlow)
1. PyTorch — Hızlı ve pratik kurulum
2. TensorFlow — Pratik Ayarlar
Veri ve G/Ç yönetimi
Ağ ayarları ve dağıtılmış öğrenme
GPU bellek verimliliğinde artış
Teknik ipuçları ve faydalı ortam değişkenleri
Güvenlik ve operasyonel yönetim
İhtiyaçlara göre önerilen yapılandırma
Pratik senaryolar ve örnek komutlar
Sonuç ve son öneri
Sıkça Sorulan Sorular

Derin öğrenme için GPU performans optimizasyonu neden önemlidir?

Derin öğrenme için GPU performans optimizasyonu, büyük modellerin eğitimi ve çıkarımı üzerinde çalışanlar için temel bir zorluktur. Amaç Bu kılavuz, şirket içi ve bulut ortamlarında GPU performansını artırmak için pratik ve teknik rehberlik sağlar: sürücü ayarlamasından ve işletim sistemi yapılandırmasından G/Ç optimizasyonuna, çerçevelere, profil oluşturmaya ve dağıtılmış eğitime kadar.

Bu metin, site yöneticileri, DevOps uzmanları, derin öğrenme araştırmacıları ve MLOps ekipleri için doğru donanım kombinasyonunu (örneğin, erişime sahip bir GPU Bulut grafik sunucusu) belirlemelerine yardımcı olmak amacıyla yazılmıştır. 85'ten fazla lokasyonYazılım optimizasyonu ve diğer faktörler sayesinde en kısa eğitim süresi ve en yüksek verimlilik elde edilir.

Temel unsurlar ve vizyon

Performansı optimize etmek için dört ana alanı göz önünde bulundurmamız gerekiyor. Bu alanların her biri, tek başına veya birlikte, verimliliği düşüren darboğazlar yaratabilir.

GPU hesaplama: Kullanımı tensör çekirdekleri, karışık hassasiyet ve çekirdek optimizasyonu.
GPU belleği ve yönetimi: Bellek yetersizliğini önlemek için şunu kullanın: aktivasyon kontrol noktası ve bellek tüketimini azaltır.
Giriş/çıkış ve veri işleme (veri işlem hattı): G/Ç darboğazlarını ortadan kaldırmak için NVMe, prefetch, DALI veya tf.data kullanılabilir.
Dağıtılmış öğrenmede ağ (ağ): Düğümler arasındaki gecikme ve bant genişliği, RDMA/InfiniBand kullanımı ve NCCL ayarları.

Darboğazların belirlenmesi

Engeli doğru bir şekilde teşhis etmek ilk adımdır. GPU kullanımı Değer düşük ve daha yüksek bir değer bekliyorsanız, genellikle sorun işlemci veya giriş/çıkış (I/O) ile ilgilidir.

Teşhis için kullanılan temel araçlar şunlardır: nvidia-smi ve NVIDIA profil oluşturma araçları gibi nsys Ve Night Bu araçlar SM kullanımına, belleğe ve güç tüketimine ilişkin bilgiler sağlar.

Faydalı nvidia-smi komutları ve topoloji kontrolü

nvidia-smi --query-gpu=utilization.gpu,utilization.memory,memory.total,memory.used --format=csv
nvidia-smi topo -m

Önerilen profil oluşturma araçları

Daha detaylı analiz için aşağıdaki araçları kullanın:

NVIDIA Nsight Sistemleri (nsys) Ve Night Compute Çekirdek ve bellek zamanlama profillemesi için.
PyTorch Profilleyici Ve TensorBoard Profilleyici Bu çerçeve dahilinde analiz için.
Sistem araçları gibi performans, tepe Ve iyostat İşlemci ve disk performansını kontrol etmek için.

Uygulama örneği nsys:

nsys profile --trace=cuda,cudnn,osrt -o my_profile python train.py

Sistem Ayarları ve Sürücüler (Linux)

CUDA/cuDNN sürümleriyle uyumlu temiz bir ortam kurun. Önemli noktalar:

NVIDIA sürücü sürümü, CUDA Toolkit ve cuDNN arasındaki uyumluluğu her zaman kontrol edin.
Özel sunucular için aktivasyon kalıcılık modu GPU saat hızını ayarlamak, frekans dalgalanmalarını önleyebilir:

sudo nvidia-smi -pm 1
sudo nvidia-smi -ac <memClock,graphicsClock>

Frekansı (ac) değiştirirken dikkatli olun; bu ayar yalnızca özel sunucular için uygundur.

GPU desteğiyle Docker kurulumu, temel adımlara bir örnektir:

sudo apt-get install -y nvidia-docker2
sudo systemctl restart docker
docker run --gpus '"device=0,1"' --rm -it your-image:tag bash

Sürücü ve nvidia-docker kurulumuna örnek (Ubuntu için genel örnek):

sudo apt update && sudo apt install -y build-essential dkms
# add NVIDIA repository and install driver and cuda-toolkit per NVIDIA guide
sudo apt install -y nvidia-docker2
sudo systemctl restart docker

Çerçeve düzeyinde optimizasyon (PyTorch ve TensorFlow)

Çerçeveler, donanımı en iyi şekilde kullanmaya yönelik özelliklere sahiptir; bunların doğru yapılandırılması, verimlilik ve bellek tüketimi üzerinde doğrudan etkiye sahiptir.

PyTorch — Hızlı ve pratik kurulum

Sabit girdilere sahip modeller için cuDNN otomatik ayarlayıcısını etkinleştirme:

torch.backends.cudnn.benchmark = True

Karmaşık hassasiyet kullanarak meşale.cuda.amp Tensor çekirdeklerini kullanmak için:

scaler = torch.cuda.amp.GradScaler()
with torch.cuda.amp.autocast(): outputs = model(inputs)

DataLoader: Artırma işçi sayısı İşlemci veya giriş/çıkış darboğaz oluşturmadığı sürece, kullanın. pin_belleği=Doğru Ve kalıcı_çalışanlar=Doğru:

DataLoader(dataset, batch_size=..., num_workers=8, pin_memory=True, persistent_workers=True, prefetch_factor=2)

Örnek gradyan birikimi Bellek yetersizliği (OOM) olmadan daha büyük bir veri grubunu simüle etmek için:

loss = model(...) / accumulation_steps
scaler.scale(loss).backward()
if (step+1) % accumulation_steps == 0:
    scaler.step(optimizer)
    scaler.update()
    optimizer.zero_grad()

TensorFlow — Pratik Ayarlar

Karma hassasiyeti etkinleştir:

from tensorflow.keras import mixed_precision
mixed_precision.set_global_policy('mixed_float16')

tf.data: önceden yüklemeyi kullan, eşle num_parallel_calls=tf.data.AUTOTUNE Ve küçük koleksiyonlar için önbellek:

dataset = dataset.map(..., num_parallel_calls=tf.data.AUTOTUNE).prefetch(tf.data.AUTOTUNE)

GPU bellek büyüme ayarı:

gpus = tf.config.experimental.list_physical_devices('GPU')
tf.config.experimental.set_memory_growth(gpus[0], True)

Veri ve G/Ç yönetimi

Giriş/çıkış işlemleri, özellikle büyük veri kümeleri ve çok düğümlü yükler söz konusu olduğunda, hızla darboğaz haline gelebilir.

NVMe Hızlı G/Ç'den faydalanmak için büyük veri kümeleri için yerel yapılandırma önerilir.
Çok düğümlü bir ortamda, dağıtılmış dosya sistemleri (Lustre, Ceph) veya S3 uyumlu nesne depoları kullanın.
Statik veriler (vektörler veya hazır modeller gibi) için, bir CDN ve küresel kapsama alanı (85'ten fazla konum) kullanmak indirme gecikmesini azaltabilir.
Görüntü ve video işleme: NVIDIA DALI, ön işlemeyi CPU'dan GPU'ya taşıyarak CPU üzerindeki yükü azaltabilir.

Ağ ayarları ve dağıtılmış öğrenme

Çok düğümlü eğitim için, GPU'lar arasındaki iletişim için arka uç olarak NCCL kullanın. RDMA/InfiniBand kullanan ağlar, Ethernet üzerinden TCP'ye göre daha iyi performans gösterir.

Faydalı çevresel ayarlar:

export NCCL_DEBUG=INFO
export NCCL_SOCKET_IFNAME=eth0
export NCCL_IB_DISABLE=0

Ağ önerisi: Büyük modeller üzerinde dağıtılmış eğitim için 25/40/100GbE veya InfiniBand kullanın.

PyTorch DDP'yi Docker içinde çalıştırma örneği:

docker run --gpus all --shm-size=1g --ulimit memlock=-1 --ulimit stack=67108864 your-image
python -m torch.distributed.run --nproc_per_node=4 --nnodes=2 --node_rank=0 --rdzv_endpoint=master:29500 train.py

GPU bellek verimliliğinde artış

Aşağıdaki çözümler bellek tüketimini azaltmaya ve ölçeklenebilirliği artırmaya yardımcı olur:

Karma hassasiyet (FP16) ve tüketimi azaltmak ve verimliliği artırmak için tensör çekirdekleri.
Etkinleştirme kontrol noktası Tüm aktivasyonları kaydetmemek ve geri alma işleminde yeniden oluşturmamak.
Teknolojiler gibi Sıfır (Derin Hız) Ve FSDP (PyTorch Fully Sharded Data Parallel), GPU'lar arasında bellek bölümlendirme için kullanılır.
Modelin bazı kısımlarındaki (örneğin gömme işlemleri) hassasiyeti azaltmak ve hassas kısımları FP32'de tutmak.

Teknik ipuçları ve faydalı ortam değişkenleri

Genellikle faydalı olan birkaç ortam değişkeni ve sistem ayarı:

GPU tahsis kontrolü ile CUDA_VISIBLE_DEVICES=0,1.
Hata ayıklamak için CUDA_LAUNCH_BLOCKING=1 (Kullanımı sorun yaratıyor, yavaşlamaya neden oluyor).
Aşırı yüklenmeyi önlemek için işlemci iş parçacığı sayısını ayarlayın:

export OMP_NUM_THREADS=4
export MKL_NUM_THREADS=4

Yüksek Ethernet bağlantılı bulut ortamlarında NCCL için:

export NCCL_SOCKET_IFNAME=ens5
export NCCL_IB_DISABLE=1

Güvenlik ve operasyonel yönetim

Üretim ortamları için güvenilir operasyonel yönetim şarttır:

Açık anahtar kullanarak güvenli SSH erişimi sağlayın, parola girişini ortadan kaldırın ve gereksiz portları kapatın.
Bulut sunucularında yükseltme işleminden önce sürücü güncellemelerini planlayın ve anlık görüntüler alın.
Modelleri izolasyon için bir konteynerde (nvidia-docker) çalıştırın; Kubernetes'te NVIDIA Aygıt Eklentisi veya GPU Operatörü kullanın.
Korumalı sunucuların kullanımı DDoS Saldırılarına Karşı Koruma ve gelen trafiğe sahip üretim ortamları için izleme.

İhtiyaçlara göre önerilen yapılandırma

Görev türüne göre donanım yapılandırması:

Geliştirme ve test etme (Yerel / Küçük ölçekli deneyler): 1 adet NVIDIA T4 veya RTX 3080, 32-64 GB RAM, 1 TB NVMe, 8 işlemci çekirdeği.
Ortaöğretim (Araştırma): 2-4x A100/RTX 6000, 256 GB RAM, 2-4 TB NVMe, 32-64 CPU çekirdeği, 25-100 GbE.
Çıkarım / Düşük gecikme süresi: Yüksek hızlı GPU ve bellek (örneğin A10/A30), modeller için NVMe, otomatik ölçeklendirme kümeleri, modeller ve veriler için CDN.
İşleme/Yoğun Hesaplama: Yüksek FP32 özelliklerine sahip, bol miktarda VRAM'e ve paylaşımlı belleğe ihtiyaç duyulması halinde NVLink'e sahip bir GPU.

Pratik senaryolar ve örnek komutlar

Modelleri incelemek ve çalıştırmak için faydalı olan yaygın komutlar ve örnekler:

GPU durumunu görüntüle:

watch -n1 nvidia-smi

Tüm GPU'lara erişim ve sınırlı bellek ile bir PyTorch konteynerini çalıştırmak:

docker run --gpus all --memory=128g --cpus=32 -it my-pytorch:latest bash

AMP ve DataLoader için örnek PyTorch kod parçası:

model.train()
scaler = torch.cuda.amp.GradScaler()
for data, target in dataloader:
    data, target = data.cuda(non_blocking=True), target.cuda(non_blocking=True)
    optimizer.zero_grad()
    with torch.cuda.amp.autocast():
        output = model(data)
        loss = loss_fn(output, target)
    scaler.scale(loss).backward()
    scaler.step(optimizer)
    scaler.update()

Sonuç ve son öneri

Derin öğrenme için GPU performansını iyileştirmek, birden fazla katmanda optimizasyonların bir kombinasyonunu gerektirir: doğru donanım (GPU, NVMe, hızlı ağ bağlantısı), doğru sürücüler ve konteynerleştirme, veri işlem hattı optimizasyonu ve aşağıdakiler gibi yeteneklerin kullanımı: karışık hassasiyet, aktivasyon kontrol noktası ve uzaktan eğitim.

Düzenli profil oluşturma ve her optimizasyondan sonra değişiklikleri ölçme, en gerçek darboğazları belirlemenin en iyi yoludur.

Eğitim veya çıkarım için hazır altyapıya ihtiyacınız varsa, GPU Bulut hizmetimiz çeşitli kartlara, NVMe'ye, düşük gecikmeli ağ bağlantısına ve DDoS saldırılarına karşı korumaya sahip GPU sunucularına erişim sağlar. 85 lokasyon Bir dünya sunar.

Derin öğrenme için GPU performansını optimize etmeye yönelik kapsamlı bir rehber.

Derin öğrenme için GPU performans optimizasyonu neden önemlidir?

Temel unsurlar ve vizyon

Darboğazların belirlenmesi

Faydalı nvidia-smi komutları ve topoloji kontrolü

Önerilen profil oluşturma araçları

Sistem Ayarları ve Sürücüler (Linux)

Çerçeve düzeyinde optimizasyon (PyTorch ve TensorFlow)

PyTorch — Hızlı ve pratik kurulum

TensorFlow — Pratik Ayarlar

Veri ve G/Ç yönetimi

Ağ ayarları ve dağıtılmış öğrenme

GPU bellek verimliliğinde artış

Teknik ipuçları ve faydalı ortam değişkenleri

Güvenlik ve operasyonel yönetim

İhtiyaçlara göre önerilen yapılandırma

Pratik senaryolar ve örnek komutlar

Sonuç ve son öneri

Sıkça Sorulan Sorular

1. GPU kullanımındaki darboğazı nasıl tespit ederim?

2. Karma hassasiyet kullanmak her zaman faydalı mıdır?

3. Büyük veri kümeleri için en iyi depolama yöntemi hangisidir?

4. Dağıtılmış öğrenme için hangi ağa ihtiyaç duyulmaktadır?

5. Profil oluşturma için hangi araçlar önerilir?

Bu makalede:

Gönderiyi yazan: Elahe

SunucuWget kullanarak dosya indirme ve REST API'leriyle çalışma konusunda kapsamlı bir rehber.

OyunTeam Fortress 2 çevrimiçi oyun sunucusu nasıl kurulur?

Barındırılan ve yerel sunucularda WordPress eğitimi ve kurulumu

Hosting ve domain nedir?

Dahili ve harici barındırma sunucuları arasındaki fark

Hetzner Barındırma

Hetzner madencilik için özel sunucu sağlamayı yasakladı!!

cPanel'de .htaccess dosyası nasıl oluşturulur veya düzenlenir?

WordPress barındırma hizmetini kullanma

Amazon (AWS) API'leri ve Hizmetleri: Bilmeniz Gereken Her Şey

Derin öğrenme için GPU performansını optimize etmeye yönelik kapsamlı bir rehber.

Derin öğrenme için GPU performans optimizasyonu neden önemlidir?

Temel unsurlar ve vizyon

Darboğazların belirlenmesi

Faydalı nvidia-smi komutları ve topoloji kontrolü

Önerilen profil oluşturma araçları

Sistem Ayarları ve Sürücüler (Linux)

Çerçeve düzeyinde optimizasyon (PyTorch ve TensorFlow)

PyTorch — Hızlı ve pratik kurulum

TensorFlow — Pratik Ayarlar

Veri ve G/Ç yönetimi

Ağ ayarları ve dağıtılmış öğrenme

GPU bellek verimliliğinde artış

Teknik ipuçları ve faydalı ortam değişkenleri

Güvenlik ve operasyonel yönetim

İhtiyaçlara göre önerilen yapılandırma

Pratik senaryolar ve örnek komutlar

Sonuç ve son öneri

Sıkça Sorulan Sorular

Bu makalede:

Gönderiyi yazan: Elahe

Takip etmek

Ayrıca Şunları da Beğenebilirsiniz