Uživatelské nástroje

Nástroje pro tento web


it:troubleshooting_gpu

Řešení potíží s grafikou (GPU Troubleshooting)

Tento průvodce pokrývá nejčastější chyby při používání GPU pro AI výpočty, akceleraci v Dockeru a práci s knihovnami CUDA.

1. Chyba: "NVIDIA-SMI has failed"

Tato chyba se obvykle objevuje po aktualizaci systému nebo ovladačů, kdy jádro systému (kernel) stále používá starou verzi modulu, ale v systému je již nová verze.

Příznaky:

  • Příkaz nvidia-smi vrací: „NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver.“

Řešení:

  1. Restart systému: V 90 % případů vyřeší problém (zavede se správný modul).
  2. Reload modulu (Linux): Pokud nemůžete restartovat, zkuste:
sudo rmmod nvidia_uvm
sudo modprobe nvidia_uvm

2. Chyba: "CUDA Out of Memory" (OOM)

K této chybě dochází, když se pokoušíte načíst model, který je větší než dostupná kapacita vaší VRAM.

Řešení:

  1. Kvantizace: Použijte menší verzi modelu (např. místo 8-bitové verze použijte 4-bitovou Q4_K_M).
  2. Snížení kontextu: Zmenšete context window (např. z 32k na 8k tokenů).
  3. Ukončení ostatních aplikací: Prohlížeče (Chrome) a grafické editory mohou blokovat i několik GB VRAM.

3. Chyba: "CUDA version mismatch"

Stav, kdy systém hlásí různé verze CUDA v různých nástrojích.

Nástroj Co ukazuje Význam
nvidia-smi CUDA Version: 12.6 Maximální verze, kterou podporuje váš ovladač.
nvcc –version release 11.8 Verze vývojářského toolkitu, který je fyzicky nainstalován.

Řešení:

  • Pro běh aplikací (Inference) je důležitá verze v nvidia-smi.
  • Pro kompilaci kódu musíte aktualizovat CUDA Toolkit tak, aby odpovídal požadavkům vaší knihovny (např. PyTorch).

4. Problémy v Dockeru

Chyba: „could not select device with capabilities: gpu

Kontrolní seznam:

1. Je na hostiteli nainstalován [[it:nastaveni_gpu_v_dockeru|NVIDIA Container Toolkit]]?
2. Byl po instalaci restartován Docker démon (''sudo systemctl restart docker'')?
3. Máte v ''docker-compose.yml'' správně definovanou sekci ''deploy.resources''?

5. Diagnostické příkazy

Pokud nevíte, kde je chyba, spusťte tyto příkazy a výstupy přiložte k ticketu:

Příkaz Účel
nvidia-smi Základní stav GPU, ovladače a VRAM.
watch -n 1 nvidia-smi Sledování teploty a zátěže v reálném čase.
dmesg \| grep -i nvidia Logy jádra (odhalí HW chyby nebo pády ovladače).
sudo lshw -C display Podrobný výpis hardwaru grafické karty.

Související:

Správce supportu: @L2_Support Aktualizováno: 04. 01. 2026

it/troubleshooting_gpu.txt · Poslední úprava: autor: admin