it:troubleshooting_gpu
Obsah
Řešení potíží s grafikou (GPU Troubleshooting)
Tento průvodce pokrývá nejčastější chyby při používání GPU pro AI výpočty, akceleraci v Dockeru a práci s knihovnami CUDA.
1. Chyba: "NVIDIA-SMI has failed"
Tato chyba se obvykle objevuje po aktualizaci systému nebo ovladačů, kdy jádro systému (kernel) stále používá starou verzi modulu, ale v systému je již nová verze.
Příznaky:
- Příkaz
nvidia-smivrací: „NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver.“
Řešení:
- Restart systému: V 90 % případů vyřeší problém (zavede se správný modul).
- Reload modulu (Linux): Pokud nemůžete restartovat, zkuste:
sudo rmmod nvidia_uvm sudo modprobe nvidia_uvm
2. Chyba: "CUDA Out of Memory" (OOM)
K této chybě dochází, když se pokoušíte načíst model, který je větší než dostupná kapacita vaší VRAM.
Řešení:
- Kvantizace: Použijte menší verzi modelu (např. místo 8-bitové verze použijte 4-bitovou Q4_K_M).
- Snížení kontextu: Zmenšete
context window(např. z 32k na 8k tokenů). - Ukončení ostatních aplikací: Prohlížeče (Chrome) a grafické editory mohou blokovat i několik GB VRAM.
3. Chyba: "CUDA version mismatch"
Stav, kdy systém hlásí různé verze CUDA v různých nástrojích.
| Nástroj | Co ukazuje | Význam |
|---|---|---|
| nvidia-smi | CUDA Version: 12.6 | Maximální verze, kterou podporuje váš ovladač. |
| nvcc –version | release 11.8 | Verze vývojářského toolkitu, který je fyzicky nainstalován. |
Řešení:
- Pro běh aplikací (Inference) je důležitá verze v
nvidia-smi. - Pro kompilaci kódu musíte aktualizovat CUDA Toolkit tak, aby odpovídal požadavkům vaší knihovny (např. PyTorch).
4. Problémy v Dockeru
Chyba: „could not select device with capabilities: gpu“
Kontrolní seznam:
1. Je na hostiteli nainstalován [[it:nastaveni_gpu_v_dockeru|NVIDIA Container Toolkit]]?
2. Byl po instalaci restartován Docker démon (''sudo systemctl restart docker'')?
3. Máte v ''docker-compose.yml'' správně definovanou sekci ''deploy.resources''?
5. Diagnostické příkazy
Pokud nevíte, kde je chyba, spusťte tyto příkazy a výstupy přiložte k ticketu:
| Příkaz | Účel |
| — | — |
nvidia-smi | Základní stav GPU, ovladače a VRAM. |
watch -n 1 nvidia-smi | Sledování teploty a zátěže v reálném čase. |
dmesg \| grep -i nvidia | Logy jádra (odhalí HW chyby nebo pády ovladače). |
sudo lshw -C display | Podrobný výpis hardwaru grafické karty. |
— Související:
— Správce supportu: @L2_Support Aktualizováno: 04. 01. 2026
it/troubleshooting_gpu.txt · Poslední úprava: autor: admin
