Obsah
Lokální hostování AI modelů (Self-hosting)
Lokální hostování znamená, že model běží na vašem vlastním procesoru (CPU) nebo grafické kartě (GPU). Veškerá data zůstávají u vás a model funguje i bez připojení k internetu.
Hardwarové požadavky
Nejdůležitějším parametrem je VRAM (video paměť na grafické kartě) nebo Unified Memory (u počítačů Apple).
- Minimální (SLM modely 1B-4B): 8 GB RAM / 4 GB VRAM.
- Optimální (Střední modely 7B-14B): 16 GB - 32 GB RAM / 8 GB - 12 GB VRAM.
- Profesionální (Velké modely 30B+): 64 GB+ RAM / 24 GB+ VRAM (např. NVIDIA RTX 3090/4090).
Hlavní nástroje pro rok 2026
1. Ollama (Doporučeno pro začátečníky)
Ollama je nejjednodušší cesta. Funguje jako služba na pozadí, která automaticky spravuje paměť.
- Platformy: Windows, macOS, Linux.
- Příkaz:
ollama run llama3.1 - Výhoda: Obrovská knihovna předpřipravených modelů.
2. LM Studio (GUI aplikace)
Grafické rozhraní, které vám umožní stahovat konkrétní verze modelů z Hugging Face a testovat je v okně chatu.
- Klíčová funkce: Ukazuje v reálném čase, kolik procent modelu se vejde do vaší grafické paměti.
3. Open WebUI (Firemní standard)
Pokud chcete rozhraní, které vypadá a funguje přesně jako ChatGPT, ale běží u vás.
- Nasazení: Ideální přes Docker.
- Funkce: Podpora více uživatelů, historie chatů, nahrávání dokumentů (RAG).
Formáty a Kvantizace (GGUF)
Modely se málokdy stahují v plné velikosti (FP16). Používá se formát GGUF, který umožňuje snížit bitovou přesnost (kvantizaci) modelu:
| Kvantizace | Kvalita | Nároky | Doporučení |
|---|---|---|---|
| Q8_0 | 99% originálu | Velmi vysoké | Pro kritické úlohy |
| Q4_K_M | 95% originálu | Nízké | Zlatý standard (nejlepší poměr) |
| IQ2_S | 70% originálu | Minimální | Pro slabé telefony/IoT |
Rychlý návod: První spuštění (Ollama)
1. Stáhněte a nainstalujte **Ollama** z [[https://ollama.com|oficiálního webu]]. 2. Otevřete terminál (PowerShell / Bash). 3. Spusťte svůj první model:
# Pro rychlý test (velmi malý model) ollama run phi4:tiny # Pro kvalitní chat (střední model) ollama run llama3.1:8b
4. Model se automaticky stáhne a můžete začít psát.
TIP: Pokud chcete model využívat v jiných aplikacích (např. v MS Word nebo VS Code), Ollama automaticky běží na adresehttp://localhost:11434.
— Související dokumentace:
— Autor: @IT_Admin Verze dokumentu: 1.2 (2026)
