Uživatelské nástroje

Nástroje pro tento web


it:hostovani_modelu

Lokální hostování AI modelů (Self-hosting)

Lokální hostování znamená, že model běží na vašem vlastním procesoru (CPU) nebo grafické kartě (GPU). Veškerá data zůstávají u vás a model funguje i bez připojení k internetu.

Hardwarové požadavky

Nejdůležitějším parametrem je VRAM (video paměť na grafické kartě) nebo Unified Memory (u počítačů Apple).

  • Minimální (SLM modely 1B-4B): 8 GB RAM / 4 GB VRAM.
  • Optimální (Střední modely 7B-14B): 16 GB - 32 GB RAM / 8 GB - 12 GB VRAM.
  • Profesionální (Velké modely 30B+): 64 GB+ RAM / 24 GB+ VRAM (např. NVIDIA RTX 3090/4090).

Hlavní nástroje pro rok 2026

1. Ollama (Doporučeno pro začátečníky)

Ollama je nejjednodušší cesta. Funguje jako služba na pozadí, která automaticky spravuje paměť.

  • Platformy: Windows, macOS, Linux.
  • Příkaz: ollama run llama3.1
  • Výhoda: Obrovská knihovna předpřipravených modelů.

2. LM Studio (GUI aplikace)

Grafické rozhraní, které vám umožní stahovat konkrétní verze modelů z Hugging Face a testovat je v okně chatu.

  • Klíčová funkce: Ukazuje v reálném čase, kolik procent modelu se vejde do vaší grafické paměti.

3. Open WebUI (Firemní standard)

Pokud chcete rozhraní, které vypadá a funguje přesně jako ChatGPT, ale běží u vás.

  • Nasazení: Ideální přes Docker.
  • Funkce: Podpora více uživatelů, historie chatů, nahrávání dokumentů (RAG).

Formáty a Kvantizace (GGUF)

Modely se málokdy stahují v plné velikosti (FP16). Používá se formát GGUF, který umožňuje snížit bitovou přesnost (kvantizaci) modelu:

Kvantizace Kvalita Nároky Doporučení
Q8_0 99% originálu Velmi vysoké Pro kritické úlohy
Q4_K_M 95% originálu Nízké Zlatý standard (nejlepší poměr)
IQ2_S 70% originálu Minimální Pro slabé telefony/IoT

Rychlý návod: První spuštění (Ollama)

1. Stáhněte a nainstalujte **Ollama** z [[https://ollama.com|oficiálního webu]].
2. Otevřete terminál (PowerShell / Bash).
3. Spusťte svůj první model:
# Pro rychlý test (velmi malý model)
ollama run phi4:tiny

# Pro kvalitní chat (střední model)
ollama run llama3.1:8b
4. Model se automaticky stáhne a můžete začít psát.
TIP: Pokud chcete model využívat v jiných aplikacích (např. v MS Word nebo VS Code), Ollama automaticky běží na adrese http://localhost:11434.

Související dokumentace:

Autor: @IT_Admin Verze dokumentu: 1.2 (2026)

it/hostovani_modelu.txt · Poslední úprava: autor: admin