Obsah
Lokální hostování AI modelů
Lokální provozování jazykových modelů (On-device AI) umožňuje využívat umělou inteligenci bez nutnosti odesílat data na servery třetích stran (OpenAI, Google). To zajišťuje soukromí, nezávislost na internetu a nulové provozní náklady.
Požadavky na hardware
Klíčovým faktorem pro výkon není procesor (CPU), ale grafická paměť (VRAM) a propustnost RAM.
- Operační paměť (RAM): Minimum je 8 GB pro nejmenší modely (3B), doporučeno 16 GB+.
- Grafická karta (GPU): Čipy NVIDIA (architektura CUDA) jsou nejlépe podporovány.
- Apple Silicon (M1/M2/M3): Velmi efektivní díky sdílené paměti (Unified Memory).
- Disk: SSD s dostatkem místa (modely mají 2 GB až 50 GB+).
Doporučené nástroje (Software)
Pro začátečníky i pokročilé existují tři hlavní cesty, jak model zprovoznit:
1. Ollama (Nejjednodušší cesta)
Ollama je terminálový nástroj pro macOS, Linux a Windows, který spravuje stahování i běh modelů.
- Příkaz:
ollama run llama3 - Výhoda: Extrémně jednoduché, funguje jako server na pozadí.
- Webové rozhraní: Lze propojit s Open WebUI pro zážitek podobný ChatGPT.
2. LM Studio (Grafické rozhraní)
Aplikace s plnohodnotným GUI, která umožňuje vyhledávat modely přímo z portálu Hugging Face.
- Vhodné pro: Uživatelé, kteří nechtějí používat příkazovou řádku.
- Funkce: Snadné nastavení parametrů a sledování vytížení hardwaru.
3. LocalAI / vLLM (Pro vývojáře)
Nástroje určené pro nasazení v rámci lokální infrastruktury přes Docker.
- Výhoda: Poskytují API kompatibilní s OpenAI (lze v kódu jen přepsat URL adresu).
Formáty modelů a kvantizace
Většina lokálních modelů využívá formát GGUF. Protože jsou modely v plné přesnosti příliš velké, používá se tzv. kvantizace (snížení bitové přesnosti).
| Kvantizace | Vliv na kvalitu | Využití RAM |
|---|---|---|
| Q8_0 (8-bit) | Téměř nerozeznatelný od originálu | Vysoké |
| Q4_K_M (4-bit) | Zlatá střední cesta (doporučeno) | Střední |
| Q2_K (2-bit) | Výrazná ztráta logiky | Minimální |
Postup nasazení (Rychlý start)
1. **Stáhnout Ollama:** Z oficiálních stránek [[https://ollama.com|ollama.com]]. 2. **Výběr modelu:** Pro začátek doporučujeme ''phi3'' (malý a rychlý) nebo ''llama3'' (všestranný). 3. **Spuštění:** V terminálu zadejte:
ollama run phi3
4. **Integrace:** Propojte lokální instanci s vaším editorem kódu (např. pomocí pluginu **Continue** ve VS Code).
Tip: Pokud máte málo VRAM, hledejte modely s označením „Instruct“, které jsou vyladěny pro plnění úkolů a chatování.
— Související dokumentace:
— Správce IT sekce: @AI_Admin
