Multimodální AI je typ systému umělé inteligence, který dokáže zpracovávat a propojovat informace z různých typů datových zdrojů, neboli modalit. Mezi tyto modality patří text, obrázky, video, zvuk, řeč nebo dokonce data ze senzorů.
Namísto toho, aby model viděl svět jen jako posloupnost písmen, dokáže „vidět“ obrázek a „slyšet“ tón hlasu, přičemž chápe vztahy mezi těmito vstupy.
Základem je schopnost převést různé typy dat do společného matematického prostoru (tzv. embeddingy).
| Vlastnost | Unimodální AI (např. GPT-3) | Multimodální AI (např. GPT-4o, Gemini) |
|---|---|---|
| Vstupy | Pouze text | Text, Foto, Audio, Video |
| Pochopení | Pouze sémantika slov | Kontext, vizuální detaily, emoce v hlase |
| Výstup | Text | Text, Obrázek, Mluvené slovo |
| Příklad | Chatbot na webu | Asistent, kterému ukážete rozbitý motor a on vám řekne, co opravit |
1. **OpenAI (GPT-4o):** "Omni" model, který reaguje v reálném čase na hlas i video. 2. **Google (Gemini 1.5 Pro):** Model s obrovským kontextovým oknem, schopný analyzovat hodinová videa najednou. 3. **Anthropic (Claude 3.5 Sonnet):** Špičkový model v analýze grafů, schémat a vizuálního programování.
—
Multimodalita je klíčem k dosažení AGI (obecné umělé inteligence). Aby AI mohla skutečně pomáhat v reálném světě (např. v robotech), musí být schopna vnímat prostor a zvuk stejně přirozeně jako textové instrukce.
Viz také: LLM, Computer Vision, Neural Networks