====== Multimodální AI ====== **Multimodální AI** je typ systému umělé inteligence, který dokáže zpracovávat a propojovat informace z různých typů datových zdrojů, neboli **modalit**. Mezi tyto modality patří text, obrázky, video, zvuk, řeč nebo dokonce data ze senzorů. Namísto toho, aby model viděl svět jen jako posloupnost písmen, dokáže "vidět" obrázek a "slyšet" tón hlasu, přičemž chápe vztahy mezi těmito vstupy. ===== Jak multimodální AI funguje? ===== Základem je schopnost převést různé typy dat do společného matematického prostoru (tzv. **embeddingy**). * **Kodéry (Encoders):** Každá modalita má svůj vlastní "přijímač" (např. Vision Transformer pro obrázky). * **Fúze (Fusion):** Systém spojí informace z různých kodérů do jednoho celku. * **Dekodér (Decoder):** Na základě pochopeného kontextu vygeneruje odpověď (textovou, obrazovou či zvukovou). ===== Srovnání: Unimodální vs. Multimodální AI ===== ^ Vlastnost ^ Unimodální AI (např. GPT-3) ^ Multimodální AI (např. GPT-4o, Gemini) ^ | **Vstupy** | Pouze text | Text, Foto, Audio, Video | | **Pochopení** | Pouze sémantika slov | Kontext, vizuální detaily, emoce v hlase | | **Výstup** | Text | Text, Obrázek, Mluvené slovo | | **Příklad** | Chatbot na webu | Asistent, kterému ukážete rozbitý motor a on vám řekne, co opravit | ===== Hlavní modality a jejich využití ===== * **Text + Obrázek:** Analýza rentgenových snímků s popisem diagnózy, nebo generování obrázků z textu (DALL-E, Midjourney). * **Text + Audio:** Přepis řeči s pochopením sarkasmu nebo emocí, okamžitý překlad mluveného slova. * **Video + Text:** Automatické vytváření titulků nebo vyhledávání konkrétních momentů ve videu ("Najdi část, kde pes skáče do bazénu"). ===== Současní lídři na trhu ===== 1. **OpenAI (GPT-4o):** "Omni" model, který reaguje v reálném čase na hlas i video. 2. **Google (Gemini 1.5 Pro):** Model s obrovským kontextovým oknem, schopný analyzovat hodinová videa najednou. 3. **Anthropic (Claude 3.5 Sonnet):** Špičkový model v analýze grafů, schémat a vizuálního programování. --- ===== Proč je to důležité? ===== > Multimodalita je klíčem k dosažení **AGI** (obecné umělé inteligence). Aby AI mohla skutečně pomáhat v reálném světě (např. v robotech), musí být schopna vnímat prostor a zvuk stejně přirozeně jako textové instrukce. //Viz také: [[LLM]], [[Computer Vision]], [[Neural Networks]]//