Sora (umělá inteligence)

Sora je generativní text-to-video AI model, vydaný společností OpenAI v únoru 2024. Sora je schopna vytvořit filmy z textových pokynů pomocí kombinace AI technologií: pokročilých NLP modelů, GAN,^[1] VQ-VAE, sémantických a kontextových modelů, technik pro syntézu videa a animací, a metod posíleného učení pro tvorbu videí z textových pokynů.^[2]^[3]^[4]

Technologie

Přehled Sora

Sora je architektura založená na nejnovější generaci difúzních transformátorů. Začíná proces s inicializačním šumem a postupně provádí sérii úprav, aby dosáhla přesného cílového videa. Významným prvkem této technologie je implementace adaptivního vzorkování, které umožňuje modelu Sora dynamicky se přizpůsobit a optimalizovat pro různé kodeky, rozlišení a poměry videa. To je dosaženo pomocí pokročilého algoritmického řešení, které umožňují měnit úroveň podrobnosti ve procesu výběru vzorků a efektivně rekonfigurovat vstupní data tak, aby byla maximalizována kompatibilita s požadovanými výstupními formáty videa.^[5]^[6]

Proces generování videa

Proces generování videa Sora zahrnuje tři hlavní kroky:

Komprimace zdrojového videa do reprezentace latentního prostoru, což zachytává interní vlastnosti dat. Tento vysoce dimenzionální prostor je využíván k abstrakci videodat, umožňující AI efektivněji manipulovat s složitými vzory v datech a generovat detailní video výstupy vysoké kvality.^[5]
Po kompresi se tokenizovaná latentní reprezentace videa zpracovává pomocí Vision Transformer (ViT). Tento krok zlepšuje čistotu videa odstraněním šumu z abstraktní reprezentace.^[7]
Nakonec Sora využívá mechanismus CLIP^[8] (Contrastive Language–Image Pre-training), který umožňuje porozumět a aplikovat textové popisy poskytnuté uživateli.^[8] Tyto popisy mohou být vylepšeny pomocí velkých jazykových modelů (LLMs) pro větší jasnost a specifičnost a mohou zahrnovat i vizuální podněty.^[zdroj?] To řídí difúzní model při vytváření videí, která odpovídají požadovaným tématům nebo stylům.^[7]^[9]^[10]

Po opakovaném aplikování kroků odstranění šumu je abstraktní video transformováno do své konečné formy. Toto video je poté dekódováno zpět do standardního video formátu a připraveného k prohlížení.^[2]^[5]

Použití

Aplikace Sora má potenciál pro využití v různých oblastí včetně zábavy, vzdělávání, simulačního tréninku a dalších, kde může vytvářet přizpůsobený video obsah na základě konkrétních textových pokynů^[5], ale v současné době ještě není k dispozici veřejnosti, protože ji vědci zkoumají pro společenskou bezpečnost.^[11]^[12]

Reference

↑ ETECHBLOGCZ. Generative Adversarial Networks (GAN): Úvod [online]. 2022-08-16 [cit. 2024-04-01]. Dostupné online.
↑ ^a ^b Sora: A Review on Background, Technology, Limitations, and Opportunities of Large Vision Models. arxiv.org [online]. [cit. 2024-04-01]. Dostupné online.
↑ Texture Synthesis by Non-parametric Sampling [online]. [cit. 2024-01-04]. Dostupné online.
↑ Generative Adversarial Networks [online]. [cit. 2024-01-04]. Dostupné online.
↑ ^a ^b ^c ^d Video generation models as world simulators. openai.com [online]. [cit. 2024-04-01]. Dostupné online. (anglicky)
↑ Sora: OpenAI's Next-Generation Text-to-Video AI Tool. cybergen.com [online]. [cit. 2024-04-01]. Dostupné online. (anglicky)
↑ ^a ^b GOU, Tom. Techniques behind OpenAI Sora [online]. 2024-02-21 [cit. 2024-04-01]. Dostupné online. (anglicky)
↑ ^a ^b ZHOU, Jinghao; DONG, Li; GAN, Zhe. Non-Contrastive Learning Meets Language-Image Pre-Training. In: 2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). [s.l.]: IEEE, 2023-06. Dostupné online. doi:10.1109/cvpr52729.2023.01061.
↑ Large language model. [s.l.]: [s.n.] Dostupné online. (anglicky) Page Version ID: 1216626260.
↑ Learning Transferable Visual Models From Natural Language Supervision [online]. [cit. 2024-04-01]. Dostupné online.
↑ Sora: Creating video from text. openai.com [online]. [cit. 2024-04-01]. Dostupné online. (anglicky)
↑ OpenAI Unveils A.I. That Instantly Generates Eye-Popping Videos. www.nytimes.com [online]. [cit. 01.04.2024]. Dostupné online.

[1] ETECHBLOGCZ. Generative Adversarial Networks (GAN): Úvod [online]. 2022-08-16 [cit. 2024-04-01]. Dostupné online.

[Nejmenovaný-20241209205401-2] Sora: A Review on Background, Technology, Limitations, and Opportunities of Large Vision Models. arxiv.org [online]. [cit. 2024-04-01]. Dostupné online.

[3] Texture Synthesis by Non-parametric Sampling [online]. [cit. 2024-01-04]. Dostupné online.

[4] Generative Adversarial Networks [online]. [cit. 2024-01-04]. Dostupné online.

[:0-5] Video generation models as world simulators. openai.com [online]. [cit. 2024-04-01]. Dostupné online. (anglicky)

[6] Sora: OpenAI's Next-Generation Text-to-Video AI Tool. cybergen.com [online]. [cit. 2024-04-01]. Dostupné online. (anglicky)

[:1-7] GOU, Tom. Techniques behind OpenAI Sora [online]. 2024-02-21 [cit. 2024-04-01]. Dostupné online. (anglicky)

[Nejmenovaný_2-20241209205401-8] ZHOU, Jinghao; DONG, Li; GAN, Zhe. Non-Contrastive Learning Meets Language-Image Pre-Training. In: 2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). [s.l.]: IEEE, 2023-06. Dostupné online. doi:10.1109/cvpr52729.2023.01061.

[9] Large language model. [s.l.]: [s.n.] Dostupné online. (anglicky) Page Version ID: 1216626260.

[10] Learning Transferable Visual Models From Natural Language Supervision [online]. [cit. 2024-04-01]. Dostupné online.

[11] Sora: Creating video from text. openai.com [online]. [cit. 2024-04-01]. Dostupné online. (anglicky)

[12] OpenAI Unveils A.I. That Instantly Generates Eye-Popping Videos. www.nytimes.com [online]. [cit. 01.04.2024]. Dostupné online.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]