Sora je generativní text-to-video AI model, vydaný společností OpenAI v únoru 2024. Sora je schopna vytvořit filmy z textových pokynů pomocí kombinace AI technologií: pokročilých NLP modelů, GAN,[1] VQ-VAE, sémantických a kontextových modelů, technik pro syntézu videa a animací, a metod posíleného učení pro tvorbu videí z textových pokynů.[2][3][4]
Sora je architektura založená na nejnovější generaci difúzních transformátorů. Začíná proces s inicializačním šumem a postupně provádí sérii úprav, aby dosáhla přesného cílového videa. Významným prvkem této technologie je implementace adaptivního vzorkování, které umožňuje modelu Sora dynamicky se přizpůsobit a optimalizovat pro různé kodeky, rozlišení a poměry videa. To je dosaženo pomocí pokročilého algoritmického řešení, které umožňují měnit úroveň podrobnosti ve procesu výběru vzorků a efektivně rekonfigurovat vstupní data tak, aby byla maximalizována kompatibilita s požadovanými výstupními formáty videa.[5][6]
Proces generování videa Sora zahrnuje tři hlavní kroky:
Po opakovaném aplikování kroků odstranění šumu je abstraktní video transformováno do své konečné formy. Toto video je poté dekódováno zpět do standardního video formátu a připraveného k prohlížení.[2][5]
Aplikace Sora má potenciál pro využití v různých oblastí včetně zábavy, vzdělávání, simulačního tréninku a dalších, kde může vytvářet přizpůsobený video obsah na základě konkrétních textových pokynů[5], ale v současné době ještě není k dispozici veřejnosti, protože ji vědci zkoumají pro společenskou bezpečnost.[11][12]