سورا(Sora) هو نموذج تحويل النص إلى فيديو من قبل شركة أوبن أيه آي(OpenAI). يمكنه إنشاء مقاطع فيديو بناءً على نص الوصفية بالإضافة إلى تمديد الزمن في مقاطع الفيديو للأمام أو للخلف.[2][3] اعتبارًا من فبراير 2024، ما يزال غير متاحًا للجمهور بعد.[4]
تاريخ
تم إنشاء العديد من نماذج تحويل النص إلى فيديو قبل سورا، بما في ذلك نموذج قم-بصناعة-فيديو (make-A-Video) من شركة ميتا، جين-٢ من شركة رنوي (Runway)، ولومير من غوغل الذي لا يزال في مرحلة البحث.[5][6] أصدرت أوبن أيه آي نموذج دال-إي (DALL-E) ٣، وهو النموذج الثالث من نماذج DALL-E لتحويل النص إلى صورة، في سبتمبر 2023.[7]
أطلق الفريق المطوّر اسم سورا على النموذج والذي يعني السماء باليابانية للدلالة على "إمكانات الإبداعية للنموذج اللامحدودة".[8] في 15 فبراير 2024، قامت أوبن أيه آي بعرض سورا لأول مرة من خلال إصدار مقاطع عالية الوضوح التي أنشئها النموذج، بما في ذلك سيارة دفع رباعي تسير على طريق جبلي، ورسوم متحركة لـ "وحش قصير زغبي" بجوار شمعة، وشخصين يسيران عبر طوكيو في الثلج، ولقطات تاريخية مزيفة لحمى الذهب في كاليفورنيا، وذكرت أنها كانت قادرة على إنتاج مقاطع فيديو تصل مدتها إلى دقيقة واحدة.[9][10] ثم شاركت الشركة تقريرًا فنيًا يسلط الضوء على الأساليب المستخدمة لتدريب النموذج. [11][12] كما نشر سام ألتمان، الرئيس التنفيذي لشركة أوبن أيه آي، سلسلة من التغريدات، ردًا على نصوص مستخدمي تويتر مقاطع فيديو أنشأها سورا.
ذكرت أوبن أي آيه أنها تخطط لإتاحة سورا للعموم ولكن لن يكون ذلك قريبًا؛ ولم يحدد متى. [9][13] أتاحت الشركة وصولًا محدودًا إلى " فريق أحمر" صغير، يضم خبراء في المعلومات المضللة والتحيز، لإجراء اختبار الخصومة على النموذج.[14] كما سمحت الشركة لمجموعة صغيرة من المحترفين المبدعين، بما في ذلك صانعي الفيديو والفنانين، للحصول على آراء حول فائدته في المجالات الإبداعية. [15]
القدرات والقيود
التكنولوجيا وراء سوا هي تعديل للتكنولوجيا وراء دال أي 3. وفقًا لـ أوبن أي آيه، فإن سورا هو محول انتشار[16] وهو نموذج انتشار كامن لتقليل الضوضاء مع محول واحد باعتباره مزيل الضوضاء. يتم إنشاء الفيديو في مساحة كامنة عن طريق تقليل التشويش ثلاثي الأبعاد، ثم يتم تحويله إلى مساحة قياسية من خلال إلغاء ضغط الفيديو. يتم إعادة التسميات لزيادة بيانات التدريب، باستخدام نموذج تحويل الفيديو إلى نص لإنشاء تسميات توضيحية مفصّلة على مقاطع الفيديو.[17]
قامت أوبن أي آيه بتدريب النموذج باستخدام مقاطع الفيديو المتاحة للعموم بالإضافة إلى مقاطع الفيديو المحمية بحقوق الطبع والنشر المرخصة لهذا الغرض، لكنها لم تكشف عن عدد مقاطع الفيديو أو مصدرها الدقيق.[8] عند إطلاقه، اعترفت أوبن أيه آي ببعض عيوب سورا، بما في ذلك معاناة النموذج لمحاكاة الفيزياء المعقدة، ولفهم السببية، والتمييز بين اليسار واليمين.[18] ذكرت أوبن أي آيه أيضًا أنه، التزامًا بممارسات السلامة الحالية للشركة، سوف تقوم سورا بتقييد المطالبات النصية للصور الجنسية أو العنيفة أو التي تحض على الكراهية أو صور المشاهير، بالإضافة إلى المحتوى الذي يعرض ملكية فكرية موجودة مسبقًا.[14]
صرح تيم بروكس، الباحث الذي عمل على سورا، أن النموذج اكتشف كيفية إنشاء رسومات ثلاثية الأبعاد من البيانات الخاصة به وحده، بينما قال بيل بيبلز، وهو أيضًا باحث يعمل على سورا، إن النموذج أنشأ تلقائيًا زوايا فيديو مختلفة دون أن يُطلب منه ذلك.[9] وفقًا لـ أوبن أيه آي، يتم تمييز مقاطع الفيديو التي تم إنشاؤها بواسطة سورا ببيانات تعريف C2PA للإشارة إلى أنها تم إنشاؤها بواسطة الذكاء الاصطناعي. [8]
الاستقبال
وصف ويل دوغلاس هيفين من مجلة MIT Technology Review مقاطع الفيديو التوضيحية بأنها "مثيرة للإعجاب"، لكنه أشار أيضاً إلى أنها بالتأكيد منتقاة بعناية وقد لا تمثل مخرجات سورا النموذجية.[19] بينما أعرب الأكاديمي الأمريكي أورين إتزيوني عن مخاوفه بشأن قدرة التكنولوجيا على خلق معلومات مضللة للحملات السياسية[8] كتب ستيفن ليفي لمجلة Wired بالمثل أنه من المحتمل أن يخلق "قطار معلومات مضللة" ورأى أن المقاطع كانت "مثيرة للإعجاب" ولكنها "ليست مثالية" وأنها "تُظهر فهمًا ناشئًا للقواعد السينمائية". وذلك بسبب تغييرات اللقطة غير المتوقعة. وأضاف ليفي: "سيمر وقت طويل جدًا، هذا إن حدث، قبل أن يهدد نموذج تحويل النص إلى فيديو صناعة الأفلام الفعلية."[9] أما ليزا لاسي من موقع CNET فقد وصفت مقاطع الفيديو بأنها "واقعية بصورة ملحوظة - باستثناء ربما عندما يظهر وجه بشري عن قرب أو عندما تسبح الكائنات البحرية".[14]
^Brooks، Tim؛ Peebles، Bill؛ Holmes، Connor؛ DePue، Will؛ Guo، Yufei؛ Jing، Li؛ Schnurr، David؛ Taylor، Joe؛ Luhman، Troy (15 فبراير 2024). "Video generation models as world simulators". أوبن أيه آي. مؤرشف من الأصل في 2024-02-16. اطلع عليه بتاريخ 2024-02-16.