تعويض الحركة

صورة من موجه كتلة إم بيه إي جي يظهر الكتلة التي تنتقل من إطار إلى آخر على شكل أسهم بيضاء ، مما يجعل حركات الأنظمة الأساسية المختلفة والشخصية المرئية بوضوح.

تعويض الحركة هو عبارة عن تقنية تستخدم للتوقع بإطار الفيديو عن طريق النظر إلى الإطارات السابقة أو عن طريق الإطارات المستقبلية من خلال حساب حركة الكاميرا أو بحساب الأجسام الموجوده في الفيديو حيث يتم أستخدامه في تشفير بيانات الفيديو حتى يضغط الفيديو ومثال على هذا هو ملفات إم بي إي جي2 ومن وظائف موجه الحركة وصف الصورة بتحويلها من صورة مرجعية إلى صورة معتمدة وقد تكون الصورة المرجعية التقطت في وقت مناسب فتصبح معتمدة ويكون ذلك بناءً على تركيب الصورة بدقة من الصور المنقولة أو المخزنه السابقة حيث يمكن أن تتحسن كفاءة الضغط.

نبذة

موجه الحركة هو أحد تقنيتي ضغط الفيديو الرئيسيتين المستخدمتين في معايير تشفير الفيديو بجانب تحويل جيب التمام المتقطع (دي سي تي) تستخدم معظم معايير تشفير الفيديو تنسيقات إتش.26إكس وإم بي إي جي عادة ما يكون تشفير دي سي تي الهجين هوموجه الحركة [1][2] المعروف باسم موجه كتلة الحركة (بي أم سي) أو موجه لحركة (إم سي دي سي تي).

الوظائف

يستغل موجه الحركة حقيقة أنه في كثير من الأحيان نسبةً إلى العديد من إطارات الفيلم يكون الاختلاف الوحيد بين إطار وأخر هو نتيجة إما تحرك الكاميرا أو تحرك جسم ما في الإطار ويكون هذا بالإشارة إلى ملف الفيديو وهذا يعني أن الكثير من المعلومات التي تمثل إطارًا واحدًا ستكون هي نفسها المعلومات المستخدمة في الإطار التالي.

باستخدام موجه الحركة سيحتوي تدفق الفيديوعلى بعض الإطارت (المرجعية) الكاملة ثم تكون المعلومات الوحيدة المخزنة للإطارات الموجودة بينهما هي المعلومات اللازمة لتحويل الإطار السابق إلى الإطار التالي.

مثال توضيحي

وهذا شرح مبسط على كيفية عمل موجه الحركة حيث أنه قد تم التقاط إطارين متتالين من فيلم أحلام الفيلة كما هو واضح من الصور فإن الصورة التي في إسفل (حيث يوجد موجه الحركة) تحتوي على تفاصيل أقل بكثير من الصورتين الأخرى وبالتي سيتم ضغطها بشكل أفضل بكثير من البقية فإن المعلومات المطلوبة لتشفير الإطار المعوض ستكون أصغر بكثير مما هي عليه مع الإطار وهذا يعني أنه من الممكن أيضًأ تشفير المعلومات بستخدام صورة تختلف وبتكلفة أقل من كفاءة الضغط ولكن عن طريق توفير تعقيد التفشير بدون تشفير موجه الحركة وفي الواقع يحتل ترميز موجه الحركة (جنبًا إلى جنب مع تقدير اتجاه الحركة وموجه الحركة) أكثر من 90٪ من تعقيد التشفير.

النوع إمثلة على إطار الوصف
إبداعي </img> الإطارالأصلي الكامل، كما هو موضح على الشاشة.
الفروق </img> الاختلافات بين الإطار الأصلي والإطار التالي.
فرق معوضات الحركة </img> تم إزاحة الاختلافات بين الإطار الأصلي والإطار التالي إلى اليمين بمقدار 2 بكسل ويؤدي تغيير الإطار إلى تعويض تحريك الكاميرا، وبالتالي يكون هناك تداخل أكبر بين الإطارين.

إم بي إي جي

يحتوي إم بي إي جي على توقع الصور من إلإطارت السابقة (الإطار بيه) وعلى ثنائي الاتجاه من الإطارات السابقة والمستقبلي (إطارات <i id="mwdw">ب</i>) وإطار بي هو أكثر تعقيدًا لأنه يرسل تسلسل الصور وتخزينها خارج الترتيب بحيث يكون الإطار المستقبلي متاحًا لإنشاء أطار بي.[3]

و بعد أن يتم توقع إلإطارات باستخدام موجه الحركة يجد المبرمج المتبقية ثم يتم ضغطها ونقلها.

موجه الحركة العالمي

موجه الحركة العالمي يعكس نموذج الحركة بشكل أساسي حركات الكامير مثل:

  • العربة - تحرك الكاميرا للأمام أو للخلف
  • المسار - تحرك الكاميرا يسارًا أو يمينًا
  • بوم - يحرك الكاميرا لأعلى أو لأسفل
  • بئن - القيم بتدوير الكاميرا حول محورها العمودي، مع تحريك المنظر يسارًا أو يمينًا
  • الإمالة - القيم بتدوير الكاميرا حول محورها الأفقي، لتحريك العرض لأعلى أو لأسفل
  • اللف - تدوير الكاميرا حول محور الرؤية

تعمل بشكل أفضل مع المشاهد الثابتة بدون تحريك الأجسام.

هناك عدة مزايا موجه الحركة العالمي:

  • صوغة الحرة السائدة التي توجد عادة في تسلسلات الفيديو مع عدد قليل من البرامترات حصة معدل البت الموجوده في البرامترات لا تذكر.
  • لا تقسم الإطارات مما يمكنها من تجنب أثار القطع الموجودة على الحد المنقسم.
  • يتوافق في خط المستقيم (في الاتجاه الزمني) الخاص بوحدات البكسل ذات المواضع المكانية المتساوية في الإطار مع النقطة المتحركة باستمرار في المشهد الحقيقي وتقدم مخططات أم سي الأخرى انقطاعات في اتجاه الوقت.

إم بي إي جي-4 إي اس بيه يدعم جي إم سي في ثلاثة نقاط مرجعية على الرغم من أن بعض التطبيقات يمكن أن تستخدم مرة واحدة فقط وتسمح النقطة مرجعية الواحدة فقط بالحركة المتعدية التي توفر ميزة قليلة مقارنةً بالتعويضات القائمة على الكتلة مقابل الأداء الكبير نسبيًا.

لا يتم تمثيل الكائنات المتحركة داخل الإطار بشكل كافً من خلال تعويض الحركة الشاملة وباتالي هناك حاجة أيضًا إلى تقدير تقديراتجاه الحركة.

موجه الحركة دي سي تي

توجيه كتلة الحركة

توجيه كتلة حركة (إم بي إي جي) المعروف أيضاً باسم تحويل جيب التمام المتقطع الموجه بالحركة (أم سي دي سي تي) هو أكثر التقنيات توجيه الحركة الكتلة أستخداماً [2] ويتم تقسيم الإطارات في كتل البكسل (مثل كتل ماكرو 16 × 16 بكسل في إم بي إي جي) يتم توقع كل قدرة من الكتلة المتساوية الحجم في الإطار المرجعي ولا يتم تحويل هذه الكتل بأي شكل من الأشكال بصرف النظر عن نقلها إلى موضع الكتلة المتوقعة حيث يتم تمثيل هذا التحول بواسطة ناقل الحركة.

ولاستغلال التكرار بين متجهات الكتل المجاورة (على سبيل المثال الجسم المتحرك الواحد المغطى بكتل متعددة) من الشائع تشفير الفرق فقط بين متجه الحركة الحالي والسابق في تدفق البت وكانت النتيجة العملية هي التكافئ رياضيًا لموجه الحركة الشامل القادرعلى التحريك وعلاوة على ذلك أسفل خط أنابيب التشفير كما أن سيستفيد مشفر الإنتروبيا من التوزيع الإحصائي الناتج لموجه الحركة حول المتجه الصفري لتقليل حجم الإخراج.

كما من الممكن إزاحة الكتلة بعدد غير صحيح من البكسل وهو ما يسمى دقة البكسل الفرعي إزاحة كتل حيث يتم إنشاء البيكسلات البينية عن طريق إقحام وحدات البكسل المجاورة وبشكل عام يتم استخدام دقة نصف البكسل أو ربع البكسل (عن طريق Qpelالذي يستخدم أتش.264 وإم بي إي جي-4 إي اس بيه) التكلفة الحسابية لدقة البكسل الفرعي أعلى بكثير بسبب المعالجة الإضافية المطلوبة للاستيفاء وعلى جانب التشفير يجب تقييم عدد أكبر بكثير من كتل المصدر المحتملة.

العيب الرئيسي والحقيقي لموجه الحركة يكمن في أنه يقدم انقطاعات عند حدود الكتلة (أثار تقطعية). تظهرهذه أثار التقطعية في شكل حواف أفقية ورأسية حادة يمكن رؤيتها بسهولة بالعين البشرية وتنتج حوافاً زائفة وتأثيرات تشبه الرنين (معاملات كبيرة في نطاقات فرعية عالية التردد) تحدث بسبب تكميم معاملات التحويل المرتبطه بفورييه المستخدم في تحويل ترميز في الإطارات المتبقية [4]

توجيه كتلة الحركة تصل الإطار الحالي إلى كتل غير متداخلة كما أن ناقلات توجيه الكتلة المتحركة تعرف من أين تإتي تلك المتل (هناك أعتقاد خاطئ بأن الإطار السابق تنقسم إلى كتل غير مدرجة وأن ناقلات توجيه كتلة الحركة تعلم إين تذهب تلك الكتل) تتداخل كتل المصدر عادةً في الإطار المصدر كما أنه تجمع بعض خوارزميات ضغط الفيديو الإطار الحالي من أجزاء من عدة إطارات مختلفة تم إرسالها مسبقًا.

من الممكن أيضاً توقع الإطارات من الإطارات المستقبلية حيثُ يجب بعد ذلك تشفير الإطارات المستقبلية قبل الإطارات المتوقعة وبالتالي لا يتطابق ترتيب التشفير بالضرورة مع ترتيب الإطارات الحقيقي وعادةً ما يتم توقع مثل هذه الإطارات من أتجاهين بمعنى من الإطارات أي إلى الإطارات بيه التي تسبق أو تتبع الإطار المتوقع مباشرة تسمى هذه الإطارات المتوقعة ثانئية الاتجاه إطارات <i id="mwdw">ب</i> يمكن أن يكون مخطط الترميز على سبيل المثال IBBPBBPBBPBB.

و قد تم أيضاً اقتراح استخدام رقاقة ثلاثيه توجيه الحركة بموجب هذا على غرار هذا المخطط (يتم تجنب الإطار بمثلثات) ويتم إنشاء الإطار التالي عن طريق إجراء تحويل أفيني على هذه المثلثات [5] كما يتم تسجيل / إرسال التحويلات الأفينية فقط وبهذا تكون هناك قدرة على التعامل مع التكبير والتناوب والترجمة وما إلى ذلك.

الموجه تغير حجم الكتلة

موجه تغير حجم الكتلة (ڤي بي اس أم سي) هو أستخدم لي بي أم سي مع القدرة المشفرة على تحديد حجم الكتلة الديناميكيا حيث أنه عند تشفير الفيديو يمكن أن يؤدي استخدام الكتل الأكبر إلى تقليل عدد البتات اللازمة لتمثيل موجه الحركة بينما يمكن أن يؤدي استخدام الكتل الأصغر إلى كمية أقل من معللومات التنبؤ المتبقية للتشفير كما أن مجالات العمل الأخرى تستخدم مقاييس الميزات ذات الشكل المتغير خارج حدود الكتلة والتي يمكن من خلالها حساب متجهات غلإطارات البينية [6] وعادةً ما تستخدم التصميمات القديمة مثل فيديو أتش.261 ومبيج-1 حجم كتلة ثابت بينما تعطي التصميمات الأحدث مثل أتش.263 وأم بيه أي جي -4 الجزء 2 وأتش.264 / أم بيه أي جي -4 أي في سي وفي سي-1 المشفر القدرة على الاختيار الديناميكي لحجم الكتلة الذي سيتم استخدامه لتمثيل الحركة.

موجه حركة الكتلة المتراكبة

يعد موجه حركة الكتل المتراكبة (أو بي أم سي) حلاً جيداً لهذه المشكلات لأنه لا يزيد من دقة التنبؤ فحسب بل يتجنب أيضًا حجب أثار القطع وعند استخدام أو بي أم سي عادةً ما تكون الكتل أكبر بمرتين في كل بُعد وتتداخل مع كل الكتل الثامنية المجاورة وبتالي ينتمي كل بكسل إلى 4 كتل في مثل هذا التخطيط هناك 4 تنبؤات لكل بكسل والتي يتم تلخيصها في المتوسط المرجح ولهذا الغرض ترتبط الكتل بوظيفة نافذة لها خاصية أن مجموع 4 نوافذ متداخلة يساوي 1 في كل مكان.

أظهرت دراسات تهدف إلى تقليل تعقيد أو بي أم سي إلى أن المساهمة في وظيفة النافذة هي الأصغر بالنسبة لللكتلة المجاورة قطريًا حيث يؤدي تقليل وزن هذه المساهمة إلى الصفر وزيادة الأوزان الأخرى بمقدار مساوي تقليل كبير في التعقيد دون عقوبة كبيرة في الجودة في مثل هذا المخطط ينتمي كل بكسل بعد ذلك إلى 3 كتل بدلاًمن4 وبدلاً من استخدام 8 كتل مجاورة يتم استخدام 4 فقط لكل كتلة يتم تعويضها وقد تم العثور على مثل هذا المخطط في أتش.263 Annex F الخاص بوضع التنبؤ المتقدم.

موجه الحركة بمقدار ربع بكسل (QPel) ونصف بكسل

تكون في موجه الحركة أربع أو أنصف عينات هي في الواقع عيان فرعية مُقحمة ناتجة عن موجه الحركة الجزئي واستنادًا الموجهات والعينات الكاملة يمكن حساب العينات الفرعية باستخدام التصفية ثنائية الأبعاد راجع الشكل 8.4.2.2 «عملية الاستيفاء الجزئي للعينة» لمعيار أتش.264.

تقنيات ترميز الصور ثلاثية الأبعاد

يتم استخدام موجه الحركة في ترميز الفيديو المجسم

غالباً في الفيديو يعتبر الوقت هو البعد الثالث ومع ذلك مع توسع تقنيات التشفير أصبح هناك لصور الثابتة بُعد إضافي.

يستخدم جاي بي أي جي الموجات ويمكنه أيضاً تشفير الحركة بدون فجوات بين الكتل بطريقة تكيفية بحيث تؤدي التحولات تألفية للبكسل إلى حدوث نزيف بين وحدات البكسل المتجاورة إذا لم يتم استخدام دقة داخلية اعلى فإن الصور دالتا في الغالب تقاوم الصورة الباهتة ويمكن أيضاً ترميز صورة دالتا على شكل موجات بحيث تتطابق حددود الكتل التكيفية.

تستخدم تقنيات التشفير دالتا +2D التشفير المتوافق مع 264.أتش وإم بي إي جي-2 ويمكنها استخدام موجه الحركة للضغط بين الصور المجسمة.

التاريخ

يعود تاريخ مفهوم موجه الحركة إلى عام 1929 وذلك عندما اقتراح أر دي كيل المتوجد في بريطانيا مفهوم نقل أجزاء من مشهدد فيديو تمثيلي التي تغيرت إطارته من إطار إلى إطار فقط ويعدو مفهوم موجه الحركة بين الإطارات إلى عام 1959 وذلك عندما اقترحو باحثو هيئة الإذاعة اليابانية واي.تكي وأم.هاتوري وإس.تاناكا تشفير الفيديو التنبوئي بين الإطارات في البعد الزمني.[7]

موجه الحركة دي سي تي

أصبح ضغط الفيديو موجه بالحركة العمالي ممكننا من خلال تطوير ترميز تحويل جيب التمام المتقطع (إم سي دي سي تي)[8] كما يسمى أيضاً موجه حركة الكتلة (بي أم سي) أو موجه الحركة (دي سي تي) حيث أن هذه خورزمية هجينة [7] كما أنه يجمع بين تقنيتين أساسيتين لضغط البيانات وهما تحويل جيب التمام المنفصل (دي سي تي) لتشفير في البعد المكاني وموجه الحركة التنبؤية في البعد الزمني حيث أن ترميز دي سي تي هو تقنية تحويل الترميز ضغط الفقد وقد تم اقتراحها لأول مرة من قبل ناصر أحمد وكان المقصد منها لضغط الصورة في عام 1972.[9]

و في عام 1974 قدم علي حبيبي من جامعة جنوب كاليفورنيا الترميز الهجين [10][11] الذي يجمع بين الترميز التنبئي والترميز التحويلي [7][12] ومع ذلك اقتصرت الخوارزمية في البداية على التشفيرإطار داخلي في البعد المكاني وفي عام 1975 قام جون أ.رويس وجونر أس. روبنسون بتوسيع خوارزمية حبيبي للتشفير الهجين إلى البعد الزمني باستخدام تحويل الترميز في البعد المكاني وتشفير التنبئي في البعد الزمني وتطوير إطار داخلي لموجه الحركة [13] وإما بنسبة إلى التحويل المكاني فقد جربو دي سي تي وتحويل فورييه السريع حيث قد طوروا مشفرات هجينه بين الإطارات لكليهما ووجدوا أن دي سي تي هو الأكثر كفاءة نظرًا لتقليل تعقيده وهو قادر على ضغط بيانات الصورة لأسفل ل0.25- بت في بكسل لمهاتفة الفيديوية المشهد مع جودة صورة مماثلة إلى داخل الإطار المبرمج تتطلب 2 بت لكل بكسل.[14]

و في عام 19977 طور وين هسيونغ تشن خوارزمية دي سي تي مع سي.أتش سميث وأس.سي.فراليك [15] كما في عام 1979 قام أنيل ك.جاين وجاسوانت أر.جين بتطوير ضغطالفيديو دي سي تي موجه الحركة [7][16] ويسمى أيضاً موجه جركة الكتلة حيث إدى ذلك إلى قيام تشين بتطوير خوارزمية عملية لضغط الفيديو تسمى دي سي تي موجه الحركة أو ترميز المشهد التكيفي في عام 1981 حيث أصبح دي سي تي موجه الحركة فيما بعد تقنية التشفير القياسية لضغط الفيديو من أواخر الثمانينيات فصاعداً [17][18]

كان أول معيار لترميز الفيديو الرقمي هو أتش.120 الذي تم تطويره من سي سي أي تي تي (المعروف الآن-أي تي يو) في عام 1984 [19] كما قد استخدمت أتش.120 في تشفير دي بي سي أم موجه الحركة [7] والذي كان غير فعال للتشفير الفيديوي [17] وبالتالي كان أتش.120غيرعملي بسبب الأداء المنخفض وتم تطوير معيار أتش.261 في عام 1988 بنائً على ضغط دي سي تي موجه الحركة [2] وكان أول معيار عملي لترميز الفيديو منذ ذلك الحين تم اعتماد ضغط دي سي تي موجه الحركة قبل جميع معايير تشفير الفيديو الرئيسية (بما في ذلك تنسيقات أتش.26أكس وإم بي إي جي) التي تلت ذلك.

انظر أيضًا

  • تقدير الحركة
  • ثبات الصورة
  • إطار إنتر
  • HDTV طمس
  • تحويل معايير التلفزيون
  • فيدفير
  • تعويض حركة الفيديو أكس.

التطبيقات

مراجع

  1. ^ Chen، Jie؛ Koc، Ut-Va؛ Liu، KJ Ray (2001). Design of Digital Video Coding Systems: A Complete Compressed Domain Approach. سي آر سي بريس. ص. 71. ISBN:9780203904183. مؤرشف من الأصل في 2021-04-12.
  2. ^ ا ب ج Li، Jian Ping (2006). Proceedings of the International Computer Conference 2006 on Wavelet Active Media Technology and Information Processing: Chongqing, China, 29-31 August 2006. World Scientific. ص. 847. ISBN:9789812709998. مؤرشف من الأصل في 2020-09-28.
  3. ^ berkeley.edu - Why do some people hate B-pictures? نسخة محفوظة 8 مارس 2021 على موقع واي باك مشين.
  4. ^ Zeng, Kai, et al. "Characterizing perceptual artifacts in compressed video streams." IS&T/SPIE Electronic Imaging. International Society for Optics and Photonics, 2014.
  5. ^ Aizawa, Kiyoharu, and Thomas S. Huang. "Model-based image coding advanced video coding techniques for very low bit-rate applications." Proceedings of the IEEE 83.2 (1995): 259-271.
  6. ^ Garnham، Nigel W. (1995). Motion Compensated Video Coding - PhD Thesis. http://eprints.nottingham.ac.uk/13447/1/thesis.pdf: University of Nottingham. OCLC:59633188. {{استشهاد بكتاب}}: روابط خارجية في |مكان= (مساعدة)صيانة الاستشهاد: مكان (link)
  7. ^ ا ب ج د ه "History of Video Compression". قطاع توحيد مقاييس الاتصالات. Joint Video Team (JVT) of ISO/IEC MPEG & ITU-T VCEG (ISO/IEC JTC1/SC29/WG11 and ITU-T SG16 Q.6). يوليو 2002. ص. 11, 24–9, 33, 40–1, 53–6. مؤرشف من الأصل في 2021-03-08. اطلع عليه بتاريخ 2019-11-03.
  8. ^ Lea، William (1994). Video on demand: Research Paper 94/68. 9 May 1994: House of Commons Library. مؤرشف من الأصل في 2019-09-20. اطلع عليه بتاريخ 2019-09-20.{{استشهاد بكتاب}}: صيانة الاستشهاد: مكان (link)
  9. ^ Ahmed، Nasir (يناير 1991). "How I Came Up With the Discrete Cosine Transform". قالب:Ill-WD2Digital Signal Processing. ج. 1 ع. 1: 4–5. DOI:10.1016/1051-2004(91)90086-Z. مؤرشف من الأصل في 2021-03-28.
  10. ^ Habibi، Ali (1974). "Hybrid Coding of Pictorial Data". IEEE Transactions on Communications. ج. 22 ع. 5: 614–624. DOI:10.1109/TCOM.1974.1092258.
  11. ^ Chen، Z.؛ He، T.؛ Jin، X.؛ Wu، F. (2020). "Learning for Video Compression". IEEE Transactions on Circuits and Systems for Video Technology. ج. 30 ع. 2: 566–576. arXiv:1804.09869. DOI:10.1109/TCSVT.2019.2892608.
  12. ^ Ohm، Jens-Rainer (2015). Multimedia Signal Coding and Transmission. Springer. ص. 364. ISBN:9783662466919. مؤرشف من الأصل في 2021-04-14.
  13. ^ Roese، John A.؛ Robinson، Guner S. (30 أكتوبر 1975). "Combined Spatial And Temporal Coding Of Digital Image Sequences". International Society for Optics and Photonics. ج. 0066: 172–181. Bibcode:1975SPIE...66..172R. DOI:10.1117/12.965361.
  14. ^ Huang، T. S. (1981). Image Sequence Analysis. شبغنكا. ص. 29. ISBN:9783642870378. مؤرشف من الأصل في 2020-08-01.
  15. ^ Chen، Wen-Hsiung؛ Smith، C. H.؛ Fralick، S. C. (سبتمبر 1977). "A Fast Computational Algorithm for the Discrete Cosine Transform". IEEE Transactions on Communications. ج. 25 ع. 9: 1004–1009. DOI:10.1109/TCOM.1977.1093941.
  16. ^ Cianci، Philip J. (2014). High Definition Television: The Creation, Development and Implementation of HDTV Technology. McFarland. ص. 63. ISBN:9780786487974. مؤرشف من الأصل في 2020-06-16.
  17. ^ ا ب Ghanbari، Mohammed (2003). Standard Codecs: Image Compression to Advanced Video Coding. جمعية الهندسة والتقنية. ص. 1–2. ISBN:9780852967102. مؤرشف من الأصل في 2020-09-27.
  18. ^ Li، Jian Ping (2006). Proceedings of the International Computer Conference 2006 on Wavelet Active Media Technology and Information Processing: Chongqing, China, 29-31 August 2006. World Scientific. ص. 847. ISBN:9789812709998. مؤرشف من الأصل في 2020-09-28.
  19. ^ "The History of Video File Formats Infographic". ريل نتووركس. 22 أبريل 2012. مؤرشف من الأصل في 2018-06-29. اطلع عليه بتاريخ 2019-08-05.

روابط خارجية