تمديد زمن الصوت وقياس حدته هي عملية تغيير سرعة الإشارة الصوتية أو مدتها دون التأثير على حدتها. قياس الحدة هي العملية المعاكسة: عملية تغيير حدة الإشارة الصوتية دون التأثير على سرعتها. تغيير حدة الصوت هو مقياس لدرجة الصوت مطبق ضمن وحدة التأثيرات ويستخدم أثناء الأداء الحي. التحكم في حدة الصوت هو عملية أبسط مؤثرة على الحدة والسرعة في نفس الوقت من خلال إبطاء التسجيل وتسريعه.[1]
نبذة
غالبًا ما تُستخدم هذه العمليات لمطابقة حدة مقطعين صوتيين مسبقي التسجيل ووتيرتهما من أجل الدمج عند تعذر إعادة تشكيلهما أو أدائهما. غالبًا ما يُستخدم تمديد الزمن لضبط الإعلانات التجارية على الراديووصوت الإعلانات التلفزيونية ليتلاءم تمامًا مع مدة 30 أو 60 ثانية المتاحة. كما يمكن استعماله لمطابقة مواد أطول مع فترة زمنية معينة، مثل البث لمدة ساعة واحدة.[2]
إعادة التشكيل
أسهل الطرق لتغيير مدة مقطع صوتي رقمي هي تحويل معدل العينة. تتمثل في العملية الرياضية التي تعيد بناء شكل الموجة المتواصلة بفعالية من خلال تجميع عيناتها المنفصلة، ثم إعادة تفكيك هذه الموجة إلى عينات بمعدل مختلف. عند تشغيل العينات الجديدة بنفس تردد العينة الأصلية، يبدو مقطع الصوت أسرع أو أبطأ. لسوء الحظ، دائمًا ما تُقاس ترددات العينة بمعدل السرعة نفسه، ما يرفع طبقة الصوت أثناء ذلك أو يخفضها. بعبارة أخرى، يخفض إبطاء التسجيل من حدة الصوت، وتسريعه يؤدي لزيادتها. يتشابه أيضًا مع تسريع التسجيل التناظري أو إبطاءه، مثل تسجيل الشريط أو الفونوغراف، وهو ما ظهر في تأثير السناجب. بالتالي، لا يمكن فصل التأثيرين عند استخدام هذه الطريقة. يمكن تحويل مسار الطبل غير المحتوي على آلات حادة الصوت إلى تردد عينة معتدل الإيقاع دون تأثيرات غير مرغوبة، ولكن لا يمكن تحقيق ذلك في المسار الحاد.
مجال الترددات
مشفر الصوت الطوري
تتمثل إحدى الطرق المستخدمة لإطالة زمن الإشارة دون التأثير على حدتها في بناء مشفر صوتي طوري بعد كل من فلاناغان وغولدن وبورتنوف.[3]
الخطوات الأساسية:
حساب علاقة التردد/ السعة الآنية للإشارة باستخدام تحويلة (STFT)، وهي تحويلة فورييه المتقطعة لمجموعة عينات صغيرة متداخلة قصيرة ومتجانسة.
تطبيق بعض العمليات على مقادير تحويلة فورييه ومراحلها (مثل إعادة تشكيل كتلة FFT).
تنفيذ تحويلة STFT عكسية عبر أخذ تحويلة فورييه العكسية لكل قطعة وإضافة القطع الموجية الناتجة، تسمى أيضًا بالتداخل والإضافة (OLA).
يتعامل مشفر الصوت المرحلي جيدًا مع المكونات الجيبية، ولكن سببت التطبيقات السابقة تشويشًا واضحًا على أشكال الموجات العابرة «النبض» في مختلف معدلات التمديد الصوتي والضغط غير الصحيحة، ما أدى لجعل النتائج طورية ومنتشرة. تسمح التحسينات الأخيرة بالحصول على نتائج ذات جودة أعلى في جميع معدلات الضغط والتمديد الصوتي، لكن ما يزال أثر التشويش موجود.
يمكن استخدام تقنية مشفر الصوت الطوري لتنفيذ كل من تحويل النغمات والتنسيق والتلاعب بالصوت والملاءمة والتعديلات الجديدة الأخرى، ويمكن تغييرها جميعًا كدالة للوقت.
النمذجة الطيفية الجيبية
تعتمد طريقة أخرى من طرق تمديد الزمن على نموذج الإشارة الطيفي. في هذه الطريقة، تُحدد القمم ضمن إطارات باستخدام تحويلة STFT للإشارة، وتُشكل «المسارات» الجيبية عبر وصل القمم الموجودة ضمن الإطارات المتجاورة. يُعاد تصنيع المسارات بعدها على نطاق زمني جديد. تحقق هذه الطريقة نتائج جيدة لكل من أجهزة القرع والنغمات، خصوصًا عند فصل الإشارة إلى نطاقات فرعية. مع ذلك، تحتاج هذه الطريقة إلى حسابات أكثر مقارنة بغيرها من الطرق.
نطاق الزمن
سولا
طرح رابنر وشافر في عام 1978 حلًا بديلًا يعمل في نطاق الزمن: محاولة معرفة فترة (أو التردد الأساسي المكافئ) جزء معين من الموجة باستخدام خوارزمية كشف حدة الصوت (عادةً ذروة الترابط التلقائي للإشارة أو معالجة سيبسترال)، وتلاشي إحداها ضمن الأخرى.[5]
وهو ما يُعرف باسم المقياس التوافقي للنطاق الزمني أو طريقة إضافة التداخل المتجانس (SOLA) التي تعمل بشكل أسرع نوعًا ما من مشفر الصوت الطوري على الآلات البطيئة، ولكنها قد تفشل في حال عدم قدرة الترابط التلقائي على تحديد فترة الإشارة ذات النغمات التوافقية المعقدة (مثل مجموعة الأوركسترا).
يبدو أن أدوبي أدوبشن (المعروف سابقًا باسم Cool Edit Pro) قادر على حل ذلك من خلال تحديد الفترة الأقرب إلى الفترة المركزية المحددة من قبل المستخدم، التي يجب أن تكون عددًا صحيحًا مضاعفًا للإيقاع، يتراوح ما بين أدنى تردد جهير و30 هرتز.
يعد هذا نطاقًا أكثر محدودية بكثير من المعالجة المعتمدة على تشفير الصوت الطوري، ولكن يمكن جعله أقل شدة للمعالج، من أجل التطبيقات ذات الوقت الحقيقي. يؤمن هذا أكثر النتائج ترابطًا للأصوات وحيدة النغمة مثل الصوت أو تسجيلات الآلات الموسيقية الفردية.
قد تجمع حزم المعالجة الصوتية التجارية المتطورة ما بين تقنيتين (مثل فصل الإشارة إلى موجتين إحداهما انتقالية والأخرى جيبية)، أو تستخدم تقنيات أخرى معتمدة على تحويل المويجة، أو معالجة الشبكة العصبية الاصطناعية، مشكلًا أعلى امتدادات الزمن جودةً.
النهج القائم على الإطار
من أجل الحفاظ على حدة الإشارة عند تمديد مدتها أو ضغطها، تتبع العديد من إجراءات تعديل النطاق الزمني (TSM) نهجًا قائمًا على الإطار. بالنظر إلى الإشارة الصوتية الأساسية المنفصلة زمنيًا، تعد أولى خطوات هذه الاستراتيجية هي فصل الإشارة الصوتية إلى إطارات تحليلية ذات طول ثابت. تُباعد الإطارات التحليلية بعدد ثابت من العينات، وتُدعى حجم تحليل العينة (Ha ∈ N). للوصول إلى تعديل النطاق الزمني الفعلي، تُغير بعد ذلك أماكن إطارات التحليل مؤقتًا للحصول على حجم عينة التوليف (Hs ∈ N). يؤدي هذا النقل للإطار إلى تعديل مدة الإشارة عبر عامل التمديد α= Hs / Ha. مع ذلك، يكفي تراكب الإطارات التحليلية غير المعدلة لإحداث نتائج غير مرغوبة مثل انقطاع الطور أو تقلب السعة.
فإن مجرد تراكب إطارات التحليل غير المعدلة يؤدي عادةً إلى نتائج غير مرغوب فيها مثل انقطاع الطور أو تقلبات السعة. للحد من هذا النوع من الآثار، تُكيّف إطارات التحليل لتشكل إطارات توليفية، قبل إعادتها لبناء للإشارة المعدلة ضمن نطاق الزمن.
تعد إستراتيجية كيفية استخلاص الأطر التوليفية من الأطر التحليلية اختلافًا جوهريًا بين إجراءات TSM المختلفة.
السمع السريع والكلام السريع
من أجل حالة كلام محددة، يمكن تمديد الزمن باستخدام PSOLA.
بينما يتوقع الشخص تقليل التسريع للقدرة على الفهم، يقول هيرب فريدمان "أظهرت الدراسات عمل الدماغ بكفاءة أعلى إذا تلقى المعلومات عبر أذنيه -الكلام- بمعدل بنفس معدل القراءة 'الوسطي'، والذي يبلغ حوالي 200-300 واط في الدقيقة (أي عدد الكلمات في الدقيقة)، ومع ذلك يتراوح معدل الكلام الوسطي ما بين 100-150 كلمة في الدقيقة.
عادةً ما يُعامل تسريع الصوت على أنه مساوٍ لسرعة القراءة.
"محول التردد" المقدم من Bode محول التردد "لا يحافظ على" نسبة التردد والانسجام.
يمكن استخدام هذه الطريقة أيضًا لنقل عينة صوتية مع الحفاظ على سرعتها ومدتها ثابتين. يتحقق ذلك من خلال تمديد الزمن ومن ثم إعادة تشكيل طول الزمن الأساسي. عوضًا عن ذلك، يمكن تغيير تواتر الأمواج الجيبية في النموذج الجيبي مباشرًة، ومن ثم إعادة بناء الإشارة ضمن النطاق الزمني المناسب.
يمكن أن يُدعى التحويل أيضًا بقياس التوتر أو تغيير حدة الصوت، وفقًا للمنظور المتخذ. على سبيل المثال، يمكن للشخص تغيير حدة كل نغمة ورفعها لخمس درجات، مع الحفاظ على نفس الإيقاع. قد يرى الشخص هذا التحويل أنه «تغيير حدة الصوت»، «تغيير» كل نغمة 7 مفاتيح على لوحة البيانو، أو إضافة مقدار ثابت لمقياس ميل، أو إضافة مقدار ثابت إلى مساحات حدة الصوت الخطية. يمكن رؤية نفس التحويل في «قياس التردد»، «قياس» (المضاعفة) تكرار كل نغمة في 2/3. يحافظ النقل الموسيقي على معدل الترددات التوافقية والتي تحدد طابع الصوت، على العكس من إزاحة الترددات التي يمكن إجرائها عبر تعديل سعة الموجة، الأمر الذي يضيف ترددًا ثابتًا معادلًا لتكرار كل نغمة. (نظريًا، يمكن تطبيق مقياس حرفي لحدة الصوت يُقاس فيه مساحة حدة الصوت الموسيقية [تُزاح نغمة أعلى إلى مسافة أكبر في مساحة الحدة الخطية مقارنة بالنغمة المنخفضة[، ولكن هذا غير مألوف أبدًا ولا يعد موسيقيًا.
تعمل معالجة نطاق الزمن بشكل أفضل هنا، إذ أن التشويش أقل وضوحًا، لكن يمكن لقياس العينات الصوتية تشويه التشكلات الموجية لنوع من التأثيرات المشابهة لألفين والسناجب، التي قد تكون مرغوبة أو غير مرغوبة. تتضمن العملية المحافظة على صيغة الصوت وخصائصه تحليلًا للإشارة الصوتية من خلال استخدام قناة صوتية أو مشفر LPC، إضافًة إلى إحدى خوارزميات تحديد حدة الصوت العديدة ومن ثم إعادة تشكيلها بتردد أساسي مختلف. يمكن إيجاد وصف مفصل لتقنيات التسجيل التناظري القديمة المتعلقة بتغيير حدة الصوت داخل مدونة ألفين والسناجب.
^Jont B. Allen (June 1977). "Short Time Spectral Analysis, Synthesis, and Modification by Discrete Fourier Transform". IEEE Transactions on Acoustics, Speech, and Signal Processing. ASSP-25 (3): 235–238.
^McAulay, R. J.; Quatieri, T. F. (1988), "Speech Processing Based on a Sinusoidal Model" (PDF), The Lincoln Laboratory Journal, 1 (2): 153–167, archived from the original (PDF) on 2012-05-21, retrieved 2014-09-07
^David Malah (April 1979). "Time-domain algorithms for harmonic bandwidth reduction and time scaling of speech signals". IEEE Transactions on Acoustics, Speech, and Signal Processing. ASSP-27 (2): 121–133.
^Jonathan Driedger and Meinard Müller (2016). "A Review of Time-Scale Modification of Music Signals". Applied Sciences. 6 (2): 57. doi:10.3390/app6020057.