Audio iturrien bereizketaaudioseinale multzo baten soinuen bereizketa da. Nahaste baten parte den soinu bakoitzari iturri deritzogu[1]. Betebeharra audio iturrietako bat bakarrik bereiztea izan daiteke, baita seinalearen parte diren guztiak ere. Hori helburuaren araberakoa da: pertsona bakar baten diskurtsoa argi entzun, abesti baten instrumentu bolumena doitu, karaokea, zarata kendu…
Matematikoki, hurrengo erara adierazten da seinale multzo bat:
N iturri kopurua eta xi(t) horietako iturri bakoitza izanik.
Iturrien bereizmena gauzatzeko momentuan, hainbat zailtasun aurki daitezke:[2]
Iturria eta horren ezaugarrien ezjakintasuna
Nahaste prozesuaren eta horren ezaugarrien ezjakintasuna
Iturri eta nahaste kopuruen arteko harremana
Banaketa prozesuak dituen mugak
Hala ere, garatutako metodoei eta aztertu nahi den audioen ezaugarriei esker, audio iturrien bereizketa gauzatu ahalko da.
Metodoak
Sorta eraketa
Sorta eraketa (ingelesez beamforming) audio iturrien bereizketan erabilitako metodoa da, mikrofonoarray baten espazio-orientazioaz baliatzen dena.[1] Array horren sentsoreek iturri akustikoaren seinalea erregistratzen dute eta mikrofonoak hura desfasatzeaz arduratzen dira.[3]
Metodo honek patroi direktiboak erabiltzen ditu hartzailean, non jatorri zehatz batetik seinaleak jasotzen dituen. Horrela, nahi ez diren seinaleak edota zarata ahultzea lortzen da.[4]
Gainera, matematika eragiketa batzuk gauzatuz eta seinaleen atzerapena aztertuz, soinuaren jatorria zein den jakin daiteke. Horri esker, iturrien bereizketa gauzatu ahalko da.[3]
Sare neuronalak
Sare neuronalak audio iturrien bereizketan erabilitako ikasketa automatiko (ingelesez, machine learning) algoritmo mota bat dira. Horietan oinarritutako metodoei ikaskuntza sakon (ingelesez, deep learning) edo sare sakon (ingelesez, deep net) esaten zaie.[5]
Ikasketa automatiko algoritmoak gai dira, batetik, ez-jarraitasunak modelatzeko eta, bestetik, beste algoritmo batzuk baino inplementazio azkarragoak eskaintzeko. Algoritmo hauek gainbegiratutako ikasketa arazoak bezala adierazten dira, xede-taldeak (ahotsa, hari-instrumentuak...) eta kostu-funtzio desberdinak erabiliz.[6]
Sare sakonak hainbat audio nahasketetan probak eginez funtzionatzen dute. Sareak iturri batentzako irteera bat sortzen du. Ondoren, behin isolatuta, perfektua izango litzatekeen iturriarekin konparatzen da. Mota honetako konparaketak sarea eguneratzeko erabiltzen dira. Horrela, sarea berriz erabiltzen denean benetako iturriaren antz handiagoa izango du irteerak.[5]
Zuzen dabiltzan sare sakonak lortzea ez da erraza izaten. Sistema oso konplexuak dira, egokitu beharreko milioika parametroz osaturik, pisuak (ingelesez weights) deiturikoak. Pisu horien ezarketa prozesu nahiko zaila izaten da.
Audio iturrien bereizketan hedatuen dagoen aplikazio bat ahotsaren bereizketa da.[1] Bi pertsona edo gehiago aldi berean hitz egiten daudenean, baliteke zaila izatea pertsona horietako baten hizketan bakarrik jartzea arreta. Gainera, zarata ere egon daiteke. Hori dela eta, audio iturrien bereizketara jotzen da.
Alde batetik, ahotsa eta zarata banandu daitezke. Kalean hots-kutsadura egon ohi da, hirietan gehienbat: automobilak, autobusak, eraikuntza-lanak, jendetza… Hori arazo bat izan daiteke kasu askotan, lagun talde batekin hitz egiterakoan eta WhatsAppa erabiliz ahots-mezu bat bidaltzerakoan, esate baterako. Egoera horietan guztietan, posible da pertsonen hizketan arreta jarri eta desatsegina den edozein hots alde batera uztea.
Bestetik, pertsona desderdinen diskurtsoa audio iturri independente bihur daiteke. Jende-talde bateko pertsonek haien iritzia partekatzen dutenean gerta daiteke momentu zehatz batean bik edo gehiagok aldi berean hitz egitea. Ondorioz, ezin da guztia ondo ulertu. Horri aurre egiteko, audio iturrien bereizketa nahiko erabiltzen da.
Musika
Musikaabesti edo audio bat iturri askok osatu dezakete, ahotsak eta musika-tresnak, adibidez. Musika iturrien bereizketa nahaste baten audio seinale originalak bereiztean datza. Horrek esan nahi du aldez aurretik iturri horiek sortutako soinuak nahastu direla eta, gehienetan, ez da prozesuari buruzko informazio nahikorik izaten, ezta iturriari buruzkoa ere.
Musikan audio iturrien bereizketa gauzatzean, hainbat zailtasun egon daitezke:
Musikan iturriak oso lotuta daude elkarren artean; hau da, normalean iturri guztiak aldi berean aldatzen dira. Esaterako, musika talde batean biolinak konpas hasieran nota aldatzen badu, segur aski beste musika-tresnek ere nota aldatuko dute.
Musika nahaste ez-jarraiak diren teknikak erabiliz prozesatzen da. Erreberberazioa eta iragazkien erabilera horietako batzuk dira, eta musikaren bereizketa zailtzen dute. Arazo bat izaten da; izan ere, oso gutxitan jakiten da zein den nahastearen edozein iturritan aplikatutako prozesaketa.[1]
Hala ere, musika soinuek ezaugarri bereziak izaten dituzte, baita egitura zehatz batzuk ere: harmonikoen egitura uniformea, maiztasun batzuen errepikapena tarteka eta musika-tresna bakoitzaren berezkoa den uhin-forma. Gainera, patroi batzuk jarraituz errepika daitezke.[8]
Softwareak
Musika iturrien bereizketa gauzatzen duten hainbat software daude eta gehienak adimen artifizialaz baliatzen dira. Horietako bakoitzak bereizketa era eta helburu desberdinak ditu. Badaude alde batetik ahotsa eta bestetik musika-tresnak bereizten dituztenak. Beste batzuek musika-tresnak taldeetan sailkatzen dituzte. Ondoren software batzuk eta haien bereizketa-ereduak aipatzen dira:
4 audio-pista: ahotsa, bateria, baxua eta bestelakoak.[11]
LALAL
Hurrengoen artean aukeratu: ahotsa eta instrumentuak, bateria, baxua, ahotsa eta zarata, gitarra elektrikoa, gitarra akustikoa, pianoa, sintetizadorea, hari-instrumentu eta haize-instrumentuak.[12]
Melody
2 audio-pista: ahotsa eta instrumentuak.
4 audio-pista: ahotsa, bateria, baxua eta bestelakoak.[13]
↑ abMachín, Jorge. 2016. Beamforming, localización de fuentes sonoras mediante arrays de micrófonos. Gradu Amaierako Lana. Valentziako Unibertsitate Politeknikoa.
↑García de la Rosa, Rodrigo. 2020. Sistema de localización de fuentes sonoras. Gradu Amaierako Lana. Madrileko Unibertsitate Politeknikoa.
↑Cano, E., Fitzgerald, D., Liutkus, A., Plumbley, M. D. eta Stöter, F. 2019. Musical Source Separation: An Introduction. IEEE Signal Processing Magazine, 36 (1), 31-40.