Informatikako ingeniaria da (EHU, 2006) eta hizkuntzaren analisian eta prozesamenduan doktorea (EHU, 2012). Gaur egun, UPV/EHUko Ixa hizkuntzaren prozesamendurako ikerketa-taldeko doktoratu ondoko ikertzailea da, Ixa taldeko kide izan da 2003az geroztik, eta arlo hauetan aritu da batez ere: elkarrizketa-sistemak, erantzunen bilaketa, informazioaren berreskurapena, ahaidetasun semantikoa eta hizkuntza prozesatzeko tresnen integrazioa.[4]
Informazioaren berreskurapena (IB) erabiltzaile baten informazio-beharra asetuko duten dokumentuak bilatzean datza. Hain ezagun eta erabilia den Google web-bilatzaileak IB sistemen adibide garbia da.Honela bada, IB sistemak erabiltzaileari dokumentu adierazgarriak, alegia, erabiltzaileak behar duen informazioa eduki dezaketen dokumentuak, topatzen lagunduko dio, beti ere erabiltzaileak egindako kontsultan oinarrituz. Hain ezagunak eta erabiliak diren Google eta Yahoo! bezalako web-bilatzaileak IB sistemen adibide garbiak dira.[6]
IB sistema perfektu batek dokumentu adierazgarriak bakarrik berreskuratu beharko lituzke, eta ez-adierazgarriak baztertu. Alabaina, sistema perfektuak ez dira existitzen. IB sistemek aurre egin behar dien arazo nagusienetako bat kontsulta eta dokumentuen arteko parekatze-arazoa deiturikoa da: dokumentu bat kontsulta batentzako adierazgarria izan daiteke nahiz eta bietan erabilitako hitzak guztiz berdinak ez izan, eta, alderantziz, dokumentu bat ez-adierazgarria izan daiteke kontsulta batentzat nahiz eta termino batzuk komunean eduki. Lehena ideia edo gauza bera adierazteko hitz edo esamolde bat baino gehiago erabili ditzakegulako (sinonimia) gerta daiteke. Bigarrena, berriz, testuinguruaren arabera hainbat interpretazio izan ditzaketen hitzek (anbiguotasuna) eragiten dezakete. Hau kontuan izanik, IB sistema batek dokumentu bat adierazgarri edo ez-adierazgarri bezala sailkatzerakoan kontuan hartzen duen irizpide bakarra kontsultako hitzak egotea (edo ez egotea) denean zaila suerta daiteke dokumentu egokiak topatzea, eta baita adierazgarriak ez direnak baztertzea. Honen aurrean, hitz horien esanahiak kontuan hartuz gero berreskurapen arrakastatsuago bat egiteko aukera gehiago egongo direla pentsatzea bidezkoa dirudi.[6]
IBaren hastapenetatik parekatze-arazoaren inguruan ikerketa-lan dezente egin badira ere, oraindik guztiz ebatzi gabe jarraitzen du, eta bilatzaile askok ez dute aintzat hartzen. Otegiren tesi-lanean hizkuntzaren prozesamenduaren (HP) bidez arazo hori arintzerik ba ote den aztertu zen. Hitz gutxitan esanda, kontsulten eta dokumentuen hedapena egin zuten HPko bi teknikaz baliatuz: hitzen adiera-desanbiguazioa eta ahaidetasun semantikoa. Alde batetik, teknika hauetako bakoitzerako hedapen-prozesu bat proposatzuten, non kontsulta eta dokumentuetako hitzen sinonimo eta bestelako ahaidetasuna duten hitzak lortuko zituzten. Bestetik, hedapenetik lortutako hitz horiek, kontsulta eta dokumentuetako jatorrizko hitzekin batera, IB sistemaren prozesuan txertatu eta ustiatzeko modu eraginkor bat azaltzen zuten kasu bakoitzerako. Are gehiago, erabili zuten hedapen-teknikak kontsulta eta dokumentuak berreskuratzeko balio zuenez, hedapen-teknika hori erabiliz hizkuntza arteko berreskurapenean hobekuntzak lortzen zrela erakutsi zuten. Hiru datu-multzotan egindako esperimentu eta analisiek erakusten zuten tesi-lan honetan proposatutako hedapen-metodoek parekatze-arazoari aurre egiteko balio zutela eta, ondorioz, baita IB sistemaren eraginkortasuna hobetzeko ere.[6]
Sariak
Hainbat sari lortu ditu Arantza Otegik. Sari aipagarrienak hauek dira:
Eneko Agirreren taldeko kidea izan zen 2017an, 2019an, eta 2020an, hiru aldiz jarraian Google-ren ikerketa-sari bat irabazi zuenean. Google Faculty Research Award saria hirutan lortu duen ikertzaile bakanetakoa da Agirre. 2020ko proiektua batez ere ingelesezko elkarrizketetan zentratzen bada ere (sukaldaritzari eta elikadurari buruzko galderak), euskarazko elkarrizketekin ere lan egin dute. Horretarako 2019an Ixa taldeak euskarazko elkarrizketak biltzeko kanpaina bat jarri zuen martxan. Kanpainak oso harrera ona izan zuen, pertsona ospetsuei buruz euskarazko galdera-erantzunezko elkarrizketak jaso ziren, beti ere Wikipedian dagoen informazioan oinarrituta.[11][12][13][14]
2013: Euskaltzaindiak eta EHUk antolatzen duten Euskarazko Tesien III. Koldo Mitxelena saria eman zioten Ikasketa Teknikoen jakintza-arloan.[15]