Arantxa Otegi

Arantxa Otegi
Bizitza
JaiotzaAsteasu
Herrialdea Gipuzkoa, Euskal Herria
Hezkuntza
HeziketaEuskal Herriko Unibertsitatea
Tesi zuzendariaXabier Arregi Iparragirre
Eneko Agirre
Jarduerak
Jarduerakinformatikaria eta ikertzailea
Enplegatzailea(k)Euskal Herriko Unibertsitatea
Ixa taldea

Inguma: arantxa-otegi-usandizaga

Arantxa Otegi Usandizaga (Asteasu) Euskal Herriko Unibertsitateko ikerlaria da IXA taldean, baita HiTZ, Hizkuntzaren Teknologiaren Euskal Zentroko kidea ere. Informatika Fakultatean lan egiten du 2006tik.[1][2][3]

Informatikako ingeniaria da (EHU, 2006) eta hizkuntzaren analisian eta prozesamenduan doktorea (EHU, 2012). Gaur egun, UPV/EHUko Ixa hizkuntzaren prozesamendurako ikerketa-taldeko doktoratu ondoko ikertzailea da, Ixa taldeko kide izan da 2003az geroztik, eta arlo hauetan aritu da batez ere: elkarrizketa-sistemak, erantzunen bilaketa, informazioaren berreskurapena, ahaidetasun semantikoa eta hizkuntza prozesatzeko tresnen integrazioa.[4]

Informazioaren berreskurapena hobetzea hizkuntzaren prozesamenduko teknikekin

Hizkuntzaren prozesamenduaren arloan aritzen den Ixa Taldeko ikertzailea da. 2012an defenditu zuen doktorego-tesian bere helburua Informazioaren berreskurapenaren ikerketan urrats bat egitea izan zen, hitzen adiera-desanbiguazioko teknikak eta ahaidetasun semantikoko hainbat metodo erabiliz. Hau izan zen izenburua: “Hedapena informazioaren berreskurapenean: hitzen adiera-desanbiguazioaren eta antzekotasun semantikoaren ekarpenak“. Zuzendariak Eneko Agirre eta Xabier Arregi izan ziren. Tesiak Koldo Mitxelena saria lortu zuen 2013an.[5]

Informazioaren berreskurapena (IB) erabiltzaile baten informazio-beharra asetuko duten dokumentuak bilatzean datza. Hain ezagun eta erabilia den Google web-bilatzaileak IB sistemen adibide garbia da.Honela bada, IB sistemak erabiltzaileari dokumentu adierazgarriak, alegia, erabiltzaileak behar duen informazioa eduki dezaketen dokumentuak, topatzen lagunduko dio, beti ere erabiltzaileak egindako kontsultan oinarrituz. Hain ezagunak eta erabiliak diren Google eta Yahoo! bezalako web-bilatzaileak IB sistemen adibide garbiak dira.[6]

Iñaki Alegria, Arantza Otegi eta Mans Hulden (2011)

IB sistema perfektu batek dokumentu adierazgarriak bakarrik berreskuratu beharko lituzke, eta ez-adierazgarriak baztertu. Alabaina, sistema perfektuak ez dira existitzen. IB sistemek aurre egin behar dien arazo nagusienetako bat kontsulta eta dokumentuen arteko parekatze-arazoa deiturikoa da: dokumentu bat kontsulta batentzako adierazgarria izan daiteke nahiz eta bietan erabilitako hitzak guztiz berdinak ez izan, eta, alderantziz, dokumentu bat ez-adierazgarria izan daiteke kontsulta batentzat nahiz eta termino batzuk komunean eduki. Lehena ideia edo gauza bera adierazteko hitz edo esamolde bat baino gehiago erabili ditzakegulako (sinonimia) gerta daiteke. Bigarrena, berriz, testuinguruaren arabera hainbat interpretazio izan ditzaketen hitzek (anbiguotasuna) eragiten dezakete. Hau kontuan izanik, IB sistema batek dokumentu bat adierazgarri edo ez-adierazgarri bezala sailkatzerakoan kontuan hartzen duen irizpide bakarra kontsultako hitzak egotea (edo ez egotea) denean zaila suerta daiteke dokumentu egokiak topatzea, eta baita adierazgarriak ez direnak baztertzea. Honen aurrean, hitz horien esanahiak kontuan hartuz gero berreskurapen arrakastatsuago bat egiteko aukera gehiago egongo direla pentsatzea bidezkoa dirudi.[6]

IBaren hastapenetatik parekatze-arazoaren inguruan ikerketa-lan dezente egin badira ere, oraindik guztiz ebatzi gabe jarraitzen du, eta bilatzaile askok ez dute aintzat hartzen. Otegiren tesi-lanean hizkuntzaren prozesamenduaren (HP) bidez arazo hori arintzerik ba ote den aztertu zen. Hitz gutxitan esanda, kontsulten eta dokumentuen hedapena egin zuten HPko bi teknikaz baliatuz: hitzen adiera-desanbiguazioa eta ahaidetasun semantikoa. Alde batetik, teknika hauetako bakoitzerako hedapen-prozesu bat proposatzuten, non kontsulta eta dokumentuetako hitzen sinonimo eta bestelako ahaidetasuna duten hitzak lortuko zituzten. Bestetik, hedapenetik lortutako hitz horiek, kontsulta eta dokumentuetako jatorrizko hitzekin batera, IB sistemaren prozesuan txertatu eta ustiatzeko modu eraginkor bat azaltzen zuten kasu bakoitzerako. Are gehiago, erabili zuten hedapen-teknikak kontsulta eta dokumentuak berreskuratzeko balio zuenez, hedapen-teknika hori erabiliz hizkuntza arteko berreskurapenean hobekuntzak lortzen zrela erakutsi zuten. Hiru datu-multzotan egindako esperimentu eta analisiek erakusten zuten tesi-lan honetan proposatutako hedapen-metodoek parekatze-arazoari aurre egiteko balio zutela eta, ondorioz, baita IB sistemaren eraginkortasuna hobetzeko ere.[6]

Sariak

Hainbat sari lortu ditu Arantza Otegik. Sari aipagarrienak hauek dira:

Erreferentziak

  1. «Arantxa Otegi» scholar.google.es (Noiz kontsultatua: 2022-01-03).
  2. «Arantxa Otegi | Ixa taldea» ixa.si.ehu.eus (Noiz kontsultatua: 2022-01-03).
  3. (Ingelesez) «Arantxa Otegi - ACL Anthology» aclanthology.org (Noiz kontsultatua: 2022-01-03).
  4. (Ingelesez) «Arantxa Otegi» The Conversation (Noiz kontsultatua: 2022-01-03).
  5. (Ingelesez) Technology, Blog index « Ixa Group Language. «Koldo Mitxelena award for PhD theses to Arantxa Otegi» Ixa Group. Language Technology. (Noiz kontsultatua: 2022-01-03).
  6. a b c Lexiko-semantikaren erabilera informazio-berreskurapenean – Hizkuntza-teknologiak, Ixa Taldearen bloga. (Noiz kontsultatua: 2022-01-03).
  7. (Ingelesez) «COLING’2020 outstanding papers announcement» COLING’2020 2020-11-29 (Noiz kontsultatua: 2020-12-11).
  8. Campos, Jon Ander; Cho, Kyunghyun; Otegi, Arantxa; Soroa, Aitor; Agirre, Eneko; Azkune, Gorka. (2020-12). «Improving Conversational Question Answering Systems after Deployment using Feedback-Weighted Learning» Proceedings of the 28th International Conference on Computational Linguistics (International Committee on Computational Linguistics): 2561–2571. (Noiz kontsultatua: 2020-12-11).
  9. Ixa ikerketa-taldeak Estatu Batuetako gobernuak bultzatutako COVID-19 gaixotasunaren inguruan antolatutako adimen artifizialeko txapelketan saria jaso du – Hizkuntza-teknologiak, Ixa Taldearen bloga. (Noiz kontsultatua: 2021-01-31).
  10. (Ingelesez) «COVID-19 Open Research Dataset Challenge (CORD-19)» kaggle.com (Noiz kontsultatua: 2021-01-31).
  11. «Elkarrizketak sortzen - Ixa taldea» www.ixa.eus (Noiz kontsultatua: 2021-01-31).
  12. Google-saria hirugarrenez irabazi du Eneko Agirre ixakideak – Hizkuntza-teknologiak, Ixa Taldearen bloga. (Noiz kontsultatua: 2021-01-31).
  13. Google-ren ikerketa-saria Eneko Agirreri hitzen esanahiak grafikoki erakusteagatik – Hizkuntza-teknologiak, Ixa Taldearen bloga. (Noiz kontsultatua: 2021-01-31).
  14. Google Research saria Eneko Agirre taldekideari – Hizkuntza-teknologiak, Ixa Taldearen bloga. (Noiz kontsultatua: 2021-01-31).
  15. Ixa Taldea. (2012). Koldo Mitxelena saria Arantxa Otegiri.. EHU.
  16. Ixa Taldea. (2013). Gipuzkoako Foru Aldundiak emandako Anton Abadia Saria, Euskararen normalkuntza lanetan izandako eraginagatik.. .
  17. Ixa Taldea, Abbadia Saria – Hizkuntza-teknologiak, Ixa Taldearen bloga. (Noiz kontsultatua: 2021-01-31).
  18. Ibilaldia 2012 omenaldia: Euskara teknologia berrietan sartzeko aintzindariak – Hizkuntza-teknologiak. (Noiz kontsultatua: 2020-02-11).

Ikus, gainera

Kanpo estekak

Strategi Solo vs Squad di Free Fire: Cara Menang Mudah!