Begoña Altuna Diaz (Deustu, Bilbo, 1989) Euskal Herriko UnibertsitatekoHitz zentroko filologo ikertzailea da, Ixa taldean. Euskarazko testuetan espazio eta denboraren errepresentazioa ikertzen du. Giza eta gizarte zientzietan ikerketa euskaraz egin ahal egiteko baliabideak eskaintzen dituen Clariah-eus sarea sortzeko sustatzaileetako bat izan da Euskal Herrian.[1]
Hainbat urtetan parte hartu du Deustuko bizitza kulturalean, eragile izanik. Ohiko kolaboratzailea da Uriola.eus atarian non Deustualdeko albiste lokalak zabaltzen dituen.[2]
Udako Euskal Unibertsitateak antolatzen dituen Ikergazte kongresuetan saria jaso zuen 2015ean eta 2017an. Geroago kongresuaren antolakuntzan ere parte hartu du baita UEUko hizkuntzalaritza sailean ere.
Trentoko unibertsitateko ikerketa zentroan ikerketa egonaldi luzeak egin ditu euskarazko testuetan espazio eta denboraren errepresentazioa ikertzen.[4] Trentoko taldeak italiera eta ingeleserako egindako ikerketa batzuk euskarara ere moldatzen eta testu-corpusak biltzen aritu izan da Trenton.
Tesia egiten zuen bitartean birritan irabazi zuen Giza zientzietako Ikergazte saria, 2015ean eta 2017an. 2015ean “Euskarazko denbora-egituren tratamendu automatikorako azterketa” izenburuko aurkezpenarekin irabazi zuen saria.[6][7][8] 2017koan giza zientzietako poster onenaren saria jaso zuen “Euskarazko ezeztapenaren tratamendu automatikorako azterketa” lanarekin. Ikerketa-ildo nagusia denbora-informazioaren azterketa eta tratamendua zen. Hau da, testuetan zer gertatzen den eta noiz gertatzen den aztertzen du. Zer gertatzen den eta zer ez den gertatzen erabakitzeko prozesu horretan ezeztapena aztertzea nahitaezkoa da, izan ere, ezezka agertzen den gertaera ez da gertatu edo ez da gertatuko. Ondorioz, euskaraz ezeztapena nola gauzatzen zen eta testuko zein elementuren gainean duen eragina aztertu zuen tesian eta informazio hori era normalizatuan adierazi zuen gero. Ondoriorik nabarmenena euskarazko ezeztapena identifikatzea nahiko erraza dela da. Etiketatzaileak nahiko ados egon ginen ezeztapena identifikatzean. Izan ere, euskaraz ezeztapen bakarra dugu perpausean (ez, ezin). Gaztelaniaz, ordea, bi ezeztapen agertu ohi dira perpausetan “NO he traído NINGÚN libro” eta horrek zailtasun gehiago du ezeztapena zein den erabakitzean. Ezeztapenak zeri eragiten dion, ordea, zailagoa da erabakitzen, bai euskaraz bai inguruko hizkuntzetan. Adibidez, “Mikel ez da autoz etorri” perpausean ez dakigu Mikel izan den etorri dena, etorri den ala ez edo etorri bai, baina bizikletaz etorri den. Kontu horrek hainbat eztabaida sortu ditu ezeztapenari buruz ikertzen ari diren hizkuntzalarien artean eta askotan norbere ikuspegiaren araberako erantzun guztiak balekoak dira. Ordenagailuek, ordea, guztiz objektiboak diren irizpideak behar dituzte eta horiek erabakitzen saiatzen dira.[3][9][10]
Clariah-eus sarea sortzeko sustatzaileetako bat da Euskal Herrian. Giza eta gizarte zientzietako ikerketa euskara oinarri hartuta eta euskaraz egiteko baliabideak eskaintzen ditu azpiegitura horrek.[1]
Hizkuntzaren Prozesamenduko ataza nagusietako bat testuetako informazioa automatikoki erauztea da. Horretarako, tresna automatikoak garatu behar dira eta, askotan, horiek garatzeko oinarrian ikasketa-algoritmoak daude. Ikasketa-algoritmoek testuetako informazio esanguratsua markaketa-lengoaien bidez etiketatuta duten testuak (urre-patroiak) behar dituzte. Horretan datza corpus etiketatuen interesa. Gainera, corpus horiek garatutako tresnak ebaluatzeko baliabide garrantzitsuak dira.[11]
Denbora-informazioaren kasuan, zer noiz gertatzen den identifikatzen da. Esaterako, honako adibide honetan:
"Apple-ren kapitala hirukoiztu egin zen 2004an, bikoiztu 2005ean eta % 16 hazi 2006an."
denborazko hiru adierazpen agertzen dira: "2004an", "2005ean" eta "2006an".
Informazio hori Hizkuntzaren Prozesamenduko tresnekin baliatu ahal izateko, denbora-informazioa modu formal baten arabera errepresentatu behar da, alegia, markaketa-lengoaia baten bidez etiketatu behar da. Adibidez, lehengo esaldia honela izan daiteke Altunak moldatu duen EusTimeML markaketa-lengoaiaren arabera.[12][11]
Ikus daitekeenez, gertaerek <EVENT> etiketa hartzen dute eta denbora-adierazpenek, <TIMEX3>. Etiketa bakoitzak atributu zerrenda bat hartzen du eta horien bidez gertaeren edo denbora-adierazpenen atributuak (mota eta balio normalizatuak, besteak beste) esplizitu egiten dira. Halaber, gertaeren eta denbora-adierazpenen artean aldiberekotasuna (IS INCLUDED) adierazten duten denbora-erlazioak etiketatu dira. Informazio hori baliatuta, irudiko denbora-lerroa sor daiteke. Denbora-lerro hori eraikitzeko, esaldiko gertaerak gertatzen diren uneetara ainguratu edo lotu behar dira. Horretarako, zein gertaera zein unetan gertatu den kontuan hartu behar da.[11]
Euskarazko denbora-informazioaren prozesamenduan, EusTimeML markaketa-lengoaia definitzeaz gain, horri jarraituta, EusTimeBank corpusa sortu zuen Altunak Ixako taldekideekin,[5] baita euskarazko denbora-informazioak automatikoki erauzten duten EusHeidelTime[13] eta bTime tresnak.[14][11]
Zehazki, EusHeidelTimek denbora-adierazpenak identifikatzen eta sailkatzen ditu, eta ISO-8601 arauaren araberako balio normalizatua esleitzen die; bTimek, berriz, gertaerak eta denbora-erlazioak identifikatzen eta sailkatzen ditu.[11]
EusHeidelTimek eta bTimek denbora-informazioa etiketatuta duten testuak itzultzen dituzte. KroniXa sistemak, etiketatuta dagoen informazio horretan oinarrituta, testuetako gertaerak ardatz kronologikoan kokatzen ditu. Denbora-lerroak eskuz etiketatuta dituen EusTimeBank-TL corpusak hainbat esaldi dauzka bakoitza bere denbora-lerroarekin. Datu horiek eskuz sortu dira eta, esan bezala, beharrezkoak dira denbora-lerroak automatikoki sortuko dituzten programak entrenatu eta ebaluatzeko.[11]
2017: SEPLN biltzarreko artikulu onenaren saria jaso zuen artikulu honekin: ‘EusHeidelTime: Time Expression Extraction and Normalisation for Basque‘. Ingeleserako eta beste hizkuntzetarako erabiltzen den HeidelTime tresna egokitu zuten euskaraz ere erabili ahal izateko. Morfologia aberatsa duen hizkuntza baterako ere baliagarria izan daitekeela frogatu zuten.[15][13]