Informazioaren berreskurapena (ingelesez, information retrieval edo IR) dokumentuetan informazioa bilatzea, dokumentuak bilatzea, dokumentuak deskribatzen dituzten metadatuak bilatzea edo datu-baseetan bilatzea burutzen dituen teknologia da. Ohiko arlo bat izan da informatikan bere hasieratik. Konputagailuek informazio kopuru handiak biltegiratzea posible egiten dutenez, informazio hori modu zehatz, eroso eta eraginkorrean berreskuratzea izan da beti aztergai garrantzitsua. Datu-base dokumentalak izan dira betidanik arlo honetako aplikazio garrantzitsuenak, baina Internet fenomenoak ikaragarri bultzatu du arlo honen garapena, testu digitalak izugarri ugaldu direlako. Ohiko aplikazio-eremuez gain (testu legalak, medikuntzakoak, dokumentazio-zentroak, …) Internet/Intranet eremuko aplikazio garrantzitsuenak kokatzen dira arlo honetan: Google moduko bilatzaileak eta Yahoo moduko direktorioak.
Bi urrats nagusitan burutu ohi da informazioaren berreskurapena: hasieran dokumentuen indexazioa eta gero bilaketa. Informazioaren berreskurapenak jakintzagai asko hartzen ditu barne, besteak beste: informazioaren arkitektura, informazioaren diseinua, gizakien jokaera informazioaren aurrean, psikologia kognitiboa, hizkuntzalaritza konputazionala, semiotika, informatika eta bibliotekonomia.
Lehen aldiz information retrieval terminoa erabili zuena C. N. Mooers izan zen 1950ean, eta honela definitu zuen:
—C. N. Moers[oh 1]
Erabat errotuta gelditu zen termino hori eta geroztik horrelaxe deitu izan zaio, labur esanda, erabiltzaile baten informazio-beharra asetuko duen dokumentu-bilatzeari.
Honela ba, informazioaren berreskurapenerako sistema bat edo IB sistema bat dokumentuetako informazioa biltegiratu eta kudeatzen duen software programa bat da [3]. Sistemak erabiltzaileak behar duen informazioa topatzen lagunduko dio, informazio hori eduki dezaketen dokumentuen berri emanaz. Kontuan izan, horrelako sistemek ez dutela informazioa esplizituki itzultzen edo galdera erantzuten, dokumentuak berreskuratu edo iradoki besterik ez dute egiten.
Prozesu horiek konputagailuen bidez guztiz automatikoki egikaritzearen ideia Bush-ek (1945) proposatu zuen lehen aldiz:
—V. Bush[oh 2]
Bush-en ideia jarraituz, lehenengo IB sistema automatizatuak 50 eta 60ko hamarkadetan sortu ziren. Hasierako urte haietan sistema hauek argitalpen zientifiko eta liburutegietako dokumentuak bilatzeko erabiltzen ziren, batez ere. Bilaketak ez ziren dokumentuen eduki osoaren gainean egiten, baizik eta dokumentuei eskuz esleitutako gako-hitzetan oinarritzen ziren. Joerak aldatzen joan dira eta gaur egungo egoera guztiz bestelakoa da. Sistema hauen erabilera guztiz zabaldurik dago gaur egungo gizartean, azken urteotan konputagailu pertsonalen kopurua handituz eta Internet zabalduz doan heinean, webeko bilatzaileen beharra ere gorantz doalako. Hain ezagunak eta erabiliak diren Google eta Yahoo! bezalako web bilatzaileak IB sistemen adibide garbiak dira.
Bilaketak egiteko modua edo, beste modu batera esanda, IB gauzatzeko metodoak ere aldatzen joan dira konputagailuen ahalmena eta biltegiratze-lekua handituz doan heinean. Gaur egungo sistema gehienek dokumentuetan agertzen diren termino guztiak (edo ia guztiak) erabiltzen dituzte bilaketak egiteko, alegia, dokumentuen eduki osoak hartzen dituzte kontuan. Honi ingelesez full text retrieval esan ohi zaio. Hala ere, gaur egun ere badira dokumentuen zati jakin batzuetan eta dokumentuei eskuz esleitutako gako-hitzetan oinarritzen diren sistemak. Horren adibide da 70eko hamarkadatik martxan den PubMed bilatzailea.[5] IB sistema honek biomedikuntzako eta osasun-arloko argitalpenak gordetzen dituen MEDLINE datu-basean bilaketak egitea ahalbideratzen du. Datu-base horretan argitalpen bakoitzaren titulu, abstract eta eskuz esleitutako gako-hitzak daude —gako-hitz hauek medikuntzako thesaurus batetik hartutakoak dira.
IB tekniken aplikazio arruntenetakoa bilatzailea da. Bilatzailerik erabilienak web-bilatzaileak badira ere, badira beste batzuk; beste batzuen artean, hauexek:
Kasu honetan, aurrekoan bezala, dokumentu horiek mota askotakoak izango dira.
Horrelako bilatzaileez gain, ordea, badira IBaren aplikazio orokor gehiago ere. Izan ere, testu-bilduma edo bestelako informazio ez-egituratua darabilen edozein aplikaziok, informazio hori antolatu eta bilatu beharko du momenturen batean. Horren adibide dira, esaterako, honako hauek:
Azken hauek, izenak dioen bezala, erabiltzailearen intereseko izango diren informazio-elementuak (pelikulak, liburuak, musika, ikuskizunak...) gomendatzen dituzten sistemak dira.
IB sistema batek hiru prozesu nagusi gauzatzen ditu:
Gaur egungo sistemetan ohikoena dokumentu-zerrenda ordenatu bat itzultzea da, zerrendaren hasieran jarriz ustez erabiltzaileari gehien interesatuko zaizkion dokumentuak, alegia, sistemaren ustez adierazgarrienak direnak. Page rank izeneko algoritmoa oso baliagarria da adierazgarrienak zein diren jakiteko; kontatzen da zenbat esteka dauden Interneten dokumentu bakoitzera, eta esteka gehien jasotzen dituztenak adierazgarrienak direla suposatzen da.
Irteerako dokumentu batzuek, ziur aski, erabiltzailearen informazio-behar hori asetuko dute; dokumentu horiei dokumentu adierazgarri deitzen zaie. IB sistema perfektu batek dokumentu adierazgarriak bakarrik berreskuratu beharko lituzke, eta ez-adierazgarriak baztertu. Alabaina, sistema perfektuak ez dira existitzen eta lortutako emaitzak baloratu behar dira.
Jasotako emaitzak baloratzea, egindako bilaketan lortutako emaitzak gure bilaketa beharrak ase dituzten ala ez jakitea da. Bilaketa bateko emaitzak ezin dira egokitasunaren arabera baloratu, hau subjetiboa baita. Horregatik, beste kontzeptu batzuk erabiltzen dira: doitasuna eta osotasuna.
Hainbat atazatan erabiltzen dira IB teknikak; besteak beste, ondoko hauek, azkenekoa delarik aipagarriena:
Google, Yahoo eta Elebila bezalako bilatzaileak dira informazioa eskuratzen duten tresna ezagunenetako batzuk. Ezagunenenak Internet erabiltzen dute bilatzeko eremu gisa, baina intranet moduan ere erabil daitezke dokumentazio-gunetan edo liburutegi digitaletan.
Tresna orokor moduan (plug-in/gehigarriak) hauek dira ezagunenak:
Duela gutxi arte, tresnen abiadura motela zela-eta, hizkuntza-teknologia ez zen asko erabiltzen arlo honen garapenean. Dena den, tresnak hobetu diren heinean eta dokumentu digitalen eleaniztasuna areagotzearekin batera, tresna linguistikoen erabilpena garrantzia hartzen joan da. Erabilpen progresibo hori Googleren bilakaeran bertan ikus daiteke:
Googletik aparte beste bilatzaile batzuetan ere erabili da hizkuntza-teknologia:
Gainera, semantikaren erabilera eman da baita ere alor honetan. Izan ere bilatzaile batzuek ontologia erabiltzen dute anbiguotasuna kentzeko bilaketei.
IBren erabilerak askotarikoak dira eta urteak joan ahala esparru berrietara zabalduz doazenez, ikerketa-gaiak ez dira falta arlo honen inguruan: ranking-funtzioen eraginkortasuna, sistemaren errendimendua (erantzun-denbora, indexatzeko denbora...), dokumentu edo datu berriak indizean txertatzeko azkartasuna, sistemaren eskalagarritasuna (datu edo erabiltzaile kopuruarekiko), aplikazio berrietara egokitzeko gaitasuna, ebaluazioa edo parekatze-arazoa.
Bilaketak zailak direnean egoera egokia dira Hta erabiltzeko. Hainbat hizkuntzarekin bilatu nahi dugu, erantzunik ez edo gutxi aurkitzen badira ( horrelakoetan, bilatzeko hitz multzoa zabaldu daiteke sinonimia eta hiperonimiaren bidez), edo kontrakoa gertatzen denean, erantzun gehiegi lortzen direnean (horrelakoetan hitzen adieren desanbiguazio semantikoa erabil daiteke galderaren esanahia fintzearren).
IB multimodala. Soinuan, irudietan eta bideoetan ere bilaketak egitea da helburua. Helburu horiek lortzeko oinarrizko tresnak hizketa-ezagutzaileak (honezkero beren doitasuna %60tik gora dabil) eta irudien sailkapen automatikoa. Oinarrizko estrategia sailkapen metodoen bidez irudien metadatuak lortzea da (zer dago irudi honetan, zein dira forma eta kolore nagusiak...), hizketa-grabazioak testu bihurtzea, eta hainbat esteka sortzea dokumentu elementuekin. Hori egin eta gero ohiko bilatzaileak erabil daitezke multimedian irudiak edo hitzak bilatzeko .
Aipuaren errorea: <ref> tags exist for a group named "oh", but no corresponding <references group="oh"/> tag was found
<ref>
<references group="oh"/>