Teknologia albisteak
1

CorpEus eta Elebila-ren teknologia euskarazko web bilaketak egiteko

Erabiltzailearen aurpegia
Igor Leturia - Elhuyar Fundazioa, I+G saila
2007-11-06 : 08:11

Berriki eta oso denbora tarte txikian, bi web zerbitzu interesgarri agertu dira euskal Internetaren panoraman: CorpEus eta Elebila. Interneteko hainbat tokitan irakurritakoagatik, badirudi zerbitzuok aurkeztean ez dela ongi ulertu zertan datzan teknologia hori. Artikulu honetan argiago azaltzen saiatuko gara CorpEus eta Elebilaren azpian dagoena.

Internet euskarazko corpus gisa kontsultatzeko tresna da CorpEus; eta Elebila, berriz, euskarazko bilatzailea.

Bi tresnek erakusten dituzten emaitzak eta eman dakiekeen erabilera ezberdinak badira ere, biek euskarazko web bilaketak egiten dituzte, eta biek erabiltzen dute Elhuyar Fundazioko I+G sailean garatutako teknologia bera.

Euskaraz bilatzeko arazoak

Interneten euskarazko edukia bilatzeko ohiko biltzaileetara (Google, Yahoo!, Windows Live Search...) jotzen dugunean, bi dira aurkitzen ditugun arazo nagusiak. Lehenengoa da batek ere ez duela ematen aukerarik euskarazko orrietan soilik bilatzeko. Horrela, beste hizkuntza batzuetan grafia bera duten hitzak bilatzean, hala nola energia, anorexia edo software, apenas agertzen zaizkigun euskarazko emaitzarik. Gauza bera gertatzen da izen berezi askorekin, hala nola Egipto, Newton edo Guggenheim. Eta antzera asto, katu edo esne moduko hitz labur askorekin, beste hizkuntza batzuetan existi daitezen aukera handiak baitaude, sigla gisa besterik ez bada ere.

Bigarrena da euskara hizkuntza deklinatua dela, eta ezaugarri hori ez dutela kontuan hartzen bilatzaileek. Euskarazko hitz bat bilatzean, hitzaren deklinazioak ere bilatzea komeni da, bestela energia hitza bilatzean energiaren kontsumoa handitu da dioen orri bat ez litzateke agertuko, adibidez.

Bilatzaileen APIak erabilita

Interneteko ohiko bilatzaileek euskararentzat emaitza onak ematen ez dituztela ikusita, bi aukera daude: bilatzaile erabat propioa garatzea edo beste bilatzaileek eskaintzen dituzten APIak erabiltzea. Lehenengoa oso konplexua da. Alde batetik, zailtasun teknikoak daude, bilatzaile nagusiak ere oraindik ikertzen ari direnak eta, ziur aski, etengabe jarraitu beharko dutenak: rankinga, pertsonalizazioa, web spama... Bestetik, eskatzen duen hardware eta azpiegitura guztia dago: ordenagailu asko crawlinga egiten, indize erraldoiak ostatatzeko makinak, bilaketa zerbitzua emango dutenak...

APIak erabiltzea (bilatzaileek eskaintzen dituzten interfaze edo funtzio-multzoak, horiek erabiliz norberak bere aplikazio propioa gara dezan) askoz merkeagoa eta sinpleagoa da. Desabantaila batzuk ere baditu: bilatzaileekiko menpekotasuna dago, ez dago kontrolik ordenaren eta beste parametroen gainean... Hala ere, abantailak gehiago irudita, APIak erabiliz garatu dira CorpEus eta Elebila.

Euskarazko emaitzak soilik

Bilatzaileengandik euskarazko emaitzak soilik lortzeko, euskaraz maizen agertzen diren hitzak gehitzen zaizkio erabiltzaileak bilatu nahi duen hitzari. Beste hizkuntzetan dauden orriek ez dituzte normalean iragazki-hitz horiek izango, eta euskaraz dauden testu gehienek izango dituzte hitz ohikoenak diren horiek.

Lau iragazki-hitz eransten zaizkio APIari bidaltzen zaion galderari: eta, da, ez eta ere. Lehenengoarekin soilik ez da nahikoa, ETA izena askotan agertzen baita euskara ez den beste hizkuntza batzuetan ere. Birekin ere ez, da hitzak bai esan nahi baitu hainbat hizkuntza eslaviarretan. Hirurekin ere ez, ez hitzak, laburra izaki, beste hizkuntza batzuetan ere esanahia baitu edo zerbaiten sigla baita. Beraz, lau hitzak gehituz lortzen da emaitza ia guztiak euskarazkoak izatea. Noizean behin euskaraz ez dagoen orriren bat ere itzultzen da, baina horiek iragazteko IXA Taldeak garatutako LangId hizkuntza identifikatzailea erabiltzen da. Bilatzaileak erakusteko bidaltzen duen testu zatitxoari aplikatzen zaio, eta euskaraz ez dagoela ikusten bada, emaitzetatik ezabatzen dituzte bi tresnek.

Bilaketa lematizatua

Euskarak morfologia aberatsa du: hitz baten lema batek (ekuazio adibidez) forma asko ditu (ekuazio bera, ekuazioa, ekuazioak, ekuazioaren, ekuazioei...). Interneten hitz bat bilatzean, hitz horren edozein forma aurkitzea komeni da. Beraz, euskararentzat propio garatutako bilaketa-motore batek ez lituzke hitzen forma zehatzak indexatu beharko, beraien lemak baizik, baina Interneteko bilatzaileek ez dute hori egiten eta sartutako hitz-forma zehatza soilik bilatu ahal dute, hitz beraren beste edozein forma dituzten orriak galduz.

CorpEusek eta Elebilak sorkuntza morfologiko bidezko galderaren hedapena erabiltzen dute hori konpontzeko. IXA Taldeak egindako sorkuntza morfologikoko tresnak erabiltzen dira lema baten forma ezberdinak lortzeko, eta forma horietako edozein duten orriak eskatzen zaizkio APIari OR operadore baten bitartez. Horrela lortzen dugu bilaketa lematizatua egitea.

Egia esateko, ez da lema bidezko bilaketa osoa egiten; izan ere, euskal hitzek deklinazio mordoa izan ditzakete (teknikoki, infinitu deklinazio) eta bilatzaileen APIek mugak dituzte bidal dakizkiekeen hitz kopuruari dagokionez. Horregatik, deklinazioak erabilera-maiztasunaren arabera ordenatzen dira eta APIak onartu bezainbeste bidaltzen dira, horrela kasu gehienak barne hartzeko eta ia benetako bilaketa lematizatua lortzeko.

Bilaketa nabigazionala vs. informazionala

Euskarazko emaitzak soilik lortzeko lau iragazki-hitz erabiltzen direnez, batzuetan euskaraz dauden orriak emaitzetatik kanpo gera daitezke, hitz horietako bat edo batzuk ez dituztelako. Honek arazo bat suposa lezake batez ere bilaketa nabigazionaletan.

Zer den hori? Interneteko bilatzaileen arloko teorikoek bi motatako bilaketak bereizten dituzte: nabigazionalak (bilaketaren bidez web gune jakin baten helbidea lortu nahi denean, hala nola Euskaltube edo Euskadiko Kutxa) eta informazionalak (zerbaiti buruzko informazioa bilatu nahi denean, kantzerra edo energia nuklearra adibidez). CorpEus eta Elebila euskarazko EDUKIA bilatzeko diseinatuta daude batez ere, hau da, bilaketa informazionalentzat diseinatuta, hor huts egiten baitute ohiko bilatzaileek. Eta informazio ona duten testuak, normalean, iragazki-hitzak izateko nahiko luzeak izaten dira, eta agertzen dira horrelako bilaketetan.

Baina informazio nabigazionalentzat batzuetan Elebila ez da hain ongi ibiliko, web guneetako sarrera orriek edo orri nagusiek, hau da, horrelako bilaketetan agertzea nahi izaten dugun orriek, sarritan testu gutxi eta laburra izaten baitute, eta agian ez dituzte iragazki-hitzak edukiko. Baina konponbidea ere badago. Elebilak bilaketa nabigazional batentzat huts egiten duenean bi gauza egin ditzakegu: Bilaketa aurreratuan sartu eta iragazki ahulagoarekin saiatu (iragazki hitz gutxiago erabiliko ditu eta bilatzen genuen orria agertzeko aukera gehiago izango dugu), edo Edozein hizkuntzatan bilatzeko esan (honek bilatzaile arrunt batek egingo lukeen bilaketa egingo baitu, eta euskaraz dauden orrien bilaketa nabigazionalentzat ere nahiko ongi funtzionatzen dute Interneteko ohiko bilatzaileek, orri batera estekatzen duten orri kopuruan oinarritutako ranking-a nahikoa baita horrelako bilaketentzat).

CorpEus-en erabilera informazionala da batez ere. Hala ere, kasu batzuetan gerta daiteke iragazki-hitzen erruz emaitza gutxi agertzea. Kasu horretan Saiatu estaldura handituz aukera eskaintzen zaigu, eta orduan iragazki-hitz gutxiagorekin saiatzen da. Honek emaitza onak izan ditzake bilatutako hitza euskarazkoa soilik bada, baina beste hizkuntza handiagoren baten grafia bera badu, euskarazkoak ez diren emaitza asko itzuliko ditu APIak eta gero ez da ezer erakutsiko, LangId hizkuntza identifikatzaileak ezabatuko baititu.

Windows Live Search APIa

CorpEus eta Elebila zerbitzuak Microsoft-en Windows Live Search bilatzailearen APIan oinarritzen dira. Aukera hau bilatzaile nagusiek euren APIak erabiltzeko jartzen dituzten mugak ikusita egin da: Google-en APIak egunean 1.000 dei bakarrik onartzen ditu, eta gainera jada ez ditu izen-emate berriak onartzen, API hori alde batera uzten ari delako Google AJAX Search API berria bultzatzeko, baina horrek 8 emaitza besterik ez ditu bueltatzen; Yahoo!-ren APIak egunean 10.000 dei onartzen ditu IP ezberdin bakoitzetik; eta Microsoft-en APIak egunean 25.000 dei onartzen ditu doan, hori gainditzeko lizentzia komertzial baten aukerarekin.

Baina CorpEus eta Elebila ez daude inondik inora Windows Live Search-ekin derrigorrez eta betirako ezkonduta. Izan ere, beste API batzuk erabiltzeko (Google, Google AJAX, Yahoo eta Alexa) ere gai dira, baina zerbitzu publikoa Windows Live Search-ekin ematea erabaki zen baldintzengatik. Baldintzak edozein unetan aldatzen badira, ia berehala jar ditzakegu martxan beste API bat erabil dezaten.

Erantzunak

ibai
2007-11-07 : 17:11

Oso interesgarria. Batez ere Windows Live Search zergatik erabili duten zalantza neukan eta orain argi daukat.

Erantzun

Sartu