Teknologia albisteak

HobeBila, euskarazko bilaketen hobetzailea

Erabiltzailearen aurpegia
Luistxo Fernandez - Code & Syntax
2002-12-10 : 11:12

HobeBila aplikazioak bilaketak euskaraz egiten laguntzen du. Python-en idatzitako programa bat da, baina bere mekanika, beste lengoaietan errepika daiteke erraz-erraz.

HobeBila UEUk antolatutako Software Librearen II. Euskal Mintegian aurkeztu zen, duela egun batzuk.

Plataformaz independentea da programa hau: Mac, Win, Linux eta Unix inguruneetan dabil python, eta HobeBila-rekin prozesatutako termino-kateak edozein sistemaren kontra bidal daitezke: sarean dauden bilatzaileak (Dmoz, Google...), datubaseak (SQL...), web aplikazioen zerbitzariak (Zope...).

Lerro gutxi batzuetako programa xume eta erabilgarria da HobeBila. Doan da eta librea (GPL). Funtsean nahi duzuna egin dezakezu honekin, bere izaera librea bortxatu eta zeure asmakuntza propietario itxi eta propioa bihurtzea salbu. Jaisteko, hemendik: http://www.codesyntax.com/Services/HobeBila

Software produktu hau Gipuzkoako Foru Aldundiak lagunduta egin ahal izan dugu. 2002. urteko Euskara eta Teknologia Berriak deialdiaren laguntzarekin. Uni Ermua-Eibar BHI Lanbide Heziketako ikastetxeko bekadun batek, Patxi Diazek, lagundu zuen, bereziki, programa garatzen.

Zioa: Euskaraz bilatu aplikazio informatikoetan

Euskaraz ingurune informatikoan bilaketak egiteko orduan, deklinabidearen muga daukagu aurrean: Bidaiak bilatu eta bidaietarako txartelak ez ditugu aurkitzen. Donostia bilatu eta ez dugu aurkitzen Donostiako... Ez baitira termino berak.

Gaur egun sistema informatikoetan berez integratuta datozen bilaketa moduak ez daude amaiera desberdinak diskriminatzeko pentsatuak, are gutxiago euskararen deklinabideak dauzkan hitz-amaiera moduak eta hitz-erroak detektatzeko eginak.

Eta hala ere, bilaketa da informatikako edozein aplikazioetan (eta batez ere, ezerren gainetik, Interneten) erabiltzailearentzako oinarri-oinarrizko funtzionalitatea/eragiketa.

Zein konponbide du auzi honek euskaraz?

  • Lematizazioa, eta analisi morfologikoa. Euskararen gramatika eta hiztegia integraturik dauzkaten sistema aurreratuak. Honelako garapenak bi aldiz sustatu dira (babes publikoarekin bi kasuetan) eta egin egin dira euskaraz, baina emaitzak, arrazoi desberdinak medio, enpresa pribatu biren esku daude. Ez dira aplikazio libreak, beraz, denon eskura daudenak. Aplikazio hauek, bilaketetan laguntzeaz gain, hizkuntzaren prozesamendu naturalean laguntzen dute batik bat, hala nola Xuxen zuzentzailea ortografikoan.
  • Bilaketaren hobetzaileak. Lematizazioa baino hurbilpen sinpleagoa, ez du balio zuzentzaile ortografiko baterako, baina, aldiz, bilaketa modu arinean konpontzen dutenak.

Code & Syntax enpresak bazuen garatua bilaketa hobetzaile sinple bat. Hitz amaieren –a eta –ak kasuak detektatu, eta haien ordez * izarñoa edo amaiera libreko aukera gehitzen zuen guk garatutako webguneen bilaketetan.

Sistema hori oinarri-oinarrizkoa zen, eta hutsune asko zituen: nabarmenenak, termino anitzen bilaketarekin huts egiten zuen, sigla eta termino laburrekin oker asko egiten zituen, eta absolutu singular eta pluralaz gain, beste deklinabiderik ez zuen kontuan hartzen.

Hala ere, abiapuntu horretatik, sistema hori hobetuz bilaketen emaitzetan zehaztasun optimoa lortzen duen produktu bat garatu dugu.

HobeBila, bilaketen hobetzaileak abantaila nagusi bi ditu, bere sinpletasunean, lematizazioaren alderaturik:

  • Bilaketa ekintzara dago enfokatua, ez zuzenketa, analisi morfo-gramatikelera edo antzerakoetara.
  • Plataformaz independentea da. Bilaketa terminoak eraldatuz lan egiten du, eta hortaz, termino zehatzari egin beharreko aurre-prozesaketa da funtsa, gero ondoren hori edozein datubase, sistema, zerbitzari edo plataformaren kontra jaurti daitekeelarik. Sistema bat eta bakarrak berdin funtzionatzen ahal du Aurki bilatzailean (zeinak bilaketak Dmoz.org zerbitzariaren kontra egiten dituen), Sustatu.com bezalako gune batean (zeinak bilaketak Zope aplikazioaren barne katalogoaren kontra egiten dituen), edo, demagun, Oracle edo SQL Server datubase baten kontra (zeinetan bilaketa SQL lengoaian bideratu daitekeen)

Metodologia

Metodologia argi bat erabili dugu: metodo heuristikoa. Eta materiala eta bidea eskura izan ditugu, zorionez: Aurki bilatzailean jendeak ZER eta NOLA bilatzen duen badakigu (Code & Syntax-ek apailatu baitu teknikoki gune horren oraingo softwarea), zein termino sartzen diren, eta noiz lortzen duten emaitza positiboa, eta noiz ez. Aurki da euskara hutsezko Interneteko bilatzaile erabiliena, Euskal Autonomi Erkidegoan publiko egindako datuen arabera.

Hortaz, Aurkiko aste jakin bateko bilaketa bloke bat analizatu dugu. 13000 bilaketa ekintza biltzen zituen log bat atera genuen. Uste dugu emaitza ez dela bakarrik Aurki-rako, eta fitxategi hori publiko egin dugu hemen

Erantzun

Sartu