Azken aldi honetan Google besterik ez dugu gogoan, baina Google nahiko bilatzaile eskasa da euskaraz bilatzeko, euskal gramatikaren izaera dela-eta: Googlek hitz osoak bakarrik hartzen ditu aintzat eta ezin dugu atzizkiekin osatutako hitzen artean bilatu. Hori desabantaila handia da gainontzeko hizkuntzen aurrean. Lehendik eskas eta Googlek oraindik gehiago eskasten gaitu.
Jo dezagun "mendi" bilatzen dugula. Googlek ez digu aurkituko "mendia", "mendira", "menditik", "mendiko"... Bila dezagun "monte": Googlek "el monte", "al monte", "del monte"... aurkituko ditu. Aldea handia da, ageri denez.
Ez dugu ahaztu behar google ingeleserako egina dela, eta egoki datorrela horregatik gaztelera eta frantsesa bezalako hizkuntzetarako ere, baina ez da euskararako batere egokia: badirudi hori ahaztuta dugula.
Baina ez du zertan horrek horrela izan derrigor, beste era batera izan zitekeen. Horren adibide da Exalead bilatzailea .
Beste bilatzaile honetan izartxoa (*) erabil daiteke bilaketa zehazteko orduan eta nahikoa da erroari eranstea ("mendi*") aldaera guztiak harrapatzeko. Eta hori hasiera baino ez da. Bilaketa aurreratuan saiatuz gero ikusiko duzue ahalmen handiko bilatzailea dela Ingelesaz beste hizkuntzatarako.
Jo dezagun esaterako "aizkorri" eta antzekoak bilatu nahi ditugula, idatzita ager dezakeen itxura desberdinak aintzat hartuta. "Espresio erregularrak" erabil ditzakegu horretarako, eta "/ai?[xzs](g|k)orri.*/" katea bilatu, "aizgorri", "axkorri" nahiz "aizcorri" aurkitzeko, edota "/leh?ih?otik/"; "leihotik", "lehiotik", "leiotik" aurkitzeko...
Ez du Googlek duen hedadura izango, baina ea zer iruditzen zaizuen. Egizue ezagutzen duzuen gairen baten inguruko bilaketa eta erraz antzemango diozue emaitza egokia den ala ez. Niri interesgarria iruditu zait oso, gehiegi erabili gabe.
> Artikuluan aipatzen den 'mendi*' bilaketa adibideak ez du euskarazko emaitzik ematen...
"language:eu" eransten badiozu euskarazko guneetan bakarrik bilatzen du.
> Bestalde, 'zabaldu' bilaketak zabaldu.com jartzen du lehen emaitz bezala, baina 'zabaldu*' bilaketak ordea ez du zabaldu.com emaitza bezala ematen!
"zabaldu* language:eu" bilatzen baduzu ikusiko duzu 2. eta 3. sarreratan ageri dela, baina aipamen gisara. ez du seguraski zabaldu.com domeinua indexatua izango oraindik (hori izango du seguraski gabeziarik handiena googleren aldean, baina hori denbora kontua izan daiteke; ezin esan).
> Soluzioa 'stemming'-a erabiltzea da...
ez nuen hitz hori ezagutzen. egokia da arazoa azaltzeko.
> Exalead honekin egindako probek ez dizkidate nahi nituen emaitzak eman, eta hori da bilatzaile baten helburu nagusia. Ez da adierazpen erregularrak erabiltzeko aukera eskaintzea bezain erraza, eta Googlek horiek erabiltzeko aukera eskaintzen ez badu, erraztasuna eskaini nahi duelako da.
ez dut esan nahi nik Exalead honen emaitzak Googlerenak baino hobeak direnik, baina planteamendua hobea dela iruditzen zait, gurerako behintzat. Googleren gabeziak erakutsi eta euskarak sarean bizi duen arazo hori planteatzea zen nire asmoa. argi dago bide luzea gelditzen zaiola Exalead honi Googleren parera heltzeko, baina hark adina web arakatuko balitu, nik ez nuke zalantzarik izango... euskaraz bilatzeko.
Exalead bilatzaile honek adierazpen erregularrekin bilaketak egiteko aukera eskaintzen du, baina hala eta guztiz ere oso eztabaidagarria da bere funtzionamendua. Ados nago Googlek euskaraz Stemming deritzona (http://eu.wikipedia.org/wiki/Stemming) ez burutzea desabantaila izan daitekeela (hori momentuz ingelesez ere nekez egiten du-eta), baina kontu hau bilatzaile guztientzako ikertzeke dagoen zerbait da oraindik.
Artikuluan aipatzen den 'mendi*' bilaketa adibideak ez du euskarazko emaitzik ematen lehenengo orrialdeetan behintzat, beraz berdin berdin bilaketa zehaztu beharra dago nahi duguna aurkitzeko (googlen bilaketa berberak emaitza askoz hobea ematen du). Bestalde, 'zabaldu' bilaketak zabaldu.com jartzen du lehen emaitz bezala, baina 'zabaldu*' bilaketak ordea ez du zabaldu.com emaitza bezala ematen! (lehen 4-5 orrialdeetan behintzat). Adierazpen erregularren kontua interesgarria izan daiteke, baina horretarako hauek erabiltzen jakin behar, eta informatikaria ez den batek nekez jakingo du hori; beraz, arazoak hor darrai.
Soluzioa 'stemming'-a erabiltzea da, zalantzarik gabe, baina horretarako ikerketak aurrera egin beharko du, eta 'mendira' bilaketa batek 'mendi', 'mendia', 'mendiko'... emaitza bezala eman beharko ditu, eta beti ere euskaraz. Iritsiko da hori ere. Eusko Jaurlaritzak, bitartean, euskarazko berbategi eta corpus-ak sortu eta hobetzean (http://www.euskaracorpusa.net/) izan beharko luke ardura bitartean, bestela ez dugu inoiz euskarazko ganorazko bilatzaile eta itzultzaile automatikorik edukiko.
Exalead honekin egindako probek ez dizkidate nahi nituen emaitzak eman, eta hori da bilatzaile baten helburu nagusia. Ez da adierazpen erregularrak erabiltzeko aukera eskaintzea bezain erraza, eta Googlek horiek erabiltzeko aukera eskaintzen ez badu, erraztasuna eskaini nahi duelako da.