Teknologia albisteak
4

CorpEus, Internet euskarazko corpus gisa kontsultatzeko

Erabiltzailearen aurpegia
Igor Leturia - Elhuyar Fundazioa - I+G saila
2007-09-28 : 11:09

Internet euskarazko corpus erraldoi bat balitz bezala kontsultatzeko aukera ematen du CorpEus-ek. Sartutako hitzaren (edo hitzen) lema bidezko bilaketa egiten du Interneteko euskarazko orrien artean, eta orri horietan dauden hitzaren agerpen guztiak erakusten ditu bere testuinguruan, hainbat daturen araberako grafikoekin batera.

Elhuyar Fundazioko I+G taldeak, EHUko Informatika Fakultateko IXA taldearen laguntzarekin, CorpEus zerbitzua on line jarri du.

Irailaren 15 eta 16an Louvain-la Neuve (Belgika) herrian egindako WAC3 (Web as Corpus) nazioarteko kongresuan aurkeztu da CorpEus, eta oso harrera ona izan du. Tresnaren ezaugarriak oso interesgarriak iruditu zaizkie beste parte-hartzaileei, eta bertan erabilitako metodologia beste hizkuntza batzuentzat baliagarri izan daitekeela aipatu da.

Zer da CorpEus?

Gaur egun, hizkuntza guztiek behar dituzte corpusak. Oso baliabide garrantzitsuak dira hizkuntza-teknologiak garatzeko, hiztegiak egiteko, hizkuntza bera arautzeko, itzulpenetan laguntzeko... Azken finean, hitzen erabilera errealen inguruko informazioa ematen digute corpusek: hitz bat beste bat baino gehiago erabili den, nola deklinatu edo idatzi ohi den, zer hitzekin konbinatzen den...

Corpusak egitea, berriz, lan garestia eta neketsua da, eta zaila da beti eguneratuta edukitzea. Horregatik, euskarazko corpusak gutxi eta txikiak dira, beste hizkuntzetakoekin konparatuta behintzat.

Hor dago, ordea, Internet edo amarauna, testu-bilduma erraldoia, guztion eskura, euskarazko beste edozein corpusetan baino askoz testu gehiagorekin, eta etengabe eguneratzen dena. Hori ere corpus bat da, nahiz eta linguistikoki etiketatu gabea den. Ondo legoke corpus gisa kontsultatu edo ustiatu ahal izatea. Hori da, hain justu, CorpEusek egiten duena.

CorpEusen ezaugarriak

CorpEusek Interneteko bilatzaileen APIak erabiltzen ditu hitz bat zer orritan agertzen den jakiteko. Baina bilaketa, Interneteko beste tresna eta bilatzaileek ez bezala, euskararen bi arazoak konponduta egiten du: lemaren arabera bilatzen du, eta euskarazko orriak soilik ematen ditu. Hori sorkuntza morfologikoaren eta iragazki-hitzen bidez lortzen da, EHUko Informatika Fakultateko IXA taldearen hainbat tresna erabiliz.

Ondoren, orri horietan dauden hitzaren agerpen guztiak erakusten ditu, bere testuinguruan. Hitzaren agerpen-kopurua ere erakusten du, eta hainbat faktoreren araberako grafikoak egiten ditu: forma, kategoria, aurreko hitzaren lema... Emaitzak hainbat faktoreren arabera ordenatu ditzake, eta emaitzen analisi linguistikoa ere erakusten du. Hainbat dokumentu-motarekin funtzionatzen du (HTML, XML, RSS, RDF, TXT, DBF, DOC, RTF, PDF, PPT, PPS, XLS).

Horrez gain, eskatutako hitzak aldaerak dituela detektatzen bada, bilaketa egiteaz gain, aldaerak proposatzen zaizkio erabiltzaileari, edo, eskatutakoa aldaera bada, forma estandarra. Hori horrela egiten da baita deklinabide-atzizkien aldaerekin ere. Gainera, ezagutzen ez diren hitzen kasuan, erregela fonologikoen bidez hitz estandar batera irits daitekeen begiratzen du CorpEusek, eta, hala bada, hori ere proposatzen du.

Erabiltzaileak hitz anbiguo edo ezezagun bat sartzen duenean, itzulitako analisien artean aukeratu dezake. Termino edo izen-sintagma osoen bilaketa lematizatua ere egin dezake, hitzak komatxo bikoitzen artean sartuz.

Bilatzaileen APIak

CorpEus bilatzaile nagusien APIak erabiltzeko prestatuta dago (Google, Google AJAX, Yahoo!, Windows Live Search), baina zerbitzu publikoa Windows Live Search-en bidez emango da oraingoz, hori baita baldintzarik egokienak eskaintzen dituen APIa (egunean 25.000 erabilera, Google-en 1.000 eta Yahoo-ren 10.000ren aldean).

Informazio gehiago

CorpEus on line dago, http://www.corpeus.org helbidean. Bertako aurkezpenean eta laguntza-orrian dago informazio gehiago. Horrez gain, CorpEus toki hauetan aurkeztu edo agertu da:

Erantzunak

Juan Luis
2007-09-28 : 12:11

Kaixo, tresna interesgarria ematen du; hala ere, azaldu dezakezu apur bat nola erabiltzen den? Hiru kasilla daude: 'Zer' ('forma' eta 'lema') 'Bilatu' eta 'Analisia'.



Azaldu dezakezu hobeto bakoitzaren funtzioa? eskerrik asko.

Luistxo
2007-09-28 : 12:28

Nik sexua bilatu dut, bilatzaile bat aurkitzean egin ohi den bezala, eta Teknosexua agertu zait lehen emaitzetan: pantaila irudia.


Igor Leturia
2007-09-28 : 13:44

> Kaixo, tresna interesgarria ematen du; hala ere, azaldu dezakezu apur bat nola erabiltzen den? Hiru kasilla daude: Zer (forma eta lema) Bilatu eta Analisia.


Zer aukeran Forma hautatzen baduzu, Bilatu kutxan sartutako hitzaren forma zehatz hori bilatuko dizu euskarazko orrietan. Aldiz, Zer aukeran Lema hautatuz gero, lematzat Bilatu kutxan sartutako hitza duten forma guztiak bilatuko dizkizu. Eta hor sartzen da jokoan Analisia aukera. Emandako hitza anbiguoa bada (lema edo kategoria posible bat baino gehiago badauka), analisi horiek agertuko zaizkizu Analisia aukeran, zuk bat hautatu dezazun eta bilaketa horren arabera egin dezan. Eta sartutako hitza berria edo ezezaguna bada, bere analisi posibleak ematen dira aukeran Analisia aukeran. Analisia aukerara joan gabe zuzenean bilaketa botoia sakatzen bada, lehen analisia hartzen da.


Informazio gehiago eta zehatzagoa daukazu CorpEusen laguntza orrian .


Antton Gurrutxaga
2007-09-28 : 15:28

> Nik *sexua* bilatu dut, bilatzaile bat aurkitzean egin ohi den bezala, eta "Teknosexua":http://eibar.org/blogak/teknosexua agertu zait lehen emaitzetan: "pantaila irudia.":http://www.flickr.com/photos/luistxo/1451167767/



Luis:



'Bilatu' laukian 'sexu' idatzita, sistemak 'sexu' lemaren zenbait agerpen erakusten ditu. Bilaketa arruntean, agerpenak guneka multzokatuta daude, eta gune bereko agerpenen gainean dagoen testua gunearen izena da, eta hor ageri da 'Teknosexua' (blogaren izena, hain zuzen ere). Beraz, 'Teknosexua' ez da bileketaren emaitza (ez dago berdez nabarmenduta), bilaketaren emaitzaren erreferentzia baizik.



Guneen datuak ikusi nahi ez badituzu, aski da bilaketa aurreratura joatea eta, 'Ordenatu honen arabera' laukian, 'Hitza', 'Ondoko testuingurua' edo 'Aurreko testuingurua' hautatzea

Erantzun

Sartu