Atzo arratsaldean aurkeztu zuen EHUko Euskara Institutuak bere azkenengo lana: Euskararen Egungo Testuen Corpusa (ETC). XXI. mendeko prosazko testuez osatutako bilduma erraldoia da. Euskaraz sekula izan den handiena: 200 milioi hitz baino gehiago biltzen ditu, guztiak ere 2001-2011 bitarteakoak. Sarean dago atzotik erabilgarri.
Atzo izan zen aurkezpena. Lana gidatu duten bi irakasleak izan ziren bertan, Pello Salaburu (EHUko Euskara Institutuko zuzendaria) eta Ibon Sarasola (EHUko irakaslea). Eurekin batera, besteak beste, Iñigo Urkullu lehendakaria. Atzoko ekitaldiak zuen garrantziaren lekuko.
Izan ere, inoiz egin den euskararen corpusik handiena da Egungo Testuen Corpusa (ETC). Guztira, 205 milioi hitz biltzen ditu on-lineko corpus berriak. Testu guztiak prosazkoak dira eta XXI. mendekoak (2001-2011 bitartekoak).
Hauek dira Corpus horretan bildu diren iturri nagusiak:
Hegoaldekoak eta Iparraldekoak dira testuak, prosazkoak (liburuak, prentsa eta Wikipediako testuak) eta kalitateagatik aukeratuak. Badira jatorriz euskaraz idatzitako testuak eta testu itzuliak ere. Iturriak eta urteak ere kontuan hartu izan dira, pisu antzekoa izan dezaten.
Alderatzeko, adibidez: Ereduzko Prosa Gaur corpusak, 25 milioi hitz ditu, eta Euskaltzaindiaren Orotariko Euskal Hiztegiak (euskararen tradizio idatzia aztertzeko egin den lanik sakonenak) 5 milioi hitz zituen. Beraz, corpus berri hau 40 aldiz handiagoa da. Euskal Herriko handiena ez ezik, nazioartean ere handienetakoa dela azpimarratu zuten atzoko aurkezpenean (ezaugarri beretsuak dituzten corpusen artea).
Tresna arina eta erabilterraza da ETC. Guk ere probatu dugu eta gustatu zaigu. Interfaze erraz eta intuitiboa du, eta emaitzak argi eta garbi erakusten ditu. Hitza bakoitzaren erabileraren informazioa ematen du, lemarena ez ezik ("sustatu", baita aldaera guztiena ere (sustatzeko, sustatzera, sustatzearen, sustatuta...).
Zerrendekin eta datu estatistikoekin batera, urtez urteko datuak ere ematen ditu, eta adibideak ikusteko aukera ere bai. Hortik aurrera, bilaketa aurreratuagoak eta filtroak egiteko aukera ere ematen du (iturriaren arabera, jatorrizko hizkuntzaren arabera, eta abar).
Horrekin batera, antzeko lemak eta hitza konbinazioak ere eskaintzen dizkigu ETC Corpusak.
Gauza bakarra ez dugu aurkitu: behin bilaketa bat egin ondoren, sarrera-orrira itzultzeko modua. Gainontzean, tresna potente, arin eta eraginkorra.
Josu Landa teknikariak gidatu du lan teknikoa, eta proiektuak Lagun Aro Fundazioaren diru-laguntza jaso du.
Erantzun
Sartu