Teknologia albisteak

Elhuyar Fundazioak Web-corpusen Ataria aurkeztu du, eta kontsultagai jarri du

Erabiltzailearen aurpegia
2013-02-15 : 14:21
Berriki aurkeztu du Elhuyar Fundazioak Web-corpusen Ataria, eta erabiltzaileek jada atari honek eskaintzen dituen baliabideak kontsulta ditzake: Euskarazko corpus elebakarra, Euskara-gaztelania corpus paraleloa eta Euskarazko corpusetik automatikoki erautzitako hitz-konbinazioak

Elhuyar Fundazioak Web-corpusen Ataria eratu du, eta aste honetan aurkeztu du San Telmo Museoan, Badu Bada erakusketaren barruan. Atari  hau kontsultagai jarri du Elhuyarrek, eta erabiltzaileek hiru baliabide izango dituzte eskura:

  • Euskarazko corpus elebakarra: Orain arte eratu den euskarazko corpusik handiena da, alde handiz gainera, 125 milioi hitz inguru jasotzen baititu. Interneten dauden mota eta arlo guztietako testuak biltzen ditu, eta linguistikoki etiketatuta daude.
  • Euskara-gaztelania corpus paraleloa: Webean automatikoki atzemandako euskara-gaztelania gune eta dokumentu elebidunak esaldi mailan parekatu dira, automatikoki ere bai. 18 milioi hitz inguru ditu corpus honek, eta egungo euskara-gaztelaniako corpus paralelo publiko handiena da. Aurrekoa bezala, linguistikoki etiketatuta dago. Oso baliagarria da hizkuntza bateko hitz edo esapide bat beste hizkuntzan nola eman den jakiteko.
  • Euskarazko corpusetik automatikoki erautzitako hitz-konbinazioak: euskarazko corpusetik automatikoki erauzitako hiru motatako konbinazioak eskaintzen dira: izen+aditz, izen+izen eta izen+izenondo. Horren bidez, erabiltzaileak ikus dezake, esaterako, izen jakin batekin zein aditz konbinatzen diren, neurri estatistiko batzuen arabera ordenatuta, baita horien testuinguruak bistaratu ere.
 Web-corpusen Atariari buruzko artikulu zabal, mamitsu eta xehetasunez beterikoa argitaratu dugu Elhuyarren I+Gko blog-komunikatean.

 

Erantzun

Sartu