Europako Batzordeak bere itzulpenen korpusa liberatu du. Korpusean milioi bat esaldi aurkitu daitezke 23 hizkuntza ofizialetako 22 hizkuntzetan (irlandera berriki onartu denez zerrendatik at geratu da).
Informazio gehiago Europako Batzordearen Hizkuntza Tekologien inguruko webgunean.
Material hori ezinbestekoa da itzultzaile automatikoen lana errazteko. Eusko Jaurlaritzak horrelako programa bat erosi nahi du aurten, Enpresa Digitala programaren albistegian argitatatu denez.
Xede nagusia da eleaniztasuna sustatzea Europaren aniztasunaren barruan batasunerako oinarrizko elementu izan dadin. Itzultzaile automatikoek korpusak erabiltzen dituzte aurretik ezagutzen diren esamoldeen esanahietan oinarritzen diren ez ohiko esamoldeak ikasteko. Gainera, hiztegiak, zuzentzaile gramatikalak eta ortografikoak prestatzeko ere erabili daitezke.
Korpus hau sortu zen Europako erakundeek derrigorrez itzuli behar dutelako erkidegoko zuzenbide guztia 23 hizkuntza ofizialetan. Izan ere, letoniera edo erromanikoari dagokienez, egun aurkitu daitekeen bildumarik garrantzitsuena da.
Baina euskara ez dago 23 hizkuntza ofizial horien artean.
Eta beraz, hizkuntz baliabideetan beste hizkuntzekin orain dugun aldea dezente handiagoa da corpus berri hori zabalduta.
Itzulpen estatistikoetan corpus handiak izatea giltza da emaitza egokiak lortzeko. Batez ere itzulpen estatistikoa hizkuntza oso diferenteen artean egin nahi bada.
Aldea nahiko handia zen orain arte. Azken bi urteotan ikerketa mailan asko eta asko erabili da Europarl korpusa (Europako Parlamentuko aktak). Estandar bihurtzen ari da esperimentuak egiteko eta 30 milioi hitz biltzen ditu.
Euskararako horrelako korpus bat biltzea ezinezkoa da egun. Nekez lortzen ditugu 2-3 milioikoak. Eta kopuru horiekin jokatuta emaitzak txarragoak dira, noski.
Europako Batzordeko azken korpus berri hau laster batean Europarl-en mailan jarriko da edo.
Baina... euskara?
Ditugun baliabideei probetxu handiena ateratzeko ikerketan aritzea erronka handia da guretzat.
Baina ... oso inportantea da HIZKUNTZA OFIZIALA izatea.