Gaur egun 51 hizkuntza darabil Google Tranlate arrakastatsuak itzulpenak egiteko, baina horien artean ez dago euskara. Baliabide gutxiagoko hizkuntza batzuk sartuta daude lista horretan; uda honetan bertan gehitu dituzte galegoa, galesera, gaelikoa eta islandiera (320.000 hiztun); aurreko urtean gehitu zuten katalana. Orduan, zergatik ez dute sartzen euskara? Arrazoiak bi izan daitezke: hizkuntza oso diferentea delako eta testu elebidun gutxi dutelako.
Lehen autogintzan GT laburdura "auto handiak" aipatzeko zen, orain baina, itzulpengintza automatikoan oso indartsu azaldu den Google Translate aipatzeko ere erabiltzen da. Itzulpengintza automatikoaren aro berri bat zabaldu du GT zerbitzuak. Zerbitzua arrakastatsua izan da, munduko hainbat pertsonarentzat erabilgarri suertatzen ari da, askorentzat GT izan da modu praktikoan gustura erabili duten lehen itzultzaile automatikoa. Emaitza ez da perfektua baina bai balekoa erabilpen batzuetarako, hizkuntza arrotz bateko testu bat gutxi-gorabehera ulertu ahal izateko, edo itzulpen-zirriborro moduan hartzeko.
Hala ere, zenbait hizkuntzatarako emaitzak ez dira hain onak. Eta, bestalde, zenbait aditurengan kezka bat sortu da: GT zerbitzuak lortuko balu Google bilatzaileak lortu duen nagusitasuna, ea orduan pribatua den ekinbide honek ezabatuko lituzkeen orain arteko itzulpengintzako ekinbide publikoak eta ikerketa akademikoak. Beste tresna batzuk hobeak dira orain, baina desagertu litezke Google markaren tiradaren ondorioz. Halaxe azaltzen du bere kezka Hegoafrikako Friedel Wolff -ek:
Googlerentzat zerbitzu hori sortzea posible izan da bere konputazio-ahalmen handiari esker, itzulpenerako metodo estatistiko berrien gaineko "fitxajeei" esker (F. Och ), eta Googlek testu elebidun andana lortzeko duen kokapen pribilegiatuari esker. Baina kontuan hartu behar da emaitza txukunak lortzeko oso bolumen handiko corpus elebidunak behar direla. EuroParl corpusak, Europako Legebiltzarraren itzulpen-bildumak, 30 bat milioi hitz du hizkuntza bakoitzeko. Corpus publikoa da, baina hizkuntza ofizialetarako bakarrik, euskara bezalakorik ez da hor azaltzen. Dirudienez Google-k ez du tamaina horretako corpusik lortu euskararako.
Aipatu izan da noizbait 30 bat milioitik gorako bolumena (~EuroParl -ena) behar dela sistema sendo bat eraikitzeko garantia moduan, beti ere egitura antzekoak duten hizkuntza bikoteetan. Euskaraz aritzen garenok, partaide askoren laguntzarekin ere, nekez eskura dezakegu 20 bat milioi hitzeko corpus elebiduna. Gainera, euskara flexio handiko hizkuntza eta hurrenkera askekoa denez, zailtasunak handitu egiten dira hitz itzulien maiztasuna dezente jaisten delako. Horren ondorioz, antzeko kalitateko emaitzak lortzeko testu-bilduma handiagoak erabili beharko dira gurean , hamar aldiz gehiago agian. Beraz, ingelesetik frantzeserako itzulpenean 30 miloi hitzekin lortzen den kalitate bera lortzeko, espainiera-euskara bikoterako 300 miloi-hitz beharko zirela estimatzen da, ... eta nekez eskura dezakegu 20 bat milioi!
Beraz, hor dago kexka. Corpus elebiduna biltzea oso inportantea da, eta corpus hori publikoa izatea (eta ez bakarrik Google-rena) erabaki estrategikoa izan daiteke alor honetan. Erakunde publikoek bultzatu beharko lukete corpus elebidun publiko horren bilketa, ez da?
Erabat ados zurekin Kepa euskararen eta beste hizkuntzen arteko corpus paralelo elebidun handiak behar behar ditugula itzulpen automatikoan aurrera egiteko eta are adosago horiek publikoak behar dutela izan, bereziki erakunde publikoetan badute jatorria. Edonork baliatzeko modukoak izan beharko lirateke. Itzulpengintza automatikoan beste batzuk aspaldi dihardugu eta motor estatistikoekin ere lanean ari gara.
Zentzuzkoa ez litzatekeena izango, blog honetan proposatu izan den moduan, corpus elebidun horiek Googlei soilik helaraztea eta, iradokitzen zenez, doan.