Teknologia albisteak
1

Opentrad, Consumer eta EITB24ren corpusekin

Erabiltzailearen aurpegia
Rakel Lopez - Eleka Ingeniartiza Linguistikoa
2007-03-21 : 09:03

Itzulpen automatikoa hobetzeko, Consumer aldizkariaren eta EITB24-ren corpusak erabiliko ditu Opentrad kontsortzioak. Transferentzia sintaktikoa du oinarri Opentradek, eta estatu espainiarreko hizkuntzen arteko kode irekiko itzultzaile bakarra da.

Estatu espainiarreko hizkuntzen artean (gaztelania, katalana, galegoa eta euskara) kode irekiko itzulpen automatikorako sistema bat aurkeztu zuen joan den urtean Opentrad kontsortzioak (www.opentrad.org). Orain, berriz, Eroski Fundazioarekin eta Eitbnet-rekin elkarlanean arituko da, sistema hobetzeko ahaleginean. Elkarlan hori dela eta, Eroskik Consumer aldizkariaren corpusa eta Eitbnet-ek Eitb24 web gunearen corpusak Opentrad kontsortzioaren esku utzi dituzte, itzulpen automatikoan egin beharreko ikerketa-proiektuetan erabil ditzan. Helburua da corpus horien informazioa erabiltzea OpenTrad-en bidez egiten diren itzulpenen kalitatea hobetzeko eta itzulpen automatikoaren estaldura areagotzeko, bereziki gaztelaniatik euskarakoena.

Transferentzia sintaktikoa du oinarri Opentradek, eta estatu espainiarreko hizkuntzen arteko kode irekiko itzultzaile bakarra da eta testuak edo dokumentuak itzultzen ditu, baita web orrien edukia ere, haietan nabigatzen ari garela. Galego-gaztelania hizkuntza-parean bi noranzkoak (galegotik gaztelaniara eta gaztelaniatik galegora) kontuan hartzen dituen itzultzaile bakarra da. Itzulpenen kalitatea, berriz, % 95,2ra iristen da. Gaztelania-katalana parean, % 96,2ra iristen da kalitatea. Gaztelania-euskarazko pareari dagokionez, itzultzaile bakarra da. Hala ere, azken hori prototipo-mailako tresna baino ez da eta ez du, oraindik, itzulpen komertzialak egiteko kalitaterik bermatzen. Consumer eta Eitb24 corpusak itzultzaile horren emaitzak hobetzeko erabiliko dira.

Etengabe hobetzen ari den sistema da OpenTrad. Proiektua garatu dutenek sistema hobetzen jarraitzen dute, zenbait I+G proiekturen bidez. Hizkuntza gehiago sartzeko prozesuan ari dira orain (gaztelania-frantsesa eta gaztelania-portugesa garatuz, eta gaztelania-euskara, -katalana eta -galegoaren kalitatea hobetuz).

Erantzunak

Arkaitz
2007-03-21 : 11:42

Horixe bera da euskarazko itzultzaileak sortu eta hizkuntza bera tratatzeko falta duguna: hizkuntza baliabideak. Euskara corpusa ondo dago euskarazko corpus moduan, baina corpora eleanitzak ezinbestekoak dira horrelakoetarako, eta are gehiago transferentzia sintaktiko bidezko itzulpenetarako. Uste dut itzulpen automatikorako sistemak sortu aurretik horretaz arduratu beharko litzatekeela batez ere. Ondo dago Consumer eta Eitb24k beraien testuak eskaintzea (ez dakit aproposenak diren, baina tira), corpora eleanitz paraleloa sortzeko suposatzen dut, baina zalantzarik gabe gehiago behar da, gai desberdinak jorratzen dituzten eta mota ezberdineko testuak, ez albisteak soilik.

Bestalde, aukerarik onena da zalantzarik gabe transferentzia sintaktiko bidezko itzulpenak egitea erromantze hizkuntzen kasuan; kasu hauetan gainazaleko transferentzia (shallow-transfer deritzona) burutzen da jatorrizko testuan, emaitza oso onak lortuz, hizkuntzen artean dagoen antzekotasun sintaktiko eta morfologikoa dela-eta, bereziki. Baina ez nago hain ziur euskararekin aukera aproposena izan daitekeenik; egia da interlinguan oinarritutako sistema bat sortzeak lan gehiago izan dezakeela eta baliabide gehiago beharko direla, baina agian aukera egokia litzateke.

Gainera, kontuan izanik gero eta hizkuntza gehiagorekin funtzionatu dezan nahi dela, transferentzia bidezkoa zoratzekoa izan daiteke, hizkuntza pare bakoitzarentzako hiztegi eta corpusak sortu beharko baitira. Izugarrizko lana egin ondoren gaztelania-euskara itzultzailea lortu daiteke; ondoren, lan gehiago egin beharko da alderantzizko norantzan itzultzeko. Baina frantsesa-euskara edo katalana-euskara itzultzailea sortzeko, adibidez, zerotik hasi beharra berriz ere.

Nire iritzia baino ez da, baina uste dut kasu honetan interlinguan ahalik eta neurri altuenean oinarritzea egokiena litzatekeela, sintaktikoki egokiak diren euskarazko testuak sortu eta hizkuntza gehiagorekin funtzionatu ahal izateko. Bestela, frantsesa-euskara egiteko bitartekari bezala erabili beharko dugu gaztelania...

En fin, animo!

Erantzun

Sartu