Programatzaile euskaldun independenteekin osatutako AA lantzeko Itzune taldearen baitan, Xabier Ezpeleta informatikariak tresna interesgarri bat garatu duela jakinarazi du: Evaleu. Adimen artfizialeko eredu euskaldunak (eta euskara ulertzen duten atzerrikoak) parametro desberdinen arabera neurtzeko sistema bat. Informatikan (eta beste alor korporatibo batzuetan) benchmark esaten zaie konparazio-sistemei, eta AA alorrean badaude halakoak ere, Euskal Herrian propio garatuak ere bai; baina Evaleuk konparatzaileen bilduma egin du, meta-konparatzaile bat nolabait esateko, eta ereduak benchmark desberdinekin neurtzen hasi da. Neurtutakoen artean onena, oraingoz, txinatar bat: Deepseek.
Hemen Ezpeletaren proiektuaren azalpena, eta hemen Evaleuk orain ematen dituen datuak.
Taula, zenbaki eta sailkapen dexente daude hor... Laburbilduz, gehiegi sakondu gabe (okertzeko aukera handia), halako osagarriekin egin du menua Ezpeletak:
Batzuk besteekin erkatuta... puntuaketak aztergai desberdinetan, eta sailkapen orokor bat. Lehen 3 kokapenei begiratuta: Deepseek da nagusi, Latxa bertsio biren gainetik:

Taula horretan BertaQA ebaluazioaren zutabeari begiratuta ikusten dugu halaber urdinez eta nagusi Latxa 70B dela, kasu horretan benchmark horrek euskal ezagutza espezifikoa tratatzea baitu helburu (euskal kulturako galderak, adibidez).
Euskal ereduen artean Kimu bertsioak beherago badaude, ez da inpugnazio bat bere funtzionamenduari: tamaina txikiko eredu erabilgarriak egitea baita Kimuren asmoa.
Azterketaren beste puntu bati begiratuta (itzultzeko gaitasuna), honetan ere Deepseek V4 Pro da nagusi.
Evaleu tresna dinamikoa da, eta benchmarkak zein ereduak gehitu ahala, sailkapenak eta puntuaketak aldatuko dira. Gainera, sareko sistema komertzialetan ere ebaluazioa egiteko modua aztertzen ari dira Itzunekoak, ea ChatGPT, Claude eta horiek ere sar ote daitezkeen ebaluazioetan.
Zer etorriko ere, arretaz begiratzeko erraminta Evaleu.
Erantzun
Sartu