Urtarrilean iragarri zuen Hitz Zentroak Latxa, euskarazko lehen LLM edo hizkuntza eredu handia, adimen artifizialeko ariketak ahalbidetzen dituen tresna. Orain, bere funtzionamenduari buruzko datuak bildu eta argitaratu dituzte. Euskarazko zenbait ariketa planteatuz sistemari, emaitza bikainak eman ditu. Mikel Artetxe adimen artifizialeko adituak laburbildu duenez, "Latxak %60,6 ateratzen du EGAko atarikoetan, ordainpeko ChatGPT onenak baino gehiago. Eta hori ez dugula horretarako entrenatu zuzenean!".
Julen Etxaniz eta beste zenbait ikerlarik argitaratu dute artikulua ingelesez, egindako ariketak eta ebaluazioa aurkeztuz. Dibulgazio lan ulergarriagoa ere prestatu digute denoi, Hitz zentroaren webgunean albistea euskaraz argitaratuz.
Latxa ebaluatu dute hizkuntza-eredu hauek neurtzeko prestatu diren zenbait testetan. Baina nola euskarazko gaitasuna bereziki testeatzeko ez diren egokienak, test berriak ere egin dituzte: EusProficiency, hizkuntza-gaitasuneko azterketa ofizialetako 5.169 galderaz osatua; EusReading, irakurmeneko 352 galderaz osatua; EusTrivia, 5 ezagutza-arlotako kultura orokorreko 1,715 galderaz osatua; eta EusExams, azterketa publikoetako 16,774 galderaz osatua.
Latxak gainditzen ditu Chat GPT 3.5 eta Llama eredu desberdinak kategoria guztietan, baina Chat GPT 4 bakarrean. Proficiency delako testean hala ere, bost mila galderaz osatutakoan, hor bai Chat GPT 4 bera ere gainditu du. Aipatzekoa da nola geratu den Latxa Llamaren aurretik, Llama eredua (Meta enpresarena, kode irekikoa) izan baita Latxa egiteko oinarria. Hona testen emaitza, garfikoki eta zenbaki zehatzetan:
Hitz zentroko ikertzailek jakinarazi dutenez, Latxa ereduen familia, aurreentrenamenduko corpus berriak eta ebaluazio-datuen multzoak ere, eskuragarri daude publikoki https://github.com/hitz-zentroa/latxa helbidean.
Erantzun
Sartu