Teknologia albisteak

Latxa: euskarazko hizkuntza eredu handiena eta librea sortu du Hitz-ek

Erabiltzailearen aurpegia
Sustatu
2024-01-27 : 09:25

Aina Flor izeneko hizkuntza eredu handi katalan librea aurkeztu zen duela gutxi, eta duela astebeteko albistean genioen Hitz Zentro euskalduneko Eneko Agirre zuzendariak iragarri zuela bazetorrela laster euskarazkoa ere. Eta atzo bertan egin zuen publiko Hitz Zentroak: Latxa. LLM edo hizkuntza eredu handi bat da, adimen artifizialeko ekimenek oinarrian duten super-datubasea, erraz esanda. OpenAI-ren ChatGPT bertsioen oinarriak dira LLM-ak adibidez. Orain holako bat dugu, euskaraz (tira, eredu sorta bat egiaz, 3 korpusek osatua).

Hitz Zentroaren esanetan, "eredu irekien familia da" Latxa, "euskarazko hizkuntza eredurik handiena" bere baitan duena. Meta edo Facebook enpresaren Llama 2 hizkuntza ereduaren gainean dago eraikita, eta haren lizentzia jarraitzen du. Llama 2 ikusia dugu aurretik ere euskarazko emaitza bikainak ematen, ahozko itzulpen automatiko zuzena euskaraz egiteko gai Seamless M4T produktuaren bidez. Latxaren logoak, hain zuzen, Llama eta ardi euskalduna batzen ditu, izenean ere badagoelarik konexio bat (iruditu zaigunez).

Latxak 7-70 mila miloi parametro arteko ereduak biltzen ditu. Ereduak eraikitzeko testu multzoari dagokionez, EusCrawl erabili dute ikerlari euskaldunek, euskarazko testuez osatutako testu multzoa, 1,72 milloi dokumentu eta 288 miloi hitz dituena. EusCrawl kalitatezko edukia duten 33 webguneetatik erauzi zen, Internetetik corpusak osatzeko beste teknikak baino kalitate hobea eskainiaz.

Berez, Latxa ez da egin publiko orokorrarentzat, hori aurrerago etorriko da. Hala ere, hiru ereduak eskuragarri daude HuggingFace plataforman daude eskuragarri, eta ingeniari adituak erabili ahal izandgo ditu kontsultatuz “model card” delakoa: informazio teknikorako eta ereduak erabiltzen hasteko argibideak hortxe dira.

Latxaren garapena ikerketa, berrikuntza eta garapena sustatzeko ekimen baten ondorio izan dira, Eusko Jaurlaritzak lagundutako IKER-GAITU proiektuaren parte da, EuroHpc programa europarraren laguntzarekin. 

Gaur egungo hizkuntza ereduek errendimendu harrigarria dute, adibidez ingelesarako ChatGPT edo Bard. Euskara eta baliabide urriko beste hizkuntzen kasuan, ordea, ez. Eredu hauekin pauso bat eman du Hitz Zentroak egoerari buelta emateko saioan, eta beren datuen arabera, euskarazko formulazioei beste sistemek baino hobeto erantzuten du Latxak.

Informazio gehiago, hemen.

Hugginface-n: Latxa.

Erantzun

Sartu