Teknologia albisteak

ZelaiHandi, euskarazko testuen korpus handi eta (ia) libre bat

Erabiltzailearen aurpegia
Sustatu
gaur : 16:11

Orain NLP hizkuntza teknologietako euskal enpresak euskarazko testuen korpus handi bat jarri du sarean, Hizkuntza Eredu Handien (LLM) eta Adimen Artifizialeko ekimenen biltegi nagusia den Hugginf Face baliabidean. ZelaiHandi du izena.

ZelaiHandi bere bigarren bertsioan doa honezkero, eta 660 milioi hitzeko korpus bat da une honetan.

ZelaiHandi euskarazko eredu neuronal handien edo LLMen eraginkortasuna hobetzeko asmoarekin sortu du Oraik, entrenamendu edukien jabetza intelektualaren eskubideak errespetatuz. Llama-eus-8B da horren adibide, eta doitasun handiko elkarrizketa-laguntzaileak, zuzentzaileak eta itzultzaileak garatzen ari gara horren gainean. Euskarazko corpusa zenbat eta handiagoa izan, orduan eta hobea izango da LLMen eta horrelako tresnen eraginkortasuna.

Lizentzia librekoak deitzen die Oraik... baina ez zehazki, ez behintzat berrerabilpen osorako. Zerrendatutako iturrien irudi partzial bat:

Pixkat libretik aldentzen dena, Ekaia delakoa: cc-by-nc-nd da lizentzia hori, eta hortaz, NC edo Non-commercial horrekin ezin da ustiapen komertzialik egin, eta ND edo Non-derivative delakoarekin, lan eratorririk ere ez. Gogora ekar dezagun Creative Commons edukien semaforoa:

Irudian ikusten den bezala, Bizkaiko Batzar Nagusien lizentzia ere pixkat berezia da. Eta baita Gipuzkoako Batzar Nagusiena. Baina tira, oro har, baliabide interesgarria eta balekoa. 

Erantzun

Sartu