Teknologia albisteak

Ahozko hitz-gakoen MSWC korpus erraldoia garatu dute, eta euskara ere bada bertan

Sustatu

2021-12-29 : 09:14

Common Voice proiektuaren emaitzetako bat, hitzen korpusa, publiko egin dute. Common Voicen esaldiak grabatu izan dira, 5.000 esaldiko korpus bat, ahots teknologia artifizialak libreak garatzeko, baina delako emaitza honetan, hartan oinarritutako garapen bat egin dute: Esaldiak prozesatu, eta hitz gako banakakoen n super-datubase bat askatu dute, Multilingual Spoken Words Corpus delakoa (MSWC). Keyword edo hitz-gakoen biltegi handi bat da, 50 hizkuntzetako datuekin, eta horien artean, baliabide osoenak dituen multzoan euskara dago.

Multilingual Spoken Words Corpus-en 50 hizkuntza agertzen dira, eta tartean dago euskara. Bere funtzio nagusiak egon daitezke ikerketa akademikoan, eta audio kontestuetako hitz-bilaketan, baita aplikazio komertzialetan ere, CC-BY-SA lizentzia libreak hori baimentzen baitu.

Lana bildu dutenen arabera (paper bat aurkeztu dute, izenpe inportanteekin), 340.000 hitz baino gehiago ditu, bakoitza hizkuntza berezko hiztun desberdinek grabatuta, eta hortaz praktilan 23.4 milioi grabatu dira, gutxi gora-behera bakoitza segundu bateko fitxategia izanik, bada 6.000 ordu baino gehiago).

Bitxia da 50 hizkuntzen artean, euskara dagoela lehenbizikoen artean hitz-gako kopuruari (14.000 inguru) eta banakako grabaketa klipetan ere (390.000, guztira 118 orduko corpus bat). High resources kategorian kokatzen gaitu horrek, baliabide maila aberatsenenean, honekin garapen aurreratuak egiteko orduan...

Kalkulu estatistiko batzuk ere egin dituzte hizkuntzen hitzen luzera estatistikoari buruz, baina horrek ze inplikazio dituen ez gaude oso seguru. Hor grafiko partziala hori erakusten duena.

Dataset osoa 124 Gb-koa da, eta espazioa eta denbora badaukazu, jaitsi dezakezu hemenidk. Microset delakoan, aldiz, lagin bat dago (584 Mb guztira) ingelesezko eta espainolezko hitzena. Jaisten baduzu karpeta mordo bat aurkituko duzu, eta bakoitzean hainbat klip, Opus audio formatuan hitz jakin bat hainbat lagunek ahoskatua.

Ordenagailuko pantaila irudian, gaztelerazko Cinco hitzaren klip sorta, adibide gisa.

Honen oinarrian dagoen Common Voice proiektuaz gehiago, Sustatun bertan, euskarazko datu-bilketa elkarlanean bultzatzen ari den Librezale taldearen webgunean, eta Common Voice-n zuzenean, non euskarazko korpusa ere eskuratu daitekeen (baina ez da MSWC-koa, hitz banakakoena)