Teknologia albisteak

UMAP, 10 urte Twitterreko euskarazko jarduna jaso eta aztertzen

CodeSyntax

2020-10-31 : 10:43

2010eko urrian argitaratu zuen Codesyntaxek RobSoc teknologian oinarritutako Umap.eus webgune eta zerbitzua. Twitterlari euskaldunen jarduna jaso eta filtratzen jardu du harrezkero, Twitterren dabiltzan euskaldunak aurkitzen, euren txioak jasotzen eta euskarazkoak bahetzen. Dena automatikoki. 10 urte bete ditu, hortaz, CodeSyntaxen dugun zerbitzurik kuttunenetakoak.

Halaxa da, aste honetan 10 urte bete ditu Umapek. Duela 10 urte argitaratua (2010eko udazkenean), bi berrikuntza edo garapen handi ere izan ditu harrezkero (2013an eta 2016an) eta 2020an beste aldaketa txiki batzuk gehitu dizkiogu txiolarien profilari. Denbora guzti honetan Twitterreko euskarazko jarduna jasotzen eta aztertzen aritu dira gure algoritmo eta robotak, lan automatiko etengabean.

Pentsatu nahi dugu, gainera, Twitterreko euskal komunitatea (txioerria) trinkotzen ere bere puxtarritxoa ipini duela, besteak beste, elkarren berri eman digulako. Ez da ahantzi behar euskaldunona dela hizkuntza gutxitu batek Twitterren daukan komunitaterik trinko eta aktiboena.

Euskaldunok bagara nor Twitterren, Txioerria!

Hamarkada honetan 100.000 txiolari baino gehiago aztertu ditugu, horietatik 70.000 euskaldun potentzialak direnak, eta 55 milioi txio jaso eta aztertu, besteak beste sare sozial honetan ditugun hizkuntza-jarrerak eta euskara-erabilera aztertzeko eta gehien partekatzen ditugun hedabideen eta traolen laburpenak egiteko.

Zer txiokatzen dugu euskaldunok? Zenbat euskal txiolari daude? Zeintzuk dira twitterlari jarraituenak eta arrakastatsuenak? Zenbat txiokatzen dugu euskaraz? eta beste hizkuntzetan? Zeintzuk dira euskaldunon TT edo joerak? Eta gehien partekatzen ditugun iturriak? Hori guztiori eta gehiago eskaintzen digu Umapek (informazio guztia eta azalpenak CodeSyntaxeko blogean, Umapeko albistegian eta FAQ atalean, hizkuntza-detekzioaren inguruko hau, adibidez).

Izan ere, Twitterreko euskarazko jardun osoaren zatirik handiena harrapatzen dute gure robotek, eta ikuspegi orokor bat emateko aukera ematen digute, urteroko laburpenetan ikus dezakegun moduan. Baina euskal txiolari bakoitzaren profila eta datuak ere jasotzen ditu Umapek. Horrela, twitterlarion zerrendak eta rankinak osatu ditzakegu, orokorrak zein sektorialak, eta txiolari bakoitzaren txiokatze-ohiturak ere bai: zenbat, noiz eta zein hizkuntzatan txiokatzen dugu euskal txiolariok?

2010 urrun hartan horrela aurkezten genuen UMAP.

Umap-en lehen bertsioa da hau. Funtsean, zenbait prozesu automatiko dabiltza martxan aplikazio honetan:

Twitterreko erabiltzaile euskaldunak detektatzeko metodo bat.

Erabiltzaile horien tuit edo mezu guztiak denbora errealean jaso, eta horietan euskarazkoak diskriminatzeko sistema.

Jasotako mezuetan, termino eta gako/trend esanguratsuenak konputatzeko metodoa.

Prozesu hauek ez dira perfektuak, eta asko dute hobetzeko. Baina %100eko doitasunarekin ez bada ere, emaitza zuzenak lortu ditugu.

Eta lan horretan aritu dira gure robotak, etenik barik, azken 10 urteotan. Denbora tarte honetan 70.000 euskaldun potentzial aurkitu ditugu Twitterren. Batez beste, hilero 9.000 txiolari inguruk txiokatzen duten zeozer euskaraz; urtean 15.000 inguruk. Guztien artean 6-7 milioi txio argitaratzen ditugu urtero, horietako %35-45 inguru euskaraz. Hau da, egunero 6.000-7.000 txio botatzen ditugu euskaraz; hilean 250.000 inguru.

Sustatun bertan ere, 2012ko abuztutik ikusten da Umap-en ondorioetako bat: albistegi automatikoa zena, gaur egun Saretik sekzioa esaten duguna. Euskal txiolariek egunero gehien txiokatzen dutena detektatzen dugu, eta haren izenburu eta laburpentxoa ekarri, eragindako txioekin. Eta hori guztia, gorde, gainera. Ikus adibidez, 2017ko urrriaren 2a, artxiboan, azalera zer ekarri genuen agertzen da irudiz, baina alboko zutabean, Saretik epigrafean, egunaren argazki bat, zer txiokatu genuen, zer komentatuz.

Hamar urte Twitterreko jarduna jasotzen; betoz beste hamar!