Teknologia albisteak
4

Umap, Twitterreko euskarazko jardunaren batzailea

Erabiltzailearen aurpegia
Luistxo Fernandez, CodeSyntax
2010-10-22 : 09:10

Umap Twitterretik mezuak jaso eta prozesatzeko produktu bat da, CodeSyntax enpresak egina. Produktuaren lehen webgunea euskarazko instantzia hau da, eu.umap.eu baina etorriko dira gehiago. Oraingo hau, bizkor definituta, Twitterreko euskarazko jardun guztiaren batzailea da.


Argazkiak.org | Umap euskaraz, Ipad batetik ikusia © cc-by-sa: sustatu

Umap-en lehen bertsioa da hau. Funtzio berriak gehituko zaizkio hurrengo asteetan Umap-i. Funtsean, zenbait prozesu automatiko dabiltza martxan aplikazio honetan:

  1. Twitterreko erabiltzaile euskaldunak detektatzeko metodo bat.
  2. Erabiltzaile horien tuit edo mezu guztiak denbora errealean jaso, eta horietan euskarazkoak diskriminatzeko sistema.
  3. Jasotako mezuetan, termino eta gako/trend esanguratsuenak konputatzeko metodoa.

Prozesu hauek ez dira perfektuak, eta asko dute hobetzeko. Baina %100eko doitasunarekin ez bada ere, emaitza zuzenak lortu ditugu. Erabiltzaile euskaldunen detekzioari dagokionez, sinesten dugu potentzialki Twiterren dabiltzan euskaldun guztiak harrapatzeko gaitasuna duela gure sistemak (agian ez da hain hona erabiltzaile robotikoekin). Nolanahi ere, behin euskaldun bat detektaturik, haren mezuetan erdara errepikatzen bada etengabe, ez badu euskaraz idazten, ezabatu egiten du sistemak automatikoki. Datubasean ez dagoen norbait gehitu beharko genukeela uste baduzu, aukera duzu proposamena egiteko orri honetatik; baina ez badu euskaraz egingo, alferrik da.

Euskarazko mezuen detekzioan, %95eko zuzentasunean gabiltzala uste dugu. 1. eta 2. metodoaren artean, euskarazko tuit guztiak ez badira, gehien-gehienak batu eta prozesatzeko gauza gara. Trend edo gakoak konputatzeko metodoan, berriz, algoritmo bihurri samar eta aldakorra erabiltzen dugu, batuketa soiletik haratago; baina funtsean oinarrizko arauak sinplea da: berba bat, puntu bat; #hashtag bat, 10 puntu. Kalkulu sinple hauekin, eguneko komentagaiak, albisteak, eztabaidak jarraitzeko pista interesgarriak lortzen direla uste dugu. Denborarekin, gero eta zehatzago egingo dugu hau, Twitterrera erabiltzaile gehiago gehitu ahala, eta euskaldunok euskaraz gehiago jardun ahala.

Euskararen normalizazio komunikatiboaren eta aurrerapen teknologikoaren aldetik, Umap martxan jartzea pizgarria izan daitekeela uste dugu; tarteka euskaraz egiten duenak, motibazio gehigarri bat izan dezake orain euskaraz sarriago idazteko, bere eta bere lagunen mezu-jario edo timeline-etan erdi-galduta geratzen diren mezuak izan barik, Umap-eko jarioetan elkarrizketa aberats eta osoago baten parte izan baitaitezke euskarazko tuitak.

Umap-en hasierako funtzioen artean, honako hauek ditugu:

  • Trend edo gakoen jarraipen bizia, hamar minutuero egiten da kalkulua. Azkenekoak, ordu gutxi batzuetakoak konputatuz; gero, azken 24 orduak, azken astea eta azken 30 egunetako gakoak zenbatzen ditugu.
  • Artxibo batean, egun bakoitzeko 24 orduetan gehien errepikatutakoak gordetzen ditugu.
  • Umap bertatik parte hartu daiteke elkarrizketan: egin login zure Twitter erabiltzailearekin, eta retweet-ak zein erantzunak bidali ahal izango dituzu.
  • Erabiltzaile bakoitzaren tuit edo mezuen estatistikak, euskara zenbat erabiltzen duen bakoitzak, bereziki.

Ez bazaude oraindik Twitterren, Umap-eko elkarrizketatik kanpo zaude. Baina komunikazio fenomeno eta informazio tresna oso interesgarri batetik kanpo ere bazaude. Erraza da bat egitea. Sortu kontu bat Twitterren, jarraitu beste zenbait pertsona, hangoak eta hemengoak, eta hasi zu ere tuiteatzen: euskaraz badiharduzu, Umap-ek aurkitu egingo zaitu.

eu.umap.eu

Bai, helbide bihurria da gero: eu.umap.eu. Jarri gogokoenetan zure nabigatzailean, edo Googlen bilatu Umap (agertuko delakoan gaude).

Umap Euskarazkoak badu bere kontu propioa Twitterren, noski. Haren bidez eguneko gako erabilienen abisuak ematen hasiko gara laster, jarraitu nahi bazenitu.

Erantzunak

Goio Arana
2010-10-22 : 10:23

Zorionak Umap eta CodeSyntax! Oso itxura ona du Umapek, jarraituko dugu!

e-gor
2010-10-22 : 10:37

Nire estatistikak begiratu ditut, eta nire Twitter-eko jarduna, RT gutxiren batzuk izan ezik, ia osorik euskaraz egiten dudan arren, %50etik behera ematen dit...

Barnetx
2010-10-22 : 13:17

Niri ere e-gorri gertatzen zaion gauza bera gertatzen zait... 200 tuitetik 53 besterik ez dizkit onartzen euskaraz idatzitako moduan... eta esango nuke %90 euskaraz idatzi ditudala...

Umap
2010-10-22 : 13:58

Bai, zenbait astetako frogazko fasean hizkuntza detektagailuak bere gorabeherak izan ditu. Eta grafikoak okerrak dira, oro har. Une jakin batetik aurrerako datuekin berrituko dugu laster.


Erantzun

Sartu