Teknologia albisteak

Umap hil da, akabo Twitterreko euskarazko biltegia

Erabiltzailearen aurpegia
2023-06-28 : 08:23

Umap Twitterreko euskarazko jardunaren biltegia 2010eko urrian hasi zen martxan, CodeSyntax-en eskutik. 2023an, hil egin da. Elon Musk-ek hil du, berak zer garen eta nor garen ez dakien arren. Umap-en hainbat zerbitzuren oinarri izan da, euskarazko txiolarien, hedabideen eta traolen rankingak eta bildumak egin ditu hainbat urtez; azterketa soziolinguistikoak egiteko balio izan du, Sustatun albiste komentatuak automatikoki gehitzeko balio izan du, TBX zerbitzuaren oinarri izan da euskarazko bideo partekatuenak identifikatzeko... Zerbitzu horiek guztiak ere hil dira.

Umap txio bilatzailea 2010eko urrian hasi zen martxan. Hamabi urte eta erdi egin ditu lanean, eta tartean bildu dituen txioak dira izan 77.132.,076. Horietarik erdia baino gutxixeago, 28.618.588 euskaraz, 27.019 erabiltzailerenak.

Euskarazko elkarrizketaren artxiboa

Urterik urte detektatu eta analisitu ditugun euskarazko txioak hauek izan dira:

Urtea Kopurua
----------------------

2007 1375
2008 2816
2009 20009
2010 51105
2011 181516
2012 849758
2013 2328085
2014 2712375
2015 2809217
2016 2791263
2017 2761630
2018 2525394
2019 2536645
2020 3111935
2021 2727630
2022 2280831
2023 927057

Umap 2010ean hasi arren lehenagoko txioak ere badaude datubasean. Nolatan? erabiltzaile berri bat detektaturikoan, euskalduna zen ala ez erabakitzeko metodo bat izan da atzeranzko 200 txio eskatzea eta horietan euskara bazegoen ikustea. Lehen urteetako erabiltzaile batzuen historiala lehenagora ere iristen zen ondorioz, 200 txio horietan. Bilketa eta sailkatze hauek programatikoki egin dira beti.

Datu horiekin euskara nola erabili izan den aztertu dugu urterik urte, txostenak argitaratuz. Traolen kontaketa egin dugu, gehien partekatzen ziren URL-en zenbaketa eta analisia ere bai (iturrien analisiak).

Informazio eta albiste trukearen jarraipena

Txioetan zabaldutako esteka edo URL-ak analisatzetik beste zerbitzu bat asmatu genuen: albistegi automatikoa, integratu zena 2012ko abuztuan Sustatun, eta gerora Saretik berrizendatu genuena. Horrela funtzioanatzen zuen honek:

  • Umap bidez, loturak zituzten euskarazko txioetan, loturak analisatu.
  • Haien eduki puska bat eskuratu, snippet bat esaten dena irudi kaptura batekin, eta hori ere euskaraz zen erabaki.
  • Lotura jakin batek txio kopuru minimo bat eta garrantzi-algoritmo bat gainditzean, Sustatun argitaratu automatikoki.
  • Hauen artean batzuk, editoreak berrikusita, azalera eraman.

Era honetan 7.334.784 lotura analisatu ziren, euskarazko 24.901.637 txiotan oinarrituak. Horietarik, Sustatura pasatu ziren argitaratzeko 32.247 albiste, urtez urte honela:

Urtea Kopurua
---------------------
2012 1135
2013 4155
2014 3836
2015 3962
2016 4275
2017 4119
2018 2904
2019 1792
2020 2704
2022 1344
2021 1754
2023 267

Albiste horietarik bakoitzak gehituta ditu txio-kateak ikusteko erabiltzaileek nola iruzkindu zituzten. 

Bideo partekatuen aro oso bat

Aurreko zerbitzuaren luzapen gisa, partekaturiko edukietan, esteketan, bideoak gero eta nabarmenago zirela ere ikusi genuen Umap-i esker. Horrela, Youtubeko bideoan bilketa bat egiten hasi ginen (API egokia zuelako plataforma horrek, besteek ez bezala), eta TBX.eus zerbitzua jarri genuen martxan 2017ko urtarrilean.

Ia 50.000 bideo detektatu eta analisatu ziren horrela, eta euskarazko edukia zutela determinatzen genuen; gero ikuskapen / partekatze parametro batzuk gainditzen zituztenak, artxibora zihoazen, eta ikuskatuenen rankingaren arabera antolatu. 36.727 bideo daude horrela 2017 eta 2023 artean TBX-ren artxiboan gordeta. Adibidez, iazko uztailean, zer izan zen ikusiena euskaraz Youtuben? Hauxe.

2023ko martxoan Umap gelditzearekin hori ere gelditu zen, gertatzen dena da Youtube kanal batzuen edukia automatikoki kargatzen jarraitu duela... Baina osagarri sozialik gabe, partekatze-daturik gabe, zerbitzu horren jarraipena ere berpentsatu beharko dugu.

Jarraipena

2023ko martxoaren 14an gertatu zen geldialdia, Twitterrek bere API irekiak itxi zituenean. Eguneko azken txio interesgarriak egun horretan daude, izoztuta, Umap-eko portadan.

Harrezkero, azterketa tekniko batzuetan jardun izan dugu CodeSyntax-en. API baldintza berriek, ordainpekoak, ahalegina merezi zuten? Ezezko ondoriora iritsi gara. Twitterreko APIaren baldintza berrietan, Pro kontua beharko genuke, gutxienez, 12 urtez egunero egin duguna egiten jarraitu ahal izateko, hileko 5.000 dolarreko tarifa duen zerbitzu bat. 

Asmo akademikoz, ikerketarako-edo, justifikatuko bagenu eskaera bat berriz lanean uzteko, hori ere alferrik litzateke. Ekainean API akademikoak murriztu egin dituzte, eta hori erabiltzen zuten zientzialari sozial eta datu-biltzaileei berdina eskaini die Twitterrek, 5.000 dolarreko tarifa.

Bildutako 70 milioi txioak, 33.000 albiste euskaraz komentatuak, 36.000 bideoak ranking eta data bidez sailkatuak... Horiek gordetzea merezi du? Bai, dudarik gabe, dela datubase gordun gisa etorkizuneko artxibategietarako, dela kontsulta tresna gisa, Umap eta TBX.eus itxi edo izoztu arren ere, beren edukia gordetzeko konpromisoa hartu dugu. Hori ondo antolatzen saiatuko gara aurrerantzean.

Bitartean, Sustaturi dagokionez, are gehiago zaildu dizkio gauzak Twitterrek etxe honi martxoko geldialditik: azken asteetan, txioak automatikoki bidaltzeko sistema desaktibatu dute, eta baita erabiltzaileentzako login egiteko modua. Horiek ere konpondu beharko ditugu, nolabait. 

Twitter, polita izan da iraun duen bitartean, eta ez alferreko lana izan egindakoa. Elon Musk, zoaz pikutara.  

Erantzun

Sartu