Teknologia albisteak

Sustatuko pilotu automatikoaren lehen balantzea: erdarazko txioak murriztea hobeto

Erabiltzailearen aurpegia
Sustatu
2012-09-11 : 11:45

Hilabete da martxan jarri genuela Sustatuko pilotu automatikoa, Twitterren euskaldunen arreta erakarri duten albisteak detektatzen dituen sistema. Gorabehera batzuk izan dira, baina nahiko ondo funtzionatzen duelakoan gaude. Aldaketaren bat egin diogu, dena dela, eta erdarazko izenburuak geuk ez txiokatzea erabaki dugu.

Automatikoak modu honetan funtzionatzen du: Twitterreko euskaldunen jarduna jarraituz, haien euskaraz tuitak arakatzen ditu, eta estekak zenbatzen ditu. Estekak euskarazko edo erdarazko edukiz hornituta etor daitezke, edo hizkuntzarik gabeak izan, irudi bat adibidez. Baina detektatu ditugu haien inguruko txioak euskaraz idatzita daudelako.

Esteka horiek elkarren kontra lehiatzen dira, txio kopurua, erabiltzaileen rankinga, denbora/freskotasuna eta beste faktore batzuk kontuan hartzen dituen algoritmo baten arabera. Eta argitaratzeko atalase bat gainditzean, argitaratu egiten dira Sustatun, albistearen snippet edo puska bat, eta harekin batera detektatzen ditugun tuitak, elkarrizketa osatu aldera.

Orain arte, atal automatikoan agertzen ziren guztiak tuiteatzen genituen. Tuit horiek automatikoak izan dira: estekaren izenburua, esteka originala, tuiteatu duen lehen erabiltzailearenganako aipua, eta Sustatuko URL propioa joan ohi dira.  Baina nola izenburuak, kasu batzuetan, erdaraz ziren, halako efektua ere gertatu izan da gure txio-jarioa jarraitu dutenek ikusi duten bezala: bastante itxura erdalduna eman dugu.

Sustaturen tuit batzuk erdaraz


Batzuek erreparatu diozue horri, bai. Ba bueno, estetika ere inportantea denez, ez dugu aurrerantzean egingo. Erdarazko edukia detektatzen jarraituko du pilotu automatikoak, baina tuitak ez dira automatikoki banatuko. Izenburuak edo albistearen agerpena ukitzen saiatuko gara, tuit batekin zabaldu aurretik. Hizkuntza detektatzeko tresnekin automatizazio prozesu bat ere sar genezakeen tartean, baina oraingoz sinpleago egingo dugu.

Honekin, beste efektu arraro batzuk ere zuzenduko dira:

  • Pilotu automatikoaren albiste asko gaueko ordu txikietan tuiteatu izan ditugu (robotak ez baitu lorik egiten). Aurrerantzean, gauez kargatu direnetatik, batzuk hautatuko ditugu tuiteatzeko, ordutegi hobearekin.
  • Albiste errepikatuak ere tuiteatu izan dira. Pilotuak gauza bera kontatzen duen bi edo hiru URL detektatu ditzake. Ba, kasu honetan ere, zuzenean denak txiokatu barik, txukunena aterako dugu (komeni bada), eta erredundantziak bistatik kendu.

Sistemak beste gauza asko ditu hobetzeko. Esteka bat publikagarritzat jotzen dugunean, robotaren besoetako batek haren edukia arakatu eta laburpen gisako eduki multzo bat ekartzen saiatzen da. Youtubeko kasuan, bideoa ekartzen dugu; gune gehienetan, testu apur bat eta irudi bat txikian. Baina webgune batzuk, daukaten HTML kode bihurriagatik, ez dira errazak ondo arakatzeko. Hori hobetzen saiatuko gara.

Bestalde, tresnak (eta oro har Sustatu berriak Twitterrekin duen integrazioak) Sustaturen trafikoan izandako eraginarekin pozik gaude. Uda hilabeteetako trafikoa jaitsi egin da, urtero bezala, baina Twitterren jatorria duten bisitak asko igo dira. Horra martxoaren 1etik irailaren 5era, Twitterretik datozen asteroko bisitak, udan gora egin dutela nabarmen ageri zaigu.

Sustatu: Twitterretik datozen bisitak

Erantzun

Sartu

Publizitatea

Jarraitu sustatu.eus

E-postaz, mezuz mezu:

E-postaz, eguneko buletina:

  • rss ikonoa

»» Aukera gehiago