Teknologia albisteak
1

Txosten katalan batek Googleren gaztelaniaren aldeko joera aldaketa demostratu du

Erabiltzailearen aurpegia
Sustatu
2023-06-07 : 09:28

Jakina da (komentatu izan dugu Sustatun abenduan eta urtarrilean) Googlek iaztik euskarazko eta katalanezko emaitzak diskriminatzen dituela. Katalanei agindu zien Googlek auzia aztertuko zutela. Ez dirudi aldaketarik gertatu denik. Aldiz, katalanek "Aliantza Digitala" osatu zuten bertako enpresa, erakunde eta talde teknofiloen artean, eta aliantza horren bulegoak lan bat kaleratu berri du, txosten bat demostratzen nola ari den eragiten Googleren emaitza-diskriminazioa.

Aliança per la Presència Digital del Català (APDC) martxoan eratu zen, Albert Cuesta kazetari teknofiloa dela buru. Ordutik hona, hainbat erakunderen webguneen datuak aztertu dituzte, eta ordenagailu kontrolatuetatik bilaketa sistematikoak egin dituzte, Googleren diskriminazioaren kasua enpirikoki aztertzeko.

Asteartez egin dituzte publiko emaitzak. Prentsa oharra hemen eta txostena bera, ingelesez PDF formatuan hemen.

Hona aurkikuntza kezkagarri batzuk, katalanaren kasutik euskarara ekar daitezkeenak seguruenik (demostratu baiugu Sustatun euskarari ere gertatzen zaiola arazo hau)

Hemen, katalanezko eta espainolezko eduki elebiduneko guneetan, nolako desoreka garatu den, katalanezko bisita galeran neurtuta. 2022ko bigarren erditik, trafiko galera bereziki nabarmena da.

Katalaneren beherakada, webgune jakin batean (hizkuntza desberdinetan eta "merkatu" desberdinetara begira lan egiten duen erakunde katala bat), korrelazioa ikusten da katalanaren beherakadaren eta gaztelaniaren gorakadaren artean, 2022tik aurrera bereziki.

2022ko udaberrian gertatu zela aldaketa nabarmen bat ondorioztatu du txostenak. Era berean, hainbat adibide dakartza, ordenagailu konfigurazioak txukun katalanez jarrita bilaketa zehatz batzuen emaitza dokumentatuz, nola emaitzetan gaztelania hobesten den katalanaren aurretik. Irudi galeria gehigarri bat osatu dute, txostenaren lagungarri. Geuk ere argitaratu ditugu adibideak Sustatun...

 

Txostenak demostratzen du beraz, nagusiki:

  • katalanaren diskriminazioa gertatzen ari dela,
  • 2022ko udaberritik gertatzen ari dela
  • webguneetako bisitetan eragina duela, katalan hutsezkoen bisitak jaitsiz, eta webgune elebidunetan gaztelaniazko bisitak gehituz katalanezkoak jaisten diren proportzio berean.

Hau zergatik gertatzen ote den... Hipotesi batzuk aipatzen dira txostenean, eta egiantza gehien duena hau lutzateke:

"The problem here is that Google is not complying with the users’ preferences (“I’d rather like to see pages in Catalan”), so when a content is available in several languages, as in multilingual sites, Google discards the language preference in the browser or user profile and gives more relevance to the site with more visits, which ends up getting even more visits."

Itzulita:

"Arazoa hemen da Googlek ez diela erabiltzaileen hizkuntza hobespenei kasu egiten ("Nahiago nuke orriak katalanez ikusi") eta ondorioz, eduki jakin bat hizkuntza desberdinetan eskaintzen denean, hala nola webgune eleanitzetan, nabigatzaileko edo erabiltzailearen profileko hizkuntza hobespenei muzin egiten die Googlek, eta errelebantzia gehiago ematen dio bisita gehien duen gune-bertsioari, zeinak, ondorioz, are bisita gehiago jasotzen dituen."

Hortxe dago koxka azken batean, gure portaera da nagusi honetan. Herri Txiki efektua, euskarazko Wikipediako arituek zenbaitetan aipatua, edo iaz bertsolarien izenen bilaketetan gertatua... Euskaldunok klikatzen dugu, bi orri eskainitakoan ere, gehiago gaztelaniazkoan euskarazkoan. Googlek ondorioztatu du, hizkuntza hobespenen edo beste edozerren gainetik, klik gehiago jasotzen dituenak interes gehiago duela besteak baino, eta hortaz, gaztelaniazkoa lehenago eskaintzeko hautua egiten du algoritmoak. Honek, halaber, saguaren gurpilean bezala, gaztelaniazkoa are interesgarriago-klikatuago bilakatzen du... eta horretan gaude.

Txostenean puntu harrigarri bat ere irakurri dugu: "We are not sure that the issue is also affecting other languages. Actually a few complaints about Ukrainian have surfaced on Twitter." Aliantzako txostenak dio, beraz, ez dakitela beste hizkuntza batzuetan gertatzen ari ote den hau. Tira, Aliantzako ordezkari batek izan zuen bilera duela aste batzuk EAEko Euskararen Aholku Batzordeko atal digitaleko azpibatzordearekin, eta jakinarazi zitzaion euskaraz berdina gertatzen zela. Ahaztu egin zaie hau.

Aurrera begira, txostenak gauza gehiago aztertzea proposatzen du, bereziki HTML kodeketako Hreflang parametroa nola erabiltzen den webgune eleanitzetan... Auzi abstruso samarra da, baina euskal teknologoren batzuek detektatu izan dute Wikipediaren kasuan Hreflang ez dela modu estandarrean (edo Googlek eskatutako eran) erabiltzen. Beste artikulu baterako gaia, agian.

Erantzunak

2023-06-07 : 12:50

Bai, tamalez, Googlek, bilatzaileen artean ia monopolioa izango balu bezala joka dezake, baina esan behar, hizkuntza kontu hauetan behintzat, ez dela beste bilatzaileak baino okerragoa, hau da, euskaldunok gaur egun ezin dugu Googlerekin negoziatu esanez euskarari leku zabalagoa egiten ez badio, euskaldunok beste bilatzaile bat erabiltzen hasiko garela, hizkuntza kontuetan hoberik ez dagoelako. Eta haiek badakitelako.

Googleren algoritmoa, Coca Colaren formula baino sekretuagoa, enpresaren mozkinak handitzea izango du ezer baino lehen programatuta, negozioa zaintzea, baina beste bilatzaileak erabiliz gero, probatu dudanean, hizkuntza kontuetan emaitzak Googleren antzekoak edo okerragoak.

Bere garaian, Iñaki LL lagunari artikulu batean[1] laguntzeko, ingurukoen artean ikerketatxo xume bat egin nuen ikusteko ea Googleren algoritmoak nola ematen zituen bilaketen emaitzak gailua euskaraz edo gaztelaniaz doituta izanez gero, edo bilatzailean egin daitezkeen hizkuntza-ezarpenekin zenbait aldaketa eginez... Antzeman nuen bilatzaileen algoritmoak oso konplexuak direla. Bi gailu ia berdin konparatu, hizkuntza ezarpenak berdinak bietan, eta bilatzaile berak emaitza desberdinak ematen zituen. Ziur aski, erabiltzaile bakoitzak aurretik egindako klik horiek guztiak kontuan hartzen zituen algoritmoak, gordetako cookieak eta auskalo zer gehiago.

Bai, badago kezkatuta egoteko motiborik. Publizitateak gure erosteko apetak bideratzen dituen bezala, algoritmoek gure hizkuntza-ohiturak bideratzen dituzte Interneten. Eta ez bakarrik hizkuntza-ohituak: algoritmoak hezten gaitu.

Ezagutzen dudan errezeta bakarra: ahal den neurrian aplikazio pribatiboak saihestu, cookieak saihestu, software librea eta zerbitzu deszentralizatuak erabiltzen dituzten aukerak hobetsi...

[1] https://wikimedia.eus/2022/01/euskarazko-wikipediak-20-urte-euskara-eta-internet-estatistika-baikorrak/

Erantzun

Sartu