Teknologia albisteak
8

Eta euskara uste baino hizkuntza errazagoa balitz?

Erabiltzailearen aurpegia
Erramun Turutarena
2011-03-11 : 10:03

Eztabaida ez da berria, idatzia bera irailean idatzi nuen eta sustatu.com-en bertan aurrez jorratutako gaia da. Azpitituluak.com-en itzulitako filmeak ere dexente gehiago dira orain. Guztiz iraungi aurretik, euskararen erreztasunaren inguruko gorazarre hau partekatu nahi dut.

Portugaletekoa dut pisukideetako bat, eta udal euskaltegian apuntatu da kurtso hasierarekin batera. Oskorriren hitzak buruan ”hau da hau makila, aditz klase pila”, HABEren1 web-orrian dagoen euskal aditz laguntzailearen eskema pasatu diot laguntza bezala. Baina laguntza al da benetan? Begiratu 1. Irudia. Zer pentsa dezake euskara arrotza zaion batek horrelako zerbait ikustean?


Argazkiak.org | Euskal aditz laguntzailea © cc-by-sa: sustatu

(Irudia 1. Aditz laguntzailearen taula euskara batuan. HABEren web-orritik hartuta. Elegantea bezain nahaspilatsua, ezta?)

Honekin batera, azkenaldian interneten dabilen berria etorri zait burura: euskara ei da munduan ikas daitekeen hizkuntzarik zailena aditu britaniar batzuen ustetan, hungariera eta txinera atzetik dituela [1]. Aurkezten dituzten argudioen artean, besteak beste, euskal aditzaren paradigma konplexua azaldu dute. Kondaira batek dio deabruak ez zuela euskararik ikasi nahiz eta 7 urtetan Euskal-Herrian bizi, eta badirudi oraindik istorioaren oihartzunak bizirik dirauela. Eta internetek berak emango balitu mitoa deuseztatzeko datuak? Eta euskal aditz laguntzailea, aditz erabilienak kontuan hartuta, sinplea balitz? Eta euskara uste baino hizkuntza errazagoa balitz?

(I. EUSKAL ADITZ LAGUNTZAILEA)

Aurrera jarraitu aurretik, azal dezagun zer den aditz laguntzailea. Euskal aditzak, hizkuntza askotan legez, bi taldetan bana ditzakegu: trinkoak eta perifrastikoak. Trinkoek hitz bakarra erabiltzen dute aditzaren esanahia eta konjugazioa ezartzeko, hori da adibidez etorri (nator, zatoz, etab.) aditzaren kasua. Ugariagoak dira, baina, jokaera trinkoa ez dutenak, hau da, ezinbestez aditz perifrastikoz osatu beharrekoak. Euskararen kasuan bi hitzek osatzen dituzte aditz perifrastikoak: lehenengoa adizki jokatugabea (adb., jan), eta bigarrena, zati jokatua (adb., dut), aditz laguntzaile bezala ezagunagoa.

Euskara batuaren aditz laguntzailearen taula, euskaltzaleek urteetan eginiko lanaren emaitza da. Mendeetan atzera eginda, ikusiko genuke gramatikarik gabeko hizkutzatzat hartzen zela euskara. Esaterako, Etxepare berak (XVI. mendean) hitzetan adierazi zuen ”bertze jendek uste zuten ezin eskriba zaiteien”. Azal dezagun labur hurrengo atalean, gramatikarik ez omen zuen garai haietatik gaur egungo ereduetarako prozesua.

(II. EUSKAL ADITZ GRAMATIKAREN HISTORIA HITZ BITAN)

Jainkoa aipatuaz ekingo diot atal honi. Izan ere, gramatikarik ez omen zuen hizkuntza hari prestigoa emateko hau ondorioztatu zuen Larramendik XVIII. mendean: euskara jainkoak berak Babelen sortutako hizkuntzetako bat zela [2]. Gaur egungo jakintzari esker (eboluzioaren teoria, etab.), badakigu hizkuntzak garapen kultural baten ondorioa direla, eta noizbait jainkoak esku hartu izatekotan, hori hizkuntzen sorrera baino milaka miloi urte lehenago gertatuko zela. Bestalde, Larramendik berak beste batzuekin batera, aditz laguntzailearen erregulartasuna oinarritzat hartuta, aditz laguntzaile eta trinkoak banatu zituzten. Aditz laguntzaileen paradigma euskarak berezkotzat zuela zioten, eta trinkoena (irregulartzat hartzen zituztenak) denboran garatutakotzat (orain kontrakoa argudiatzen duten ikerketa interesgarriak daude). Ordutik gaur egundaino era guztietako ereduak azaldu dira.

XIX. mendean, hainbat gramatika eredu argitaratu ziren. Astarloarenak, adibidez, hamaika modu, hiru denbora, zortzi era, eta hiru adierazpen mota bereizten zituen [3]. Humboldt alemaniarrak hainbat ekarpen egin zizkion eredu korapilatsu horri. Aditz bakarraren teoria deritzonarekin ere bat egin zuen, zeinak garaiko pentsamentu korronte europearrarekin bat egiten zuen. Euskaraz aditz bakarra zegoela zioen; aldaketa itzela!


Argazkiak.org | Azpitituluak eta aditzak © cc-by-sa: sustatu

(2. irudia: Internetetetik baliabideak deskargatu ostean, aditzak banaka irakurri eta azpititulu fitxategietan errepikatze kopurua zenbatzen du programak. Aditz guztiekin prozesua errepikatu ondoren, datu hutsak dituen fitxategi bat sortzen du. Azkenik posible da datu huts hoiek bisualisatzea OpenOffice edo Microsoft Excel bezalako Spreed sheetak erabilita.)

Azkenik, XX. mendean, Euskaltzaindiaren (1919) eta pentsamentu zientifikoaren eskutik, ereduak garatu eta euskara batua sortzearekin batera (1968), gaur egun ezagutzen dugun aditz laguntzaile paradigmara heldu gara. Euskal aditz laguntzailearen taula lan hauen guztien eraskule nabarmenetakoa da.

(III. ARIKETA ERAKUSGARRI BAT)

Euskararen zailtasuna aditz paradigma honen inguruan jus- tifikatu dute askok. Gazteleniazko Wikipediak aditza ”euskara ikasteko zatirik zailena” dela dio adibidez [4]. Euskaldun garenok badakigu aditz laguntzaile guztiak ez direla maiztasun berarekin erabiltzen. Ariketa txiki batekin ohartuko gara aditz laguntzailearen paradigma sinplifikatua erabiltzen dela. Asmo horrekin, internet eta teknologia informatikoak baliatu ditut kasu erabilienak zenbatzeko.

Testu corpus baten bila abiatu naiz lehenik. Testu corpusa egituratutako testu sorta handi bat da, hizkuntza bat deskribatzeko eta ikertzeko hitzen datu-base bat, alegia. Corpusen azterketarako internet erabiltzean bi ikuspegi agertzen dira: Web as corpus edo internetetik zuzenean kontsultatzeko ikuspegia (Google, adb.), eta Web for corpus internet corpus bat elikatzeko erabiltzen dugunean [5]. Ondorengo lerroetan, corpus esanguratsu bat aurkitzeko erabili dudan prozesua azalduko dut, aurreko bi ikuspegietako adibide bana erakutsita.

A. Google aztergai

Google aztertuko dugu lehendabizi. Funtzionamendua erraza da: aditzak banan-banan sartu eta enter sakatu ostean, zenbat emaitza aurkitu dituen begiratu. Bi arazo agertu zaizkit, baina, segidan: (1) Aditz laguntzaile denak banaka sartzea lan astuna izanda, ez dago komando-lerro bidez bilaketa egiteko modurik, eta (2) emaitzak ezin dira oraindik euskarazko sarreretara mugatu. Hona jarraian arazo bakoitzari buruzko azalpen xeheagoa:

  1. Arazoa: komando-lerroa ezin erabiltzea. Komandu- lerroak testu bidez programa edo agindu zerrenda bat (script bat) exekutatzea ahalbidetzen du, eta ehunka agindu era automatikoan egitea. Komando-lerroa erabiltzen duen programa bat beraz, agindu zerrenda horietara batu dezakegu eta atazak automatizatu. Arazoaren iturria Google bera du, ez baitzaio interesatzen beraien zerbitzua era automatikoan eskaintzea, iragarkirik erakutsi barik.
  2. Arazoa: euskarazko emaitzetara ez mugatzea. Arazo honek beste hizkuntzetako hitz homonimoak kontuan hartzea dakar, adibidez, errusierako da (euskaraz, bai) eta NOR kasuaren modu indikatiboaren orainaldiko hirugarren pertsona singularra: hura da. Artikulu hau idazten dihardudan honetan Googleek ez du oraindik euskarazko emaitzarik mugatzen uzten.

Azkenik, Google dokumentuak bilatzeko eratuta dagoela gogoratu behar dugu ez hitzak zenbatzeko. Adibide bezala, web-gune bereko testuak zenba ditzake ezberdinak balira bezala.

B. Azpitituluak.com web-gunea eta script programa bat

Google baztertuta, zein izan daiteke gaur egungo euskararen erakusle den testu corpus egoki bat? Boluntariotzan oinarritutako euskal web-komunitatea etorri zait burura, eta hortik, azpitituluak.com. Web-gune honetan edozeinek jarri ditzake guztiontzat eskuragarri edozein filmetako azpitituluak. Gainera, adierazgarria da gure helburu honetarako elkarrizketa hizkuntza baitute oinarri. Momentuan erabilgarri dauden 38 pelikulen errotuloak ditugu, beraz, esperimenturako, horien artean, Obaba edo Up! bezalako filmeak.

Azpitituluok euskal aditz laguntzailearen indikatiboko formekin (orainaldia eta lehenaldia) gurutzatzea geratzen zaigu. Aditz trinkoak eta gainerako aditz moduak baztertu egingo ditugu oraingoz. Baina Googleek egingo lukeena guk egin beharko dugu orain. Horretarako script progama bat garatu dut Ubuntu sistema eragilearen gainean dabilena. Programak aditz forma bakoitza azpitituluetako testu osoan (”.srt” fitxategietan) bilatzen du era automatikoan (testu fitxategi programa bat erabiliz, parser deitzen dioguna), eta forma bakoitzaren kopurua fitxategi batean gordetzen du (2. Irudia). Parserak kontuan hartu ez dituenak (deklinatutako aditzak, adb.), eta beste hizkuntza kontsiderazio batzuk (dik aditzaren dualtasuna etab.) ez ditut aintzat hartu.

Horrela, indikatiboa osatzen duten 546 aditzak eta 38 pe- likulek suposatuko luketen 4 astetako elkarrizketa etengabeeen testuak, 6 segundutan gurutzatu ditut netbook eramangarri txiki batez baliatuta. Ikustekoa internetek eta teknologia elektron- ikoek ahalbidetzen dutena!

C. Emaitzak

Hona hemen datuen uztartzeak ekarritako emaitzak. Aurkeztutako corpusak zituen indikatiboko 7463 aditz laguntzaileetatik, I. Taulak erakusten ditu hamar errepikatuenak.


Argazkiak.org | Aditz maiztasunen taula © cc-by-sa: sustatu

(I taula. 38 filmeetako elkarrizketetan gehien errepikatuko indikatiboko 10 aditz laguntzaileak, eta dagozkien portzentaiak corpuseko aditz multzo osoaren erabilerarekiko. Aditz guztien %67 hamar aditzek osatzen dute, ez al da harrigarria?)

Grafiko batean aditz errepikatuenen kopurua igo ahala, aditz horiek corpus guztian hartzen duten ehunekoa erakutsiz gero (3. Irudia), ikus dezakegu 20 aditzekin gure corpusaren %80 baino gehiagoko estaldura daukagula, eta %100 187 aditz laguntzailerekin. Beste era batera esanda, indikatiboaren aditz laguntzaile garatua osatzen duten 546 aditzetatik 359 (%65) ez dira gure corpusean agertu. Datu-basea handituta ere, badakigu nekez aldatuko direla emaitzak, dagoeneko datu-base handi xamarra izatean estatistikoki baitakigu emaitzen errore-margina eta konfiantza-maila ez dela nabarmen hobetuko.

Beraz, esan dezageku euskaraz aditz zailak baino gehiago, gutxi erabiltzen diren aditz multzo handia dagoela. Euskaldun zahar askori ere lehenengo punpan kolpatzea kostatzen zaizkigun pilotak. Eta hori oraindik eta nabarmenagoa da beste aditz laguntzaile (ahalera, potentzial, subjuntibo eta agintera) eta aditz trinkoen kasuan.


Argazkiak.org | Aditz estatistikak © cc-by-sa: sustatu

(Irudia 3. Azpian aditz laguntzaile errepikatuenen kopurua eta ezkerretan corpuseko agerpenen ehunekoa. Aditz gutxirekin molda gaitezkeela erakusten du grafikoaren igoera azkarrak.)

(IV. EUSKARA: USTE BAINO ERRAZAGOA)

Balio beza artikulu honek teknologia berriek, interneten maindirepean, inter-disziplinarekin uztarturik ahalbidetzen dituzten aukeren erakusle. Izan ere, badira bide honetan hizkuntzaren prozesamendu infomatikoak jorratzen dituzten hainbat ikerketa talde (adb., EHUko Ixa Taldea), lan oso interesgarriak argitaratu dituztenak [6]. Baina batez ere, izan bedi euskara zaila dela diotenentzako erantzuna. Larry Trask profesoreak esanak gogoratuz: ”Euskarak ahozkera erraza du, ortografia erregularra, ez dauka genero bereizketarik, ez hitz-klase edo aditz-klaserik edota hitz irregularrik, ezta ia aditz irregularrik ere” [7]. Bere erraztasun eta zailtasunak ditu euskarak, hizkuntza guztiek bezala. Haratago joanda, badira zailtasunak hizkuntzan bertan baino gehiago, ikaslearen psikologian (hiztun komunitatearekiko distantzia, hizkuntzaren erabilgarritasuna, etab.) egon daitezkela dioten ikerketak [8]. Honek osoki azalduko luke neska edo mutilagun atzerritarra duen hark zeinen bizkor ikasten duen maitalearen hizkuntza!

Eta zuk, datuak eskuan, maiteminduta ala ez, oraindik euskara zaila dela uste al duzu?

ERREFERENTZIAK

[1] Lexiophiles, “Top list of the hardest languages to learn,” http://www.lexiophiles.com/, 2010.

[2] K. Zuazo, “Euskalkiak. euskararen dialektoak,” Elkar, 2008.

[3] R. Gomez, “Xix. mendeko euskal gramatikagintzari buruzko ikerketak,” Doktorego Tesia, EHU, 2006.

[4] Wikipedia, “Verbo vasco,” http://es.wikipedia.org/wiki/Verbo vasco, 2010.

[5] A. Gurrutxaga, I. Leturia, E. Pociello, I. San Vicente, and S. X., “Internet, corpusak eta terminologia: Internetetik espezialitate-corpusak erauzteko teknikak eta horien ebaluazioa,” Ugarteburu Terminologia Jardunaldiak, 2010.

[6] Ixa-Taldea, “Ehuko hizkuntzaren prozesamendu taldea,” http://ixa.si.ehu.es/Ixa, 1987-2010.

[7] T. Larry, “Faqs about basque and the basques,” http://www.buber.net/, 1996.

[8] J. A. Moreno Cabrera and V. Ferreira, “Hizkuntzen zaila eta erraza: euskaren kasua,” Hitzaldi Laburpena, 2010.

Erantzunak

Borja
2011-03-11 : 17:18

Beraz, forma erabilienak:



naiz, dut

zara, duzu

da, du / zen, zuen

dugu

dira



Horiek aditz nagusiaren hiru formekin konbinatuz (-tu, -tzen, -tuko) eta partikula modal batekin (ahal(ko)), paradigma nahiko aberatsa lortuko dugu. Har dezagun, adibidez, IZAN aditza, bere bi adieratan ('esse' eta 'habere'):



Goiko hamar aditz horiez gai (forma trinkoak liratekeenak), honako perifrasiak lor ditzakegu:



izan naiz, izan dut, izan da, izan zuen, etab.

izango naiz, izango dut...

izaten naiz, izaten dut...

iza(te)n ahal naiz, iza(te)n ahal dut...

izango ahal naiz!, izango ahal dut!... (oxala, agian...!)

izan ahalko naiz, izan ahalko dut...



Lehenengo pertsona singularra soilik hartuta:

izan, izaten, izango, ahal, ahalko, naiz, dut = 7 hitz (edo 4 hitz/oinarri + 2 atzizki) = 14 denbora-modu.



Gaztelaniaz, ordea:



soy, tengo

he sido, he tenido,

seré, tendré

suelo ser, suelo tener

puedo ser, puedo tener

ojalá sea, ojalá tenga

podré ser, podré tener



14 denbora-modu eta... 15 hitz!!! (soy, tengo, he, sido, tenido, suelo, puedo, seré, tendré, podré, ser, tener, ojalá, sea, tenga).



Egiazki txorakeria bat da egin dudana (ez dago hizkuntza zail edo errazagorik), baina, izatekotan, ez al gaztelania "zailago" eta aditz paradigma "konplexuagoa" duena?

Erramun Turutarena
2011-03-16 : 10:52

Hemen artikulua PDF formatuan Scribd-en.


asier
2011-03-16 : 12:05

Corpusa bera, laginketa, eta antzekoak alde batera lagata, uste dut guztiok dugun ideia bati forma eman diola Erramunek. Hau da, gure hizketaldi arrunten % handi bat adizki gutxi batzuekin moldatzen dugula. Azkenaldian hitanoaren inguruan jardun dugu han eta hemen. Orain egun batzuk ere berdina esan nion lagun bati: hitanoa erraza da. 10-15 forma jakinez gero, horrekin nahikoa egoerarik gehienetan lasai-lasai moldatzeko.

asier
2011-03-16 : 12:31

Erramun, bide batez: datu guztiak publiko egiteko asmorik? Interesgarria litzateke.

Erramun Turutarena
2011-03-16 : 12:57

Hitanoaren inguruan: dostat (Bergaraldeko "diat", Top 14: Dizut) aditzaren erabilgarritasunaren testigantza ematen dut!


Taulak Google Docs-era igo ditut, bidean formatua galdu badute ere. Kontutan izan hitz homonimoak ez ditudala bereizi (adb., "zain"). Dibertimentutzat hartu ariketa, ez ikerketa bezala...


Joxe migel
2011-03-16 : 15:39

Artikulu interesgarria benetan. Honelako ikerkuntza gehiago egin beharko liratezke eta euskara zaila denaren topikoarekin hautsi

asier
2011-03-17 : 10:07

Eskerrik asko Erramun!

Jaime Altuna
2011-03-17 : 12:03

Zailtasuna eta erraztasunaren gaiaren inguruan sakontzen saiatu naiz aisia.net blogean:

http://www.aisia.net/bloga/2011/03/zaila-ala-erraza-iii/#comment-290

http://www.aisia.net/bloga/2011/03/zaila-ala-erraza-ii/

eta

http://www.aisia.net/bloga/2011/03/zaila-ala-erraza-1/



Eta zalantza hau sortu zait: komeni al da topiko hauei buruz hitz egitea?. Aurreiritzi hauek gezurtatzen saiatzen garenean, ez al gara ideia bera finkatzen laguntzen ari? Zuek zer uste duzue?

Erantzun

Sartu