Zeintzuk dira euskaraz gehien erabiltzen ditugun letra edo hizkiak? Zein da euskaldunok maiztasun handienarekin darabilgun kontsonantea? Ahotsaken bildu dugun ahozko corpusa aztertu dugu (2 milioi hitz) eta hemen dituzue datu guztiak. Laburbilduz: A da letrarik ugariena (totalaren %16,53); N kontsonanterik usuena (%8,53); eta F gutxien darabilguna (%0,21).
Azken orduotan Twitterren izan den mezu-truke baten harira ekin diogu azterketa txiki honi. Izan ere, herenegun argitaratu zen Reddit agerkarian hor goian duzuen mapa, izenburu honekin: Most common consonant in European official languages. Europako hizkuntzarik gehienetan N omen da kontsonanterik erabiliena; hizkuntza erromaniko gehienetan, aldiz, S.
Euskararik ez da azaltzen mapa horretan, baina bai Simia.net webguneko beste zerrenda honetan (izen okerrarekin ageri den arren, Baque), non Wikipediatik ateratako testu-lagin bat erabilita ondorioztatu duten hauexek direla euskaraz gehien erabiltzen diren letrak: A, E eta I bokalak eta N, R eta T kontsonanteak.
Hori ikusirik, ahozko corpus batek eman ditzakeen emaitzak ezagutzeko gogoa piztu zaigu. Izan ere, idatzizko testuek eta ahozko jardun libreko ekoizpenak badituztelako zenbait ezberdintasun nabarmen. Horregatik, Euskal Herrian dugun ahozko corpusik handiena arakatu dugu, Ahotsakeko transkripzioetan oinarritzen dena (2 milioi hitzekin), eta gure hizlarien lekukotasunak aztertu ditugu galdera berdina eginez: zeintzuk dira euskaraz gehien erabiltzen ditugun hizkiak?
Hauexek dira emaitzak:
1 | a | 1.690.125 | 16,53% |
2 | e | 1.283.693 | 12,56% |
3 | i | 893.344 | 8,74% |
4 | n | 872.151 | 8,53% |
5 | t | 818.316 | 8,00% |
6 | r | 656.143 | 6,42% |
7 | o | 575.009 | 5,62% |
8 | u | 494.350 | 4,84% |
9 | z | 473.314 | 4,63% |
10 | k | 462.947 | 4,53% |
11 | b | 387.782 | 3,79% |
12 | d | 269.096 | 2,63% |
13 | l | 260.066 | 2,54% |
14 | g | 226.067 | 2,21% |
15 | s | 221.891 | 2,17% |
16 | h | 212.442 | 2,08% |
17 | x | 109.341 | 1,07% |
18 | m | 107.678 | 1,05% |
19 | p | 85.475 | 0,84% |
20 | j | 62.083 | 0,61% |
21 | y | 22.881 | 0,22% |
22 | f | 21.474 | 0,21% |
23 | c | 11.302 | 0,11% |
24 | v | 4.136 | 0,04% |
25 | q | 2.802 | 0,03% |
26 | w | 28 | 0,00% |
10.223.936,00 | %100,00 |
Kontuan izan, jakina, ahozko corpus baten datuak direla, baina idatzira ekarri eta gero aztertu ditugula (transkripzioetatik), eta horrek bere eragina duela, noski. Gainera, soinu batzuk falta dira zerrenda horretan, ez direlako karaktere bakarrekoak (TZ, TS, TX eta TT).
Azterketa xume bat eginez, hauexek lirateke ateratzen ditugun ondorio nabarmenenak:
Beste datu gutxi batzuk ere atera ahal izan ditugu azterketa txiki honetan. Adibidez, hitzen batez besteko luzera 5,07 karakterekoa dela. Edozelan ere, hitzen %41 batez besteko horretatik behera dago eta 1-5 karaktere bitarte dituzte. Euskarazko idatzizko testuetan, oro har, 7 karaktere dira hitzen batez besteko ohikoena. Ahozko gure corpusean, aldiz, dexente txikiagoa da batez besteko hori (5,07), ahozko jardun librearen ezaugarriekin lotura zuzena daukana.
Corpusean jaso dugun hitzik luzeena, 22 karaktereko bat, 'errekonoziduteagaittik'.
Esan bezala, hau corpus jakin baten azterketa besterik ez da. Jakin badakigu, erabilitako corpusaren ezaugarriek eragin nabarmena izan dezaketela emaitzetan, eta gure kasuan ere horrela da, jakina. Hasteko, euskalki guztiak ez daude neurri berean bilduta. Bestalde, transkripziorako hartutako erabakiek ere izan dezakete eraginik (hona hemen gureak). Edozein modutan delarik ere, hortxe gure corpusa eta jasotako datuak.
...........
Oh.: Eskerrik beroena Codesyntaxeko Urtzi Odriozolari eta Josu Azpillagari corpusaren kalkulu eta azterketa egitearren. Artikulu hau Ahotsak.eus webgunean ere argitaratu dugu.
Erantzun
Sartu