Teknofiloen albistegia

Data science, Big Data, Machine Learning eta beste hainbat hitz potolo

Erabiltzailearen aurpegia
2018-10-12 : 23:05

Azken urteetan gure hiztegi teknologikora hainbat hitz berri gehitu zaizkigu: data sciencebig datamachine learningartificial inteligence… Baina ba al dakigu zer den bakoitza? Egia da, gehienak ingelesetik eratorriak diren hitz potolo hauen artean konfusioa eta ezjakintasuna nagusitu dela.

Data science, hitzaren itzulpenetik, datuak aztertzen dituen zientzia bezala definitzen da. Metodo zientifikoak, prozesuak eta sistemak erabiliz egituratuak edo ez diren datu multzoetatik ezagutza ateratzean datza.

Datuen zientzia honen parte dira adibidez, data mining eta machine learning bezalako terminoak.

Data mining edo datu meatzaritza, estatistika eta datu zientzien barruan mota ezberdinekoak diren eta ezagutzarik ez duten datu arruntetatik patroiak ateratzean datza. Horretarako adimen artifizialaren algoritmoak eta datu base sistemak erabiltzen ditu.

Prozesuak arrunta ematen du baina nahi bezain beste konplikatu daiteke:

Datuen lorpena eta aukeraketa: Datu guztiak ez dira beti modu egokian prest izaten. Askotan sentsoreen bidez, API bati kontsultak eginaz edota scrap metodoak erabiliz lortu behar izaten dira. Gainera datu hauek eskeintzen diguten informazio guztia ez da beti beharrezkoa izaten.

 

Aurreprozesamendua: Behin beharrezko datuak edukita, datuak prestatu behar izaten dira. Inongo baliorik galdu gabe prozesamendua ahalik eta eraginkorren izateko datuak transformatu egiten dira: normalizatu, kuantifikatu, garbitu, eskalatu…

 

Entrenamentua: Lortutako datuei Machine Learning edo ikasketa automatikoko algoritmoak aplikatzean datza fase hau. Algoritmo hauek datuen patroiak eta sailkapenak egiteko kapaz dira: sailkapen zuhaitzak, sare neuronalak, clustering…

 

Proba fasea: Entrenamendurako erabili ez den datu multzo bat, askotan %80 entrenamendurako %20 probarako, entrenatutako modeloarekin probatzen da eta emandako emaitza aztertzen da. Horrela sortutako modeloaren eraginkortasuna neurtzen da. Fase honetatik berriz ere aurreko fasera itzuli daiteke modeloan aldaketak egin eta emaitza hobeak ateratzearren.

 

Ebaluazioa: Fase honetan modeloaren erabileraren ondorioak ateratzen dira, egindako sailkapenak edo ateratako patroiak, eta modeloa prestatzen da adibidez etorkizuneko datuen aurrean iragarpenak egiteko.

 

Baina, non sartzen da hainbeste entzun dugun Big Data hori?

Big Data, datu kantitate handiekin lan egiten duen atala da. Datuen zientziako proiektu handien parte izan daiteke askotan. Big datako proiektuetan, iturburu ezberdinetako datuak, askotan denbora errealean jasotakoak prozesatzeko azpiegitura bereziak behar izaten dira.

Azpiegitura berezi hauek prozesamentu ahal handiko zentro bereziak izaten dira, horretarako apropos sortutako softwarea erabiltzen dutenak.

 

Berriaren iturri originala: https://saretzen.eus/eu/data-science-big-data-machine-learning-eta-beste-hainbat-hitz-potolo/

Erantzun

Twitter ikonoa  Facebook ikonoa  Sartu