Microsoftek aurkeztu du tresna berria, Cognitive Services proiektuaren baitan. CaptionBot deritzo, eta argazkiak "ulertzeko" tresna bat da. Edozein argazki ematen badiozu, irudia aztertu eta bertan zer dagoen deskribatzeko gai da. Proba batzuk egin ditugu eta, sarritan hanka sartzen duen arren, beste askotan polito deskribatu ditu eman dizkiogun argazkiak. Proba egin nahi?
Azken urteotan gero eta arruntagoak dira antzeko aplikazio edo algoritmoak, irudiak aztertu eta nolabait "ulertzen" dituztenak. Microsoftenak berarenak dira, adibidez, Zenbat urte ditut? eta Zer txakur da? izeneko erremintak. Erabilera praktikoa ere badute dagoeneko horrelako irudi-aztertzaileek, eta hortxe daude Googleren hainbat tresnatan edo mugikorretako aplikazio mordoxkatan aurkituko ditugun tresnak eta aplikazioak. Baita argazki zein bideo kameretan instalatuta datozenak ere, dagoeneko oso arrunt egiten zaizkigunak: aurpegiak ezagutzen eta enfokatzen dituztenak, pertsonek irri noiz egiten duten dakitenak argazkia une egokian ateratzeko, eta abar.
Kasu honetan baina, CaptionBot aplikazioak urrats bat gehiago ematen du, eta argazkian zer dagoen jakiteaz gain, argazkian zer gertatzen den ere ulertzen du, eta gainera deskribatu ere egiten du. Ez du beti asmatzen, baina irudi estandarrenekin nahiko emaitza txukunak lortzen ditu. Zuk zeuk ere egin dezakezu proba, oso erraza baita: CaptionBot.ai webgunera sartu eta emaiozu tresnari edozein argazki (zerorrek igotakoa izan daiteke, edo sarean dagoen edozein). Ea zer diotsun!
Guk egindako probetan nahiko emaitza onak lortu ditugu, esate baterako, ondorengo irudiekin.
Beste batzuetan, ostera, zehaztasuna ez da hain handia, edo akats ulertezin batzuk ere baditu (Eiffel dorrea ez ezagutzea, esate baterako):
Azkenik, irudi berezi edo abstraktoagoekin, oraindik oso motz geratzen da CaptionBot. Euskaldunak telefono mugikorrekin lotzeko joera txiki bat ere badu ;)
CaptionBot-ek 2 urratsetan egiten du bere lana. Lehenengo urratsean irudia aztertzen du eta argazkien datu-base batekin alderatzen du. Gutxika gutxika ikasten joaten da. Bigarren urratsean, deskribapena egiteko hitz eta esaldi egokienak (baita emotikonoak ere) aukeratu eta "idazten" ditu. Horretarako 3 tresna nagusi erabiltzen ditu: Computer Vision API, Emotion API eta Bing bilatzailearen irudien datu-basea. Bi orrialde hauetan (bat eta bi) ematen dituzte azalpen sakonagoak.
Oraindik ere ez du %100 asmatzen, ezta hurrik eman ere, baina irudiak aztertzen eta ulertzen dituzten tresnen eta teknologien potentziala nabaria da eta datozen urteotan etor daitezkeen hobekuntzak eta aplikazioak izugarriak izango dira.
Informazio osagarria: Microsoft CaptionBot, vía Daily Dot eta Engadget.
Antzerako zerbait MITek du: MIT Scene recognition demo: http://places.csail.mit.edu/demo.html
Gorka Azkune Deustuko Unibertsitateko ikertzaileak erakutsi zigun iaz #bertsozientzia ekitaldian, adimen artifizialaren nondik norakoak azaldu zituenean: http://zientziakaiera.eus/2016/01/05/bertsozientzia-3-neurona-sareak-adimen-artifiziala-eratzeko/
Argazkiak bidali zituen zuzenean eta emaitzak, CaptionBot-en antzera, nahiko onak izan ziren, erroreren bat eman zuen arren. Hori bai, Donostiako argazki bat bidali zioten eta Amets Arzallus bertsolariak gero esan zuen moduan: "makina oso listoa baina Donostia dela ez daki". Ez, tokia ez zuen asmatu baina asko hurbildu zen deskribapenean.
Gizon bat frankfurt bat jaten, %54ko antza Emun Elliottekin? Ba ez da Emun Elliott baizik eta Josemi Beltran, Donostia Kulturako zine arduraduna eta atzean Judas Arrietaren kopin bat ageri da.