Okvir za identifikaciju i rangiranje čimbenika poteškoća pri učenju iz neuravnoteženih podataka

Proveli smo suvremenu empirijsku studiju ponašanja i izvedbe pet dobro poznatih klasifikatora na velikom broju neuravnoteženih skupova podataka koji pokazuju brojne kombinacije intrinzičnih karakteristika podataka kao što su mali disjunkti, preklapanje klasa, šum i rijetkost podataka. Cilj studije je identificirati i rangirati čimbenike poteškoća pri učenju iz neuravnoteženih podataka, ovisno o vrsti korištenog algoritma klasifikacije. Kako bi se ublažili ovi problemi, testirani su postupci preduzorkovanja i poduzorkovanja te su dane upute za odabir odgovarajućih tehnika kada se radi o problemu neravnoteže klasa.
Dudjak, M., & Martinović, G. (2021). An empirical study of data intrinsic characteristics that make learning from imbalanced data difficult. Expert Systems with Applications, 182, 115297. https://doi.org/10.1016/j.eswa.2021.115297
Model rudarenja podataka za procjenu kreditne sposobnosti na temelju odabira značajki i skupnih klasifikatora

Predložili smo hibridni model rudarenja podataka temeljen na kombinaciji postupaka odabira značajki i skupa klasifikatora. Kao dio predložene metodologije razvoja modela, istraženo je pet različitih algoritama odabira značajki, koji su korišteni uz podršku postupaka glasovanja nakon evaluacije. Također, predložena je nova procedura glasovanja koja postiže bolje rezultate od postojećih. Nekoliko klasifikacijskih algoritama kombinirano je u modele ansambala pomoću predloženog mekog glasanja. Eksperimentalni podaci su pokazali da predloženi hibridni model koji se temelji na značajkama dobivenima mekim glasovanjem i predloženim ansamblom postiže vrlo dobre performanse i može se uspješno koristiti u procjeni kreditne sposobnosti klijenata.
Nalić, J., Martinović, G., & Žagar, D. (2020). New hybrid data mining model for credit scoring based on feature selection algorithm and ensemble classifiers. Advanced Engineering Informatics, 45, 101130. https://doi.org/10.1016/j.aei.2020.101130
Nalić, J., & Martinović, G. (2020). Building a credit scoring model based on data mining approaches. International Journal of Software Engineering and Knowledge Engineering, 30(02), 147-169. https://doi.org/10.1142/s0218194020500072
Projekt: DATACROSS – Advanced methods and technologies in data science and cooperative systems