Luokitteluvirheen estimaattoreiden ja luokittelumenetelmien vertailu

Tutkimuksessa pohjaeläinaineiston pohjalta haluttiin simuloida yksilöitä, joita ryhdyttiin luokittelemaan eri luokittelumenetelmillä. Tarkastelun kohteena oli, miten luokittelumenetelmät vertailevat keskenään normaalijakautuneisuusoletuksen ollessa voimassa ja miten eri estimaattorien tulokset verta...

Full description

Bibliographic Details
Main Author: Sorvali, Jesse
Other Authors: Matemaattis-luonnontieteellinen tiedekunta, Faculty of Sciences, Matematiikan ja tilastotieteen laitos, Department of Mathematics and Statistics, Jyväskylän yliopisto, University of Jyväskylä
Format: Master's thesis
Language:fin
Published: 2023
Subjects:
Online Access: https://jyx.jyu.fi/handle/123456789/87529
Description
Summary:Tutkimuksessa pohjaeläinaineiston pohjalta haluttiin simuloida yksilöitä, joita ryhdyttiin luokittelemaan eri luokittelumenetelmillä. Tarkastelun kohteena oli, miten luokittelumenetelmät vertailevat keskenään normaalijakautuneisuusoletuksen ollessa voimassa ja miten eri estimaattorien tulokset vertautuvat keskenään. Tavoitteena oli estimoida yleistämisvirhettä. Kun mallissa on kaksi luokkaa ja kaksi piirettä otoskoon ollessa 50, havaittiin kvadraattisen luokittelijan olevan optimi normaalijakautunaisuusoletuksella tuottaessa pienimpiä virheitä. Lähimmäksi kvadraattisen luokittelijan tuloksia pääsi lineaarinen luokittelija. Vertaillessa luokittelijoita huonoiten suoriutui lähinaapurinmenetelmä. Erot lineaarisen luokittelijan ja tukivektorikoneiden välillä eivät olleet suuria, vaikkakin lineaarisen luokittelijanvaihtelu oli pienempää. Kun otoskoko oli 500 ja mallit monimutkastuivat sisältäen 8 luokkaa ja 8 piirrettä, suoriutui lineaarinen luokittelija edelleen toisiksi parhaiten kvadraattisen luokittelijan antaessa pienimmät virheet. Neuroverkot ja lähinaapurinmenetelmä havaittiin suoriutuvan huonoiten. Tukivektorikone lineaarisella ytimellä suoriutui sädeperusteista paremmin ja myös sen vaihtelu pysyi pienempänä. Kolmannessa tapauksessa, missä luokkia oli 50 ja piirteitä 8 otoskoon ollessa 10000, suoriutui lähinaapurinmenetelmä edelleen muita menetelmiä huonommin. Alhaisimmat virheet olivat edelleen kvadraattisella luokittelijalla, mutta toiseksi parhaimmat tulokset tuotti satunnaismetsä. Estimaattoreiden tulokset vaihtelivat tapauskohtaisesti. Toistuva jako opetus- ja testiaineistoksi jaolla 90/10, ristiinvalidointi arvolla K=N, sekä Err(.632) havaittiin useasti eroavan vähiten yleistämisvirheestä. Toisaalta Err (.632) havaittiin myös useasti aliestimoimassa yleistämisvirhettä. Huonoiten estimaattoreista suoriutuivat toistuva jako opetus- ja testiaineistoksi 50-50-jaolla, Err (1), sekä ristiinvalidointi arvolla K = 2.