Luokitteluvirheen estimaattoreiden ja luokittelumenetelmien vertailu

Tutkimuksessa pohjaeläinaineiston pohjalta haluttiin simuloida yksilöitä, joita ryhdyttiin luokittelemaan eri luokittelumenetelmillä. Tarkastelun kohteena oli, miten luokittelumenetelmät vertailevat keskenään normaalijakautuneisuusoletuksen ollessa voimassa ja miten eri estimaattorien tulokset verta...

Täydet tiedot

Bibliografiset tiedot
Päätekijä: Sorvali, Jesse
Muut tekijät: Matemaattis-luonnontieteellinen tiedekunta, Faculty of Sciences, Matematiikan ja tilastotieteen laitos, Department of Mathematics and Statistics, Jyväskylän yliopisto, University of Jyväskylä
Aineistotyyppi: Pro gradu
Kieli:fin
Julkaistu: 2023
Aiheet:
Linkit: https://jyx.jyu.fi/handle/123456789/87529
_version_ 1826225724550283264
author Sorvali, Jesse
author2 Matemaattis-luonnontieteellinen tiedekunta Faculty of Sciences Matematiikan ja tilastotieteen laitos Department of Mathematics and Statistics Jyväskylän yliopisto University of Jyväskylä
author_facet Sorvali, Jesse Matemaattis-luonnontieteellinen tiedekunta Faculty of Sciences Matematiikan ja tilastotieteen laitos Department of Mathematics and Statistics Jyväskylän yliopisto University of Jyväskylä Sorvali, Jesse Matemaattis-luonnontieteellinen tiedekunta Faculty of Sciences Matematiikan ja tilastotieteen laitos Department of Mathematics and Statistics Jyväskylän yliopisto University of Jyväskylä
author_sort Sorvali, Jesse
datasource_str_mv jyx
description Tutkimuksessa pohjaeläinaineiston pohjalta haluttiin simuloida yksilöitä, joita ryhdyttiin luokittelemaan eri luokittelumenetelmillä. Tarkastelun kohteena oli, miten luokittelumenetelmät vertailevat keskenään normaalijakautuneisuusoletuksen ollessa voimassa ja miten eri estimaattorien tulokset vertautuvat keskenään. Tavoitteena oli estimoida yleistämisvirhettä. Kun mallissa on kaksi luokkaa ja kaksi piirettä otoskoon ollessa 50, havaittiin kvadraattisen luokittelijan olevan optimi normaalijakautunaisuusoletuksella tuottaessa pienimpiä virheitä. Lähimmäksi kvadraattisen luokittelijan tuloksia pääsi lineaarinen luokittelija. Vertaillessa luokittelijoita huonoiten suoriutui lähinaapurinmenetelmä. Erot lineaarisen luokittelijan ja tukivektorikoneiden välillä eivät olleet suuria, vaikkakin lineaarisen luokittelijanvaihtelu oli pienempää. Kun otoskoko oli 500 ja mallit monimutkastuivat sisältäen 8 luokkaa ja 8 piirrettä, suoriutui lineaarinen luokittelija edelleen toisiksi parhaiten kvadraattisen luokittelijan antaessa pienimmät virheet. Neuroverkot ja lähinaapurinmenetelmä havaittiin suoriutuvan huonoiten. Tukivektorikone lineaarisella ytimellä suoriutui sädeperusteista paremmin ja myös sen vaihtelu pysyi pienempänä. Kolmannessa tapauksessa, missä luokkia oli 50 ja piirteitä 8 otoskoon ollessa 10000, suoriutui lähinaapurinmenetelmä edelleen muita menetelmiä huonommin. Alhaisimmat virheet olivat edelleen kvadraattisella luokittelijalla, mutta toiseksi parhaimmat tulokset tuotti satunnaismetsä. Estimaattoreiden tulokset vaihtelivat tapauskohtaisesti. Toistuva jako opetus- ja testiaineistoksi jaolla 90/10, ristiinvalidointi arvolla K=N, sekä Err(.632) havaittiin useasti eroavan vähiten yleistämisvirheestä. Toisaalta Err (.632) havaittiin myös useasti aliestimoimassa yleistämisvirhettä. Huonoiten estimaattoreista suoriutuivat toistuva jako opetus- ja testiaineistoksi 50-50-jaolla, Err (1), sekä ristiinvalidointi arvolla K = 2.
first_indexed 2024-09-11T08:52:30Z
format Pro gradu
free_online_boolean 1
fullrecord [{"key": "dc.contributor.advisor", "value": "K\u00e4rkk\u00e4inen, Salme", "language": "", "element": "contributor", "qualifier": "advisor", "schema": "dc"}, {"key": "dc.contributor.advisor", "value": "Karvanen, Juha", "language": "", "element": "contributor", "qualifier": "advisor", "schema": "dc"}, {"key": "dc.contributor.author", "value": "Sorvali, Jesse", "language": "", "element": "contributor", "qualifier": "author", "schema": "dc"}, {"key": "dc.date.accessioned", "value": "2023-06-08T04:45:31Z", "language": null, "element": "date", "qualifier": "accessioned", "schema": "dc"}, {"key": "dc.date.available", "value": "2023-06-08T04:45:31Z", "language": null, "element": "date", "qualifier": "available", "schema": "dc"}, {"key": "dc.date.issued", "value": "2023", "language": "", "element": "date", "qualifier": "issued", "schema": "dc"}, {"key": "dc.identifier.uri", "value": "https://jyx.jyu.fi/handle/123456789/87529", "language": null, "element": "identifier", "qualifier": "uri", "schema": "dc"}, {"key": "dc.description.abstract", "value": "Tutkimuksessa pohjael\u00e4inaineiston pohjalta haluttiin simuloida yksil\u00f6it\u00e4, joita ryhdyttiin luokittelemaan eri luokittelumenetelmill\u00e4. Tarkastelun kohteena oli, miten luokittelumenetelm\u00e4t vertailevat kesken\u00e4\u00e4n normaalijakautuneisuusoletuksen ollessa voimassa ja miten eri estimaattorien tulokset vertautuvat kesken\u00e4\u00e4n. Tavoitteena oli estimoida yleist\u00e4misvirhett\u00e4. \nKun mallissa on kaksi luokkaa ja kaksi piirett\u00e4 otoskoon ollessa 50, havaittiin kvadraattisen luokittelijan olevan optimi normaalijakautunaisuusoletuksella tuottaessa pienimpi\u00e4 virheit\u00e4. L\u00e4himm\u00e4ksi kvadraattisen luokittelijan tuloksia p\u00e4\u00e4si lineaarinen luokittelija. Vertaillessa luokittelijoita huonoiten suoriutui l\u00e4hinaapurinmenetelm\u00e4. Erot lineaarisen luokittelijan ja tukivektorikoneiden v\u00e4lill\u00e4 eiv\u00e4t olleet suuria, vaikkakin lineaarisen luokittelijanvaihtelu oli pienemp\u00e4\u00e4.\nKun otoskoko oli 500 ja mallit monimutkastuivat sis\u00e4lt\u00e4en 8 luokkaa ja 8 piirrett\u00e4, suoriutui lineaarinen luokittelija edelleen toisiksi parhaiten kvadraattisen luokittelijan antaessa pienimm\u00e4t virheet. Neuroverkot ja l\u00e4hinaapurinmenetelm\u00e4 havaittiin suoriutuvan huonoiten. Tukivektorikone lineaarisella ytimell\u00e4 suoriutui s\u00e4deperusteista paremmin ja my\u00f6s sen vaihtelu pysyi pienemp\u00e4n\u00e4. Kolmannessa tapauksessa, miss\u00e4 luokkia oli 50 ja piirteit\u00e4 8 otoskoon ollessa 10000, suoriutui l\u00e4hinaapurinmenetelm\u00e4 edelleen muita menetelmi\u00e4 huonommin. Alhaisimmat virheet olivat edelleen kvadraattisella luokittelijalla, mutta toiseksi parhaimmat tulokset tuotti satunnaismets\u00e4.\nEstimaattoreiden tulokset vaihtelivat tapauskohtaisesti. Toistuva jako opetus- ja testiaineistoksi jaolla 90/10, ristiinvalidointi arvolla K=N, sek\u00e4 Err(.632)\nhavaittiin useasti eroavan v\u00e4hiten yleist\u00e4misvirheest\u00e4. Toisaalta Err (.632) havaittiin my\u00f6s useasti aliestimoimassa yleist\u00e4misvirhett\u00e4.\nHuonoiten estimaattoreista suoriutuivat toistuva jako opetus- ja testiaineistoksi 50-50-jaolla, Err (1), sek\u00e4 ristiinvalidointi arvolla K = 2.", "language": "fi", "element": "description", "qualifier": "abstract", "schema": "dc"}, {"key": "dc.description.provenance", "value": "Submitted by Miia Hakanen (mihakane@jyu.fi) on 2023-06-08T04:45:31Z\nNo. of bitstreams: 0", "language": "en", "element": "description", "qualifier": "provenance", "schema": "dc"}, {"key": "dc.description.provenance", "value": "Made available in DSpace on 2023-06-08T04:45:31Z (GMT). No. of bitstreams: 0\n Previous issue date: 2023", "language": "en", "element": "description", "qualifier": "provenance", "schema": "dc"}, {"key": "dc.format.extent", "value": "52", "language": "", "element": "format", "qualifier": "extent", "schema": "dc"}, {"key": "dc.language.iso", "value": "fin", "language": null, "element": "language", "qualifier": "iso", "schema": "dc"}, {"key": "dc.rights", "value": "In Copyright", "language": null, "element": "rights", "qualifier": null, "schema": "dc"}, {"key": "dc.title", "value": "Luokitteluvirheen estimaattoreiden ja luokittelumenetelmien vertailu", "language": "", "element": "title", "qualifier": null, "schema": "dc"}, {"key": "dc.type", "value": "master thesis", "language": null, "element": "type", "qualifier": null, "schema": "dc"}, {"key": "dc.identifier.urn", "value": "URN:NBN:fi:jyu-202306083598", "language": "", "element": "identifier", "qualifier": "urn", "schema": "dc"}, {"key": "dc.type.ontasot", "value": "Master\u2019s thesis", "language": "en", "element": "type", "qualifier": "ontasot", "schema": "dc"}, {"key": "dc.type.ontasot", "value": "Pro gradu -tutkielma", "language": "fi", "element": "type", "qualifier": "ontasot", "schema": "dc"}, {"key": "dc.contributor.faculty", "value": "Matemaattis-luonnontieteellinen tiedekunta", "language": "fi", "element": "contributor", "qualifier": "faculty", "schema": "dc"}, {"key": "dc.contributor.faculty", "value": "Faculty of Sciences", "language": "en", "element": "contributor", "qualifier": "faculty", "schema": "dc"}, {"key": "dc.contributor.department", "value": "Matematiikan ja tilastotieteen laitos", "language": "fi", "element": "contributor", "qualifier": "department", "schema": "dc"}, {"key": "dc.contributor.department", "value": "Department of Mathematics and Statistics", "language": "en", "element": "contributor", "qualifier": "department", "schema": "dc"}, {"key": "dc.contributor.organization", "value": "Jyv\u00e4skyl\u00e4n yliopisto", "language": "fi", "element": "contributor", "qualifier": "organization", "schema": "dc"}, {"key": "dc.contributor.organization", "value": "University of Jyv\u00e4skyl\u00e4", "language": "en", "element": "contributor", "qualifier": "organization", "schema": "dc"}, {"key": "dc.subject.discipline", "value": "Tilastotiede", "language": "fi", "element": "subject", "qualifier": "discipline", "schema": "dc"}, {"key": "dc.subject.discipline", "value": "Statistics", "language": "en", "element": "subject", "qualifier": "discipline", "schema": "dc"}, {"key": "yvv.contractresearch.funding", "value": "0", "language": "", "element": "contractresearch", "qualifier": "funding", "schema": "yvv"}, {"key": "dc.type.coar", "value": "http://purl.org/coar/resource_type/c_bdcc", "language": null, "element": "type", "qualifier": "coar", "schema": "dc"}, {"key": "dc.rights.copyright", "value": "\u00a9 The Author(s)", "language": null, "element": "rights", "qualifier": "copyright", "schema": "dc"}, {"key": "dc.rights.accesslevel", "value": "openAccess", "language": null, "element": "rights", "qualifier": "accesslevel", "schema": "dc"}, {"key": "dc.type.publication", "value": "masterThesis", "language": null, "element": "type", "qualifier": "publication", "schema": "dc"}, {"key": "dc.subject.oppiainekoodi", "value": "4043", "language": "", "element": "subject", "qualifier": "oppiainekoodi", "schema": "dc"}, {"key": "dc.subject.yso", "value": "matematiikka", "language": null, "element": "subject", "qualifier": "yso", "schema": "dc"}, {"key": "dc.subject.yso", "value": "luokitus (toiminta)", "language": null, "element": "subject", "qualifier": "yso", "schema": "dc"}, {"key": "dc.subject.yso", "value": "validointi", "language": null, "element": "subject", "qualifier": "yso", "schema": "dc"}, {"key": "dc.subject.yso", "value": "tilastotiede", "language": null, "element": "subject", "qualifier": "yso", "schema": "dc"}, {"key": "dc.rights.url", "value": "https://rightsstatements.org/page/InC/1.0/", "language": null, "element": "rights", "qualifier": "url", "schema": "dc"}]
id jyx.123456789_87529
language fin
last_indexed 2025-02-18T10:56:49Z
main_date 2023-01-01T00:00:00Z
main_date_str 2023
online_boolean 1
online_urls_str_mv {"url":"https:\/\/jyx.jyu.fi\/bitstreams\/21680c7f-7224-41f4-8383-de53921658da\/download","text":"URN:NBN:fi:jyu-202306083598.pdf","source":"jyx","mediaType":"application\/pdf"}
publishDate 2023
record_format qdc
source_str_mv jyx
spellingShingle Sorvali, Jesse Luokitteluvirheen estimaattoreiden ja luokittelumenetelmien vertailu Tilastotiede Statistics 4043 matematiikka luokitus (toiminta) validointi tilastotiede
title Luokitteluvirheen estimaattoreiden ja luokittelumenetelmien vertailu
title_full Luokitteluvirheen estimaattoreiden ja luokittelumenetelmien vertailu
title_fullStr Luokitteluvirheen estimaattoreiden ja luokittelumenetelmien vertailu Luokitteluvirheen estimaattoreiden ja luokittelumenetelmien vertailu
title_full_unstemmed Luokitteluvirheen estimaattoreiden ja luokittelumenetelmien vertailu Luokitteluvirheen estimaattoreiden ja luokittelumenetelmien vertailu
title_short Luokitteluvirheen estimaattoreiden ja luokittelumenetelmien vertailu
title_sort luokitteluvirheen estimaattoreiden ja luokittelumenetelmien vertailu
title_txtP Luokitteluvirheen estimaattoreiden ja luokittelumenetelmien vertailu
topic Tilastotiede Statistics 4043 matematiikka luokitus (toiminta) validointi tilastotiede
topic_facet 4043 Statistics Tilastotiede luokitus (toiminta) matematiikka tilastotiede validointi
url https://jyx.jyu.fi/handle/123456789/87529 http://www.urn.fi/URN:NBN:fi:jyu-202306083598
work_keys_str_mv AT sorvalijesse luokitteluvirheenestimaattoreidenjaluokittelumenetelmienvertailu