Luokittelumenetelmän evaluointimenetelmien vertailu pienten aineistojen tapauksessa simulointikokein

Luokitteluanalyysin tyypillinen ongelma on mallin valinta ja/tai muuttujien eli piirteiden valinta. Tavoitteena on estimoida luotettavasti luokitteluvirheen todennäköisyys opetusaineiston avulla - ideaalissa tilanteessa käyttäen riippumatonta testiaineistoa. Tällöin saadaan estimaatti yleistämisvirh...

Täydet tiedot

Bibliografiset tiedot
Päätekijä: Moisio, Lasse
Muut tekijät: Matemaattis-luonnontieteellinen tiedekunta, Faculty of Sciences, Matematiikan ja tilastotieteen laitos, Department of Mathematics and Statistics, University of Jyväskylä, Jyväskylän yliopisto
Aineistotyyppi: Pro gradu
Kieli:fin
Julkaistu: 2016
Aiheet:
Linkit: https://jyx.jyu.fi/handle/123456789/52428
_version_ 1826225741369442304
author Moisio, Lasse
author2 Matemaattis-luonnontieteellinen tiedekunta Faculty of Sciences Matematiikan ja tilastotieteen laitos Department of Mathematics and Statistics University of Jyväskylä Jyväskylän yliopisto
author_facet Moisio, Lasse Matemaattis-luonnontieteellinen tiedekunta Faculty of Sciences Matematiikan ja tilastotieteen laitos Department of Mathematics and Statistics University of Jyväskylä Jyväskylän yliopisto Moisio, Lasse Matemaattis-luonnontieteellinen tiedekunta Faculty of Sciences Matematiikan ja tilastotieteen laitos Department of Mathematics and Statistics University of Jyväskylä Jyväskylän yliopisto
author_sort Moisio, Lasse
datasource_str_mv jyx
description Luokitteluanalyysin tyypillinen ongelma on mallin valinta ja/tai muuttujien eli piirteiden valinta. Tavoitteena on estimoida luotettavasti luokitteluvirheen todennäköisyys opetusaineiston avulla - ideaalissa tilanteessa käyttäen riippumatonta testiaineistoa. Tällöin saadaan estimaatti yleistämisvirheelle, joka kuvaa opetusaineistosta estimoidun mallin kykyä ennustaa riippumatonta testiaineistoa. Usein kuitenkin aineiston niukkuudesta johtuen ei voida käyttää erillistä riippumatonta testiaineistoa, jolloin ei myöskään voida estimoida suoraan yleistämisvirhettä. Tällöin voidaan kuitenkin käyttää otoksen uudelleenkäyttömenetelmiä, joista käytetyimmät lienevät ristiinvalidointi ja bootstrap. Menetelmien etuna on, että ne estimoivat hyvin odotettua yleistämisvirhettä, joka ei rajoitu vain tiettyyn opetusaineistoon, vaan on odotusarvo yli kaikkien mahdollisten opetusaineistojen. Odotettu yleistämisvirhe on osoittautunutkin useiden tutkimusten mukaan hyödylliseksi työkaluksi tilastollisessa analyysissa. Luokitteluvirheen todennäköisyyden arviointiin liittyy olennaisesti myös käsite Bayes-virhe, jolla tarkoitetaan pienintä saavutettavissa olevaa luokitteluvirheen todennäköisyyttä. Tässä työssä piirteitä mallinnetaan p-ulotteisella normaalijakaumalla ja rajaudutaan kvadraattiseen luokittelijaan (QDA). Tyypillisesti Bayes-virhettä ei tiedetä, ja sen laskeminen analyyttisesti on usein haastavaa tai mahdotonta. Tässä työssä esitetään menetelmä Bayes-virheen arvioimiseksi Monte Carlo -integroinnilla. Aiemmissa tutkimuksissa otoksen uudelleenkäyttömenetelmiä on verrattu odotettuun yleistämisvirheeseen, kuten myös tehdään tässä työssä. Lisäksi otoksen uudelleenkäyttömenetelmiä verrataan Bayes-virheeseen. Parhaat tulokset saavutettiin .632-bootstrap-estimaattorilla ja .632+-bootstrap-estimaattorilla sekä toistetulla ristiinvalidoinnilla K:n arvolla 10. Toistettu ristiinvalidointi K:n arvoilla 5 ja 10 ja aineiston jako toistuvasti opetus- ja testiaineistoksi jakosuhteilla 80/20 ja 90/10 tuottivat likimain yhtä hyviä tuloksia. Menetelmien vertailu toteutettiin simulointikokeella, joka perustuu 50 luokkaa ja 64 piirrettä sisältävään pohjaeläinaineistoon. Simulointikokeessa käytettävät luokkien (2-8) ja piirteiden (2-50) lukumäärät ovat suurempia kuin aiemmissa tutkimuksissa on yleensä käytetty.
first_indexed 2024-09-11T08:51:15Z
format Pro gradu
free_online_boolean 1
fullrecord [{"key": "dc.contributor.advisor", "value": "K\u00e4rkk\u00e4inen, Salme", "language": null, "element": "contributor", "qualifier": "advisor", "schema": "dc"}, {"key": "dc.contributor.author", "value": "Moisio, Lasse", "language": null, "element": "contributor", "qualifier": "author", "schema": "dc"}, {"key": "dc.date.accessioned", "value": "2016-12-19T09:18:27Z", "language": null, "element": "date", "qualifier": "accessioned", "schema": "dc"}, {"key": "dc.date.available", "value": "2016-12-19T09:18:27Z", "language": null, "element": "date", "qualifier": "available", "schema": "dc"}, {"key": "dc.date.issued", "value": "2016", "language": null, "element": "date", "qualifier": "issued", "schema": "dc"}, {"key": "dc.identifier.other", "value": "oai:jykdok.linneanet.fi:1644705", "language": null, "element": "identifier", "qualifier": "other", "schema": "dc"}, {"key": "dc.identifier.uri", "value": "https://jyx.jyu.fi/handle/123456789/52428", "language": null, "element": "identifier", "qualifier": "uri", "schema": "dc"}, {"key": "dc.description.abstract", "value": "Luokitteluanalyysin tyypillinen ongelma on mallin valinta ja/tai muuttujien eli piirteiden valinta. Tavoitteena on estimoida luotettavasti luokitteluvirheen todenn\u00e4k\u00f6isyys opetusaineiston avulla - ideaalissa tilanteessa k\u00e4ytt\u00e4en riippumatonta testiaineistoa. T\u00e4ll\u00f6in saadaan estimaatti yleist\u00e4misvirheelle, joka kuvaa opetusaineistosta estimoidun mallin kyky\u00e4 ennustaa riippumatonta testiaineistoa. Usein kuitenkin aineiston niukkuudesta johtuen ei voida k\u00e4ytt\u00e4\u00e4 erillist\u00e4 riippumatonta testiaineistoa, jolloin ei my\u00f6sk\u00e4\u00e4n voida estimoida suoraan yleist\u00e4misvirhett\u00e4. \n\nT\u00e4ll\u00f6in voidaan kuitenkin k\u00e4ytt\u00e4\u00e4 otoksen uudelleenk\u00e4ytt\u00f6menetelmi\u00e4, joista k\u00e4ytetyimm\u00e4t lienev\u00e4t ristiinvalidointi ja bootstrap. Menetelmien etuna on, ett\u00e4 ne estimoivat hyvin odotettua yleist\u00e4misvirhett\u00e4, joka ei rajoitu vain tiettyyn opetusaineistoon, vaan on odotusarvo yli kaikkien mahdollisten opetusaineistojen. Odotettu yleist\u00e4misvirhe on osoittautunutkin useiden tutkimusten mukaan hy\u00f6dylliseksi ty\u00f6kaluksi tilastollisessa analyysissa.\n\nLuokitteluvirheen todenn\u00e4k\u00f6isyyden arviointiin liittyy olennaisesti my\u00f6s k\u00e4site Bayes-virhe, jolla tarkoitetaan pienint\u00e4 saavutettavissa olevaa luokitteluvirheen todenn\u00e4k\u00f6isyytt\u00e4. T\u00e4ss\u00e4 ty\u00f6ss\u00e4 piirteit\u00e4 mallinnetaan p-ulotteisella normaalijakaumalla ja rajaudutaan kvadraattiseen luokittelijaan (QDA). Tyypillisesti Bayes-virhett\u00e4 ei tiedet\u00e4, ja sen laskeminen analyyttisesti on usein haastavaa tai mahdotonta. T\u00e4ss\u00e4 ty\u00f6ss\u00e4 esitet\u00e4\u00e4n menetelm\u00e4 Bayes-virheen arvioimiseksi Monte Carlo -integroinnilla.\n\nAiemmissa tutkimuksissa otoksen uudelleenk\u00e4ytt\u00f6menetelmi\u00e4 on verrattu odotettuun yleist\u00e4misvirheeseen, kuten my\u00f6s tehd\u00e4\u00e4n t\u00e4ss\u00e4 ty\u00f6ss\u00e4. Lis\u00e4ksi otoksen uudelleenk\u00e4ytt\u00f6menetelmi\u00e4 verrataan Bayes-virheeseen. Parhaat tulokset saavutettiin .632-bootstrap-estimaattorilla ja .632+-bootstrap-estimaattorilla sek\u00e4 toistetulla ristiinvalidoinnilla K:n arvolla 10. Toistettu ristiinvalidointi K:n arvoilla 5 ja 10 ja aineiston jako toistuvasti opetus- ja testiaineistoksi jakosuhteilla 80/20 ja 90/10 tuottivat likimain yht\u00e4 hyvi\u00e4 tuloksia. \n\nMenetelmien vertailu toteutettiin simulointikokeella, joka perustuu 50 luokkaa ja 64 piirrett\u00e4 sis\u00e4lt\u00e4v\u00e4\u00e4n pohjael\u00e4inaineistoon. Simulointikokeessa k\u00e4ytett\u00e4v\u00e4t luokkien (2-8) ja piirteiden (2-50) lukum\u00e4\u00e4r\u00e4t ovat suurempia kuin aiemmissa tutkimuksissa on yleens\u00e4 k\u00e4ytetty.", "language": "fi", "element": "description", "qualifier": "abstract", "schema": "dc"}, {"key": "dc.description.provenance", "value": "Submitted using Plone Publishing form by Lasse Moisio (lahemois) on 2016-12-19 09:18:26.553429. Form: Pro gradu -lomake (https://kirjasto.jyu.fi/julkaisut/julkaisulomakkeet/pro-gradu-lomake). JyX data: [jyx_publishing-allowed (fi) =True]", "language": "en", "element": "description", "qualifier": "provenance", "schema": "dc"}, {"key": "dc.description.provenance", "value": "Submitted by jyx lomake-julkaisija (jyx-julkaisija.group@korppi.jyu.fi) on 2016-12-19T09:18:26Z\nNo. of bitstreams: 2\nURN:NBN:fi:jyu-201612195151.pdf: 582116 bytes, checksum: cb36b7fa2848c22b8337380dfb53ef85 (MD5)\nlicense.html: 4856 bytes, checksum: 53f761b2eab0fd2345a4c388820cfae5 (MD5)", "language": "en", "element": "description", "qualifier": "provenance", "schema": "dc"}, {"key": "dc.description.provenance", "value": "Made available in DSpace on 2016-12-19T09:18:27Z (GMT). No. of bitstreams: 2\nURN:NBN:fi:jyu-201612195151.pdf: 582116 bytes, checksum: cb36b7fa2848c22b8337380dfb53ef85 (MD5)\nlicense.html: 4856 bytes, checksum: 53f761b2eab0fd2345a4c388820cfae5 (MD5)\n Previous issue date: 2016", "language": "en", "element": "description", "qualifier": "provenance", "schema": "dc"}, {"key": "dc.format.extent", "value": "1 verkkoaineisto (55 sivua)", "language": null, "element": "format", "qualifier": "extent", "schema": "dc"}, {"key": "dc.format.mimetype", "value": "application/pdf", "language": null, "element": "format", "qualifier": "mimetype", "schema": "dc"}, {"key": "dc.language.iso", "value": "fin", "language": null, "element": "language", "qualifier": "iso", "schema": "dc"}, {"key": "dc.rights", "value": "In Copyright", "language": "en", "element": "rights", "qualifier": null, "schema": "dc"}, {"key": "dc.subject.other", "value": "Bayes-virhe", "language": null, "element": "subject", "qualifier": "other", "schema": "dc"}, {"key": "dc.subject.other", "value": "yleist\u00e4misvirhe", "language": null, "element": "subject", "qualifier": "other", "schema": "dc"}, {"key": "dc.subject.other", "value": "luokitteluvirhe", "language": null, "element": "subject", "qualifier": "other", "schema": "dc"}, {"key": "dc.subject.other", "value": "QDA", "language": null, "element": "subject", "qualifier": "other", "schema": "dc"}, {"key": "dc.subject.other", "value": "bootstrap", "language": null, "element": "subject", "qualifier": "other", "schema": "dc"}, {"key": "dc.subject.other", "value": "ristiinvalidointi", "language": null, "element": "subject", "qualifier": "other", "schema": "dc"}, {"key": "dc.subject.other", "value": "aineiston jako", "language": null, "element": "subject", "qualifier": "other", "schema": "dc"}, {"key": "dc.title", "value": "Luokittelumenetelm\u00e4n evaluointimenetelmien vertailu pienten aineistojen tapauksessa simulointikokein", "language": null, "element": "title", "qualifier": null, "schema": "dc"}, {"key": "dc.type", "value": "master thesis", "language": null, "element": "type", "qualifier": null, "schema": "dc"}, {"key": "dc.identifier.urn", "value": "URN:NBN:fi:jyu-201612195151", "language": null, "element": "identifier", "qualifier": "urn", "schema": "dc"}, {"key": "dc.type.ontasot", "value": "Pro gradu -tutkielma", "language": "fi", "element": "type", "qualifier": "ontasot", "schema": "dc"}, {"key": "dc.type.ontasot", "value": "Master\u2019s thesis", "language": "en", "element": "type", "qualifier": "ontasot", "schema": "dc"}, {"key": "dc.contributor.faculty", "value": "Matemaattis-luonnontieteellinen tiedekunta", "language": "fi", "element": "contributor", "qualifier": "faculty", "schema": "dc"}, {"key": "dc.contributor.faculty", "value": "Faculty of Sciences", "language": "en", "element": "contributor", "qualifier": "faculty", "schema": "dc"}, {"key": "dc.contributor.department", "value": "Matematiikan ja tilastotieteen laitos", "language": "fi", "element": "contributor", "qualifier": "department", "schema": "dc"}, {"key": "dc.contributor.department", "value": "Department of Mathematics and Statistics", "language": "en", "element": "contributor", "qualifier": "department", "schema": "dc"}, {"key": "dc.contributor.organization", "value": "University of Jyv\u00e4skyl\u00e4", "language": "en", "element": "contributor", "qualifier": "organization", "schema": "dc"}, {"key": "dc.contributor.organization", "value": "Jyv\u00e4skyl\u00e4n yliopisto", "language": "fi", "element": "contributor", "qualifier": "organization", "schema": "dc"}, {"key": "dc.subject.discipline", "value": "Tilastotiede", "language": "fi", "element": "subject", "qualifier": "discipline", "schema": "dc"}, {"key": "dc.subject.discipline", "value": "Statistics", "language": "en", "element": "subject", "qualifier": "discipline", "schema": "dc"}, {"key": "dc.date.updated", "value": "2016-12-19T09:18:27Z", "language": null, "element": "date", "qualifier": "updated", "schema": "dc"}, {"key": "yvv.contractresearch.funding", "value": "0", "language": null, "element": "contractresearch", "qualifier": "funding", "schema": "yvv"}, {"key": "dc.type.coar", "value": "http://purl.org/coar/resource_type/c_bdcc", "language": null, "element": "type", "qualifier": "coar", "schema": "dc"}, {"key": "dc.rights.accesslevel", "value": "openAccess", "language": "fi", "element": "rights", "qualifier": "accesslevel", "schema": "dc"}, {"key": "dc.type.publication", "value": "masterThesis", "language": null, "element": "type", "qualifier": "publication", "schema": "dc"}, {"key": "dc.subject.oppiainekoodi", "value": "4043", "language": null, "element": "subject", "qualifier": "oppiainekoodi", "schema": "dc"}, {"key": "dc.subject.yso", "value": "bayesilainen menetelm\u00e4", "language": null, "element": "subject", "qualifier": "yso", "schema": "dc"}, {"key": "dc.subject.yso", "value": "validointi", "language": null, "element": "subject", "qualifier": "yso", "schema": "dc"}, {"key": "dc.format.content", "value": "fulltext", "language": null, "element": "format", "qualifier": "content", "schema": "dc"}, {"key": "dc.rights.url", "value": "https://rightsstatements.org/page/InC/1.0/", "language": null, "element": "rights", "qualifier": "url", "schema": "dc"}, {"key": "dc.type.okm", "value": "G2", "language": null, "element": "type", "qualifier": "okm", "schema": "dc"}]
id jyx.123456789_52428
language fin
last_indexed 2025-02-18T10:56:37Z
main_date 2016-01-01T00:00:00Z
main_date_str 2016
online_boolean 1
online_urls_str_mv {"url":"https:\/\/jyx.jyu.fi\/bitstreams\/e5bd80b9-b49e-448f-b942-31cb1cad5251\/download","text":"URN:NBN:fi:jyu-201612195151.pdf","source":"jyx","mediaType":"application\/pdf"}
publishDate 2016
record_format qdc
source_str_mv jyx
spellingShingle Moisio, Lasse Luokittelumenetelmän evaluointimenetelmien vertailu pienten aineistojen tapauksessa simulointikokein Bayes-virhe yleistämisvirhe luokitteluvirhe QDA bootstrap ristiinvalidointi aineiston jako Tilastotiede Statistics 4043 bayesilainen menetelmä validointi
title Luokittelumenetelmän evaluointimenetelmien vertailu pienten aineistojen tapauksessa simulointikokein
title_full Luokittelumenetelmän evaluointimenetelmien vertailu pienten aineistojen tapauksessa simulointikokein
title_fullStr Luokittelumenetelmän evaluointimenetelmien vertailu pienten aineistojen tapauksessa simulointikokein Luokittelumenetelmän evaluointimenetelmien vertailu pienten aineistojen tapauksessa simulointikokein
title_full_unstemmed Luokittelumenetelmän evaluointimenetelmien vertailu pienten aineistojen tapauksessa simulointikokein Luokittelumenetelmän evaluointimenetelmien vertailu pienten aineistojen tapauksessa simulointikokein
title_short Luokittelumenetelmän evaluointimenetelmien vertailu pienten aineistojen tapauksessa simulointikokein
title_sort luokittelumenetelmän evaluointimenetelmien vertailu pienten aineistojen tapauksessa simulointikokein
title_txtP Luokittelumenetelmän evaluointimenetelmien vertailu pienten aineistojen tapauksessa simulointikokein
topic Bayes-virhe yleistämisvirhe luokitteluvirhe QDA bootstrap ristiinvalidointi aineiston jako Tilastotiede Statistics 4043 bayesilainen menetelmä validointi
topic_facet 4043 Bayes-virhe QDA Statistics Tilastotiede aineiston jako bayesilainen menetelmä bootstrap luokitteluvirhe ristiinvalidointi validointi yleistämisvirhe
url https://jyx.jyu.fi/handle/123456789/52428 http://www.urn.fi/URN:NBN:fi:jyu-201612195151
work_keys_str_mv AT moisiolasse luokittelumenetelmänevaluointimenetelmienvertailupientenaineistojentapauksessasimulo