Logistisen regressiomallin soveltaminen ekologisen tilan ennustamiseen

Tutkielmassa on tarkoitus selvittää vesimuodostumien kunnostustarvetta logistisella regressiomallilla. Vaste eli kunnostustarve on muunnos alkuperäisen aineiston viisiportaisesta ekologinen tila -muuttujasta. Haluttiin selvittää, voiko sitä ennustaa aineiston rekisterimuuttujilla, koska nämä ovat he...

Full description

Bibliographic Details
Main Author: Lehtonen, Eero
Other Authors: Faculty of Sciences, Matemaattis-luonnontieteellinen tiedekunta, Department of Mathematics and Statistics, Matematiikan ja tilastotieteen laitos, University of Jyväskylä, Jyväskylän yliopisto
Format: Master's thesis
Language:fin
Published: 2014
Subjects:
Online Access: https://jyx.jyu.fi/handle/123456789/95381
Description
Summary:Tutkielmassa on tarkoitus selvittää vesimuodostumien kunnostustarvetta logistisella regressiomallilla. Vaste eli kunnostustarve on muunnos alkuperäisen aineiston viisiportaisesta ekologinen tila -muuttujasta. Haluttiin selvittää, voiko sitä ennustaa aineiston rekisterimuuttujilla, koska nämä ovat helposti saatavilla. Koska aineistossa oli paljon puuttuvaa tietoa, käytettiin sen imputoimiseen moni-imputointia. Kaksi oleellista asiaa imputoinnin toteutuksen kannalta olivat, mitä muuttujia käytetään toisten muuttujien imputointiin ja mitä imputointimenetelmiä mihinkin muuttujaan sovelletaan. R-ohjelmiston mice-funktio tarjoaa vaihtoehtoja näiden ratkaisemiseen. Tutkimusongelmaa eli sitä, mitä muuttujia kunnostustarpeen ennustamiseen kannattaa käyttää, selvitettiin siten, että aineistoon sovitettiin erilaisia malleja, joita vertailtiin useilla kriteereillä. Esimerkiksi mallin antamaa tulosta siitä, tarvitseeko vesimuodostumaa kunnostaa, verrattiin todelliseen kunnostustarpeeseen, mikä oli tässä aineistossa tiedossa. Oleellista oli löytää ne rekisterimuuttujat, jotka parhaiten ennustavat kunnostustarvetta. Imputointien perusteella kunnostustarpeen ennustamiseen kannattaa käyttää seuraavia muuttujia: leveysaste, keskisyvyys, suurin syvyys, kunnan pinta- ala, kunnan väkiluku, piiri, korkeus merenpinnasta, maatalousmaan osuus, suuralue Helsinki, suuralue pohjoinen, suuralue etelä, valuma-alueen peltoala ja valuma-alueen suhteellinen peltopinta-ala. Lisäksi kannattaa käyttää leveysasteen ja maatalousmaan osuuden yhteisvaikutusta. Luokitteluvirhe imputoiduille aineistoille on vielä 11.6 % ja useimmiten vielä niin päin, että malli ei löydä niitä vesimuodostumia, joilla on kunnostustarvetta. Jopa 52.5 % vesimuodostumista, jotka olivat kunnostustarpeessa, jäi löytämättä. Toisaalta toisin päin luokitteluvirhe oli parempi. Kunnostustarvetta ennustettiin 3.2 %:ssa tapauksia silloin, kun sitä ei ollut.