Estimating the distribution of anthropogenic asbestos using random forest algorithm

Tässä tutkimuksessa selvitettiin koneoppimisella tapahtuvan datakäsittelyn käyttökelpoisuutta ja sen tuottamia tuloksia asbestin alueellisesta jakautumisesta Suomessa. Analysoitava data perustui rakennusten valmistumisvuoteen, käyttötarkoitukseen, tunnettuihin käytössä olleisiin asbestituotteisiin j...

Full description

Bibliographic Details
Main Author: Hietaranta, Mikko
Other Authors: Matemaattis-luonnontieteellinen tiedekunta, Faculty of Sciences, Bio- ja ympäristötieteiden laitos, Department of Biological and Environmental Science, Jyväskylän yliopisto, University of Jyväskylä
Format: Master's thesis
Language:eng
Published: 2020
Subjects:
Online Access: https://jyx.jyu.fi/handle/123456789/73685
Description
Summary:Tässä tutkimuksessa selvitettiin koneoppimisella tapahtuvan datakäsittelyn käyttökelpoisuutta ja sen tuottamia tuloksia asbestin alueellisesta jakautumisesta Suomessa. Analysoitava data perustui rakennusten valmistumisvuoteen, käyttötarkoitukseen, tunnettuihin käytössä olleisiin asbestituotteisiin ja näiden jakautumiseen kuntien välillä. Analyysi tehtiin random forest-algoritmilla, jonka todettiin oppivan hyvin ennustamaan aineistoa, jonka suureiden ja tutkittavan asian välillä on selkeitä korrelaatioita. Algoritmi onnistui arvioimaan asbestin määrää eri kuntien välillä, ja määrien huomattiin korreloivan rakennusten valmistumisajan kanssa, etenkin 1960-70 luvuilla, jolloin sitä käytettiin myös eniten. Erilliset asuinrakennukset edustivat suurinta osaa datasta, eikä tämän vuoksi kaikista rakennustyypeistä löydetty korrelaatiota asbestin kunnallisen määrän kanssa. Tutkimuksen suurimmat ongelmat olivat tarkan, tilastoidun datan poissaolo asbestin käyttömääristä ja -kohteista, mikä loi epävarmuustekijöitä tuloksiin. Tästä huolimatta data käsiteltiin ja arvioitiin tarkkojen rakennustietokantojen avulla. In this study machine learning was used to determine its value for evaluating asbestos amounts in Finland based on structure type and age data, known asbestos-based products, and their distribution between municipalities. The results derived from random forest algorithm showed that with a large number of attributes, that have a high correlation with the examined question the random forest algorithm was able to determine estimations of asbestos use in each municipality. Asbestos amounts were noticed to correlate with built area of all buildings dating from 1921 to 1989. There was significant bias towards the building age, since most of the asbestos was used during 1960-70. Since small residential buildings dominated the data other building types were not found as significant correlators when estimating municipal-scale asbestos use. The main problems of this study were the absence of accurate statistics of asbestos use in construction materials, which created uncertainties with the data. This uncertainty was accepted and data was imputed and evaluated with accurate statistical building data.