Konvoluutioneuroverkko - sovelluksena DNA-sekvenssien luokittelu

Luokitteluongelman ratkaisussa tavoitteena on määrätä havainto kuuluvaksi johonkin tiedossa olevaan luokkaan. Erilaisia luokittelumenetelmiä on paljon, mutta erityisesti viime vuosina syväoppimismenetelmät ovat osoittautuneet soveltuvan erinomaisesti luokitteluongelmien ratkaisuksi monissa sovelluks...

Full description

Bibliographic Details
Main Author: Purkamo, Joona
Other Authors: Matemaattis-luonnontieteellinen tiedekunta, Faculty of Sciences, Matematiikan ja tilastotieteen laitos, Department of Mathematics and Statistics, Jyväskylän yliopisto, University of Jyväskylä
Format: Master's thesis
Language:fin
Published: 2022
Subjects:
Online Access: https://jyx.jyu.fi/handle/123456789/84426
_version_ 1826225738365272064
author Purkamo, Joona
author2 Matemaattis-luonnontieteellinen tiedekunta Faculty of Sciences Matematiikan ja tilastotieteen laitos Department of Mathematics and Statistics Jyväskylän yliopisto University of Jyväskylä
author_facet Purkamo, Joona Matemaattis-luonnontieteellinen tiedekunta Faculty of Sciences Matematiikan ja tilastotieteen laitos Department of Mathematics and Statistics Jyväskylän yliopisto University of Jyväskylä Purkamo, Joona Matemaattis-luonnontieteellinen tiedekunta Faculty of Sciences Matematiikan ja tilastotieteen laitos Department of Mathematics and Statistics Jyväskylän yliopisto University of Jyväskylä
author_sort Purkamo, Joona
datasource_str_mv jyx
description Luokitteluongelman ratkaisussa tavoitteena on määrätä havainto kuuluvaksi johonkin tiedossa olevaan luokkaan. Erilaisia luokittelumenetelmiä on paljon, mutta erityisesti viime vuosina syväoppimismenetelmät ovat osoittautuneet soveltuvan erinomaisesti luokitteluongelmien ratkaisuksi monissa sovelluksissa. Tässä tutkielmassa esitellään täysin kytketty neuroverkko ja konvoluutioneuroverkko (CNN) luokitteluongelman ratkaisuna sekä sovelletaan CNN:ää hyönteislajien tunnistuksessa, jossa lajit luokitellaan niiden DNA-sekvenssien perusteella. Neuroverkkojen tarkastelu aloitetaan täysin kytketystä neuroverkosta. Aluksi esitetään neuroverkkojen perusidea, keskeistä termistöä, toiminta luokittelutilanteessa, rakenne sekä neuroverkon parametrien estimointi stokastista gradienttimenetelmää, neuroverkon virhefunktiota ja vastavirta-algoritmia käyttämällä. Vastavirta-algoritmi on laaja kokonaisuus erilaisia toimintoja, joiden tehtävä on päivittää neuroverkon parametrit siten, että neuroverkon virhe minimoituu. Vastavirta-algoritmi monesti ohitetaan sen monimutkaisuuden vuoksi, mutta tässä tutkielmassa se esitetään yksityiskohtaisesti. CNN:n yhteydessä esitetään ensin kaksi tapaa esikäsitellä aineistoa luokittelua varten: Ensimmäinen tapa liittyy tavallisten kuvien luokitteluun, kun taas toinen tapa liittyy DNA-sekvenssiluokittelun sovellukseen. Näin saadaan kaksi erilaista CNN-luokitinta: yksi- ja kaksiulotteinen CNN. Lisäksi CNN:n yhteydessä esitetään huolellisesti CNN:n rakenne ja sen matemaattiset operaatiot väri- ja harmaasävykuvien sekä DNA-sekvenssien luokittelussa. Käytetty DNA-sekvenssiaineisto sisältää tuhansia DNA-sekvenssejä tuhansilta eri hyönteislajeilta. Analyysivaiheessa mukaan valitaan vuorollaan sellaiset 10, 100, 500 tai 1000 lajia, joista DNA-sekvenssejä on saatavilla eniten. DNA-sekvenssit esikäsitellään kahdella esitetyllä tavalla, jolloin varsinainen luokittelu tehdään käyttäen sekä yksi- että kaksiulotteista CNN:ää. Luokittelutarkkuuksien ja neuroverkon parametrien estimointiin tarvittavan ajan perusteella yksiulotteinen versio osoittautui paremmaksi DNA-sekvenssien luokittelumenetelmäksi. Luokittelutarkkuudet testiaineistolla nousivat parhaimmillaan noin 95--100 % välille valitusta lajien lukumäärästä riippuen.
first_indexed 2022-12-16T21:00:30Z
format Pro gradu
free_online_boolean 1
fullrecord [{"key": "dc.contributor.advisor", "value": "K\u00e4rkk\u00e4inen, Salme", "language": "", "element": "contributor", "qualifier": "advisor", "schema": "dc"}, {"key": "dc.contributor.author", "value": "Purkamo, Joona", "language": "", "element": "contributor", "qualifier": "author", "schema": "dc"}, {"key": "dc.date.accessioned", "value": "2022-12-16T05:36:34Z", "language": null, "element": "date", "qualifier": "accessioned", "schema": "dc"}, {"key": "dc.date.available", "value": "2022-12-16T05:36:34Z", "language": null, "element": "date", "qualifier": "available", "schema": "dc"}, {"key": "dc.date.issued", "value": "2022", "language": "", "element": "date", "qualifier": "issued", "schema": "dc"}, {"key": "dc.identifier.uri", "value": "https://jyx.jyu.fi/handle/123456789/84426", "language": null, "element": "identifier", "qualifier": "uri", "schema": "dc"}, {"key": "dc.description.abstract", "value": "Luokitteluongelman ratkaisussa tavoitteena on m\u00e4\u00e4r\u00e4t\u00e4 havainto kuuluvaksi johonkin tiedossa olevaan luokkaan. Erilaisia luokittelumenetelmi\u00e4 on paljon, mutta erityisesti viime vuosina syv\u00e4oppimismenetelm\u00e4t ovat osoittautuneet soveltuvan erinomaisesti luokitteluongelmien ratkaisuksi monissa sovelluksissa. T\u00e4ss\u00e4 tutkielmassa esitell\u00e4\u00e4n t\u00e4ysin kytketty neuroverkko ja konvoluutioneuroverkko (CNN) luokitteluongelman ratkaisuna sek\u00e4 sovelletaan CNN:\u00e4\u00e4 hy\u00f6nteislajien tunnistuksessa, jossa lajit luokitellaan niiden DNA-sekvenssien perusteella.\n\nNeuroverkkojen tarkastelu aloitetaan t\u00e4ysin kytketyst\u00e4 neuroverkosta. Aluksi esitet\u00e4\u00e4n neuroverkkojen perusidea, keskeist\u00e4 termist\u00f6\u00e4, toiminta luokittelutilanteessa, rakenne sek\u00e4 neuroverkon parametrien estimointi stokastista gradienttimenetelm\u00e4\u00e4, neuroverkon virhefunktiota ja vastavirta-algoritmia k\u00e4ytt\u00e4m\u00e4ll\u00e4. Vastavirta-algoritmi on laaja kokonaisuus erilaisia toimintoja, joiden teht\u00e4v\u00e4 on p\u00e4ivitt\u00e4\u00e4 neuroverkon parametrit siten, ett\u00e4 neuroverkon virhe minimoituu. Vastavirta-algoritmi monesti ohitetaan sen monimutkaisuuden vuoksi, mutta t\u00e4ss\u00e4 tutkielmassa se esitet\u00e4\u00e4n yksityiskohtaisesti.\n\nCNN:n yhteydess\u00e4 esitet\u00e4\u00e4n ensin kaksi tapaa esik\u00e4sitell\u00e4 aineistoa luokittelua varten: Ensimm\u00e4inen tapa liittyy tavallisten kuvien luokitteluun, kun taas toinen tapa liittyy DNA-sekvenssiluokittelun sovellukseen. N\u00e4in saadaan kaksi erilaista CNN-luokitinta: yksi- ja kaksiulotteinen CNN. Lis\u00e4ksi CNN:n yhteydess\u00e4 esitet\u00e4\u00e4n huolellisesti CNN:n rakenne ja sen matemaattiset operaatiot v\u00e4ri- ja harmaas\u00e4vykuvien sek\u00e4 DNA-sekvenssien luokittelussa.\n\nK\u00e4ytetty DNA-sekvenssiaineisto sis\u00e4lt\u00e4\u00e4 tuhansia DNA-sekvenssej\u00e4 tuhansilta eri hy\u00f6nteislajeilta. Analyysivaiheessa mukaan valitaan vuorollaan sellaiset 10, 100, 500 tai 1000 lajia, joista DNA-sekvenssej\u00e4 on saatavilla eniten. DNA-sekvenssit esik\u00e4sitell\u00e4\u00e4n kahdella esitetyll\u00e4 tavalla, jolloin varsinainen luokittelu tehd\u00e4\u00e4n k\u00e4ytt\u00e4en sek\u00e4 yksi- ett\u00e4 kaksiulotteista CNN:\u00e4\u00e4. Luokittelutarkkuuksien ja neuroverkon parametrien estimointiin tarvittavan ajan perusteella yksiulotteinen versio osoittautui paremmaksi DNA-sekvenssien luokittelumenetelm\u00e4ksi. Luokittelutarkkuudet testiaineistolla nousivat parhaimmillaan noin 95--100 % v\u00e4lille valitusta lajien lukum\u00e4\u00e4r\u00e4st\u00e4 riippuen.", "language": "fi", "element": "description", "qualifier": "abstract", "schema": "dc"}, {"key": "dc.description.provenance", "value": "Submitted by Miia Hakanen (mihakane@jyu.fi) on 2022-12-16T05:36:34Z\nNo. of bitstreams: 0", "language": "en", "element": "description", "qualifier": "provenance", "schema": "dc"}, {"key": "dc.description.provenance", "value": "Made available in DSpace on 2022-12-16T05:36:34Z (GMT). No. of bitstreams: 0\n Previous issue date: 2022", "language": "en", "element": "description", "qualifier": "provenance", "schema": "dc"}, {"key": "dc.format.extent", "value": "69", "language": "", "element": "format", "qualifier": "extent", "schema": "dc"}, {"key": "dc.language.iso", "value": "fin", "language": null, "element": "language", "qualifier": "iso", "schema": "dc"}, {"key": "dc.rights", "value": "In Copyright", "language": "en", "element": "rights", "qualifier": null, "schema": "dc"}, {"key": "dc.subject.other", "value": "DNA-sekvenssi", "language": "", "element": "subject", "qualifier": "other", "schema": "dc"}, {"key": "dc.subject.other", "value": "k-mer", "language": "", "element": "subject", "qualifier": "other", "schema": "dc"}, {"key": "dc.subject.other", "value": "konvoluutioneuroverkot", "language": "", "element": "subject", "qualifier": "other", "schema": "dc"}, {"key": "dc.subject.other", "value": "lajien tunnistus", "language": "", "element": "subject", "qualifier": "other", "schema": "dc"}, {"key": "dc.subject.other", "value": "vastavirta-algoritmi", "language": "", "element": "subject", "qualifier": "other", "schema": "dc"}, {"key": "dc.title", "value": "Konvoluutioneuroverkko - sovelluksena DNA-sekvenssien luokittelu", "language": "", "element": "title", "qualifier": null, "schema": "dc"}, {"key": "dc.type", "value": "master thesis", "language": null, "element": "type", "qualifier": null, "schema": "dc"}, {"key": "dc.identifier.urn", "value": "URN:NBN:fi:jyu-202212165681", "language": "", "element": "identifier", "qualifier": "urn", "schema": "dc"}, {"key": "dc.type.ontasot", "value": "Master\u2019s thesis", "language": "en", "element": "type", "qualifier": "ontasot", "schema": "dc"}, {"key": "dc.type.ontasot", "value": "Pro gradu -tutkielma", "language": "fi", "element": "type", "qualifier": "ontasot", "schema": "dc"}, {"key": "dc.contributor.faculty", "value": "Matemaattis-luonnontieteellinen tiedekunta", "language": "fi", "element": "contributor", "qualifier": "faculty", "schema": "dc"}, {"key": "dc.contributor.faculty", "value": "Faculty of Sciences", "language": "en", "element": "contributor", "qualifier": "faculty", "schema": "dc"}, {"key": "dc.contributor.department", "value": "Matematiikan ja tilastotieteen laitos", "language": "fi", "element": "contributor", "qualifier": "department", "schema": "dc"}, {"key": "dc.contributor.department", "value": "Department of Mathematics and Statistics", "language": "en", "element": "contributor", "qualifier": "department", "schema": "dc"}, {"key": "dc.contributor.organization", "value": "Jyv\u00e4skyl\u00e4n yliopisto", "language": "fi", "element": "contributor", "qualifier": "organization", "schema": "dc"}, {"key": "dc.contributor.organization", "value": "University of Jyv\u00e4skyl\u00e4", "language": "en", "element": "contributor", "qualifier": "organization", "schema": "dc"}, {"key": "dc.subject.discipline", "value": "Tilastotiede", "language": "fi", "element": "subject", "qualifier": "discipline", "schema": "dc"}, {"key": "dc.subject.discipline", "value": "Statistics", "language": "en", "element": "subject", "qualifier": "discipline", "schema": "dc"}, {"key": "yvv.contractresearch.funding", "value": "0", "language": "", "element": "contractresearch", "qualifier": "funding", "schema": "yvv"}, {"key": "dc.type.coar", "value": "http://purl.org/coar/resource_type/c_bdcc", "language": null, "element": "type", "qualifier": "coar", "schema": "dc"}, {"key": "dc.rights.accesslevel", "value": "openAccess", "language": null, "element": "rights", "qualifier": "accesslevel", "schema": "dc"}, {"key": "dc.type.publication", "value": "masterThesis", "language": null, "element": "type", "qualifier": "publication", "schema": "dc"}, {"key": "dc.subject.oppiainekoodi", "value": "4043", "language": "", "element": "subject", "qualifier": "oppiainekoodi", "schema": "dc"}, {"key": "dc.subject.yso", "value": "neuroverkot", "language": null, "element": "subject", "qualifier": "yso", "schema": "dc"}, {"key": "dc.subject.yso", "value": "DNA", "language": null, "element": "subject", "qualifier": "yso", "schema": "dc"}, {"key": "dc.subject.yso", "value": "tilastotiede", "language": null, "element": "subject", "qualifier": "yso", "schema": "dc"}, {"key": "dc.subject.yso", "value": "algoritmit", "language": null, "element": "subject", "qualifier": "yso", "schema": "dc"}, {"key": "dc.rights.url", "value": "https://rightsstatements.org/page/InC/1.0/", "language": null, "element": "rights", "qualifier": "url", "schema": "dc"}]
id jyx.123456789_84426
language fin
last_indexed 2025-02-18T10:55:23Z
main_date 2022-01-01T00:00:00Z
main_date_str 2022
online_boolean 1
online_urls_str_mv {"url":"https:\/\/jyx.jyu.fi\/bitstreams\/dfa1a5ff-0844-4e13-af8b-fb3c375bb3dd\/download","text":"URN:NBN:fi:jyu-202212165681.pdf","source":"jyx","mediaType":"application\/pdf"}
publishDate 2022
record_format qdc
source_str_mv jyx
spellingShingle Purkamo, Joona Konvoluutioneuroverkko - sovelluksena DNA-sekvenssien luokittelu DNA-sekvenssi k-mer konvoluutioneuroverkot lajien tunnistus vastavirta-algoritmi Tilastotiede Statistics 4043 neuroverkot DNA tilastotiede algoritmit
title Konvoluutioneuroverkko - sovelluksena DNA-sekvenssien luokittelu
title_full Konvoluutioneuroverkko - sovelluksena DNA-sekvenssien luokittelu
title_fullStr Konvoluutioneuroverkko - sovelluksena DNA-sekvenssien luokittelu Konvoluutioneuroverkko - sovelluksena DNA-sekvenssien luokittelu
title_full_unstemmed Konvoluutioneuroverkko - sovelluksena DNA-sekvenssien luokittelu Konvoluutioneuroverkko - sovelluksena DNA-sekvenssien luokittelu
title_short Konvoluutioneuroverkko - sovelluksena DNA-sekvenssien luokittelu
title_sort konvoluutioneuroverkko sovelluksena dna sekvenssien luokittelu
title_txtP Konvoluutioneuroverkko - sovelluksena DNA-sekvenssien luokittelu
topic DNA-sekvenssi k-mer konvoluutioneuroverkot lajien tunnistus vastavirta-algoritmi Tilastotiede Statistics 4043 neuroverkot DNA tilastotiede algoritmit
topic_facet 4043 DNA DNA-sekvenssi Statistics Tilastotiede algoritmit k-mer konvoluutioneuroverkot lajien tunnistus neuroverkot tilastotiede vastavirta-algoritmi
url https://jyx.jyu.fi/handle/123456789/84426 http://www.urn.fi/URN:NBN:fi:jyu-202212165681
work_keys_str_mv AT purkamojoona konvoluutioneuroverkkosovelluksenadnasekvenssienluokittelu