Yhteenveto: | Luokitteluongelman ratkaisussa tavoitteena on määrätä havainto kuuluvaksi johonkin tiedossa olevaan luokkaan. Erilaisia luokittelumenetelmiä on paljon, mutta erityisesti viime vuosina syväoppimismenetelmät ovat osoittautuneet soveltuvan erinomaisesti luokitteluongelmien ratkaisuksi monissa sovelluksissa. Tässä tutkielmassa esitellään täysin kytketty neuroverkko ja konvoluutioneuroverkko (CNN) luokitteluongelman ratkaisuna sekä sovelletaan CNN:ää hyönteislajien tunnistuksessa, jossa lajit luokitellaan niiden DNA-sekvenssien perusteella.
Neuroverkkojen tarkastelu aloitetaan täysin kytketystä neuroverkosta. Aluksi esitetään neuroverkkojen perusidea, keskeistä termistöä, toiminta luokittelutilanteessa, rakenne sekä neuroverkon parametrien estimointi stokastista gradienttimenetelmää, neuroverkon virhefunktiota ja vastavirta-algoritmia käyttämällä. Vastavirta-algoritmi on laaja kokonaisuus erilaisia toimintoja, joiden tehtävä on päivittää neuroverkon parametrit siten, että neuroverkon virhe minimoituu. Vastavirta-algoritmi monesti ohitetaan sen monimutkaisuuden vuoksi, mutta tässä tutkielmassa se esitetään yksityiskohtaisesti.
CNN:n yhteydessä esitetään ensin kaksi tapaa esikäsitellä aineistoa luokittelua varten: Ensimmäinen tapa liittyy tavallisten kuvien luokitteluun, kun taas toinen tapa liittyy DNA-sekvenssiluokittelun sovellukseen. Näin saadaan kaksi erilaista CNN-luokitinta: yksi- ja kaksiulotteinen CNN. Lisäksi CNN:n yhteydessä esitetään huolellisesti CNN:n rakenne ja sen matemaattiset operaatiot väri- ja harmaasävykuvien sekä DNA-sekvenssien luokittelussa.
Käytetty DNA-sekvenssiaineisto sisältää tuhansia DNA-sekvenssejä tuhansilta eri hyönteislajeilta. Analyysivaiheessa mukaan valitaan vuorollaan sellaiset 10, 100, 500 tai 1000 lajia, joista DNA-sekvenssejä on saatavilla eniten. DNA-sekvenssit esikäsitellään kahdella esitetyllä tavalla, jolloin varsinainen luokittelu tehdään käyttäen sekä yksi- että kaksiulotteista CNN:ää. Luokittelutarkkuuksien ja neuroverkon parametrien estimointiin tarvittavan ajan perusteella yksiulotteinen versio osoittautui paremmaksi DNA-sekvenssien luokittelumenetelmäksi. Luokittelutarkkuudet testiaineistolla nousivat parhaimmillaan noin 95--100 % välille valitusta lajien lukumäärästä riippuen.
|