Summary: | Tietoverkkojen ja verkossa olevien järjestelmien jatkuva kasvu on nostanut tietoverkkoturvallisuuden merkityksen ennennäkemättömän tärkeään asemaan. Anomaliapohjaiset tunkeutumisen havaitsemisjärjestelmät pyrkivät havainnoimaan verkkoliikenteen anomalioita, eli epänormaalia ja näin puolustamaan järjestelmiä haitalliselta liikenteeltä. Näiden järjestelmien koulutukseen ja arviointiin tarvitaan tietojoukkoja, jotka koostuvat tietoliikenne informaatiosta. Jotta järjestelmistä voidaan tehdä mahdollisimman luotettavat ja tehokkaat, tulee niiden käyttöön valita parhaat mahdolliset tietojoukot. Tässä tutkimuksessa luodaan konstruktiivisen tutkimusmetodin avulla vertailumalli, joiden avulla tietojoukkoja voidaan vertailla keskenään. Mallin toimivuus todistetaan soveltamalla sitä joukkoon tunnetuimpia tietojoukkoja. Vertailumallilla saatiin selkeästi eroteltua tietojoukkojen laatu ja niiden keskinäiset erot eri laadun kriteereillä. Vertailusta kävi ilmi, että etenkin uudet tietojoukot ovat suurimmaksi osin laadukkaampia kuin vanhat ja CSE-CIC-IDS2018 tietojoukko menestyi testijoukosta parhaiten.
The continuous growth of information networks and online systems has raised the importance of information network security to an unprecedentedly important position. Anomaly-based intrusion detection systems aim to detect network traffic anomalies, i.e., abnormal traffic, and thus defend systems against harmful traffic. For the training and evaluation of these systems, datasets consisting of telecommunication information are needed. In order to make the systems as reliable and efficient as possible, the best possible data sets must be selected for their use. In this study, a comparison model is created with the help of a constructive research method, with the help of which data sets can be compared with each other. The functionality of the model is proven by applying it to the most well-known data sets. With the comparison model, it was possible to clearly distinguish the quality of the data sets and their mutual differences with different quality criteria. The comparison showed that especially the new data sets are mostly of higher quality than the old ones and the CSE-CIC-IDS2018 data set performed best among the test set.
|