Integrating a smart city data warehouse efficiently with a cloud infrastructure

Päätekijä: Paltto, Oula
Muut tekijät: Faculty of Information Technology, Informaatioteknologian tiedekunta, Tietojenkäsittelytieteiden laitos, Department of Computer Science and Information Systems, University of Jyväskylä, Jyväskylän yliopisto
Aineistotyyppi: Pro gradu
Julkaistu: 2015
Yhteenveto:Kankaan hanke on Jyväskylän kaupungin seuraavien vuosikymmenten tärkein aluekehityshanke. Kankaan alue muodostaa tulevaisuudessa fiksun kaupungin, mikä edellyttää muun muassa alueen tietovaraston toteuttamista. Ennen tietovaraston toteuttamista on kuitenkin tarpeen selvittää, miten fiksun kaupungin tietovarasto voidaan integroida tehokkaasti pilvi-infrastruktuuriin ylipäänsä, mikä oli tämän tutkimuksen päätutkimuskysymys. Tätä varten luotiin yleistettävä, teoreettinen viitekehys, jonka avulla voidaan vastata esimerkiksi tähän kysymykseen. Viitekehyksen avulla voidaan tulkita, että fiksu kaupunki vaatii pilvi-infrastruktuurilta ainakin saatavuutta, autonomisuutta, skaalattavuutta, suorituskykyä, yhteentoimivuutta, vikasietoisuutta, yksityisyyttä ja turvallisuutta sekä käyttäjien osallistamista ja kestävää kehitystä. Viitekehyksen käyttöä demonstroitiin valitsemalla Kankaan alueen tietovaraston tärkeimmät vaatimukset: suorituskyky ja skaalattavuus. Näistä vaatimuksista suorituskyky operationalisoitiin, minkä jälkeen kahden tietovaraston ohjelmistokandidaatin, Stardogin ja Neo4j:n, suorituskyky testattiin. Ne asennettiin Eucalyptus-pilveen ja luotiin suorituskykytesti, joka lisäsi ja kyseli tietoa niistä. Neo4j suoriutui suorituskykytestistä paremmin kuin Stardog. Stardogia ja Neo4j:tä vertailtiin myös subjektiivisesti, mikä toi esille muun muassa, että Neo4j on kypsempi tuote kuin Stardog mutta että molempia tietokantoja voidaan potentiaalisesti hyödyntää Kankaan hankkeessa. Lopuksi viitekehystä itseään arvioitiin, mikä kertoi, että se toimii ohjenuorana melko hyvin, joskin sillä on myös joitakin heikkouksia. Se ei esimerkiksi tarjoa teknisiä tietoja. Tutkimus toteutettiin suunnittelutieteellisesti. The Kangas project is the main urban development project of the City of Jyväskylä for the next several decades. The Kangas area will form a smart city in the future, which requires implementing, among others, the data warehouse of the area. Before implementing the data warehouse, however, there is a need to know how a smart city data warehouse can be efficiently integrated with a cloud infrastructure in general, which was the main research question of this study. To this end, a generalizable, theoretical framework was created that can be used to answer e.g., to this question. With the help of the framework, it can be interpreted that a smart city requires of a cloud infrastructure at least availability, autonomicity, scalability, performance, interoperability, fault tolerance, privacy, and security, as well as user involvement and sustainability. The use of the framework was demonstrated by choosing the most important requirements for the data warehouse of the Kangas area: performance and scalability. Of these requirements, performance was operationalized, after which two candidates for the software of the data warehouse, Stardog and Neo4j, were tested for it. They were installed on a Eucalyptus cloud and a benchmark was created that inserted data into and queried it from them. Neo4j performed better than Stardog in the benchmark. Stardog and Neo4j were compared subjectively as well, which brought out, among others, that Neo4j is a more mature product than Stardog, but that both databases can potentially be utilized in the Kangas project. Finally, the framework itself was evaluated, which revealed that it functions as a guiding principle quite well, although it has also some weaknesses. E.g., it offers no specifications. The study was conducted as design science.