Error monitoring in a distributed system

While the concept of distributed systems encapsulating and isolating functionalities and errors inside their services is a great benefit for a system, it can also introduce various problems. One of these drawbacks is that if an error occurs in one of the services, the rest of the system is not aware...

Full description

Bibliographic Details
Main Author: Nykänen, Paavo
Other Authors: Faculty of Information Technology, Informaatioteknologian tiedekunta, University of Jyväskylä, Jyväskylän yliopisto
Format: Master's thesis
Language:eng
Published: 2024
Subjects:
Online Access: https://jyx.jyu.fi/handle/123456789/94870
Description
Summary:While the concept of distributed systems encapsulating and isolating functionalities and errors inside their services is a great benefit for a system, it can also introduce various problems. One of these drawbacks is that if an error occurs in one of the services, the rest of the system is not aware of it and the error might go unnoticed. This would delay fixing it and allow the same error to keep repeating and causing issues. This problem is addressed in this thesis by creating and applying an error monitoring framework for a single service of a distributed system. The framework is supposed to monitor for different kinds of errors in the target service and its resources. When these metrics notice errors, they should be indicated to the developers or system admins in different ways like notifications or visually on a monitoring dashboard. The framework is also tested by applying it to Akamon Innovations' Dataplatform system's Timeseries service and measured against various need statements given by Akamon. Yksi hajautettujen järjestelmien suurimpia etuja on niiden tapa kapseloida ja eristää toiminnallisuuksia ja virheitä yksittäisten palvelujen sisään jolloin ne eivät häiritse muun järjestelmän toimintaa. Tämä voi kuitenkin luoda uuden ongelman jos virheistä ei kommunikoida palvelun ulkopuolelle. Virheet voivat tällöin jäädä kehittäjiltä huomaamatta jolloin ne jatkavat esiintymistään, vahinkojen aiheuttamista ja niiden korjaus viivästyy. Tähän ongelmaan kehitetään ratkaisu tässä tutkielmassa luomalla viitekehys virheiden monitoroinnille hajautetussa järjestelmässä. Viitekehyksen on tarkoitus huomata erilaisia virheitä kohde palvelussa ja tuoda ne kehittäjien ja järjestelmän valvojien tietoisuuteen esimerkiksi ilmoituksilla tai monitorointtikäyttöliittymillä. Viitekehys testataan Akamon Innovationin Dataplatform-järjestelmän Timeseries-palvelussa ja sitä arvioidaan Akamonin antamia tarvevaatimuksia vastaan.