Analyzing protein-nanocluster interactions with graph-based machine learning for molecular dynamics

In this work a custom graph convolutional network was succesfully constructed and trained to predict interaction energies in molecular dynamics simulations between Au25(SR)18 nanoclusters and BSA proteins based on their physical and chemical features. Data from molecular dynamics simulations was use...

Täydet tiedot

Bibliografiset tiedot
Päätekijä: Sikoniemi, Anssi
Muut tekijät: Faculty of Sciences, Matemaattis-luonnontieteellinen tiedekunta, Department of Physics, Fysiikan laitos, University of Jyväskylä, Jyväskylän yliopisto
Aineistotyyppi: Pro gradu
Kieli:eng
Julkaistu: 2024
Aiheet:
Linkit: https://jyx.jyu.fi/handle/123456789/95736
Kuvaus
Yhteenveto:In this work a custom graph convolutional network was succesfully constructed and trained to predict interaction energies in molecular dynamics simulations between Au25(SR)18 nanoclusters and BSA proteins based on their physical and chemical features. Data from molecular dynamics simulations was used as target data in supervised learning. The performance of this model was compared to a feed forward neural network with Weisfeiler-Lehman updates on graph form data. The energy terms predicted were the non-bonded Lennard-Jones and Coulombic terms for the force field used in the simulations. The models were created using the Keras Tensorflow package. Both neural network architectures showed valid performance and the graph convolutional network based on localised spectral filters on graphs was at least as effective as the feed forward neural network with Weisfeiler-Lehman updates. The results show that these machine learning methods could be used in the future to improve molecular dynamics simulations by creating a better initialization for the simulations. To get more reliable results and generalise the models a larger data set would be required. Tässä tutkielmassa tutkittiin vuorovaikutusenergioiden ennustamista Au25(SR)18 nanoklusterien ja BSA-proteiinien välillä kahdella eri neuroverkkoarkkitehtuurilla. Mallien kouluttaminen toteutettiin nanoklusterien ja proteiinien graafimuotoista esitystä hyödyntäen. Ennustetut vuorovaikutusenergiatermit olivat Lennard-Jones ja Coulombinen vuorovaikutusenergia simulaatioissa käytetylle voimakentälle. Ensimmäinen käytetty neuroverkkoarkkitehtuuri oli yksinkertainen eteenpäinsyöttävä malli, jossa datan esikäsittelyssä käytettiin Weisfeiler-Lehman -päivityksiä graafiesityksen parantamiseksi. Toinen käytetty koneoppimismalli oli graafikonvoluutioverkko, joka perustui graafien lokalisoituihin spektraalifilttereihin. Verkot rakennettiin hyödyntämällä Keras Tensorflow -pakettia. Molempien mallien ennustuksien ja validaatiodatan välinen suhde oli hyvin lineaarinen. Molemmat mallit toimivat siis hyvin vuorovaikutusenergioiden ennustamiseen. Näiden tulosten pohjalta työssä käytettyä graafineuroverkkoa ja eteenpäinsyöttävää neuroverkkoa voisi hyödyntää molekyylidynamiikkasimulaatioiden alustamisen parantamiseen tulevaisuudessa. Suurin rajoittava tekijä tutkimuksessa oli käytetyn datan määrä. Luotettavampien tulosten saamiseksi ja mallien yleistämiseksi vaadittaisiin suurempi määrä dataa. Datamäärän lisääminen auttaisi luotettavampien johtopäätösten muodostamiseen myös siitä, kumpi neuroverkkoarkkitehtuuri on luotettavampi ja tehokkaampi vuorovaikutusenergioiden ennustamisessa.