Estimating prediction error variances of a plant breeding hybrid model using Monte Carlo sampling

Jalostusarvoilla ilmaistaan yksilön geneettistä hyvyyttä jalostettavan ominaisuuden suhteen verrattuna muihin yksilöihin jalostettavassa populaatiossa. Seuraavan sukupolven vanhemmiksi valitaan tyypillisesti yksilöt, joiden jalostusarvojen ennusteet ovat suurimmat toivoen, että heidän jälkeläisillää...

Full description

Bibliographic Details
Main Author: Heikkilä, Antero
Other Authors: Matemaattis-luonnontieteellinen tiedekunta, Faculty of Sciences, Matematiikan ja tilastotieteen laitos, Department of Mathematics and Statistics, Jyväskylän yliopisto, University of Jyväskylä
Format: Master's thesis
Language:eng
Published: 2024
Subjects:
Online Access: https://jyx.jyu.fi/handle/123456789/97660
Description
Summary:Jalostusarvoilla ilmaistaan yksilön geneettistä hyvyyttä jalostettavan ominaisuuden suhteen verrattuna muihin yksilöihin jalostettavassa populaatiossa. Seuraavan sukupolven vanhemmiksi valitaan tyypillisesti yksilöt, joiden jalostusarvojen ennusteet ovat suurimmat toivoen, että heidän jälkeläisilläänkin olisi hyvät ominaisuudet jalostettavan ominaisuuden suhteen. G-BLUP (genomic best linear unbiased prediction) -menetelmä on laajasti käytössä eläin- ja kasvinjalostuksessa. Siinä jalostusarvojen ennustamiseen käytetään yksilöiltä kerättyä geneettistä tietoa. Jotta jalostusarvojen ennusteet olisivat mahdollisimman hyviä ja tarkkoja, on tärkeää, että populaation sukulaisuussuhteet tiedetään. Erityisesti eläinpopulaatioissa on tavallisesti tiedossa populaation sukupuu, jonka avulla jalostusarvojen ennustamiseen käytetyissä menetelmissä, kuten BLUP- ja G-BLUP -menetelmässä, voidaan muodostaa niissä tarvittava sukulaisuusmatriisi. Nykyisin, kun yksilöiden genotyypittämisen hinta on laskenut, on entistä yleisempää muodostaa sukulaisuusmatriisi hyödyntäen yksilöiltä kerättyä tietoa snipeistä (SNP), eli yhden nukleotidin polymorfismeista. Snipit ovat edustava otos genomia, ja kuvaavat siinä olevaa geneettistä vaihtelua. Tilastollisena mallina jalostuksessa käytetään tavallisesti lineaariseen sekamalliin pohjautuvaa mallia. Siinä yksilöiden fenotyyppisiä havaintoja selitetään joukolla kiinteitä tekijöitä, kuten ikää, sukupuolta ja painoa, ja satunnaistekijöitä. Satunnaistekijöinä mallissa ovat erityisesti yksilöiden jalostusarvot, joten ratkaisemalla satunnaistekijöiden ennusteet saadaan ennusteet jalostusarvoille. Kasvinjalostuksessa käytettävässä hybridimallissa satunnaistekijöitä on usein kolme: risteytyksen molempien vanhempien sekä itse risteytyksen satunnaisvaikutus fenotyyppiseen havaintoon. Tässä tutkielmassa hybridimalli sovitetaan käyttäen G-BLUP -menetelmää. Tutkielman varsinaisena tavoitteena oli selvittää, miten ennustevirhevariansseja (PEV) approksimoivat menetelmät toimivat hybridimallin kanssa. Ennustevirhevarianssilla mitataan sitä, kuinka lähellä jalostusarvon ennuste on todellista jalostusarvoa. Approksimoivat menetelmät perustuvat mallin simuloimiseen Monte Carlo -menetelmällä. Approksimoivien menetelmien toimivuutta tutkittiin kolmen geneettisen ryhmän välillä, jotka olivat risteytyksen vanhempaiskasvit ja risteytys itse, jonka lisäksi tutkittiin, miten menetelmät toimivat tilanteessa, joissa geneettisiä variansseja ja jäännösvarianssia muutettiin, ja tilanteessa, jossa analyysiin otettiin mukaan vain puolet havainnoista. Tutkielmaan otettiin mukaan neljä tunnettua menetelmää, joita kutsutaan nimillä PEV1, PEV2, PEV3 ja NF2. Menetelmät perustuvat mallin simuloimiseen ja niissä verrataan simuloidun jalostusarvon ja simuloidun datan perusteella saadun jalostusarvon estimaatin välistä eroa. Tämä tutkielma osoitti, että kaikki (tutkittavat) ennustevirhevarianssia approksimoivat menetelmät toimivat asymptoottisesti Monte Carlo -näytteiden määrän kasvaessa myös hybridimallin kanssa. Tutkielmassa kuitenkin selvisi, että menetelmien välillä on myös eroja. Parhaimmiksi havaittiin menetelmät PEV3 ja NF2. Sen sijaan erityisesti menetelmä PEV2 toimi huonosti tilanteessa, jossa ennustevirhevarianssin vaihteluväli oli pieni. Genomic best linear unbiased prediction (GBLUP) is a method widely used in animal and plant breeding. It uses individuals’ genomic information to estimate breeding values. Breeding values are an essential part of animal and plant breeding, and they tell the genetic merit of an individual compared to the others. Using estimated breeding values (EBVs), breeders can select the best individuals to be the ancestors of the next generation. To estimate breeding values accurately, relationship information from the breeding population should be used. A relationship matrix is constructed using either pedigree or genetic information. In GBLUP, the relationships of a population are presented in a genomic relationship matrix, which is constructed using the individuals’ genetic information. The genomic information is usually based on single nucleotide polymorphisms (SNPs), which tell the variant of a gene an individual carries. A linear mixed model is a typical choice for estimating breeding values. Individual breeding values are treated as random effects in the linear mixed model. Using Henderson’s mixed model equations (MMEs) makes it possible to obtain the estimates for the fixed and random effects simultaneously. A hybrid model in plant breeding is a linear mixed model in which phenotypic observations are explained by both maternal and paternal effects separately and a cross effect. A cross is a plant that emerges when two plants reproduce. This thesis shows how a hybrid model is fitted using a GBLUP model. When the number of individuals is large, the use of exact solving methods becomes computationally infeasible, making the use of iterative solving methods for solving the MME and approximate methods for obtaining prediction error variances (PEVs) necessary. The behaviour of four methods for approximating PEVs was studied using a hybrid model. The methods are called PEV1, PEV2, PEV3, and NF2, and they are widely used methods to approximate the exact PEV of a model. PEV measures the accuracy of an EBV. These methods, which are based on Monte Carlo (MC) sampling of the model, were compared across different genetic groups and situations. The results indicate that the methods PEV3 and NF2 work better than the methods PEV1 and PEV2. Especially the method PEV2 behaved poorly when the distribution of the exact PEV values was narrow. Overall, the thesis demonstrates that all the methods work in a hybrid model framework when the MC sample size is large enough.