Natural language generation methods on small datasets

Tämän Pro gradu -tutkielman tavoitteena on tutkia takaisinkytkettyjen neuroverkkojen (RNN) käyttöä luonnollisen kielen generointiin pienillä tietoaineistoilla. Pieni tietoaineisto luodaan keräämällä tekstiä laulun sanoista, ja kaksi mallia, sanatason RNN ja merkkitason RNN, rakennetaan luonnollisen...

Full description

Bibliographic Details
Main Author: Ahonen, Eemil
Other Authors: Informaatioteknologian tiedekunta, Faculty of Information Technology, Informaatioteknologia, Information Technology, Jyväskylän yliopisto, University of Jyväskylä
Format: Master's thesis
Language:eng
Published: 2023
Subjects:
Online Access: https://jyx.jyu.fi/handle/123456789/87849
Description
Summary:Tämän Pro gradu -tutkielman tavoitteena on tutkia takaisinkytkettyjen neuroverkkojen (RNN) käyttöä luonnollisen kielen generointiin pienillä tietoaineistoilla. Pieni tietoaineisto luodaan keräämällä tekstiä laulun sanoista, ja kaksi mallia, sanatason RNN ja merkkitason RNN, rakennetaan luonnollisen kielen generoimista varten. Mallien suorituskykyä verrataan generoidun tekstin laadun ja tulosteen monimuotoisuuden perusteella ja tarkastellaan eri hyperparametrien vaikutusta mallien suorituskykyyn. Havaitaan, että sanatason RNN luo koherentimpaa tekstiä kuin merkkitason RNN malli. This thesis studies the use of recurrent neural networks (RNNs) for natural language generation on small datasets. A small dataset is created by collecting text on song lyrics, and two models, a word-level RNN and a character-level RNN, are built for natural language generation. The performance of the models is compared based on the quality of generated text and the diversity of the output, and the impact of different hyperparameters on the models' performance is explored. Word-level model is found to outperform the character-level model in generating coherent sentences.