Tekstin representointi katkaistulla pääakselihajotelmalla luokittelussa

Tekstin representaatio on kiinteä osa luonnollisen kielen prosessointia, sillä se mahdollistaa luonnollisten kielten laskennallisen analysoinnin. Yleiset representaatiomenetelmät ovat syntaksiin perustuvia. Luonnolliseen kieleen liittyy kuitenkin olennaisesti tulkinnanvaraisuutta, mikä aiheuttaa syn...

Full description

Bibliographic Details
Main Author: Patron, Anri
Other Authors: Informaatioteknologian tiedekunta, Faculty of Information Technology, Informaatioteknologia, Information Technology, Jyväskylän yliopisto, University of Jyväskylä
Format: Bachelor's thesis
Language:fin
Published: 2019
Subjects:
Online Access: https://jyx.jyu.fi/handle/123456789/64166
Description
Summary:Tekstin representaatio on kiinteä osa luonnollisen kielen prosessointia, sillä se mahdollistaa luonnollisten kielten laskennallisen analysoinnin. Yleiset representaatiomenetelmät ovat syntaksiin perustuvia. Luonnolliseen kieleen liittyy kuitenkin olennaisesti tulkinnanvaraisuutta, mikä aiheuttaa syntaktisiin representaatioihin vääristymiä. Tutkielmassa tarkastellaan tekstin representointia katkaistulla pääakselihajotelmalla luokitteluongelman näkökulmasta. Pääakselihajotelmalla approksimoimalla tekstiaineistosta voidaan löytää termien ja dokumenttien assosiatiivisten yhteyksien rakenne, jota voidaan käyttää tekstin representointiin. Menetelmällä saatavat tulokset vaikuttavat lupaavilta syntaksiin perustuviin representaatiomentelmiin verrattuna. Text representation is a critical part of natural language processing and a prerequisite for any computational analysis. Popular representational methods are based on syntactic terms. However interpretability of natural language causes noise in syntactic representations. This paper evaluates the use of truncated singular value decomposition as text representation in text categorization. Singular value decomposition is used in transforming original term by document matrix into a subspace where text is represented as associations of terms and documents. Results show truncated singular value decomposition to be promising replacement for syntactic representation methods.