Kuinka suuret kielimallit oppivat ymmärtämään ja tuottamaan kieltä?

Tekoälyn ja koneoppimisen, erityisesti transformer-pohjaisten kielimallien, kehitys on mullistanut kieltenkäsittelyn. Tässä tutkielmassa tarkastelemme näiden mallien kykyä tuottaa ja ymmärtää kieltä, keskittyen niiden oppimisprosesseihin ja kielen rakenteiden sisäistämiseen. Tutkimme kuinka transfor...

Full description

Bibliographic Details
Main Author: Haukka, Kimi
Other Authors: Informaatioteknologian tiedekunta, Faculty of Information Technology, Informaatioteknologia, Information Technology, Jyväskylän yliopisto, University of Jyväskylä
Format: Bachelor's thesis
Language:fin
Published: 2024
Subjects:
Online Access: https://jyx.jyu.fi/handle/123456789/93266
_version_ 1826225813095186432
author Haukka, Kimi
author2 Informaatioteknologian tiedekunta Faculty of Information Technology Informaatioteknologia Information Technology Jyväskylän yliopisto University of Jyväskylä
author_facet Haukka, Kimi Informaatioteknologian tiedekunta Faculty of Information Technology Informaatioteknologia Information Technology Jyväskylän yliopisto University of Jyväskylä Haukka, Kimi Informaatioteknologian tiedekunta Faculty of Information Technology Informaatioteknologia Information Technology Jyväskylän yliopisto University of Jyväskylä
author_sort Haukka, Kimi
datasource_str_mv jyx
description Tekoälyn ja koneoppimisen, erityisesti transformer-pohjaisten kielimallien, kehitys on mullistanut kieltenkäsittelyn. Tässä tutkielmassa tarkastelemme näiden mallien kykyä tuottaa ja ymmärtää kieltä, keskittyen niiden oppimisprosesseihin ja kielen rakenteiden sisäistämiseen. Tutkimme kuinka transformer-mallien 'self-attention-mekanismi' edistää tekstin syvällistä ymmärrystä ja kuinka nämä mallit kehittävät kykyä ennustaa tulevia sanoja ja lauseita, mikä auttaa hahmottamaan kieliopillisia ja semanttisia rakenteita paremmin. Tutkielmassa käsitellään myös, missä määrin näiden mallien kielen ymmärtäminen on aitoa ja missä määrin se perustuu vaikutelman luomiseen. Vaikka mallit ovat kehittyneitä, niiden kyky ymmärtää kieltä ei ole yhtä syvällinen kuin ihmisen kyky ymmärtää kieltä. Tutkielmassa korostetaan, että näiden mallien todellinen ymmärryskyky jää rajoitetuksi, vaikka ne ovatkin kehittyneet tuottamaan tekstiä, joka vaikuttaa ymmärtävän kieltä. The development of artificial intelligence and machine learning, especially transformer-based language models, has revolutionized language processing. In this study, we examine the ability of these models to generate and understand language, focusing on their learning processes and the internalization of language structures. We explore how the 'self-attention mechanism' of transformer models contributes to a deep understanding of text and how these models develop the ability to predict future words and sentences, which helps in grasping grammatical and semantic structures better. The study also addresses the extent to which the language understanding of these models is genuine and the extent to which it is based on creating an impression. Although the models are advanced, their ability to understand language is not as profound as the human ability to understand language. The study emphasizes that the real comprehension capability of these models remains limited, even though they have developed to produce text that appears to understand language.
first_indexed 2024-02-06T21:00:29Z
format Kandityö
free_online_boolean 1
fullrecord [{"key": "dc.contributor.advisor", "value": "Tiihonen, Timo", "language": "", "element": "contributor", "qualifier": "advisor", "schema": "dc"}, {"key": "dc.contributor.author", "value": "Haukka, Kimi", "language": "", "element": "contributor", "qualifier": "author", "schema": "dc"}, {"key": "dc.date.accessioned", "value": "2024-02-06T07:39:08Z", "language": null, "element": "date", "qualifier": "accessioned", "schema": "dc"}, {"key": "dc.date.available", "value": "2024-02-06T07:39:08Z", "language": null, "element": "date", "qualifier": "available", "schema": "dc"}, {"key": "dc.date.issued", "value": "2024", "language": "", "element": "date", "qualifier": "issued", "schema": "dc"}, {"key": "dc.identifier.uri", "value": "https://jyx.jyu.fi/handle/123456789/93266", "language": null, "element": "identifier", "qualifier": "uri", "schema": "dc"}, {"key": "dc.description.abstract", "value": "Teko\u00e4lyn ja koneoppimisen, erityisesti transformer-pohjaisten kielimallien, kehitys on mullistanut kieltenk\u00e4sittelyn. T\u00e4ss\u00e4 tutkielmassa tarkastelemme n\u00e4iden mallien kyky\u00e4 tuottaa ja ymm\u00e4rt\u00e4\u00e4 kielt\u00e4, keskittyen niiden oppimisprosesseihin ja kielen rakenteiden sis\u00e4ist\u00e4miseen. Tutkimme kuinka transformer-mallien 'self-attention-mekanismi' edist\u00e4\u00e4 tekstin syv\u00e4llist\u00e4 ymm\u00e4rryst\u00e4 ja kuinka n\u00e4m\u00e4 mallit kehitt\u00e4v\u00e4t kyky\u00e4 ennustaa tulevia sanoja ja lauseita, mik\u00e4 auttaa hahmottamaan kieliopillisia ja semanttisia rakenteita paremmin.\n\nTutkielmassa k\u00e4sitell\u00e4\u00e4n my\u00f6s, miss\u00e4 m\u00e4\u00e4rin n\u00e4iden mallien kielen ymm\u00e4rt\u00e4minen on aitoa ja miss\u00e4 m\u00e4\u00e4rin se perustuu vaikutelman luomiseen. Vaikka mallit ovat kehittyneit\u00e4, niiden kyky ymm\u00e4rt\u00e4\u00e4 kielt\u00e4 ei ole yht\u00e4 syv\u00e4llinen kuin ihmisen kyky ymm\u00e4rt\u00e4\u00e4 kielt\u00e4. Tutkielmassa korostetaan, ett\u00e4 n\u00e4iden mallien todellinen ymm\u00e4rryskyky j\u00e4\u00e4 rajoitetuksi, vaikka ne ovatkin kehittyneet tuottamaan teksti\u00e4, joka vaikuttaa ymm\u00e4rt\u00e4v\u00e4n kielt\u00e4.", "language": "fi", "element": "description", "qualifier": "abstract", "schema": "dc"}, {"key": "dc.description.abstract", "value": "The development of artificial intelligence and machine learning, especially transformer-based language models, has revolutionized language processing. In this study, we examine the ability of these models to generate and understand language, focusing on their learning processes and the internalization of language structures. We explore how the 'self-attention mechanism' of transformer models contributes to a deep understanding of text and how these models develop the ability to predict future words and sentences, which helps in grasping grammatical and semantic structures better.\n\nThe study also addresses the extent to which the language understanding of these models is genuine and the extent to which it is based on creating an impression. Although the models are advanced, their ability to understand language is not as profound as the human ability to understand language. The study emphasizes that the real comprehension capability of these models remains limited, even though they have developed to produce text that appears to understand language.", "language": "en", "element": "description", "qualifier": "abstract", "schema": "dc"}, {"key": "dc.description.provenance", "value": "Submitted by Paivi Vuorio (paelvuor@jyu.fi) on 2024-02-06T07:39:08Z\nNo. of bitstreams: 0", "language": "en", "element": "description", "qualifier": "provenance", "schema": "dc"}, {"key": "dc.description.provenance", "value": "Made available in DSpace on 2024-02-06T07:39:08Z (GMT). No. of bitstreams: 0\n Previous issue date: 2024", "language": "en", "element": "description", "qualifier": "provenance", "schema": "dc"}, {"key": "dc.format.extent", "value": "29", "language": "", "element": "format", "qualifier": "extent", "schema": "dc"}, {"key": "dc.language.iso", "value": "fin", "language": null, "element": "language", "qualifier": "iso", "schema": "dc"}, {"key": "dc.rights", "value": "In Copyright", "language": "en", "element": "rights", "qualifier": null, "schema": "dc"}, {"key": "dc.subject.other", "value": "LLM", "language": "", "element": "subject", "qualifier": "other", "schema": "dc"}, {"key": "dc.subject.other", "value": "NLP", "language": "", "element": "subject", "qualifier": "other", "schema": "dc"}, {"key": "dc.subject.other", "value": "Transformer-arkkitehtuuri", "language": "", "element": "subject", "qualifier": "other", "schema": "dc"}, {"key": "dc.title", "value": "Kuinka suuret kielimallit oppivat ymm\u00e4rt\u00e4m\u00e4\u00e4n ja tuottamaan kielt\u00e4?", "language": "", "element": "title", "qualifier": null, "schema": "dc"}, {"key": "dc.type", "value": "bachelor thesis", "language": null, "element": "type", "qualifier": null, "schema": "dc"}, {"key": "dc.identifier.urn", "value": "URN:NBN:fi:jyu-202402061757", "language": "", "element": "identifier", "qualifier": "urn", "schema": "dc"}, {"key": "dc.type.ontasot", "value": "Bachelor's thesis", "language": "en", "element": "type", "qualifier": "ontasot", "schema": "dc"}, {"key": "dc.type.ontasot", "value": "Kandidaatinty\u00f6", "language": "fi", "element": "type", "qualifier": "ontasot", "schema": "dc"}, {"key": "dc.contributor.faculty", "value": "Informaatioteknologian tiedekunta", "language": "fi", "element": "contributor", "qualifier": "faculty", "schema": "dc"}, {"key": "dc.contributor.faculty", "value": "Faculty of Information Technology", "language": "en", "element": "contributor", "qualifier": "faculty", "schema": "dc"}, {"key": "dc.contributor.department", "value": "Informaatioteknologia", "language": "fi", "element": "contributor", "qualifier": "department", "schema": "dc"}, {"key": "dc.contributor.department", "value": "Information Technology", "language": "en", "element": "contributor", "qualifier": "department", "schema": "dc"}, {"key": "dc.contributor.organization", "value": "Jyv\u00e4skyl\u00e4n yliopisto", "language": "fi", "element": "contributor", "qualifier": "organization", "schema": "dc"}, {"key": "dc.contributor.organization", "value": "University of Jyv\u00e4skyl\u00e4", "language": "en", "element": "contributor", "qualifier": "organization", "schema": "dc"}, {"key": "dc.subject.discipline", "value": "Tietotekniikka", "language": "fi", "element": "subject", "qualifier": "discipline", "schema": "dc"}, {"key": "dc.subject.discipline", "value": "Mathematical Information Technology", "language": "en", "element": "subject", "qualifier": "discipline", "schema": "dc"}, {"key": "yvv.contractresearch.funding", "value": "0", "language": "", "element": "contractresearch", "qualifier": "funding", "schema": "yvv"}, {"key": "dc.type.coar", "value": "http://purl.org/coar/resource_type/c_7a1f", "language": null, "element": "type", "qualifier": "coar", "schema": "dc"}, {"key": "dc.rights.accesslevel", "value": "openAccess", "language": null, "element": "rights", "qualifier": "accesslevel", "schema": "dc"}, {"key": "dc.type.publication", "value": "bachelorThesis", "language": null, "element": "type", "qualifier": "publication", "schema": "dc"}, {"key": "dc.subject.oppiainekoodi", "value": "602", "language": "", "element": "subject", "qualifier": "oppiainekoodi", "schema": "dc"}, {"key": "dc.subject.yso", "value": "teko\u00e4ly", "language": null, "element": "subject", "qualifier": "yso", "schema": "dc"}, {"key": "dc.subject.yso", "value": "koneoppiminen", "language": null, "element": "subject", "qualifier": "yso", "schema": "dc"}, {"key": "dc.subject.yso", "value": "neuroverkot", "language": null, "element": "subject", "qualifier": "yso", "schema": "dc"}, {"key": "dc.rights.url", "value": "https://rightsstatements.org/page/InC/1.0/", "language": null, "element": "rights", "qualifier": "url", "schema": "dc"}]
id jyx.123456789_93266
language fin
last_indexed 2025-02-18T10:54:34Z
main_date 2024-01-01T00:00:00Z
main_date_str 2024
online_boolean 1
online_urls_str_mv {"url":"https:\/\/jyx.jyu.fi\/bitstreams\/394cd31a-c2e5-4117-a938-54f462093a2c\/download","text":"URN:NBN:fi:jyu-202402061757.pdf","source":"jyx","mediaType":"application\/pdf"}
publishDate 2024
record_format qdc
source_str_mv jyx
spellingShingle Haukka, Kimi Kuinka suuret kielimallit oppivat ymmärtämään ja tuottamaan kieltä? LLM NLP Transformer-arkkitehtuuri Tietotekniikka Mathematical Information Technology 602 tekoäly koneoppiminen neuroverkot
title Kuinka suuret kielimallit oppivat ymmärtämään ja tuottamaan kieltä?
title_full Kuinka suuret kielimallit oppivat ymmärtämään ja tuottamaan kieltä?
title_fullStr Kuinka suuret kielimallit oppivat ymmärtämään ja tuottamaan kieltä? Kuinka suuret kielimallit oppivat ymmärtämään ja tuottamaan kieltä?
title_full_unstemmed Kuinka suuret kielimallit oppivat ymmärtämään ja tuottamaan kieltä? Kuinka suuret kielimallit oppivat ymmärtämään ja tuottamaan kieltä?
title_short Kuinka suuret kielimallit oppivat ymmärtämään ja tuottamaan kieltä?
title_sort kuinka suuret kielimallit oppivat ymmärtämään ja tuottamaan kieltä
title_txtP Kuinka suuret kielimallit oppivat ymmärtämään ja tuottamaan kieltä?
topic LLM NLP Transformer-arkkitehtuuri Tietotekniikka Mathematical Information Technology 602 tekoäly koneoppiminen neuroverkot
topic_facet 602 LLM Mathematical Information Technology NLP Tietotekniikka Transformer-arkkitehtuuri koneoppiminen neuroverkot tekoäly
url https://jyx.jyu.fi/handle/123456789/93266 http://www.urn.fi/URN:NBN:fi:jyu-202402061757
work_keys_str_mv AT haukkakimi kuinkasuuretkielimallitoppivatymmärtämäänjatuottamaankieltä