Automaattinen puheentunnistus ja puheen fysikaaliset perusteet

Tässä tutkielmassa käsitellään puheen tuottamisen fysiikkaa ja automaattista puheentunnistamista. Tutkielma jakautuu neljään osaan, joista ensimmäisessä tutustutaan puheen fyysisiin perusteisiin lagrangelaisen mekaniikan ja termodynamiikan keinoin sekä käydään läpi pitkittäisten aaltojen seuraksena...

Full description

Bibliographic Details
Main Author: Richterich, Nicolas
Other Authors: Matemaattis-luonnontieteellinen tiedekunta, Faculty of Sciences, Fysiikan laitos, Department of Physics, Jyväskylän yliopisto, University of Jyväskylä
Format: Bachelor's thesis
Language:fin
Published: 2023
Subjects:
Online Access: https://jyx.jyu.fi/handle/123456789/89057
_version_ 1826225818092699648
author Richterich, Nicolas
author2 Matemaattis-luonnontieteellinen tiedekunta Faculty of Sciences Fysiikan laitos Department of Physics Jyväskylän yliopisto University of Jyväskylä
author_facet Richterich, Nicolas Matemaattis-luonnontieteellinen tiedekunta Faculty of Sciences Fysiikan laitos Department of Physics Jyväskylän yliopisto University of Jyväskylä Richterich, Nicolas Matemaattis-luonnontieteellinen tiedekunta Faculty of Sciences Fysiikan laitos Department of Physics Jyväskylän yliopisto University of Jyväskylä
author_sort Richterich, Nicolas
datasource_str_mv jyx
description Tässä tutkielmassa käsitellään puheen tuottamisen fysiikkaa ja automaattista puheentunnistamista. Tutkielma jakautuu neljään osaan, joista ensimmäisessä tutustutaan puheen fyysisiin perusteisiin lagrangelaisen mekaniikan ja termodynamiikan keinoin sekä käydään läpi pitkittäisten aaltojen seuraksena ilmeneviä akustisia ominaisuuksia fluideissa. Toisessa luvussa esitellään analogisen aaltosignaalin digitoinnin periaatteet ja tutustutaan eri muunnoksiin signaalinkäsittelyn työkaluina, jonka jälkeen syvennytään signaalin lyhytaikakäsittelyyn ja sen sovelluksiin puheenkäsittelyssä. Kolmannessa luvussa puheentuotantoa käsitellään foneettisesti lähde-suodin-mallin avulla sekä käydään läpi yksittäisten foneemien laskennallisia tunnistamismetodeja. Tutkielman neljännessä luvussa perehdytään ensin neuroverkkojen ja koneoppimisen perusteisiin, jonka jälkeen käydään läpi niille perustuvia nykyaikaisessa puheentunnistuksessa käytetyttyjä kielimalleja ja akustisia malleja. Lopuksi esitellään suomenkielinen puheentunnistumalli. Tutkielman tavoite on tutustuttaa lukija puheen aaltomekaaniseen luonteeseen sekä luoda yleiskatsaus puheentuotannon ja -tunnistamisen mekanismeihin. This thesis is concerned with the physics of speech production and the mechanisms of automatic speech recognition. The thesis is split into four parts, of which the first investigates the physical basis of speech through Lagrangian mechanics and thermodynamics and the acoustic phenomena caused by longitudinal waves in fluids. The second chapter presents the principles of analog signal discretization and examines different transformation methods as tools for signal processing, after which short-term signal processing and its applications in speech processing are delved into. In the third chapter speech production is explained with the source-filter-model of phonation and different ways of phoneme recognition are discussed. Neural networks and machine learning are presented in the fourth chapter, after which language models and acoustical models based on them are investigated. Finally, a Finnish language speech recognition model is presented. The goal of the thesis is to familiarize the reader with the wave mechanical nature of speech and to give an overview in the mechanisms of speech production and recognition.
first_indexed 2023-09-13T20:25:13Z
format Kandityö
free_online_boolean 1
fullrecord [{"key": "dc.contributor.advisor", "value": "Grahn, Tuomas", "language": "", "element": "contributor", "qualifier": "advisor", "schema": "dc"}, {"key": "dc.contributor.author", "value": "Richterich, Nicolas", "language": "", "element": "contributor", "qualifier": "author", "schema": "dc"}, {"key": "dc.date.accessioned", "value": "2023-09-13T05:47:55Z", "language": null, "element": "date", "qualifier": "accessioned", "schema": "dc"}, {"key": "dc.date.available", "value": "2023-09-13T05:47:55Z", "language": null, "element": "date", "qualifier": "available", "schema": "dc"}, {"key": "dc.date.issued", "value": "2023", "language": "", "element": "date", "qualifier": "issued", "schema": "dc"}, {"key": "dc.identifier.uri", "value": "https://jyx.jyu.fi/handle/123456789/89057", "language": null, "element": "identifier", "qualifier": "uri", "schema": "dc"}, {"key": "dc.description.abstract", "value": "T\u00e4ss\u00e4 tutkielmassa k\u00e4sitell\u00e4\u00e4n puheen tuottamisen fysiikkaa ja automaattista puheentunnistamista. Tutkielma jakautuu nelj\u00e4\u00e4n osaan, joista ensimm\u00e4isess\u00e4 tutustutaan puheen fyysisiin perusteisiin lagrangelaisen mekaniikan ja termodynamiikan keinoin sek\u00e4 k\u00e4yd\u00e4\u00e4n l\u00e4pi pitkitt\u00e4isten aaltojen seuraksena ilmenevi\u00e4 akustisia ominaisuuksia fluideissa. Toisessa luvussa esitell\u00e4\u00e4n analogisen aaltosignaalin digitoinnin periaatteet ja tutustutaan eri muunnoksiin signaalink\u00e4sittelyn ty\u00f6kaluina, jonka j\u00e4lkeen syvennyt\u00e4\u00e4n signaalin lyhytaikak\u00e4sittelyyn ja sen sovelluksiin puheenk\u00e4sittelyss\u00e4. Kolmannessa luvussa puheentuotantoa k\u00e4sitell\u00e4\u00e4n foneettisesti l\u00e4hde-suodin-mallin avulla sek\u00e4 k\u00e4yd\u00e4\u00e4n l\u00e4pi yksitt\u00e4isten foneemien laskennallisia tunnistamismetodeja. Tutkielman nelj\u00e4nness\u00e4 luvussa perehdyt\u00e4\u00e4n ensin neuroverkkojen ja koneoppimisen perusteisiin, jonka j\u00e4lkeen k\u00e4yd\u00e4\u00e4n l\u00e4pi niille perustuvia nykyaikaisessa puheentunnistuksessa k\u00e4ytetyttyj\u00e4 kielimalleja ja akustisia malleja. Lopuksi esitell\u00e4\u00e4n suomenkielinen puheentunnistumalli.\nTutkielman tavoite on tutustuttaa lukija puheen aaltomekaaniseen luonteeseen sek\u00e4 luoda yleiskatsaus puheentuotannon ja -tunnistamisen mekanismeihin.", "language": "fi", "element": "description", "qualifier": "abstract", "schema": "dc"}, {"key": "dc.description.abstract", "value": "This thesis is concerned with the physics of speech production and the mechanisms of automatic speech recognition. The thesis is split into four parts, of which the first investigates the physical basis of speech through Lagrangian mechanics and thermodynamics and the acoustic phenomena caused by longitudinal waves in fluids. The second chapter presents the principles of analog signal discretization and examines different transformation methods as tools for signal processing, after which short-term signal processing and its applications in speech processing are delved into. In the third chapter speech production is explained with the source-filter-model of phonation and different ways of phoneme recognition are discussed. Neural networks and machine learning are presented in the fourth chapter, after which language models and acoustical models based on them are investigated. Finally, a Finnish language speech recognition model is presented.\nThe goal of the thesis is to familiarize the reader with the wave mechanical nature of speech and to give an overview in the mechanisms of speech production and recognition.", "language": "en", "element": "description", "qualifier": "abstract", "schema": "dc"}, {"key": "dc.description.provenance", "value": "Submitted by Paivi Vuorio (paelvuor@jyu.fi) on 2023-09-13T05:47:55Z\nNo. of bitstreams: 0", "language": "en", "element": "description", "qualifier": "provenance", "schema": "dc"}, {"key": "dc.description.provenance", "value": "Made available in DSpace on 2023-09-13T05:47:55Z (GMT). No. of bitstreams: 0\n Previous issue date: 2023", "language": "en", "element": "description", "qualifier": "provenance", "schema": "dc"}, {"key": "dc.format.extent", "value": "85", "language": "", "element": "format", "qualifier": "extent", "schema": "dc"}, {"key": "dc.language.iso", "value": "fin", "language": null, "element": "language", "qualifier": "iso", "schema": "dc"}, {"key": "dc.rights", "value": "In Copyright", "language": "en", "element": "rights", "qualifier": null, "schema": "dc"}, {"key": "dc.subject.other", "value": "puheakustiikka", "language": "", "element": "subject", "qualifier": "other", "schema": "dc"}, {"key": "dc.title", "value": "Automaattinen puheentunnistus ja puheen fysikaaliset perusteet", "language": "", "element": "title", "qualifier": null, "schema": "dc"}, {"key": "dc.type", "value": "bachelor thesis", "language": null, "element": "type", "qualifier": null, "schema": "dc"}, {"key": "dc.identifier.urn", "value": "URN:NBN:fi:jyu-202309135080", "language": "", "element": "identifier", "qualifier": "urn", "schema": "dc"}, {"key": "dc.type.ontasot", "value": "Bachelor's thesis", "language": "en", "element": "type", "qualifier": "ontasot", "schema": "dc"}, {"key": "dc.type.ontasot", "value": "Kandidaatinty\u00f6", "language": "fi", "element": "type", "qualifier": "ontasot", "schema": "dc"}, {"key": "dc.contributor.faculty", "value": "Matemaattis-luonnontieteellinen tiedekunta", "language": "fi", "element": "contributor", "qualifier": "faculty", "schema": "dc"}, {"key": "dc.contributor.faculty", "value": "Faculty of Sciences", "language": "en", "element": "contributor", "qualifier": "faculty", "schema": "dc"}, {"key": "dc.contributor.department", "value": "Fysiikan laitos", "language": "fi", "element": "contributor", "qualifier": "department", "schema": "dc"}, {"key": "dc.contributor.department", "value": "Department of Physics", "language": "en", "element": "contributor", "qualifier": "department", "schema": "dc"}, {"key": "dc.contributor.organization", "value": "Jyv\u00e4skyl\u00e4n yliopisto", "language": "fi", "element": "contributor", "qualifier": "organization", "schema": "dc"}, {"key": "dc.contributor.organization", "value": "University of Jyv\u00e4skyl\u00e4", "language": "en", "element": "contributor", "qualifier": "organization", "schema": "dc"}, {"key": "dc.subject.discipline", "value": "Fysiikka", "language": "fi", "element": "subject", "qualifier": "discipline", "schema": "dc"}, {"key": "dc.subject.discipline", "value": "Physics", "language": "en", "element": "subject", "qualifier": "discipline", "schema": "dc"}, {"key": "yvv.contractresearch.funding", "value": "0", "language": "", "element": "contractresearch", "qualifier": "funding", "schema": "yvv"}, {"key": "dc.type.coar", "value": "http://purl.org/coar/resource_type/c_7a1f", "language": null, "element": "type", "qualifier": "coar", "schema": "dc"}, {"key": "dc.rights.accesslevel", "value": "openAccess", "language": null, "element": "rights", "qualifier": "accesslevel", "schema": "dc"}, {"key": "dc.type.publication", "value": "bachelorThesis", "language": null, "element": "type", "qualifier": "publication", "schema": "dc"}, {"key": "dc.subject.oppiainekoodi", "value": "4021", "language": "", "element": "subject", "qualifier": "oppiainekoodi", "schema": "dc"}, {"key": "dc.subject.yso", "value": "puheteknologia", "language": null, "element": "subject", "qualifier": "yso", "schema": "dc"}, {"key": "dc.subject.yso", "value": "puheentunnistus", "language": null, "element": "subject", "qualifier": "yso", "schema": "dc"}, {"key": "dc.subject.yso", "value": "signaalink\u00e4sittely", "language": null, "element": "subject", "qualifier": "yso", "schema": "dc"}, {"key": "dc.subject.yso", "value": "teko\u00e4ly", "language": null, "element": "subject", "qualifier": "yso", "schema": "dc"}, {"key": "dc.subject.yso", "value": "fonetiikka", "language": null, "element": "subject", "qualifier": "yso", "schema": "dc"}, {"key": "dc.subject.yso", "value": "akustiikka", "language": null, "element": "subject", "qualifier": "yso", "schema": "dc"}, {"key": "dc.subject.yso", "value": "fysiikka", "language": null, "element": "subject", "qualifier": "yso", "schema": "dc"}, {"key": "dc.rights.url", "value": "https://rightsstatements.org/page/InC/1.0/", "language": null, "element": "rights", "qualifier": "url", "schema": "dc"}]
id jyx.123456789_89057
language fin
last_indexed 2025-02-18T10:55:14Z
main_date 2023-01-01T00:00:00Z
main_date_str 2023
online_boolean 1
online_urls_str_mv {"url":"https:\/\/jyx.jyu.fi\/bitstreams\/0f1b0570-4ece-4703-9169-76c289af3f1d\/download","text":"URN:NBN:fi:jyu-202309135080.pdf","source":"jyx","mediaType":"application\/pdf"}
publishDate 2023
record_format qdc
source_str_mv jyx
spellingShingle Richterich, Nicolas Automaattinen puheentunnistus ja puheen fysikaaliset perusteet puheakustiikka Fysiikka Physics 4021 puheteknologia puheentunnistus signaalinkäsittely tekoäly fonetiikka akustiikka fysiikka
title Automaattinen puheentunnistus ja puheen fysikaaliset perusteet
title_full Automaattinen puheentunnistus ja puheen fysikaaliset perusteet
title_fullStr Automaattinen puheentunnistus ja puheen fysikaaliset perusteet Automaattinen puheentunnistus ja puheen fysikaaliset perusteet
title_full_unstemmed Automaattinen puheentunnistus ja puheen fysikaaliset perusteet Automaattinen puheentunnistus ja puheen fysikaaliset perusteet
title_short Automaattinen puheentunnistus ja puheen fysikaaliset perusteet
title_sort automaattinen puheentunnistus ja puheen fysikaaliset perusteet
title_txtP Automaattinen puheentunnistus ja puheen fysikaaliset perusteet
topic puheakustiikka Fysiikka Physics 4021 puheteknologia puheentunnistus signaalinkäsittely tekoäly fonetiikka akustiikka fysiikka
topic_facet 4021 Fysiikka Physics akustiikka fonetiikka fysiikka puheakustiikka puheentunnistus puheteknologia signaalinkäsittely tekoäly
url https://jyx.jyu.fi/handle/123456789/89057 http://www.urn.fi/URN:NBN:fi:jyu-202309135080
work_keys_str_mv AT richterichnicolas automaattinenpuheentunnistusjapuheenfysikaalisetperusteet