statistilise keelemudeli adapteerimine eesti keele kõnetuvastuses
Article Quality & Performance Metrics
Abstract
Artiklis käsitletakse eesti keele suure sõnavaraga kõnetuvastuse statistilise keelemudeli adapteerimist. Adapteerimise lähteandmeteks on väike teemaspetsiifiliste lausete korpus. Adapteerimise käigus leitakse varjatud semantika analüüsi (LSA) abil suurest dokumendikorpusest antud teemale lähedaseimad tekstid. Saadud tekstide põhjal konstrueeritakse uus teemaspetsiifiline unigramm-mudel ning see kombineeritakse üldise N-gramm-mudeliga, mille tulemusena saadakse teemale adapteeritud N-gramm-mudel. Artiklis võrreldakse morfeeme, sõnu ja lemmasid adapteerimismudeli põhiühikutena.
Meetodit testitakse raadiouudistesalvestuste tuvastamisel. Tuvastuse esimeses faasis leitakse üldise keelemudeli abil igale uudisnupule tuvastushüpoteesid, mida kasutatakse keelemudeli adapteerimiseks. Tuvastuse teises faasis kasutatakse adapteeritud keelemudelit uute tuvastushüpoteeside saamiseks. Tulemused näitavad, et adapteerimisega saavutatakse oluline tuvastuskvaliteedi paranemine. Selgub, et morfeemidepõhisel adapteerimisel saavutatud 10-protsendiline vigade vähenemine on statistiliselt oluliselt suurem kui sõna- või lemmapõhisel adapteerimisel saadud muutused. Artiklis analüüsitakse ka saadud tulemuste võimalikke põhjuseid.
DOI: http://dx.doi.org/10.5128/ERYa4.01
| Reference Key |
alume2008eestistatistilise
Use this key to autocite in the manuscript while using
SciMatic Manuscript Manager or Thesis Manager
|
|---|---|
| Authors | ;Tanel Alumäe |
| Journal | Journal of food protection |
| Year | 2008 |
| DOI |
10.5128/ERYa4.01
|
| URL | |
| Keywords |
Citations
No citations found. To add a citation, contact the admin at info@scimatic.org
Comments
No comments yet. Be the first to comment on this article.