LRK2013  Meklēt korpusā Vārdu biežuma saraksts

Latviešu valodas runas atpazīšanas korpuss

Korpusā ir iekļauti audioieraksti un to atšifrējumi ortogrāfiskajā transkripcijā. Katram audioierakstam ir pievienoti metadati: ziņas par ieraksta vietu, ieraksta ilgums, runātāja vecums, dzimums un latviešu valodas valodas prasme. Daļa korpusa (apm. 4 stundas) ir marķēta fonētiskajā transkripcijā. Korpuss galvenokārt tiek izmantots runas atpazīšanas risinājumu izstrādei. Nav publiski pieejams.

Publikācija, uz kuru atsaukties:
M. Pinnis, I. Auzina, K. Goba
Designing the Latvian speech recognition corpus
2014
PDF
Korpusa apjoms 100 stundas (1,1 milj. tekstvienību)
Izstrādes periods 2013
Izstrādātāji Latvijas Universitātes Matemātikas un informātikas institūts, SIA Tilde, SIA LETA
Finansējuma avots Eiropas Reģionālās attīstības fonds (KC/2.1.2.1.1/10/01/001, projekts Nr. 2.9)
Mājaslapa http://runa.korpuss.lv/
Citas publikācijas
I. Auzina, M. Pinnis, R. Dargis
Comparison of rule-based and statistical methods for grapheme to phoneme modelling
IOS Press, 2014
PDF DOI
A. Znotins, K. Polis, R. Dargis
Media monitoring system for Latvian radio and TV broadcasts
2015
PDF