LRK2013 Meklēt korpusā Vārdu biežuma saraksts

Latviešu valodas runas atpazīšanas korpuss

Korpusā ir iekļauti audioieraksti un to atšifrējumi ortogrāfiskajā transkripcijā. Katram audioierakstam ir pievienoti metadati: ziņas par ieraksta vietu, ieraksta ilgums, runātāja vecums, dzimums un latviešu valodas valodas prasme. Daļa korpusa (apm. 4 stundas) ir marķēta fonētiskajā transkripcijā. Korpuss galvenokārt tiek izmantots runas atpazīšanas risinājumu izstrādei. Nav publiski pieejams.

Atsauces

Publikācija

M. Pinnis, I. Auzina, K. Goba
Designing the Latvian speech recognition corpus
2014

PDF

runas (9) vispārīgs (11) reprezentatīvs (9) morfoloģija (33)

Korpusa apjoms	100 stundas (1,1 milj. tekstvienību)
Datu publicēšanas periods	2005–2013
Izstrādes periods	2013
Izstrādātāji	Latvijas Universitātes Matemātikas un informātikas institūts, SIA Tilde, SIA LETA
Finansējuma avots	Eiropas Reģionālās attīstības fonds (KC/2.1.2.1.1/10/01/001, projekts Nr. 2.9)
Mājaslapa	http://runa.korpuss.lv/
Citas publikācijas	I. Auzina, M. Pinnis, R. Dargis Comparison of rule-based and statistical methods for grapheme to phoneme modelling IOS Press, 2014 PDF DOI A. Znotins, K. Polis, R. Dargis Media monitoring system for Latvian radio and TV broadcasts 2015 PDF