LRK2013 Meklēt korpusā Vārdu biežuma saraksts
Latviešu valodas runas atpazīšanas korpuss
Korpusā ir iekļauti audioieraksti un to atšifrējumi ortogrāfiskajā transkripcijā. Katram audioierakstam ir pievienoti metadati: ziņas par ieraksta vietu, ieraksta ilgums, runātāja vecums, dzimums un latviešu valodas valodas prasme. Daļa korpusa (apm. 4 stundas) ir marķēta fonētiskajā transkripcijā. Korpuss galvenokārt tiek izmantots runas atpazīšanas risinājumu izstrādei. Nav publiski pieejams.
Publikācija, uz kuru atsaukties:
M. Pinnis and I. Auzina and K. Goba
Designing the Latvian speech recognition corpus
Proceedings of the 9th International Conference on Language Resources and Evaluation (LREC), 2014
PDF
Designing the Latvian speech recognition corpus
Proceedings of the 9th International Conference on Language Resources and Evaluation (LREC), 2014
Korpusa apjoms | 100 stundas (1,1 milj. tekstvienību) |
Izstrādes periods | 2013 |
Izstrādātājs | Latvijas Universitātes Matemātikas un informātikas institūts, SIA Tilde, SIA LETA |
Finansējuma avots | Eiropas Reģionālās attīstības fonds (KC/2.1.2.1.1/10/01/001, projekts Nr. 2.9) |
Mājaslapa | http://runa.korpuss.lv/ |
Citas publikācijas |
A. Znotins and K. Polis and R. Dargis
Media monitoring system for Latvian radio and TV broadcasts Proceedings of the 16th Annual Conference of the International Speech Communication Association (INTERSPEECH), 2015 |