Kas ir korpuss?

Valodas korpuss ir strukturēts tekstu un/vai atšifrētu runas ierakstu krājums, kas paredzēts lingvistiskai analīzei. Parasti valodas korpusā tiek iekļauti autentiski, iepriekš publicēti teksti, kas atspoguļo valodas reālo lietojumu.

Lai ātri un precīzi strādātu ar korpusu un atrastu tajā nepieciešamos vārdus vai vārdu savienojumus kontekstā, to biežumu un citu informāciju, ir nepieciešama īpaša korpusa platforma.

Kur izmanto korpusu?

Valodas korpusa izveide paver iespējas valodas pētniecībai ar mūsdienu metodēm un dažādu valodas resursu un rīku izstrādei, līdz ar to paaugstinot tās konkurētspēju pasaulē un nodrošinot labāku saglabāšanos nākotnē.

Korpusus izmanto valodas izpētē dažādos tās līmeņos: leksikogrāfijā, terminoloģijas izstrādē, valodas izpētē salīdzinošā aspektā, tulkošanas studijās, valodas apguvē, valodas tehnoloģiju izstrādē un citur.

LVK2018

2016–2018, 10 milj. vārdlietojumu

Līdzsvarotais mūsdienu latviešu valodas tekstu korpuss

LVK2013

2007–2013, 4,5 milj. vārdlietojumu

Līdzsvarotais mūsdienu latviešu valodas tekstu korpuss

MuLa

2011–2013, 1 milj. vārdlietojumu

Mūsdienu latgaliešu tekstu korpuss

Saeima

2013-, 21 milj. vārdlietojumu

Latvijas Republikas 5.–12. Saeimas sēžu stenogrammu korpuss

LiLa

2011–2013, 8 milj. vārdlietojumu

Lietuviešu-latviešu-lietuviešu paralēlo tekstu korpuss

Senie

2002–2015, 902 986 vārdlietojumu

Latviešu valodas seno tekstu korpuss SENIE

LaRKo

2014, 8 stundas

Latviešu valodas runas korpuss

Runas korpuss

2013, 100 stundas

Latviešu valodas runas atpazīšanas korpuss

LAMBA

2015–2017, 134 stundas (34 stundas ortogrāfiski marķētu audioierakstu)

Morfoloģiski marķēts longitudināls bērnu runas korpuss

UDLV

2016–, 2017 okt.: 3916 teikumu

Sintaktiski marķēts latviešu valodas UD korpuss