Kas ir korpuss?

Valodas korpuss ir strukturēts tekstu un/vai atšifrētu runas ierakstu krājums, kas paredzēts lingvistikai analīzei. Parasti valodas korpusā tiek iekļauti autentiski, iepriekš publicēti teksti, kas atspoguļo valodas reālo lietojumu.

Lai ātri un precīzi strādātu ar korpusu un atrastu tajā nepieciešamos vārdus vai vārdu savienojumus kontekstā, to biežumu un citu informāciju, ir nepieciešama īpaša korpusa platforma.

Kur izmanto korpusu?

Valodas korpusa izveide paver iespējas valodas pētniecībai ar mūsdienu metodēm un dažādu valodas resursu un rīku izstrādei, līdz ar to paaugstinot tās konkurētspēju pasaulē un nodrošinot labāku saglabāšanos nākotnē.

Korpusus izmanto valodas izpētē dažādos tās līmeņos: leksikogrāfijā, terminoloģijas izstrādē, valodas izpētē salīdzinošā aspektā, tulkošanās studijās, valodas apguvē, valodas tehnoloģiju izstrādē un citur.

LVK2018

2016–2018, 10 milj. vārdlietojumu

Līdzsvarotais mūsdienu latviešu valodas tekstu korpuss

Vairāk informācijas

LVK2013

2007–2013, 4,5 milj. vārdlietojumu

Līdzsvarotais mūsdienu latviešu valodas tekstu korpuss

Vairāk informācijas

MuLa

2011–2013, 1 milj. vārdlietojumu

Mūsdienu latgaliešu tekstu korpuss

Vairāk informācijas

Saeima

, 20822000 vārdlietojumu

Saeimas debašu korpuss // Latvijas Republikas 5.–13. Saeimas sēžu stenogrammu korpuss

Vairāk informācijas

LiLa

2011–2013, 8 milj. vārdlietojumu

Lietuviešu-latviešu-lietuviešu paralēlais tekstu korpuss

Vairāk informācijas

Senie

2002–2015, 902 986

Latviešu valodas seno tekstu korpuss SENIE

Vairāk informācijas

LaRKo

2014, apm. 8 stundas

Latviešu valodas runas korpuss

Vairāk informācijas

Runas korpuss

2013, apm. 100 stundas

Latviešu valodas runas atpazīšanas korpuss

Vairāk informācijas

LAMBA

2015–2017, 134 stundas (34 stundas ortogrāfiski marķētu audioierakstu)

Morfoloģiski marķēts longitudināls bērnu runas korpuss

Vairāk informācijas

LVTBUD

2016–, 2017 okt.: 3916 teikumu

Sintaktiski marķēts latviešu valodas UD korpuss

Vairāk informācijas