Kas ir korpuss?

Valodas korpuss ir strukturēts tekstu vai atšifrētu runas ierakstu kopums, kas paredzēts lingvistiskai analīzei un valodas tehnoloģiju izstrādei. Korpusa dati bieži satur morfoloģisku, sintaktisku, semantisku vai cita veida marķējumu. Valodas korpusā tiek iekļauts autentisks valodas materiāls, kas atspoguļo valodas reālo lietojumu.

Lai efektīvi strādātu ar korpusu un atrastu tajā nepieciešamos valodas lietojuma piemērus, to biežumu un citu informāciju, ir nepieciešama specializēta korpusa vaicājumu platforma.

Kur izmanto korpusu?

Valodas korpusi paver jaunas iespējas mūsdienīgai valodas pētniecībai un dažādu valodas analīzes rīku izstrādei.

Korpusus izmanto valodas izpētē dažādos tās līmeņos - leksikogrāfijā un terminoloģijā, gramatikas un semantikas pētījumos, valodas izpētē salīdzinošā aspektā, tulkošanas studijās, valodas apguvē -, valodas tehnoloģiju izstrādē un citur.

LVK2018

2016–2018, 10 milj. vārdlietojumu

Līdzsvarotais mūsdienu latviešu valodas tekstu korpuss

LVK2013

2007–2013, 4,5 milj. vārdlietojumu

Līdzsvarotais mūsdienu latviešu valodas tekstu korpuss

LVTB

2010-2019, 13 090 teikumi (v2.4)

Latviešu valodas sintaktiski marķētais korpuss

UDLV

2015-2019, 9920 teikumu (v2.3)

Latviešu valodas universālo atkarību (UD) korpuss

LaRKo

2014, 8 stundas

Latviešu valodas runas korpuss

Runas korpuss

2013, 100 stundas

Latviešu valodas runas atpazīšanas korpuss

LAMBA

2015–2017, 134 stundas (34 stundas ortogrāfiski marķētu audioierakstu)

Morfoloģiski marķēts longitudināls bērnu runas korpuss

Saeima

2013-, 21 milj. vārdlietojumu

Latvijas Republikas 5.–12. Saeimas sēžu stenogrammu korpuss

LiLa

2011–2013, 8 milj. vārdlietojumu

Lietuviešu-latviešu-lietuviešu paralēlo tekstu korpuss

MuLa

2011–2013, 1 milj. vārdlietojumu

Mūsdienu latgaliešu tekstu korpuss

Senie

2002–2015, 902 986 vārdlietojumu

Latviešu valodas seno tekstu korpuss SENIE

Emuāri

2014-2015, 8 mlj. vārdlietojumu

Latviešu valodas emuāru korpuss