Kas ir korpuss?

Valodas korpuss ir strukturēts tekstu vai atšifrētu runas ierakstu kopums, kas paredzēts lingvistiskai analīzei un valodas tehnoloģiju izstrādei. Korpusa dati bieži satur strukturālu, morfoloģisku, sintaktisku, semantisku vai cita veida marķējumu. Valodas korpusā tiek iekļauts autentisks valodas materiāls, kas atspoguļo valodas reālo lietojumu.

Lai efektīvi strādātu ar korpusu un atrastu tajā nepieciešamos valodas lietojuma piemērus, to biežumu un citu informāciju, ir nepieciešama specializēta korpusa vaicājumu platforma.

Kur izmanto korpusus?

Valodas korpusi paver jaunas iespējas mūsdienīgai valodas pētniecībai un dažādu valodas analīzes rīku izstrādei.

Korpusus izmanto valodas izpētē dažādos tās līmeņos – leksikogrāfijā un terminoloģijā, gramatikas un semantikas pētījumos, valodas izpētē salīdzinošā aspektā, tulkošanas studijās, valodas apguvē –, valodas tehnoloģiju izstrādē un citur.

LVK2018

2016–2018, 10 milj. vārdlietojumu

Līdzsvarotais mūsdienu latviešu valodas tekstu korpuss

LVK2013

2007–2013, 4,5 milj. vārdlietojumu

Līdzsvarotais mūsdienu latviešu valodas tekstu korpuss

LVTB

2010-2019, 13 643 teikumi (v2.5)

Latviešu valodas sintaktiski marķētais korpuss

UDLV

2015-2019, 13 643 teikumi (v2.5)

Latviešu valodas universālo atkarību korpuss

FullStack

2017-2019, 12 691 teikums

Daudzslāņu valodas resursu kopa

LAMBA

2015–2017, 134 stundas, t.sk. ortogrāfiski marķētas 34 stundas

Morfoloģiski marķēts longitudināls bērnu runas korpuss

ITKC

2013, 100 stundas

Latviešu valodas runas atpazīšanas korpuss

LaRKo

2014, 8 stundas

Latviešu valodas runas korpuss

LiLa

2011–2013, 8 milj. vārdlietojumu

Lietuviešu-latviešu-lietuviešu paralēlo tekstu korpuss

MuLa

2011–2013, 1 milj. vārdlietojumu

Mūsdienu latgaliešu tekstu korpuss

LaVA

2018–2021, 100 000 vārdlietojumu (plānotais apjoms)

Latviešu valodas apguvēju korpuss

VVPP

2017–2018, 146 806 tekstvienības

Valsts valodas prasmes pārbaudes darbu korpuss

Pārspriedumi

2018–2021, 468 pārspriedumi

Skolēnu pārspriedumu korpuss

Saeima

2013–2018, 21 milj. vārdlietojumu

LR 5.–12. Saeimas sēžu stenogrammu korpuss

Senie

2002–2018, 1,1 milj. vārdlietojumu

Latviešu valodas seno tekstu korpuss

Rainis

2018, 1,6 milj. vārdlietojumu

Raiņa darbu korpuss

Emuāri

2014–2015, 8 milj. vārdlietojumu

Latviešu valodas emuāru korpuss

Barometrs

2011–2014, 19,8 milj. komentāru

Interneta agresivitātes indekss