Populārākie korpusi

LVK2018

Līdzsvarotais mūsdienu latviešu valodas tekstu korpuss

2016–2018, 10 milj. vārdlietojumu

MuLa

Mūsdienu latgaliešu tekstu korpuss

2011–2013, 1 milj. vārdlietojumu

LaVA

Latviešu valodas apguvēju korpuss

2018–2021, 100 000 vārdlietojumu (plānotais apjoms)

LVTB

Latviešu valodas sintaktiski marķētais korpuss

2010-2019, 13 643 teikumi (220116 tekstvienību) (v2.5)

Citi korpusi

Barometrs

Interneta agresivitātes indekss

2011–.., > 25,20 milj. komentāru (2021) > 620 milj. tekstvienību (2021)

Emuāri

Latviešu valodas emuāru korpuss

2014–2015, 6,6 milj. vārdlietojumu (8 milj. tekstvienību)

FullStack

Daudzslāņu valodas resursu kopa

2017–2019, 12 691 teikums

ITKC

Latviešu valodas runas atpazīšanas korpuss

2013, 100 stundas

LAMBA

Morfoloģiski marķēts longitudināls bērnu runas korpuss

2015–2017, 134 stundas, t.sk. ortogrāfiski marķētas 34 stundas

LVK2013

Līdzsvarotais mūsdienu latviešu valodas tekstu korpuss

2007–2013, 4,5 milj. vārdlietojumu

LaRKo

Latviešu valodas runas korpuss

2014, 8 stundas

LiLa

Lietuviešu-latviešu-lietuviešu paralēlo tekstu korpuss

2011–2013, 8 milj. vārdlietojumu

Pārspriedumi

Skolēnu pārspriedumu korpuss

2018–2021, 468 pārspriedumi; apm. 185 000 vārdlietojumu

Rainis

Raiņa darbu korpuss

2018, 1,6 milj. vārdlietojumu

Saeima

LR 5.–12. Saeimas sēžu stenogrammu korpuss

2013–2018, 21 milj. vārdlietojumu

Senie

Latviešu valodas seno tekstu korpuss

2002–.., 1,1 milj. vārdlietojumu

Tīmeklis 2007

Latviešu valodas tīmekļa korpuss

2006–2007, 99 milj. vārdlietojumu (123 milj. tekstvienību)

Tīmeklis 2020

Latviešu valodas tīmekļa korpuss

2020–2021, 4,5 miljardi vārdlietojumu

UDLV

Latviešu valodas universālo atkarību korpuss

2015-2019, 13 643 teikumi (220536 tekstvienības) (v2.5)

VVPP

Valsts valodas prasmes pārbaudes darbu korpuss

2017–2018, 146 806 tekstvienības