Populārākie korpusi

LVK2018

Līdzsvarotais mūsdienu latviešu valodas tekstu korpuss

2016–2018, 10 milj. vārdlietojumu (12 milj. tekstvienību)

MuLa

Mūsdienu latgaliešu tekstu korpuss

2011–2013, 1 milj. vārdlietojumu (1,3 milj. tekstvienību)

LaVA

Latviešu valodas apguvēju korpuss

2018–2021, 192 000 vārdlietojumi (241 000 tekstvienību)

LVTB

Latviešu valodas sintaktiski marķētais korpuss

2010-2019, 13 643 teikumi (220 116 tekstvienību) (v2.5)

Citi korpusi

Barometrs

Interneta agresivitātes indekss

2011–.., 25,2 milj. komentāru (620 milj. tekstvienību) (2021)

Emuāri

Latviešu valodas emuāru korpuss

2014–2015, 6,6 milj. vārdlietojumu (8 milj. tekstvienību)

FullStack-LV

Daudzslāņu valodas resursu kopa

2017–2019, 12 691 teikums

ITKC

Latviešu valodas runas atpazīšanas korpuss

2013, 100 stundas

LAMBA

Morfoloģiski marķēts longitudināls bērnu runas korpuss

2015–2017, 134 stundas, t.sk. ortogrāfiski marķētas 34 stundas

LVK2013

Līdzsvarotais mūsdienu latviešu valodas tekstu korpuss

2007–2013, 4,5 milj. vārdlietojumu (5,5 milj. tekstvienību)

LaRKo

Latviešu valodas runas korpuss

2014, 8 stundas

LiLa

Lietuviešu-latviešu-lietuviešu paralēlo tekstu korpuss

2011–2013, 8 milj. vārdlietojumu

Pārspriedumi

Skolēnu pārspriedumu korpuss

2018–2021, 185 000 vārdlietojumu (226 000 tekstvienību)

Rainis

Raiņa darbu korpuss

2018, 1,6 milj. vārdlietojumu (2,3 milj. tekstvienību)

Saeima

LR 5.–12. Saeimas sēžu stenogrammu korpuss

2013–2018, 21 milj. vārdlietojumu (24 milj. tekstvienību)

Senie

Latviešu valodas seno tekstu korpuss

2002–.., 1,1 milj. vārdlietojumu

Tīmeklis 2007

Latviešu valodas tīmekļa korpuss

2006–2007, 99 milj. vārdlietojumu (123 milj. tekstvienību)

UDLV

Latviešu valodas universālo atkarību korpuss

2015-2019, 13 643 teikumi (220 536 tekstvienības) (v2.5)

VVPP

Valsts valodas prasmes pārbaudes darbu korpuss

2017–2018, 150 000 tekstvienību