Korpusi ar birku teksta (16)

LVK2018

Līdzsvarotais mūsdienu latviešu valodas tekstu korpuss

2016–2018, 10 milj. vārdlietojumu (12 milj. tekstvienību)

LVK2013

Līdzsvarotais mūsdienu latviešu valodas tekstu korpuss

2007–2013, 4,5 milj. vārdlietojumu (5,5 milj. tekstvienību)

LVTB

Latviešu valodas sintaktiski marķētais korpuss

2010-2019, 13 643 teikumi (220 116 tekstvienību) (v2.5)

UDLV

Latviešu valodas universālo atkarību korpuss

2015-2019, 13 643 teikumi (220 536 tekstvienības) (v2.5)

FullStack-LV

Daudzslāņu valodas resursu kopa

2017–2019, 12 691 teikums

LiLa

Lietuviešu-latviešu-lietuviešu paralēlo tekstu korpuss

2011–2013, 8 milj. vārdlietojumu

MuLa

Mūsdienu latgaliešu tekstu korpuss

2011–2013, 1 milj. vārdlietojumu (1,3 milj. tekstvienību)

LaVA

Latviešu valodas apguvēju korpuss

2018–2021, 192 000 vārdlietojumi (241 000 tekstvienību)

VVPP

Valsts valodas prasmes pārbaudes darbu korpuss

2017–2018, 150 000 tekstvienību

Pārspriedumi

Skolēnu pārspriedumu korpuss

2018–2021, 185 000 vārdlietojumu (226 000 tekstvienību)

Saeima

LR 5.–12. Saeimas sēžu stenogrammu korpuss

2013–2018, 21 milj. vārdlietojumu (24 milj. tekstvienību)

Senie

Latviešu valodas seno tekstu korpuss

2002–.., 1,1 milj. vārdlietojumu

Rainis

Raiņa darbu korpuss

2018, 1,6 milj. vārdlietojumu (2,3 milj. tekstvienību)

Emuāri

Latviešu valodas emuāru korpuss

2014–2015, 6,6 milj. vārdlietojumu (8 milj. tekstvienību)

Barometrs

Interneta agresivitātes indekss

2011–.., 25,2 milj. komentāru (620 milj. tekstvienību) (2021)

Tīmeklis 2007

Latviešu valodas tīmekļa korpuss

2006–2007, 99 milj. vārdlietojumu (123 milj. tekstvienību)