Korpusi ar birku morfoloģija (13)

LVK2018

Līdzsvarotais mūsdienu latviešu valodas tekstu korpuss

2016–2018, 10 milj. vārdlietojumu (12 milj. tekstvienību)

LVK2013

Līdzsvarotais mūsdienu latviešu valodas tekstu korpuss

2007–2013, 4,5 milj. vārdlietojumu (5,5 milj. tekstvienību)

LVTB

Latviešu valodas sintaktiski marķētais korpuss

2010-2019, 13 643 teikumi (220 116 tekstvienību) (v2.5)

UDLV

Latviešu valodas universālo atkarību korpuss

2015-2019, 13 643 teikumi (220 536 tekstvienības) (v2.5)

FullStack-LV

Daudzslāņu valodas resursu kopa

2017–2019, 12 691 teikums

LAMBA

Morfoloģiski marķēts longitudināls bērnu runas korpuss

2015–2017, 134 stundas, t.sk. ortogrāfiski marķētas 34 stundas

LaVA

Latviešu valodas apguvēju korpuss

2018–2021, 192 000 vārdlietojumi (241 000 tekstvienību)

VVPP

Valsts valodas prasmes pārbaudes darbu korpuss

2017–2018, 150 000 tekstvienību

Pārspriedumi

Skolēnu pārspriedumu korpuss

2018–2021, 185 000 vārdlietojumu (226 000 tekstvienību)

Saeima

LR 5.–12. Saeimas sēžu stenogrammu korpuss

2013–2018, 21 milj. vārdlietojumu (24 milj. tekstvienību)

Rainis

Raiņa darbu korpuss

2018, 1,6 milj. vārdlietojumu (2,3 milj. tekstvienību)

Emuāri

Latviešu valodas emuāru korpuss

2014–2015, 6,6 milj. vārdlietojumu (8 milj. tekstvienību)

Tīmeklis 2007

Latviešu valodas tīmekļa korpuss

2006–2007, 99 milj. vārdlietojumu (123 milj. tekstvienību)