Populārākie korpusi

LVK2018

Līdzsvarotais mūsdienu latviešu valodas tekstu korpuss

2016–2018, 10 milj. vārdlietojumu (12 milj. tekstvienību)
Izstrādātāji: LU MII

MuLa

Mūsdienu latgaliešu tekstu korpuss

2011–2013, 1 milj. vārdlietojumu (1,3 milj. tekstvienību)
Izstrādātāji: LU MII, Rēzeknes Tehnoloģiju akadēmija

LaVA

Latviešu valodas apguvēju korpuss

2018–2021, 192 000 vārdlietojumi (241 000 tekstvienību)
Izstrādātāji: LU MII

LVTB

Latviešu valodas sintaktiski marķētais korpuss

2010-2021, 15 984 teikumi (265 722 tekstvienības) (v2.9)
Izstrādātāji: LU MII

Citi korpusi

Barometrs

Interneta agresivitātes indekss

2011–.., 25,2 milj. komentāru (620 milj. tekstvienību) (2021)
Izstrādātāji: LU MII, Rīgas Stradiņa universitāte

Emuāri

Latviešu valodas emuāru korpuss

2014–2015, 6,6 milj. vārdlietojumu (8 milj. tekstvienību)
Izstrādātāji: LU MII

FullStack-LV

Daudzslāņu valodas resursu kopa

2017–2019, 13 691 teikums
Izstrādātāji: LU MII

LAMBA

Morfoloģiski marķēts longitudināls bērnu runas korpuss

2015–2017, 134 stundas, t.sk. ortogrāfiski marķētas 34 stundas
Izstrādātāji: LU MII

LRK100

Latviešu valodas runas atpazīšanas korpuss

2013, 100 stundas
Izstrādātāji: LU MII, Tilde, LETA

LVK2013

Līdzsvarotais mūsdienu latviešu valodas tekstu korpuss

2007–2013, 4,5 milj. vārdlietojumu (5,5 milj. tekstvienību)
Izstrādātāji: LU MII

LaRKo

Latviešu valodas runas korpuss

2014, 8 stundas
Izstrādātāji: LU MII

LiLa

Lietuviešu-latviešu-lietuviešu paralēlo tekstu korpuss

2011–2013, 8 milj. vārdlietojumu
Izstrādātāji: LU MII, Vītauta Dižā Universitāte

Pārspriedumi

Skolēnu pārspriedumu korpuss

2018–2021, 185 000 vārdlietojumu (226 000 tekstvienību)
Izstrādātāji: LU MII, Liepājas Universitāte, Rēzeknes Tehnoloģiju akadēmija

Rainis

Raiņa darbu korpuss

2018, 1,6 milj. vārdlietojumu (2,3 milj. tekstvienību)
Izstrādātāji: LU MII

Saeima

LR 5.–12. Saeimas sēžu stenogrammu korpuss

2013–2018, 21 milj. vārdlietojumu (24 milj. tekstvienību)
Izstrādātāji: LU MII, Rīgas Stradiņa universitāte

Senie

Latviešu valodas seno tekstu korpuss

2002–.., 2 milj. vārdlietojumu (2,7 milj. tekstvienību)
Izstrādātāji: LU MII, LU LaVI, LU HZF

Subtitri

Latvijas sabiedrisko mediju subtitru korpuss

2020-2022, 5,5 miljoni vārdlietojumu (10,8 miljoni tekstvienību)
Izstrādātāji: LU MII

Tīmeklis2007

Latviešu valodas tīmekļa korpuss

2006–2007, 99 milj. vārdlietojumu (123 milj. tekstvienību)
Izstrādātāji: LU MII

UDLV

Latviešu valodas universālo atkarību korpuss

2015-2021, 15 984 teikumi (265 722 tekstvienības) (v2.9)
Izstrādātāji: LU MII

VVPP

Valsts valodas prasmes pārbaudes darbu korpuss

2017–2018, 150 000 tekstvienību
Izstrādātāji: LU MII