NKK | Korpuss.lv

teksta (30) runas (7) vispārīgs (11) specializēts (26) morfoloģija (31) sintakse (3) semantika (1) kļūdas (2) manuāli pārbaudīts (5) tīmekļa (2) apguvēju (2) literārs (4) paralēls (1) parlamentārs (1) diahronisks (2) periodika (5) reprezentatīvs (9) latgaliešu (3) emuāru (2)

LVK2022

Līdzsvarotais mūsdienu latviešu valodas tekstu korpuss

2019–2022, 101 milj. vārdlietojumu (123 milj. tekstvienību)

Izstrādātāji: LU MII

Vairāk informācijas Meklēt korpusā

MuLa2022

Mūsdienu latgaliešu tekstu korpuss 2022

2020–2022, 2 milj. vārdlietojumu (2,8 milj. tekstvienību)

Izstrādātāji: RTA, LU MII

Vairāk informācijas Meklēt korpusā

LaVA

Latviešu valodas apguvēju korpuss

2018–2021, 192 000 vārdlietojumu (241 000 tekstvienību)

Izstrādātāji: LU MII

Vairāk informācijas Meklēt korpusā

LVTB

Latviešu valodas sintaktiski marķētais korpuss

2010–2023, 18 295 teikumi (310 000 tekstvienību) (v2.13)

Izstrādātāji: LU MII

Vairāk informācijas Meklēt korpusā

BalsuTalka

Balsutalka.lv runas korpuss (Common Voice 16.1)

2024, 246 stundas (1,5 milj. tekstvienību)

Izstrādātāji: LU MII, LU LFMI, LATA

Vairāk informācijas Meklēt korpusā

Barometrs

Interneta agresivitātes indekss

2011–2022, 26 milj. komentāru (642 milj. tekstvienību)

Izstrādātāji: RSU, LU MII

Vairāk informācijas Meklēt korpusā

BolsuTolka

Bolsutolka.lv runas korpuss (Common Voice 16.1)

2024, 15 stundu (85 000 tekstvienību)

Izstrādātāji: RTA, LU MII, LU LFMI, LATA

Vairāk informācijas Meklēt korpusā

Cīņa

"Cīņa" (1904–1991)

2024, 185 milj. vārdlietojumu (231 milj. tekstvienību)

Izstrādātāji: LNB

Vairāk informācijas Meklēt korpusā

Disertācijas

Promocijas darbu korpuss

2022, 16,7 milj. vārdlietojumu (23,4 milj. tekstvienību)

Izstrādātāji: LU MII

Vairāk informācijas Meklēt korpusā

Emuāri

Latviešu valodas emuāru korpuss

2014–2015, 6,6 milj. vārdlietojumu (8 milj. tekstvienību)

Izstrādātāji: LU MII

Vairāk informācijas Meklēt korpusā

FullStack-LV

Daudzslāņu valodas resursu kopa

2017–2019, 13 691 teikums

Izstrādātāji: LU MII

Vairāk informācijas

Jaunatne

"Padomju Jaunatne" (1944–1989)

2024, 138 milj. vārdlietojumu (176 milj. tekstvienību)

Izstrādātāji: LNB

Vairāk informācijas Meklēt korpusā

Karogs

"Karogs" 1940–1995

2022, 48,7 milj. vārdu (62,1 milj. tekstvienību)

Izstrādātāji: LNB

Vairāk informācijas Meklēt korpusā

LAMBA

Morfoloģiski marķēts longitudināls bērnu runas korpuss

2015–2017, 34 stundas

Izstrādātāji: LU MII

Vairāk informācijas Meklēt korpusā

LaRKo

Latviešu valodas runas korpuss

2014, 8 stundas

Izstrādātāji: LU MII

Vairāk informācijas Meklēt korpusā

LatSenRom

Latviešu senākie romāni

2019–2022, 3.7 milj. vārdlietojumu (4,7 milj. tekstvienību)

Izstrādātāji: LNB, LU LFMI

Vairāk informācijas Meklēt korpusā

LAvīzes

"Latviešu Avīzes"

2022, 35,7 milj. vārlietojumu (46 milj. tekstvienību)

Izstrādātāji: LNB

Vairāk informācijas Meklēt korpusā

Likumi

Latvijas Republikas tiesību aktu korpuss

2022, 73,9 milj. vārdlietojumu (116,2 milj. tekstvienību)

Izstrādātāji: LU MII

Vairāk informācijas Meklēt korpusā

LiLa

Lietuviešu-latviešu-lietuviešu paralēlo tekstu korpuss

2011–2013, 8 milj. vārdlietojumu

Izstrādātāji: LU MII, VDU

Vairāk informācijas Meklēt korpusā

LitMāksla

"Literatūra un Māksla"

2022, 52,7 milj. vārdu (65,8 milj. tekstvienību)

Izstrādātāji: LNB

Vairāk informācijas Meklēt korpusā

LRK2013

Latviešu valodas runas atpazīšanas korpuss

2013, 100 stundas (1,1 milj. tekstvienību)

Izstrādātāji: LU MII, Tilde, LETA

Vairāk informācijas Meklēt korpusā

LVK2018

Līdzsvarotais mūsdienu latviešu valodas tekstu korpuss

2016–2018, 10 milj. vārdlietojumu (12 milj. tekstvienību)

Izstrādātāji: LU MII

Vairāk informācijas Meklēt korpusā

LVMED

Radioloģisko izmeklējumu transkripciju korpuss

2022, 35 stundas (157 000 tekstvienību)

Izstrādātāji: LU MII, RAKUS

Vairāk informācijas Meklēt korpusā

MuLa2012

Mūsdienu latgaliešu tekstu korpuss 2012

2011–2013, 1 milj. vārdlietojumu (1,3 milj. tekstvienību)

Izstrādātāji: LU MII, RTA

Vairāk informācijas Meklēt korpusā

PanDi

Pandēmijas dienasgrāmatas

2020–2022, 565 000 vārdlietojumu (709 000 tekstvienību)

Izstrādātāji: LU LFMI

Vairāk informācijas Meklēt korpusā

Pārspriedumi

Skolēnu pārspriedumu korpuss

2018–2021, 185 000 vārdlietojumu (226 000 tekstvienību)

Izstrādātāji: LU MII, LiepU, RTA

Vairāk informācijas Meklēt korpusā

Rainis

Raiņa darbu korpuss

2018, 1,6 milj. vārdlietojumu (2,3 milj. tekstvienību)

Izstrādātāji: LU MII

Vairāk informācijas Meklēt korpusā

Saeima

LR 5.–13. Saeimas sēžu stenogrammu korpuss

2013–2019, 20 milj. vārdlietojumu (24 milj. tekstvienību)

Izstrādātāji: LU MII, RSU

Vairāk informācijas Meklēt korpusā

Senie

Latviešu valodas seno tekstu korpuss

2002–.., 2 milj. vārdlietojumu (2,7 milj. tekstvienību)

Izstrādātāji: LU LaVI, LU MII, LU HZF

Vairāk informācijas Meklēt korpusā

Subtitri

Latvijas sabiedrisko mediju subtitru korpuss

2020–2022, 1200 stundu (10,8 milj. tekstvienību)

Izstrādātāji: LU MII

Vairāk informācijas Meklēt korpusā

Tīmeklis2007

Latviešu valodas tīmekļa korpuss

2006–2007, 99 milj. vārdlietojumu (123 milj. tekstvienību)

Izstrādātāji: LU MII

Vairāk informācijas Meklēt korpusā

Tīmeklis2020

Latviešu valodas tīmekļa korpuss

2020–2022, 403,6 milj. vārdlietojumu (492,6 milj. tekstvienību)

Izstrādātāji: LU MII

Vairāk informācijas Meklēt korpusā

UDLV-LVTB

Latviešu valodas universālo atkarību korpuss

2015–2023, 18 295 teikumi (310 000 tekstvienību) (v2.13)

Izstrādātāji: LU MII

Vairāk informācijas Meklēt korpusā

Vikipēdija

Vikipēdijas korpuss

2022, 17,9 milj. vārdlietojumu (27,7 milj. tekstvienību)

Izstrādātāji: LU MII

Vairāk informācijas Meklēt korpusā

VVPP

Valsts valodas prasmes pārbaudes darbu korpuss

2017–2018, 150 000 tekstvienību

Izstrādātāji: LU MII

Vairāk informācijas

Ziņas

Latvijas ziņu portālu raksti

2022, 357,2 milj. vārdlietojumu (513,5 milj. tekstvienību)

Izstrādātāji: LU MII

Vairāk informācijas Meklēt korpusā

ĪsprozaS

Sieviešu īsproza

2020–2022, 925 000 vārdlietojumu (1,2 milj. tekstvienību)

Izstrādātāji: LU LFMI

Vairāk informācijas Meklēt korpusā

B. Saulīte, R. Darģis, N. Grūzītis, I. Auziņa, K. Levāne-Petrova, L. Pretkalniņa, L. Rituma, P. Paikens, A. Znotiņš, L. Strankale, K. Pokratniece, I. Poikāns, G. Bārzdiņš, I. Skadiņa, A. Baklāne, V. Saulespurēns, J. Ziediņš.
Latvian National Corpora Collection – Korpuss.lv
Proceedings of the 13th Language Resources and Evaluation Conference (LREC), 2022, pp. 5123–5129

PDF BibTeX