Tīmeklis2020  Meklēt korpusā Vārdu biežuma saraksts

Latviešu valodas tīmekļa korpuss

Korpusā apkopotas 2013.–2020. gadā savāktās tīmekļa lapas latviešu valodā. Vērtējot vārdu lietojuma biežumu korpusā, jāņem vērā, ka no sākotnēji iegūtajiem datiem izņemtas dublējošās rindkopas. Korpuss tapis projektā CommonCrawl.

Korpusa apjoms 403,6 milj. vārdlietojumu (492,6 milj. tekstvienību)
Izstrādes periods 2020–2022
Izstrādātājs Latvijas Universitātes Matemātikas un informātikas institūts
Finansējuma avots VPP "Humanitāro zinātņu digitālie resursi" (VPP-IZM-DH-2020/1-0001)