Tīmeklis 2020  Meklēt korpusā

Latviešu valodas tīmekļa korpuss

Korpuss tapis projektā CommonCrawl: 2013.-2020. gadā savāktas tīmekļa lapas, no kurām atlasītas lapas latviešu valodā.Teksti ir automātiski morfoloģiski marķēti, morfoloģiski daudznozīmīgajām formām paturēts viens, ticamākais, analīzes variants. Korpusā parādās teikumi, kas atkārtojas dažādās tīmekļa adresēs.

Korpusa apjoms 4,5 miljardi vārdlietojumu
Izstrādes periods 2020–2021
Izstrādātājs LU MII
Finansējuma avots VPP DH