Tīmeklis 2007  Meklēt korpusā

Latviešu valodas tīmekļa korpuss

Korpusā ir ap 700 000 tīmekļa lapu, kas publicētas pirms 2005. gada. Teksti ir automātiski morfoloģiski marķēti, morfoloģiski daudznozīmīgajām formām paturēts viens, ticamākais, analīzes variants. Teikumi, kas atkārtojas, nav iekļauti korpusā.

Korpusa apjoms 99 milj. vārdlietojumu (123 milj. tekstvienību)
Izstrādes periods 2006–2007
Izstrādātājs LU MII
Finansējuma avots VPP "Semantiskā tīmekļa izpēte, attīstīšana un piemērošana Latvijas vajadzībām" (SemTi-Kamols)