Tīmeklis2007  Meklēt korpusā Vārdu biežuma saraksts

Latviešu valodas tīmekļa korpuss

Korpusā ir ap 700 000 tīmekļa lapu, kas publicētas pirms 2005. gada. Teikumi, kas atkārtojas, nav iekļauti korpusā.

Publikācija, uz kuru atsaukties:
J. Dzerins and K. Dzonsons
Harvesting national language text corpora from the Web
Proceedings of the 3rd Baltic Conference on Human Language Technologies (Baltic HLT), 2007
Korpusa apjoms 99 milj. vārdlietojumu (123 milj. tekstvienību)
Izstrādes periods 2006–2007
Izstrādātājs Latvijas Universitātes Matemātikas un informātikas institūts
Finansējuma avots VPP "Semantiskā tīmekļa izpēte, attīstīšana un piemērošana Latvijas vajadzībām"
CLARIN http://hdl.handle.net/20.500.12574/46