Līdzsvarots 3,5 miljonus vārdlietojumu liels
mūsdienu latviešu valodas tekstu korpuss


Izmantošana

      

Sadalījums

  • Korpuss ir indeksēts, izmantojot korpusu pārvaldības platformu Manatee.
  • Vaicājumiem korpusā izmantojiet pārlūkprogrammu Bonito.
  • Servera adrese: manatee.ailab.lv
  • Uzmanību! Ja lietojat kādu no Bonito iepriekšējām versijām un vairs neizdodas pieslēgties korpusa serverim, ir jāmaina pieslēgšanās parametri.
  • Publiskā autorizācija: lietotājs demo, parole korpuss.
  • Uzstādīšanas un lietošanas instrukcija ar piemēriem un ekrānskatiem.
  • Korpusu atļauts izmantot tikai pētnieciskos un mācību nolūkos.
  • Korpusa statuss: versija 2.0  
  • Jautājumiem un komentāriem: korpuss @ ailab punkts lv
 

Korpuss ir līdzsvarots atbilstoši Latviešu valodas korpusa koncepcijai:


Sīkāka statistika...

Pielikumi

   

Papildus līdzsvarotajam korpusam, izmantojot Bonito, ir pieejami arī šādi korpusi:

  • P. Bankovskis, "Plāns ledus" (Rīga: Jumava, 1998), pirmā nodaļa - ar VKKF atbalstu morfoloģiski marķēts paraugkorpuss, kurā var veikt vaicājumus, balstoties uz morfoloģisko pazīmju šabloniem.
  • Latviešu valodas tīmekļa korpuss - ar SemTi-Kamols gramatisko analizatoru 100% automātiski marķēti tekstu fragmenti no Latvijas meklētāja savāktajām tīmekļa lapām. Apjomīgais analīzes process tika īstenots BalticGrid infrastruktūrā.
  • Latvijas Republikas 5.-9. Saeimas sēžu stenogrammas ar metadatiem. Korpuss sagatavots CLARIN ietvaros. Pieejama uzlabota un papildināta versija.  
  • Līdzsvarotajam mūsdienu latviešu valodas tekstu korpusam tagad ir pieejama arī morfoloģiski marķēta versija. Marķēšana ir veikta 100% automātiski, izmantojot SemTi-Kamols gramatiskā analizatora uzlabotu versiju. Morfoloģiski daudznozīmīgajām formām, atšķirībā no tīmekļa korpusa, ir saglabāti visi analīzes varianti, līdz ar to meklēšanas šabloni ir jāuzdod specifiskā formā (sk. lietošanas instrukciju).  

Citi korpusi un digitālās bibliotēkas:

Skaidrojošās vārdnīcas:


                  

© LU Matemātikas un informātikas institūts, 2007 - 2010