Līdzsvarots mūsdienu latviešu valodas tekstu korpuss


Izmantošana

      

Sadalījums

  • Korpuss ir indeksēts, izmantojot korpusu pārvaldības platformu Manatee.
  • Vaicājumiem korpusā izmantojiet pārlūkprogrammu Bonito.
  • Servera adrese: manatee.ailab.lv
  • Ja lietojat kādu no Bonito iepriekšējām versijām un neizdodas pieslēgties serverim,
    ir jāmaina pieslēgšanās parametri.
  • Publiskā autorizācija: lietotājs demo, parole korpuss.
  • Uzstādīšanas un lietošanas instrukcija ar piemēriem un ekrānskatiem.
  • Korpusu atļauts izmantot tikai pētnieciskos un mācību nolūkos.
  • Jautājumiem un komentāriem: korpuss @ ailab punkts lv
 

Korpusa apjoms: ~4,5 milj. vārdlietojumu

Korpuss ir līdzsvarots atbilstoši Latviešu valodas korpusa koncepcijai:

  • 55% periodika
  • 20% daiļliteratūra
  • 10% zinātniski teksti
  • 8% normatīvie akti
  • 5% citi teksti
  • 2% Saeimas stenogrammas

Sīkāka statistika pieejama šeit.

Levāne-Petrova K. Līdzsvarots mūsdienu latviešu valodas tekstu korpuss un tā tekstu atlases kritēriji. Baltistica VIII priedas, Vilnius, 2012, 89.-98. lpp.

Pielikumi

   

Papildus līdzsvarotajam korpusam, izmantojot Bonito, ir pieejami arī šādi korpusi:

  • Līdzsvarotajam mūsdienu latviešu valodas tekstu korpusam ir pieejama arī morfoloģiski marķēta versija. Marķēšana ir veikta 100% automātiski, izmantojot SemTi-Kamols gramatiskā analizatora uzlabotu versiju. Morfoloģiski daudznozīmīgajām formām, atšķirībā no tīmekļa korpusa, ir saglabāti visi analīzes varianti, līdz ar to meklēšanas šabloni ir jāuzdod specifiskā formā (sk. lietošanas instrukciju).
  • Latvijas Republikas 5.-9. Saeimas sēžu stenogrammas ar metadatiem. Korpuss sagatavots CLARIN ietvaros.
  • Latviešu valodas tīmekļa korpuss - ar SemTi-Kamols gramatisko analizatoru 100% automātiski marķēti tekstu fragmenti no Latvijas meklētāja savāktajām tīmekļa lapām. Apjomīgais analīzes process tika īstenots BalticGrid infrastruktūrā.
  • P. Bankovskis, "Plāns ledus" (Rīga: Jumava, 1998), pirmā nodaļa - ar VKKF atbalstu morfoloģiski marķēts paraugkorpuss, kurā var veikt vaicājumus, balstoties uz morfoloģisko pazīmju šabloniem.
  • Mūsdienu latgaliešu tekstu korpuss (MuLa). Izstrādāts Latvijas Lietuvas pārrobežu sadarbības programmas 2007.-2013.gadam atbalstītā projekta "Humanitārās izglītības pētniecības infrastruktūras izveide Austrumlatvijā, Lietuvā" (HipiLatLit) ietvaros.

Sintaktiski un semantiski marķēti korpusi:

Citi korpusi:

Digitālās bibliotēkas:

Skaidrojošās vārdnīcas:


                     

© LU Matemātikas un informātikas institūts, 2007 - 2013