Kas ir korpuss?

Valodas korpuss ir strukturēts tekstu vai atšifrētu runas ierakstu kopums, kas paredzēts lingvistiskai analīzei un valodas tehnoloģiju izstrādei. Korpusa dati bieži satur strukturālu, morfoloģisku, sintaktisku, semantisku vai cita veida marķējumu. Valodas korpusā tiek iekļauts autentisks valodas materiāls, kas atspoguļo valodas reālo lietojumu.

Lai efektīvi strādātu ar korpusu un atrastu tajā nepieciešamos valodas lietojuma piemērus, to biežumu un citu informāciju, ir nepieciešama specializēta korpusa vaicājumu platforma.

Kur izmanto korpusus?

Valodas korpusi paver jaunas iespējas mūsdienīgai valodas pētniecībai un dažādu valodas analīzes rīku izstrādei.

Korpusus izmanto valodas izpētē dažādos tās līmeņos – leksikogrāfijā un terminoloģijā, gramatikas un semantikas pētījumos, valodas izpētē salīdzinošā aspektā, tulkošanas studijās, valodas apguvē –, valodas tehnoloģiju izstrādē un citur.