Corpus (corpora) — latinsko 'telo': pomen, vrste in rabe

Razlaga izraza "corpus/corpora" — latinsko "telo": pomen, glavne vrste in praktične rabe v jezikoslovju, pravu, medicini ter drugih področjih.

Avtor: Leandro Alegsa Ustvarjeno: 05. april 2022 Posodobljeno: 03. november 2025

Corpus (množina corpora) latinsko pomeni telo. Lahko pomeni:

Pomeni in osnovne razlage

splošno: fizikalno ali simbolno "telo" nečesa — nabor elementov, ki tvorijo enoto;
v humanistiki in književnosti: celota besedil ali delov besedil, ki tvorijo "telo" del avtorja, zvrsti ali obdobja (npr. corpus dela nekega avtorja);
v jezikoslovju in računalništvu: urejena zbirka besedil ali govornih posnetkov, namenjena analizi — tekstovni ali zvočni korpus;
v medicini in anatomiji: del telesa ali anatomska struktura, kjer se beseda pojavlja v strokovnih izrazih (npr. corpus callosum, corpus luteum);
v pravu: izraz se uporablja v nekaterih latinskih frazah (npr. corpus delicti — telesni dokazi kaznivega dejanja, v širšem smislu pa "bistvo kaznivega dejanja").

Corpus v jezikoslovju — kaj je in zakaj je pomemben

V jezikoslovju izraz corpus pomeni natančno zbrano in pogosto digitalno shranjeno množico jezikovnega gradiva, ki je namenjena opazovanju rabe jezika. Tak korpus je lahko:

pisni (članki, knjige, spletne strani, e-pošta);
govorni (posnetki in njihovi prepiski);
multimodalni (besedilo + slika/avdio/video);
parallelni ali prevodni (isti vsebinski enoti v dveh ali več jezikih);
specializirani (strokovni korpus, jezik učencev, zgodovinski korpus ipd.).

Tak korpus omogoča empirične raziskave: študij frekvence besed, kolokacij, slovničnih vzorcev, pomenov v rabi, sprememb jezika skozi čas in še več. V NLP (naravnem procesiranju jezika) so veliki korpusi osnova za učenje statističnih in nevronskih modelov.

Vrste korpusov

Monolingvalni — gradivo v enem jeziku;
Večjezični / parallelni — poravnani prevodi istih besedil za strojno prevajanje;
Comparable — besedila iz različnih jezikov o podobnih temah, niso nujno prevodi;
Annotated (označeni) korpusi — z dodatnimi plastmi informacij: tokenizacija, lematizacija, oznake delov govora (POS), sintaktična drevesa, semantične oznake;
Historical — gradivo iz določene zgodovinske dobe za jezikovno diahrono analizo;
Learner corpora — besedila jezika, ki ga ustvarjajo učenci, za raziskave napak in poučevanja jezika.

Kako se korpus gradi in obdeluje

zbiranje virov (skeniranje, prenos s spleta, snemanje govora);
čiščenje in normalizacija (odstranjevanje napak, kodiranje znakov);
transkripcija govora (po dogovorjenih pravilih);
annotacija (ročno ali avtomatsko dodajanje oznak: leme, POS, sintaksa, semantika);
shranjevanje v standardnih formatih (TEI XML, CoNLL, JSON, CSV) z ustreznimi metapodatki (vir, datum, žanr, avtorska pravica, država, starost govorca ipd.).

Uporaba korpusov

jezikoslovne raziskave (frequentne fraze, kolokacije, spremembe rabe);
slovaropisje — korpusi omogočajo opredelitev pomena in rabe besed;
razvoj in treniranje jezikovnih modelov v NLP (prevedba, prepoznavanje govora, analiza sentimenta);
poučevanje jezika — izbira avtentčnih besedil, prilagoditev učnih gradiv;
forenzična lingvistika — primerjava pisnih vzorcev ali govornih značilnosti;
digitalne humanistike in analiziranje velikih zbirk besedil (npr. študije o temah, omrežja pojmov);
klinika in medicina — korpusi govora pomagajo pri diagnosticiranju motenj govora;
računalniška leksikografija in razvoj jezikovnih virov za manjše jezike.

Tehnična orodja in viri

Običajna orodja in platforme za delo s korpusi vključujejo:

iskalne in konkordančne programe (npr. AntConc, Sketch Engine);
knjižnice za obdelavo jezika (NLTK, spaCy, Stanford NLP);
platforme za shranjevanje in dostop (CLARIN, nacionalne jezikovne infrastrukture);
standardni formati za izmenjavo (TEI za humanistično gradivo, CoNLL za sintaktične oznake, JSON/CSV za preproste zbirke).

Pravni in etični vidiki

Pri gradnji in uporabi korpusov je treba upoštevati:

avtorske pravice in licenciranje — ali je gradivo v javni domeni ali zahteva dovoljenje;
varstvo osebnih podatkov — anonimizacija govorcev, privolitev za snemanje;
etika raziskovanja — transparentnost pri označevanju podatkov in uporabi rezultatov.

Primeri znanih korpusov

British National Corpus (BNC) — referenčni korpus sodobne britanske angleščine;
COCA (Corpus of Contemporary American English) — velik korpus ameriške angleščine;
število nacionalnih in strokovnih korpusov za posamezne jezike — za slovenščino so dobro znani primeri FidaPlus in Gigafida (referenčni korpusi sodobne slovenščine), pa tudi specializirani korpusi v akademskem okolju.

Kratek povzetek

Corpus (množina corpora) je vsestranski pojem: od pomena "telo" v latinskem izvoru, do tehničnega pomena zbirke jezikovnih podatkov v sodobnih znanostih in tehnologijah. Koristi od natančne zgradbe, velikosti in kakovosti korpusa so velike — omogočajo empirične vpoglede v rabo jezika, podpirajo razvoj jezikovnih tehnologij in pomagajo v številnih humanističnih, družboslovnih in tehničnih disciplinah.

Sorodni članki

Avtor

AlegsaOnline.com Corpus (corpora) — latinsko 'telo': pomen, vrste in rabe Leandro Alegsa

URL: https://sl.alegsaonline.com/art/23226

Kako citirati ta članek

APA

Alegsa, L. (03. november 2025). Corpus (corpora) — latinsko 'telo': pomen, vrste in rabe. AlegsaOnline.com. https://sl.alegsaonline.com/art/23226

MLA

Alegsa, Leandro. “Corpus (corpora) — latinsko 'telo': pomen, vrste in rabe.” AlegsaOnline.com, 03. november 2025, https://sl.alegsaonline.com/art/23226.

Chicago

Alegsa, Leandro. “Corpus (corpora) — latinsko 'telo': pomen, vrste in rabe.” AlegsaOnline.com. Posodobljeno 03. november 2025. https://sl.alegsaonline.com/art/23226.

BibTeX

@misc{alegsaonline_23226,
  author = {Alegsa, Leandro},
  title = {Corpus (corpora) — latinsko 'telo': pomen, vrste in rabe},
  year = {2025},
  howpublished = {AlegsaOnline.com},
  url = {https://sl.alegsaonline.com/art/23226},
  note = {Posodobljeno: 03. november 2025; Language: sl}
}

TXT

Leandro Alegsa. “Corpus (corpora) — latinsko 'telo': pomen, vrste in rabe.” AlegsaOnline.com. Posodobljeno: 03. november 2025. https://sl.alegsaonline.com/art/23226