Korpusová lingvistika

Tyto korpusová lingvistika je pole lingvistiky . V něm se získávají nové znalosti o jazyce obecně nebo o určitých jednotlivých jazycích nebo se kontrolují stávající hypotézy , přičemž kvantitativní nebo kvalitativní údaje, které jsou získány z analýzy speciálních textových korpusů nebo (méně často) korpusů mluveného jazyka, slouží jako základ . Korpusová lingvistika našla široké využití v německy mluvících zemích od druhé poloviny devadesátých let. Z epistemologického hlediska je proti generativismu . Stále je kontroverzní, zda je korpusová lingvistika metodou nebo novou vlastní lingvistikou.

Datový materiál a předmět výzkumu

Předmětem korpusové lingvistiky je jazyk v jeho různých projevech. Korpusová lingvistika se vyznačuje použitím autentických jazykových dat, která jsou dokumentována ve velkých korpusech. Tyto textové korpusy jsou sbírky lingvistických výroků, které jsou sestaveny podle konkrétních kritérií a se specifickým cílem výzkumu. Nálezy korpusové lingvistiky jsou tedy založeny na přirozených výrazech jazyka, tj. Na jazyce, jak je skutečně používán. Tyto výpovědi mohou být buď písemné, nebo mohou být spontánní nebo vyvolávat mluvený jazyk. Většina korpusů je nyní k dispozici v digitální podobě a lze je použít k lingvistickému výzkumu pomocí určitého softwaru.

Cílem korpusové lingvistiky je použít tato data buď ke kontrole (potvrzení nebo vyvrácení) stávajících lingvistických hypotéz, nebo k získání nových hypotéz a teorií o předmětu pomocí průzkumné datové analýzy. V prvním případě se hovoří o lingvistické analýze „na korpusu“ a ve druhém případě o lingvistické analýze „na korpusu“.

Korpusové jazykové problémy se týkají jak samotného lingvistického systému („ Langue “ podle Ferdinanda de Saussure nebo „ Kompetence “ podle Noama Chomského ), tak používání jazyka („Parole“ podle de Saussure nebo „Performance“ podle Chomsky). Korpusová lingvistika proto právě ruší dichotomický pohled na jazyk, který lingvistice dominuje .

Typická otázka týkající se jazykového systému je například:

  • Může být předehra k německé větě vyplněna vícekrát? Pokud ano, s jakými částmi věty? Existují pravidla, která mohou popsat možnosti obsazení více zástěr?

Mezi typické otázky týkající se používání jazyka patří:

  • Vyskytuje se v textech e-mailů více typografických chyb než v tradičních dopisech? Jaké typy chyb jsou charakteristické pro e -maily?
  • Jakých chyb se studenti němčiny (různých zdrojových jazyků) na určité úrovni dopouštějí obzvlášť často, vyhýbají se jim tito studenti některá slova nebo gramatické konstrukce?

V případě mnoha výzkumných otázek, na které se snaží korpusová lingvistika odpovědět, není možné jednoznačně rozhodnout, ke které z těchto dvou oblastí langue a parole má být přiřazen fenomén, například otázky:

  • Se kterými přídavnými jmény se podstatné jméno „vlasy“ obvykle objevuje společně?
  • Používají se částice častěji, méně často nebo jinak v mluveném jazyce než v psaném jazyce?

Protože na jedné straně lze distribuci adjektiv s „vlasy“ a modální částice vnímat jako fenomén určitého jazyka nebo - po srovnání s jinými jazyky - jako charakteristiku jazyka obecně, ale na straně druhé také to může být chápáno jako výsledek specifického jazykového využití.

(Práce Lemnitzer / Zinsmeister (2010) pro němčinu a McEnery / Xiao / Tono (2006) pro angličtinu nabízejí pohled na aspekty korpusového lingvistického výzkumu.)

Metodologické problémy

Významným metodologickým problémem korpusové lingvistiky je vztah mezi databází, tj. Korpusem, a zkoumaným objektem. Pokud by se jednalo o jazyk, který se používá dodnes, teoreticky by databáze mohla předmět zcela pokrýt. Korpus však nelze považovat za platný vzorek ve smyslu inferenční statistiky, protože předmět, ke kterému se vzorek vztahuje, nelze v praxi zaznamenat jako celek - tj. Určitý jazyk nebo určité jazykové použití. Dnes se člověk vyhne nazývání korpusu (jak bylo původně požadováno) „reprezentativního“ ve statistickém smyslu pro zkoumaný objekt a pouze považuje zjištění, která jsou získána na základě korpusů, za prozatímně věrohodná. Kompilace velkých korpusů by proto měla být „vyvážená“, tj. Skládat se z různých typů textu v určitém poměru.

Základní předpoklad korpusové lingvistiky, že znalosti o jazyce lze získat nebo ověřit na základě skutečných lingvistických výroků, s sebou přináší další dva metodologické problémy nebo námitky:

  1. Zavádějící pozitivní důkazy: Ve spontánních mluvených a dokonce i v pečlivě formulovaných písemných projevech mohou do určité míry docházet k odchylkám od jazykové normy. Při zkoumání korpusu může být v jednotlivých případech obtížné rozhodnout, zda (většinou malé) množství důkazů o určitém jazykovém jevu je výrazem skutečně existujícího systematického používání jazyka a podporuje tedy lingvistickou tezi, nebo zda tento důkaz je považováno za vymykající se z normy nebo nesprávné zobrazení jazyka.
  2. Negativní důkaz: Mnoho tvrzení o jazykových jevech nelze doložit ani ve velmi velkých korpusech, pokud je použití určitých jazykových konstrukcí velmi vzácné. Absence takto vyhledávané stavby v korpusu však nemusí nutně znamenat, že neexistuje nebo je negrammatická.

V prvním případě se lze pokusit podpořit výsledky získané analýzou korpusu paralelním průzkumem řečníka. V druhém případě pomáhá pouze šetření dalších údajů nebo v krajním případě také reproduktorový dotazník.

Korpusová lingvistika vs. generativní gramatika

Korpusová lingvistika je založena na používání přirozených jazyků. Je to induktivní / empirická metoda, jak získat znalosti o jazyce: Pozorování co nejvíce konkrétních individuálních příkladů vede k formulaci obecného tvrzení o objektu. Tento postup („od specifického k obecnému“) lze přiřadit k empirismu , který předpokládá, že veškeré znalosti jsou založeny na zkušenostech. Na rozdíl od toho je deduktivní metoda, která je odvozena z filozofické tradice racionalismu : počínaje úvahou o tom, jaký je určitý jazykový fenomén, se pokouší najít důkaz v jazycích, který by jej potvrdil („z obecné až konkrétní “).

Právě to korpusovou lingvistiku zásadně odlišuje od generativní transformační gramatiky založené Noamem Chomským a jejími nástupci, jejichž deklarovaným cílem je také zkoumat jazykové schopnosti kompetentního mluvčího jako kognitivní úspěch. Sám Chomsky několikrát jasně odmítl hodnotu autentických jazykových důkazů pro získání jazykových znalostí. Zjistil, že autentická jazyková data, která jsou k dispozici v textových korpusech, nejsou vhodná pro zkoumání výkonu, protože při tvorbě jazyka se vždy vyskytují chyby. Na základě takto získaných údajů tedy nelze činit žádná platná prohlášení o lingvistickém systému. Chomsky se proto metodicky zaměřil na introspekci a úsudky řečníků, které v laboratorních podmínkách vyvolávají kompetentní rodilí mluvčí. Korpusová lingvistika naopak nezohledňuje rozdíl mezi jazykovou kompetencí a jazykovým výkonem, což Chomsky považuje za zásadní.

V poslední době však byla pozorována konvergence mezi těmito dvěma polohami. V obou táborech se nyní lidé dívají na svou vlastní databázi kritičtěji a jsou připraveni použít data preferovaná druhou stranou alespoň jako nástroj ke kontrole svých vlastních zjištění.

Historie a oblasti použití

Rozšířené používání a velký význam angličtiny a také vysoká afinita k empirickému výzkumu lingvistiky jsou dva důvody, proč se počítačově podporovaná analýza dat, jako je korpusová lingvistika, poprvé vyvinula v angloamerickém regionu.

Moderní korpusovou lingvistiku zde založili v roce 1967 Henry Kucera (1925-2010) a Nelson Francis prostřednictvím své práce „Výpočetní analýza současné americké angličtiny“. Jejich výsledky byly získány pomocí „Brown Corpus“ (přesněji: „Brown University Standard Corpus of Present-Day American English“). To původně obsahovalo asi 1 milion slov. Následovaly další korpusy v angličtině, například „korpus Lund-Oslo-Bergen“ (LOB) stejné velikosti v 80. letech minulého století. Nového milníku bylo dosaženo vytvořením textového korpusu, který v rámci lexikografické práce v nakladatelství English Collins toto číslo vysoko překročil. Výsledkem bylo první vydání „Collins Cobuild Dictionary of English“. V novém měřítku následovalo nekomerční vytvoření vyváženého „britského národního korpusu“ obsahujícího 100 milionů běžících slov, který se dodnes používá jako referenční korpus pro lingvistický výzkum britské angličtiny. Dnes ho podporuje americký národní korpus. Ostatní regionální odrůdy angličtiny jsou zaznamenány v Mezinárodním korpusu angličtiny (ICE).

Průkopníky německé korpusové lingvistiky byly Institut pro komunikační vědu a fonetiku (IKP) na univerzitě v Bonnu a Institut pro německý jazyk v Mannheimu. Zvláštní zmínku si dnes zaslouží následující německy mluvící korpusy:

  • „Německý referenční korpus“ (DeReKo) v Ústavu pro německý jazyk v Mannheimu, který obsahuje několik miliard textových slov
  • jádro „digitálního slovníku německého jazyka“ (DWDS) Berlínsko-braniborské akademie věd
  • korpus projektu „Německá slovní zásoba“ na univerzitě v Lipsku (převážně texty z online médií)
  • „švýcarský textový korpus“ Univerzity v Basileji (dnes na švýcarském Idiotikonu , s přibližně 25 miliony textových slov)

Kromě těchto korpusů se zaručenou dlouhodobou péčí, které jsou veřejnosti přístupné zdarma, existuje velké množství speciálních korpusů pro mnoho jazykových úrovní a odrůd němčiny. (Lemnitzer / Zinsmeister (2010) poskytují přehled toho.)

Korpusy jsou jako příklad projektu Collins COBUILD, ale také American Heritage Dictionary Show (1969), který se používá o lexikografie, že uživatel nejen normativní (jak by mělo být použito slovo), ale také popisný (jako je slovo skutečně použitý) chce nabídnout popisy. Kvantitativní průzkumy statistiky frekvence slov mohou řídit a objektivizovat výběr lemmatů pro mnoho typů slovníků. Dnes je používání korpusů zavedeno také v německých vydavatelích slovníků. Některé typy lexikálních informací lze získat pouze na základě analýzy velkých textových korpusů (např. Frekvenční profily se v čase střídají), jiné lze lépe zajistit korpusy než jazykovou kompetencí jednotlivých lexikografů.

Korpusy jsou nyní stále více využívány jako základ výzkumu v jazykové didaktice. Na základě výsledků toho, jak se jazyk ve skutečnosti používá, jsou také navrženy učební materiály a takzvaná korporace žáků ukazují, jaké chyby v jazykové produkci v jakých fázích učení převládají.

U speciálních lingvistických otázek se ve stále větší míře vyvíjejí i další speciální korpusy, které jsou ovšem svým rozsahem mnohem menší než referenční korpusy určené k pokrytí jazyka jako celku. Existují například studie o používání jazyka v politice a médiích.

Korpusová lingvistika - metoda nebo disciplína?

Otázka, zda je korpusová lingvistika metodou obecné nebo aplikované lingvistiky, nebo zda představuje lingvistickou disciplínu sama o sobě, nebyla dosud přesvědčivě zodpovězena.

Ve prospěch hodnocení jako metody hovoří skutečnost, že mnoho oborů lingvistiky, od teoretické po forenzní lingvistiku, využívá empirickou analytickou techniku ​​související s korpusem metodicky reflektovaným způsobem, i když většinou nikoli výlučně. Skutečný předmět korpusové lingvistiky však nelze rozeznat. To by však bylo nutné, pokud by mu někdo chtěl dát status nezávislé vědecké disciplíny.

Skutečnost, že korpusová lingvistika je nezávislou disciplínou, je podpořena skutečností, že specificky definuje používání jazyka jako svého předmětu poznání, a tím se odlišuje od jazykovědných škol, které se zaměřují na jazykové schopnosti člověka nebo obecné struktury jazyka jako mít sémiotický systém.

Bez ohledu na tuto zásadní úvahu se korpusová lingvistika etablovala jako vědní obor v akademickém životě. Nasvědčuje tomu existence několika tematických časopisů, dvoudílného manuálu (Lüdeling / Kytö 2008, 2009) a dvou vyhrazených kateder na univerzitě v Birminghamu a na berlínské Humboldtově univerzitě.

literatura

Tisková jednotka
  • Andrea Abel, Renata Zanin: Korpusy ve výuce a výzkumu. Bozen-Bolzano University Press, Bozen 2011, ISBN 978-88-6046-040-0 .
  • Noah Bubenhofer: Vzorec použití . Korpusová lingvistika jako metoda diskurzu a kulturní analýzy. de Gruyter, Berlín / New York 2009, ISBN 978-3-11-021584-7 .
  • Noam Chomsky : Znalost jazyka. Praeger, New York 1986.
  • Reinhard Fiehler , Peter Wagener: Mluvená německá databáze (DGD). In: Conversation Research - Online Journal for Verbal Interaction. Svazek 6, 2005, s. 136-147.
  • Hagen Hirschmann: Korpusová lingvistika. Úvod . Metzler Verlag, Stuttgart 2019, ISBN 978-3-476-05493-7 .
  • Werner Kallmeyer, Gisela Zifonun (Hrsg.): Jazykové korpusy - množství dat a pokrok ve znalostech. (= Ročenka IDS. 2006). de Gruyter, Berlín / New York 2007.
  • András Kertész, Csilla Rákosi: Data a důkazy v lingvistických teoriích: Recenze výzkumu. In: A. Kertész, Cs. Rákosi (Ed.): Nové přístupy k jazykovým důkazům. Pilotní studie / Nové přístupy k jazykovým důkazům. Pilotní studie. Lang, Frankfurt am Main et al. 2008, s. 21–60.
  • Reinhard Köhler: Korpusová lingvistika. K teoretickým principům a metodologickým perspektivám. In: LDV Forum 20/2. (PDF; 5,4 MB). 2005, s. 1-16.
  • Snježana Kordić : Relativní doložka v srbochorvatštině (=  Lincom Studies in Slavic Linguistics . Volume 10 ). Lincom Europa, Mnichov 1999, ISBN 3-89586-573-7 , LCCN  2005-530314 , OCLC 47905097 , DNB 963264087 , s. 330 .
  • Lothar Lemnitzer, Heike Zinsmeister: Corpus lingvistika. 2., přepracované vydání. Gunter Narr Verlag, Tübingen 2010.
  • Winfried Lenders: Výpočetní lexikografie a korpusová lingvistika přibližně do roku 1970/1980. In: RH Gouws, U. Heid, W. Schweickard, HE Wiegand (Eds.): Dictionaries - An International Encyclopedia of Lexicography. Doplňkový svazek: Nedávný vývoj se zaměřením na elektronickou a počítačovou lexikografii. de Gruyter Mouton, Berlín 2013, ISBN 978-3-11-214665-1 , s. 982-1000.
  • Anke Lüdeling, Merja Kytö: Corpus lingvistika. Mezinárodní příručka. Vol.1, de Gruyter, Berlin / New York 2008; Vol.2, 2009.
  • Tony McEnery, Andrew Wilson: Korpusová lingvistika: úvod. 2. vydání. Edinburgh University Press, 2001.
  • Tony McEnery, Richard Xiao, Yukio Toni: Jazykové studie založené na korpusu: Kniha pokročilých zdrojů. Routledge, New York 2006, ISBN 0-415-28622-0 .
  • Rainer Perkuhn, Holger Keibel, Marc Kupietz: Corpus lingvistika . Fink / UTB, Paderborn 2012, ISBN 978-3-8252-3433-1 .
  • Carmen Scherer: Korpusová lingvistika. (= Krátké úvody do německé lingvistiky. Svazek 2). Zima, Heidelberg 2006.
  • P. Wagener, K.-H. Bausch (Ed.): Zvukové záznamy mluvené němčiny. Dokumentace fondů projektů lingvistického výzkumu a archivů. (= Phonai. Svazek 40). Niemeyer, Tübingen 1997.
Online edice

webové odkazy

Wikislovník: Korpusová lingvistika  - vysvětlení významů, původ slov, synonyma, překlady
Kurzy a seznamy odkazů
Korpusy
software
  • CorpusExplorer - open source software pro snadnou přípravu (přes 100 formátů souborů), automatickou anotaci (přes 60 jazyků) a vyhodnocení (přes 40 různých analýz). Pro CorpusExplorer jsou navíc k dispozici komentované referenční korpusy (plenární zápisy, historické jazykové úrovně, písemné / ústní korpusy atd.) S více než 5,5 miliardami tokenů.

Individuální důkazy

  1. Snježana Kordić : Slova v hraniční oblasti lexikonu a gramatiky v srbochorvatštině (=  Lincom Studies in Slavic Linguistics . Volume 18 ). Lincom Europa, Mnichov 2001, ISBN 3-89586-954-6 , OCLC 42422661 , DNB 956417647 , s. 280 .
  2. Burghard Rieger : Reprezentativnost: z nevhodnosti termínu pro charakterizaci problému tvorby jazykového korpusu. In: H. Bergenholtz, B. Schaeder (Hrsg.): Empirische Textwissenschaft. Struktura a hodnocení textových korpusů. (= Monografie o lingvistice a komunikačních studiích. 39). Scriptor, Königstein / Taunus 1979, s. 52-70.
  3. Viz Chomsky 1986.
  4. Kertész / Rákosi 2008 a Lenders 2013 poskytují historický přehled.