Statistická významnost

Výsledek statistického testu se nazývá statisticky významný, pokud se vzorová data tak silně odchylují od předdefinovaného předpokladu ( nulová hypotéza ), že je tento předpoklad podle předem definovaného pravidla odmítnut.

Za tímto účelem je podle současné praxe předem stanovena úroveň významnosti, známá také jako pravděpodobnost chyby . Ukazuje, jak je pravděpodobné, že přesně použitelnou statistickou nulovou hypotézu ( Hypothesis to be anullified - „Hypotéza, která by měla být odmítnuta [na základě údajů ze studie]“) lze omylem odmítnout ( chyba typu 1 ). Pokud se má prokázat správnost hypotézy, pravděpodobnost chyby typu 2 , u které se hypotéza považuje za správnou, i když je nesprávná, čím větší, tím nižší úroveň významnosti, tj. Pravděpodobnost chyby.

Výsledek testu významnosti neposkytuje žádné informace o otázkách o síle účinků, relevanci výsledků nebo jejich přenositelnosti na jiné okolnosti. Hodnota p , která vyvolává statistickou významnost, je velmi často nesprávně interpretována a používána nesprávně, a proto se Americká statistická asociace cítila nucena zveřejnit v roce 2016 zprávu o tom, jak zacházet se statistickou významností. Podle malé kanadské terénní studie z roku 2019 není tento termín správně vyjádřen v řadě učebnic.

Základy

Statistická významnost se kontroluje statistickými testy , které musí být vybrány tak, aby odpovídaly datovému materiálu a parametrům, které mají být testovány s ohledem na pravděpodobnostní funkci . Teprve potom je možné matematicky správně vypočítat příslušnou p-hodnotu z rozdělení pravděpodobnosti pro náhodné proměnné jako pravděpodobnost získání výsledku vzorku, jako je pozorovaný, nebo extrémnější kvůli náhodě. Jak vysoký jejich podíl lze očekávat v případě náhodných vzorků, které se nekonečně často opakují ze stejné populace, lze určit jako hodnotu mezi 0 a 1. Tato hodnota p se tedy počítá za předpokladu, že platí tzv. Nulová hypotéza .

Překročení určité pravděpodobnosti chyby se odhaduje na základě hodnoty p. Toto je pravděpodobnost, kterou lze určit předem, odmítnout hypotézu: „Zjištěné rozdíly vznikly náhodou“ - tedy nulová hypotéza - i když je správná. Taková chyba se také nazývá chyba typu I nebo chyba α .

Při stanovení této kritické prahové hodnoty je rozumné vzít v úvahu důsledky případu, kdy se mylně předpokládá, že pozorovaný rozdíl je pouze náhodný. Pokud považujete tyto důsledky za závažné, zvolíte spíše nižší úroveň než vyšší, například 1% místo 5% nebo 0,1% pro maximální povolenou pravděpodobnost chyby . Tato pravděpodobnost se nazývá úroveň významnosti .

To znamená : Pokud je nulová hypotéza správná, nesmí být pravděpodobnost, že bude chybně odmítnuta (chyba prvního typu), větší než 5%. Pravděpodobnost, že na základě statistického testu neodmítnete správnou nulovou hypotézu, je tedy nejméně 95%.

Míra významnosti nebo pravděpodobnost chyby proto pouze s jakou pravděpodobností dojde k chybě typu 1, že nulová hypotéza je odmítnuta, i když je správná. Hladina významnosti neříká pravděpodobnost, s jakou je hypotéza správná. Má-li být prokázána správnost hypotézy, pravděpodobnost chyby 2. druhu, že se hypotéza považuje za správnou, i když je nesprávná, čím větší, tím nižší úroveň významnosti. Příklad: Experiment je založen na pravděpodobnosti p = ¼. Hypotéza p = 1/5 by však měla být prokázána. Pravděpodobnost, že se hypotéza bude považovat za správnou, i když je nesprávná, je 93% při hladině významnosti 5% a 99% při hladině významnosti 1% pro 25 experimentů. S 1000 experimenty je to stále 3,6% s hladinou významnosti 5% a 11,4% s hladinou významnosti 1%. Je tedy lepší něco dokázat odmítnutím nulové hypotézy. Příklad: 25% studentů ve škole používá interní školní síť. Po povýšení průzkum mezi 50 dotázanými studenty zjistil, že 38% z nich používá síť. Nyní můžete otestovat na p = 0,25 a na úrovni významnosti 5% s pravděpodobností 95% nebo na úrovni významnosti 1% s pravděpodobností 99% říci, že počet studentů, kteří používají síť, se skutečně zvýšil díky povýšení, pokud je zamítnuta nulová hypotéza p = 0,25. Nelze však říci, že sazba vzrostla na 38%.

Pokud aplikace statistického postupu ukáže, že zkoumaný pozorovaný rozdíl není statisticky významný, nelze z něj vyvodit konečné závěry. I v tomto případě není pravděpodobnost chyby typu 2 ( ) obvykle ani známa, aby byla falešná nulová hypotéza považována za správnou.

Obecněji řečeno, statistická významnost popisuje možný informační obsah události nebo měření na pozadí náhodných distribucí jako pravděpodobnost. Čím menší je, tím vyšší je kvalita informací významného výsledku.

Pro kvalitativní posouzení je rozhodující otázka: „Na čem závisí statistická významnost?“

Zde je třeba zmínit především velikost vzorku, jeho reprezentativnost a jeho rozptyl. Statistická významnost je významně ovlivněna velikostí vzorku. Pokud je místo většího vzorku zkoumán pouze malý vzorek, je pravděpodobnější, že jeho složení nereprezentuje populaci. Rozdíly, ke kterým dochází v důsledku náhodného výběru, jsou významnější. Pokud vybraný vzorek představuje základní populaci v jejích základních charakteristikách, hovoří se o reprezentativním vzorku. Rozptyl, tj. Šíření hodnot v rámci zkoumané skupiny, je také důležitý pro kvalitu informací.

Příkladné otázky

  • Průzkum zjistil, že 55% žen inklinuje ke straně A , zatímco 53% mužů dává přednost straně B. Existuje skutečně rozdíl v politickém přesvědčení mužů a žen, nebo to bylo jen náhodou, že byly vyslechnuty mnohé ženy, které podporovaly stranu A a muže strany B ?
  • S novým lékem je míra vyléčení vyšší než bez léku. Je nový lék skutečně účinný, nebo to byla náhoda, že byl vybrán obzvláště velký počet pacientů, kteří by se uzdravili sami?
  • Určité onemocnění je obzvláště běžné v blízkosti chemického závodu. Je to náhoda nebo existuje souvislost?

Pravděpodobnost chyby a úroveň významnosti

Ve výše uvedených příkladech je třeba předpokládat, že výsledky ovlivnila náhoda. Lze však odhadnout, jak je pravděpodobné, že k naměřeným výsledkům dojde, pokud bude fungovat pouze náhoda. Tato náhodná chyba se obecně označuje jako chyba typu 1 ( synonymum : chyba) a pravděpodobnost jejího výskytu - za předpokladu, že je nulová hypotéza správná - jako pravděpodobnost chyby .

V parametrickém modelu pravděpodobnosti různých falešných závěrů závisí na neznámém distribučním parametru a lze je určit pomocí funkce kvality testu.

Horní hranice pro pravděpodobnost chyby , tj. Hodnota, která z nich je jen asi připraven přijmout pro pravděpodobnost chyby prvního druhu, se nazývá hladina významnosti . V zásadě to lze libovolně zvolit; často se používá úroveň významnosti 5%. Stanovení této hodnoty se různě připisuje RA Fisherovi . V praxi toto kritérium znamená, že v průměru jedna z 20 studií, ve kterých je nulová hypotéza správná (např. Droga je ve skutečnosti neúčinná), dojde k závěru, že je nesprávná (např. Tvrdí, že droga zvyšuje šance na uzdravení).

Heuristické motivace pro hodnotu 5% je následující: od A -normální náhodná proměnná předpokládá pouze hodnotu, která se liší od očekávané hodnoty o více než 1,96 násobek standardní odchylky s pravděpodobností menší než nebo rovno (≤) 5% :

  • S hodnotou p ≤ 5%, např. B. Jürgen Bortz z významného ,
  • hodnota ≤ 1% (2,3 směrodatné odchylky) se nazývá velmi významná a
  • hodnota ≤ 0,1% (3,1 směrodatných odchylek) se považuje za vysoce významný výsledek.

Zde je důležité, že tato klasifikace je čistě libovolná, musí být přizpůsobena příslušné aplikaci a měla by být potvrzena opakováním. Kromě toho je tato klasifikace problematická s ohledem na zkreslení publikace a p-hacking . Protože pokud je hodnota p menší nebo rovna 5%, je-li nulová hypotéza správná, v průměru 5% všech vyšetřování nulovou hypotézu přesto odmítá, toto kritérium obecně nestačí k doložení nových objevů. Například k prokázání existence Higgsova bosonu bylo použito mnohem přísnější kritérium 5 směrodatných odchylek (odpovídající hodnotě p 1 ku 3,5 milionu).

Úroveň významnosti Výsledkem je opakem číselné hodnoty na významnosti úrovně - nízké úrovni významnosti odpovídá vysoké hladině významnosti a naopak.

Na rozdíl od Fisherova pohledu na význam jako měřítka pravdivosti hypotézy není v kontextu klasické přísné teorie Neyman-Pearsonova testu uvedena následná klasifikace výsledku testu v různých stupních významnosti. Z tohoto hlediska nejsou možné žádné „vysoce významné“ nebo „vysoce významné“ výsledky - další informace (například hodnota p) by musely být specifikovány odlišně.

I při statisticky významných prohlášeních je vždy nutné provést kritické posouzení uspořádání a implementace testu. Vědecké výzkumy postačují jen zřídka. B. matematické požadavky na smysluplný statistický test . V mnoha studiích je při provádění studie v popředí přání osoby provádějící studium (např. V rámci disertační práce ) po „významném“ výsledku. Studie, které potvrzují nulovou hypotézu, jsou obecně (ale statisticky nesprávně) považovány za nezajímavé a nadbytečné. Rozhodující je také design studie . Charakteristiky „ randomizované “, „kontrolované“ a „ dvojitě zaslepené “ lze použít jako indikátory kvality studie (např. V lékařském prostředí) . Bez toho je třeba s prohlášeními o účinnosti terapií zacházet velmi opatrně.

V případě často prováděných, méně propracovaných studií stále existuje riziko, že například z dvaceti srovnatelných studií bude publikována pouze jedna - ta s pozitivním výsledkem, i když její význam byl ve skutečnosti dosažen pouze náhodou. Tento problém je hlavní příčinou zkreslení publikace (viz níže). Obzvláště problematická je interpretace významných korelací v retrospektivních studiích . Kromě toho je vždy třeba mít na paměti, že statisticky významné korelace se často nesprávně používají k vyvození údajné kauzality (tzv. Fingovaná korelace ).

Problémy s interpretací

Informativní hodnota a selektivita

I ve studiích, které jsou statisticky významné, může být praktická hodnota informací nízká.

Studie s velkým počtem případů často vedou k vysoce významným výsledkům kvůli vysokému stupni selektivity testu (nazývaného také testovací síla). Takové studie mohou mít stále malou informativní hodnotu, pokud velikost pozorovaného účinku nebo měřený parametr nejsou relevantní. Statistická významnost je tedy nezbytným, ale ne dostatečným kritériem pro tvrzení, které je také prakticky relevantní. Velikost efektu (velikost efektu) je důležitým nástrojem pro hodnocení relevance .

Další kritické dotykové kameny z metodického hlediska jsou:

  • správnost předpokladů statistického modelu (např. předpoklad rozdělení )
  • počet provedených statistických testů (pokud existuje několik testů, z nichž žádný není jasně označen jako primární test, je třeba provést úpravu úrovně významnosti)
  • perspektivní definice analytických metod před „zaslepením“ dvojitě zaslepených studií
  • možné důsledky, které mohou vzniknout z chyby typu 1 nebo 2, včetně možných ohrožení zdraví a života.

Chybné předpoklady

Na rozdíl od rozšířeného názoru význam nelze srovnávat s pravděpodobností chyby, i když se na výstupu některých statistických programů (např. SPSS ) pravděpodobnost chyby zavádějícím způsobem označuje jako „sig.“ Nebo „významnost“. Je správné hovořit o „významné“, pokud pravděpodobnost chyby u výsledku získaného z konkrétní studie není nad dříve definovanou úrovní významnosti.

Je však možné, že opakování této studie se stejným designem a za jinak stejných podmínek v novém vzorku by vedlo k výsledku, u kterého by pravděpodobnost chyby byla nad úrovní významnosti. V případě náhodně distribuovaných proměnných pravděpodobnost pro tento případ závisí na zvolené hladině významnosti.

Není neobvyklé, že slovo významný znamená „jasně“. Statisticky významná změna nemusí nutně musí být jasné, ale jen jednoznačná. Může to tedy být drobná změna, která byla jasně změřena. Při dostatečně vysokém počtu měření bude každý (existující) účinek měřen statisticky významný, i když může být malý a nevýznamný.

Rovněž nelze použít předpoklady, které určují hladinu významnosti nebo pozorovanou hodnotu p

  • velikost účinku
  • pravděpodobnost, že nulová hypotéza je pravdivá nebo nepravdivá
  • pravděpodobnost, že alternativní hypotéza je pravdivá nebo nepravdivá

Vědecké publikace

Prezentace statisticky významných výsledků má dopad na to, zda je publikován vědecký článek. To však vede k tomu, co je známé jako „ zkreslení publikace “, protože možné náhodné výsledky nejsou zveřejněny v celé šíři provedených šetření. Kromě toho mají výsledky, které jsou vybrány pro publikaci na základě významnosti, obvykle nadhodnocené velikosti efektů . Důvodem je to, že zejména v menších studiích se stávají významnými pouze největší rozdíly nebo nejsilnější korelace.

Význam a kauzalita

Význam neříká nic o možných příčinných souvislostech nebo jejich typu; toto je často přehlíženo.

Jako příklad: Statistika by ukázala, že určitá nemoc se vyskytovala obzvláště často v blízkosti chemického závodu, a to takovým způsobem, že rozdíl v normální distribuci této nemoci v běžné populaci je značný. Tato statisticky významná korelace by však nutně neznamenala, že chemický závod je příčinně zodpovědný za zvýšený výskyt nemoci.

(1) Protože je rovněž možné, že oblast kolem této chemické továrny je nepopulární obytnou oblastí, a proto zde žijí hlavně finančně slabé rodiny, které si nemohou dovolit přestěhovat se. Ve většině případů mají finančně slabé rodiny tendenci mít horší stravu a zpravidla také horší zdravotní péči, než je průměr populace; Řada nemocí je tím zvýhodněna, možná právě ta.

(2) Je rovněž možné, že onemocnění v některých oblastech z. B. se vyskytuje často, když je překročena určitá hustota obyvatelstva as tím spojené zvýšené riziko infekce; a je to jen náhoda, že chemický závod je nyní v takové oblasti s vyšším výskytem této infekční choroby.

V prvním představeném případě by mohla existovat příčinná souvislost; lišilo by se to však od toho, co by chtělo být přijato s ohledem na statistické šetření. Příčinnou příčinou může být také to, že tato chemická továrna byla postavena přesně tam, kde žije mnoho finančně slabých rodin (např. Protože se kvůli nedostatku lobby méně dokázaly bránit proti založení továrny než majetnější obyvatelé jiných obytných oblastí nebo jejich členů jako možné komoditní pracovní síly se při výběru místa objevila levnější cena). Považovat chemickou továrnu za příčinu zvýšeného počtu případů nemoci bez dalších důkazů by bylo logicky nesprávným závěrem typu „ cum hoc ergo propter hoc “.

Ve druhém představovaném případě by vůbec neexistovala příčinná souvislost; spíše by došlo k takzvané cílové chybě: Po určení významné akumulace události (zde: choroba) je použita další poněkud nápadná událost (nyní: chemický závod) a interpretována jako kauzálně související s první jeden. Nebo ještě jednodušší:
Něco, co si všimnete někde jinde, bude pravděpodobně souviset s něčím nápadně odlišným - nějakým způsobem, nejlépe: kauzálně a ad hoc (zde nyní - „ cum ergo propter “ - nyní zde).

Viz také

literatura

  • Erika Check Hayden: Slabé statistické standardy spojené s vědeckou nereprodukovatelností. In: Příroda . 2013, doi: 10.1038 / příroda.2013.14131 .
  • David Salsburg: Dáma ochutnávající čaj. Jak statistika způsobila revoluci ve vědě ve dvacátém století. Freeman, New York NY 2001, ISBN 0-7167-4106-7 (populární věda).
  • RL Wasserstein, RL & NA Lazar 2016. ASA's Statement on p-Values: Context, Process, and Purpose , The American Statistician, Vol. 70, no. 2, str. 129-133, doi: 10.1080 / 00031305.2016.1154108 .
  • Valentin Amrhein, Fränzi Korner-Nievergelt, Tobias Roth 2017. Země je plochá (p> 0,05): prahové hodnoty významnosti a krize neopakovatelného výzkumu. PeerJ 5: e3544, doi: 10,7717 / peerj.3544 .

webové odkazy

Wikislovník: významné  - vysvětlení významů, původ slov, synonyma, překlady

Individuální důkazy

  1. Gigerenzer G. (2004). Bezmyšlenkové statistiky. J. Soc. Econ. 33, 587-606. doi : 10.1016 / j.socec.2004.09.033 , citováno od Fishera, Neyman-Pearsona nebo NHST? Výukový program pro výuku testování dat . Frontiers in Psychology 2015; 6: 223. PMC 4347431 (plný text)
  2. ^ R. Wasserstein, N. Lazar: Prohlášení ASA o p-hodnotách: kontext, proces a účel. In: Americký statistik. Svazek 70, č. 2, 2016, s. 129-133, doi : 10.1080 / 00031305.2016.1154108 .
  3. S. Cassidy, R. Dimova, B. Giguère, J. Spence, D. Stanley: Selhání: 89% učebnic Úvod do psychologie, které nesprávně definují nebo vysvětlují statistický význam. In: Pokroky v metodách a postupech v psychologické vědě. Červen 2019, doi: 10,1177 / 2515245919858072 .
  4. Stephen Stigler: Fisher a 5% úroveň. In: Šance. 21, č. 4, 2008, s. 12, doi : 10.1080 / 09332480.2008.10722926 .
  5. ^ Jürgen Bortz, Nicola Döring: Výzkumné metody a hodnocení pro humanitní a sociální vědce. 4. přepracované vydání. Springer Medicine, Heidelberg 2006, ISBN 3-540-33305-3 , s. 740.
  6. Spolupráce ATLAS: Pozorování nové částice při hledání standardního modelu Higgs Boson s detektorem ATLAS na LHC. In: Physics Letters Vol. 716, č. 1, str. 1-29, doi : 10,1016 / j.physletb.2012.08.020 .
  7. ^ Wolfgang Weihe: Klinické studie a statistiky. O pravděpodobnosti chyby. In: Deutsches Ärzteblatt. 101, č. 13, 26. března 2004.
  8. Valentin Amrhein, Fränzi Korner-Nievergelt, Tobias Roth: Země je plochá (p> 0,05): prahové hodnoty významnosti a krize neopakovatelného výzkumu . In: PeerJ . 5. 2017. doi : 10,7717 / peerj.3544 .