Míra připojení
Míra vztah nebo sdružení opatření, ve statistikách, ukazuje sílu a případně směru vztahu mezi dvěma statistických proměnných .
Všeobecné
V závislosti na požadavku existuje jedna nebo více možných měr vztahu, např. B.
- V závislosti na úrovni měřítku s funkcí nebo náhodné veličiny : kategorické (nominální, pořadový) nebo metrické a
- podle toho, zda chcete použít standardizované nebo nestandardizované měřítko.
Nestandardizované míry asociace jsou ty, které jsou srovnatelné pouze pro tabulky se stejnými rozměry a / nebo se stejnou velikostí vzorku . Tato opatření obvykle nabývají hodnoty nula, pokud mezi uvažovanými charakteristikami neexistuje závislost. Standardizované míry asociace předpokládají hodnoty v intervalu; to lze také použít k posouzení síly spojení.
Standardizované míry asociace, ve kterých je alespoň jedna charakteristika nominálně upravena, obvykle berou hodnoty pouze v intervalu . Pokud jsou obě funkce zmenšeny alespoň ordinálně, pak standardizované míry asociace nabývají hodnot v intervalu (případ 1) nebo (případ 2). V prvním případě je kromě síly vztahu uveden také směr.
Druhý případ zahrnuje také opatření ke snížení chyb. Zde se předpokládá, že lze pro závislou proměnnou vypočítat prediktivní hodnotu. Jednou se znalostí vztahu (v závislosti na hodnotě / kategorii nezávislé proměnné se předpokládá určitá hodnota / kategorie závislé proměnné) a jednou bez znalosti vztahu (pouze na základě hodnot / kategorií závislé proměnné proměnná). Poté je zváženo snížení chyby predikce u obou metod. To nepřímo kvantifikuje vztah mezi proměnnými. To také vede k asymetrickým měřítkům v závislosti na tom, která ze dvou proměnných je závislou proměnnou. Asymetrický zde znamená, že hodnota koeficientu se mění, pokud se místo série pozorování podíváme na sérii pozorování .
Koeficienty
Pro dvě nominální proměnné
Koeficienty pro dvě nominálně škálované proměnné jsou založeny na kontingenční tabulce se společnými frekvencemi (nebo pravděpodobnostmi pro náhodné proměnné). Pro přímé měření spojení se používá kvadratická kontingence , která porovnává pozorované společné frekvence s očekávanými společnými frekvencemi v nezávislosti (= žádné spojení). Pokud se dvě frekvence pro jednu nebo více kombinací charakteristických hodnot od sebe navzájem liší, pak existuje spojení. Existují také speciální koeficienty pro kontingenční tabulky 2x2. Míry asociace pro nominální proměnné lze také použít pro řadové nebo metricky diskrétní funkce. Některé informace v datech, např. B. pořadí charakteristických hodnot, které se nepoužívá.
součinitel | Rozsah hodnot | komentář |
---|---|---|
Kvadratická pohotovost | větší než nebo rovný nule | nestandardizované, symetrické |
Průměrná čtvercová pohotovost | větší než nebo rovný nule | standardizováno pro kontingenční tabulky 2x2, symetrické |
Pohotovostní koeficient | větší nebo rovno nule a menší než jedna | nestandardizované, symetrické |
Opravený pohotovostní koeficient | v intervalu | standardizované, symetrické |
Cramérs V | v intervalu (?) | standardizované, symetrické |
Koeficient Phi | v intervalu (?) | standardizovaný, symetrický, speciální případ Cramérs V pro kontingenční tabulky 2x2 |
Poměr šancí | větší než nebo rovný nule | nestandardizované, asymetrické, většinou pro kontingenční tabulky 2x2 |
Goodman a Kruskal's Lambda | v intervalu | standardizované, symetrické a asymetrické opatření na snížení chyb |
Goodman a Kruskal's Tau | v intervalu | standardizované, symetrické a asymetrické opatření na snížení chyb |
Koeficient nejistoty | v intervalu | standardizované, symetrické a asymetrické opatření na snížení chyb |
Pro dvě řadové proměnné
V případě koeficientů pro dvě ordinálně škálované proměnné se stanoví počet párů pozorování, které jsou shodné ( a ) nebo nesouhlasné ( a ). Shodné páry pravděpodobně naznačují pozitivní vztah, tj. H. v pozorováních se vyskytují malé hodnoty s malými hodnotami a velké hodnoty s velkými hodnotami výskytu . Diskordantní páry mají tendenci hovořit ve prospěch negativního vztahu, tj. H. v pozorováních se vyskytují malé hodnoty s velkými hodnotami a velké hodnoty s malými hodnotami výskytu . Míra korelace se poté vypočítá z počtu shodných a nesouhlasných. Jednotlivé koeficienty se pak liší způsobem, který navazuje , tj. H. Pozorovací páry jsou brány v úvahu a / nebo .
Alternativou je použití hodností . Každé hodnotě pozorování je přiřazeno hodnocení, které označuje její pozici v seřazené sérii hodnot. Totéž se děje s hodnotami. Potom se u každého pozorování porovná hodnost s hodností . Čím více se pozice v pozorování shodují, tím více mluví o pozitivním vztahu. Čím více se pozice v pozorování liší, tím více mluví o negativním vztahu.
Míry asociace pro řadové proměnné lze také použít pro metrické prvky. I v tomto případě se část informací v datech nepoužívá; na druhou stranu jsou tyto koeficienty robustní vůči odlehlým hodnotám a také označují nelineární vztahy.
součinitel | Rozsah hodnot | komentář |
---|---|---|
Kovariance pro hodnosti | v intervalu | nestandardizovaný, symetrický, rozdíl shodných a nesouhlasných párů |
Kendall's Tau a | v intervalu | standardizovaný, symetrický, nezohledňuje vazby |
Kendall's Tau b | v intervalu | standardizovaný, symetrický, nezohledňuje dvojice pozorování s a nedosahuje hodnot a na nekvadratických tabulkách |
Kendallovo lano | v intervalu | standardizovaný, symetrický, nezohledňuje vazby, ale opravuje pro jiné než čtvercové tabulky |
Kendallino lano | v intervalu | standardizovaný, symetrický, nezohledňuje dvojice pozorování s a |
Goodman a Kruskal gama | v intervalu | standardizovaný, symetrický, zobrazuje hodnoty, které jsou příliš vysoké, když existují vazby, absolutní částka je měřítkem snížení chyb |
Yule's Q | v intervalu | standardizovaný, symetrický, speciální případ Goodmanovy a Kruskalovy gama pro dichotomické proměnné, lze také použít pro nominální proměnné |
Spearmanovův korelační koeficient | v intervalu | standardizovaný, symetrický, implicitně předpokládá, že sousední řady jsou vždy ve stejné vzdálenosti od sebe |
Pro dvě proměnné měřítka
V případě, že koeficienty dvou metricky škálovaných proměnných, vzdálenost od k průměrné hodnoty z hodnot, a vzdálenost od k průměrné hodnoty hodnoty jsou určeny pro každou pozorování . Poté se pro každé pozorování vypočítá součin dvou vzdáleností a zprůměruje se ze všech pozorování. Kladné hodnoty produktu hovoří pro pozitivní spojení, záporné hodnoty pro negativní spojení. Obrázek vpravo ukazuje toto pro kovarianci řady pozorování: U každého pozorování se určí vzdálenost k průměru, poté se vynásobí a zprůměruje. Koeficienty se liší v tom, jak se vzdálenost počítá a jaká střední hodnota se použije (aritmetický průměr nebo medián).
Podle tohoto schématu se řídí také Spearmanovým korelačním koeficientem místo a pomocí řad a v Bravais-Pearsonově korelaci. Podle vlastností řad, např. B. lze korelační vzorec Bravais-Pearson zjednodušit.
součinitel | Rozsah hodnot | komentář |
---|---|---|
Kovariance | v intervalu | nestandardizovaný, symetrický, ne robustní, měří pouze lineární vztah |
Bravais-Pearsonova korelace | v intervalu | standardizovaný, symetrický, ne robustní, měří pouze lineární vztah |
Korelační korelace | v intervalu | standardizovaný, symetrický, robustní, měří také nelineární vztahy |
Koeficient stanovení | v intervalu | standardizované, symetrické, ne robustní opatření na snížení chyb |
Pro dvě proměnné různých úrovní stupnice
Jednou z možností, která se často používá, je použití koeficientu, který je vhodný pro dvě proměnné nízké úrovně. Je z. Například pokud je jedna proměnná ordinální a druhá má metrické měřítko, použije se jeden koeficient pro dvě ordinální proměnné. Jeden souhlasí s tím, že nejsou použity všechny informace z pozorování.
To se stává velmi problematickým, když je jedna proměnná metrická (spojitá) a druhá je nominální. Proto byla vyvinuta řada speciálních koeficientů pro různé úrovně stupnice. Ve vzorcích není možné vyměnit role proměnných. H. nemá smysl mluvit o symetrických nebo asymetrických koeficientech.
součinitel | Rozsah hodnot | komentář | ||
---|---|---|---|---|
Náměstí Eta | nominální | metrický | v intervalu | Opatření ke snížení chyb, není robustní |
Bodová bisiseriální korelace | dichotomický | metrický | v intervalu | není robustní |