Míra připojení

Míra vztah nebo sdružení opatření, ve statistikách, ukazuje sílu a případně směru vztahu mezi dvěma statistických proměnných .

Všeobecné

V závislosti na požadavku existuje jedna nebo více možných měr vztahu, např. B.

Nestandardizované míry asociace jsou ty, které jsou srovnatelné pouze pro tabulky se stejnými rozměry a / nebo se stejnou velikostí vzorku . Tato opatření obvykle nabývají hodnoty nula, pokud mezi uvažovanými charakteristikami neexistuje závislost. Standardizované míry asociace předpokládají hodnoty v intervalu; to lze také použít k posouzení síly spojení.

Standardizované míry asociace, ve kterých je alespoň jedna charakteristika nominálně upravena, obvykle berou hodnoty pouze v intervalu . Pokud jsou obě funkce zmenšeny alespoň ordinálně, pak standardizované míry asociace nabývají hodnot v intervalu (případ 1) nebo (případ 2). V prvním případě je kromě síly vztahu uveden také směr.

Druhý případ zahrnuje také opatření ke snížení chyb. Zde se předpokládá, že lze pro závislou proměnnou vypočítat prediktivní hodnotu. Jednou se znalostí vztahu (v závislosti na hodnotě / kategorii nezávislé proměnné se předpokládá určitá hodnota / kategorie závislé proměnné) a jednou bez znalosti vztahu (pouze na základě hodnot / kategorií závislé proměnné proměnná). Poté je zváženo snížení chyby predikce u obou metod. To nepřímo kvantifikuje vztah mezi proměnnými. To také vede k asymetrickým měřítkům v závislosti na tom, která ze dvou proměnných je závislou proměnnou. Asymetrický zde znamená, že hodnota koeficientu se mění, pokud se místo série pozorování podíváme na sérii pozorování .

Koeficienty

Pro dvě nominální proměnné

Koeficienty pro dvě nominálně škálované proměnné jsou založeny na kontingenční tabulce se společnými frekvencemi (nebo pravděpodobnostmi pro náhodné proměnné). Pro přímé měření spojení se používá kvadratická kontingence , která porovnává pozorované společné frekvence s očekávanými společnými frekvencemi v nezávislosti (= žádné spojení). Pokud se dvě frekvence pro jednu nebo více kombinací charakteristických hodnot od sebe navzájem liší, pak existuje spojení. Existují také speciální koeficienty pro kontingenční tabulky 2x2. Míry asociace pro nominální proměnné lze také použít pro řadové nebo metricky diskrétní funkce. Některé informace v datech, např. B. pořadí charakteristických hodnot, které se nepoužívá.

součinitel Rozsah hodnot komentář
Kvadratická pohotovost větší než nebo rovný nule nestandardizované, symetrické
Průměrná čtvercová pohotovost větší než nebo rovný nule standardizováno pro kontingenční tabulky 2x2, symetrické
Pohotovostní koeficient větší nebo rovno nule a menší než jedna nestandardizované, symetrické
Opravený pohotovostní koeficient v intervalu standardizované, symetrické
Cramérs V v intervalu (?) standardizované, symetrické
Koeficient Phi v intervalu (?) standardizovaný, symetrický, speciální případ Cramérs V pro kontingenční tabulky 2x2
Poměr šancí větší než nebo rovný nule nestandardizované, asymetrické, většinou pro kontingenční tabulky 2x2
Goodman a Kruskal's Lambda v intervalu standardizované, symetrické a asymetrické opatření na snížení chyb
Goodman a Kruskal's Tau v intervalu standardizované, symetrické a asymetrické opatření na snížení chyb
Koeficient nejistoty v intervalu standardizované, symetrické a asymetrické opatření na snížení chyb

Pro dvě řadové proměnné

V případě koeficientů pro dvě ordinálně škálované proměnné se stanoví počet párů pozorování, které jsou shodné ( a ) nebo nesouhlasné ( a ). Shodné páry pravděpodobně naznačují pozitivní vztah, tj. H. v pozorováních se vyskytují malé hodnoty s malými hodnotami a velké hodnoty s velkými hodnotami výskytu . Diskordantní páry mají tendenci hovořit ve prospěch negativního vztahu, tj. H. v pozorováních se vyskytují malé hodnoty s velkými hodnotami a velké hodnoty s malými hodnotami výskytu . Míra korelace se poté vypočítá z počtu shodných a nesouhlasných. Jednotlivé koeficienty se pak liší způsobem, který navazuje , tj. H. Pozorovací páry jsou brány v úvahu a / nebo .

Alternativou je použití hodností . Každé hodnotě pozorování je přiřazeno hodnocení, které označuje její pozici v seřazené sérii hodnot. Totéž se děje s hodnotami. Potom se u každého pozorování porovná hodnost s hodností . Čím více se pozice v pozorování shodují, tím více mluví o pozitivním vztahu. Čím více se pozice v pozorování liší, tím více mluví o negativním vztahu.

Míry asociace pro řadové proměnné lze také použít pro metrické prvky. I v tomto případě se část informací v datech nepoužívá; na druhou stranu jsou tyto koeficienty robustní vůči odlehlým hodnotám a také označují nelineární vztahy.

součinitel Rozsah hodnot komentář
Kovariance pro hodnosti v intervalu nestandardizovaný, symetrický, rozdíl shodných a nesouhlasných párů
Kendall's Tau a v intervalu standardizovaný, symetrický, nezohledňuje vazby
Kendall's Tau b v intervalu standardizovaný, symetrický, nezohledňuje dvojice pozorování s a nedosahuje hodnot a na nekvadratických tabulkách
Kendallovo lano v intervalu standardizovaný, symetrický, nezohledňuje vazby, ale opravuje pro jiné než čtvercové tabulky
Kendallino lano v intervalu standardizovaný, symetrický, nezohledňuje dvojice pozorování s a
Goodman a Kruskal gama v intervalu standardizovaný, symetrický, zobrazuje hodnoty, které jsou příliš vysoké, když existují vazby, absolutní částka je měřítkem snížení chyb
Yule's Q v intervalu standardizovaný, symetrický, speciální případ Goodmanovy a Kruskalovy gama pro dichotomické proměnné, lze také použít pro nominální proměnné
Spearmanovův korelační koeficient v intervalu standardizovaný, symetrický, implicitně předpokládá, že sousední řady jsou vždy ve stejné vzdálenosti od sebe

Pro dvě proměnné měřítka

Konstrukce kovariance :

V případě, že koeficienty dvou metricky škálovaných proměnných, vzdálenost od k průměrné hodnoty z hodnot, a vzdálenost od k průměrné hodnoty hodnoty jsou určeny pro každou pozorování . Poté se pro každé pozorování vypočítá součin dvou vzdáleností a zprůměruje se ze všech pozorování. Kladné hodnoty produktu hovoří pro pozitivní spojení, záporné hodnoty pro negativní spojení. Obrázek vpravo ukazuje toto pro kovarianci řady pozorování: U každého pozorování se určí vzdálenost k průměru, poté se vynásobí a zprůměruje. Koeficienty se liší v tom, jak se vzdálenost počítá a jaká střední hodnota se použije (aritmetický průměr nebo medián).

Podle tohoto schématu se řídí také Spearmanovým korelačním koeficientem místo a pomocí řad a v Bravais-Pearsonově korelaci. Podle vlastností řad, např. B. lze korelační vzorec Bravais-Pearson zjednodušit.

součinitel Rozsah hodnot komentář
Kovariance v intervalu nestandardizovaný, symetrický, ne robustní, měří pouze lineární vztah
Bravais-Pearsonova korelace v intervalu standardizovaný, symetrický, ne robustní, měří pouze lineární vztah
Korelační korelace v intervalu standardizovaný, symetrický, robustní, měří také nelineární vztahy
Koeficient stanovení v intervalu standardizované, symetrické, ne robustní opatření na snížení chyb

Pro dvě proměnné různých úrovní stupnice

Jednou z možností, která se často používá, je použití koeficientu, který je vhodný pro dvě proměnné nízké úrovně. Je z. Například pokud je jedna proměnná ordinální a druhá má metrické měřítko, použije se jeden koeficient pro dvě ordinální proměnné. Jeden souhlasí s tím, že nejsou použity všechny informace z pozorování.

To se stává velmi problematickým, když je jedna proměnná metrická (spojitá) a druhá je nominální. Proto byla vyvinuta řada speciálních koeficientů pro různé úrovně stupnice. Ve vzorcích není možné vyměnit role proměnných. H. nemá smysl mluvit o symetrických nebo asymetrických koeficientech.

součinitel Rozsah hodnot komentář
Náměstí Eta nominální metrický v intervalu Opatření ke snížení chyb, není robustní
Bodová bisiseriální korelace dichotomický metrický v intervalu není robustní