Metoda nejmenších čtverců

Metoda nejmenších čtverců (krátké MKQ nebo anglicky metodou nejmenších čtverců , nebo jen nejmenších čtverců krátkých: LS , na rozšíření vymezení z nich odvozených, jako je generalizovaná metodou nejmenších čtverců , nebo dvoustupňový způsob nejmenších čtverců také nazývá „obyčejné“ s dodatkem, že obyčejné nejmenší čtverce ( anglicky obyčejné nejmenší čtverce , zkráceně: OLS )) nebo metoda KQ (zastaralá metoda součtu nejmenších odchylek čtverců ) jsou standardní matematické postupy pro úpravu . V tomto případě, na A sadu datových bodů z funkce , určuje běží tak blízko, jak je to možné do datových bodů a tím nejlepší možné shrnující data. Nejčastěji používanou funkcí je přímka , které se pak říká přímka . Aby bylo možné tuto metodu použít, musí funkce obsahovat alespoň jeden parametr . Tyto parametry jsou pak metodou určeny tak, že když je funkce porovnána s datovými body a vzdálenost mezi hodnotou funkce a datovým bodem je čtvercová, součet těchto čtvercových vzdáleností je co nejmenší. Vzdálenosti se pak nazývají zbytky .

Tato metoda se obvykle používá ke zkoumání skutečných dat, jako jsou fyzické nebo ekonomické naměřené hodnoty . Tato data často obsahují nevyhnutelné chyby měření a kolísání . Za předpokladu, že se naměřené hodnoty blíží základním „ skutečným hodnotám “ a že mezi naměřenými hodnotami existuje určitý vztah, lze tuto metodu použít k nalezení funkce, která tento vztah dat co nejlépe popisuje . Metodu lze také použít obráceně k testování různých funkcí a tím k popisu neznámého vztahu v datech.

Body měření a jejich vzdálenost od funkce určené metodou nejmenších čtverců. Zde byla jako modelová křivka zvolena logistická funkce .

V ukázkové grafice jsou zadány datové body a kompenzační funkce. Je vybrána obecná funkce (funkce modelu ), která by měla odpovídat otázce a datům, v tomto případě logistické funkci . Jejich parametry jsou nyní určeny tak, aby byl minimalizován součet čtvercových odchylek pozorování od hodnot funkce . Na grafu je odchylka v tomto bodě viditelná jako svislá vzdálenost mezi pozorováním a křivkou.

Ve stochastice se metoda nejmenších čtverců většinou používá jako metoda odhadu regresní analýzy , kde se také označuje jako odhad nejmenších čtverců nebo obyčejný odhad nejmenších čtverců . Protože odhad nejmenších čtverců minimalizoval zbytkový součet , je to metoda odhadu, která obsahuje stanovení maximalizované. Metoda nejmenších čtverců se používá jako identifikace systému v souvislosti s modelovými experimenty, např. B. pro inženýry východisko z paradoxní situace určování parametrů modelu pro neznámé zákony.

příběh

Piazziho pozorování zveřejněná v Měsíční korespondenci v září 1801

Na Nový rok 1801 objevil italský astronom Giuseppe Piazzi trpasličí planetu Ceres . Byl schopen sledovat cestu 40 dní, poté Ceres zmizel za sluncem. V průběhu roku se mnoho vědců neúspěšně pokusilo vypočítat oběžnou dráhu na základě Piazziho pozorování - za předpokladu kruhové oběžné dráhy, protože v té době mohly být oběžné prvky pro ně pouze matematicky určeny z pozorovaných poloh oblohy.

24letému Gaussovi se podařilo vypočítat oběžnou dráhu pomocí nové nepřímé metody určování oběžné dráhy a jeho kompenzačních výpočtů založených na metodě nejmenších čtverců (i když ještě nebyla tak označena) takovým způsobem, že Franz Xaver von Zach ho našel 7. prosince 1801 a - potvrzeno - 31. prosince 1801. Heinrich Wilhelm Olbers to potvrdil nezávisle na Zachovi pozorováním 1. a 2. ledna 1802.

Problém při hledání Ceres jako takového byl ten, že pozorování nezpůsobila ani polohu, část oběžné dráhy, ani známou vzdálenost , ale pouze směry pozorování. To vede k hledání elipsy a ne kruhu, jak navrhují Gaussovi konkurenti. Je znám jeden z ohniskových bodů elipsy (samotné slunce ) a oblouky oběžné dráhy Ceres mezi směry pozorování procházejí podle druhého Keplerova zákona , to znamená, že časy se chovají jako povrchy smetené vodicí paprsek. Kromě toho je pro výpočetní řešení známo, že samotná pozorování jsou založena na kuželovitém úseku v prostoru, samotné oběžné dráze Země.

Problém v zásadě vede k rovnici osmého stupně, jejíž triviální řešení je samotná oběžná dráha Země. Díky rozsáhlým sekundárním podmínkám a (později) metodě nejmenších čtverců vyvinuté Gaussem se 24letému muži podařilo určit polohu, kterou vypočítal pro oběžnou dráhu Ceres od 25. listopadu do 31. prosince 1801. To Zachovi umožnilo najít Ceres v poslední den předpovědi. Místo nebylo menší než 7 ° (tj. 13,5  šířky úplňku ) na východ od místa, kde ostatní astronomové podezřívali Ceres, kterému nejen Zach, ale i Olbers řádně vzdali hold.

Jeho první výpočty byly stále bez metody nejmenších čtverců , pouze když bylo po znovuobjevení Cerese k dispozici mnoho nových dat, použil je k přesnějšímu určení orbitálních prvků, ale bez obecného odhalení podrobností své metody. Obnovila se také Piazziho pověst, která těžce utrpěla kvůli bodům cesty, které nechtěly vejít na kruhovou cestu.

Předchůdcem metody nejmenších čtverců je metoda nejmenších absolutních odchylek , kterou vyvinul v roce 1760 Rugjer Josip Bošković . Gauss vyvinul základy metody nejmenších čtverců již v roce 1795 ve věku 18 let. Vycházel z myšlenky Pierra-Simona Laplaceho sečíst odchylky naměřených hodnot od očekávané hodnoty takovým způsobem, že součet všech těchto takzvaných chyb vyústil v nulu. Na rozdíl od této metody Gauss místo chyb použil čtverce chyb a byl tak schopen upustit od požadavku nulového součtu. Nezávisle na Gaussovi vyvinul Francouz Adrien-Marie Legendre stejnou metodu, poprvé ji publikoval v roce 1805, na konci malé práce na výpočtu drah komet, a vydal druhé pojednání o ní v roce 1810. Její prezentace byla extrémně jasná a jednoduché. Název Méthode des moindres carrés (metoda nejmenších čtverců) také pochází z Legendre .

V roce 1809 publikoval Gauss ve druhém svazku svého nebeského mechanického díla Theoria motus corporum coelestium in sectionibus conicis solem ambientium (teorie pohybu nebeských těles, která se v kuželových řezech otáčejí kolem Slunce), metoda zahrnující normální rovnice, stejně jako Gaussova eliminační metoda a Gauss-Newtonova metoda , která šla daleko za Legendre. V něm označil za svůj objev metodu nejmenších čtverců a tvrdil, že ji objevil a použil již v roce 1795 (tj. Před Legendrem), což ho dlouho štvalo. Legendre si na to stěžoval v dlouhém dopise Gaussovi, který Gauss ponechal bez odpovědi. Gauss jen občas odkazoval na záznam ve svém matematickém deníku ze 17. června 1798 (latinská kryptická věta: Calculus probabilitatis contra La Place defensus (počet pravděpodobnosti bráněný Laplaceovi) a nic jiného). Laplace věc posoudil tak, že Legendre vydal první publikaci, ale Gauss nepochybně tuto metodu předem znal, sám ji použil a také ji sdělil ostatním astronomům dopisem. Metoda nejmenších čtverců se po zveřejnění rychle stala standardní metodou zpracování astronomických nebo geodetických datových souborů.

Gauss použili metodu intenzivně ve svém průzkumu království Hannoveru od triangulace . Dvoudílná práce byla publikována v letech 1821 a 1823 a v roce 1826 doplněk k Theoria combinationis Observationum erroribus minimis obnoxiae (teorie kombinace pozorování podléhajících nejmenším chybám) , ve kterém Gauss zdůvodnil úspěch metody nejmenších čtverců s uvedením, že byl porovnán s jinými metodami, je výpočet úpravy v širokém ohledu optimální. Matematická formulace tohoto tvrzení je známá jako Gaussova-Markowova věta, pojmenovaná podle Andreje Andrejewitsche Markowa , který tuto část Gaussovy práce, která byla zpočátku opomíjena, znovu objevila a zlidověla ve 20. století (viz také Gauß-Markowova věta # Geschichte ) . Theoria Combinationis také obsahuje metody pro efektivní řešení soustavy lineárních rovnic , jako je například metoda Gauss-Seidel a LR rozkladu , které představují významný pokrok na matematické znalosti času.

Francouzský zeměměřič André-Louis Cholesky vyvinul během první světové války rozklad Cholesky , což ve srovnání s Gaussovou metodou řešení opět představovalo značný nárůst účinnosti. V 60. letech vyvinul Gene Golub myšlenku řešení vyskytujících se systémů lineárních rovnic pomocí dekompozice QR .

Postup

požadavky

Člověk se dívá na závislou proměnnou, která je ovlivněna jednou nebo více proměnnými. Prodloužení pružiny závisí pouze na použité síle, ale ziskovost společnosti závisí na několika faktorech, jako jsou tržby , různé náklady nebo vlastní kapitál . Pro zjednodušení zápisu je reprezentace omezena na jednu proměnnou v následujícím textu . Vztah mezi a proměnnými je určen funkcí modelu , například parabolou nebo exponenciální funkcí

,

které závisí na a na funkčních parametrech. Tato funkce pochází buď ze znalosti uživatele, nebo z více či méně časově náročného hledání modelu; může být nutné použít různé funkce modelu a porovnat výsledky. Jednoduchým případem založeným na stávajících znalostech je například pružina, protože zde je modelovým požadavkem Hookův zákon a tedy lineární funkce s pružinovou konstantou jako jediným parametrem. V obtížnějších případech, jako je například společnost, však musí výběru typu funkce předcházet složitý proces modelování .

Aby se získaly informace o parametrech, a tedy o konkrétním typu vztahu, jsou pro příslušné dané hodnoty nezávislých proměnných shromažďovány odpovídající pozorovací hodnoty . Parametry slouží k přizpůsobení zvoleného typu funkce těmto pozorovaným hodnotám . Cílem je nyní zvolit parametry tak, aby funkce modelu co nejlépe aproximovala data.

Gauss a Legendre měli myšlenku vytvořit distribuční předpoklady o chybách měření těchto pozorovacích hodnot. Měly by být v průměru nulové, měly by mít konstantní rozptyl a měly by být stochasticky nezávislé na jakékoli jiné chybě měření . To znamená, že v chybách měření již nejsou žádné systematické informace, tj. Že kolísají kolem nuly čistě náhodou. Chyby měření by navíc měly být normálně distribuovány , což má na jedné straně pravděpodobnostní výhody a na druhé straně zaručuje, že odlehlé hodnoty jsou tak dobré, jak je nemožné.

Aby bylo možné určit parametry podle těchto předpokladů , je obecně nutné, aby existovalo podstatně více datových bodů než parametrů, takže to musí platit.

Minimalizace součtu čtverců chyb

Kritérium pro určení aproximace by mělo být zvoleno tak, aby velké odchylky funkce modelu od dat byly váženy těžší než malé. Pokud není možné řešení bez jakýchkoli odchylek, pak je kompromis s celkově nejmenší odchylkou nejlepším obecně použitelným kritériem.

Za tímto účelem je součet druhých mocnin chyb, kterému se také říká součet čtverců chyb (přesněji: součet druhých mocnin zbytků ), definován jako součet čtvercových rozdílů mezi hodnoty modelové křivky a data .

Ve vzorci notace s parametry a výsledky

Poté by měly být vybrány ty parametry, pro které je součet čtvercových chyb úprav minimální:

Jak přesně je tento problém minimalizace vyřešen, závisí na typu funkce modelu.

Pokud je pro externí datovou sadu předpovídán součet čtverců chyb, hovoří se o statistice PRESS ( anglický prediktivní reziduální součet čtverců ).

Funkce lineárního modelu

Funkce lineárního modelu jsou lineární kombinace libovolných, obecně nelineárních základních funkcí. U takovýchto modelových funkcí lze problém minimalizace řešit také analyticky pomocí přístupu extrémních hodnot bez iteračních aproximačních kroků. Nejprve je ukázáno několik jednoduchých speciálních případů a příkladů.

Speciální případ jednoduché lineární nejlépe padnoucí přímky

Odvození a postup

Polynom prvního řádu je jednoduchá modelová funkce se dvěma lineárními parametry

Hledáme koeficienty a nejlépe padnoucí přímku pro dané naměřené hodnoty . Odchylky mezi hledanou přímkou ​​a příslušnými naměřenými hodnotami

se nazývají chyby montáže nebo zbytky . Nyní hledáme koeficienty a s nejmenším součtem druhých mocnin chyb

.

Velká výhoda přístupu s tímto čtvercem chyb se projeví, když je tato minimalizace provedena matematicky: součtová funkce je chápána jako funkce dvou proměnných a (příchozí naměřené hodnoty jsou číselné konstanty), pak derivace (přesněji: parciální derivace ) funkce vytvořené podle těchto proměnných (tj. a ) a nakonec z této derivace hledaly nulový bod . Výsledkem je lineární systém rovnic

s řešením

a ,

kde představuje je součet součinů odchylek mezi a a představuje na součet kvadratických odchylek o . Je aritmetický průměr z hodnot, podle toho. Řešení pro lze také nalézt v nestředěné formě pomocí výtlakové věty

lze specifikovat. Tyto výsledky lze také odvodit pomocí funkcí skutečné proměnné, tj. Bez parciálních derivací.

Příklad s nejlépe padnoucí přímkou

V tomto případě se vypočítá nejlépe padnoucí přímka tvaru, aby se ukázal vztah mezi dvěma vlastnostmi datové sady. Soubor dat se skládá z délky a šířky deseti válečných lodí (viz údaje o válečné lodi ). Měl by být proveden pokus o přiřazení zeměpisné šířky k zeměpisné délce. Data jsou uvedena v prvních třech sloupcích následující tabulky. Ostatní sloupce se týkají průběžných výsledků pro výpočet nejlépe padnoucí přímky. Proměnná by měla označovat délku válečné lodi a její šířku. Hledáme přímku, pro kterou, pokud jsou použity známé hodnoty, jsou funkční hodnoty co nejblíže známým hodnotám .

Válečná loď Délka (m) Šířka (m)
1 208 21.6 40.2 3.19 128,24 1616.04 24,88 3,28
2 152 15.5 −15,8 -2,91 45,98 249,64 15,86 0,36
3 113 10.4 −54,8 −8,01 438,95 3003.04 9,57 -0,83
4. místo 227 31.0 59.2 12.59 745,33 3504,64 27,95 −3,05
5 137 13.0 -30,8 −5,41 166,63 948,64 13,44 0,44
6. místo 238 32.4 70.2 13,99 982,10 4928.04 29,72 -2,68
7. místo 178 19.0 10.2 0,59 6.02 104.04 20.05 1,05
8. místo 104 10.4 −63,8 −8,01 511.04 4070,44 8.12 −2,28
9 191 19.0 23.2 0,59 13,69 538,24 22,14 3.14
10 130 11.8 -37,8 -6,61 249,86 1428,84 12.31 0,51
Součet Σ 1678 184,1 3287,72 20391,60

Nejvhodnější linie je určena koeficienty a , které jsou vypočítány pomocí výše uvedeného

Konstanty a jsou příslušné průměrné hodnoty z - a metriky, takže

Jako první přechodný krok lze nyní vypočítat odchylku od střední hodnoty pro každou válečnou loď: a - tyto hodnoty se zadávají do čtvrtého a pátého sloupce výše uvedené tabulky. To zjednodušuje vzorec pro

Jako druhý mezistupeň, produkty a lze vypočítat pro každý válečné. Tyto hodnoty se zadávají v šestém a sedmém sloupci tabulky a nyní je lze snadno sčítat. To lze vypočítat jako

Hodnotu lze již interpretovat: Za předpokladu, že data jsou lineárně příbuzná a mohou být popsána naší vypočítanou linií nejlepší shody, se šířka válečné lodi zvětší o přibližně 0,16 metru na každý delší metr.

Zachycení je pak

Bodový graf délek a šířek deseti náhodně vybraných válečných lodí s nakreslenou funkcí lineární kompenzace

Rovnice nejlépe padnoucí přímky je tedy

Pro ilustraci je možné data vykreslit jako bodový graf a vložit nejlépe padnoucí čáru. Graf naznačuje, že mezi délkou a šířkou válečné lodi pro naše ukázková data skutečně existuje lineární vztah. Úprava bodů je celkem dobrá. Na odchylku hodnot předpovězených přímkou od naměřených hodnot lze také pohlížet jako na měřítko . Odpovídající hodnoty se zadávají do osmého a devátého sloupce tabulky. Průměrná odchylka je 2,1 m. Koeficient determinace jako standardizovaný koeficient také udává hodnotu asi 92,2% (100% by odpovídalo střední odchylce 0 m); pro výpočet viz příklad pro koeficient determinace .

Negativní zachycení však znamená, že v našem lineárním modelu má válečná loď o délce 0 metrů zápornou šířku - nebo válečné lodě začínají existovat až od určité minimální délky. Ve srovnání s realitou je to samozřejmě špatně, což lze vzít v úvahu při posuzování statistické analýzy. Je pravděpodobné, že model je platný pouze pro oblast, pro kterou jsou naměřené hodnoty skutečně k dispozici (v tomto případě pro délky válečných lodí mezi 100 m a 240 m) a že mimo oblast již není lineární funkce vhodná k reprezentaci data.

Jednoduché polynomové křivky, které nejlépe odpovídají

Scatterplot: Průměrná hmotnost mužů podle věku s funkcí parabolického modelu
Soubor dat s aproximujícími polynomy

Nejvhodnější polynomy jsou obecnější než lineární nejlépe padnoucí linie

,

což bude nyní ilustrováno na příkladu (takové vyrovnávací polynomické přístupy lze - kromě iteračního řešení - řešit analyticky pomocí přístupu extrémních hodnot).

Výsledky průzkumu Mikrosčítání Federálního statistického úřadu představují průměrné hmotnosti mužů podle věkových skupin (zdroj: Federální statistický úřad, Wiesbaden 2009). Pro analýzu byly věkové skupiny nahrazeny středními třídami. Zkouší se závislost proměnné hmotnosti ( ) na proměnlivém věku ( ).

Bodový diagram naznačuje přibližně parabolický vztah mezi a , který lze často dobře aproximovat pomocí polynomu. Stává se polynomickým přístupem k formě

zkouší. Řešením je polynom 4. stupně

.

Měřicí body se odchylují od funkce modelu v průměru ( standardní odchylka ) 0,19 kg. Pokud snížíte stupeň polynomu na 3, získáte řešení

se střední odchylkou 0,22 kg a s polynomickým stupněm 2 roztok

s průměrnou odchylkou 0,42 kg. Jak je vidět, pokud jsou vyšší termíny vynechány, změní se koeficienty nižších termínů. Metoda se snaží z každé situace dostat to nejlepší. Odpovídajícím způsobem jsou chybějící vyšší termíny co nejlépe kompenzovány pomocí nižších termínů, dokud není dosaženo matematického optima. Polynom druhého stupně (parabola) velmi dobře popisuje průběh měřicích bodů (viz obrázek).

Zvláštní případ funkce lineárního nastavení s několika proměnnými

Pokud je funkcí modelu vícerozměrný polynom prvního řádu, tj. Pokud má místo jedné proměnné několik nezávislých modelových proměnných , získá se lineární funkce formuláře

,

ti na zbytcích

vede a o minimalizačním přístupu

lze vyřešit.

Obecný lineární případ

Dvourozměrná polynomická plocha druhého řádu s 3 × 3 = 9 základních funkcí:
f (x 1 , x 2 ) = 0 + 1 x 1 1 + 2 x 1 2 + 3 x 2 1 + 4 x 1 1 x 2 1 + 5 x 1 2 x 2 1 + 6 x 2 2 + 7 x 1 1 x 2 2 + 8 x 1 2 x 2 2

V následujícím textu bude uveden obecný případ všech funkcí lineárního modelu s libovolnou dimenzí. Pro danou funkci měřené hodnoty

s nezávislými proměnnými je optimálně přizpůsobená funkce lineárního modelu

chtěl, jehož kvadratická odchylka by měla být minimální. jsou souřadnice funkcí, lineární vstupní parametry, které mají být určeny, a všechny lineárně nezávislé funkce vybrané pro přizpůsobení problému.

V daných měřicích bodech

jeden získá chyby nastavení

nebo v maticovém zápisu

kde vektor, který shrnuje matici hodnot základních funkcí , vektor parametrů , parametry a vektorová pozorování, kde .

Problém minimalizace pomocí euklidovské normy do

může být formulován v pravidelném případě (tj. má úplnou sloupcovou pozici , takže je pravidelný a tedy invertibilní) pomocí vzorce

lze vyřešit jasně analyticky, jak bude vysvětleno v další části. V případě singuláru , pokud není v plném pořadí, systém normálních rovnic není jednoznačně řešitelný, tzn. H. parametr nelze identifikovat (viz Gaussova-Markowova věta # Singulární případ, odhadovatelné funkce ).

Řešení problému minimalizace

Odvození a postup

Problém minimalizace vzniká, jak ukazuje obecný lineární případ, jako

Tento problém lze vždy vyřešit. Pokud má matice plné hodnocení , je řešení dokonce jedinečné. Chcete -li určit extrémní bod, vynulování parciálních derivací vzhledem k ,

lineární systém normálních rovnic (také Gaussovy normální rovnice nebo normální rovnice )

který poskytuje řešení problému minimalizace a obecně musí být řešen numericky. Má úplnou hodnost a je , matice je pozitivní definitivní, takže nalezené extrémy jsou opravdu minimum. Tímto způsobem lze řešení problému minimalizace redukovat na řešení soustavy rovnic. V jednoduchém případě nejlépe padnoucí přímky může být její řešení, jak bylo ukázáno, dokonce dáno přímo jako jednoduchý vzorec.

Alternativně lze v reprezentaci použít normální rovnice

vypsat, přičemž na standardní skalární symbolizuje produkt a lze také chápat jako integrál překrytí základních funkcí. Základní funkce je třeba číst jako vektory s diskrétními podpůrnými body v místě pozorování .

Kromě toho lze problém minimalizace dobře analyzovat rozkladem singulárních hodnot . To také motivovalo vyjádření pseudo inverze , zobecnění normální inverze matice . To pak poskytuje pohled na nestandardní lineární systémy rovnic, které umožňují ne stochasticky, ale algebraicky motivovaný koncept řešení.

Numerické zpracování roztoku

Existují dva způsoby řešení problému numericky. Na jedné straně normální rovnice

které jsou jedinečně řešitelné, má -li matice plnou hodnost. Kromě toho má matice součtu produktů tu vlastnost, že je definitivní , takže její vlastní čísla jsou kladná. Spolu se symetrií toho lze použít k vyřešení problému při použití numerických metod: například s Choleskyho dekompozicí nebo metodou CG . Protože jsou obě metody silně ovlivněny stavem matice, někdy to není doporučený přístup: Pokud je podmínka již špatná, pak je kvadratická špatně podmíněná. V důsledku toho lze chyby zaokrouhlení zesílit do takové míry, že způsobí, že výsledek bude nepoužitelný. Metody regularizace však mohou stav zlepšit.

Jednou z metod je takzvaná hřebenová regrese , která se vrací k Hoerlovi a Kennardovi (1970). Anglické slovo ridge znamená něco jako hřeben, útes, zpět. Místo špatně podmíněné matice je zde použita lépe podmíněná matice . Zde je rozměrný matice identity. Umění spočívá ve vhodném výběru . Příliš malý zvyšuje výdrž jen málo, příliš velký vede ke zkreslené adaptaci.

Na druhou stranu původní problém minimalizace poskytuje stabilnější alternativu, protože s malou hodnotou minima má podmínku v řádu velikosti podmínky , s velkými hodnotami čtverce podmínku . K výpočtu řešení se používá rozklad QR , který je generován domácími transformacemi nebo Givensovými rotacemi . Základní myšlenkou je, že ortogonální transformace nemění euklidovskou normu vektoru. Tak to je

pro každou ortogonální matici . K vyřešení problému lze vypočítat rozklad QR , přičemž pravá strana je také transformována přímo. To vede k formě

s , kde je pravý horní trojúhelníková matice . Řešení problému je tedy získáno řešením soustavy rovnic

Norma minima pak vyplývá ze zbývajících složek transformované pravé strany, protože související rovnice nelze nikdy splnit kvůli nulovým čarám v .

Ve statistické regresní analýze , vzhledem k několika proměnným, se hovoří o vícenásobné lineární regresi . Nejběžnější přístup, více lineární model k odhadu než obyčejný odhad nejmenších čtverců nebo obyčejný nejmenší čtverec ( anglicky obyčejný nejmenší čtverec , krátce OLS ) známý. Na rozdíl od běžné metody nejmenších čtverců je generalizovaná metoda nejmenších čtverců, používá se krátký VMKQ ( anglicky generalized nejmenších čtverců , krátce GLS ) v generalizovaném lineárním regresním modelu . V tomto modelu se chybové termíny odchylují od distribučního předpokladu, jako je nekorelace a / nebo homoscedasticita . Naproti tomu u vícerozměrné regrese existuje mnoho hodnot pro každé pozorování , takže místo vektoru je přítomna matice (viz obecný lineární model ). Lineární regresní modely byly intenzivně zkoumány ve statistikách z hlediska teorie pravděpodobnosti. Zejména v ekonometrii jsou například analyzovány komplexní rekurzivně definované lineární strukturní rovnice za účelem modelování ekonomických systémů.

Problémy s omezením

Často jsou známy další informace o parametrech, které jsou formulovány sekundárními podmínkami, které jsou pak k dispozici ve formě rovnic nebo nerovnic. Rovnice se objevují například tehdy, když mají být interpolovány určité datové body. Nerovnosti se objevují častěji, obvykle ve formě intervalů pro jednotlivé parametry. V úvodním příkladu byla zmíněna pružinová konstanta, která je vždy větší než nula a vždy ji lze odhadnout směrem nahoru pro konkrétní uvažovaný případ.

V případě rovnice je lze použít pro rozumně položený problém za účelem transformace původního problému minimalizace do jednoho z nižších dimenzí, jehož řešení automaticky splňuje omezení.

Případ nerovnosti je obtížnější. Problém zde vzniká u lineárních nerovností

s ,

kde nerovnosti jsou míněny komponentově. Tento problém lze vyřešit jednoznačně jako konvexní a kvadratický optimalizační problém a lze k němu přistoupit například pomocí metod pro řešení takových problémů .

Kvadratické nerovnosti vznikají například při použití Tychonowské regularizace k řešení integrálních rovnic . Rozpustnost zde není vždy dána. Numerické řešení může například probíhat speciálními dekompozicemi QR .

Funkce nelineárního modelu

Základní myšlenka a postup

S příchodem výkonných počítačů získává na důležitosti zejména nelineární regrese. Parametry jsou do funkce zahrnuty nelineárním způsobem. Nelineární modelování v zásadě umožňuje přizpůsobit data libovolné tvarové rovnici . Protože tyto rovnice definují křivky , termíny nelineární regrese a „přizpůsobení křivky“ se většinou používají synonymně.

Některé nelineární problémy lze vhodnou substitucí převést na lineární a poté vyřešit výše uvedeným způsobem. Multiplikativní model formuláře

lze převést na aditivní systém například pomocí logaritmu . Tento přístup se používá mimo jiné v teorii růstu .

Obecně problém tvaru vzniká při nelineárních modelových funkcích

s nelineární funkcí . Dílčí diferenciace pak vede k systému normálních rovnic, které již nelze analyticky řešit. Numerické řešení lze provést iterativně pomocí Gauss-Newtonovy metody .

Současné programy často pracují s jednou variantou, algoritmem Levenberg-Marquardt . Zde je legalizace monotónnost přibližného výsledek zaručen. Pokud je v odhadovaných hodnotách větší odchylka, je metoda navíc tolerantnější než původní metoda. Obě metody souvisejí s Newtonovou metodou a za vhodných podmínek (počáteční bod je dostatečně blízko místnímu optimu) se obvykle sbíhají čtvercově , tj. Počet správných desetinných míst se v každém kroku zdvojnásobí.

Pokud je diferenciace příliš časově náročná kvůli složitosti objektivní funkce, je jako alternativní řešení k dispozici řada dalších metod, které nevyžadují žádné derivace, viz metody lokální nelineární optimalizace .

Příklad z kinetiky enzymů nelineární modelové funkce

Příkladem regresních modelů, které jsou plně nelineární, je kinetika enzymů . Zde se požaduje, aby chyba byla „pouze“ (rychlost reakce) a ne (koncentrace substrátu), a lze ji tedy použít jako proměnnou. Vztah Lineweaver-Burk je algebraicky správná transformace rovnice Michaelis-Menten , ale její aplikace poskytuje správné výsledky pouze v případě, že naměřené hodnoty neobsahují chyby. To vyplývá ze skutečnosti, že realita vzniká pouze s rozšířeným vztahem Michaelis-Menten

může být popsán s jako parametr chyb. Tuto rovnici již nelze linearizovat, proto zde musí být řešení určeno iterativně.

Nesprávné jednání, pokud nejsou splněny požadavky

Metoda nejmenších čtverců umožňuje za určitých podmínek vypočítat nejpravděpodobnější ze všech parametrů modelu. K tomu musí být vybrán správný model, musí být k dispozici dostatečný počet naměřených hodnot a odchylky naměřených hodnot od modelového systému musí tvořit normální rozdělení . V praxi však lze metodu použít i pro různé účely, pokud tyto požadavky nejsou splněny. Je však třeba poznamenat, že metoda nejmenších čtverců může za určitých nepříznivých podmínek poskytnout zcela nežádoucí výsledky. Například by v měřených hodnotách neměly být žádné odlehlé hodnoty, protože ty zkreslují výsledek odhadu . Navíc multikolinearita mezi odhadovanými parametry je nepříznivá, protože způsobuje numerické problémy. Mimochodem, regresoři, kteří jsou daleko od ostatních, mohou mít také velký vliv na výsledky výpočtu úpravy. Mluví se zde o hodnotách s velkým pákovým efektem ( anglicky High Leverage Value ).

Multikolinearita

Fenomén multikolinearity vzniká, když jsou měření dvou daných proměnných a velmi vysoká korelace téměř lineárně závislé. V lineárním případě to znamená, že determinant matice normální rovnice je velmi malý a naopak norma inverzní je velmi velká; stav z je tedy vážně narušena. Normální rovnice se pak numericky obtížně řeší. Hodnoty řešení mohou být neuvěřitelně velké a dokonce i malé změny v pozorováních způsobují velké změny v odhadech.

Utéct

Odlehlé hodnoty y:
Hodnota táhne přímku nahoru

Hodnoty dat, které „nezapadají do řady měření“, jsou definovány jako odlehlé hodnoty . Tyto hodnoty mají velký vliv na výpočet parametrů a zfalšují výsledek. Aby se tomu zabránilo, musí být data zkontrolována na nesprávná pozorování. Zjištěné odlehlé hodnoty lze například vyřadit z řady měření nebo použít alternativní metody výpočtu odolné vůči odlehlým hodnotám, jako je vážená regrese nebo metoda tří skupin.

V prvním případě se po prvním výpočtu odhadovaných hodnot používají statistické testy ke kontrole, zda v jednotlivých naměřených hodnotách existují odlehlé hodnoty. Tyto naměřené hodnoty jsou poté vyřazeny a odhadované hodnoty jsou znovu vypočítány. Tato metoda je vhodná, pokud existuje jen několik odlehlých hodnot.

Při vážené regresi jsou závislé proměnné váženy v závislosti na jejich zbytcích . Odlehlé hodnoty, d. H. Pozorování s velkými zbytky mají nízkou hmotnost, která může být odstupňována v závislosti na velikosti zbytku. V algoritmu podle Mostellera a Tukeyho (1977), který se nazývá „biweighting“, jsou bezproblémové hodnoty váženy 1 a odlehlé hodnoty 0, což znamená, že odlehlá hodnota je potlačena. V případě vážené regrese je obvykle vyžadováno několik iteračních kroků, dokud se sada identifikovaných odlehlých hodnot již nezmění.

Zobecněné modely nejmenších čtverců

Pokud jsou změkčeny silné požadavky v postupu pro chybové členy, získají se takzvané zobecněné přístupy nejmenších čtverců . Důležité speciální případy pak mají svá vlastní jména, například vážené nejmenší čtverce ( anglicky vážené nejmenší čtverce , krátce WLS ), ve kterých se chyby dále pokládají za nekorelované, ale ne více se stejnou odchylkou. To vede k problému formy

kde D je diagonální matice . Pokud se odchylky velmi liší, odpovídající normální rovnice mají velmi velkou podmínku , a proto by měl být problém vyřešen přímo.

Pokud někdo dále předpokládá, že chyby v naměřených datech by měly být vzaty v úvahu také ve funkci modelu, výsledkem „celkem nejmenších čtverců“ je formulář

kde je chyba v modelu a chyba je v datech.

Nakonec existuje také možnost nepoužívat jako základ normální distribuci. To odpovídá například minimalizaci nikoli v euklidovské normě, ale v součtové normě . Takové modely jsou předmětem regresní analýzy .

Částečná regrese nejmenších čtverců (PLS)

Částečná regrese nejmenších čtverců (anglicky Partial Least Squares, PLS) nebo „projekce do latentní struktury“ je multivariační metodou a lze ji použít ke zmenšení dimenze, přičemž podobně jako u regrese hlavních komponent je transformace vstupu i proběhnou cílové proměnné.

literatura

  • Åke Björck: Numerické metody pro problémy nejmenších čtverců. SIAM, Philadelphia 1996, ISBN 0-89871-360-9 .
  • Walter Großmann: Základy výpočtu ekvalizace. 3. ext. Edice. Springer Verlag, Berlin / Heidelberg / New York 1969, ISBN 3-540-04495-7 .
  • Richard J. Hanson, Charles L. Lawson: Řešení problémů nejmenších čtverců. SIAM, Philadelphia 1995, ISBN 0-89871-356-0 .
  • Frederick Mosteller , John W. Tukey : Analýza dat a regrese - druhý kurz statistiky. Addison-Wesley, Reading MA 1977, ISBN 0-201-04854-X .
  • Gerhard Sacrifice: Numerická matematika pro začátečníky. Úvod pro matematiky, inženýry a počítačové vědce. 4. vydání. Vieweg, Braunschweig 2002, ISBN 3-528-37265-6 .
  • Peter Schönfeld: Metody ekonometrie. 2 svazky. Vahlen, Berlín / Frankfurt 1969–1971.
  • Eberhard Zeidler (ed.): Kapesní kniha matematiky. Odůvodněné v. V Bronsteinu, KA Semendjajew. Teubner, Stuttgart / Leipzig / Wiesbaden 2003, ISBN 3-8171-2005-2 .
  • T. Strutz: Přizpůsobení dat a nejistota (Praktický úvod do vážených nejmenších čtverců a dále). 2. vydání. Springer Vieweg, 2016, ISBN 978-3-658-11455-8 .

webové odkazy

Wikibooky: Úvod do regresního výpočtu  - učební a učební materiály

Individuální důkazy

  1. Göttingen. In:  Goettingische inzeráty z naučených věcí / Goettingische inzeráty z naučených věcí / Goettingische naučené reklamy , 23. ledna 1802, s. 1 (online na ANNO ).Šablona: ANNO / údržba / plyn
  2. ^ Moritz CantorGauß: Karl Friedrich G. In: Allgemeine Deutsche Biographie (ADB). Svazek 8, Duncker & Humblot, Leipzig 1878, s. 430-445., Zde s. 436.
  3. Paul Karlson: Kouzlo čísel. Ullstein-Verlag, Berlín-západ. Deváté, přepracované a rozšířené vydání, 1967, s. 390 f.
  4. ^ A. Abdulle, Gerhard Wanner : 200 let metod nejmenších čtverců . In: Elements of Mathematics , svazek 57, 2002, s. 45-60, doi: 10,1007 / PL00000559 .
  5. Srov. Moritz CantorGauß: Karl Friedrich G. In: Allgemeine Deutsche Biographie (ADB). Svazek 8, Duncker & Humblot, Leipzig 1878, s. 430-445., S. 436.
  6. ^ Adrien-Marie Legendre: Nouvelles méthodes pour la détermination des orbites des comètes. Paris 1805, s. 72–80 (příloha): Sur la Méthode des moindres quarrés.
  7. ^ Carl Friedrich Gauß: Theoria Motus Corporum Coelestium in sectionibus conicis solem ambientium . Göttingen 1809; Carl Haase (transl.): Teorie pohybu nebeských těles, která obíhají kolem Slunce v kuželovitých částech. Hannover 1865.
  8. ^ Matice a determinanty .
  9. Vytištěno v Gauß, Werke, svazek X / 1, s. 380.
  10. Abdulle, Wanner: Elements of Mathematics . Svazek 57, 2002, s. 51. S faxovou kopií záznamu deníku.
  11. ^ Laplace, citováno z Herman Goldstine: Historie numerické analýzy . Springer, 1977, s. 209.
  12. ^ Carl Friedrich Gauß: Theoria combinationis Observationum erroribus minimis obnoxiae. 2 díly. Göttingen 1821–1823 (Commentationes Societatis Regiae Scientiarum Gottingensis recentiores, classis mathematicae, svazek 5.); Supplementum Theoria combinationis Observationum erroribus minimis obnoxiae. Göttingen 1826/28 (Commentationes Societatis Regiae Scientiarum Gottingensis recentiores, classis mathematicae, svazek 6.). Anton Börsch Paul Simon (Ed.): Pojednání o metodě nejmenších čtverců Carl Friedrich Gauss. V německém jazyce. Berlín 1887, Textarchiv - internetový archiv .
  13. Pete Stewart: Možná bychom tomu měli říkat „Lagrangeova eliminace“ . Digest Sunday, 21. června 1991, 30. června 1991, svazek 91, číslo 26.
  14. H. Wirths: Relační matematika v regresi a korelaci . In: Stochastik in der Schule , 1991, číslo 1, s. 34–53
  15. ^ Hans R. Schwarz, Norbert Köckler: Numerická matematika. 7. revidováno Edice. Teubner, 2009, doi: 10.1007 / 978-3-8348-9282-9 , ISBN 978-3-8348-9282-9 , s. 141, kapitola 3.6 (Gaussova aproximace), věta 3.23.
  16. AE Hoerl a RW Kennard: Ridge regrese: neobjektivní odhad neortogonálních problémů , Techno Metrics 12 (1970), 55-82.
  17. ^ Sabine Van Huffel, Joos Vandewalle: Celkový počet nejmenších čtverců Problém: Výpočtové aspekty a analýza. SIAM Publications, Philadelphia PA 1991, ISBN 0-89871-275-0 .
  18. Martin Plesinger: Problém nejmenších čtverců a redukce dat v AX ≈ B. Disertační práce. ( Memento z 24. července 2012 v internetovém archivu ; PDF; 1,6 MB) TU Liberec a ICS Praha, 2008.
  19. Částečná regrese nejmenších čtverců. 3. srpna 2017, přístup 23. srpna 2021 (německy).
  20. 1,8. Křížový rozklad - dokumentace scikit -learn 0.24.2. Získaný 23. srpna 2021 .