Vícerozměrná analýza

Základní úvod

vícerozměrná analýza je statistická metoda zahrnující řadu způsobů, nejzákladnější jednorozměrnou, vícerozměrnou analýzu a následně rozšířenou.

statistika existuje více proměnných (či faktorů, ukazatelů) statistická analýza zároveň je důležitým odvětvím statistiky, jednorozměrný statistický vývoj.

statistika Vícerozměrná statistická analýza vznikla v medicíně a psychologii.

hlavní obsah

Ve studiu společenských a behaviorálních věd se odpovídajícím způsobem zvýšila příležitost s popularitou aplikace komplexních vícerozměrných statistických metod a metod výzkumu osobních počítačů k analýze dat. Zejména v posledních letech se počet absolventů vysokých škol každým rokem zvyšuje, a to na základě potřeby psát disertační práce, používání vícerozměrných statistických metod a statistických softwarových balíků se stává nepostradatelnou schopností.

Vícenásobná regrese v kapitole

Kapitola kanonická korelační analýza

Kapitola diskriminační analýza

Kapitola Znamená test hypotézy

pátá kapitola vícerozměrná analýza rozptylu

Analýza hlavních komponent v kapitole VI

Kapitola VII faktorové analýzy

shluková analýza Kapitola VIII

IX metoda vícerozměrného škálování

modelování strukturálních rovnic Kapitola X

XI hierarchický lineární režim

< h2> statistická analýza

(statistická analýza s více proměnnými)

například hypertenze vaří pro 630 vyšetřovacích, kontrolních položek, kromě krevního tlaku je to věk, pohlaví, váha, tělesný tuk a dalších 15 projektů (proměnných). Pokud se podíváte na vztah mezi krevním tlakem a nadváhou jednorozměrnou statistickou analýzou, data jsou obvykle provedena ve formě tabulky. Z tabulky 1, ve srovnání s nadváhou a bez nadváhy, míra prevalence hypertenze více než dvojnásobná. Pokud se však údaje rozdělí podle tělesného tuku a nikoli podle tělesného tuku do dvou skupin, a pak se prozkoumá vztah mezi nadváhou a prevalencí hypertenze v každé skupině, nepodařilo se jim najít jasnou souvislost mezi prevalencí nadváhy a hypertenze. Jinými slovy, jednorozměrná statistická analýza ignoruje vliv dalších faktorů (v tomto příkladu tělesného tuku a věku). Pro informaci existuje řada proměnných objektivní reality, ale vzájemně se ovlivňují, použití jednoduché jednorozměrné statistické analýzy je nerozumné. Vícerozměrná statistická analýza bude schopna zohlednit vnitřní vazbu mezi proměnnými a interakcí.

vícerozměrná statistická teorie a nástroje teorie pravděpodobnosti a maticové matematiky. Ale pro praktické aplikace jde o to, pokud správné uchopení počítačového a softwarového balíku, jakož i některé předběžné vícerozměrné statistické znalosti mohou použít k řešení skutečných problémů. Vícerozměrný statistický obsah z praktického hlediska včetně regresní analýzy, diskriminační analýzy, faktorové analýzy, analýzy hlavních komponent, shlukové analýzy, analýzy přežití šesti velkých větví.

regrese

Když více proměnných x1, x2, ..., xm (označovaných jako regresní proměnné nebo argumenty, nezávislá proměnná) ovlivňuje metriku y (označovanou jako závislá proměnná, když statistická pravidelnost nebo závislá proměnná), lze provádět regresní analýzu, regresní analýzu, prvním úkolem je najít vliv regresních proměnných na index y (také nazývaný regrese); druhým úkolem je najít v regresi velké množství proměnných, které mohou mít vliv na index y (často označované jako faktorová analýza nebo screeningové proměnné); třetí úkol (také známý jako korelační analýza) je po dopadu pevných (nebo eliminovaných) ostatních proměnných zkoumáním každé proměnné regresní indikátory y je míra korelace (označovaná jako parciální korelační koeficient). Tyto tři úkoly spolu často souvisí a lze je provádět současně.

regresní proměnné x1, x2, ..., nejběžnější statistický vztah mezi závisle proměnnou y xm Existují dva typy: lineární a nelineární modely. Lineární model se předpokládá jako hlavní část y (odkazováno na), x1, x2, xm je vyjádřeno jako lineární

kde b0, b1, b2, ..., bm jsou neznámé konstanty, potřebné k odhadu vzorku, epsilon po nahrazení chyby y. Toto je nejčastěji používaný model, známý jako vícenásobná lineární regrese nebo vícenásobná lineární regrese. Metoda lineárního regresního modelu pro odhad neznámých konstant s velkým množstvím vzorků, klasická metoda je metoda nejmenších čtverců, je to ucelenější teorie, tato metoda je vhodnější pro dobu mezi regresní proměnnou korelace není významná. Další požadavky neznámé konstanty b0, b1, b2, ..., bm metoda hřebenové regrese také charakteristická kořenová regrese, regrese hlavních složek atd., se běžně používají při korelaci mezi velkou proměnnou regresí.

hlavní část a x1

y nelineárního regresního modelu, X2, ..., xm je nelineární funkce vztahu:

kde ┃ tvoří známé, neznámé konstanty α1, α2 ; ... se vzorkem k odhadu. Medicína je nejběžnější nelineární regresní logistická regrese, běžně se používá při výzkumu nemocí a kontrole problémů růstu a vývoje.

V předchozím kuchařském průzkumu hypertenze pomocí lineárního modelu a neznámých konstant určených metodou nejmenších čtverců a poté výběrem regresních proměnných lze získat proměnné v 15 sedmi proměnných členů vaření má diastolický krevní tlak významný vliv, které jsou uspořádané podle velikosti parciálního korelačního koeficientu: Věk (0,297), protučnělost (0,253) tělo, anamnéza zánětu ledvin (0,162), pohlaví (0,117), kategorie zaměstnání (0,081), rodinná anamnéza hypertenze (0,061), stupeň závislé soli (0,052). Z korelace mezi velikostí vzhledu, účinky na diastolický krevní tlak, tělesný tuk a vliv věku zhruba stejné. Může být také vidět, že: ačkoli typy dopadu, rodinná anamnéza a S. slaný diastolický krevní tlak, mají malý účinek.

diskriminační analýza

Podle některých ukazatelů výběrový soubor k určení patří do kategorie. Například v lékařské diagnostice, abychom zjistili, zda jde o pacienta s akutní apendicitidou, jde o diskriminační problém. K zodpovězení této otázky často vyžaduje, aby pacient detekoval řadu ukazatelů (proměnných) a na základě pozorování ukazatelů bude zařazen do třídy pacienta s akutní apendicitidou nebo netrpí akutní apendicitidou. Diskriminační analýza obvykle nejprve stanoví diskriminační funkci, pozorovaná hodnota se dosadí do odpovídajícího indexu každé proměnné a poté se provede úsudek v souladu s určovacími nebo rozhodnutími autentizačními pravidly (např. hodnota funkce je větší než určitá hodnota) . Například, aby se prozkoumal vztah mezi žaludečními a dusitanovými solemi sloučenin ze skupiny, byl skupině sdělen karcinom žaludku (označovaný jako Hl), atrofická gastritida (H2 of), povrchová gastritida (H3) 3 skupinám pacientů následujících šesti ukazatelů měření (proměnné): pohlaví (x1, 1 muž, 0 žena), věk (X2), hodnota pH v žaludku (X3), koncentrace dusitanů ve slinách (X4), koncentrace dusitanů v žaludeční šťávě (X5), žaludeční šťáva v koncentrace dimethylamoniumdusitanu (x6). Diskriminační analýza, může být stanoveno šest ukazatelů (proměnných) ve třech skupinách nemocí je distribuce významně odlišná x1, x2, x4, x6; zbývající dvě metriky jsou distribuovány v různých skupinách v podstatě stejné. Pro každou skupinu onemocnění lze stanovit následující diskriminační funkci:

u1 = -11,48 + 2,68 x 1 + 0,37 x 2 + 0,04 x 4 + 0,90 x 6 (H1) u2 = -14,06 + 3,79 x 1 + 0,35 x 2 + 0,50 x 4 + 1,82 x 6 (H2) 1 x -7 + 6,1 x 2 = -1,7 x2 + 0,34 x 4 + 0,84 x 6 (H3)

při diskriminační analýze hodnota měřeného případu (x1, x2, x4, x6) substituující diskriminační funkci, funkce pro získání množiny hodnot u1, u2, u3. Zde je pravidlo diskriminace: pokud je u1 maximum, věta je případem skupiny onemocnění H1; pokud je u2 maximum, penalizace je H2; pokud u3 maximum, pak je to H3. Diagnostika se tak stává zpracováním a analýzou dat, principy moderní nemocnice na automatické diagnostice založené na tomto. Obecně lze říci, že zkušenosti a znalosti lékaře do počítače, kterým je empiricky stanovena diagnóza v počítači ── diskriminační funkce. Proměnný koeficient před diskriminačními funkcemi obsahuje důležité informace. x3, x5 koeficient před výše uvedenými proměnnými jsou 0; před třemi koeficienty x1 (2,68, 3,79, 1,84) popsanými s ohledem na F (x1 = 0) je muž (x1 = 1) náchylnější k atrofické gastritidě (3,79) nebo rakovině žaludku (2,68); 3 x 2 koeficient před popisem stejného věku mít rakovinu žaludku, atrofickou gastritidu, povrchovou gastritidu poměr 0,37:0,35:0,27; a podobně.

faktorová analýza

, známá také jako faktorová analýza. Medicína, biologie a mezi všemi sociálními a přírodními jevy v každé proměnné (nebo věcech) často existuje korelace nebo podobnost. Je to proto, že mezi proměnnými (nebo věcmi) často existují společné faktory (známé jako společný faktor nebo společný faktor), zatímco tyto společné faktory ovlivňují různé proměnné (nebo tak něco). Základním úkolem faktorové analýzy je od řady proměnných (nebo něčeho) navenek směrem dovnitř najít jejich skrytý vnitřní společný faktor, poukazující na hlavní rysy společných faktorů a měřený skutečným použitím proměnné. (nebo věci) faktor veřejné výstavby. Faktorová analýza bodů typu R a Q, nazývaná R-typ, se používá pro analýzu proměnných faktorů mezi věcmi nazývanými pro typ Q.

Faktorová analýza režimu R například poskytla vzorové proměnné x1, x2, ..., xm, skrytý společný faktor ┃1, ┃2, ..., ┃k. Každá proměnná časová konstanta může být teoreticky zapsána takto:

na pravé straně první části je proměnný společný faktor (┃1, ┃2, ..., ┃k) působící část, po části mužské části nezávislých faktorů (nazývané částečná nezávislost). Faktorová analýza je základním úkolem vzorku určeného ┃1, ┃2, ..., ┃k a koeficientem it {α}, označovaným jako váhový faktor [alfa] it nebo faktor zatížení, když jsou vzorkem normalizovaná data. mezi sebou a předpokládat společný nekorelovaný faktor, váha α je korelační koeficient mezi pravými společnými proměnnými faktoru ┃j xi. Použití metody faktorové analýzy lze odvodit z malého počtu proměnných faktorů v pozorovaném, s minimem proměnných faktorů pro vysvětlení pozorovaného, odhalující vnitřně propojené věci. Vlastní vysvětlení faktorů musí být kombinováno odborností s praktickým testem. Například čínský vědec Liang Yuehua, analýza Sun Shang arch faktoru byla použita k identifikaci implicitních v šesti snadno měřitelných fyziologických parametrech (systolický krevní tlak, diastolický krevní tlak, dýchání, srdeční frekvence, tělesná teplota a množství slin) uvnitř společných faktorů. ┃1 a experimentální ┃1 úsudek může dobře reprezentovat rovnováhu sympatického nervu a nakonec ┃1 prokázal „chlad a teplo“ TCM, jeho podstatou je sympatická inhibice nebo vzrušení.

analýza hlavní složky je studie o tom, jak se vzájemně vztahovat proměnné integrované do jednoho (nebo několika) složených indikátorů (známých také jako hlavní složka), a komplexní index by měl odrážet pozorované proměnné, aby se maximalizovaly poskytované informace. Jako Hutchison (x1, x2, ..., xm) byly pozorovány proměnné, obecné přání složeného indikátoru Z lze zapsat.

Z je často ve skutečnosti schopen absorbovat m proměnných souvisejících s největší částí informace (podobně jako u faktorové analýzy ┃1), tato proměnná pozorování, když je mezi vzájemnými korelacemi málo času, použití hlavní složky analýza Není to vhodné. Pokud lze korelaci mezi sledovanými proměnnými rozdělit do několika skupin a každá skupina má malou korelaci, nelze ji integrovat s hlavní složkou všech proměnných, ale mělo by se více vzít několik hlavních složek. Když

skutečné použití, protože analýza hlavních složek a faktorová analýza jsou velmi podobné, takže počet statistiků obou testů často nerozlišuje, každý název je také použit.

Analýza hlavních komponent má mnoho aplikací v lékařském výzkumu, například někteří lidé ve věku 5 let se snadno změří vnitřní (bílé skvrny, stařecké skvrny, oči stojící v nohách, oblouk, zuby vypnuté) integrované do indikátoru Z, výpočty ukazují, že integrovaná hodnota Z dokáže absorbovat pět dávek stárnutí, 43 % všech informací, které mohou komplexně odrážet stupeň fyzického stárnutí.

shlukování

také nazývané taxonomie. Klasická taxonomie se zrodila před několika sty lety, jako je klasifikace fosílií, klasifikace rostlinných exemplářů. Minulá klasifikace se více opírá o některé specifické ukazatele. Vícerozměrnou statistickou analýzu můžeme použít pouze v případě, že je to vyžadováno pro klasifikaci věcí, nebo pokud konkrétní index neexistuje, pokud je obtížné použít. Zavedení matematických metod a taxonomie zvané „shluková analýza“ je otázkou 60 let. Po shlukové analýze se rychle rozvinula a dosáhla širokého použití, ale ne příliš vyspělá.

R shlukovou analýzu lze rozdělit na typ a typ Q, R uvedené proměnné pro typ klasifikace, vzorek (observační jednotku, věci), uvedenou klasifikaci typu Q. Základní klasifikace je podobnost nebo vzdálenost. Pokud jsou dvě proměnné (nebo vzorek) velmi blízké nebo podobné, přirozeně rozdělené ve stejné třídě. Proto při provádění shlukové analýzy musí být definována podobnost nebo vzdálenost. Definice typu podobnosti nebo vzdálenosti Metoda široká. Například korelační koeficient mezi společnými proměnnými reprezentujícími podobnost mezi proměnnými, euklidovská vzdálenost (nejprve bezrozměrná) mezi dvěma body reprezentujícími geometrickou vzdálenost mezi dvěma vzorky. Poté volba klasifikace matematických vzorců, stanovení jejich klasifikace. Tyto vzorce jsou také široké. Neexistuje jediný optimální vzorec. Praktici často používají různé tabulkové metody v kombinaci s odbornými znalostmi k určení výsledků klasifikace.

Analýza přežití

Původ analýzy přežití tabulky úmrtnosti. Kromě biologického přežití doby vnější vliv zdraví, ale také ovlivněn sociálními faktory, životními podmínkami. Analýza přežití studuje, které faktory mají významný vliv na „život“ a jaká je jeho míra rizika. Analýza přežití 20. století není problémem pouze pro studium lidského života, ale také pro všechny zobecněné problémy „života“ nebo „smrti“, jako je životnost motoru, doba přežití pacientů po operaci, srovnávací analýza ze dvou účinností atd. . Analýza přežití různých modelů, nejčastěji používaný Coxův regresní model, který se vyznačuje: relativním rizikem kombinovaných účinků m lze vyjádřit jako součin proměnných, kdy relativní riziko pro každou proměnnou působí samostatně (tj. také nazývaný multiplikativní model). Další konvenční aditivní modelový model, který se vyznačuje: relativním rizikem kombinovaných účinků proměnné m může představovat účinek každé proměnné i jednotlivě. Jaký typ modelu by měl být použit k určení, by měla být kombinována odbornost v konkrétních otázkách.

Kromě šesti hlavních větví je velmi běžná také vícerozměrná statistická analýza, analýza cest a kanonická korelační analýza. Obecně Regresní analýzu lze vypočítat pouze pro každou proměnnou (ostatní proměnné jsou pevné) velikost přímého působení indexu y a analýzu cesty lze vypočítat nepřímo pro každou proměnnou indikátoru y současně (tj. působením proměnné s ní spojené v y). ). Analýza cest má mnoho aplikací v genetických epidemiologických studiích. Kanonická korelační analýza je dalším rozvojem regresní analýzy. Současné měření více ukazatelů (y1, y2, ...) a množství nezávislých proměnných (x1, x2, ...) pro každou věc, analýza pomocí korelační analýzy a obsáhlejší kód toho, jak argument souvisí s integrované ukazatele.