Biografije Karakteristike Analiza

Analiza varijanse se odnosi na broj. Hipoteza koju treba testirati je da nema razlike između grupa.

Metode verifikacije o kojima smo gore govorili statističke hipoteze o značaju razlika između dva prosjeka u praksi su od ograničene upotrebe. To je zbog činjenice da se u cilju identifikacije uticaja svih mogućih uslova i faktora na rezultirajuću osobinu, terenski i laboratorijski eksperimenti, po pravilu, izvode ne koristeći dva, već veći broj uzoraka (1220 ili više ).

Istraživači često uspoređuju srednje vrijednosti nekoliko uzoraka spojenih u jedan kompleks. Na primjer, kada se proučava učinak različitih vrsta i doza gnojiva na prinose usjeva, eksperimenti se ponavljaju u različite opcije. U tim slučajevima poređenje u paru postaje glomazno, a statistička analiza cijelog kompleksa zahtijeva korištenje posebne metode. Ova metoda, razvijena u matematičkoj statistici, naziva se analiza varijanse. Prvi ga je upotrebio engleski statističar R. Fisher prilikom obrade rezultata agronomskih eksperimenata (1938).

Analiza varijanse je metoda statistička evaluacija pouzdanost manifestacije zavisnosti efektivne karakteristike od jednog ili više faktora. Koristeći metodu analize varijanse, testiraju se statističke hipoteze o prosjeku u nekoliko općih populacija koje imaju normalna distribucija.

Analiza varijanse je jedna od glavnih metoda statističke evaluacije rezultata eksperimenta. Takođe se sve više koristi u analizi ekonomskih informacija. Analiza varijanse omogućava da se utvrdi koliko su selektivni pokazatelji odnosa između efektivnih i faktorskih znakova dovoljni za diseminaciju podataka dobijenih iz uzorka na opštu populaciju. Prednost ove metode je što daje prilično pouzdane zaključke iz malih uzoraka.

Ispitivanjem varijacije rezultirajućeg atributa pod uticajem jednog ili više faktora, korišćenjem analize varijanse, može se dobiti, pored opštih procena značajnosti zavisnosti, i ocena razlika u prosečnim vrednostima koje formiraju se na različitim nivoima faktora, te značaj interakcije faktora. Analiza varijanse se koristi za proučavanje zavisnosti i kvantitativnih i kvalitativne karakteristike, kao i njihovu kombinaciju.

Suština ove metode je statistička studija verovatnoća uticaja jednog ili više faktora, kao i njihova interakcija na efektivno obeležje. U skladu s tim, uz pomoć analize disperzije rješavaju se tri glavna zadatka: 1) ukupni rezultat značaj razlika između grupnih sredstava; 2) procena verovatnoće interakcije faktora; 3) procena značajnosti razlika između parova sredstava. Najčešće takve probleme istraživači moraju rješavati prilikom izvođenja terenskih i zootehničkih eksperimenata, kada se proučava utjecaj više faktora na rezultirajuću osobinu.

Osnovna shema disperzione analize uključuje utvrđivanje glavnih izvora varijacije rezultantnog atributa i određivanje obima varijacije (zbira kvadrata odstupanja) prema izvorima njegovog formiranja; određivanje broja stupnjeva slobode koji odgovaraju komponentama opšta varijacija; izračunavanje varijansi kao omjera odgovarajućih volumena varijacije i njihovog broja stupnjeva slobode; analiza odnosa između disperzija; procjena pouzdanosti razlike između prosjeka i formulisanje zaključaka.

Ova šema je sačuvana i u jednostavnim ANOVA modelima, kada su podaci grupirani prema jednom atributu, iu složenim modelima, kada su podaci grupirani prema dva ili više atributa. Međutim, s povećanjem broja grupnih karakteristika, proces dekompozicije opće varijacije prema izvorima njenog formiranja postaje složeniji.

Prema dijagramu strujnog kola analiza varijanse može se predstaviti u obliku pet uzastopnih faza:

1) definicija i dekompozicija varijacije;

2) određivanje broja stepeni slobode varijacije;

3) proračun disperzija i njihovih odnosa;

4) analizu disperzija i njihovih odnosa;

5) procena pouzdanosti razlike između srednjih vrednosti i formulisanje zaključaka o testiranju nulte hipoteze.

Najzahtjevniji dio analize varijanse je prva faza – definicija i dekompozicija varijacije prema izvorima njenog formiranja. Redoslijed proširenja ukupnog volumena varijacije detaljno je razmotren u 5. poglavlju.

Osnova za rješavanje problema analize varijanse je zakon ekspanzije (sabiranja) varijacije, prema kojem se ukupna varijacija (fluktuacije) rezultirajućeg atributa dijeli na dva: varijacija zbog djelovanja proučavanog faktora (faktora ), te varijacije uzrokovane djelovanjem slučajnih uzroka, tj

Pretpostavimo da je ispitana populacija podijeljena prema faktorskom atributu u nekoliko grupa, od kojih je svaka karakterizirana svojim vlastitim prosjek efektivan znak. Istovremeno, varijacija ovih vrijednosti može se objasniti s dvije vrste razloga: onima koji sistematski djeluju na efektivnu karakteristiku i koji su podložni prilagođavanju u toku eksperimenta i nisu podložni prilagođavanju. Očigledno je da međugrupna (faktorska ili sistematska) varijacija zavisi uglavnom od djelovanja proučavanog faktora, a unutargrupna (rezidualna ili nasumična) - od djelovanja slučajnih faktora.

Da bi se procenila značajnost razlika između grupnih srednjih vrednosti, potrebno je utvrditi međugrupne i unutargrupne varijacije. Ako međugrupna (faktorska) varijacija značajno premašuje unutargrupnu (rezidualnu) varijaciju, tada je faktor utjecao na rezultirajuću osobinu, značajno mijenjajući vrijednosti grupnih prosjeka. Ali postavlja se pitanje, koji je odnos između međugrupnih i unutargrupnih varijacija može se smatrati dovoljnim za zaključak o pouzdanosti (značajnosti) razlika između grupnih srednjih vrijednosti.

Da bi se procenila značajnost razlika između srednjih vrednosti i formulisali zaključci o testiranju nulte hipoteze (H0: x1 = x2 = ... = xn), analiza varijanse koristi neku vrstu standarda - G-kriterijum, zakon distribucije koju je ustanovio R. Fisher. Ovaj kriterij je omjer dvije varijanse: faktorske, nastale djelovanjem faktora koji se proučava, i rezidualne, zbog djelovanja slučajnih uzroka:

Omjer disperzije r = t>u : £ * 2 američkog statističara Snedekora predložio je da se označi slovom G u čast izumitelja analize varijanse R. Fishera.

Varijance °2 i io2 su procjene varijanse stanovništva. Ako su uzorci sa varijacijama od °2°2 izvučeni iz iste populacije, gdje je varijacija vrijednosti imala slučajni karakter, onda je neslaganje u vrijednostima od °2 °2 također slučajno.

Ako se eksperimentom provjerava uticaj više faktora (A, B, C, itd.) na efektivnu osobinu istovremeno, tada bi disperzija zbog djelovanja svakog od njih trebala biti uporediva sa °e.gstr, to je

Ako je vrijednost faktorske varijanse značajno veća od ostatka, tada je faktor značajno utjecao na rezultirajući atribut i obrnuto.

U multifaktorskim eksperimentima, pored varijacije zbog djelovanja svakog faktora, gotovo uvijek postoji varijacija zbog interakcije faktora ($av: ^ls ^ss $liís). Suština interakcije je da se efekat jednog faktora značajno menja na različitim nivoima drugi (na primjer, efikasnost kvaliteta tla pri različitim dozama gnojiva).

Interakciju faktora takođe treba proceniti upoređivanjem odgovarajućih varijansi 3 ^w.gr:

Prilikom izračunavanja stvarne vrijednosti B-kriterijuma, u brojiocu se uzima najveća od varijansi, dakle B > 1. Očigledno, što je veći B-kriterijum, to su veće razlike između varijansi. Ako je B = 1, onda se otklanja pitanje procjene značajnosti razlika u varijansama.

Za određivanje granica slučajnih fluktuacija, omjer varijansi G. Fisher je razvio posebne tablice B-distribucije (Dodatak 4 i 5). Kriterijum B je funkcionalno povezan sa verovatnoćom i zavisi od broja stepeni slobode varijacije k1 i k2 od dvije upoređene varijanse. Za izvođenje zaključaka o granici obično se koriste dvije tabele visoka vrijednost kriterijum za nivoe značajnosti 0,05 i 0,01. Nivo značajnosti od 0,05 (ili 5%) znači da samo u 5 slučajeva od 100 kriterijuma B može poprimiti vrednost jednaku ili veću od one koja je navedena u tabeli. Smanjenje nivoa značajnosti sa 0,05 na 0,01 dovodi do povećanja vrednosti kriterijuma B između dve varijanse usled delovanja samo slučajnih uzroka.

Vrijednost kriterija također direktno ovisi o broju stupnjeva slobode dvije upoređene disperzije. Ako broj stupnjeva slobode teži beskonačnosti (k-me), onda omjer bi za dvije disperzije teži jedinici.

Tabelarna vrijednost kriterija B pokazuje moguće slučajna varijabla omjere dvije varijanse na datom nivou značajnosti i odgovarajući broj stupnjeva slobode za svaku od upoređenih varijansi. U ovim tabelama data je vrijednost B za uzorke napravljene iz iste opće populacije, gdje su razlozi za promjenu vrijednosti samo nasumični.

Vrijednost G se nalazi iz tabela (Dodatak 4 i 5) na presjeku odgovarajuće kolone (broj stupnjeva slobode za veću disperziju - k1) i reda (broj stupnjeva slobode za manju disperziju). - k2). Dakle, ako je veća varijansa (brojilac G) k1 = 4, a manja (imenik G) k2 = 9, tada će Ga na nivou značajnosti a = 0,05 biti 3,63 (prilika 4). Dakle, kao rezultat djelovanja slučajnih uzroka, budući da su uzorci mali, varijansa jednog uzorka može na nivou značajnosti od 5% premašiti varijansu drugog uzorka za 3,63 puta. Sa smanjenjem nivoa značajnosti sa 0,05 na 0,01, tabelarna vrijednost kriterija D, kao što je gore navedeno, će se povećati. Dakle, sa istim stepenima slobode k1 = 4 i k2 = 9 i a = 0,01, tabelarna vrednost kriterijuma G biće 6,99 (približno 5).

Razmotrimo postupak za određivanje broja stupnjeva slobode u analizi varijanse. Broj stupnjeva slobode, koji odgovara ukupnom zbiru kvadrata odstupanja, razlaže se na odgovarajuće komponente slično kao i razlaganje suma kvadrata odstupanja ukupan broj stepena slobode (k") se dekomponuje na broj stepena slobode za međugrupne (k1) i unutargrupne (k2) varijacije.

Dakle, ako se populacija uzorka sastoji od N zapažanja podijeljena po t grupe (broj opcija eksperimenta) i P podgrupe (broj ponavljanja), tada će broj stupnjeva slobode k biti:

a) za ukupan zbir kvadrata odstupanja (dszar)

b) za međugrupni zbir kvadrata odstupanja ^m.gP)

c) za unutargrupni zbir kvadrata odstupanja in w.gr)

Prema pravilu varijacije dodavanja:

Na primjer, ako su u eksperimentu formirane četiri varijante eksperimenta (m = 4) u po pet ponavljanja (n = 5), i ukupno zapažanja N = = t o p \u003d 4 * 5 \u003d 20, tada je broj stupnjeva slobode jednak:

Poznavajući sume kvadrata odstupanja broja stupnjeva slobode, moguće je odrediti nepristrasne (prilagođene) procjene za tri varijanse:

Nul hipoteza H0 po kriteriju B testira se na isti način kao i Studentovim u-testom. Za donošenje odluke o provjeri H0 potrebno je izračunati stvarnu vrijednost kriterija i uporediti je sa vrijednost tabele Ba za prihvaćeni nivo značaja a i broj stepeni slobode k1 i k2 za dvije disperzije.

Ako je Bfakg > Ba, onda, u skladu sa prihvaćenim nivoom značajnosti, možemo zaključiti da su razlike u varijansama uzorka određene ne samo slučajnim faktorima; oni su značajni. U ovom slučaju, nulta hipoteza se odbacuje i postoji razlog za vjerovanje da faktor značajno utječe na rezultirajući atribut. Ako< Ба, то нулевую гипотезу принимают и есть основание утверждать, что различия между сравниваемыми дисперсиями находятся в границах возможных случайных колебаний: действие фактора на результативный признак не является существенным.

Upotreba jednog ili drugog ANOVA modela zavisi i od broja proučavanih faktora i od metode uzorkovanja.

U zavisnosti od broja faktora koji određuju varijaciju efektivne karakteristike, uzorke mogu formirati jedan, dva ili više faktora. Prema ovoj analizi varijanse se dijeli na jednofaktorske i višefaktorske. Inače se naziva i jednofaktorski i višefaktorski disperzioni kompleks.

Šema dekompozicije opšte varijacije zavisi od formiranja grupa. Može biti nasumično (zapažanja jedne grupe nisu povezana sa zapažanjima druge grupe) i neslučajna (zapažanja dva uzorka su međusobno povezana zajedničkim uslovima eksperimenta). Shodno tome, dobijaju se nezavisni i zavisni uzorci. Nezavisni uzorci se mogu formirati sa jednakim i neparnim brojevima. Formiranje zavisnih uzoraka pretpostavlja njihov jednak broj.

Ako su grupe formirane nenasilnim redom, onda ukupna količina varijacije rezultirajuće osobine uključuje, uz faktorsku (međugrupnu) i rezidualnu varijaciju, varijaciju ponavljanja, tj.

U praksi je u većini slučajeva potrebno uzeti u obzir zavisne uzorke kada su uslovi za grupe i podgrupe izjednačeni. Da, u iskustvo na terenu cijela lokacija je podijeljena na blokove, sa najviše virivnyanniya uvjetima. Istovremeno, svaka varijanta eksperimenta dobija jednake mogućnosti da bude zastupljena u svim blokovima, čime se postiže izjednačavanje uslova za sve testirane opcije, iskustvo. Ova metoda konstruisanja iskustva naziva se metodom nasumičnih blokova. Slično se izvode i eksperimenti sa životinjama.

Prilikom obrade socio-ekonomskih podataka metodom disperzione analize, mora se imati na umu da je, zbog bogatog broja faktora i njihove međusobne povezanosti, teško, čak i uz najpažljivije usklađivanje uslova, utvrditi stepen objektivni uticaj svakog pojedinačnog faktora na efektivni atribut. Stoga je nivo rezidualne varijacije određen ne samo slučajnim uzrocima, već i značajnim faktorima koji nisu uzeti u obzir prilikom izgradnje ANOVA modela. Kao rezultat toga, rezidualna disperzija kao osnova za poređenje ponekad postaje neadekvatna za svoju svrhu, jasno je precijenjena po veličini i ne može služiti kao kriterij za značajnost utjecaja faktora. U tom smislu, prilikom izgradnje modela analize varijanse, problem selekcije postaje relevantan. kritični faktori i nivelisanje uslova za ispoljavanje delovanja svakog od njih. Osim toga. upotreba analize varijanse pretpostavlja normalnu ili blisku normalnoj distribuciji statističkih populacija koje se proučavaju. Ako ovaj uslov nije ispunjen, onda će procjene dobijene analizom varijanse biti preuveličane.

Analiza varijanse(od latinskog Dispersio - disperzija / na engleskom Analysis Of Variance - ANOVA) se koristi za proučavanje uticaja jedne ili više kvalitativnih varijabli (faktora) na jednu zavisnu kvantitativnu varijablu (odgovor).

Analiza varijanse zasniva se na pretpostavci da se neke varijable mogu smatrati uzrocima (faktori, nezavisne varijable): , a druge kao posljedice (zavisne varijable). Nezavisne varijable se ponekad nazivaju podesivi faktori upravo zato što u eksperimentu istraživač ima priliku da ih varira i analizira rezultirajući rezultat.

glavni cilj analiza varijanse(ANOVA) je studija o značaju razlika između srednjih vrijednosti upoređivanjem (analizom) varijansi. Odvajanje totalna varijansa na više izvora, omogućava vam da uporedite varijansu uzrokovanu razlikom između grupa sa varijansom uzrokovanom varijansom unutar grupe. Ako je nulta hipoteza tačna (o jednakosti srednjih vrijednosti u nekoliko grupa opservacija odabranih iz opće populacije), procjena varijanse povezane s unutargrupnom varijansom trebala bi biti bliska procjeni međugrupne varijanse. Ako samo uspoređujete srednje vrijednosti dva uzorka, analiza varijanse će dati isti rezultat kao običan t-test nezavisnog uzorka (ako uspoređujete dvije nezavisne grupe objekata ili zapažanja) ili t-test zavisnog uzorka ( ako uspoređujete dvije varijable na istom i istom skupu objekata ili zapažanja).

Suština analize varijanse je u podjeli ukupne varijanse ispitivanog svojstva na posebne komponente, zbog uticaja specifičnih faktora, i testiranju hipoteza o značaju uticaja ovih faktora na proučavano svojstvo. Upoređujući komponente disperzije među sobom koristeći Fišerov F-test, moguće je utvrditi koliki je udio ukupne varijabilnosti rezultirajuće osobine uzrokovan djelovanjem podesivih faktora.

Izvorni materijal za analizu varijanse su podaci proučavanja tri ili više uzoraka: , koji mogu biti jednakog ili nejednakog broja, povezanih i nepovezanih. Prema broju identifikovanih prilagodljivih faktora može biti analiza varijanse jednofaktorski(istovremeno se proučava uticaj jednog faktora na rezultate eksperimenta), dvofaktorski(prilikom proučavanja uticaja dva faktora) i multifaktorski(omogućava vam da procenite ne samo uticaj svakog od faktora posebno, već i njihovu interakciju).

Analiza varijanse spada u grupu parametarskih metoda i stoga je treba koristiti samo kada se dokaže da je raspodjela normalna.

Analiza varijanse se koristi ako se zavisna varijabla mjeri na skali omjera, intervala ili reda, a varijable koje utiču nisu numeričke (skala imena).

Primjeri zadataka

U problemima koji se rješavaju analizom varijanse javlja se odgovor numeričke prirode, na koji utiče više varijabli koje imaju nominalnu prirodu. Na primjer, nekoliko vrsta obroka za tov stoke ili dva načina njihovog držanja, itd.

Primjer 1: Tokom sedmice, nekoliko apotekarskih kioska radilo je na tri različite lokacije. U budućnosti možemo ostaviti samo jednu. Potrebno je utvrditi da li postoji statistički značajna razlika između obima prodaje lijekova na kioscima. Ako da, mi ćemo izabrati kiosk sa najvećim prosječnim dnevnim obimom prodaje. Ako se razlika u obimu prodaje pokaže statistički beznačajnom, onda bi drugi pokazatelji trebali biti osnova za odabir kioska.

Primjer 2: Poređenje kontrasta grupnih sredstava. Sedam političkih opredeljenja poređano je od ekstremno liberalnih do ekstremno konzervativnih, a linearni kontrast se koristi da bi se testiralo postoji li uzlazni trend različit od nule u srednjim vrednostima grupe – tj. da li postoji značajno linearno povećanje prosečne starosti kada se razmatraju grupe poredane u smjer od liberalnog ka konzervativnom.

Primjer 3: Dvosmjerna analiza varijanse. Na broj prodaje proizvoda, osim veličine radnje, često utiče i lokacija polica sa proizvodom. Ovaj primjer sadrži nedjeljne brojke prodaje koje karakteriziraju četiri rasporeda polica i tri veličine trgovine. Rezultati analize pokazuju da oba faktora - lokacija polica sa robom i veličina radnje - utiču na broj prodaje, ali njihova interakcija nije značajna.

Primjer 4: Univarijantna ANOVA: Nasumični dizajn punog bloka s dva tretmana. Uticaj na pečenje hleba svih moguće kombinacije tri masti i tri ripera za tijesto. Četiri uzorka brašna uzeta od četiri različitih izvora, služio je kao blokirajući faktor. Treba identifikovati značaj interakcije masnoće-riper. Nakon toga, odredite različite opcije za odabir kontrasta, što vam omogućava da saznate koje se kombinacije razina faktora razlikuju.

Primjer 5: Model hijerarhijskog (ugniježđenog) plana s mješovitim efektima. Proučava se utjecaj četiri nasumično odabrane glave ugrađene u alatnu mašinu na deformaciju proizvedenih staklenih katodnih držača. (Glave su ugrađene u mašinu, tako da se ista glava ne može koristiti na različitim mašinama.) Efekat glave se tretira kao slučajni faktor. ANOVA statistika pokazuje da nema značajnih razlika između mašina, ali postoje naznake da se glave mogu razlikovati. Razlika između svih mašina nije značajna, ali za dve od njih razlika između tipova glava je značajna.

Primjer 6: Univarijantna analiza ponovljenih mjerenja korištenjem plana podijeljenih dijagrama. Ovaj eksperiment je proveden kako bi se odredio učinak ocjene anksioznosti pojedinca na izvođenje ispita u četiri uzastopna pokušaja. Podaci su organizirani tako da se mogu smatrati grupama podskupova cijelog skupa podataka („cijela dijagrama“). Efekat anksioznosti nije bio značajan, dok je efekat pokušaja bio značajan.

Lista metoda

  • Modeli faktorskog eksperimenta. Primjeri: faktori koji utiču na uspješnost rješavanja matematičkih problema; faktori koji utiču na obim prodaje.

Podaci se sastoje od nekoliko serija posmatranja (obrada), koje se smatraju realizacijom nezavisnih uzoraka. Početna hipoteza je da nema razlike u tretmanima, tj. pretpostavlja se da se sva opažanja mogu smatrati jednim uzorkom iz ukupne populacije:

  • Jednofaktorski parametarski model: Scheffeova metoda.
  • Jednofaktorski neparametarski model [Lagutin M.B., 237]: Kruskal-Wallisov kriterijum [Hollender M., Wolf D.A., 131], Jonkheerov kriterijum [Lagutin M.B., 245].
  • Opšti slučaj modela sa konstantnim faktorima, Cochranova teorema [Afifi A., Eisen S., 234].

Podaci su dvostruko ponovljena zapažanja:

  • Dvofaktorski neparametarski model: Friedmanov kriterijum [Lapach, 203], Pejdžov kriterijum [Lagutin M.B., 263]. Primjeri: poređenje efektivnosti proizvodnih metoda, poljoprivredne prakse.
  • Dvofaktorski neparametarski model za nepotpune podatke

Priča

Odakle je došlo ime analiza varijanse? Može izgledati čudno da se postupak za poređenje srednjih vrijednosti naziva analiza varijanse. Zapravo, to je zbog činjenice da kada se ispituje statistička značajnost razlike između srednjih vrijednosti dvije (ili više) grupa, mi zapravo upoređujemo (analiziramo) varijanse uzorka. Predlaže se osnovni koncept analize varijanse Fisher 1920. godine. Možda bi prirodniji termin bio zbir analize kvadrata ili analize varijacije, ali zbog tradicije se koristi termin analiza varijanse. U početku je analiza varijanse razvijena za obradu podataka dobijenih u toku posebno dizajniranih eksperimenata i smatrala se jedinom metodom koja ispravno istražuje uzročne veze. Metoda je korištena za evaluaciju eksperimenata u biljnoj proizvodnji. Kasnije je postao jasan opšti naučni značaj analize varijanse za eksperimente u psihologiji, pedagogiji, medicini itd.

Književnost

  1. Sheff G. Analiza disperzije. - M., 1980.
  2. Ahrens H. Leiter Yu. Multivarijantna analiza varijanse.
  3. Kobzar A.I. Primijenjena matematička statistika. - M.: Fizmatlit, 2006.
  4. Lapach S. N., Chubenko A. V., Babich P. N. Statistika u nauci i biznisu. - Kijev: Morion, 2002.
  5. Lagutin M. B. Vizuelna matematička statistika. U dva toma. - M.: P-centar, 2003.
  6. Afifi A., Eisen S. Statistička analiza: Računarski pristup.
  7. Hollender M., Wolf D.A. Neparametarske metode statistike.

Linkovi

Um nije samo u znanju, već i u sposobnosti da se znanje primeni u praksi. (Aristotel)

Analiza varijanse

Uvodni pregled

U ovom dijelu ćemo pregledati osnovne metode, pretpostavke i terminologiju ANOVA-e.

Imajte na umu da se u engleskoj literaturi analiza varijanse obično naziva analizom varijanse. Stoga, radi sažetosti, u nastavku ćemo ponekad koristiti termin ANOVA (An alysis o f va rijacija) za konvencionalnu ANOVA-u i termin MANOVA za multivarijantnu analizu varijanse. U ovom dijelu ćemo uzastopno razmotriti glavne ideje analize varijanse ( ANOVA), analiza kovarijanse ( ANCOVA), multivarijantna analiza varijanse ( MANOVA) i multivarijantna kovarijantna analiza ( MANCOVA). Nakon kratke rasprave o prednostima kontrastne analize i post hoc kriterijuma Razmotrimo pretpostavke na kojima se zasnivaju metode analize varijanse. Na kraju ovog odjeljka objašnjene su prednosti multivarijantnog pristupa za analizu ponovljenih mjera u odnosu na tradicionalni jednodimenzionalni pristup.

Ključne ideje

Svrha analize varijanse. Glavna svrha analize varijanse je proučavanje značajnosti razlike između srednjih vrijednosti. Poglavlje (Poglavlje 8) daje kratak uvod u testiranje statističke značajnosti. Ako samo uspoređujete srednje vrijednosti dva uzorka, analiza varijanse će dati isti rezultat kao i normalna analiza. t- kriterijum za nezavisne uzorke (ako se porede dve nezavisne grupe objekata ili posmatranja), ili t- kriterijum za zavisne uzorke (ako se dve varijable porede na istom skupu objekata ili zapažanja). Ukoliko niste upoznati s ovim kriterijima, preporučujemo da pogledate uvodni pregled poglavlja (poglavlje 9).

Odakle je došlo ime Analiza varijanse? Može izgledati čudno da se postupak za poređenje srednjih vrijednosti naziva analiza varijanse. U stvari, to je zbog činjenice da kada ispitujemo statističku značajnost razlike između srednjih vrijednosti, mi zapravo analiziramo varijanse.

Dijeljenje zbira kvadrata

Za veličinu uzorka n varijansa uzorka izračunato kao zbir kvadrata odstupanja od srednje vrijednosti uzorka podijeljen sa n-1 (veličina uzorka minus jedan). Dakle, za fiksnu veličinu uzorka n, varijansa je funkcija zbira kvadrata (odstupanja), označena, radi kratkoće, SS(od engleskog Sum of Squares - Sum of Squares). Analiza varijanse se zasniva na podjeli (ili dijeljenju) varijanse na dijelove. Razmotrite sljedeći skup podataka:

Srednja vrijednost dvije grupe značajno se razlikuje (2 odnosno 6). Zbir kvadrata odstupanja unutra svake grupe je 2. Ako ih saberemo, dobijamo 4. Ako sada ponovimo ove proračune isključujućičlanstvo u grupi, odnosno ako računamo SS na osnovu kombinovane srednje vrednosti dva uzorka, dobijamo 28. Drugim rečima, varijansa (zbir kvadrata) zasnovana na varijabilnosti unutar grupe rezultira mnogo manjim vrednostima nego kada se izračunava na osnovu ukupne varijabilnosti (u odnosu na ukupnu varijabilnost znači). Razlog tome je očito značajna razlika između prosjeka, a ta razlika između prosjeka i objašnjava postojeća razlika između zbira kvadrata. Zaista, ako koristimo modul Analiza varijanse, dobiće se sljedeći rezultati:

Kao što se može vidjeti iz tabele, ukupan zbir kvadrata SS=28 podijeljeno na zbir kvadrata zbog unutargrupa varijabilnost ( 2+2=4 ; vidi drugi red tabele) i zbir kvadrata zbog razlike u srednjim vrednostima. (28-(2+2)=24; vidi prvi red tabele).

SS greške iSS efekat. Unutargrupna varijabilnost ( SS) se obično naziva varijansom greške. To znači da se obično ne može predvidjeti ili objasniti kada se eksperiment provodi. S druge strane, SS efekat(ili međugrupna varijabilnost) može se objasniti razlikom između srednjih vrijednosti u ispitivanim grupama. Drugim riječima, pripadnost određenoj grupi objašnjava međugrupna varijabilnost, jer znamo da ove grupe imaju različita sredstva.

Provjera značaja. Glavne ideje testiranja statističke značajnosti razmatrane su u ovom poglavlju Elementarni koncepti statistike(poglavlje 8). Isto poglavlje objašnjava razloge zašto mnogi testovi koriste omjer objašnjene i neobjašnjive varijanse. Primjer ove upotrebe je sama analiza varijanse. Testiranje značajnosti u ANOVA bazira se na poređenju varijanse zbog varijacije između grupa (tzv. efekat srednjeg kvadrata ili GOSPOĐAEfekat) i disperzija zbog širenja unutar grupe (tzv srednja kvadratna greška ili GOSPOĐAgreška). Ako je nulta hipoteza tačna (jednakost srednjih vrijednosti u dvije populacije), onda možemo očekivati ​​relativno malu razliku u srednjim vrijednostima uzorka zbog slučajne varijabilnosti. Prema tome, pod nultom hipotezom, unutargrupna varijansa će se praktično podudarati sa ukupnom varijansom izračunatom bez uzimanja u obzir pripadnosti grupi. Rezultirajuće varijanse unutar grupe mogu se uporediti pomoću F- test koji provjerava da li je omjer varijansi značajno veći od 1. U gornjem primjeru, F- Test pokazuje da je razlika između srednjih vrijednosti statistički značajna.

Osnovna logika ANOVA. Sumirajući, možemo reći da je svrha analize varijanse testiranje statističke značajnosti razlike između srednjih vrijednosti (za grupe ili varijable). Ova provjera se provodi analizom varijanse, tj. dijeljenjem ukupne varijanse (varijacije) na dijelove, od kojih je jedan rezultat slučajne greške (tj. unutargrupna varijabilnost), a drugi je povezan s razlikom u prosječnim vrijednostima. Posljednja komponenta varijanse se zatim koristi za analizu statističke značajnosti razlike između srednjih vrijednosti. Ako je ova razlika značajna, nulta hipoteza se odbacuje i prihvaća alternativna hipoteza da postoji razlika između srednjih vrijednosti.

Zavisne i nezavisne varijable. Varijable čije su vrijednosti određene mjerenjima tokom eksperimenta (na primjer, rezultat postignut na testu) nazivaju se zavisan varijable. Varijable kojima se može manipulirati u eksperimentu (na primjer, metode obuke ili drugi kriteriji koji vam omogućavaju podijeliti opažanja u grupe) nazivaju se faktori ili nezavisni varijable. Ovi koncepti su detaljnije opisani u poglavlju Elementarni koncepti statistike(poglavlje 8).

Multivarijantna analiza varijanse

U jednostavnom primjeru iznad, možete odmah izračunati t-test nezavisnog uzorka koristeći odgovarajuću opciju modula Osnovne statistike i tabele. Dobijeni rezultati se, naravno, poklapaju sa rezultatima analize varijanse. Međutim, analiza varijanse sadrži fleksibilnost i moć tehnička sredstva, koji se može koristiti za mnogo složenije studije.

Mnogo faktora. Svijet je inherentno složen i višedimenzionalan. Situacije u kojima se neka pojava u potpunosti opisuje jednom varijablom su izuzetno rijetke. Na primjer, ako pokušavamo naučiti kako uzgajati velike rajčice, trebali bismo uzeti u obzir faktore koji se odnose na genetsku strukturu biljaka, tip tla, svjetlost, temperaturu itd. Stoga, kada provodite tipičan eksperiment, morate se suočiti s velikim brojem faktora. Glavni razlog zašto je korištenje ANOVA poželjnije od ponovnog poređenja dva uzorka na različitim nivoima korištenja faktora t- Kriterijum je da je analiza varijanse više efektivno i, za male uzorke, informativniji.

Faktorsko upravljanje. Pretpostavimo da u primeru analize dva uzorka o kojoj smo gore govorili, dodamo još jedan faktor, npr. Kat- Rod. Neka se svaka grupa sastoji od 3 muškarca i 3 žene. Dizajn ovog eksperimenta može se predstaviti u obliku tabele 2x2:

Eksperimentiraj. Grupa 1 Eksperimentiraj. Grupa 2
Muškarci2 6
3 7
1 5
Prosjek2 6
Žene4 8
5 9
3 7
Prosjek4 8

Prije nego što izvršite proračune, možete vidjeti da u ovom primjeru ukupna varijansa ima najmanje tri izvora:

(1) slučajna greška (unutar grupne varijanse),

(2) varijabilnost povezana sa članstvom u eksperimentalnoj grupi, i

(3) varijabilnost u zavisnosti od pola posmatranih objekata.

(Imajte na umu da postoji još jedan mogući izvor varijabilnosti - interakcija faktora, o čemu ćemo kasnije raspravljati). Šta se dešava ako ne uključimo katspol kao faktor u analizi i izračunajte uobičajeno t-kriterijum? Ako izračunamo sume kvadrata, zanemarimo sprat -spol(tj. kombinovanje objekata različitog pola u jednu grupu prilikom izračunavanja varijanse unutar grupe, dok se dobije zbir kvadrata za svaku grupu jednak SS=10, i ukupan zbir kvadrata SS= 10+10 = 20), onda dobijamo veća vrijednost varijanse unutar grupe nego sa preciznijom analizom s dodatnim podgrupiranjem po polu- spol(u ovom slučaju, unutargrupna sredina će biti jednaka 2, a ukupni zbir kvadrata unutar grupe će biti jednak SS = 2+2+2+2 = 8). Ova razlika je zbog činjenice da je srednja vrijednost za muškarci - mužjaci manje od prosjeka za žene -žensko, a ova razlika u srednjim vrijednostima povećava ukupnu varijabilnost unutar grupe ako se spol ne uzme u obzir. Kontrola varijanse greške povećava osjetljivost (snagu) testa.

Ovaj primjer pokazuje još jednu prednost analize varijanse u odnosu na konvencionalnu analizu. t-kriterijum za dva uzorka. Analiza varijanse vam omogućava da proučavate svaki faktor kontrolirajući vrijednosti drugih faktora. To je, zapravo, glavni razlog njegove veće statističke moći (za dobijanje smislenih rezultata potrebne su manje veličine uzorka). Iz tog razloga analiza varijanse, čak i na malim uzorcima, daje statistički značajnije rezultate od jednostavne. t- kriterijum.

Efekti interakcije

Postoji još jedna prednost upotrebe ANOVA u odnosu na konvencionalnu analizu. t- kriterij: analiza varijanse vam omogućava da otkrijete interakcija između faktora i stoga omogućava proučavanje složenijih modela. Za ilustraciju, razmotrite još jedan primjer.

Glavni efekti, parne (dvofaktorske) interakcije. Pretpostavimo da postoje dvije grupe učenika, a psihološki su učenici prve grupe prilagođeni ispunjavanju postavljenih zadataka i svrsishodniji su od učenika druge grupe koju čine lijeniji učenici. Podijelimo svaku grupu nasumično na pola i ponudimo jednoj polovini svake grupe težak zadatak, a drugoj lakši. Nakon toga mjerimo koliko učenici marljivo rade na ovim zadacima. Prosjeci za ovu (fiktivnu) studiju prikazani su u tabeli:

Kakav zaključak se može izvući iz ovih rezultata? Da li je moguće zaključiti da: (1) učenici više rade na teškom zadatku; (2) da li motivirani učenici rade više od lijenih? Nijedna od ovih tvrdnji ne odražava suštinu sistematske prirode prosjeka datih u tabeli. Analizirajući rezultate, ispravnije bi bilo reći da samo motivisani učenici više rade na složenim zadacima, dok samo lijeni učenici više rade na lakim zadacima. Drugim riječima, priroda učenika i složenost zadatka interakciju jedni druge utiču na količinu potrebnog napora. To je primjer interakcija u paru između prirode učenika i složenosti zadatka. Imajte na umu da izjave 1 i 2 opisuju glavni efekti.

Interakcije viših redova. Dok je interakcije u paru relativno lako objasniti, interakcije višeg reda je mnogo teže objasniti. Zamislimo da je u prethodno razmatranom primjeru uveden još jedan faktor kat -Rod i dobili smo sljedeću tabelu prosjeka:

Koji se zaključci sada mogu izvući iz dobijenih rezultata? Prosječni zapleti olakšavaju tumačenje složenih efekata. Modul analize varijanse vam omogućava da napravite ove grafikone gotovo jednim klikom.

Slika na grafikonima ispod predstavlja trosmjernu interakciju koja se proučava.

Gledajući grafikone, možemo zaključiti da postoji interakcija između prirode i težine testa za žene: motivirane žene više rade na teškom zadatku nego na lakom. Kod muškaraca je ista interakcija obrnuta. Može se vidjeti da opis interakcije između faktora postaje sve zbunjujući.

Opšti način opisivanja interakcija. AT opšti slučaj interakcija između faktora se opisuje kao promjena jednog efekta pod utjecajem drugog. U primjeru o kojem se gore govori, dvofaktorska interakcija se može opisati kao promjena glavnog efekta faktora koji karakteriše složenost zadatka, pod uticajem faktora koji opisuje karakter učenika. Za interakciju tri faktora iz prethodnog stava možemo reći da se interakcija dva faktora (složenost zadatka i karakter učenika) menja pod uticajem spolRod. Ako se proučava interakcija četiri faktora, možemo reći da se interakcija tri faktora mijenja pod uticajem četvrtog faktora, tj. postoje različite vrste interakcija na različitim nivoima četvrtog faktora. Pokazalo se da je u mnogim oblastima interakcija pet ili čak više faktora nije neobično.

Složeni planovi

Međugrupni i unutargrupni planovi (planovi ponovnih mjerenja)

Kada uporedimo dva razne grupe obično se koristi t- kriterijum za nezavisne uzorke (iz modula Osnovne statistike i tabele). Kada se dvije varijable uspoređuju na istom skupu objekata (zapažanja), koristi se t-kriterijum za zavisne uzorke. Za analizu varijanse, takođe je važno da li su uzorci zavisni ili ne. Ako postoje ponovljena mjerenja istih varijabli (pod različitim uvjetima ili u drugačije vrijeme) za iste objekte, onda kažu o prisustvu faktor ponovljenih mjerenja(takođe se zove unutargrupni faktor budući da se unutar grupe zbir kvadrata izračunava da bi se procijenila njegova važnost). Ako se uporede različite grupe predmeta (npr. muškarci i žene, tri soja bakterija, itd.), onda se opisuje razlika između grupa međugrupni faktor. Metode za izračunavanje kriterijuma značajnosti za dva opisana tipa faktora su različite, ali je njihova opšta logika i interpretacija ista.

Među- i unutar-grupni planovi. U mnogim slučajevima, eksperiment zahtijeva uključivanje i faktora između grupa i faktora ponovljenih mjerenja u dizajn. Na primjer, mjere se matematičke vještine učenika i učenika (gdje sprat -Rod-međugrupni faktor) na početku i na kraju semestra. Dvije dimenzije vještina svakog učenika čine faktor unutar grupe (faktor ponovljenih mjerenja). Tumačenje glavnih efekata i interakcija za faktore između grupa i faktora ponovljenih mjerenja je isto, a oba tipa faktora očigledno mogu međusobno djelovati (na primjer, žene stječu vještine tokom semestra, a muškarci ih gube).

Nepotpuni (ugniježđeni) planovi

U mnogim slučajevima, efekat interakcije se može zanemariti. To se dešava ili kada se zna da nema interakcijskog efekta u populaciji, ili kada je implementacija u potpunosti faktorijel plan je nemoguć. Na primjer, proučava se učinak četiri aditiva za gorivo na potrošnju goriva. Odabrana su četiri automobila i četiri vozača. Pun faktorijel eksperiment zahtijeva da se svaka kombinacija: dodatak, vozač, auto pojavi barem jednom. Ovo zahtijeva najmanje 4 x 4 x 4 = 64 test grupe, što oduzima previše vremena. Osim toga, gotovo da nema interakcije između vozača i aditiva za gorivo. Imajući to na umu, možete koristiti plan latinski kvadrati, koji sadrži samo 16 grupa testova (četiri aditiva su označena slovima A, B, C i D):

Latinski kvadrati su opisani u većini knjiga o eksperimentalnom dizajnu (npr. Hays, 1988; Lindman, 1974; Milliken i Johnson, 1984; Winer, 1962) i ovdje se neće detaljno raspravljati. Imajte na umu da su latinični kvadrati nenpun planovi koji ne uključuju sve kombinacije nivoa faktora. Na primjer, vozač 1 vozi auto 1 samo sa dodatkom A, vozač 3 vozi auto 1 samo sa aditivom C. Nivoi faktora aditivi ( A, B, C i D) ugniježđene u ćelije tabele automobil x vozač - kao jaja u gnezdu. Ovo mnemoničko pravilo je korisno za razumijevanje prirode ugniježđen ili ugniježđen planove. Modul Analiza varijanse pruža jednostavne načine za analizu planova ovog tipa.

Kovarijansna analiza

Glavna ideja

U poglavlju Ključne ideje ukratko je razmotrena ideja o kontrolnim faktorima i kako uključivanje aditivnih faktora može smanjiti zbir grešaka na kvadrat i povećati statističku moć dizajna. Sve se to može proširiti na varijable s kontinuiranim skupom vrijednosti. Kada su takve kontinuirane varijable uključene kao faktori u dizajn, one se nazivaju kovarijati.

Fiksne kovarijacije

Pretpostavimo da upoređujemo matematičke vještine dvije grupe učenika koji su podučavani iz dva različita udžbenika. Pretpostavimo i da imamo podatke o kvocijentu inteligencije (IQ) za svakog učenika. Možemo pretpostaviti da je IQ povezan s matematičkim vještinama i koristiti ove informacije. Za svaku od dvije grupe učenika može se izračunati koeficijent korelacije između IQ i matematičkih vještina. Koristeći ovaj koeficijent korelacije, moguće je razlikovati udio varijanse u grupama objašnjen utjecajem IQ-a i neobjašnjivog udjela varijanse (vidi također Elementarni koncepti statistike(poglavlje 8) i Osnovne statistike i tabele(poglavlje 9)). Preostali dio varijanse se koristi u analizi kao varijansa greške. Ako postoji korelacija između IQ-a i matematičkih vještina, onda se varijacije greške mogu značajno smanjiti. SS/(n-1) .

Utjecaj kovarijati naF- kriterijum. F- kriterij ocjenjuje statističku značajnost razlike između srednjih vrijednosti u grupama, dok se izračunava omjer međugrupne varijanse ( GOSPOĐAefekat) na varijansu greške ( GOSPOĐAgreška) . Ako a GOSPOĐAgreška smanjuje se, na primjer, kada se uzme u obzir faktor IQ, vrijednost F povećava.

Mnogo kovarijacija. Gore korišćeno rezonovanje za jednu kovarijatu (IQ) lako se proširuje na više kovarijata. Na primjer, pored IQ-a, možete uključiti mjerenje motivacije, prostornog razmišljanja itd. Umjesto uobičajenog koeficijenta korelacije, koristi se više faktora korelacije.

Kada vrijednostF - kriteriji se smanjuju. Ponekad uvođenje kovarijati u eksperimentalni dizajn smanjuje vrijednost F- kriterijumi . Ovo obično ukazuje da su kovarijate u korelaciji ne samo sa zavisnom varijablom (kao što su matematičke vještine), već i sa faktorima (kao što su različiti udžbenici). Pretpostavimo da se IQ mjeri na kraju semestra, nakon skoro godišnju obuku dvije grupe učenika na dva različita udžbenika. Iako su učenici podijeljeni u grupe nasumično, može se pokazati da je razlika u udžbenicima tolika da će i IQ i matematičke vještine u različitim grupama uvelike varirati. U ovom slučaju, kovarijate ne samo da smanjuju varijansu greške, već i varijansu između grupa. Drugim riječima, nakon kontrole razlike u IQ-u između grupa, razlika u matematičkim vještinama više neće biti značajna. Može se reći drugačije. Nakon „eliminisanja“ uticaja IQ-a, nehotice se isključuje uticaj udžbenika na razvoj matematičkih sposobnosti.

Prilagođeni prosjeci. Kada kovarijanta utiče na faktor između grupa, treba izračunati prilagođeni prosjeci, tj. takva sredstva, koja se dobijaju nakon uklanjanja svih procjena kovarijata.

Interakcija između kovarijati i faktora. Baš kao što se istražuju interakcije između faktora, mogu se istražiti interakcije između kovarijata i između grupa faktora. Pretpostavimo da je jedan od udžbenika posebno pogodan za pametne učenike. Drugi udžbenik je dosadan za pametne učenike, a isti udžbenik je težak za manje pametne učenike. Kao rezultat toga, postoji pozitivna korelacija između IQ-a i ishoda učenja u prvoj grupi (pametniji učenici, bolji rezultat) i nula ili neznatna negativna korelacija u drugoj grupi (što je učenik pametniji, manja je vjerovatnoća da će steći matematičke vještine iz drugog udžbenika). U nekim studijama ova situacija se razmatra kao primjer kršenja pretpostavki analize kovarijanse. Međutim, budući da modul Analiza varijanse koristi najčešće metode analize kovarijanse, moguće je, posebno, procijeniti statističku značajnost interakcije između faktora i kovarijanti.

Varijabilne kovarijate

Dok se fiksne kovarijate dosta često govore u udžbenicima, varijabilne kovarijate se mnogo rjeđe spominju. Obično, kada provodimo eksperimente s ponovljenim mjerenjima, zanimaju nas razlike u mjerenjima istih veličina u različitim vremenskim trenucima. Naime, zanima nas značaj ovih razlika. Ako se kovarijantno mjerenje provodi istovremeno s mjerenjem zavisne varijable, može se izračunati korelacija između kovarijate i zavisne varijable.

Na primjer, možete proučavati zanimanje za matematiku i matematičke vještine na početku i na kraju semestra. Bilo bi zanimljivo provjeriti da li su promjene interesovanja za matematiku u korelaciji sa promjenama u matematičkim vještinama.

Modul Analiza varijanse in STATISTIKA automatski procjenjuje statističku značajnost promjena kovarijata u tim planovima, gdje je to moguće.

Multivarijantni dizajn: multivarijantna ANOVA i analiza kovarijanse

Međugrupni planovi

Svi prethodno razmatrani primjeri uključivali su samo jednu zavisnu varijablu. Kada postoji više zavisnih varijabli u isto vrijeme, samo se povećava složenost proračuna, a sadržaj i osnovni principi se ne mijenjaju.

Na primjer, radi se studija o dva različita udžbenika. Istovremeno se proučava uspjeh studenata u izučavanju fizike i matematike. U ovom slučaju postoje dvije zavisne varijable i morate saznati kako dva različita udžbenika utječu na njih istovremeno. Da biste to učinili, možete koristiti multivarijantnu analizu varijanse (MANOVA). Umjesto jednodimenzionalnog F kriterijum, višedimenzionalan F test (Wilks l-test) zasnovan na poređenju matrice kovarijanse greške i matrice kovarijanse među grupama.

Ako su zavisne varijable međusobno povezane, onda ovu korelaciju treba uzeti u obzir prilikom izračunavanja testa značajnosti. Očigledno, ako se isto mjerenje ponovi dva puta, onda se u ovom slučaju ne može dobiti ništa novo. Ako se dimenzija koja je u korelaciji s njom doda postojećoj dimenziji, onda neka nove informacije, ali nova varijabla sadrži suvišne informacije, što se ogleda u kovarijansi između varijabli.

Interpretacija rezultata. Ako je ukupni multivarijantni kriterijum značajan, možemo zaključiti da je odgovarajući efekat (npr. tip udžbenika) značajan. Međutim, oni ustaju sledeća pitanja. Da li vrsta udžbenika utiče na poboljšanje samo matematičkih vještina, samo fizičkih vještina, ili oboje. U stvari, nakon dobijanja smislenog multivarijantnog kriterijuma, za jedan glavni efekat ili interakciju, jednodimenzionalni F kriterijum. Drugim riječima, zavisne varijable koje doprinose značajnosti multivarijantnog testa se ispituju zasebno.

Planovi sa ponovljenim mjerenjima

Ako se matematičke i fizičke sposobnosti studenata mjere na početku semestra i na kraju, onda su to ponovljena mjerenja. Proučavanje kriterijuma značaja u ovakvim planovima je logičan razvoj jednodimenzionalni slučaj. Imajte na umu da se multivarijantne ANOVA metode također obično koriste za istraživanje značaja faktora univarijantnih ponovljenih mjera koji imaju više od dva nivoa. Odgovarajuće aplikacije će biti razmatrane kasnije u ovom dijelu.

Sumiranje vrijednosti varijabli i multivarijantna analiza varijanse

Čak se i iskusni korisnici univarijantne i multivarijantne ANOVA često zbune kada dobiju različite rezultate kada primjenjuju multivarijantnu ANOVA na, recimo, tri varijable, i kada primjenjuju univarijantnu ANOVA na zbir ove tri varijable kao jednu varijablu.

Ideja sumiranje varijabli je da svaka varijabla sadrži neku istinitu varijablu, koja se istražuje, kao i slučajnu grešku mjerenja. Stoga, kada se usrednjavaju vrijednosti varijabli, greška mjerenja će biti bliža 0 za sva mjerenja i prosječne vrijednosti će biti pouzdanije. Zapravo, u ovom slučaju, primjena ANOVA na zbir varijabli je razumna i moćna tehnika. Međutim, ako su zavisne varijable multivarijantne prirode, zbrajanje vrijednosti varijabli je neprikladno.

Na primjer, neka se zavisne varijable sastoje od četiri mjere uspjeh u društvu. Svaki indikator karakterizira potpuno nezavisnu stranu ljudska aktivnost(na primjer, profesionalni uspjeh, poslovni uspjeh, porodično blagostanje, itd.). Zbrajanje ovih varijabli je kao dodavanje jabuke i narandže. Zbir ovih varijabli ne bi bio prikladna univarijantna mjera. Stoga se takvi podaci moraju tretirati kao višedimenzionalni indikatori u multivarijantna analiza varijanse.

Kontrastna analiza i post hoc testovi

Zašto se upoređuju pojedinačni skupovi sredstava?

Obično se hipoteze o eksperimentalnim podacima formulišu ne samo u smislu glavnih efekata ili interakcija. Primjer je sljedeća hipoteza: određeni udžbenik poboljšava matematičke vještine samo kod učenika, dok je drugi udžbenik približno podjednako efikasan za oba spola, ali još manje efikasan za muškarce. Može se predvidjeti da je učinak udžbenika u interakciji sa polom učenika. Međutim, ovo predviđanje takođe važi priroda interakcije. Za učenike u jednoj knjizi očekuje se značajna razlika između polova, au drugoj praktično rodno nezavisni rezultati za učenike. Ova vrsta hipoteze se obično istražuje pomoću kontrastne analize.

Analiza kontrasta

Ukratko, kontrastna analiza nam omogućava da procijenimo statističku značajnost nekih linearnih kombinacija složenih efekata. Kontrastna analiza je glavni i nezamjenjiv element svakog kompleksnog ANOVA plana. Modul Analiza varijanse ima dovoljno razne mogućnosti analizu kontrasta, koji vam omogućavaju da istaknete i analizirate bilo koju vrstu poređenja sredstava.

a posteriori poređenja

Ponekad se, kao rezultat obrade eksperimenta, otkrije neočekivani efekat. Iako u većini slučajeva kreativni istraživač može objasniti bilo koji rezultat, to ne pruža mogućnosti za dalju analizu i dobijanje procjena za prognozu. Ovaj problem je jedan od onih zbog kojih post hoc kriterijuma, odnosno kriterijumi koji se ne koriste a priori hipoteze. Za ilustraciju, razmotrite sljedeći eksperiment. Pretpostavimo da 100 kartica sadrži brojeve od 1 do 10. Spustivši sve ove kartice u zaglavlje, nasumično biramo 20 puta 5 kartica i izračunavamo prosječnu vrijednost za svaki uzorak (prosjek brojeva napisanih na karticama). Možemo li očekivati ​​da postoje dva uzorka čija se sredina značajno razlikuju? Ovo je vrlo uvjerljivo! Odabirom dva uzorka s maksimalnom i minimalnom srednjom vrijednosti, može se dobiti razlika u srednjim vrijednostima koja se jako razlikuje od razlike srednjih vrijednosti, na primjer, prva dva uzorka. Ova razlika se može istražiti, na primjer, upotrebom kontrastne analize. Da ne ulazimo u detalje, postoji nekoliko tzv a posteriori kriterijumi koji se zasnivaju upravo na prvom scenariju (uzimanje ekstremnih proseka od 20 uzoraka), odnosno ovi kriterijumi se zasnivaju na odabiru najrazličitijih sredstava za poređenje svih sredstava u dizajnu. Ovi kriterijumi se primenjuju kako se ne bi došlo do veštačkog efekta čisto slučajno, na primer, da bi se pronašla značajna razlika između sredstava kada ih nema. Modul Analiza varijanse nudi širok spektar takvih kriterijuma. Kada se u eksperimentu koji uključuje više grupa naiđu na neočekivane rezultate, a posteriori procedure za ispitivanje statističke značajnosti dobijenih rezultata.

Zbir kvadrata tipa I, II, III i IV

Multivarijantna regresija i analiza varijanse

Postoji bliski odnos između metode multivarijantne regresije i analize varijanse (analize varijacija). U obje metode se istražuje linearni model. Ukratko, gotovo svi eksperimentalni dizajni mogu se istražiti korištenjem multivarijantne regresije. Razmotrite sljedeći jednostavan plan unakrsnih grupa 2 x 2.

DV A B AxB
3 1 1 1
4 1 1 1
4 1 -1 -1
5 1 -1 -1
6 -1 1 -1
6 -1 1 -1
3 -1 -1 1
2 -1 -1 1

Kolone A i B sadrže kodove koji karakterišu nivoe faktora A i B, kolona AxB sadrži proizvod dva stupca A i B. Ove podatke možemo analizirati koristeći multivarijantnu regresiju. Varijabilna DV definirana kao zavisna varijabla, varijable iz A prije AxB kao nezavisne varijable. Proučavanje značaja za koeficijente regresije će se poklopiti sa proračunima u analizi varijanse značajnosti glavnih efekata faktora A i B i efekat interakcije AxB.

Neuravnoteženi i izbalansirani planovi

Prilikom izračunavanja matrice korelacije za sve varijable, na primjer, za podatke prikazane iznad, može se vidjeti da su glavni efekti faktora A i B i efekat interakcije AxB nekorelirano. Ovo svojstvo efekata naziva se i ortogonalnost. Kažu da efekti A i B - ortogonalno ili nezavisni jedno od drugog. Ako su svi efekti u planu ortogonalni jedan prema drugom, kao u gornjem primjeru, tada se kaže da je plan uravnotežen.

Izbalansirani planovi imaju “dobro svojstvo”. Proračuni u analizi ovakvih planova su vrlo jednostavni. Svi proračuni se svode na izračunavanje korelacije između efekata i zavisnih varijabli. Budući da su efekti ortogonalni, parcijalne korelacije (kao i potpune multidimenzionalni regresije) se ne računaju. Međutim, u pravi zivot planovi nisu uvek izbalansirani.

Razmotrite stvarne podatke sa nejednakim brojem zapažanja u ćelijama.

Faktor A Faktor B
B1 B2
A1 3 4, 5
A2 6, 6, 7 2

Ako ove podatke kodiramo kao gore i izračunamo matricu korelacije za sve varijable, onda se ispostavi da su faktori dizajna međusobno povezani. Faktori u planu sada nisu ortogonalni i takvi planovi se nazivaju neuravnotežen. Imajte na umu da je u ovom primjeru korelacija između faktora u potpunosti povezana s razlikom u frekvencijama 1 i -1 u kolonama matrice podataka. Drugim riječima, eksperimentalni dizajni s nejednakim volumenima ćelija (tačnije, nesrazmjernim volumenima) će biti neuravnoteženi, što znači da će se glavni efekti i interakcije miješati. U ovom slučaju, da biste izračunali statističku značajnost efekata, morate u potpunosti izračunati multivarijantnu regresiju. Ovdje postoji nekoliko strategija.

Zbir kvadrata tipa I, II, III i IV

Zbroj kvadrata tipaIiIII. Za proučavanje značaja svakog faktora u multivarijantnom modelu, može se izračunati parcijalna korelacija svakog faktora, pod uslovom da su svi ostali faktori već uzeti u obzir u modelu. Također možete unijeti faktore u model na način korak po korak, fiksirajući sve faktore koji su već uneseni u model i zanemarujući sve ostale faktore. Općenito, ovo je razlika između tip III i tipI sume kvadrata (ova terminologija je uvedena u SAS, vidi na primjer SAS, 1982; detaljna rasprava se također može naći u Searle, 1987, str. 461; Woodward, Bonett i Brecht, 1990, str. 216; ili Milliken i Johnson, 1984, str. 138).

Zbroj kvadrata tipaII. Sljedeća “srednja” strategija formiranja modela je: kontrolirati sve glavne efekte u proučavanju značaja jednog glavnog efekta; u kontroli svih glavnih efekata i svih parnih interakcija, kada se ispituje značaj jedne interakcije u paru; u kontroli svih glavnih efekata svih interakcija u paru i svih interakcija tri faktora; u proučavanju odvojene interakcije tri faktora, itd. Zove se zbroji kvadrata za efekte izračunate na ovaj način tipII sume kvadrata. dakle, vrstuII sumi kvadrata kontroliše sve efekte istog reda i ispod, zanemarujući sve efekte višeg reda.

Zbroj kvadrata tipaIV. Konačno, za neke posebne planove u kojima nedostaju ćelije (nepotpuni planovi) moguće je izračunati tzv. tip IV sume kvadrata. O ovoj metodi će biti reči kasnije u vezi sa nekompletnim planovima (planovima sa nedostajućim ćelijama).

Interpretacija pretpostavke o zbroju kvadrata tipova I, II i III

zbir kvadrata tipIII najlakše protumačiti. Podsjetimo da su zbroji kvadrata tipIII ispitati efekte nakon kontrole svih ostalih efekata. Na primjer, nakon pronalaženja statistički značajnog tipIII efekat za faktor A u modulu Analiza varijanse, možemo reći da postoji samo jedan značajan efekat faktora A, nakon što uvedemo sve druge efekte (faktore) i shodno tome protumačimo ovaj efekat. Vjerovatno u 99% svih primjena analize varijanse, ova vrsta kriterija je od interesa za istraživača. Ova vrsta zbira kvadrata se obično izračunava u modulu Analiza varijanse podrazumevano, bez obzira da li je opcija izabrana Regresijski pristup ili ne (standardni pristupi usvojeni u modulu Analiza varijanse diskutovano u nastavku).

Značajni efekti dobiveni korištenjem zbira kvadrata tip ili tipII sume kvadrata nije tako lako protumačiti. Oni se najbolje tumače u kontekstu postupne multivarijantne regresije. Ako koristite zbir kvadrata tipI glavni efekat faktora B je bio značajan (nakon uključivanja faktora A u model, ali pre dodavanja interakcije između A i B), može se zaključiti da postoji značajan glavni efekat faktora B, pod uslovom da ne postoji interakcija između faktora A i B. (Ako se koristi kriterij tipIII, faktor B se takođe pokazao značajnim, onda možemo zaključiti da postoji značajan glavni efekat faktora B, nakon uvođenja svih ostalih faktora i njihovih interakcija u model).

U smislu graničnih sredstava hipoteze tipI i tipII obično nemaju jednostavnu interpretaciju. U ovim slučajevima se kaže da se značaj efekata ne može tumačiti uzimajući u obzir samo granična sredstva. radije predstavljeno str srednje vrijednosti su povezane sa složenom hipotezom koja kombinira srednje vrijednosti i veličinu uzorka. Na primjer, vrstuII hipoteze za faktor A u jednostavnom primjeru dizajna 2 x 2 o kojem smo ranije govorili bi bile (vidi Woodward, Bonett i Brecht, 1990, str. 219):

nij- broj zapažanja u ćeliji

uij- prosječna vrijednost u ćeliji

n. j- granični prosjek

Ne ulazeći u detalje (za više detalja vidi Milliken i Johnson, 1984, poglavlje 10), jasno je da ovo nisu jednostavne hipoteze i da u većini slučajeva nijedna od njih nije od posebnog interesa za istraživača. Međutim, postoje slučajevi kada hipoteze tipI može biti od interesa.

Zadani računski pristup u modulu Analiza varijanse

Podrazumevano ako opcija nije označena Regresijski pristup, modul Analiza varijanse koristi prosječni model ćelije. Za ovaj model je karakteristično da se sumi kvadrata za različite efekte izračunavaju za linearne kombinacije srednjih vrijednosti ćelija. U punom faktorijalnom eksperimentu, ovo rezultira zbirom kvadrata koji je isti kao zbir kvadrata o kojem se ranije raspravljalo kao vrstu III. Međutim, u opciji Planirana poređenja(u prozoru Analiza rezultata varijanse), korisnik može pretpostaviti o bilo kojoj linearnoj kombinaciji ponderiranih ili neponderiranih srednjih vrijednosti ćelije. Dakle, korisnik može testirati ne samo hipoteze tipIII, ali hipoteze bilo koje vrste (uključujući vrstuIV). Ovo opšti pristup posebno korisno kada se ispituju dizajni sa nedostajućim ćelijama (tzv. nekompletni dizajni).

Za potpune faktorijalne dizajne, ovaj pristup je također koristan kada se želi analizirati ponderisana marginalna sredina. Na primjer, pretpostavimo da u jednostavnom dizajnu 2 x 2 razmatranom ranije, želimo uporediti ponderisane (u smislu nivoa faktora) B) marginalni proseci za faktor A. Ovo je korisno kada distribuciju zapažanja po ćelijama nije pripremio eksperimentator, već je konstruisana nasumično, a ta slučajnost se odražava u distribuciji broja posmatranja po nivoima faktora B u agregatu .

Na primjer, postoji faktor - starost udovice. Mogući uzorak ispitanika podijeljen je u dvije grupe: mlađi od 40 i stariji od 40 godina (faktor B). Drugi faktor (faktor A) u planu je da li su udovice dobile socijalnu podršku od neke agencije (dok su neke udovice odabrane nasumično, druge su služile kao kontrola). U ovom slučaju, starosna distribucija udovica u uzorku odražava stvarnu dobnu distribuciju udovica u populaciji. Procjena djelotvornosti grupe za socijalnu podršku za udovice svih uzrastaće odgovarati ponderisanom prosjeku za dvije starosne grupe (sa ponderima koji odgovaraju broju zapažanja u grupi).

Planirana poređenja

Imajte na umu da zbir unesenih omjera kontrasta nije nužno jednak 0 (nula). Umjesto toga, program će automatski izvršiti prilagođavanja tako da se odgovarajuće hipoteze ne miješaju sa ukupnim prosjekom.

Da bismo to ilustrirali, vratimo se jednostavnom planu 2 x 2 o kojem smo ranije govorili. Podsjetimo da je broj ćelija ovog neuravnoteženog dizajna -1, 2, 3 i 1. Recimo da želimo da uporedimo ponderisane marginalne proseke za faktor A (ponderisane učestalošću nivoa faktora B). Možete unijeti omjere kontrasta:

Imajte na umu da se ovi koeficijenti ne zbrajaju do 0. Program će postaviti koeficijente tako da oni iznose 0, uz zadržavanje njihovih relativne vrijednosti, tj.:

1/3 2/3 -3/4 -1/4

Ovi kontrasti će uporediti ponderisane proseke za faktor A.

Hipoteze o glavnoj sredini. Hipoteza da je neponderisana glavna srednja vrednost 0 može se istražiti korišćenjem koeficijenata:

Hipoteza da je ponderisana glavna sredina 0 testirana je sa:

Program ni u kom slučaju ne ispravlja omjere kontrasta.

Analiza planova sa nedostajućim ćelijama (nepotpuni planovi)

Faktorski dizajni koji sadrže prazne ćelije (obrada kombinacija ćelija u kojima nema zapažanja) nazivaju se nepotpunim. U takvim projektima neki faktori obično nisu ortogonalni i neke interakcije se ne mogu izračunati. Uopšte ne postoji najbolja metoda analiza takvih planova.

Regresijski pristup

U nekim starijim programima koji se oslanjaju na analizu ANOVA dizajna koristeći multivarijantnu regresiju, zadani faktori u nekompletnom dizajnu su dati kao na uobičajen način(kao da je plan završen). Zatim se radi multivarijantna regresiona analiza za ove lažno kodirane faktore. Nažalost, ova metoda dovodi do rezultata koje je vrlo teško, ako ne i nemoguće, protumačiti jer nije jasno kako svaki efekat doprinosi linearnoj kombinaciji sredstava. Razmotrite sljedeći jednostavan primjer.

Faktor A Faktor B
B1 B2
A1 3 4, 5
A2 6, 6, 7 Promašen

Ako je multivarijantna regresija oblika Zavisna varijabla = Konstanta + Faktor A + Faktor B, tada hipoteza o značaju faktora A i B u smislu linearnih kombinacija srednjih vrijednosti izgleda ovako:

Faktor A: Ćelija A1,B1 = Ćelija A2,B1

Faktor B: Ćelija A1,B1 = Ćelija A1,B2

Ovaj slučaj je jednostavan. U više komplikovani planovi nemoguće je tačno odrediti šta će se tačno istraživati.

Srednje ćelije, pristup analizi varijanse , hipoteze tipa IV

Pristup koji se preporučuje u literaturi i čini se poželjnijim je proučavanje smislenih (u smislu istraživačkih zadataka) a priori hipoteze o uočenim sredstvima u ćelijama plana. Detaljna rasprava o ovom pristupu može se naći u Dodge (1985), Heiberger (1989), Milliken i Johnson (1984), Searle (1987) ili Woodward, Bonett i Brecht (1990). Zbroji kvadrata povezani s hipotezama o linearnoj kombinaciji srednjih vrijednosti u nekompletnim projektima, istražujući procjene dijela efekata, također se nazivaju sumi kvadrata. IV.

Automatsko generiranje hipoteza tipaIV. Kada multivarijantni dizajn ima složeni uzorak ćelija koji nedostaje, poželjno je definisati ortogonalne (nezavisne) hipoteze čije je istraživanje ekvivalentno istraživanju glavnih efekata ili interakcija. Algoritamske (računarske) strategije (bazirane na pseudo-inverznoj matrici dizajna) su razvijene za generisanje odgovarajućih težina za takva poređenja. Nažalost, konačne hipoteze nisu jednoznačno određene. Naravno, oni zavise od redosleda kojim su efekti definisani i retko ih je lako protumačiti. Stoga se preporučuje pažljivo proučavanje prirode ćelija koje nedostaju, a zatim formuliranje hipoteza tipIV, koji su najrelevantniji za ciljeve studije. Zatim istražite ove hipoteze koristeći opciju Planirana poređenja u prozoru rezultate. Najlakši način da se specificiraju poređenja u ovom slučaju je da se zahtijeva uvođenje vektora kontrasta za sve faktore zajedno u prozoru Planirana poređenja. Nakon poziva dijalog box-a Planirana poređenja sve grupe trenutnog plana će biti prikazane, a one koje su izostavljene će biti označene.

Provjera preskočenih ćelija i specifičnih efekata

Postoji nekoliko tipova planova u kojima lokacija ćelija koje nedostaju nije nasumična, već pažljivo planirana, što omogućava jednostavnu analizu glavnih efekata bez uticaja na druge efekte. Na primjer, kada potreban broj ćelija u planu nije dostupan, planovi se često koriste. latinski kvadrati procijeniti glavne efekte nekoliko faktora sa velikim brojem nivoa. Na primjer, faktorski dizajn 4 x 4 x 4 x 4 zahtijeva 256 ćelija. Istovremeno, možete koristiti Grčko-latinski trg za procjenu glavnih efekata, imajući samo 16 ćelija u planu (pogl. Planiranje eksperimenta, tom IV, sadrži Detaljan opis takvi planovi). Nepotpuni dizajni u kojima se glavni efekti (i neke interakcije) mogu procijeniti korištenjem jednostavnih linearnih kombinacija sredstava nazivaju se izbalansirani nedovršeni planovi.

U balansiranim dizajnima, standardna (podrazumevana) metoda generisanja kontrasta (težina) za glavne efekte i interakcije će zatim proizvesti analizu tabele varijanse u kojoj se zbroji kvadrata za odgovarajuće efekte ne mešaju jedan sa drugim. Opcija Specifični efekti prozor rezultateće generirati kontraste koji nedostaju upisivanjem nule u ćelije plana koje nedostaju. Odmah nakon traženja opcije Specifični efekti za korisnika koji proučava neku hipotezu, pojavljuje se tabela rezultata sa stvarnim težinama. Imajte na umu da se u balansiranom dizajnu zbroji kvadrata odgovarajućih efekata izračunavaju samo ako su ti efekti ortogonalni (nezavisni) u odnosu na sve druge glavne efekte i interakcije. U suprotnom, koristite opciju Planirana poređenja istražiti smislena poređenja između sredstava.

Nedostajuće ćelije i kombinovani efekti greške/članovi

Ako opcija Regresijski pristup u lansirnoj ploči modula Analiza varijanse nije odabrano, model prosjeka ćelija će se koristiti prilikom izračunavanja zbira kvadrata za efekte (podrazumevana postavka). Ako dizajn nije uravnotežen, onda kada se kombiniraju neortogonalni efekti (vidi gornju raspravu o opciji Nedostajuće ćelije i specifičan efekat) može se dobiti zbir kvadrata koji se sastoji od neortogonalnih (ili preklapajućih) komponenti. Rezultati dobijeni na ovaj način se obično ne mogu interpretirati. Stoga treba biti vrlo oprezan pri odabiru i implementaciji složenih nekompletnih eksperimentalnih dizajna.

Postoje mnoge knjige koje detaljno govore o planovima. drugačiji tip. (Dodge, 1985; Heiberger, 1989; Lindman, 1974; Milliken i Johnson, 1984; Searle, 1987; Woodward i Bonett, 1990), ali ova vrsta informacija je izvan okvira ovog udžbenika. Međutim, kasnije u ovom dijelu ćemo pokazati analizu razne vrste planove.

Pretpostavke i efekti kršenja pretpostavke

Odstupanje od pretpostavke normalnih distribucija

Pretpostavimo da se zavisna varijabla mjeri na numeričkoj skali. Pretpostavimo i da zavisna varijabla ima normalnu distribuciju unutar svake grupe. Analiza varijanse sadrži širok spektar grafikona i statističkih podataka koji potkrepljuju ovu pretpostavku.

Efekti kršenja. Generalno F kriterij je vrlo otporan na odstupanje od normalnosti (vidi Lindman, 1974 za detaljne rezultate). Ako je eksces veći od 0, tada je vrijednost statistike F može postati vrlo mala. Nul hipoteza je prihvaćena, iako možda nije tačna. Situacija je obrnuta kada je kurtozis manji od 0. Asimetrija distribucije obično ima mali uticaj na F statistika. Ako je broj opažanja u ćeliji dovoljno velik, onda odstupanje od normalnosti nema poseban značaj zahvaljujući centralno granična teorema , prema kojem je distribucija srednje vrijednosti blizu normalne, bez obzira na početnu raspodjelu. Detaljna rasprava o održivosti F statistike se mogu naći u Box i Anderson (1955) ili Lindman (1974).

Homogenost disperzije

Pretpostavke. Pretpostavlja se da su varijanse različitih grupa plana iste. Ova pretpostavka se zove pretpostavka homogenost disperzije. Podsjetimo da smo na početku ovog odjeljka, kada smo opisivali izračunavanje zbira kvadrata grešaka, izvršili sumiranje unutar svake grupe. Ako se varijanse u dvije grupe razlikuju jedna od druge, tada njihovo zbrajanje nije baš prirodno i ne daje procjenu ukupne varijanse unutar grupe (pošto u ovom slučaju uopće ne postoji opća varijansa). Modul Analiza disperzije -ANOVA/MANOVA sadrži veliki set statistički kriterijumi otkrivanje odstupanja od pretpostavki homogenosti varijanse.

Efekti kršenja. Lindman (1974, str. 33) to pokazuje F kriterijum je prilično stabilan u pogledu narušavanja pretpostavki homogenosti varijanse ( heterogenost disperzija, vidi i Box, 1954a, 1954b; Hsu, 1938).

Poseban slučaj: korelacija srednjih vrijednosti i varijansi. Ima trenutaka kada F statistika može obmanuti. To se događa kada su srednje vrijednosti u ćelijama dizajna u korelaciji s varijansom. Modul Analiza varijanse omogućava vam da nacrtate dijagrame varijanse ili standardne devijacije u odnosu na sredstva za otkrivanje takve korelacije. Razlog zašto je takva korelacija opasna je sljedeći. Zamislimo da je na planu 8 ćelija, od kojih 7 ima skoro isti prosjek, a u jednoj ćeliji je prosjek mnogo veći od ostalih. Onda F test može otkriti statistički značajan efekat. Ali pretpostavimo da je u ćeliji sa velikom srednjom vrijednošću i varijansa mnogo veća od ostalih, tj. srednja vrijednost i varijansa u ćelijama su zavisne (što je srednja vrijednost veća, veća je varijansa). U ovom slučaju, velika srednja vrijednost je nepouzdana, jer može biti uzrokovana velikom varijansom u podacima. kako god F statistike zasnovane na ujedinjeni varijansa unutar ćelija će obuhvatiti veliku srednju vrijednost, iako kriteriji zasnovani na varijansi u svakoj ćeliji neće smatrati da su sve razlike u srednjim vrijednostima značajne.

Ova priroda podataka (velika srednja vrijednost i velika varijansa) često se susreće kada postoje izvanredne opservacije. Jedno ili dva vanjska opažanja snažno pomjeraju srednju vrijednost i uvelike povećavaju varijansu.

Homogenost varijanse i kovarijanse

Pretpostavke. U multivarijantnim projektima, sa multivarijantnim zavisnim mjerama, također se primjenjuju ranije opisane pretpostavke homogenosti varijanse. Međutim, pošto postoje multivarijantne zavisne varijable, potrebno je i da njihove međukorelacije (kovarijance) budu uniformne u svim ćelijama plana. Modul Analiza varijanse ponude Različiti putevi testiranje ovih pretpostavki.

Efekti kršenja. Multidimenzionalni analog F- kriterijum - λ-test Wilksa. Ne zna se mnogo o stabilnosti (robustnosti) Wilksovog λ-testa s obzirom na kršenje gornjih pretpostavki. Međutim, budući da interpretacija rezultata modula Analiza varijanse se obično zasniva na značaju jednodimenzionalnih efekata (nakon utvrđivanja značaja opšti kriterijum), rasprava o robusnosti se uglavnom odnosi na jednodimenzionalnu analizu varijanse. Stoga, značaj jednodimenzionalnih efekata treba pažljivo ispitati.

Poseban slučaj: analiza kovarijanse. Naročito teška kršenja homogenosti varijanse/kovarijance mogu nastati kada su kovarijacije uključene u dizajn. Konkretno, ako je korelacija između kovarijati i zavisnih mjera različita u različitim ćelijama dizajna, može uslijediti pogrešna interpretacija rezultata. Treba imati na umu da se u analizi kovarijanse, u suštini, radi regresiona analiza unutar svake ćelije kako bi se izolovao onaj dio varijanse koji odgovara kovarijanti. Pretpostavka homogenosti varijanse/kovarijance pretpostavlja da se ova regresiona analiza izvodi pod sljedećim ograničenjem: sve regresijske jednačine(nagibi) su isti za sve ćelije. Ako to nije predviđeno, može doći do velikih grešaka. Modul Analiza varijanse ima nekoliko posebnih kriterijuma za testiranje ove pretpostavke. Možda bi bilo preporučljivo koristiti ove kriterije kako bi se osiguralo da su jednadžbe regresije za različite ćelije približno iste.

Sferičnost i kompleksna simetrija: razlozi za korištenje multivarijantnog pristupa ponovljenih mjera u analizi varijanse

U projektima koji sadrže faktore ponovljenih mjera sa više od dva nivoa, primjena univarijantne analize varijanse zahtijeva dodatne pretpostavke: pretpostavke kompleksne simetrije i pretpostavke sferičnosti. Ove pretpostavke se rijetko ispunjavaju (vidi dolje). Stoga je posljednjih godina multivarijantna analiza varijanse dobila na popularnosti u takvim planovima (oba pristupa su kombinovana u modulu Analiza varijanse).

Pretpostavka kompleksne simetrije Pretpostavka kompleksne simetrije je da su varijanse (ukupno unutar grupe) i kovarijanse (po grupi) za različite ponovljene mjere ujednačene (iste). Ovo je dovoljan uslov da F test univarijantnih ponovljenih mjera bude validan (tj. prijavljene F-vrijednosti su, u prosjeku, u skladu s F-distribucijom). Međutim, u ovaj slučaj ovaj uslov nije neophodan.

Pretpostavka sferičnosti. Pretpostavka sferičnosti je neophodna i dovoljno stanje da bi F-test bio opravdan. Sastoji se u tome da su unutar grupa sva zapažanja nezavisna i ravnomjerno raspoređena. Priroda ovih pretpostavki, kao i uticaj njihovog kršenja, obično nije dobro opisana u knjigama o analizi varijanse – ova će biti opisana u narednim paragrafima. Takođe će pokazati da se rezultati univarijatnog pristupa mogu razlikovati od rezultata multivarijatnog pristupa i objasniti šta to znači.

Potreba za nezavisnošću hipoteza. Opšti način analize podataka u analizi varijanse je model fit. Ako, s obzirom na model koji odgovara podacima, postoje neki a priori hipoteze, onda se varijansa dijeli kako bi se testirale ove hipoteze (kriterijumi za glavne efekte, interakcije). Sa računske tačke gledišta, ovaj pristup generiše neki skup kontrasta (skup poređenja sredstava u dizajnu). Međutim, ako kontrasti nisu nezavisni jedan od drugog, podjela varijansi postaje besmislena. Na primjer, ako su dva kontrasta A i B su identični i odgovarajući dio se bira iz varijanse, zatim se isti dio bira dva puta. Na primjer, glupo je i besmisleno izdvajati dvije hipoteze: “srednja vrijednost u ćeliji 1 je veća od prosjeka u ćeliji 2” i “srednja vrijednost u ćeliji 1 je veća od srednje vrijednosti u ćeliji 2”. Dakle, hipoteze moraju biti nezavisne ili ortogonalne.

Nezavisne hipoteze u ponovljenim mjerenjima. Opšti algoritam, implementiran u modulu Analiza varijanse, pokušat će generirati nezavisne (ortogonalne) kontraste za svaki efekat. Što se tiče faktora ponovljenih mjera, ovi kontrasti dovode do mnogih hipoteza o razlike između nivoa razmatranog faktora. Međutim, ako su ove razlike u korelaciji unutar grupa, onda nastali kontrasti više nisu nezavisni. Na primjer, u obuci gdje se učenici mjere tri puta u jednom semestru, može se dogoditi da promjene između 1. i 2. dimenzije budu u negativnoj korelaciji sa promjenom između 2. i 3. dimenzije predmeta. Oni koji su savladali većinu gradiva između 1. i 2. dimenzije, savladavaju manji dio tokom vremena koje je prošlo između 2. i 3. dimenzije. U stvari, za većinu slučajeva gdje se analiza varijanse koristi u ponovljenim mjerenjima, može se pretpostaviti da su promjene nivoa u korelaciji među subjektima. Međutim, kada se to dogodi, pretpostavke kompleksne simetrije i sferičnosti nisu ispunjene i nezavisni kontrasti se ne mogu izračunati.

Utjecaj kršenja i načini za njihovo ispravljanje. Kada složene pretpostavke simetrije ili sferičnosti nisu ispunjene, analiza varijanse može dati pogrešne rezultate. Prije nego što su multivarijantne procedure dovoljno razvijene, napravljeno je nekoliko pretpostavki kako bi se nadoknadile povrede ovih pretpostavki. (Vidi, na primjer, Greenhouse & Geisser, 1959. i Huynh & Feldt, 1970.). Ove metode se i danas široko koriste (zbog čega su predstavljene u modulu Analiza varijanse).

Multivarijantna analiza varijansnog pristupa ponovljenim mjerama. Generalno, problemi kompleksne simetrije i sferičnosti odnose se na činjenicu da skupovi kontrasta uključeni u proučavanje efekata faktora ponovljenih mjerenja (sa više od 2 nivoa) nisu nezavisni jedan od drugog. Međutim, oni ne moraju biti nezavisni ako se koriste. multidimenzionalni kriterijum za istovremeno testiranje statističke značajnosti dve ili više ponovljenih merenja faktora kontrasta. To je razlog zašto se multivarijantna analiza metoda varijanse sve više koristi za testiranje značaja faktora univarijantnih ponovljenih mjera sa više od 2 nivoa. Ovaj pristup se široko koristi jer općenito ne zahtijeva pretpostavku kompleksne simetrije i pretpostavku sferičnosti.

Slučajevi u kojima se ne može koristiti multivarijantna analiza varijansnog pristupa. Postoje primjeri (planovi) kada se multivarijantna analiza varijansnog pristupa ne može primijeniti. To su obično slučajevi u kojima postoji mali broj subjekata u dizajnu i mnogo nivoa u faktoru ponovljenih mjerenja. Tada može biti premalo zapažanja da bi se izvršila multivarijantna analiza. Na primjer, ako postoji 12 entiteta, str = 4 faktor ponovljenih mjerenja, a svaki faktor ima k = 3 nivoa. Tada će se interakcija 4 faktora "potrošiti" (k-1)P = 2 4 = 16 stepena slobode. Međutim, postoji samo 12 subjekata, pa se multivarijantni test ne može izvesti u ovom primjeru. Modul Analiza varijanseće nezavisno otkriti ova zapažanja i izračunati samo jednodimenzionalne kriterijume.

Razlike u univarijantnim i multivarijantnim rezultatima. Ako studija uključuje veliki broj ponovljenih mjera, mogu postojati slučajevi u kojima pristup univarijantnih ponovljenih mjera ANOVA daje rezultate koji se vrlo razlikuju od onih dobivenih multivarijantnim pristupom. To znači da su razlike između nivoa odgovarajućih ponovljenih mjerenja u korelaciji među subjektima. Ponekad je ova činjenica od nekog nezavisnog interesa.

Multivarijantna analiza varijanse i strukturno modeliranje jednačina

Posljednjih godina, modeliranje strukturnih jednačina postalo je popularno kao alternativa multivarijantnoj disperzijskoj analizi (vidi, na primjer, Bagozzi i Yi, 1989; Bagozzi, Yi i Singh, 1991; Cole, Maxwell, Arvey i Salas, 1993). Ovaj pristup vam omogućava da testirate hipoteze ne samo o srednjim vrednostima u različitim grupama, već i o matricama korelacije zavisnih varijabli. Na primjer, možete ublažiti pretpostavke o homogenosti varijanse i kovarijanse i eksplicitno uključiti greške u model za svaku grupu varijanse i kovarijanse. Modul STATISTIKAModeliranje strukturne jednačine (SEPATH) (vidi Tom III) dozvoljava takvu analizu.

Analiza varijanse

1. Koncept analize varijanse

Analiza varijanse- ovo je analiza varijabilnosti osobine pod uticajem bilo kojeg kontrolisanog varijabilnog faktora. U stranoj literaturi, analiza varijanse se često naziva ANOVA, što se prevodi kao analiza varijanse (Analysis of Variance).

Zadatak analize varijanse sastoji se u izolovanju varijabilnosti različite vrste od opšte varijabilnosti osobine:

a) varijabilnost zbog djelovanja svake od proučavanih nezavisnih varijabli;

b) varijabilnost zbog interakcije proučavanih nezavisnih varijabli;

c) slučajna varijacija zbog svih ostalih nepoznatih varijabli.

Varijabilnost zbog djelovanja proučavanih varijabli i njihove interakcije je u korelaciji sa slučajnom varijabilnošću. Pokazatelj ovog omjera je Fišerov F test.

Formula za izračunavanje kriterija F uključuje procjene varijansi, odnosno parametara distribucije znaka, stoga je kriterij F parametarski kriterij.

Nego u više varijabilnost osobine je zbog proučavanih varijabli (faktora) ili njihove interakcije, što je veća empirijske vrijednosti kriterija.

Zero hipoteza u analizi varijanse će reći da su prosječne vrijednosti proučavane efektivne karakteristike u svim gradacijama iste.

Alternativa hipoteza će reći da su prosječne vrijednosti efektivnog atributa u različitim gradacijama proučavanog faktora različite.

Analiza varijanse nam omogućava da navedemo promjenu u osobini, ali ne ukazuje smjer ove promjene.

Počnimo analizu varijanse s najjednostavnijim slučajem, kada proučavamo samo djelovanje jedan varijabla (jedan faktor).

2. Jednosmjerna analiza varijanse za nepovezane uzorke

2.1. Svrha metode

Metoda jednofaktorske analize varijanse koristi se u onim slučajevima kada se proučavaju promjene efektivnog atributa pod utjecajem promjenjivih uslova ili gradacija bilo kojeg faktora. U ovoj verziji metode, uticaj svake od gradacija faktora je razne uzorak ispitanika. Moraju postojati najmanje tri gradacije faktora. (Možda postoje dvije gradacije, ali u ovom slučaju nećemo moći uspostaviti nelinearne zavisnosti i čini se da je razumnije koristiti jednostavnije).

Neparametrijska varijanta ove vrste analize je Kruskal-Wallis H test.

Hipoteze

H 0: Razlike između faktorskih ocjena (različiti uvjeti) nisu ništa izraženije od slučajnih razlika unutar svake grupe.

H 1: Razlike između gradacija faktora (različiti uslovi) su izraženije od nasumičnih razlika unutar svake grupe.

2.2. Ograničenja univarijantne analize varijanse za nepovezane uzorke

1. Univarijantna analiza varijanse zahtijeva najmanje tri gradacije faktora i najmanje dva predmeta u svakoj gradaciji.

2. Rezultirajuća osobina mora biti normalno raspoređena u ispitivanom uzorku.

Istina, obično nije naznačeno da li je riječ o distribuciji neke osobine u cijelom ispitivanom uzorku ili u onom njegovom dijelu koji čini kompleks disperzije.

3. Primjer rješavanja problema metodom jednofaktorske analize varijanse za nepovezane uzorke na primjeru:

Tri različite grupe od šest ispitanika dobile su liste od deset riječi. Riječi su predstavljene prvoj grupi niskom brzinom od 1 riječi u 5 sekundi, drugoj grupi prosječnom brzinom od 1 riječi u 2 sekunde, a trećoj grupi velikom brzinom od 1 riječi u sekundi. Predviđeno je da će performanse reprodukcije zavisiti od brzine prezentacije reči. Rezultati su prikazani u tabeli. jedan.

Broj reproduciranih riječi Tabela 1

broj predmeta

mala brzina

prosječna brzina

velika brzina

ukupan iznos

H 0: Razlike u volumenu riječi između grupe nisu izraženije od slučajnih razlika unutra svaka grupa.

H1: Razlike u volumenu riječi između grupe su izraženije od slučajnih razlika unutra svaka grupa. Koristeći eksperimentalne vrijednosti prikazane u tabeli. 1, ustanovit ćemo neke vrijednosti koje će biti potrebne za izračunavanje kriterija F.

Izračun glavnih veličina za jednosmjernu analizu varijanse prikazan je u tabeli:

tabela 2

Tabela 3

Redoslijed operacija u jednosmjernoj ANOVA-i za nepovezane uzorke

Često korištena u ovoj i sljedećim tabelama, oznaka SS je skraćenica za "zbir kvadrata". Ova skraćenica se najčešće koristi u prevedenim izvorima.

SS činjenica označava varijabilnost osobine, zbog djelovanja faktora koji se proučava;

SS često- opšta varijabilnost osobine;

S CA- varijabilnost zbog neuračunatih faktora, "slučajne" ili "rezidualne" varijabilnosti.

GOSPOĐA - "srednji kvadrat“, ili srednja vrijednost zbira kvadrata, prosječna vrijednost odgovarajućeg SS.

df - broj stepeni slobode, koji smo, kada se razmatraju neparametarski kriterijumi, označili grčkim slovom v.

Zaključak: H 0 je odbijen. H 1 je prihvaćen. Razlike u obimu reprodukcije riječi između grupa su izraženije od slučajnih razlika unutar svake grupe (α=0,05). Dakle, brzina prezentacije riječi utječe na volumen njihove reprodukcije.

U nastavku je prikazan primjer rješavanja problema u Excelu:

Početni podaci:

Koristeći naredbu: Alati->Analiza podataka->Jednosmjerna analiza varijanse, dobijamo sljedeće rezultate: