Biograafiad Omadused Analüüs

Dispersioonanalüüs viitab arvule. Testitav hüpotees on, et rühmade vahel ei ole erinevusi.

Eespool käsitletud kontrollimeetodid statistilised hüpoteesid kahe keskmise erinevuse olulisuse kohta praktikas on vähe kasutust. Selle põhjuseks on asjaolu, et selleks, et tuvastada kõigi võimalike tingimuste ja tegurite mõju saadud tunnusele, tehakse väli- ja laborikatsed reeglina mitte kahe, vaid suurema hulga proovide abil (1220 või rohkem). ).

Sageli võrdlevad teadlased mitme proovi vahendeid, mis on ühendatud üheks kompleksiks. Näiteks uurides erinevate väetiste tüüpide ja annuste mõju saagikusele, korratakse katseid a. erinevaid valikuid. Nendel juhtudel muutub paariline võrdlemine tülikaks ning kogu kompleksi statistiline analüüs eeldab spetsiaalse meetodi kasutamist. Seda matemaatilises statistikas välja töötatud meetodit nimetatakse dispersioonanalüüsiks. Seda kasutas esmakordselt inglise statistik R. Fisher agronoomiliste katsete tulemuste töötlemisel (1938).

Dispersioonanalüüs on meetod statistiline hindamine efektiivtunnuse sõltuvuse avaldumise usaldusväärsus ühest või mitmest tegurist. Dispersioonanalüüsi meetodi abil testitakse statistilisi hüpoteese keskmiste kohta mitmes üldpopulatsioonis, millel on normaaljaotus.

Dispersioonanalüüs on üks peamisi katse tulemuste statistilise hindamise meetodeid. Üha enam kasutatakse seda ka majandusinfo analüüsimisel. Dispersioonanalüüs võimaldab kindlaks teha, kuivõrd on efektiivsete ja faktormärkide vahelise seose selektiivsed näitajad piisavad, et levitada valimist saadud andmeid üldkogumisse. Selle meetodi eeliseks on see, et see annab väikestest proovidest üsna usaldusväärseid järeldusi.

Uurides saadud atribuudi varieerumist ühe või mitme teguri mõjul, kasutades dispersioonanalüüsi, on võimalik saada lisaks üldistele hinnangutele sõltuvuste olulisuse kohta ka hinnang keskmiste väärtuste erinevustele. kujunevad tegurite erinevatel tasanditel ning tegurite koosmõju olulisust. Dispersioonanalüüsi kasutatakse nii kvantitatiivse kui ka sõltuvuste uurimiseks kvalitatiivsed omadused, samuti nende kombinatsioon.

Selle meetodi olemus on statistiline uuringühe või mitme teguri mõju tõenäosus, samuti nende koostoime efektiivsele tunnusele. Vastavalt sellele lahendatakse dispersioonanalüüsi abil kolm peamist ülesannet: 1) üldskoor rühmade keskmiste erinevuste olulisus; 2) tegurite koosmõju tõenäosuse hindamine; 3) keskmiste paaride vaheliste erinevuste olulisuse hindamine. Kõige sagedamini peavad teadlased selliseid probleeme lahendama väli- ja zootehniliste katsete tegemisel, kui uuritakse mitme teguri mõju tekkivale tunnusele.

Dispersioonanalüüsi põhimõtteline skeem hõlmab resultantatribuudi põhiliste variatsiooniallikate kindlaksmääramist ja variatsiooni mahu (kõrvalekallete summade) määramist selle kujunemise allikate järgi; komponentidele vastavate vabadusastmete arvu määramine üldine varieeruvus; dispersioonide arvutamine vastavate variatsioonimahtude ja nende vabadusastmete arvu suhtena; dispersioonide vaheliste seoste analüüs; keskmiste erinevuse usaldusväärsuse hindamine ja järelduste tegemine.

See skeem säilib nii lihtsates ANOVA mudelites, kui andmed on grupeeritud ühe atribuudi järgi, kui ka keerulistes mudelites, kui andmed on rühmitatud kahe või enama atribuudi järgi. Rühmatunnuste arvu suurenemisega muutub aga üldise variatsiooni lagunemise protsess vastavalt selle tekkeallikatele keerulisemaks.

Elektriskeemi järgi dispersioonanalüüs saab esitada viie järjestikuse etapina:

1) variatsiooni määratlus ja dekomponeerimine;

2) variatsioonivabadusastmete arvu määramine;

3) dispersioonide ja nende vahekordade arvutamine;

4) dispersioonide ja nende vahekordade analüüs;

5) keskmiste erinevuse usaldusväärsuse hindamine ja järelduste tegemine nullhüpoteesi kontrollimisel.

Dispersioonanalüüsi kõige aeganõudvam osa on esimene etapp – variatsiooni defineerimine ja dekomponeerimine selle tekkeallikate järgi. Variatsiooni kogumahu laienemise järjekorda käsitleti üksikasjalikult 5. peatükis.

Dispersioonanalüüsi ülesannete lahendamise aluseks on variatsiooni laienemise (liitumise) seadus, mille kohaselt jagatakse resultantatribuudi koguvariatsioon (kõikumised) kaheks: uuritava teguri (tegurite) toimest tulenev variatsioon ja juhuslike põhjuste toimest põhjustatud varieeruvus, st

Oletame, et uuritav populatsioon jaguneb faktoriatribuudi järgi mitmeks rühmaks, millest igaüht iseloomustab oma keskmine tõhus märk. Samal ajal saab nende väärtuste kõikumist seletada kahte tüüpi põhjustega: need, mis süstemaatiliselt toimivad tõhusale omadusele ja mida on katse käigus kohandatavad ja mida ei saa kohandada. On ilmne, et rühmadevaheline (faktoriaalne või süstemaatiline) varieeruvus sõltub peamiselt uuritava teguri toimest ja grupisisene (jääk- või juhuslik) varieeruvus juhuslike tegurite toimest.

Et hinnata rühmade keskmiste erinevuste olulisust, on vaja määrata rühmadevahelised ja grupisisesed variatsioonid. Kui rühmadevaheline (faktoriaalne) variatsioon ületab oluliselt rühmasisest (jääk)variatsiooni, siis mõjutas tegur saadud tunnust, muutes oluliselt rühma keskmiste väärtusi. Kuid tekib küsimus, milline on rühmadevaheliste ja grupisisese variatsioonide suhe, mida võib pidada piisavaks järelduseks grupi keskmiste erinevuste usaldusväärsuse (olulisuse) kohta.

Keskmiste vaheliste erinevuste olulisuse hindamiseks ja nullhüpoteesi (H0: x1 = x2 = ... = xn) testimise kohta järelduste tegemiseks kasutatakse dispersioonanalüüsis teatud tüüpi standardit - G-kriteeriumi, jaotusseadust. mille asutas R. Fisher. See kriteerium on kahe variatsiooni suhe: faktoriaalne, mis tekib uuritava teguri toimel, ja jääk, mis on tingitud juhuslikest põhjustest:

Dispersioonisuhe r = t>u : £ * 2 tegi Ameerika statistik Snedecor ettepaneku tähistada tähega G dispersioonanalüüsi leiutaja R. Fisheri auks.

°2 ja io2 dispersioonid on dispersiooni hinnangud elanikkonnast. Kui valimid, mille dispersioon on °2 °2, on võetud samast üldpopulatsioonist, kus väärtuste kõikumine oli juhuslik tegelane, siis on ka lahknevus °2 °2 väärtustes juhuslik.

Kui katses kontrollitakse samaaegselt mitme teguri (A, B, C jne) mõju efektiivsele tunnusele, siis peaks igaühe toimest tulenev dispersioon olema võrreldav °e.gP, st

Kui teguri dispersiooni väärtus on oluliselt suurem kui jääk, siis mõjutas tegur oluliselt saadud atribuuti ja vastupidi.

Mitmefaktorilistes katsetes esineb lisaks iga teguri toimest tulenevale variatsioonile peaaegu alati ka variatsioon, mis tuleneb tegurite koostoimest ($av: ^ls ^ss $liіs). Interaktsiooni olemus seisneb selles, et ühe teguri mõju muutub oluliselt erinevad tasemed teine ​​(näiteks mulla kvaliteedi efektiivsus erinevate väetiste annuste korral).

Faktorite koostoimet tuleks hinnata ka vastavate dispersioonide võrdlemisel 3 ^w.gr:

B-kriteeriumi tegeliku väärtuse arvutamisel võetakse lugejas dispersioonidest suurim, seega B > 1. Ilmselgelt, mida suurem on B-kriteerium, seda suuremad on erinevused dispersioonide vahel. Kui B = 1, siis dispersioonide erinevuste olulisuse hindamise küsimus eemaldatakse.

Juhuslike kõikumiste piiride määramiseks töötas G. Fisher välja dispersioonide suhte B-jaotuse spetsiaalsed tabelid (lisa 4 ja 5). Kriteerium B on funktsionaalselt seotud tõenäosusega ja sõltub variatsioonivabadusastmete arvust k1 ja k2 kahest võrreldavast dispersioonist. Piirmäära kohta järelduste tegemiseks kasutatakse tavaliselt kahte tabelit kõrge väärtus olulisuse tasemete 0,05 ja 0,01 kriteerium. Olulisuse tase 0,05 (või 5%) tähendab, et ainult viiel juhul 100-st võib kriteerium B omandada väärtuse, mis on võrdne või suurem kui tabelis näidatud. Olulisuse taseme langus 0,05-lt 0,01-le toob kaasa kriteeriumi B väärtuse suurenemise kahe dispersiooni vahel ainult juhuslike põhjuste toime tõttu.

Kriteeriumi väärtus sõltub otseselt ka kahe võrreldava dispersiooni vabadusastmete arvust. Kui vabadusastmete arv kaldub lõpmatuseni (k-me), siis oleks kahe dispersiooni suhe ühtsusele.

Kriteeriumi B tabeliväärtus näitab võimalikku juhuslik muutuja kahe dispersiooni suhted antud olulisuse tasemel ja vastav vabadusastmete arv iga võrreldava dispersiooni jaoks. Nendes tabelites on B väärtus antud samast üldkogumikust tehtud proovide puhul, kus väärtuste muutuse põhjused on juhuslikud.

G väärtus leitakse tabelitest (lisa 4 ja 5) vastava veeru (vabadusastmete arv suurema dispersiooni korral - k1) ja rea ​​(vabadusastmete arv väiksema dispersiooni korral) lõikekohast. - k2). Seega, kui suurem dispersioon (lugeja G) k1 = 4 ja väiksem (nimetaja G) k2 = 9, on Ga olulisuse tasemel a = 0,05 3,63 (u. 4). Seega võib juhuslike põhjuste toimel, kuna valimid on väikesed, ühe valimi dispersioon 5% olulisuse tasemel ületada teise valimi dispersiooni 3,63 korda. Olulisuse taseme vähenemisel 0,05-lt 0,01-le suureneb kriteeriumi D tabeliväärtus, nagu eespool märgitud. Niisiis, samade vabadusastmete k1 = 4 ja k2 = 9 ja a = 0,01 korral on kriteeriumi G tabeliväärtus 6,99 (u. 5).

Vaatleme dispersioonanalüüsi vabadusastmete arvu määramise protseduuri. Vabadusastmete arv, mis vastab ruuduhälvete kogusummale, jagatakse vastavateks komponentideks sarnaselt ruuduhälvete summade lagunemisega. koguarv vabadusastmed (k") jaotatakse rühmadevaheliste (k1) ja grupisisese (k2) variatsioonide vabadusastmete arvuks.

Seega, kui valimipopulatsioon, mis koosneb N tähelepanekud jagatud t rühmad (katse valikute arv) ja P alarühmad (korduste arv), siis on vabadusastmete arv k vastavalt:

a) hälvete ruudu summa (dszar)

b) rühmadevaheliste ruutude hälvete summa jaoks ^m.gP)

c) grupisiseste hälvete ruudusumma jaoks sisse w.gr)

Vastavalt lisamise variatsioonireeglile:

Näiteks kui katses moodustati neli katse varianti (m = 4) viie kordusega (n = 5) ja kokku tähelepanekud N = = t o p \u003d 4 * 5 \u003d 20, siis on vabadusastmete arv vastavalt võrdne:

Teades vabadusastmete arvu ruuduhälbete summasid, on võimalik määrata erapooletuid (kohandatud) hinnanguid kolmele dispersioonile:

Kriteeriumi B nullhüpoteesi H0 kontrollitakse samamoodi nagu Studenti u-testiga. H0 kontrollimise otsuse tegemiseks on vaja arvutada kriteeriumi tegelik väärtus ja võrrelda seda tabeli väärtus Ba aktsepteeritud olulisuse taseme a ja vabadusastmete arvu jaoks k1 ja k2 kahe dispersiooni korral.

Kui Bfakg > Ba, siis vastavalt aktsepteeritud olulisuse tasemele võime järeldada, et valimi dispersioonide erinevusi ei määra mitte ainult juhuslikud tegurid; need on märkimisväärsed. Sel juhul lükatakse nullhüpotees tagasi ja on alust arvata, et tegur mõjutab oluliselt saadud atribuuti. Kui< Ба, то нулевую гипотезу принимают и есть основание утверждать, что различия между сравниваемыми дисперсиями находятся в границах возможных случайных колебаний: действие фактора на результативный признак не является существенным.

Ühe või teise dispersioonanalüüsi mudeli kasutamine sõltub nii uuritavate tegurite arvust kui ka valimi moodustamise meetodist.

Sõltuvalt efektiivse tunnuse varieerumist määravate tegurite arvust võib valimeid moodustada ühest, kahest või enamast tegurist. Selle dispersioonanalüüsi kohaselt jaguneb see ühefaktoriliseks ja mitmefaktoriliseks. Muidu nimetatakse seda ka ühe- ja mitmefaktoriliseks dispersioonikompleksiks.

Üldvariatsiooni lagunemise skeem sõltub rühmade moodustamisest. See võib olla juhuslik (ühe rühma vaatlused ei ole seotud teise rühma vaatlustega) ja mittejuhuslikud (kahe valimi vaatlused on omavahel seotud katse ühiste tingimustega). Vastavalt saadakse sõltumatud ja sõltuvad valimid. Sõltumatuid valimeid saab moodustada nii võrdsete kui ka paaritute arvudega. Sõltuvate valimite moodustamine eeldab nende võrdset arvu.

Kui rühmad on moodustatud mittevägivaldses järjekorras, sisaldab saadud tunnuse variatsiooni kogusumma koos faktoriaalse (rühmadevahelise) ja jääkvariatsiooniga ka korduste varieerumist, st.

Praktikas on enamikul juhtudel vaja arvestada sõltuvaid valimeid, kui rühmade ja alarühmade tingimused on võrdsustatud. Jah, sisse valdkonna kogemus kogu sait on jagatud plokkideks, kus on kõige virivnyanniya tingimused. Ühtlasi saab katse iga variant võrdsed võimalused olla esindatud kõikides plokkides, millega saavutatakse tingimuste võrdsustamine kõikide testitud variantide, kogemuste puhul. Seda kogemuse konstrueerimise meetodit nimetatakse randomiseeritud plokkide meetodiks. Sarnaselt tehakse katseid loomadega.

Sotsiaalmajanduslike andmete töötlemisel dispersioonanalüüsi meetodil tuleb meeles pidada, et tegurite suure hulga ja nende omavaheliste seoste tõttu on isegi kõige hoolikama tingimuste vastavusse viimise korral raske kindlaks teha, kui palju tegureid on. iga üksiku teguri objektiivne mõju efektiivsele omadusele. Seetõttu ei määra jääkvariatsiooni taset mitte ainult juhuslikud põhjused, vaid ka olulised tegurid, mida ANOVA mudeli koostamisel arvesse ei võetud. Seetõttu muutub jääkdispersioon võrdlusalusena mõnikord oma otstarbeks ebapiisavaks, on selgelt ülehinnatud ega saa olla tegurite mõju olulisuse kriteeriumina. Sellega seoses muutub dispersioonanalüüsi mudelite loomisel valikuprobleem aktuaalseks. kriitilised tegurid ja nende igaühe tegevuse avaldumise tingimuste tasandamine. Pealegi. dispersioonanalüüsi kasutamine eeldab uuritavate statistiliste populatsioonide normaalset või normaalsele lähedast jaotust. Kui see tingimus ei ole täidetud, on dispersioonanalüüsis saadud hinnangud liialdatud.

Dispersioonanalüüs(ladina sõnast Dispersio - dispersion / inglise keeles Analysis Of Variance - ANOVA) kasutatakse ühe või mitme kvalitatiivse muutuja (teguri) mõju uurimiseks ühele sõltuvale kvantitatiivsele muutujale (vastus).

Dispersioonanalüüs põhineb eeldusel, et mõnda muutujat saab käsitleda põhjustena (tegurid, sõltumatud muutujad): , ja teisi kui tagajärgi (sõltuvad muutujad). Sõltumatuid muutujaid nimetatakse mõnikord reguleeritavateks teguriteks just seetõttu, et eksperimendis on uurijal võimalus neid varieerida ja saadud tulemust analüüsida.

peamine eesmärk dispersioonanalüüs(ANOVA) uurib keskmiste erinevuste olulisust dispersioonide võrdlemise (analüüsimise) teel. Eraldamine kogu dispersioon mitmele allikale, võimaldab võrrelda rühmadevahelisest erinevusest tingitud dispersioone grupisisese varieeruvuse põhjustatud dispersiooniga. Kui nullhüpotees on tõene (keskmiste võrdsuse kohta mitmes üldpopulatsioonist valitud vaatlusrühmas), peaks grupisisese varieeruvusega seotud dispersiooni hinnang olema lähedane rühmadevahelise dispersiooni hinnangule. Kui võrrelda lihtsalt kahe valimi keskmisi, annab dispersioonanalüüs sama tulemuse kui tavaline sõltumatu valimi t-test (kui võrdlete kahte sõltumatut objektide või vaatluste rühma) või sõltuva valimi t-test ( kui võrdlete kahte muutujat sama ja sama objektide või vaatluste kogumi kohta).

Dispersioonanalüüsi olemus seisneb uuritava tunnuse summaarse dispersiooni jagamises eraldi komponentideks, tulenevalt konkreetsete tegurite mõjust, ning hüpoteeside kontrollimisest nende tegurite mõju olulisuse kohta uuritavale tunnusele. Võrreldes dispersiooni komponente omavahel Fisheri F-testi abil, on võimalik kindlaks teha, milline osa saadud tunnuse koguvarieeruvusest on tingitud reguleeritavate tegurite toimest.

Dispersioonanalüüsi lähtematerjaliks on kolme või enama valimi uurimise andmed: , mis võivad olla arvult kas võrdsed või ebavõrdsed, nii seotud kui ka mitteühendatud. Vastavalt tuvastatud reguleeritavate tegurite arvule võib dispersioonanalüüs olla ühefaktoriline(samal ajal uuritakse ühe teguri mõju katse tulemustele), kahefaktoriline(kahe teguri mõju uurimisel) ja multifaktoriaalne(võimaldab hinnata mitte ainult iga teguri mõju eraldi, vaid ka nende koostoimet).

Dispersioonanalüüs kuulub parameetriliste meetodite rühma ja seetõttu tuleks seda kasutada ainult siis, kui on tõestatud, et jaotus on normaalne.

Dispersioonanalüüsi kasutatakse juhul, kui sõltuvat muutujat mõõdetakse suhtarvude, intervallide või järjekorra skaalal ning mõjutavad muutujad on mittenumbrilised (nimeskaala).

Ülesannete näited

Dispersioonanalüüsiga lahendatavates ülesannetes on arvuline vastus, mida mõjutavad mitmed nominaalse iseloomuga muutujad. Näiteks mitut tüüpi kariloomade nuumratsioonid või kaks pidamisviisi jne.

Näide 1: Nädala jooksul tegutses kolmes erinevas kohas mitu apteegikioski. Tulevikus saame jätta ainult ühe. Tuleb välja selgitada, kas narkootikumide müügimahtudel kioskites on statistiliselt oluline erinevus. Kui jah, siis valime välja suurima keskmise päevase müügimahuga kioski. Kui müügimahu erinevus osutub statistiliselt ebaoluliseks, siis peaks kioski valikul lähtuma muudest näitajatest.

Näide 2: Rühmakeskmiste kontrastide võrdlus. Seitse poliitilist kuuluvust on järjestatud äärmiselt liberaalsest kuni äärmuskonservatiivseni ning lineaarset kontrasti kasutatakse selleks, et testida, kas rühmade keskmistes on nullist erinev tõusutrend, st kas keskmine vanus on oluliselt lineaarselt tõusnud, kui arvestada aastal järjestatud gruppe. suund liberaalsest konservatiivseks.

Näide 3: Kahesuunaline dispersioonanalüüs. Toodete müüginumbrit mõjutab lisaks poe suurusele sageli ka tootega koos olevate riiulite asukoht. See näide sisaldab iganädalasi müüginäitajaid, mida iseloomustavad neli riiulipaigutust ja kolm poe suurust. Analüüsi tulemused näitavad, et mõlemad tegurid - kaubaga riiulite asukoht ja kaupluse suurus - mõjutavad müükide arvu, kuid nende koostoime ei ole märkimisväärne.

Näide 4:Ühemõõtmeline ANOVA: Randomiseeritud kahe töötlusega täisploki disain. Mõju kõigi leivaküpsetamisele võimalikud kombinatsioonid kolm rasva ja kolm taigna rebimist. Neljast võetud neli jahuproovi erinevatest allikatest, toimis blokeerivate teguritena. Rasva-ripperi interaktsiooni olulisus tuleb kindlaks teha. Seejärel määrake kontrastide valimise erinevad võimalused, mis võimaldavad teil teada saada, millised tegurite tasemete kombinatsioonid erinevad.

Näide 5: Segatud efektidega hierarhilise (pesastatud) plaani mudel. Uuritakse nelja juhuslikult valitud tööpinki paigaldatud pea mõju valmistatud klaaskatoodihoidikute deformatsioonile. (Pead on masinasse sisse ehitatud, seega ei saa sama pead erinevatel masinatel kasutada.) Peaefekti käsitletakse juhusliku tegurina. ANOVA statistika näitab, et masinate vahel olulisi erinevusi ei ole, kuid on viiteid sellele, et pead võivad erineda. Kõigi masinate erinevus ei ole märkimisväärne, kuid kahe puhul on erinevus peatüüpide vahel märkimisväärne.

Näide 6:Ühemõõtmeline korduvate mõõtmiste analüüs jagatud proovitüki plaani abil. See katse viidi läbi selleks, et teha kindlaks, milline on inimese ärevuse reitingu mõju eksami sooritamisele neljal järjestikusel katsel. Andmed on korraldatud nii, et neid saab käsitleda kogu andmekogumi alamhulkade rühmadena ("kogu graafik"). Ärevuse mõju ei olnud märkimisväärne, samas kui proovimise mõju oli märkimisväärne.

Meetodite loetelu

  • Faktoriaalse katse mudelid. Näited: matemaatikaülesannete lahendamise edukust mõjutavad tegurid; müügimahtu mõjutavad tegurid.

Andmed koosnevad mitmest vaatluse (töötluse) seeriast, mida käsitletakse sõltumatute valimite realisatsioonidena. Esialgne hüpotees on, et ravides pole vahet, s.t. eeldatakse, et kõiki vaatlusi võib käsitleda ühe valimina kogu populatsioonist:

  • Ühefaktoriline parameetriline mudel: Scheffe meetod.
  • Ühefaktoriline mitteparameetriline mudel [Lagutin M.B., 237]: Kruskal-Wallise kriteerium [Hollender M., Wolf D.A., 131], Jonkheeri kriteerium [Lagutin M.B., 245].
  • Konstantsete teguritega mudeli üldjuhtum, Cochrani teoreem [Afifi A., Eisen S., 234].

Andmed on kahekordsed korduvad vaatlused:

  • Kahefaktoriline mitteparameetriline mudel: Friedmani kriteerium [Lapach, 203], Page’i kriteerium [Lagutin M.B., 263]. Näited: tootmismeetodite efektiivsuse võrdlus, põllumajandustavad.
  • Kahefaktoriline mitteparameetriline mudel mittetäielike andmete jaoks

Lugu

Kust nimi tuli dispersioonanalüüs? Võib tunduda kummaline, et keskmiste võrdlemise protseduuri nimetatakse dispersioonanalüüsiks. Tegelikult on see tingitud sellest, et kahe (või mitme) rühma keskmiste erinevuse statistilist olulisust uurides võrdleme (analüüsime) tegelikult valimi dispersioone. Pakutakse välja dispersioonanalüüsi põhikontseptsioon Fisher aastal 1920. Võib-olla oleks loomulikum termin ruutude summaanalüüs või variatsioonianalüüs, kuid traditsioonist tulenevalt kasutatakse terminit dispersioonanalüüs. Algselt töötati välja dispersioonanalüüs spetsiaalselt kavandatud katsete käigus saadud andmete töötlemiseks ja seda peeti ainsaks meetodiks, mis õigesti uurib põhjuslikke seoseid. Meetodit kasutati taimekasvatuse katsete hindamiseks. Hiljem selgus dispersioonanalüüsi üldine teaduslik tähendus psühholoogia, pedagoogika, meditsiini jne eksperimentide jaoks.

Kirjandus

  1. Sheff G. Dispersioonianalüüs. - M., 1980.
  2. Ahrens H. Leiter Yu. Mitmemõõtmeline dispersioonanalüüs.
  3. Kobzar A.I. Rakenduslik matemaatiline statistika. - M.: Fizmatlit, 2006.
  4. Lapach S. N., Tšubenko A. V., Babich P. N. Statistika teaduses ja ettevõtluses. - Kiiev: Morion, 2002.
  5. Lagutin M. B. Visuaalne matemaatiline statistika. Kahes köites. - M.: P-keskus, 2003.
  6. Afifi A., Eisen S. Statistiline analüüs: Arvutipõhine lähenemine.
  7. Hollender M., Wolf D.A. Statistika mitteparameetrilised meetodid.

Lingid

Mõistus ei seisne ainult teadmistes, vaid ka oskuses teadmisi praktikas rakendada. (Aristoteles)

Dispersioonanalüüs

Sissejuhatav ülevaade

Selles jaotises vaatame läbi ANOVA põhimeetodid, eeldused ja terminoloogia.

Pange tähele, et ingliskeelses kirjanduses nimetatakse dispersioonanalüüsi tavaliselt variatsioonianalüüsiks. Seetõttu kasutame allpool lühiduse huvides mõnikord seda terminit ANOVA (An analüüs o f va riatsiooni) tavapärase ANOVA ja termini jaoks MANOVA mitmemõõtmelise dispersioonanalüüsi jaoks. Selles jaotises käsitleme järjestikku dispersioonanalüüsi põhiideid ( ANOVA), kovariatsiooni analüüs ( ANCOVA), mitme muutujaga dispersioonanalüüs ( MANOVA) ja mitme muutujaga kovariatsioonianalüüsi ( MANCOVA). Pärast lühikest arutelu kontrastanalüüsi eeliste üle ja post hoc kriteeriumid Vaatleme eeldusi, millel dispersioonanalüüsi meetodid põhinevad. Selle jaotise lõpus selgitatakse mitmemõõtmelise lähenemisviisi eeliseid korduvate meetmete analüüsi jaoks traditsioonilise ühemõõtmelise lähenemisviisi ees.

Põhiideed

Dispersioonanalüüsi eesmärk. Dispersioonanalüüsi põhieesmärk on uurida keskmiste erinevuse olulisust. Peatükk (8. peatükk) annab lühikese sissejuhatuse statistilise olulisuse testimisse. Kui võrdlete lihtsalt kahe valimi keskmisi, annab dispersioonanalüüs sama tulemuse kui tavaanalüüs. t- sõltumatute valimite kriteerium (kui võrreldakse kahte sõltumatut objektide või vaatluste rühma), või t- sõltuvate valimite kriteerium (kui võrreldakse kahte muutujat samal objektide või vaatluste komplektil). Kui te ei ole nende kriteeriumidega tuttav, soovitame tutvuda peatüki sissejuhatava ülevaatega (9. peatükk).

Kust nimi tuli Dispersioonanalüüs? Võib tunduda kummaline, et keskmiste võrdlemise protseduuri nimetatakse dispersioonanalüüsiks. Tegelikult on see tingitud asjaolust, et kui uurime keskmiste erinevuste statistilist olulisust, siis tegelikult analüüsime dispersioone.

Ruudude summa jagamine

Valimi suuruse n jaoks valimi dispersioon arvutatakse valimi keskmisest kõrvalekallete ruudu summana jagatuna n-1-ga (valimi suurus miinus üks). Seega on fikseeritud valimi suuruse n korral dispersioon ruutude (hälbete) summa funktsioon, mida tähistatakse lühiduse huvides, SS(inglise keelest Sum of Squares – Sum of Squares). Dispersioonanalüüs põhineb dispersiooni osadeks jagamisel (või tükeldamisel). Kaaluge järgmist andmekogumit:

Kahe rühma keskmised on oluliselt erinevad (vastavalt 2 ja 6). Ruuthälbete summa sees igast rühmast on 2. Kui need kokku liita, saame 4. Kui nüüd neid arvutusi korrata välja arvatud rühma kuulumine, see tähendab, kui arvutame SS kahe valimi kombineeritud keskmise põhjal saame 28. Teisisõnu, rühmasisesel varieeruvusel põhinev dispersioon (ruutude summa) annab palju väiksemad väärtused kui kogu varieeruvuse põhjal arvutatuna (võrreldes üldisega keskmine). Selle põhjuseks on ilmselgelt märkimisväärne erinevus keskmiste vahel ja see keskmiste erinevus seletabki olemasolev erinevus ruutude summade vahel. Tõepoolest, kui me moodulit kasutame Dispersioonanalüüs, saadakse järgmised tulemused:

Nagu tabelist näha, ruutude kogusumma SS=28 jagatud ruutude summaks tänu grupisisene varieeruvus ( 2+2=4 ; vaata tabeli teist rida) ja ruutude summa keskmiste väärtuste erinevuse tõttu. (28-(2+2)=24; vt tabeli esimest rida).

SS vead jaSS mõju. Grupisisene varieeruvus ( SS) nimetatakse tavaliselt dispersiooniks vead. See tähendab, et tavaliselt ei saa seda katse läbiviimisel ennustada ega seletada. Teisel pool, SS mõju(või rühmadevaheline varieeruvus) on seletatav keskmiste erinevusega uuritud rühmades. Ehk siis teatud gruppi kuulumine selgitab rühmadevaheline varieeruvus, sest me teame, et neil rühmadel on erinevad vahendid.

Olulisuse kontroll. Peatükis käsitletakse statistilise olulisuse testimise peamisi ideid Statistika elementaarsed mõisted(8. peatükk). Samas peatükis selgitatakse põhjuseid, miks paljud testid kasutavad seletatud ja seletamatu dispersiooni suhet. Selle kasutamise näide on dispersioonanalüüs ise. Olulisuse testimine ANOVA-s põhineb dispersiooni võrdlemisel rühmadevahelisest variatsioonist (nn. keskmine ruudu efekt või PRLMõju) ja hajumine rühmasisese leviku tõttu (nn keskmine ruutviga või PRLviga). Kui nullhüpotees on tõene (keskmiste võrdsus kahes populatsioonis), siis võib juhusliku varieeruvuse tõttu oodata suhteliselt väikest erinevust valimi keskmistes. Seetõttu langeb nullhüpoteesi korral rühmasisene dispersioon praktiliselt kokku kogu dispersiooniga, mis on arvutatud ilma rühma kuuluvust arvesse võtmata. Saadud rühmasiseseid dispersioone saab võrrelda kasutades F- test, mis kontrollib, kas dispersioonide suhe on oluliselt suurem kui 1. Ülaltoodud näites F- Test näitab, et keskmiste erinevus on statistiliselt oluline.

ANOVA põhiloogika. Kokkuvõttes võib öelda, et dispersioonanalüüsi eesmärk on testida keskmiste (rühmade või muutujate) erinevuse statistilist olulisust. See kontroll viiakse läbi dispersioonanalüüsi abil, st. jagades kogu dispersiooni (variatsiooni) osadeks, millest üks on tingitud juhuslikust veast (st rühmasisesest varieeruvusest) ja teine ​​on seotud keskmiste väärtuste erinevusega. Dispersiooni viimast komponenti kasutatakse seejärel keskmiste erinevuse statistilise olulisuse analüüsimiseks. Kui see erinevus on oluline, lükatakse nullhüpotees tagasi ja aktsepteeritakse alternatiivset hüpoteesi, et keskmiste vahel on erinevus.

Sõltuvad ja sõltumatud muutujad. Muutujaid, mille väärtused on määratud katse ajal tehtud mõõtmistega (näiteks testil saadud skoor), nimetatakse sõltuv muutujad. Muutujaid, millega saab katses manipuleerida (näiteks treeningmeetodid või muud kriteeriumid, mis võimaldavad vaatlusi rühmadesse jagada) nimetatakse nn. tegurid või sõltumatu muutujad. Neid mõisteid kirjeldatakse üksikasjalikumalt peatükis Statistika elementaarsed mõisted(8. peatükk).

Mitmemõõtmeline dispersioonanalüüs

Ülaltoodud lihtsas näites saate kohe arvutada sõltumatu valimi t-testi, kasutades sobivat mooduli valikut Põhistatistika ja tabelid. Saadud tulemused langevad loomulikult kokku dispersioonanalüüsi tulemustega. Dispersioonanalüüs sisaldab aga paindlikku ja võimsat tehnilisi vahendeid, mida saab kasutada palju keerulisemate uuringute jaoks.

Palju tegureid. Maailm on oma olemuselt keeruline ja mitmemõõtmeline. Olukorrad, kus mõnda nähtust kirjeldatakse täielikult ühe muutujaga, on äärmiselt haruldased. Näiteks kui püüame õppida kasvatama suuri tomateid, peaksime arvestama taimede geneetilise struktuuri, mullatüübi, valguse, temperatuuri jne teguritega. Seega peate tüüpilise katse läbiviimisel tegelema paljude teguritega. Peamine põhjus, miks ANOVA kasutamine on eelistatavam kui kahe proovi uuesti võrdlemine erinevatel tegurite tasemetel t- kriteeriumiks on see, et dispersioonanalüüs on rohkem tõhus ja väikeste proovide puhul informatiivsem.

Faktoride juhtimine. Oletame, et ülalpool käsitletud kahe valimi analüüsi näites lisame veel ühe teguri, näiteks Põrand- Sugu. Igas rühmas on 3 meest ja 3 naist. Selle katse kavandi saab esitada 2x2 tabeli kujul:

Katse. 1. rühm Katse. 2. rühm
Mehed2 6
3 7
1 5
Keskmine2 6
Naised4 8
5 9
3 7
Keskmine4 8

Enne arvutuste tegemist näete, et selles näites on kogu dispersioonil vähemalt kolm allikat:

(1) juhuslik viga (rühma dispersiooni piires),

(2) varieeruvus, mis on seotud katserühma kuulumisega, ja

(3) vaadeldavate objektide soost tulenev varieeruvus.

(Pange tähele, et on veel üks võimalik varieeruvuse allikas - tegurite koostoime, mida arutame hiljem). Mis juhtub, kui me ei kaasata korrussugu tegurina analüüsis ja arvutada tavaline t- kriteerium? Kui arvutame ruutude summad, ignoreerides korrus -sugu(st erinevast soost objektide ühendamine ühte rühma rühmasisese dispersiooni arvutamisel, saades samas iga rühma ruutude summa, mis on võrdne SS=10 ja ruutude kogusumma SS= 10+10 = 20), siis saame suurem väärtus grupisisene dispersioon kui täpsema analüüsiga koos täiendava alarühmitamise alusel pool- sugu(sel juhul võrdub rühmasisene keskmine 2 ja rühmasisene ruutude kogusumma on võrdne SS = 2+2+2+2 = 8). See erinevus tuleneb asjaolust, et keskmine väärtus mehed - isased keskmisest vähem naised -naissoost, ja see erinevus keskmistes suurendab kogu rühmasisest varieeruvust, kui sugu ei võeta arvesse. Vea dispersiooni juhtimine suurendab testi tundlikkust (võimsust).

See näide näitab dispersioonanalüüsi teist eelist tavapärase analüüsi ees. t- kahe näidise kriteerium. Dispersioonanalüüs võimaldab teil uurida iga tegurit, kontrollides teiste tegurite väärtusi. See on tegelikult selle suurema statistilise võimsuse peamine põhjus (oluliste tulemuste saamiseks on vaja väiksemaid valimi suurusi). Sel põhjusel annab dispersioonanalüüs isegi väikeste valimite puhul statistiliselt olulisemaid tulemusi kui lihtne. t- kriteerium.

Interaktsiooniefektid

ANOVA kasutamisel on tavapärase analüüsi ees veel üks eelis. t- kriteerium: dispersioonanalüüs võimaldab tuvastada interaktsiooni tegurite vahel ja võimaldab seetõttu uurida keerukamaid mudeleid. Illustreerimiseks vaadake teist näidet.

Peamised mõjud, paaripõhised (kahefaktorilised) vastasmõjud. Oletame, et õpilasrühmi on kaks ja psühholoogiliselt on esimese rühma õpilased seatud ülesannete täitmisele häälestatud ja sihikindlamad kui teise, laisematest õpilastest koosneva rühma õpilased. Jagame iga rühma juhuslikult pooleks ja pakume ühele poolele igast rühmast raske ja teisele kerge ülesanne. Pärast seda mõõdame, kui palju õpilased nende ülesannetega tööd teevad. Selle (fiktiivse) uuringu keskmised on toodud tabelis:

Milliseid järeldusi saab nendest tulemustest teha? Kas on võimalik järeldada, et: (1) õpilased töötavad raske ülesande kallal rohkem; (2) kas motiveeritud õpilased töötavad rohkem kui laisad? Ükski neist väidetest ei peegelda tabelis toodud keskmiste süstemaatilise olemuse olemust. Tulemusi analüüsides oleks õigem öelda, et keeruliste ülesannete kallal töötavad rohkem ainult motiveeritud õpilased, kergete ülesannetega aga ainult laisad õpilased. Ehk siis õpilaste iseloom ja ülesande keerukus suhtlemineüksteist mõjutavad vajaliku pingutuse suurust. See on näide paari interaktsioonõpilaste olemuse ja ülesande keerukuse vahel. Pange tähele, et väited 1 ja 2 kirjeldavad peamised mõjud.

Kõrgemate tellimuste vastasmõjud. Kui paaripõhiseid interaktsioone on suhteliselt lihtne seletada, on kõrgemat järku interaktsioone palju keerulisem seletada. Kujutagem ette, et ülaltoodud näites tuuakse sisse veel üks tegur korrus -Sugu ja saime järgmise keskmiste tabeli:

Milliseid järeldusi saab nüüd saadud tulemustest teha? Keskmised graafikud muudavad keerukate efektide tõlgendamise lihtsaks. Dispersioonanalüüsi moodul võimaldab neid graafikuid koostada peaaegu ühe klõpsuga.

Allolevatel graafikutel olev pilt kujutab uuritavat kolmepoolset interaktsiooni.

Graafikuid vaadates võib öelda, et naiste testi olemuse ja raskusastme vahel on vastastikmõju: motiveeritud naised töötavad raske ülesande kallal rohkem kui kergega. Meestel on sama interaktsioon vastupidine. On näha, et tegurite vastasmõju kirjeldus muutub segasemaks.

Interaktsioonide kirjeldamise üldine viis. AT üldine juhtum tegurite vahelist koostoimet kirjeldatakse kui ühe mõju muutumist teise mõjul. Eelpool käsitletud näites võib kahefaktorilist interaktsiooni kirjeldada kui ülesande keerukust iseloomustava teguri põhimõju muutumist õpilase iseloomu kirjeldava teguri mõjul. Kolme eelmise lõigu teguri koostoime kohta võime öelda, et kahe teguri (ülesande keerukus ja õpilase iseloom) koostoime muutub suguSugu. Kui uurida nelja teguri koostoimet, siis võib öelda, et kolme teguri koostoime muutub neljanda faktori mõjul, s.o. neljanda faktori erinevatel tasanditel on erinevat tüüpi interaktsioone. Selgus, et paljudes valdkondades koostoime viis või isegi rohkem tegurid ei ole ebatavalised.

Keerulised plaanid

Gruppidevahelised ja rühmasisesed plaanid (ümbermõõtmisplaanid)

Kui võrrelda kahte erinevad rühmad tavaliselt kasutatav t- sõltumatute proovide kriteerium (moodulist Põhistatistika ja tabelid). Kui võrreldakse kahte muutujat samas objektide komplektis (vaatlustes), kasutatakse seda t-sõltuvate valimite kriteerium. Dispersioonanalüüsi jaoks on oluline ka see, kas valimid on sõltuvad või mitte. Kui samade muutujate mõõtmisi tehakse korduvalt (erinevates tingimustes või erinev aeg) samade objektide jaoks, siis nad ütlevad kohaloleku kohta korduvate mõõtmiste tegur(nimetatud ka rühmasisene tegur kuna selle olulisuse hindamiseks arvutatakse rühmasisene ruutude summa). Kui võrrelda erinevaid esemerühmi (näiteks mehed ja naised, kolm bakteritüve jne), siis kirjeldatakse rühmade erinevust. rühmadevaheline tegur. Kahe kirjeldatud teguri olulisuse kriteeriumide arvutamise meetodid on erinevad, kuid nende üldine loogika ja tõlgendus on samad.

Grupisisesed ja -sisesed plaanid. Paljudel juhtudel nõuab katse nii rühmadevahelise teguri kui ka korduvate mõõtmiste teguri kaasamist disaini. Näiteks mõõdetakse nais- ja meesõpilaste matemaatikaoskusi (kus korrus -Sugu-gruppidevaheline tegur) semestri alguses ja lõpus. Iga õpilase oskuste kaks mõõdet moodustavad rühmasisese teguri (korduvate mõõtmiste tegur). Rühmavaheliste ja korduvate mõõtmistegurite peamiste mõjude ja interaktsioonide tõlgendus on sama ning mõlemat tüüpi tegurid võivad ilmselt omavahel suhelda (näiteks naised omandavad semestri jooksul oskusi ja mehed kaotavad).

Mittetäielikud (pesastatud) plaanid

Paljudel juhtudel võib interaktsiooniefekti tähelepanuta jätta. See juhtub kas siis, kui on teada, et elanikkonnas puudub interaktsiooniefekt, või siis, kui rakendatakse täielikku mõju faktoriaalne plaan on võimatu. Näiteks uuritakse nelja kütuselisandi mõju kütusekulule. Valitakse neli autot ja neli juhti. Täis faktoriaalne katse nõuab, et iga kombinatsioon: täiendus, juht, auto ilmuks vähemalt korra. Selleks on vaja vähemalt 4 x 4 x 4 = 64 testrühma, mis on liiga aeganõudev. Lisaks ei teki juhi ja kütuselisandi vahel peaaegu mingit koostoimet. Seda silmas pidades saate plaani kasutada ladina ruudud, mis sisaldab ainult 16 katserühma (neli lisandit on tähistatud tähtedega A, B, C ja D):

Ladina ruute on kirjeldatud enamikes eksperimentaalse disaini raamatutes (nt Hays, 1988; Lindman, 1974; Milliken ja Johnson, 1984; Winer, 1962) ja siinkohal neid üksikasjalikult ei käsitleta. Pange tähele, et ladina ruudud on mittentäis plaanid, mis ei sisalda kõiki faktoritasemete kombinatsioone. Näiteks juht 1 juhib autot 1 ainult lisandiga A, juht 3 juhib autot 1 ainult lisandiga C. Tegurite tasemed lisandid ( A, B, C ja D) pesastatud tabeli lahtritesse auto x autojuht - nagu munad pesas. See mnemooniline reegel on kasulik looduse mõistmiseks pesastatud või pesastatud plaanid. Moodul Dispersioonanalüüs pakub lihtsaid viise seda tüüpi plaanide analüüsimiseks.

Kovariatsioonianalüüs

Peamine idee

Peatükis Põhiideed Arutati lühidalt kontrollitegurite ideed ja seda, kuidas aditiivsete tegurite kaasamine võib vähendada vigade ruudu summat ja suurendada disaini statistilist võimsust. Seda kõike saab laiendada muutujatele, millel on pidev väärtuste kogum. Kui sellised pidevad muutujad on disainis teguritena kaasatud, nimetatakse neid ühismuutujad.

Fikseeritud ühismuutujad

Oletame, et me võrdleme kahe õpilaste rühma matemaatilisi oskusi, keda õpetati kahest erinevast õpikust. Oletame ka, et meil on iga õpilase kohta intelligentsuskoefitsiendi (IQ) andmed. Võime eeldada, et IQ on seotud matemaatikaoskustega ja seda teavet kasutada. Mõlema õpilaste rühma kohta saab arvutada korrelatsioonikoefitsiendi IQ ja matemaatikaoskuste vahel. Seda korrelatsioonikordajat kasutades on võimalik eristada IQ mõjuga seletatavat dispersiooni osakaalu rühmades ja seletamatut dispersiooni osakaalu (vt ka Statistika elementaarsed mõisted(8. peatükk) ja Põhistatistika ja tabelid(9. peatükk)). Ülejäänud murdosa dispersioonist kasutatakse analüüsis vea dispersioonina. Kui IQ ja matemaatikaoskuste vahel on korrelatsioon, saab vigade erinevusi oluliselt vähendada. SS/(n-1) .

Ühismuutujate mõjuF- kriteerium. F- kriteerium hindab rühmade keskmiste väärtuste erinevuse statistilist olulisust, samas kui arvutatakse rühmadevahelise dispersiooni suhe ( PRLmõju) vea dispersioonini ( PRLviga) . Kui a PRLviga väheneb näiteks IQ tegurit arvesse võttes väärtus F suureneb.

Palju ühismuutujaid. Eespool ühe ühismuutuja (IQ) kohta kasutatud arutluskäik laieneb kergesti mitmele ühismuutujale. Näiteks võite lisaks IQ-le lisada motivatsiooni, ruumilise mõtlemise jms mõõtmise. Tavalise korrelatsioonikordaja asemel kasutab mitmekordne tegur korrelatsioonid.

Kui väärtusF -kriteeriumid vähenevad. Mõnikord vähendab ühismuutujate kasutuselevõtt katse ülesehituses väärtust F- kriteeriumid . Tavaliselt näitab see, et ühismuutujad on korrelatsioonis mitte ainult sõltuva muutujaga (näiteks matemaatikaoskused), vaid ka teguritega (näiteks erinevad õpikud). Oletame, et IQ-d mõõdetakse semestri lõpus, peaaegu pärast seda iga-aastane koolitus kaks õpilaste rühma kahel erineval õpikul. Kuigi õpilased jagati rühmadesse juhuslikult, võib selguda, et õpikute erinevus on nii suur, et nii IQ kui ka matemaatikaoskused eri rühmades on väga erinevad. Sel juhul ei vähenda ühismuutujad mitte ainult vea dispersiooni, vaid ka rühmadevahelist dispersiooni. Teisisõnu, pärast rühmadevahelise IQ erinevuse kontrollimist ei ole matemaatikaoskuste erinevus enam oluline. Võib öelda ka teisiti. Pärast IQ mõju "kõrvaldamist" jääb tahes-tahtmata välistatud õpiku mõju matemaatikaoskuste arengule.

Kohandatud keskmised. Kui ühismuutuja mõjutab rühmadevahelist tegurit, tuleks arvutada korrigeeritud keskmised, st. sellised keskmised, mis saadakse pärast kõigi ühismuutujate hinnangute eemaldamist.

Ühismuutujate ja tegurite koostoime. Nii nagu uuritakse tegurite vahelisi koostoimeid, saab uurida ka ühismuutujate ja tegurite rühmade vahelisi koostoimeid. Oletame, et üks õpikutest sobib eriti nutikatele õpilastele. Teine õpik on tarkade õpilaste jaoks igav ja sama õpik on raske vähem nutikatele õpilastele. Selle tulemusena on IQ ja õpitulemuste vahel positiivne korrelatsioon esimeses rühmas (targemad õpilased, parem tulemus) ja null või kerge negatiivne korrelatsioon teises rühmas (mida targem õpilane, seda väiksem on tõenäosus, et ta omandab matemaatilisi oskusi teisest õpikust). Mõnes uuringus käsitletakse seda olukorda kui näidet kovariatsioonianalüüsi eelduste rikkumisest. Kuna aga dispersioonianalüüsi moodulis kasutatakse enimlevinud kovariatsioonianalüüsi meetodeid, siis on võimalik eelkõige hinnata tegurite ja ühismuutujate interaktsiooni statistilist olulisust.

Muutuvad ühismuutujad

Kui õpikutes on fikseeritud ühismuutujaid käsitletud üsna sageli, siis muutuvaid ühismuutujaid mainitakse palju harvemini. Tavaliselt huvitab meid korduvate mõõtmistega katsete tegemisel samade suuruste mõõtmiste erinevused erinevatel ajahetkedel. Nimelt huvitab meid nende erinevuste olulisus. Kui samaaegselt sõltuva muutuja mõõtmisega tehakse ühismuutuja mõõtmine, saab arvutada korrelatsiooni ühismuutuja ja sõltuva muutuja vahel.

Näiteks saab õppida matemaatikahuvi ja matemaatikaoskusi semestri alguses ja lõpus. Huvitav oleks kontrollida, kas muutused matemaatikahuvis on korrelatsioonis matemaatikaoskuste muutumisega.

Moodul Dispersioonanalüüs sisse STATISTIKA võimaluse korral hindab automaatselt nende plaanide ühismuutujate muutuste statistilist olulisust.

Mitmemõõtmelised kujundused: mitme muutujaga ANOVA ja kovariatsioonianalüüs

Rühmadevahelised plaanid

Kõik varem vaadeldud näited sisaldasid ainult ühte sõltuvat muutujat. Kui samaaegselt on mitu sõltuvat muutujat, suureneb ainult arvutuste keerukus ning sisu ja aluspõhimõtted ei muutu.

Näiteks viiakse läbi uuring kahe erineva õpiku kohta. Samal ajal uuritakse õpilaste edukust füüsika ja matemaatika õppes. Sel juhul on kaks sõltuvat muutujat ja tuleb välja selgitada, kuidas kaks erinevat õpikut neid samaaegselt mõjutavad. Selleks saab kasutada mitme muutujaga dispersioonanalüüsi (MANOVA). Ühemõõtmelise asemel F kriteerium, mitmemõõtmeline F test (Wilksi l-test), mis põhineb vea kovariatsioonimaatriksi ja rühmadevahelise kovariatsioonimaatriksi võrdlusel.

Kui sõltuvad muutujad on omavahel korrelatsioonis, siis tuleks seda korrelatsiooni olulisuse testi arvutamisel arvesse võtta. Ilmselgelt, kui sama mõõtmist korrata kaks korda, siis sel juhul midagi uut ei saa. Kui sellega korrelatsioonis olev dimensioon lisada olemasolevale dimensioonile, siis mõni uut teavet, kuid uus muutuja sisaldab üleliigset informatsiooni, mis kajastub muutujate vahelises kovariatsioonis.

Tulemuste tõlgendamine. Kui üldine mitme muutuja kriteerium on oluline, võime järeldada, et vastav mõju (nt õpiku tüüp) on oluline. Siiski tõusevad nad püsti järgmised küsimused. Kas õpiku tüüp mõjutab ainult matemaatikaoskuste, ainult kehaliste oskuste või mõlema parandamist. Tegelikult, pärast tähendusliku mitme muutujaga kriteeriumi saamist ühe põhiefekti või interaktsiooni jaoks on ühemõõtmeline F kriteerium. Teisisõnu, sõltuvaid muutujaid, mis aitavad kaasa mitme muutujaga testi olulisusele, uuritakse eraldi.

Plaanid korduvate mõõtmistega

Kui õpilaste matemaatilisi ja füüsilisi oskusi mõõdetakse semestri alguses ja lõpus, siis on tegemist kordusmõõtmistega. Olulisuse kriteeriumi uurimine sellistes plaanides on loogiline arengühemõõtmeline korpus. Pange tähele, et mitme muutujaga ANOVA meetodeid kasutatakse tavaliselt ka ühemõõtmeliste korduvate mõõtmiste tegurite olulisuse uurimiseks, millel on rohkem kui kaks taset. Vastavaid rakendusi käsitletakse selles osas hiljem.

Muutujate väärtuste summeerimine ja mitmemõõtmeline dispersioonanalüüs

Isegi kogenud ühe- ja mitmemõõtmelise ANOVA kasutajad satuvad sageli segadusse, kui nad saavad mitme muutujaga ANOVA rakendamisel näiteks kolmele muutujale erinevaid tulemusi ja ühe muutujaga ANOVA rakendamist nende kolme muutuja summale ühe muutujana.

Idee summeerimine muutujad on see, et iga muutuja sisaldab mõnda tõelist muutujat, mida uuritakse, samuti juhuslikku mõõtmisviga. Seetõttu on muutujate väärtuste keskmistamisel kõigi mõõtmiste puhul mõõtmisviga 0-le lähemal ja keskmistatud väärtused on usaldusväärsemad. Tegelikult on antud juhul ANOVA rakendamine muutujate summale mõistlik ja võimas tehnika. Kui aga sõltuvad muutujad on olemuselt mitme muutujaga, ei ole muutujate väärtuste summeerimine asjakohane.

Näiteks olgu sõltuvad muutujad neljast mõõdust koosnevad edu ühiskonnas. Iga indikaator iseloomustab täiesti sõltumatut poolt inimtegevus(näiteks tööalane edu, äriedu, pere heaolu jne). Nende muutujate kokku liitmine on nagu õuna ja apelsini lisamine. Nende muutujate summa ei oleks sobiv ühemõõtmeline mõõt. Seetõttu tuleb selliseid andmeid käsitleda mitmemõõtmeliste näitajatena mitmemõõtmeline dispersioonanalüüs.

Kontrastanalüüs ja post hoc testid

Miks võrreldakse üksikuid vahendite komplekte?

Tavaliselt ei formuleerita hüpoteesid eksperimentaalsete andmete kohta mitte ainult peamiste mõjude või koostoimete alusel. Näitena võib tuua järgmise hüpoteesi: teatud õpik parandab matemaatilisi oskusi ainult meessoost õpilastel, teine ​​õpik on aga mõlemale soole ligikaudu võrdselt efektiivne, kuid meeste puhul siiski vähem tõhus. Võib ennustada, et õpiku jõudlus interakteerub õpilaste sooga. See ennustus kehtib aga ka loodus interaktsioonid. Ühes raamatus eeldatakse õpilastelt olulist sugudevahelist erinevust, teises raamatus aga praktiliselt soost sõltumatuid tulemusi. Seda tüüpi hüpoteese uuritakse tavaliselt kontrastanalüüsi abil.

Kontrastsuse analüüs

Lühidalt, kontrastanalüüs võimaldab meil hinnata keerukate efektide mõnede lineaarsete kombinatsioonide statistilist olulisust. Kontrastanalüüs on iga keerulise ANOVA plaani peamine ja asendamatu element. Moodul Dispersioonanalüüs on piisavalt erinevaid võimalusi kontrastide analüüs, mis võimaldab teil esile tõsta ja analüüsida mis tahes tüüpi vahendite võrdlust.

a posteriori võrdlused

Mõnikord avastatakse katse töötlemise tulemusena ootamatu efekt. Kuigi enamikul juhtudel loominguline uurija võib seletada mis tahes tulemust, see ei anna võimalusi edasiseks analüüsiks ja prognoosi hinnangute saamiseks. See probleem on üks neist, mille puhul post hoc kriteeriumid, see tähendab kriteeriume, mida ei kasutata a priori hüpoteesid. Illustreerimiseks kaaluge järgmist katset. Oletame, et 100 kaarti sisaldavad numbreid 1 kuni 10. Olles kõik need kaardid päisesse visanud, valime juhuslikult 20 korda 5 kaarti ja arvutame iga valimi keskmise väärtuse (kaartidele kirjutatud numbrite keskmine). Kas võime eeldada, et on kaks valimit, mille keskmised on oluliselt erinevad? See on väga usutav! Valides kaks valimit maksimaalse ja minimaalse keskmisega, võib saada keskmiste erinevuse, mis on väga erinev näiteks kahe esimese valimi keskmiste erinevusest. Seda erinevust saab uurida näiteks kontrastanalüüsi abil. Detailidesse laskumata on mitmeid nn a posteriori kriteeriumid, mis põhinevad täpselt esimesel stsenaariumil (võetakse äärmuslikud keskmised 20 valimist), st need kriteeriumid põhinevad kõige erinevamate vahendite valimisel, et võrrelda kõiki vahendeid disainis. Neid kriteeriume rakendatakse selleks, et mitte saada kunstlikku efekti puhtjuhuslikult, näiteks selleks, et leida vahendite vahel oluline erinevus, kui seda pole. Moodul Dispersioonanalüüs pakub laia valikut selliseid kriteeriume. Kui mitut rühma hõlmavas katses saadakse ootamatuid tulemusi, a posteriori protseduurid saadud tulemuste statistilise olulisuse uurimiseks.

I, II, III ja IV tüüpi ruutude summa

Mitmemõõtmeline regressioon ja dispersioonanalüüs

Olemas tugev suhe mitme muutujaga regressiooni meetodi ja dispersioonanalüüsi (variatsioonide analüüs) vahel. Mõlema meetodi puhul uuritakse seda lineaarne mudel. Lühidalt, peaaegu kõiki eksperimentaalseid kavandeid saab uurida mitme muutujaga regressiooni abil. Mõelge järgmisele lihtsale rühmaülesele 2 x 2 plaanile.

DV A B AxB
3 1 1 1
4 1 1 1
4 1 -1 -1
5 1 -1 -1
6 -1 1 -1
6 -1 1 -1
3 -1 -1 1
2 -1 -1 1

Veerus A ja B on koodid, mis iseloomustavad tegurite A ja B tasemeid, veerus AxB on kahe veeru A ja B korrutis. Neid andmeid saame analüüsida mitme muutujaga regressiooni abil. Muutuv DV defineeritud kui sõltuv muutuja, muutujad alates A enne AxB sõltumatute muutujatena. Regressioonikordajate olulisuse uurimine langeb kokku tegurite peamiste mõjude olulisuse dispersioonanalüüsi arvutustega. A ja B ja interaktsiooniefekt AxB.

Tasakaalustamata ja tasakaalustatud plaanid

Kõigi muutujate korrelatsioonimaatriksi arvutamisel, näiteks ülaltoodud andmete puhul, on näha, et tegurite peamised mõjud A ja B ja interaktsiooniefekt AxB korrelatsioonita. Seda efekti omadust nimetatakse ka ortogonaalsuseks. Nad ütlevad, et mõju A ja B - ortogonaalne või sõltumatuüksteiselt. Kui plaani kõik efektid on üksteise suhtes ortogonaalsed, nagu ülaltoodud näites, siis öeldakse, et plaan on tasakaalustatud.

Tasakaalustatud plaanidel on "hea omadus". Arvutused selliste plaanide analüüsimisel on väga lihtsad. Kõik arvutused taandatakse mõjude ja sõltuvate muutujate vahelise korrelatsiooni arvutamisele. Kuna efektid on ortogonaalsed, on osalised korrelatsioonid (nagu täielikult mitmemõõtmeline regressioone) ei arvutata. Siiski sisse päris elu plaanid ei ole alati tasakaalus.

Mõelge tegelikele andmetele, millel on lahtrites ebavõrdne arv vaatlusi.

Tegur A Tegur B
B1 B2
A1 3 4, 5
A2 6, 6, 7 2

Kui kodeerime need andmed ülaltoodud viisil ja arvutame kõigi muutujate jaoks korrelatsioonimaatriksi, siis selgub, et kujundustegurid on omavahel korrelatsioonis. Plaani tegurid ei ole nüüd ortogonaalsed ja selliseid plaane nimetatakse tasakaalustamata. Pange tähele, et selles näites on tegurite vaheline korrelatsioon täielikult seotud andmemaatriksi veergude sageduste 1 ja -1 erinevusega. Teisisõnu, ebavõrdse rakumahuga (täpsemalt ebaproportsionaalsete mahtudega) eksperimentaalsed kujundused on tasakaalustamata, mis tähendab, et peamised efektid ja interaktsioonid segunevad. Sel juhul peate mõjude statistilise olulisuse arvutamiseks täielikult arvutama mitme muutujaga regressiooni. Siin on mitu strateegiat.

I, II, III ja IV tüüpi ruutude summa

Ruudude summa tüüpmajaIII. Iga teguri olulisuse uurimiseks mitme muutujaga mudelis saab arvutada iga teguri osalise korrelatsiooni eeldusel, et kõik muud tegurid on mudelis juba arvesse võetud. Mudelisse saab faktoreid sisestada ka samm-sammult, fikseerides kõik mudelisse juba sisestatud tegurid ja ignoreerides kõiki muid tegureid. Üldiselt on see erinevus tüüp III ja tüüpma ruutude summad (see terminoloogia võeti kasutusele SAS-is, vt nt SAS, 1982; üksikasjaliku arutelu võib leida ka Searle, 1987, lk 461; Woodward, Bonett ja Brecht, 1990, lk 216; või Milliken ja Johnson, 1984, lk 138).

Ruudude summa tüüpII. Järgmine "vahepealne" mudeli moodustamise strateegia on: kontrollida kõiki peamisi mõjusid ühe põhiefekti olulisuse uurimisel; kõigi põhiefektide ja kõigi paariliste vastasmõjude kontrollimisel, kui vaadeldakse üksiku paarilise interaktsiooni olulisust; kõigi paariliste interaktsioonide ja kolme teguri kõigi koostoimete kõigi peamiste mõjude kontrollimisel; kolme teguri eraldi koostoime uurimisel jne. Sel viisil arvutatud efektide ruutude summasid nimetatakse tüüpII ruutude summad. Niisiis, tüüpII ruutude summad kontrollivad kõiki sama järku ja madalamaid efekte, ignoreerides kõiki kõrgema järgu efekte.

Ruudude summa tüüpIV. Lõpetuseks, mõne puuduva lahtriga eriplaneeringu (puudulikud plaanid) puhul on võimalik arvutada nn tüüp IV ruutude summad. Seda meetodit käsitletakse hiljem seoses mittetäielike plaanidega (kavad puuduvad lahtrid).

I, II ja III tüüpi ruutude summa oletuse tõlgendamine

ruutude summa tüüpIII kõige lihtsam tõlgendada. Tuletame meelde, et ruutude summad tüüpIII uurige mõju pärast kõigi muude mõjude kontrollimist. Näiteks pärast statistiliselt olulise leidmist tüüpIII mõju faktorile A moodulis Dispersioonanalüüs, võime öelda, et teguril on üks oluline mõju A, pärast kõigi muude mõjude (tegurite) tutvustamist ja tõlgendage seda mõju vastavalt. Tõenäoliselt 99% kõigist dispersioonanalüüsi rakendustest pakub seda tüüpi kriteerium uurijale huvi. Seda tüüpi ruutude summa arvutatakse tavaliselt moodulis Dispersioonanalüüs vaikimisi, olenemata sellest, kas suvand on valitud Regressioonimeetod või mitte (moodulis kasutusele võetud standardmeetodid Dispersioonanalüüs arutatakse allpool).

Olulised efektid, mis saadakse ruutude summade abil tüüp või tüüpII ruutude summasid pole nii lihtne tõlgendada. Neid on kõige parem tõlgendada astmelise mitme muutujaga regressiooni kontekstis. Kui kasutada ruutude summat tüüpma teguri B põhimõju oli märkimisväärne (peale teguri A kaasamist mudelisse, kuid enne A ja B interaktsiooni lisamist), võib järeldada, et tegur B on oluline põhimõju eeldusel, et seda ei ole tegurite A ja B vastastikmõju. (Kui kasutate kriteeriumi tüüpIII, osutus oluliseks ka tegur B, siis võime järeldada, et teguril B on oluline põhimõju, pärast kõigi teiste tegurite ja nende koostoimete mudelisse lisamist).

Hüpoteesi marginaalsete keskmiste osas tüüpma ja tüüpII tavaliselt ei ole lihtsat tõlgendust. Nendel juhtudel öeldakse, et mõjude olulisust ei saa tõlgendada ainult marginaalsete vahenditega. pigem esitletud lk keskmised väärtused on seotud keerulise hüpoteesiga, mis ühendab keskmised ja valimi suuruse. Näiteks, tüüpII teguri A hüpoteesid lihtsas 2 x 2 kujundusnäites, mida varem käsitleti, oleksid järgmised (vt Woodward, Bonett ja Brecht, 1990, lk 219):

nij- vaatluste arv lahtris

uij- keskmine väärtus lahtris

n. j- marginaalne keskmine

Detailidesse laskumata (vt täpsemalt Milliken ja Johnson, 1984, 10. peatükk) on selge, et tegemist ei ole lihtsate hüpoteesidega ja enamasti ei paku ükski neist uurijale erilist huvi. Siiski on juhtumeid, kus hüpoteesid tüüpma võib huvi pakkuda.

Vaikimisi arvutuslik lähenemine moodulis Dispersioonanalüüs

Vaikimisi, kui valik pole märgitud Regressioonimeetod, moodul Dispersioonanalüüs kasutab raku keskmine mudel. Sellele mudelile on iseloomulik, et erinevate efektide ruutude summad arvutatakse lahtri keskväärtuste lineaarsete kombinatsioonide korral. Täielikus faktoriaalses eksperimendis saadakse selle tulemuseks ruutude summad, mis on samad kui varem käsitletud ruutude summad tüüp III. Samas valikus Plaanitud võrdlused(aknas Dispersioontulemuste analüüs), võib kasutaja püstitada hüpoteesi mis tahes kaalutud või kaalumata lahtri keskmiste lineaarsete kombinatsioonide kohta. Seega saab kasutaja testida mitte ainult hüpoteese tüüpIII, kuid mis tahes tüüpi hüpoteese (sh tüüpIV). See üldine lähenemine eriti kasulik puuduvate lahtritega kujunduste (nn mittetäielikud kujundused) uurimisel.

Täieliku faktoriaalse kujunduse puhul on see lähenemisviis kasulik ka siis, kui soovitakse analüüsida kaalutud piirväärtusi. Oletame näiteks, et varem vaadeldud lihtsas 2 x 2 kujunduses tahame võrrelda kaalutud (teguritasemete järgi) B) teguri A marginaalsed keskmised. See on kasulik, kui vaatluste jaotust rakkude vahel ei koostanud eksperimenteerija, vaid see koostati juhuslikult ning see juhuslikkus kajastub vaatluste arvu jaotuses faktori B tasemete järgi agregaadis. .

Näiteks on tegur – leskede vanus. Võimalik vastajate valim jaguneb kahte rühma: nooremad kui 40 ja vanemad kui 40 (tegur B). Teine tegur (tegur A) plaanis on see, kas lesed said mõnelt agentuurilt sotsiaaltoetust või mitte (samal ajal kui mõned lesed valiti juhuslikult, teised olid kontrollid). Sel juhul peegeldab leskede vanuseline jaotus valimis leskede tegelikku vanuselist jaotust populatsioonis. Leskede sotsiaalse tugirühma tulemuslikkuse hindamine kõik vanused vastab kahe vanuserühma kaalutud keskmisele (kaaludega, mis vastavad vaatluste arvule rühmas).

Plaanitud võrdlused

Pange tähele, et sisestatud kontrastsussuhete summa ei pruugi olla võrdne 0-ga (null). Selle asemel teeb programm automaatselt kohandusi, et vastavad hüpoteesid ei seguneks üldise keskmisega.

Selle illustreerimiseks pöördume tagasi varem käsitletud lihtsa 2 x 2 plaani juurde. Tuletame meelde, et selle tasakaalustamata konstruktsiooni rakkude arv on –1, 2, 3 ja 1. Oletame, et tahame võrrelda teguri A kaalutud piirkeskmisi (kaalutud teguri B tasemete sagedusega). Kontrastsuse suhteid saate sisestada:

Pange tähele, et nende koefitsientide summa ei ole 0. Programm seab koefitsiendid nii, et nende summa on 0, säilitades samal ajal suhtelised väärtused st:

1/3 2/3 -3/4 -1/4

Need kontrastid võrdlevad teguri A kaalutud keskmisi väärtusi.

Hüpoteesid peamise keskmise kohta. Hüpoteesi, et kaalumata põhikeskmine on 0, saab uurida koefitsientide abil:

Hüpoteesi, et kaalutud põhikeskmine on 0, kontrollitakse:

Programm ei korrigeeri mingil juhul kontrastsuse suhet.

Puuduvate lahtritega plaanide analüüs (mittetäielikud plaanid)

Tühje lahtreid sisaldavaid faktoriaalseid kujundusi (lahtrite kombinatsioonide töötlemine, milles vaatlusi pole) nimetatakse mittetäielikeks. Sellistes konstruktsioonides ei ole mõned tegurid tavaliselt ortogonaalsed ja mõnda vastasmõju ei saa arvutada. Pole üldse olemas parim meetod selliste plaanide analüüsi.

Regressioonimeetod

Mõnes vanemas programmis, mis tugineb ANOVA kavandite analüüsile, kasutades mitme muutujaga regressiooni, on mittetäielike kujunduste vaiketegurid antud tavapärasel viisil(nagu oleks plaan valmis). Seejärel tehakse nende näivkodeeritud tegurite jaoks mitme muutujaga regressioonianalüüs. Kahjuks viib see meetod tulemusteni, mida on väga raske, kui mitte võimatu tõlgendada, sest pole selge, kuidas iga efekt vahendite lineaarsele kombinatsioonile kaasa aitab. Mõelge järgmisele lihtsale näitele.

Tegur A Tegur B
B1 B2
A1 3 4, 5
A2 6, 6, 7 Jäi vahele

Kui vormi mitme muutujaga regressioon Sõltuv muutuja = konstant + tegur A + tegur B, siis näeb hüpotees tegurite A ja B olulisuse kohta lineaarsete keskmiste kombinatsioonide seisukohalt välja järgmine:

Tegur A: rakk A1,B1 = rakk A2,B1

Tegur B: rakk A1, B1 = rakk A1, B2

See juhtum on lihtne. Rohkem keerulised plaanid on võimatu täpselt kindlaks teha, mida täpselt uuritakse.

Keskmised rakud, dispersioonanalüüsi lähenemisviis , IV tüüpi hüpoteesid

Kirjanduses soovitatud ja eelistatavam lähenemine on mõtestatud (uurimisülesannete osas) a priori hüpoteesid plaani lahtrites täheldatud vahendite kohta. Selle lähenemisviisi üksikasjaliku arutelu võib leida Dodge'ist (1985), Heibergerist (1989), Millikenist ja Johnsonist (1984), Searle'ist (1987) või Woodwardist, Bonettist ja Brechtist (1990). Ruudude summasid, mis on seotud hüpoteesidega keskmiste lineaarse kombinatsiooni kohta mittetäielikes konstruktsioonides, uurides osa mõjude hinnanguid, nimetatakse ka ruutude summadeks. IV.

Tüübihüpoteeside automaatne genereerimineIV. Kui mitme muutujaga konstruktsioonidel on keeruline puuduva raku muster, on soovitav määratleda ortogonaalsed (sõltumatud) hüpoteesid, mille uurimine on samaväärne peamiste mõjude või interaktsioonide uurimisega. Selliste võrdluste jaoks sobivate kaalude genereerimiseks on välja töötatud algoritmilised (arvutuslikud) strateegiad (mis põhinevad pseudo-inverse-disaini maatriksil). Kahjuks ei ole lõplikud hüpoteesid üheselt kindlaks määratud. Loomulikult sõltuvad need mõjude määratlemise järjekorrast ja neid on harva lihtne tõlgendada. Seetõttu on soovitatav hoolikalt uurida puuduvate rakkude olemust ja seejärel püstitada hüpoteesid tüüpIV, mis on uuringu eesmärkide jaoks kõige asjakohasemad. Seejärel uurige neid hüpoteese valiku abil Plaanitud võrdlused aknas tulemused. Lihtsaim viis võrdluste täpsustamiseks on sel juhul nõuda kontrastivektori sisseviimist kõigi tegurite jaoks koos aknas Plaanitud võrdlused. Pärast dialoogiboksi helistamist Plaanitud võrdlused kuvatakse kõik kehtiva kava rühmad ja need, mis on välja jäetud, märgitakse.

Vahele jäetud lahtrid ja spetsiifilise efekti kontroll

Plaane on mitut tüüpi, mille puhul puuduvate lahtrite asukoht ei ole juhuslik, vaid hoolikalt planeeritud, mis võimaldab põhiefekte lihtsalt analüüsida ilma teisi efekte mõjutamata. Näiteks kui plaanis ei ole vajalik arv lahtreid saadaval, kasutatakse sageli plaane. ladina ruudud hinnata mitme teguri peamisi mõjusid suure hulga tasemetega. Näiteks 4 x 4 x 4 x 4 tegurikujundus vajab 256 lahtrit. Samal ajal saate kasutada Kreeka-Ladina väljak peamiste mõjude hindamiseks, kuna plaanis on ainult 16 lahtrit (ptk. Katse planeerimine, IV köide, sisaldab Täpsem kirjeldus sellised plaanid). Mittetäielikke konstruktsioone, mille peamisi mõjusid (ja mõningaid koostoimeid) saab hinnata lihtsate lineaarsete vahendite kombinatsioonide abil, nimetatakse tasakaalustatud mittetäielikud plaanid.

Tasakaalustatud kujundustes loob standardne (vaike)meetod põhiefektide ja interaktsioonide kontrastide (kaalude) genereerimiseks dispersioonitabeli analüüsi, milles vastavate efektide ruutude summad ei segune omavahel. Võimalus Spetsiifilised efektid aken tulemused loob puuduvad kontrastid, kirjutades puuduvatele plaani lahtritele nulli. Kohe pärast valiku küsimist Spetsiifilised efektid kasutajale, kes uurib mõnda hüpoteesi, kuvatakse tulemuste tabel tegelike kaaludega. Pange tähele, et tasakaalustatud kujunduses arvutatakse vastavate efektide ruutude summad ainult siis, kui need efektid on ortogonaalsed (sõltumatud) kõigi teiste peamiste efektide ja vastastikmõjude suhtes. Vastasel juhul kasutage valikut Plaanitud võrdlused vahendite sisuliste võrdluste uurimiseks.

Puuduvad lahtrid ja kombineeritud veaefektid/liikmed

Kui valik Regressiooni lähenemine mooduli käivituspaneelil Dispersioonanalüüs ei ole valitud, kasutatakse efektide ruutude summa arvutamisel lahtrite keskmiste mudelit (vaikesäte). Kui disain ei ole tasakaalustatud, siis mitteortogonaalsete efektide kombineerimisel (vt ülaltoodud valiku arutelu Puuduvad rakud ja spetsiifiline efekt) võib saada ruutude summa, mis koosneb mitteortogonaalsetest (või kattuvatest) komponentidest. Sel viisil saadud tulemused ei ole tavaliselt tõlgendatavad. Seetõttu tuleb keeruliste mittetäielike katseprojektide valimisel ja rakendamisel olla väga ettevaatlik.

On palju raamatuid, mis käsitlevad plaane üksikasjalikult. erinevat tüüpi. (Dodge, 1985; Heiberger, 1989; Lindman, 1974; Milliken ja Johnson, 1984; Searle, 1987; Woodward ja Bonett, 1990), kuid selline teave ei kuulu selle õpiku ulatusse. Kuid hiljem selles osas näitame analüüsi erinevat tüüpi plaanid.

Eeldused ja eelduste rikkumise mõjud

Hälve normaaljaotuste eeldusest

Oletame, et sõltuvat muutujat mõõdetakse numbrilisel skaalal. Oletame ka, et sõltuval muutujal on igas rühmas normaalne jaotus. Dispersioonanalüüs sisaldab laias valikus graafikuid ja statistikat selle oletuse kinnitamiseks.

Rikkumise mõjud.Üldiselt F kriteerium on väga vastupidav normaalsusest kõrvalekaldumisele (üksikasjalikud tulemused vt Lindman, 1974). Kui kurtoos on suurem kui 0, siis on statistika väärtus F võib muutuda väga väikeseks. Nullhüpoteesiga nõustutakse, kuigi see ei pruugi tõsi olla. Olukord on vastupidine, kui kurtoos on väiksem kui 0. Jaotuse kaldus mõjutab tavaliselt vähe F statistika. Kui lahtris on vaatluste arv piisavalt suur, siis kõrvalekallet normaalsusest ei ole eriline tähendus alusel keskne piiri teoreem , mille kohaselt on keskväärtuse jaotus normaallähedane, sõltumata algjaotusest. Üksikasjalik arutelu jätkusuutlikkuse üle F statistikat võib leida Box ja Anderson (1955) või Lindman (1974).

Dispersiooni homogeensus

Oletused. Eeldatakse, et plaani erinevate rühmade dispersioonid on samad. Seda eeldust nimetatakse eelduseks dispersiooni homogeensus. Tuletame meelde, et selle jaotise alguses, kirjeldades vigade ruudu summa arvutamist, teostasime iga rühma piires liitmise. Kui kahe grupi dispersioonid erinevad üksteisest, siis nende liitmine ei ole väga loomulik ega anna hinnangut kogu grupisisese dispersiooni kohta (kuna sel juhul puudub üldine dispersioon). Moodul Dispersioonianalüüs -ANOVA/MANOVA sisaldab suurt komplekti statistilised kriteeriumid dispersiooni homogeensuse eeldustest kõrvalekallete tuvastamine.

Rikkumise mõjud. Lindman (1974, lk 33) näitab seda F kriteerium on dispersiooni homogeensuse eelduste rikkumise suhtes üsna stabiilne ( heterogeensus dispersioon, vt ka Box, 1954a, 1954b; Hsu, 1938).

Erijuhtum: keskmiste ja dispersioonide korrelatsioon. On aegu, mil F statistika saab eksitada. See juhtub siis, kui disainilahtrite keskmised väärtused on korrelatsioonis dispersiooniga. Moodul Dispersioonanalüüs võimaldab koostada dispersiooni või standardhälbe hajuvusdiagramme sellise korrelatsiooni tuvastamise vahenditega. Põhjus, miks selline korrelatsioon on ohtlik, on järgmine. Kujutagem ette, et plaanis on 8 lahtrit, millest 7 on peaaegu sama keskmisega ja ühes lahtris on keskmine palju suurem kui ülejäänud. Siis F test suudab tuvastada statistiliselt olulist mõju. Aga oletame, et suure keskmise väärtusega lahtris on dispersioon teistest palju suurem, s.t. keskmine ja dispersioon rakkudes on sõltuvad (mida suurem keskmine, seda suurem on dispersioon). Sel juhul on suur keskmine ebausaldusväärne, kuna selle põhjuseks võib olla andmete suur dispersioon. Kuid F põhineb statistikal ühinenud lahtrites esinev dispersioon hõlmab suurt keskmist, kuigi iga lahtri dispersioonil põhinevad kriteeriumid ei pea kõiki erinevusi keskmistes olulisteks.

Seda andmete olemust (suur keskmine ja suur dispersioon) kohtab sageli kõrvaliste vaatluste korral. Üks või kaks kõrvalekalduvat vaatlust nihutavad tugevalt keskmist ja suurendavad oluliselt dispersiooni.

Dispersiooni ja kovariatsiooni homogeensus

Oletused. Mitme muutujaga disainilahenduste puhul, millel on mitme muutujaga sõltuvad mõõdud, kehtivad ka varem kirjeldatud dispersiooni homogeensuse eeldused. Kuna aga on olemas mitme muutujaga sõltuvad muutujad, nõutakse ka, et nende ristkorrelatsioonid (kovariandid) oleksid kõigis plaani lahtrites ühtsed. Moodul Dispersioonanalüüs pakkumisi erinevaid viise neid eeldusi testides.

Rikkumise mõjud. Mitmemõõtmeline analoog F- kriteerium - Wilksi λ-test. Wilksi λ-testi stabiilsuse (robustsuse) kohta, mis puudutab ülaltoodud eelduste rikkumist, pole palju teada. Kuna aga mooduli tulemuste tõlgendamine Dispersioonanalüüs põhineb tavaliselt ühemõõtmeliste efektide olulisusel (pärast olulisuse kindlakstegemist üldine kriteerium), puudutab robustsuse arutelu peamiselt ühemõõtmelist dispersioonanalüüsi. Seetõttu tuleks ühemõõtmeliste efektide olulisust hoolikalt uurida.

Erijuhtum: kovariatsioonianalüüs. Dispersiooni/kovariatsiooni homogeensuse eriti tõsised rikkumised võivad ilmneda ühismuutujate kaasamisel kujundusse. Eelkõige juhul, kui korrelatsioon ühismuutujate ja sõltuvate mõõtude vahel on disaini erinevates lahtrites erinev, võib järgneda tulemuste väär tõlgendamine. Tuleb meeles pidada, et kovariatsioonianalüüsi puhul tehakse sisuliselt iga raku sees regressioonianalüüs, et eraldada see osa dispersioonist, mis vastab kovariaadile. Dispersiooni/kovariansi homogeensuse eeldus eeldab, et see regressioonanalüüs viiakse läbi järgmise piirangu alusel: kõik regressioonivõrrandid(nõlvad) on kõigi lahtrite jaoks ühesugused. Kui see pole ette nähtud, võivad tekkida suured vead. Moodul Dispersioonanalüüs on selle eelduse kontrollimiseks mitu erikriteeriumi. Võib olla soovitatav kasutada neid kriteeriume tagamaks, et erinevate lahtrite regressioonivõrrandid on ligikaudu samad.

Sfäärilisus ja komplekssümmeetria: mitme muutujaga korduva mõõtmise lähenemisviisi kasutamise põhjused dispersioonanalüüsis

Disainides, mis sisaldavad korduvaid mõõdetavaid tegureid, millel on rohkem kui kaks tasandit, nõuab ühemõõtmelise dispersioonanalüüsi rakendamine täiendavaid eeldusi: kompleksse sümmeetria eeldusi ja sfäärilisuse eeldusi. Neid eeldusi täidetakse harva (vt allpool). Seetõttu on viimastel aastatel selliste plaanide puhul populaarsust kogunud mitmemõõtmeline dispersioonanalüüs (moodulis on kombineeritud mõlemad lähenemisviisid Dispersioonanalüüs).

Kompleksse sümmeetria eeldus Kompleksse sümmeetria eeldus on, et erinevate korduvate mõõtmiste dispersioonid (grupisisene kogusumma) ja kovariatsioonid (rühmade kaupa) on ühtlased (sama). See on piisav tingimus ühemõõtmelise F-testi korduvate mõõtmiste kehtivuse tagamiseks (st teatatud F-väärtused on keskmiselt kooskõlas F-jaotusega). Siiski sisse sel juhul see tingimus pole vajalik.

Sfäärilisuse oletus. Sfäärilisuse eeldus on vajalik ja piisav seisukord et F-test oleks õigustatud. See seisneb selles, et rühmade sees on kõik vaatlused sõltumatud ja jaotatud võrdselt. Nende eelduste olemust ja nende rikkumiste mõju pole dispersioonanalüüsi käsitlevates raamatutes tavaliselt hästi kirjeldatud – seda kirjeldatakse järgmistes lõikudes. Samuti näitab see, et ühemõõtmelise lähenemisviisi tulemused võivad erineda mitmemõõtmelise lähenemisviisi tulemustest, ja selgitab, mida see tähendab.

Hüpoteeside sõltumatuse vajadus.Üldine viis andmete analüüsimiseks dispersioonanalüüsis on mudeli sobivus. Kui andmetele vastava mudeli suhtes on mõned a priori hüpoteesid, siis dispersioon jagatakse nende hüpoteeside testimiseks (põhimõjude kriteeriumid, vastastikmõjud). Arvutuslikust vaatenurgast loob see lähenemine teatud kontrastide komplekti (kujunduses kasutatavate vahendite võrdluste kogum). Kui aga kontrastid ei ole üksteisest sõltumatud, muutub dispersioonide jaotamine mõttetuks. Näiteks kui kaks kontrasti A ja B on identsed ja vastav osa valitakse dispersioonist, siis valitakse sama osa kaks korda. Näiteks on rumal ja mõttetu välja tuua kaks hüpoteesi: "lahtri 1 keskmine on kõrgem kui lahtri 2 keskmine" ja "lahtri 1 keskmine on kõrgem kui lahtri 2 keskmine". Seega peavad hüpoteesid olema sõltumatud või ortogonaalsed.

Sõltumatud hüpoteesid kordusmõõtmistel. Üldine algoritm, rakendatakse moodulis Dispersioonanalüüs, püüab iga efekti jaoks luua sõltumatuid (ortogonaalseid) kontraste. Korduvate mõõtmiste teguri puhul tekitavad need kontrastid palju hüpoteese erinevusi vaadeldava teguri tasemete vahel. Kui aga need erinevused on rühmade sees korrelatsioonis, ei ole tekkivad kontrastid enam sõltumatud. Näiteks koolitusel, kus õppijaid mõõdetakse kolm korda ühe semestri jooksul, võib juhtuda, et muutused 1. ja 2. dimensiooni vahel on negatiivses korrelatsioonis ainete 2. ja 3. dimensiooni vahelise muutusega. Need, kes on valdanud suurema osa materjalist 1. ja 2. mõõtme vahel, valdavad väiksema osa 2. ja 3. mõõtme vahelt möödunud aja jooksul. Tegelikult võib enamikul juhtudel, kui korduvate mõõtmiste puhul kasutatakse dispersioonanalüüsi, eeldada, et tasemete muutused on subjektide lõikes korrelatsioonis. Kui see aga juhtub, ei ole kompleksse sümmeetria ja sfäärilisuse eeldused täidetud ning sõltumatuid kontraste ei saa arvutada.

Rikkumiste mõju ja nende parandamise viisid. Kui keerulised sümmeetria või sfäärilisuse eeldused ei ole täidetud, võib dispersioonanalüüs anda ekslikke tulemusi. Enne mitme muutujaga protseduuride piisavat väljatöötamist tehti nende eelduste rikkumise kompenseerimiseks mitmeid eeldusi. (Vt näiteks Greenhouse & Geisser, 1959 ja Huynh & Feldt, 1970). Neid meetodeid kasutatakse laialdaselt ka tänapäeval (sellepärast on need moodulis esitatud Dispersioonanalüüs).

Mitmemõõtmeline dispersioonanalüüsi lähenemisviis korduvatele mõõtmistele.Üldiselt viitavad kompleksse sümmeetria ja sfäärilisuse probleemid asjaolule, et korduvate mõõtmiste tegurite mõju uuringusse kaasatud kontrastide komplektid (üle 2 tasemega) ei ole üksteisest sõltumatud. Siiski ei pea need olema iseseisvad, kui neid kasutatakse. mitmemõõtmeline kahe või enama korduva mõõtmise faktorikontrasti statistilise olulisuse samaaegse testimise kriteerium. See on põhjus, miks dispersioonmeetodite mitmemõõtmelist analüüsi on hakatud üha enam kasutama enam kui 2 tasemega ühemõõtmeliste korduvate mõõtmistegurite olulisuse testimiseks. Seda lähenemisviisi kasutatakse laialdaselt, kuna see ei nõua üldiselt keeruka sümmeetria ja sfäärilisuse eeldamist.

Juhtumid, mille puhul ei saa kasutada mitme muutujaga dispersioonanalüüsi meetodit. On näiteid (plaane), kui mitme muutujaga dispersioonanalüüsi lähenemist ei saa rakendada. Tavaliselt on need juhtumid, kus kujunduses on väike arv subjekte ja korduvate mõõtmiste teguris palju tasemeid. Siis võib mitmemõõtmelise analüüsi tegemiseks olla liiga vähe vaatlusi. Näiteks kui on 12 olemit, lk = 4 korduvate mõõtmiste tegur ja igal teguril on k = 3 tasemed. Siis "kulub" 4 teguri koostoime (k-1)P = 2 4 = 16 vabadusastmed. Siiski on ainult 12 katsealust, seetõttu ei saa selles näites teha mitme muutujaga testi. Moodul Dispersioonanalüüs tuvastab need vaatlused iseseisvalt ja arvutab ainult ühemõõtmelised kriteeriumid.

Ühe- ja mitmemõõtmeliste tulemuste erinevused. Kui uuring hõlmab suurt hulka korduvaid meetmeid, võib esineda juhtumeid, kus ANOVA ühemõõtmeline korduvmõõtmismeetod annab tulemusi, mis erinevad väga palju mitme muutujaga lähenemisviisiga saadud tulemustest. See tähendab, et erinevused vastavate korduvate mõõtmiste tasemete vahel on subjektide lõikes korrelatsioonis. Mõnikord pakub see fakt sõltumatut huvi.

Mitmemõõtmeline dispersioonanalüüs ja võrrandite struktuurne modelleerimine

Viimastel aastatel on mitme muutujaga dispersioonanalüüsi alternatiivina populaarseks muutunud struktuurvõrrandite modelleerimine (vt nt Bagozzi ja Yi, 1989; Bagozzi, Yi ja Singh, 1991; Cole, Maxwell, Arvey ja Salas, 1993). Selline lähenemine võimaldab testida hüpoteese mitte ainult erinevate rühmade keskmiste, vaid ka sõltuvate muutujate korrelatsioonimaatriksite kohta. Näiteks saate leevendada eeldusi dispersiooni ja kovariatsiooni homogeensuse kohta ning lisada mudelisse iga dispersiooni- ja kovariatsioonirühma vead. Moodul STATISTIKAStruktuurivõrrandi modelleerimine (SEPATH) (vt III köide) võimaldab sellist analüüsi teha.

Dispersioonanalüüs

1. Dispersioonanalüüsi mõiste

Dispersioonanalüüs- see on tunnuse varieeruvuse analüüs mis tahes kontrollitud muutuva faktori mõjul. Väliskirjanduses nimetatakse dispersioonanalüüsi sageli ANOVA-ks, mis tõlkes tähendab dispersioonanalüüsi (Analysis of Variance).

Dispersioonanalüüsi ülesanne seisneb erinevat tüüpi varieeruvuse eraldamises tunnuse üldisest varieeruvusest:

a) varieeruvus iga uuritud sõltumatu muutuja toimest;

b) uuritud sõltumatute muutujate koostoimest tingitud varieeruvus;

c) kõikidest muudest tundmatutest muutujatest tingitud juhuslik variatsioon.

Uuritud muutujate toimest ja nende vastasmõjust tulenev varieeruvus korreleerub juhusliku varieeruvusega. Selle suhte näitajaks on Fisheri F-test.

Kriteeriumi F arvutamise valem sisaldab dispersioonide hinnanguid ehk tunnuse jaotusparameetreid, seetõttu on kriteerium F parameetriline kriteerium.

Kui sisse rohkem tunnuse muutlikkus on tingitud uuritavatest muutujatest (teguritest) või nende vastasmõjust, seda suurem kriteeriumi empiirilised väärtused.

Null dispersioonanalüüsi hüpotees ütleb, et uuritud efektiivse tunnuse keskmised väärtused kõigis astmetes on samad.

Alternatiivne hüpotees väidab, et efektiivse atribuudi keskmised väärtused uuritava teguri erinevates astmetes on erinevad.

Dispersioonanalüüs võimaldab meil väita tunnuse muutust, kuid ei näita suunas need muudatused.

Alustame dispersioonanalüüsi kõige lihtsama juhtumiga, kui uurime ainult tegevust üks muutuja (üks tegur).

2. Mitteseotud valimite ühesuunaline dispersioonanalüüs

2.1. Meetodi eesmärk

Ühefaktorilise dispersioonanalüüsi meetodit kasutatakse juhtudel, kui efektiivse atribuudi muutusi uuritakse muutuvate tingimuste või mis tahes teguri gradatsiooni mõjul. Meetodi selles versioonis on teguri iga gradatsiooni mõju mitmesugused katsealuste näidis. Teguri astmeid peab olema vähemalt kolm. (Astmeid võib olla kaks, kuid sel juhul ei saa me luua mittelineaarseid sõltuvusi ja tundub mõistlikum kasutada lihtsamaid).

Seda tüüpi analüüsi mitteparameetriline variant on Kruskal-Wallis H test.

Hüpoteesid

H 0: erinevused faktorite klasside vahel (erinevad tingimused) ei ole rohkem väljendunud kui juhuslikud erinevused igas rühmas.

H 1: erinevused faktorite gradatsioonide (erinevate tingimuste) vahel on rohkem väljendunud kui juhuslikud erinevused iga rühma sees.

2.2. Sõltumatute valimite ühemõõtmelise dispersioonanalüüsi piirangud

1. Ühemõõtmeline dispersioonanalüüs eeldab vähemalt kolme teguri gradatsiooni ja vähemalt kahte ainet igas astmes.

2. Tulemuseks olev tunnus peab uuritavas valimis olema normaalselt jaotunud.

Tõsi, enamasti ei näidata, kas räägime mingi tunnuse jaotusest kogu uuritavas valimis või selle selles osas, mis moodustab dispersioonikompleksi.

3. Näide probleemi lahendamisest sõltumatute valimite ühefaktorilise dispersioonanalüüsi meetodil, kasutades näidet:

Kolm erinevat kuuest ainest koosnevat rühma said kümnesõnalised nimekirjad. Esimesele rühmale esitati sõnu madala kiirusega 1 sõna 5 sekundis, teisele rühmale keskmiselt 1 sõna 2 sekundis ja kolmandale rühmale suure kiirusega 1 sõna sekundis. Eeldati, et reprodutseerimise jõudlus sõltub sõna esitamise kiirusest. Tulemused on esitatud tabelis. üks.

Reprodutseeritud sõnade arv Tabel 1

teema number

madal kiirus

keskmine kiirus

suur kiirus

kogu summa

H 0: Sõna mahu erinevused vahel rühmad ei ole rohkem väljendunud kui juhuslikud erinevused sees iga rühm.

H1: Erinevused sõnade mahus vahel rühmad on rohkem väljendunud kui juhuslikud erinevused sees iga rühm. Tabelis esitatud eksperimentaalsete väärtuste kasutamine. 1, määrame kindlaks mõned väärtused, mida on vaja kriteeriumi F arvutamiseks.

Ühesuunalise dispersioonanalüüsi põhisuuruste arvutamine on toodud tabelis:

tabel 2

Tabel 3

Toimingute jada lahtiühendatud proovide ühesuunalises ANOVA-s

Selles ja järgmistes tabelites sageli kasutatav tähistus SS on "ruutude summa" lühend. Seda lühendit kasutatakse kõige sagedamini tõlkeallikates.

SS fakt tähendab tunnuse muutlikkust, mis on tingitud uuritava teguri toimest;

SS levinud- tunnuse üldine varieeruvus;

S CA- varieeruvus, mis tuleneb arvesse võtmata teguritest, "juhuslik" või "jääk" varieeruvus.

PRL - "keskmine ruut" ehk ruutude summa keskmine, vastava SS keskmine väärtus.

df - vabadusastmete arv, mida mitteparameetrilisi kriteeriume arvesse võttes tähistasime kreeka tähega v.

Järeldus: H 0 lükatakse tagasi. H 1 on aktsepteeritud. Rühmadevahelised erinevused sõnade reprodutseerimise mahus on selgemad kui juhuslikud erinevused iga rühma sees (α=0,05). Niisiis mõjutab sõnade esituskiirus nende reprodutseerimise mahtu.

Allpool on toodud näide probleemi lahendamisest Excelis:

Algandmed:

Kasutades käsku: Tööriistad->Andmeanalüüs->Ühesuunaline dispersioonanalüüs, saame järgmised tulemused: