Biografier Kjennetegn Analyse

Forskningsmetoder spredningskorrelasjonsanalyse. ANOVA METODER

Analyse av varianter

1. Konsept Analyse av varianter

Analyse av varianter- dette er en analyse av variasjonen til en egenskap under påvirkning av kontrollerte variable faktorer. I utenlandsk litteratur blir variansanalyse ofte referert til som ANOVA, som oversettes som variansanalyse (Analysis of Variance).

Oppgaven med variansanalyse består i å isolere variabiliteten til en annen type enn den generelle variasjonen til egenskapen:

a) variabilitet på grunn av virkningen av hver av de studerte uavhengige variablene;

b) variabilitet på grunn av interaksjonen mellom de studerte uavhengige variablene;

c) tilfeldig variasjon på grunn av alle andre ukjente variabler.

Variabiliteten på grunn av virkningen av de studerte variablene og deres interaksjon korrelerer med tilfeldig variabilitet. En indikator på dette forholdet er Fishers F-test.

Formelen for å beregne kriteriet F inkluderer estimater av varianser, det vil si fordelingsparametrene til en funksjon, derfor er kriteriet F et parametrisk kriterium.

Enn i mer variabiliteten til en egenskap skyldes de studerte variablene (faktorene) eller deres interaksjon, jo høyere empiriske verdier av kriteriet.

Null hypotesen i variansanalysen vil si at gjennomsnittsverdiene til den studerte effektive funksjonen i alle graderinger er de samme.

Alternativ hypotesen vil si at gjennomsnittsverdiene for den effektive attributten i forskjellige graderinger av den studerte faktoren er forskjellige.

Variansanalyse lar oss angi en endring i en egenskap, men indikerer ikke retning disse endringene.

La oss starte variansanalysen med det enkleste tilfellet, når vi studerer handlingen til bare en variabel (enkeltfaktor).

2. Enveis variansanalyse for urelaterte prøver

2.1. Hensikten med metoden

Metoden for univariat variansanalyse brukes i tilfeller der endringer i den effektive attributten studeres under påvirkning av skiftende forhold eller graderinger av en hvilken som helst faktor. I denne versjonen av metoden er påvirkningen av hver av graderingene til faktoren diverse utvalg av testpersoner. Det må være minst tre graderinger av faktoren. (Det kan være to graderinger, men i dette tilfellet vil vi ikke kunne etablere ikke-lineære avhengigheter og det virker mer fornuftig å bruke enklere).

En ikke-parametrisk variant av denne typen analyse er Kruskal-Wallis H-testen.

Hypoteser

H 0: Forskjeller mellom faktorkarakterer (ulike forhold) er ikke mer uttalt enn tilfeldige forskjeller innen hver gruppe.

H 1: Forskjeller mellom faktorgraderinger (ulike forhold) er mer uttalt enn tilfeldige forskjeller innenfor hver gruppe.

2.2. Begrensninger for univariat variansanalyse for urelaterte prøver

1. Univariat variansanalyse krever minst tre graderinger av faktoren og minst to emner i hver gradering.

2. Den resulterende egenskapen må være normalfordelt i studieutvalget.

Riktignok er det vanligvis ikke angitt om vi snakker om fordelingen av en egenskap i hele det undersøkte utvalget eller i den delen av det som utgjør spredningskomplekset.

3. Et eksempel på å løse problemet ved hjelp av metoden for enkeltfaktoranalyse av varians for ikke-relaterte prøver ved å bruke eksemplet:

Tre ulike grupper på seks fag fikk lister på ti ord. Ord ble presentert for den første gruppen med en lav hastighet på 1 ord per 5 sekunder, til den andre gruppen med en gjennomsnittlig hastighet på 1 ord per 2 sekunder, og til den tredje gruppen med en høy hastighet på 1 ord per sekund. Reproduksjonsytelsen ble spådd å avhenge av hastigheten på ordpresentasjonen. Resultatene er presentert i tabell. en.

Antall ord gjengitt Tabell 1

emnenummer

lav hastighet

gjennomsnittshastighet

høy hastighet

totale mengden

H 0: Forskjeller i ordvolum mellom grupper er ikke mer uttalt enn tilfeldige forskjeller innsiden hver gruppe.

H1: Forskjeller i ordvolum mellom grupper er mer uttalte enn tilfeldige forskjeller innsiden hver gruppe. Bruke de eksperimentelle verdiene presentert i tabellen. 1, vil vi etablere noen verdier som vil være nødvendig for å beregne kriteriet F.

Beregningen av hovedmengdene for enveis variansanalyse er presentert i tabellen:

tabell 2

Tabell 3

Sekvens av operasjoner i enveis ANOVA for frakoblede prøver

Ofte brukt i denne og påfølgende tabeller, er betegnelsen SS en forkortelse for "sum av kvadrater". Denne forkortelsen brukes oftest i oversatte kilder.

SS faktum betyr variasjonen til egenskapen, på grunn av virkningen av den studerte faktoren;

SS vanlig- generell variasjon av egenskapen;

S CA- variasjon på grunn av faktorer som ikke er redegjort for, "tilfeldig" eller "residuell" variabilitet.

MS - "midtre firkant", eller gjennomsnittet av summen av kvadrater, gjennomsnittsverdien av den tilsvarende SS.

df - antall frihetsgrader, som vi, når vi vurderer ikke-parametriske kriterier, betegnet med den greske bokstaven v.

Konklusjon: H 0 avvises. H 1 er akseptert. Forskjeller i volum av ordgjengivelse mellom grupper er mer uttalte enn tilfeldige forskjeller innenfor hver gruppe (α=0,05). Så hastigheten på presentasjonen av ord påvirker volumet av deres reproduksjon.

Et eksempel på å løse problemet i Excel er presentert nedenfor:

Opprinnelige data:

Ved å bruke kommandoen: Verktøy->Dataanalyse->Enveis variansanalyse, får vi følgende resultater:

Metodene for verifisering diskutert ovenfor statistiske hypoteser om betydningen av forskjeller mellom de to gjennomsnittene i praksis er av begrenset nytte. Dette skyldes det faktum at for å identifisere effekten av alle mulige forhold og faktorer på en produktiv egenskap, felt og laboratorieforsøk, som regel, utføres ved bruk av ikke to, men et større antall prøver (1220 eller mer).

Ofte sammenligner forskere middelene til flere prøver kombinert i enkelt kompleks. For eksempel å studere effekten forskjellige typer og doser av gjødsel på avlingsavlinger, gjentas forsøkene i ulike alternativer. I disse tilfellene blir parvise sammenligninger tungvint, og den statistiske analysen av hele komplekset krever bruk av en spesiell metode. Denne metoden, utviklet i matematisk statistikk, kalles variansanalyse. Den ble først brukt av den engelske statistikeren R. Fisher ved behandling av resultatene av agronomiske eksperimenter (1938).

Analyse av varianter er en metode statistisk evaluering påliteligheten til manifestasjonen av avhengigheten til den effektive funksjonen av en eller flere faktorer. Ved hjelp av variansanalysemetoden testes statistiske hypoteser angående gjennomsnittene i flere generelle populasjoner som har normalfordeling.

Variansanalyse er en av hovedmetodene for statistisk evaluering av resultatene av et eksperiment. Det brukes også i økende grad i analyse av økonomisk informasjon. Variansanalysen gjør det mulig å fastslå hvordan selektive indikatorer på sammenhengen mellom de effektive tegnene og faktortegnene er tilstrekkelige til å spre data innhentet fra utvalget til den generelle populasjonen. Fordelen med denne metoden er at den gir ganske pålitelige konklusjoner fra små prøver.

Ved å undersøke variasjonen av den resulterende attributten under påvirkning av en eller flere faktorer, ved bruk av variansanalyse, kan man, i tillegg til generelle estimater av betydningen av avhengigheter, også få en vurdering av forskjellene i gjennomsnittsverdiene som dannes på ulike nivåer av faktorer, og betydningen av samspillet mellom faktorer. Variansanalyse brukes til å studere avhengighetene til både kvantitative og kvalitative egenskaper, så vel som kombinasjonen deres.

Essensen av denne metoden er statistisk studie sannsynligheten for påvirkning av en eller flere faktorer, samt deres interaksjon på den effektive funksjonen. Følgelig, ved hjelp av spredningsanalyse, løses tre hovedoppgaver: 1) Total poengsum betydningen av forskjeller mellom gruppemidler; 2) vurdering av sannsynligheten for interaksjon av faktorer; 3) vurdering av betydningen av forskjeller mellom middelpar. Oftest må forskere løse slike problemer når de utfører felt- og zootekniske eksperimenter, når påvirkningen av flere faktorer på den resulterende egenskapen studeres.

Prinsippskjemaet for spredningsanalyse inkluderer etablering av hovedkildene til variasjon av den effektive funksjonen og bestemmelse av volumet av variasjon (summer av kvadrerte avvik) av kildene til dens dannelse; bestemmelse av antall frihetsgrader som tilsvarer komponentene i den totale variasjonen; beregning av varianser som forholdet mellom de tilsvarende variasjonsvolumene og deres antall frihetsgrader; analyse av forholdet mellom dispersjoner; vurdering av påliteligheten av differansen mellom gjennomsnittene og formuleringen av konklusjoner.

Dette skjemaet er bevart både i enkle ANOVA-modeller, når data er gruppert i henhold til ett attributt, og i komplekse modeller, når data er gruppert i henhold til to og et stort antall tegn. Imidlertid, med en økning i antall gruppekarakteristikker, blir prosessen med dekomponering av den generelle variasjonen i henhold til kildene til dens dannelse mer komplisert.

I følge kretsskjema variansanalyse kan representeres som fem påfølgende trinn:

1) definisjon og dekomponering av variasjon;

2) fastsettelse av antall grader av variasjonsfrihet;

3) beregning av dispersjoner og deres forhold;

4) analyse av dispersjoner og deres forhold;

5) vurdering av påliteligheten av forskjellen mellom middel og formulering av konklusjoner om testing av nullhypotesen.

Den mest tidkrevende delen av variansanalysen er den første fasen - definisjonen og dekomponeringen av variasjonen av kildene til dens dannelse. Rekkefølgen for utvidelse av det totale variasjonsvolumet ble diskutert i detalj i kapittel 5.

Grunnlaget for å løse problemer med spredningsanalyse er loven om ekspansjon (addisjon) av variasjon, ifølge hvilken generell variasjon(svingninger) av den effektive attributten er delt i to: variasjonen på grunn av virkningen av den studerte faktoren (faktorer), og variasjonen forårsaket av virkningen av tilfeldige årsaker, dvs.

La oss anta at populasjonen som studeres er delt inn etter en faktorattributt i flere grupper, som hver er preget av sine egne gjennomsnitt effektivt tegn. Samtidig kan variasjonen av disse verdiene forklares av to typer årsaker: de som virker systematisk på den effektive funksjonen og kan justeres i løpet av eksperimentet, og de som ikke kan justeres. Det er åpenbart at intergruppe (faktoriell eller systematisk) variasjon hovedsakelig avhenger av virkningen av den studerte faktoren, og intragruppe (residuell eller tilfeldig) - på virkningen av tilfeldige faktorer.

For å vurdere betydningen av forskjeller mellom gruppemidler, er det nødvendig å bestemme intergruppe- og intragruppevariasjonene. Hvis intergruppe (faktoriell) variasjon betydelig overstiger intragruppe (rest) variasjonen, påvirket faktoren den resulterende egenskapen, og endret verdiene til gruppegjennomsnittene betydelig. Men spørsmålet oppstår, hva er forholdet mellom intergruppe og intragruppe variasjoner kan anses som tilstrekkelig for konklusjonen om reliabiliteten (signifikansen) av forskjeller mellom gruppemiddelene.

For å vurdere betydningen av forskjeller mellom middelene og formulere konklusjoner om testing av nullhypotesen (H0: x1 = x2 = ... = xn), bruker variansanalysen en slags standard - G-kriteriet, fordelingsloven til som ble etablert av R. Fisher. Dette kriteriet er forholdet mellom to varianser: faktoriell, generert av virkningen av faktoren som studeres, og gjenværende, på grunn av virkningen av tilfeldige årsaker:

Dispersjonsforhold r = t>u : £ * 2 av den amerikanske statistikeren Snedecor foreslått å bli betegnet med bokstaven G til ære for oppfinneren av variansanalysen R. Fisher.

Variansene til °2 og io2 er estimater av variansen befolkning. Hvis prøver med varianser på °2 °2 trekkes fra samme generelle populasjon, hvor variasjonen i verdier hadde tilfeldig karakter, da er avviket i verdiene for °2 °2 også tilfeldig.

Hvis eksperimentet kontrollerer påvirkningen av flere faktorer (A, B, C, etc.) på den effektive funksjonen samtidig, bør spredningen på grunn av virkningen til hver av dem være sammenlignbar med °f.eks, det er

Hvis verdien av faktoravviket er betydelig større enn restverdien, påvirket faktoren den resulterende attributten betydelig og omvendt.

I multifaktorielle eksperimenter, i tillegg til variasjonen på grunn av virkningen av hver faktor, er det nesten alltid en variasjon på grunn av samspillet mellom faktorer ($av: ^ls ^ss $liіs). Essensen av interaksjonen er at effekten av en faktor endres betydelig til ulike nivåer den andre (for eksempel effektiviteten av jordkvalitet ved forskjellige doser gjødsel).

Samspillet mellom faktorer bør også vurderes ved å sammenligne de respektive variansene 3 ^w.gr:

Ved beregning av den faktiske verdien av B-kriteriet tas den største av variansene i telleren, derfor B > 1. Det er åpenbart at jo større B-kriteriet er, mer betydelig forskjell mellom dispersjoner. Hvis B = 1, fjernes spørsmålet om å vurdere betydningen av forskjeller i varians.

For å bestemme grensene for tilfeldige fluktuasjoner utviklet variansforholdet G. Fisher spesielle tabeller over B-fordelingen (vedlegg 4 og 5). Kriterium B er funksjonelt relatert til sannsynlighet og avhenger av antall grader av variasjonsfrihet k1 og k2 av de to sammenlignede variansene. To tabeller brukes vanligvis for å trekke konklusjoner om grensen Høy verdi kriterium for signifikansnivåer på 0,05 og 0,01. Et signifikansnivå på 0,05 (eller 5%) betyr at kun i 5 tilfeller av 100 kan kriterium B få en verdi lik eller høyere enn den som er angitt i tabellen. En reduksjon i signifikansnivået fra 0,05 til 0,01 fører til en økning i verdien av kriteriet B mellom to varianser på grunn av virkningen av kun tilfeldige årsaker.

Verdien av kriteriet avhenger også direkte av antall frihetsgrader til de to sammenlignede dispersjonene. Hvis antallet frihetsgrader har en tendens til uendelig (k-me), så tenderer forholdet mellom ville for to dispersjoner til enhet.

Tabellverdien til kriterium B viser en mulig tilfeldig verdi av forholdet mellom to varianser ved et gitt signifikansnivå og det tilsvarende antall frihetsgrader for hver av de sammenlignede variansene. I disse tabellene er verdien av B gitt for prøver laget fra samme generelle populasjon, der årsakene til endringen i verdiene kun er tilfeldige.

Verdien av G er funnet fra tabellene (vedlegg 4 og 5) i skjæringspunktet mellom den tilsvarende kolonnen (antall frihetsgrader for en større spredning - k1) og raden (antall frihetsgrader for en mindre spredning - k2). Så hvis den største variansen (teller G) k1 = 4, og den minste (nevneren G) k2 = 9, vil Ga på et signifikansnivå a = 0,05 være 3,63 (ca. 4). Så, som et resultat av virkningen av tilfeldige årsaker, siden prøvene er små, kan variansen til en prøve, ved et 5 % signifikansnivå, overstige variansen for den andre prøven med 3,63 ganger. Med en reduksjon i signifikansnivået fra 0,05 til 0,01 vil tabellverdien til kriteriet D, som nevnt ovenfor, øke. Så, med de samme frihetsgradene k1 = 4 og k2 = 9 og a = 0,01, vil tabellverdien til kriteriet G være 6,99 (ca. 5).

Vurder prosedyren for å bestemme antall frihetsgrader i variansanalysen. Antall frihetsgrader, som tilsvarer den totale summen av kvadrerte avvik, dekomponeres i de tilsvarende komponentene på samme måte som dekomponeringen av summene av kvadrerte avvik. totalt antall frihetsgrader (k") dekomponeres i antall frihetsgrader for intergruppe (k1) og intragruppe (k2) variasjoner.

Så hvis prøvetakingsramme, bestående av N observasjoner delt på t grupper (antall eksperimentalternativer) og P undergrupper (antall repetisjoner), da vil henholdsvis antall frihetsgrader k være:

og for totale mengden kvadratiske avvik (d7zar)

b) for intergruppesummen av kvadrerte avvik ^m.gP)

c) for intragruppesummen av kvadrerte avvik i w.gr)

I henhold til tilleggsregelen for variasjon:

For eksempel, hvis fire varianter av eksperimentet ble dannet i eksperimentet (m = 4) i fem repetisjoner hver (n = 5), og Total observasjoner N = = t o p \u003d 4 * 5 \u003d 20, da er antall frihetsgrader, henholdsvis lik:

Når du kjenner summene av kvadrerte avvik av antall frihetsgrader, er det mulig å bestemme objektive (justerte) estimater for tre varianser:

Nullhypotesen H0 etter kriterium B testes på samme måte som ved Students u-test. For å ta en beslutning om å kontrollere H0, er det nødvendig å beregne den faktiske verdien av kriteriet og sammenligne den med tabellverdien Ba for det aksepterte signifikansnivået a og antall frihetsgrader k1 og k2 for to dispersjoner.

Hvis Bfakg > Ba, så, i samsvar med det aksepterte signifikansnivået, kan vi konkludere med at forskjellene i utvalgsvarianser ikke bare bestemmes av tilfeldige faktorer; de er betydelige. I dette tilfellet forkastes nullhypotesen og det er grunn til å tro at faktoren påvirker den resulterende egenskapen betydelig. Hvis< Ба, то нулевую гипотезу принимают и есть основание утверждать, что различия между сравниваемыми дисперсиями находятся в границах возможных случайных колебаний: действие фактора на результативный признак не является существенным.

Bruken av en eller annen ANOVA-modell avhenger både av antall studerte faktorer og av prøvetakingsmetoden.

Avhengig av antall faktorer som bestemmer variasjonen av den effektive funksjonen, kan prøver dannes av én, to eller flere faktorer. I følge denne analysen er variansen delt inn i enkeltfaktor og multifaktor. Ellers kalles det også et enkeltfaktor- og multifaktordispersjonskompleks.

Opplegget for dekomponering av den generelle variasjonen avhenger av dannelsen av gruppene. Det kan være tilfeldig (observasjoner av en gruppe er ikke relatert til observasjonene til den andre gruppen) og ikke-tilfeldige (observasjoner av to prøver er sammenkoblet av de vanlige betingelsene for eksperimentet). Følgelig oppnås uavhengige og avhengige prøver. Uavhengige prøver kan dannes med både like og ujevne tall. Dannelsen av avhengige prøver antar deres like antall.

Hvis gruppene er dannet i en ikke-voldelig rekkefølge, inkluderer den totale mengden variasjon av den resulterende egenskapen, sammen med den faktorielle (intergruppe) og gjenværende variasjonen, variasjonen av repetisjoner, dvs.

I praksis er det i de fleste tilfeller nødvendig å vurdere avhengige utvalg når forholdene for grupper og undergrupper er utjevnet. Ja, inn felterfaring hele området er delt inn i blokker, med de mest virivnyanniya forholdene. Samtidig får hver variant av eksperimentet like muligheter til å være representert i alle blokker, noe som oppnår utjevning av betingelsene for alle testede alternativer, erfaring. Denne metoden for å konstruere erfaring kalles metoden for randomiserte blokker. Eksperimenter med dyr utføres på samme måte.

Ved behandling av sosioøkonomiske data ved hjelp av metoden for spredningsanalyse, må det tas i betraktning at på grunn av det rike antallet faktorer og deres innbyrdes sammenheng, er det vanskelig, selv med den mest omhyggelige tilpasningen av forholdene, å fastslå graden av objektiv påvirkning av hver enkelt faktor på den effektive egenskapen. Derfor bestemmes nivået av gjenværende variasjon ikke bare av tilfeldige årsaker, men også av betydelige faktorer som ikke ble tatt i betraktning ved bygging av ANOVA-modellen. Som et resultat blir restspredningen som sammenligningsgrunnlag noen ganger utilstrekkelig for formålet, den er klart overvurdert i størrelsesorden og kan ikke fungere som et kriterium for betydningen av påvirkning av faktorer. I denne forbindelse, når du bygger modeller for variansanalyse, blir det faktisk problem utvalg kritiske faktorer og utjevne betingelsene for manifestasjonen av handlingen til hver av dem. I tillegg. bruken av variansanalyse antar normal eller nær normal distribusjon studerte statistiske aggregater. Hvis denne betingelsen ikke er oppfylt, vil estimatene som er oppnådd i variansanalysen bli overdrevet.

Analyse av varianter(fra latin Dispersio - dispersion / på engelsk Analysis Of Variance - ANOVA) brukes til å studere påvirkningen av en eller flere kvalitative variabler (faktorer) på én avhengig kvantitativ variabel (respons).

Variansanalysen er basert på antakelsen om at noen variabler kan betraktes som årsaker (faktorer, uavhengige variabler): , og andre som konsekvenser (avhengige variabler). Uavhengige variabler kalles noen ganger justerbare faktorer nettopp fordi forskeren i forsøket har mulighet til å variere dem og analysere resultatet.

Hoved mål Analyse av varianter(ANOVA) er studiet av betydningen av forskjeller mellom middel ved å sammenligne (analysere) variansene. Ved å dele den totale variansen i flere kilder kan man sammenligne variansen på grunn av intergruppeforskjell med variansen på grunn av variabilitet innen gruppe. Hvis nullhypotesen er sann (om likheten av gjennomsnittene i flere grupper av observasjoner valgt fra den generelle befolkningen), bør estimatet av variansen assosiert med intragruppevariabilitet være nær estimatet intergruppe varians. Hvis du ganske enkelt sammenligner gjennomsnittet av to prøver, vil variansanalysen gi samme resultat som en normal uavhengig prøve t-test (hvis du sammenligner to uavhengige grupper av objekter eller observasjoner) eller en avhengig prøve t-test ( hvis du sammenligner to variabler på samme og samme sett med objekter eller observasjoner).

Essensen av variansanalyse ligger i inndelingen av den totale variansen til den studerte egenskapen i separate komponenter, på grunn av påvirkningen av spesifikke faktorer, og testing av hypoteser om betydningen av påvirkningen av disse faktorene på den studerte egenskapen. Ved å sammenligne komponentene i dispersjonen med hverandre ved hjelp av Fishers F-test, er det mulig å bestemme hvilken andel av den totale variasjonen til den resulterende egenskapen som skyldes virkningen av justerbare faktorer.

Kildematerialet for variansanalysen er dataene fra studien av tre eller flere prøver: , som kan være enten like eller ulikt i antall, både tilkoblet og frakoblet. I henhold til antall identifiserte justerbare faktorer, kan variansanalyse være en-faktor(samtidig studeres påvirkningen av en faktor på resultatene av eksperimentet), to-faktor(når man studerer påvirkningen av to faktorer) og multifaktoriell(lar deg evaluere ikke bare påvirkningen av hver av faktorene separat, men også deres interaksjon).

Variansanalyse tilhører gruppen av parametriske metoder og bør derfor kun brukes når det er bevist at fordelingen er normal.

Variansanalyse brukes hvis den avhengige variabelen måles på en skala av forholdstall, intervaller eller rekkefølge, og de påvirkende variablene er ikke-numeriske (navneskala).

Eksempler på oppgaver

I problemer som løses ved variansanalyse er det en respons av numerisk karakter, som påvirkes av flere variabler som har nominell karakter. For eksempel flere typer husdyroppfetningsrasjoner eller to måter å holde dem på osv.

Eksempel 1: I løpet av uken har flere apotekkiosker drevet på tre forskjellige steder. I fremtiden kan vi bare forlate én. Det er nødvendig å fastslå om det er en statistisk signifikant forskjell mellom salgsvolumene av legemidler i kiosker. Hvis ja, vil vi velge kiosken med høyest gjennomsnittlig daglig salgsvolum. Hvis forskjellen i salgsvolum viser seg å være statistisk ubetydelig, bør andre indikatorer være grunnlaget for valg av kiosk.

Eksempel 2: Sammenligning av kontraster av gruppemidler. De syv politiske tilknytningene er sortert fra ekstremt liberale til ekstremt konservative, og lineær kontrast brukes til å teste om det er en ikke-null oppadgående trend i gruppemiddelverdier – dvs. om det er en signifikant lineær økning i gjennomsnittsalder når man vurderer grupper sortert i retning fra liberal til konservativ.

Eksempel 3: Toveis variansanalyse. Antall produktsalg, i tillegg til størrelsen på butikken, påvirkes ofte av plasseringen av hyllene med produktet. Dette eksemplet inneholder ukentlige salgstall preget av fire hylleoppsett og tre butikkstørrelser. Resultatene av analysen viser at begge faktorene – plasseringen av hyllene med varene og størrelsen på butikken – påvirker antall salg, men deres samspill er ikke signifikant.

Eksempel 4: Univariat ANOVA: Randomisert to-behandlings fullblokkdesign. Innflytelsen på baking av brød av alle mulige kombinasjoner tre fett og tre deigrippere. Fire melprøver tatt fra fire ulike kilder, fungerte som blokkerende faktorer. Betydningen av fett-ripper-interaksjonen må identifiseres. Etter det, for å bestemme de forskjellige alternativene for å velge kontraster, slik at du kan finne ut hvilke kombinasjoner av nivåer av faktorer som er forskjellige.

Eksempel 5: Modell av en hierarkisk (nested) plan med blandede effekter. Påvirkningen av fire tilfeldig utvalgte hoder montert i en maskinverktøy på deformasjonen av produserte glasskatodeholdere studeres. (Hodene er innebygd i maskinen, så det samme hodet kan ikke brukes på forskjellige maskiner.) Hodeeffekten behandles som en tilfeldig faktor. ANOVA-statistikken viser at det ikke er signifikante forskjeller mellom maskiner, men det er indikasjoner på at hodene kan være forskjellige. Forskjellen mellom alle maskinene er ikke signifikant, men for to av dem er forskjellen mellom typene hoder betydelig.

Eksempel 6: Univariat analyse av gjentatte målinger ved hjelp av en delt plottplan. Dette eksperimentet ble utført for å bestemme effekten av et individs angstvurdering på eksamensprestasjoner ved fire påfølgende forsøk. Dataene er organisert slik at de kan betraktes som grupper av delmengder av hele datasettet ("hele plottet"). Effekten av angst var ikke signifikant, mens effekten av å prøve var signifikant.

Liste over metoder

  • Modeller av faktorielt eksperiment. Eksempler: faktorer som påvirker suksessen med å løse matematiske problemer; faktorer som påvirker salgsvolumet.

Dataene består av flere serier av observasjoner (prosesseringer), som betraktes som realiseringer av uavhengige utvalg. Utgangshypotesen er at det ikke er noen forskjell i behandlinger, dvs. det antas at alle observasjoner kan betraktes som ett utvalg fra den totale populasjonen:

  • En-faktor parametrisk modell: Scheffes metode.
  • En-faktor ikke-parametrisk modell [Lagutin M.B., 237]: Kruskal-Wallis kriterium [Hollender M., Wolf D.A., 131], Jonkheers kriterium [Lagutin M.B., 245].
  • Generelt tilfelle av en modell med konstante faktorer, Cochrans teorem [Afifi A., Eisen S., 234].

Dataene er to ganger gjentatte observasjoner:

  • To-faktor ikke-parametrisk modell: Friedmans kriterium [Lapach, 203], Pages kriterium [Lagutin M.B., 263]. Eksempler: sammenligning av effektiviteten til produksjonsmetoder, landbrukspraksis.
  • To-faktor ikke-parametrisk modell for ufullstendige data

Historie

Hvor kom navnet fra Analyse av varianter? Det kan virke rart at prosedyren for å sammenligne middel kalles variansanalyse. Faktisk er dette på grunn av det faktum at når vi undersøker den statistiske signifikansen av forskjellen mellom gjennomsnittene til to (eller flere) grupper, sammenligner (analyserer) vi faktisk. utvalgsvariasjoner. Det grunnleggende konseptet for variansanalyse er foreslått Fisher i 1920. Et mer naturlig begrep vil kanskje være kvadratsumsanalyse eller variasjonsanalyse, men på grunn av tradisjon brukes begrepet variansanalyse. Opprinnelig ble variansanalyse utviklet for å behandle data innhentet i løpet av spesialdesignede eksperimenter, og ble ansett som den eneste metoden som korrekt utforsker årsakssammenhenger. Metoden ble brukt til å evaluere forsøk i planteproduksjon. Senere ble den generelle vitenskapelige betydningen av spredningsanalyse for eksperimenter innen psykologi, pedagogikk, medisin osv. tydelig.

Litteratur

  1. Sheff G. Spredningsanalyse. - M., 1980.
  2. Ahrens H. Leiter Yu. Multivariat variansanalyse.
  3. Kobzar A.I. Anvendt matematikk statistikk. - M.: Fizmatlit, 2006.
  4. Lapach S.N., Chubenko A.V., Babich P.N. Statistikk i vitenskap og næringsliv. - Kiev: Morion, 2002.
  5. Lagutin M.B. Visuell matematisk statistikk. I to bind. - M.: P-senteret, 2003.
  6. Afifi A., Eisen S. Statistisk analyse: Den datamaskinassisterte tilnærmingen.
  7. Hollender M., Wolf D.A. Ikke-parametriske metoder for statistikk.

Lenker

Gjennomsnittlige kvadrater og s R 2 er objektive estimater av den avhengige variabelen, drevet av henholdsvis regresjons- eller forklaringsvariabelen X og virkningen av tilfeldige faktorer og feil som ikke er gjort rede for; m er antall estimerte regresjonsparametere, n er antall observasjoner. I fravær av en lineær sammenheng mellom den avhengige og forklarende (faktorielle) variabelen, har tilfeldige variabler og s R 2 henholdsvis 2 - fordeling med m-1 og n-m frihetsgrader, og deres forhold F er en fordeling med samme frihetsgrader. Derfor er regresjonsligningen signifikant på nivået hvis den faktisk observerte verdien av statistikken overstiger tabellverdien:

(5.11),

hvor er tabellverdien til F - Fisher - Snedekor-testen, bestemt ved signifikansnivået kl. k1 = m-1 og k2 = n-m grader av frihet.

Gitt betydningen av verdiene og s R 2 , kan vi si at verdien av F viser i hvilken grad regresjonen estimerer verdien av den avhengige variabelen bedre enn gjennomsnittet.

I tilfelle av et damprom lineær regresjon m = 2, og regresjonsligningen er signifikant på nivået if

(5.12)

Følgende forhold kan tjene som et mål på betydningen av regresjonslinjen:

hvor ŷ i -i-e utjevnet verdi; -medium aritmetiske verdier y jeg; σ y.x - rotmiddelkvadratfeil (tilnærmingsfeil) regresjonsligning, beregnet fra velkjent formel; n er antall sammenlignede par av funksjonsverdier; m er antall faktortrekk.

Faktisk er forbindelsen jo større, jo mer signifikant mål på spredningen av funksjonen, på grunn av regresjon, overstiger spredningsmålet for avvikene til de faktiske verdiene fra de utjevnede.

Dette forholdet lar oss løse spørsmålet om betydningen av regresjonsligningen som helhet, det vil si tilstedeværelsen av et virkelig liv statistisk avhengighet mellom variabler. Regresjonsligningen er signifikant, det vil si at det er en statistisk sammenheng mellom tegnene, hvis for gitt nivå betydning, den beregnede verdien av Fisher-kriteriet F overstiger den kritiske verdien F cr , som står i skjæringspunktet mellom den m-te kolonnen og den tredje raden i en spesiell statistisk tabell, som kalles "Table of Values ​​of Fisher F-test".

Eksempel. La oss bruke Fishers kriterium for å vurdere betydningen av regresjonsligningen konstruert i siste forelesning, det vil si ligningen som uttrykker forholdet mellom høsting og såing per innbygger.

Ved å erstatte i formelen for beregning av Fisher-kriteriet, får vi dataene fra forrige eksempel

Med henvisning til F-fordelingstabellen for P=0,95 (α=1-P=0,5) og tar i betraktning at n-2=21, m-1 =1, i tabellen over F-testverdier for kryssene av 1. kolonne og 21. rad finner vi den kritiske verdien F cr, lik 4,32 med en grad av pålitelighet P=0,95. Siden den beregnede verdien av F-kriteriet betydelig overstiger F cr-verdien, er den oppdagede lineære sammenhengen signifikant, dvs. a priori-hypotesen om tilstedeværelsen lineær forbindelse bekreftet. Konklusjonen ble gjort med graden av reliabilitet P=0,95. Det kan kontrolleres at utgangen inn denne saken vil forbli den samme hvis reliabiliteten økes til P=0,99 (den tilsvarende verdien av F cr =8,02 for signifikansnivået α=0,01).


Bestemmelseskoeffisient. Ved hjelp av F-kriteriet har vi slått fast at det finnes lineær avhengighet mellom mengden kornhøst og mengden såing per innbygger. Derfor kan det hevdes at mengden kornhøst per innbygger avhenger lineært av mengden såing per innbygger. Nå er det på sin plass å stille et oppklarende spørsmål – i hvilken grad bestemmer mengden såing per innbygger mengden kornhøst per innbygger? Dette spørsmålet kan besvares ved å beregne hvilken del av variasjonen til den resulterende egenskapen som kan forklares med påvirkningen av faktoregenskapen. Dette formålet betjenes av bestemmelsesindeksen (eller koeffisienten) R 2 , som gjør det mulig å estimere andelen av spredningen tatt i betraktning av regresjonen i den totale spredningen til den effektive attributten. Bestemmelseskoeffisient, lik forholdet mellom faktorvariasjonen og den totale variasjonen av egenskapen, gjør det mulig å bedømme hvor "vellykket" funksjonstypen som beskriver den reelle statistiske avhengigheten er valgt.

Hvis bestemmelseskoeffisienten R 2 er kjent, kan kriteriet for betydningen av regresjonsligningen eller selve bestemmelseskoeffisienten (Fishers kriterium) skrives som:

Fishers kriterium lar oss også vurdere nytten av å inkludere tilleggsfaktorer inn i modellen for ligningen multippel lineær regresjon.

I økonometri, bortsett fra generelt kriterium Fisher, konseptet brukes også privat kriterium . Det partielle F-kriteriet viser graden av påvirkning av en ekstra uavhengig variabel på den resulterende attributten og kan brukes når du bestemmer deg for å legge til denne uavhengige variabelen til ligningen eller ekskludere den fra den.

Spredningen av funksjonen som er forklart av to-faktor regresjonsligningen konstruert tidligere, kan dekomponeres i to typer: 1) spredningen av funksjonen på grunn av den uavhengige variabelen x 1, og 2) spredningen av funksjonen på grunn av den uavhengige variabelen x 2 når x 1 allerede er inkludert i ligningen. Den første komponenten tilsvarer spredningen av attributtet, forklart av ligningen, som bare inkluderer variabelen x 1 . Forskjellen mellom spredningen av egenskapen gitt av den parvise lineære regresjonsligningen og spredningen av egenskapen gitt av den toveis lineære regresjonsligningen vil bestemme delen av spredningen som forklares av den ekstra uavhengige variabelen x 2 .

Forholdet mellom den spesifiserte forskjellen og spredningen til funksjonen, ikke forklart av regresjon, er verdien privat kriterium. En bestemt F-test kalles også sekvensiell if statistiske egenskaper konstrueres ved å sekvensielt legge til variabler til regresjonsligningen.

Eksempel. Vurder nytten av å inkludere en ekstra variabel "avkastning" i regresjonsligningen (i henhold til dataene og resultatene fra de tidligere vurderte eksemplene).

Spredningen av funksjonen forklart av ligningen multippel regresjon og beregnet som summen av kvadrerte forskjeller av de utjevnede verdiene og deres gjennomsnitt, er lik 1623.8815. Spredningen av attributtet, forklart av den enkle regresjonsligningen, er 1545.1331.

Spredningen av funksjonen, ikke forklart av regresjon, bestemmes av kvadratet av gjennomsnittet kvadratisk feil ligning og er lik 10,9948.

Ved å bruke disse egenskapene beregner vi det private F-kriteriet

Med et pålitelighetsnivå på 0,95 (α = 0,05), tabellverdien F (1,20), dvs. verdien i skjæringspunktet mellom den første kolonnen og den 20. rad i tabellen. 4A søknad, lik 4,35. Den beregnede verdien av F-kriteriet overskrider betydelig den tabellerte, og derfor er inkluderingen av variabelen "utbytte" i ligningen fornuftig.

Dermed er konklusjonene gjort tidligere angående regresjonskoeffisientene ganske legitime.

4 studiespørsmål. Estimering av betydningen av individuelle parametere i regresjonsligningen ved hjelp av Students t-test.

Svært ofte i økonometri er det nødvendig å evaluere betydningen av korrelasjonskoeffisienten r, det vil si å bestemme hvor signifikant forskjellen mellom korrelasjonskoeffisienten fra null er (for eksempel når man analyserer multikollinearitet og estimerer sammenkoblede korrelasjonskoeffisienter mellom faktorer i en multippel regresjonsligning).

Samtidig antas det at i fravær av korrelasjon vil statistikken t,

Det har t-Elevens fordeling med (n-2) frihetsgrader.

Korrelasjonskoeffisienten r xy er signifikant på nivået , (ellers forkastes hypotesen Н 0 om likheten mellom den generelle korrelasjonskoeffisienten og null), hvis

(5.13),

Hvor er en tabellverdi t-Elevens kriterium, fastsatt på signifikansnivå a med antall frihetsgrader (n-2).

Ved lineær regresjon estimeres vanligvis betydningen av ikke bare ligningen som helhet, men også dens individuelle parametere. For dette formålet bestemmes standardfeilen for hver av parameterne. Prosedyren for å vurdere betydningen av denne parameteren skiller seg ikke fra den som er vurdert ovenfor for regresjonskoeffisienten; verdien av t-kriteriet beregnes, verdien sammenlignes med tabellverdien ved (n-2) frihetsgrader. Å teste hypoteser om betydningen av regresjon og korrelasjonskoeffisienter tilsvarer å teste hypotesen om signifikans lineær ligning regresjon.

Konklusjon. Så i dette foredraget har vi vurdert generelle regler testing av statistiske hypoteser og deres praktisk bruk ved vurdering av betydningen av regresjonsligninger og deres individuelle parametere ved bruk av Fisher og Student-kriteriene.

Analyse av varianter

Kursarbeid etter disiplin: " System analyse»

Utøverstudent gr. 99 ISE-2 Zhbanov V.V.

Orenburg State University

Fakultet informasjonsteknologier

Institutt for anvendt informatikk

Orenburg-2003

Introduksjon

Hensikten med arbeidet: å gjøre seg kjent med en slik statistisk metode som variansanalyse.

Dispersjonsanalyse (fra latin Dispersio - dispersjon) - statistisk metode, som lar deg analysere påvirkningen ulike faktorer til variabelen som studeres. Metoden ble utviklet av biologen R. Fisher i 1925 og ble opprinnelig brukt til å evaluere eksperimenter innen planteproduksjon. Senere ble den generelle vitenskapelige betydningen av spredningsanalyse for eksperimenter innen psykologi, pedagogikk, medisin osv. tydelig.

Hensikten med variansanalysen er å teste betydningen av forskjellen mellom middelene ved å sammenligne variansene. Variansen til det målte attributtet dekomponeres i uavhengige termer, som hver karakteriserer påvirkningen av en bestemt faktor eller deres interaksjon. Den påfølgende sammenligningen av slike termer lar oss vurdere betydningen av hver faktor som studeres, så vel som deres kombinasjon /1/.

Hvis nullhypotesen er sann (om likheten av midler i flere grupper av observasjoner valgt fra den generelle befolkningen), bør estimatet av variansen assosiert med intragruppevariabilitet være nær estimatet for intergruppevariasjon.

Når du utfører markedsundersøkelser, dukker ofte spørsmålet om sammenlignbarhet av resultater opp. For eksempel ved å gjennomføre undersøkelser om forbruket av et produkt i ulike regioner land, er det nødvendig å trekke konklusjoner om hvor mye undersøkelsesdataene avviker eller ikke avviker fra hverandre. sammenligne individuelle indikatorer gir ikke mening, og derfor utføres prosedyren for sammenligning og påfølgende evaluering i henhold til noen gjennomsnittsverdier og avvik fra dette gjennomsnittlige estimatet. Variasjonen av egenskapen studeres. Varians kan tas som et mål på variasjon. Dispersjon σ 2 er et mål på variasjon, definert som gjennomsnittet av avvikene til et trekk i annen.

I praksis oppstår det ofte problemer generell- oppgaver med å kontrollere betydningen av forskjeller i gjennomsnitt av utvalgsutvalg fra flere populasjoner. For eksempel er det nødvendig å evaluere effekten av ulike råvarer på kvaliteten på produktene, for å løse problemet med effekten av mengden gjødsel på utbyttet av landbruksprodukter.

Noen ganger brukes variansanalyse for å etablere homogeniteten til flere populasjoner (variansene til disse populasjonene er de samme ved antagelse; hvis variansanalysen viser at de matematiske forventningene er de samme, så er populasjonene homogene i denne forstand). Homogene aggregater kan kombineres til ett og derved få mer informasjon om det. full informasjon, derfor mer pålitelige konklusjoner /2/.

1 Variansanalyse

1.1 Grunnleggende begreper for variansanalyse

I prosessen med å observere objektet som studeres, endres de kvalitative faktorene vilkårlig eller på en forhåndsbestemt måte. Den spesifikke implementeringen av en faktor (for eksempel et bestemt temperaturregime, valgt utstyr eller materiale) kalles faktornivået eller prosesseringsmetoden. En ANOVA-modell med faste nivåer av faktorer kalles modell I, en modell med tilfeldige faktorer kalles modell II. Ved å variere faktoren kan man undersøke dens effekt på størrelsen på responsen. For tiden generell teori variansanalyse utviklet for modeller I.

Avhengig av antall faktorer som bestemmer variasjonen av den resulterende funksjonen, er variansanalyse delt inn i enkeltfaktor og multifaktor.

Hovedordningene for å organisere innledende data med to eller flere faktorer er:

Kryssklassifisering, karakteristisk for modeller I, der hvert nivå av en faktor kombineres med hver gradering av en annen faktor når du planlegger et eksperiment;

Hierarkisk (nestet) klassifisering, karakteristisk for modell II, der hver tilfeldig valgt verdi av en faktor tilsvarer sin egen undergruppe av verdier av den andre faktoren.

Dersom responsens avhengighet av kvalitative og kvantitative faktorer undersøkes samtidig, d.v.s. faktorer av blandet natur, så brukes kovariansanalyse /3/.

Dermed skiller disse modellene seg fra hverandre i måten å velge nivåene på faktoren på, noe som åpenbart først og fremst påvirker muligheten for å generalisere de oppnådde eksperimentelle resultatene. For variansanalyse i enkeltfaktoreksperimenter er ikke forskjellen mellom disse to modellene så signifikant, men i multivariat variansanalyse kan den være svært viktig.

Når du utfører en variansanalyse, må følgende statistiske forutsetninger oppfylles: uavhengig av nivået på faktoren, har responsverdiene en normal (gaussisk) distribusjonslov og samme varians. Denne likheten av dispersjoner kalles homogenitet. En endring av prosesseringsmetoden påvirker altså bare posisjonen til den tilfeldige responsvariabelen, som er preget av middelverdien eller medianen. Derfor tilhører alle responsobservasjoner skiftfamilien av normalfordelinger.

ANOVA-teknikken sies å være "robust". Dette begrepet, brukt av statistikere, betyr at disse forutsetningene til en viss grad kan krenkes, men til tross for dette kan teknikken brukes.

Når loven om distribusjon av responsverdier er ukjent, brukes ikke-parametriske (oftest rangerte) analysemetoder.

Variansanalysen er basert på inndelingen av variansen i deler eller komponenter. Variasjonen på grunn av påvirkningen av faktoren som ligger til grunn for grupperingen er preget av intergruppespredningen σ 2 . Det er et mål på variasjonen av delmidler for grupper rundt det vanlige gjennomsnittet og bestemmes av formelen:

,

hvor k er antall grupper;

n j er antall enheter i den j-te gruppen;

Privat gjennomsnitt for j-te gruppe;

Det samlede gjennomsnittet over populasjonen av enheter.

Variasjonen på grunn av påvirkning av andre faktorer karakteriseres i hver gruppe av intragruppedispersjonen σ j 2 .

.

Mellom total variansσ 0 2 , intragruppevarians σ 2 og intergruppevarians det er en sammenheng:

σ 0 2 = + σ 2 .

Intragruppevariansen forklarer påvirkningen av faktorer som ikke er tatt i betraktning ved gruppering, og intergruppevariansen forklarer påvirkningen av grupperingsfaktorer på gruppegjennomsnittet /2/.

1.2 Enveis variansanalyse

Enfaktorspredningsmodellen har formen:

x ij = μ + F j + ε ij , (1)

hvor x ij er verdien av variabelen som studeres, oppnådd på i-te nivå faktor (i=1,2,...,m) med j-th serienummer(j=1,2,...,n);

Fi er effekten på grunn av påvirkningen av faktorens i-te nivå;

εij – tilfeldig komponent, eller forstyrrelse forårsaket av påvirkning av ukontrollerbare faktorer, dvs. variasjon innenfor et enkelt nivå.

Grunnleggende forutsetninger for variansanalyse:

Den matematiske forventningen til forstyrrelsen ε ij er lik null for enhver i, dvs.

M(e ij) = 0; (2)

Forstyrrelser ε ij er gjensidig uavhengige;

Variansen til variabelen x ij (eller forstyrrelse ε ij) er konstant for

noen i, j, dvs.

D(ε ij) = σ2; (3)

Variabelen x ij (eller forstyrrelse ε ij) har normal lov

fordelinger N(0;σ 2).

Påvirkningen av faktornivåer kan enten være fast eller systematisk (modell I) eller tilfeldig (modell II).

La, for eksempel, det er nødvendig å finne ut om det er betydelige forskjeller mellom partier av produkter når det gjelder en eller annen kvalitetsindikator, dvs. sjekk innvirkningen på kvaliteten til én faktor - et parti med produkter. Hvis alle partier av råvarer er inkludert i studien, er påvirkningen av nivået til en slik faktor systematisk (modell I), og funnene gjelder bare for de individuelle partiene som var involvert i studien. Hvis vi bare inkluderer en tilfeldig valgt del av partene, så er påvirkningen av faktoren tilfeldig (modell II). I multifaktorielle komplekser er en blandet modell III mulig, der noen faktorer har tilfeldige nivåer, mens andre er faste.

La det være m partier med produkter. Fra hver batch ble henholdsvis n 1, n 2, ..., n m produkter valgt (for enkelhets skyld antas det at n 1 =n 2 =...=n m =n). Verdiene til kvalitetsindikatoren til disse produktene er presentert i observasjonsmatrisen:

x 11 x 12 … x 1n

x 21 x 22 … x 2n

………………… = (x ij), (i = 1,2, …, m; j = 1,2, …, n).

x m 1 x m 2 … x min

Det er nødvendig å sjekke betydningen av påvirkningen av partier av produkter på kvaliteten.

Hvis vi antar at radelementene i observasjonsmatrisen er numeriske verdier tilfeldige variablerХ 1 ,Х 2 ,...,Х m , som uttrykker kvaliteten på produktene og har en normalfordelingslov med matematiske forventninger henholdsvis a 1 ,а 2 ,...,а m og identiske varianser σ 2 , da gitt oppgave reduseres til å kontrollere nullhypotesen H 0: a 1 =a 2 =...= a m, utført i variansanalysen.

Gjennomsnittet over en indeks er indikert med en stjerne (eller en prikk) i stedet for en indeks. gjennomsnitt kvalitet produkter i-th batch, eller gruppegjennomsnittet for faktorens i-te nivå, vil ha formen:

hvor i * er gjennomsnittsverdien over kolonnene;

Ij er et element i observasjonsmatrisen;

n er prøvestørrelsen.

Og det totale gjennomsnittet:

. (5)

Summen av kvadrerte avvik av observasjoner x ij fra det totale gjennomsnittet ** ser slik ut:

2 = 2 + 2 +

2 2 . (6)

Q \u003d Q 1 + Q 2 + Q 3.

Siste ledd er null

siden summen av avvikene til verdiene til variabelen fra gjennomsnittet er lik null, dvs.

2 =0.

Det første leddet kan skrives som:

Resultatet er en identitet:

Q = Q 1 + Q 2 , (8)

hvor - total, eller total sum av kvadrerte avvik;

- summen av de kvadrerte avvikene til gruppemidlene fra det totale gjennomsnittet, eller den intergruppe (faktorielle) summen av de kvadrerte avvikene;

- summen av kvadrerte avvik av observasjoner fra gruppemidler, eller intragruppe (residual) sum av kvadrerte avvik.

Utvidelsen (8) inneholder hovedideen til variansanalysen. I forhold til problemet under vurdering, viser likhet (8) at den totale variasjonen av kvalitetsindikatoren, målt ved summen Q, består av to komponenter - Q 1 og Q 2, som karakteriserer variasjonen til denne indikatoren mellom batcher (Q 1 ) og variasjon innen batcher (Q 2), som karakteriserer den samme variasjonen for alle batcher under påvirkning av faktorer som ikke er redegjort for.

I variansanalysen er det ikke summene av kvadrater av avvik som analyseres, men de såkalte middelkvadratene, som er upartiske estimater av de tilsvarende variansene, som oppnås ved å dividere summene av kvadrater av avvik med tilsvarende antall frihetsgrader.

Antall frihetsgrader er definert som det totale antallet observasjoner minus antall ligninger som relaterer dem. Derfor, for middelkvadraten s 1 2 , som er et objektivt estimat av intergruppevariansen, blir antallet frihetsgrader k 1 =m-1, siden m gruppemidler koblet sammen med en ligning (5) brukt i beregningen. Og for middelkvadraten s22, som er et objektivt estimat av intragruppevariansen, er antall frihetsgrader k2=mn-m, fordi den beregnes ved å bruke alle mn-observasjoner koblet sammen med m-ligninger (4).

På denne måten:

Hvis vi finner de matematiske forventningene til de gjennomsnittlige kvadratene og erstatter uttrykket xij (1) i deres formler gjennom modellparametrene, får vi:

(9)

fordi tar hensyn til egenskapene til matematisk forventning

en

(10)

For modell I med faste nivåer av faktoren Fi (i=1,2,...,m) er derfor ikke-tilfeldige verdier

M(S) = 2/(m-1) +σ2.

Hypotesen H 0 har formen F i = F * (i = 1,2,...,m), dvs. påvirkningen av alle nivåer av faktoren er den samme. Hvis denne hypotesen er sann

M(S)= M(S)= σ2.

Til tilfeldig modell II ledd F i i uttrykk (1) er en tilfeldig verdi. Angir det med variasjon

vi får fra (9)

(11)

og som i modell I

Tabell 1.1 presenterer generell form beregning av verdier ved bruk av variansanalyse.

Tabell 1.1 - Grunnleggende tabell over variansanalyse

Varianskomponenter

Summen av kvadrater

Antall frihetsgrader

Middels firkantet

Mean square forventning

Intergruppe

Intragruppe

Hypotesen H 0 vil ha formen σ F 2 =0. Hvis denne hypotesen er sann

M(S)= M(S)= σ2.

Når det gjelder et enfaktorkompleks for både modell I og modell II, er middelkvadratene S 2 og S 2 objektive og uavhengige estimater av samme varians σ 2 .

Derfor ble testing av nullhypotesen H 0 redusert til å teste betydningen av forskjellen mellom de objektive prøveanslag S- og S-dispersjoner σ 2 .

Hypotesen H 0 forkastes dersom den faktisk beregnede verdien av statistikken F = S/S er større enn den kritiske verdien F α: K 1: K 2 , bestemt på signifikansnivået α med antall frihetsgrader k 1 = m-1 og k 2 =mn-m, og aksepteres hvis F< F α: K 1: K 2 .

Fisher F-fordelingen (for x > 0) har neste funksjon tetthet (for = 1, 2, ...; = 1, 2, ...):

hvor - grader av frihet;

G - gammafunksjon.

I forhold til dette problemet betyr tilbakevisningen av hypotesen H 0 tilstedeværelsen av betydelige forskjeller i kvaliteten på produktene fra forskjellige partier på nivået av betydning som vurderes.

For å beregne summene av kvadratene Q 1 , Q 2 , Q er det ofte praktisk å bruke følgende formler:

(12)

(13)

(14)

de. det er generelt ikke nødvendig å finne gjennomsnittene selv.

Prosedyren for enveis variansanalyse består således i å teste hypotesen H 0 om at det er én gruppe homogene eksperimentelle data mot alternativet at det er mer enn én slik gruppe. Homogenitet refererer til likheten mellom midler og varianser i en hvilken som helst delmengde av dataene. I dette tilfellet kan variansene være både kjente og ukjente på forhånd. Hvis det er grunn til å tro at den kjente eller ukjente variansen av målinger er den samme gjennom hele datasettet, reduseres oppgaven med enveis variansanalyse til å studere betydningen av forskjellen i gjennomsnittene i datagruppene / 1/.

1.3 Multivariat spredning analyse

Det bør umiddelbart bemerkes at det ikke er noen grunnleggende forskjell mellom multivariat og enkeltfaktor variansanalyse. Multivariat analyse endres ikke felles logikk variansanalyse, men kompliserer den bare noe, siden man i tillegg til å ta hensyn til innflytelsen på den avhengige variabelen til hver av faktorene separat, også bør evaluere deres felles aksjon. Det nye som multivariat variansanalyse bringer med seg for dataanalyse, gjelder derfor hovedsakelig evnen til å vurdere interfaktoriell interaksjon. Imidlertid er det fortsatt mulig å vurdere påvirkningen av hver faktor separat. I denne forstand er prosedyren for multivariat variansanalyse (i varianten av datamaskinbruken) utvilsomt mer økonomisk, siden den i bare en kjøring løser to problemer samtidig: påvirkningen av hver av faktorene og deres interaksjon estimeres / 3/.

Generell ordning tofaktoreksperiment, hvis data behandles ved variansanalyse, har formen:



Figur 1.1 - Skjema for et tofaktoreksperiment

Data utsatt for multivariat variansanalyse merkes ofte i henhold til antall faktorer og deres nivåer.

Forutsatt at i det vurderte problemet med kvaliteten til forskjellige m-partier, ble produktene produsert på forskjellige t-maskiner, og det er nødvendig å finne ut om det er betydelige forskjeller i kvaliteten på produktene for hver faktor:

A - et parti med produkter;

B - maskin.

Resultatet er en overgang til problemet med tofaktoranalyse av varians.

Alle data er presentert i tabell 1.2, der radene - nivåene A i faktor A, kolonnene - nivåene B j av faktor B, og i de tilsvarende cellene i tabellen er verdiene til produktkvalitetsindikatoren x ijk (i = 1,2, ...,m; j=1,2,...,l; k=1,2,...,n).

Tabell 1.2 - Produktkvalitetsindikatorer

x 11l ,…,x 11k

x 12l,...,x 12k

x 1jl ,…,x 1jk

x 1ll ,…,x 1lk

x 2 1l ,…,x 2 1k

x 22l,...,x 22k

x 2jl ,…,x 2jk

x 2ll ,…,x 2lk

x i1l ,…,x i1k

x i2l ,…,x i2k

xijl ,…,xijk

xjll ,…,xjlk

x m1l,...,x m1k

x m2l ,...,x m2k

xmjl ,…,xmjk

x ml ,..., x mlk

Tofaktordispersjonsmodellen har formen:

x ijk =μ+F i +G j +I ij +ε ijk , (15)

hvor x ijk er verdien av observasjonen i celle ij med nummer k;

μ - generelt gjennomsnitt;

F i - effekt på grunn av påvirkningen av det i-te nivået av faktor A;

G j - effekt på grunn av påvirkningen av det j-te nivået av faktor B;

I ij - effekt på grunn av samspillet mellom to faktorer, dvs. avvik fra gjennomsnittet for observasjoner i celle ij fra summen av de tre første leddene i modell (15);

ε ijk - forstyrrelse på grunn av variasjonen av variabelen i en enkelt celle.

Det antas at ε ijk har en normalfordeling N(0; с 2), og alle matematiske forventninger F * , G * , I i * , I * j er lik null.

Gruppegjennomsnitt er funnet ved formlene:

I celle:

etter linje:

etter kolonne:

totalt gjennomsnitt:

Tabell 1.3 viser et generelt syn på beregning av verdier ved bruk av variansanalyse.

Tabell 1.3 - Grunnleggende tabell over variansanalyse

Varianskomponenter

Summen av kvadrater

Antall frihetsgrader

Mellomruter

Intergruppe (faktor A)

Intergruppe (faktor B)

Interaksjon

Rest

Kontroll av nullhypotesene HA, HB, HAB om fravær av påvirkning på den betraktede variabelen av faktorene A, B og deres interaksjon AB utføres ved å sammenligne forholdene , , (for modell I med faste nivåer av faktorer) eller relasjoner , , (for en tilfeldig modell II) med tilsvarende tabellverdier F - Fisher-Snedecor-kriterium. For blandingsmodellen III utføres testing av hypoteser om faktorer med faste nivåer på samme måte som i modell II, og for faktorer med tilfeldige nivåer, som i modell I.

Hvis n=1, dvs. med én observasjon i cellen, så kan ikke alle nullhypoteser testes, siden Q3-komponenten faller ut av den totale summen av kvadrerte avvik, og med den middelkvadraten, siden det i dette tilfellet ikke kan være snakk om interaksjonen mellom faktorer.

Fra beregningsteknikkens synspunkt, for å finne summene av kvadratene Q 1, Q 2, Q 3, Q 4, Q, er det mer hensiktsmessig å bruke formlene:

Q 3 \u003d Q - Q 1 - Q 2 - Q 4.

Avvik fra de grunnleggende forutsetningene for variansanalysen - normaliteten til fordelingen av variabelen som studeres og variansens likhet i cellene (hvis den ikke er overdreven) - påvirker ikke resultatene av variansanalysen signifikant med en like mange observasjoner i cellene, men kan være svært følsomme hvis antallet er ulikt. I tillegg, med et ulikt antall observasjoner i cellene, øker kompleksiteten til apparatet for variansanalyse kraftig. Derfor anbefales det å planlegge et opplegg med like mange observasjoner i cellene, og hvis det mangler data, så kompenser for dem med gjennomsnittsverdiene for andre observasjoner i cellene. I dette tilfellet bør imidlertid kunstig introduserte manglende data ikke tas i betraktning ved beregning av antall frihetsgrader /1/.

2 Anvendelse av ANOVA i ulike prosesser og forskning

2.1 Bruke variansanalyse i studiet av migrasjonsprosesser

Migrasjon er kompleks sosialt fenomen som i stor grad bestemmer de økonomiske og politiske aspektene ved samfunnet. Studiet av migrasjonsprosesser er assosiert med identifisering av faktorer av interesse, tilfredshet med arbeidsforhold og en vurdering av innflytelsen av de oppnådde faktorene på intergruppebevegelsen av befolkningen.

λ ij = c i q ij a j ,

hvor λ ij er intensiteten av overganger fra den opprinnelige gruppen i (utgang) til den nye gruppen j (inngang);

c i – mulighet og evne til å forlate gruppe i (c i ≥0);

q ij – attraktivitet ny gruppe sammenlignet med originalen (0≤q ij ≤1);

a j – tilgjengelighet av gruppe j (a j ≥0).

ν ij ≈ n i λ ij =n i c i q ij a j . (16)

I praksis for individuell person sannsynligheten p for å flytte til en annen gruppe er liten, og tallet n i gruppen som vurderes er stort. I dette tilfellet loven sjeldne hendelser, det vil si at grensen ν ij er Poisson-fordelingen med parameteren μ=np:

.

Når μ øker, nærmer fordelingen seg normal. Den transformerte verdien √ν ij kan betraktes som normalfordelt.

Hvis vi tar logaritmen til uttrykk (16) og gjør de nødvendige endringene av variabler, kan vi få en variansanalysemodell:

ln√ν ij =½lnν ij =½(lnn i +lnc i +lnq ij +lna j)+ε ij ,

X i,j =2ln√ν ij -lnn i -lnq ij ,

Xi,j =Ci +Aj +ε.

Verdiene til C i og A j gjør det mulig å oppnå en toveis ANOVA-modell med én observasjon per celle. omvendt transformasjon koeffisientene c i og a j beregnes fra C i og A j .

Når du utfører en variansanalyse, bør følgende verdier tas som verdiene for den effektive funksjonen Y:

X \u003d (X 1,1 + X 1,2 +: + X mi, mj) / mimj,

hvor mimj er estimatet av den matematiske forventningen X i,j ;

X mi og X mj - henholdsvis antall utgangs- og inngangsgrupper.

Faktor I-nivåer vil være mi utgangsgrupper, faktor J-nivåer vil være mj inngangsgrupper. Mi=mj=m er antatt. Problemet er å teste hypotesene H I og H J om likhetene matematiske forventninger Y-verdier på nivåene I i og på nivåene Jj, i,j=1,...,m. Hypotesetesting H I er basert på å sammenligne verdiene til objektive estimater av variansen s I 2 og s o 2 . Hvis hypotesen H I er riktig, så har verdien F (I) = s I 2 /s o 2 en Fisher-fordeling med antall frihetsgrader k 1 =m-1 og k 2 =(m-1)(m- 1). For et gitt signifikansnivå α, høyre hånd kritisk punkt x pr,α cr. Hvis en numerisk verdi F (I) antall verdier faller inn i intervallet (x pr, α kr, +∞), deretter forkastes hypotesen H I og det antas at faktoren I påvirker den effektive funksjonen. Graden av denne påvirkningen i henhold til resultatene av observasjoner måles prøvetakingshastighet bestemmelse, som viser hvor stor andel av variansen til den effektive egenskapen i utvalget som skyldes påvirkningen av faktor I. Hvis F (I) er et tall

2.2 Prinsipper for matematisk og statistisk analyse av biomedisinske forskningsdata

Avhengig av oppgaven, volumet og arten av materialet, typen data og deres relasjoner, er det et valg av metoder for matematisk prosessering på stadiene av både foreløpig (for å vurdere arten av fordelingen i studieutvalget) og sluttanalyse i samsvar med målene for studien. Et ekstremt viktig aspekt er verifiseringen av homogeniteten til de utvalgte observasjonsgruppene, inkludert kontrollgrupper, som kan utføres enten av en ekspert eller ved multivariate statistikkmetoder (for eksempel ved bruk av klyngeanalyse). Men det første trinnet er å sette sammen et spørreskjema som gir en standardisert beskrivelse av egenskapene. Spesielt når man utfører epidemiologiske studier, der det er behov for enhet for å forstå og beskrive de samme symptomene av forskjellige leger, inkludert å ta hensyn til rekkevidden av endringene deres (alvorlighetsgrad). Hvis det er betydelige forskjeller i registreringen av de første dataene (subjektiv vurdering av arten av patologiske manifestasjoner av forskjellige spesialister) og det er umulig å bringe dem til en enkelt form på tidspunktet for innsamling av informasjon, er den såkalte kovariante korreksjonen kan utføres, som innebærer normalisering av variabler, dvs. eliminering av abnormiteter av indikatorer i datamatrisen. "Koordinering av meninger" utføres under hensyntagen til legers spesialitet og erfaring, som deretter gjør det mulig å sammenligne resultatene av undersøkelsen oppnådd av dem med hverandre. Til dette kan multivariat variansanalyse og regresjonsanalyser brukes.

Tegn kan enten være av samme type, som er sjelden, eller av forskjellige typer. Dette begrepet refererer til deres forskjellige metrologiske evaluering. Kvantitative eller numeriske tegn er de som måles på en bestemt skala og på skalaer av intervaller og forhold (I-gruppe av tegn). Kvalitativ, rangering eller skåring brukes til å uttrykke medisinske termer og konsepter som ikke har numeriske verdier (for eksempel alvorlighetsgraden av tilstanden) og måles på en rekkefølgeskala (gruppe II av tegn). Klassifisering eller nominell (for eksempel yrke, blodtype) - disse måles i skalaen av navn (gruppe III av tegn).

I mange tilfeller forsøkes det å analysere et ekstremt stort antall funksjoner, noe som skal bidra til å øke informasjonsinnholdet i den presenterte prøven. Imidlertid er valget av nyttig informasjon, det vil si valg av funksjoner, en helt nødvendig operasjon, siden for å løse et klassifiseringsproblem, må det velges informasjon som inneholder informasjon som er nyttig for denne oppgaven. I tilfelle at dette av en eller annen grunn ikke utføres av forskeren på egen hånd eller det ikke finnes tilstrekkelig underbyggede kriterier for å redusere dimensjonen av funksjonsrommet av meningsfulle grunner, utføres kampen mot informasjonsredundans allerede ved formelle metoder av vurdere informasjonsinnholdet.

Analyse av varians lar deg bestemme påvirkningen av ulike faktorer (forhold) på egenskapen (fenomenet) som studeres, som oppnås ved å dekomponere den totale variabiliteten (spredning uttrykt som summen av kvadrerte avvik fra det generelle gjennomsnittet) i individuelle komponenter forårsaket ved påvirkning av ulike kilder til variasjon.

Ved hjelp av variansanalyse undersøkes truslene om sykdommen i nærvær av risikofaktorer. Konseptet relativ risiko tar for seg forholdet mellom pasienter med en bestemt sykdom og de uten den. Den relative risikoverdien gjør det mulig å bestemme hvor mange ganger sannsynligheten for å bli syk øker i dens tilstedeværelse, noe som kan estimeres ved å bruke følgende forenklede formel:

hvor a er tilstedeværelsen av en egenskap i studiegruppen;

b - fraværet av en egenskap i studiegruppen;

c - tilstedeværelsen av et tegn i sammenligningsgruppen (kontroll);

d - fravær av et tegn i sammenligningsgruppen (kontroll).

Attributtrisikoskåren (rA) brukes til å vurdere andelen sykelighet assosiert med en gitt risikofaktor:

,

der Q er frekvensen av risikomarkeringsegenskapen i populasjonen;

r" - relativ risiko.

Identifikasjon av faktorer som bidrar til forekomsten (manifestasjonen) av sykdommen, dvs. risikofaktorer kan utføres på ulike måter, for eksempel ved å vurdere informativiteten med påfølgende rangering av tegn, som imidlertid ikke indikerer den kumulative effekten av de valgte parameterne, i motsetning til bruk av regresjon, faktoranalyser, metoder mønstergjenkjenningsteori, som gjør det mulig å oppnå "symptomatiske komplekser" av risikofaktorer. I tillegg gjør mer sofistikerte metoder det mulig å analysere indirekte sammenhenger mellom risikofaktorer og sykdommer /5/.

2.3 Jordbioassay

Forskjellige forurensninger som kommer inn i agrocenose, kan gjennomgå forskjellige transformasjoner i den, samtidig som de øker deres toksiske effekt. Av denne grunn viste det seg å være nødvendig med metoder for integrert vurdering av kvaliteten på agrocenosekomponenter. Studiene ble utført på grunnlag av en multivariat variansanalyse i en 11-felts korn-gress-rodd vekstskifte. I forsøket ble påvirkningen av følgende faktorer studert: jordfruktbarhet (A), gjødselsystem (B), plantevernsystem (C). Jordfruktbarhet, gjødselsystem og plantevernsystem ble studert ved doser på 0, 1, 2 og 3. De grunnleggende alternativene var representert ved følgende kombinasjoner:

000 - det opprinnelige fruktbarhetsnivået, uten bruk av gjødsel og plantevernmidler fra skadedyr, sykdommer og ugress;

111 - det gjennomsnittlige nivået av jordfruktbarhet, minimumsdosen av gjødsel, biologisk beskyttelse av planter mot skadedyr og sykdommer;

222 - det innledende nivået av jordfruktbarhet, den gjennomsnittlige dosen av gjødsel, kjemisk beskyttelse av planter mot ugress;

333 - et høyt nivå av jordfruktbarhet, en høy dose gjødsel, kjemisk beskyttelse av planter mot skadedyr og sykdommer.

Vi studerte alternativer der bare én faktor er til stede:

200 - fruktbarhet:

020 - gjødsel;

002 - plantevernmidler.

I tillegg til alternativer med en annen kombinasjon av faktorer - 111, 131, 133, 022, 220, 202, 331, 313, 311.

Målet med studien var å studere inhiberingen av kloroplaster og koeffisienten for øyeblikkelig vekst, som indikatorer på jordforurensning, i ulike varianter av et multifaktorielt eksperiment.

Inhiberingen av fototaksis av andematkloroplaster ble studert i forskjellige jordhorisonter: 0–20, 20–40 cm. Andelen i den totale spredningen av jordfruktbarhet var 39,7%, gjødselsystemer - 30,7%, plantevernsystemer - 30,7%.

For å studere den kombinerte effekten av faktorer på inhibering av kloroplastfototaksis, ble forskjellige kombinasjoner av eksperimentelle varianter brukt: i det første tilfellet - 000, 002, 022, 222, 220, 200, 202, 020, i det andre tilfellet - 111, 333, 331, 313, 133, 311, 131.

Resultatene av en toveis variansanalyse indikerer en signifikant effekt av de samvirkende gjødsel- og plantevernsystemene på forskjeller i fototaksis for det første tilfellet (andelen av den totale variansen var 10,3 %). For det andre tilfellet ble det funnet en betydelig påvirkning av det interagerende jordfruktbarhets- og gjødselsystemet (53,2 %).

Treveis variansanalyse viste i det første tilfellet en signifikant påvirkning av samspillet mellom alle tre faktorene. Andelen i den totale dispersjonen var 47,9 %.

Den øyeblikkelige vekstkoeffisienten ble studert i forskjellige varianter av forsøket 000, 111, 222, 333, 002, 200, 220. Den første fasen av testingen var før påføring av ugressmidler på høsthveteavlinger (april), den andre fasen - etter påføring av ugressmidler (mai) og den siste - på høstetid (juli). Forløpere - solsikke og mais for korn.

Utseendet av nye blader ble observert etter en kort etterslepfase med en periode med total dobling av ferskvekten på 2-4 dager.

I kontrollen og i hver variant, på grunnlag av de oppnådde resultatene, ble koeffisienten for øyeblikkelig populasjonsvekst r beregnet, og deretter ble tidspunktet for dobling av antall blader (t-dobling) beregnet.

t dobler \u003d ln2 / r.

Beregningen av disse indikatorene ble utført i dynamikk med analyse av jordprøver. Analyse av dataene viste at doblingstiden for andematbestanden før jordarbeiding var kortest sammenlignet med dataene etter jordarbeiding og ved høsting. I dynamikken til observasjoner er responsen til jorda etter påføring av ugressmiddelet og på høstingstidspunktet av større interesse. Først av alt, samspillet med gjødsel og fruktbarhetsnivået.

Noen ganger kan det å få en direkte respons på påføring av kjemiske preparater være komplisert av samspillet mellom preparatet og gjødsel, både organisk og mineral. Dataene som ble oppnådd gjorde det mulig å spore dynamikken i responsen til de påførte preparatene, i alle varianter med kjemiske beskyttelsesmidler, der veksten av indikatoren ble stoppet.

Dataene fra enveis variansanalyse viste en signifikant effekt av hver indikator på veksthastigheten til andemat i det første stadiet. På andre trinn var effekten av forskjeller i jordfruktbarhet 65,0%, i gjødselsystemet og plantevernsystemet - 65,0% hver. Faktorene viste signifikante forskjeller mellom gjennomsnittet når det gjelder øyeblikkelig vekstkoeffisient for opsjon 222 og opsjoner 000, 111, 333. På tredje trinn var andelen av den totale spredningen av jordfruktbarhet 42,9 %, gjødselsystemer og plantevernsystemer - 42,9 % hver. En betydelig forskjell ble notert i gjennomsnittsverdiene for opsjoner 000 og 111, opsjoner 333 og 222.

De undersøkte jordprøvene fra feltovervåkingsalternativene skiller seg fra hverandre når det gjelder fototaksishemming. Påvirkning av fruktbarhetsfaktorer ble notert, gjødselsystemet og plantevernmidler med andeler på 30,7 og 39,7 % i en enkeltfaktoranalyse, i to- og trefaktoranalyse ble det registrert felles påvirkning av faktorer.

En analyse av forsøksresultatene viste ubetydelige forskjeller mellom jordhorisontene når det gjelder fototaksis-hemmingsindikatoren. Forskjeller er markert med gjennomsnittsverdier.

I alle varianter hvor det finnes plantevernmidler observeres endringer i posisjonen til kloroplaster og vekststans av andemat mindre /6/.

2.4 Influensa forårsaker økt produksjon av histamin

Forskere ved barnesykehuset i Pittsburgh (USA) har mottatt de første bevisene på at histaminnivåene øker ved akutte luftveisvirusinfeksjoner. Til tross for at histamin tidligere har blitt foreslått å spille en rolle i utbruddet av symptomer på akutte luftveisinfeksjoner i de øvre luftveiene.

Forskere var interessert i hvorfor mange bruker antihistaminer, som i mange land er inkludert i OTC-kategorien, for selvbehandling av "forkjølelse" og forkjølelse. tilgjengelig uten resept fra lege.

Målet med denne studien var å finne ut om histaminproduksjonen økes under eksperimentell influensa A-virusinfeksjon.

15 friske frivillige ble injisert intranasalt med influensa A-virus og deretter observert for utvikling av infeksjonen. Daglig i løpet av sykdommen ble morgendelen av urin samlet fra frivillige, og deretter ble histamin og dets metabolitter bestemt, og den totale mengden histamin og dets metabolitter som ble utskilt per dag ble beregnet.

Sykdommen utviklet seg hos alle 15 frivillige. Variansanalyse bekreftet et betydelig høyere nivå av histamin i urinen på dag 2-5 med virusinfeksjon (p.<0,02) - период, когда симптомы «простуды» наиболее выражены. Парный анализ показал, что наиболее значительно уровень гистамина повышается на 2 день заболевания. Кроме этого, оказалось, что суточное количество гистамина и его метаболитов в моче при гриппе примерно такое же, как и при обострении аллергического заболевания.

Resultatene av denne studien gir det første direkte beviset på at histaminnivået er forhøyet ved akutte luftveisinfeksjoner /7/.

Analyse av varians i kjemi

Dispersjonsanalyse er et sett med metoder for å bestemme dispersjon, dvs. egenskapene til partikkelstørrelser i disperse systemer. Dispersjonsanalyse inkluderer ulike metoder for å bestemme størrelsen på frie partikler i flytende og gassformige medier, størrelsen på porekanaler i finporøse legemer (i dette tilfellet brukes det tilsvarende begrepet porøsitet i stedet for begrepet dispersjon), samt det spesifikke overflatearealet. Noen av metodene for dispersjonsanalyse gjør det mulig å få et fullstendig bilde av fordelingen av partikler etter størrelse (volum), mens andre kun gir en gjennomsnittlig dispersjonskarakteristikk (porøsitet).

Den første gruppen inkluderer for eksempel metoder for å bestemme størrelsen på individuelle partikler ved direkte måling (silanalyse, optisk og elektronmikroskopi) eller ved indirekte data: sedimentasjonshastigheten til partikler i et viskøst medium (sedimentasjonsanalyse i et gravitasjonsfelt og i sentrifuger), størrelsen på elektriske strømpulser, som oppstår fra passasje av partikler gjennom et hull i en ikke-ledende partisjon (konduktometrisk metode).

Den andre gruppen av metoder kombinerer estimering av gjennomsnittsstørrelser av frie partikler og bestemmelse av det spesifikke overflatearealet til pulver og porøse kropper. Den gjennomsnittlige partikkelstørrelsen er funnet av intensiteten av spredt lys (nefelometri), ved bruk av et ultramikroskop, diffusjonsmetoder, etc., det spesifikke overflatearealet bestemmes av adsorpsjonen av gasser (damper) eller oppløste stoffer, av gasspermeabilitet, oppløsningshastighet og andre metoder. Nedenfor er grensene for anvendelighet av ulike metoder for variansanalyse (partikkelstørrelser i meter):

Silanalyse - 10 -2 -10 -4

Sedimentasjonsanalyse i et gravitasjonsfelt - 10 -4 -10 -6

Konduktometrisk metode - 10 -4 -10 -6

Mikroskopi - 10 -4 -10 -7

Filtreringsmetode - 10 -5 -10 -7

Sentrifugering - 10 -6 -10 -8

Ultrasentrifugering - 10 -7 -10 -9

Ultramikroskopi - 10 -7 -10 -9

Nefelometri - 10 -7 -10 -9

Elektronmikroskopi - 10 -7 -10 -9

Diffusjonsmetode - 10 -7 -10 -10

Dispersjonsanalyse er mye brukt i ulike felt av vitenskap og industriell produksjon for å vurdere spredningen av systemer (suspensjoner, emulsjoner, soler, pulvere, adsorbenter, etc.) med partikkelstørrelser fra flere millimeter (10 -3 m) til flere nanometer (10) -9 m) /8/.

2.6 Bruk av direkte tilsiktet forslag i våken tilstand i metoden for utdanning av fysiske kvaliteter

Fysisk trening er den grunnleggende siden av idrettstrening, siden den i større grad enn andre aspekter ved trening er preget av fysiske belastninger som påvirker kroppens morfologiske og funksjonelle egenskaper. Suksessen til teknisk trening, innholdet i en idrettsutøvers taktikk, realiseringen av personlige egenskaper under trening og konkurranse avhenger av nivået av fysisk form.

En av hovedoppgavene til fysisk trening er opplæring av fysiske kvaliteter. I denne forbindelse er det behov for å utvikle pedagogiske verktøy og metoder som gjør det mulig å ta hensyn til alderskarakteristikkene til unge idrettsutøvere som bevarer helsen deres, ikke krever ekstra tid og samtidig stimulerer veksten av fysiske egenskaper og som en resultat, sportsånd. Bruken av verbal heteropåvirkning i opplæringsprosessen i primærtreningsgrupper er et av de lovende forskningsområdene på dette spørsmålet.

En analyse av teorien og praksisen for implementeringen av inspirerende verbal hetero-innflytelse avslørte hovedmotsetningene:

Bevis på effektiv bruk av spesifikke metoder for verbal heteropåvirkning i treningsprosessen og den praktiske umuligheten av å bruke dem av en trener;

Anerkjennelse av direkte tilsiktet forslag (heretter referert til som DSP) i våken tilstand som en av hovedmetodene for verbal hetero-påvirkning i den pedagogiske aktiviteten til en trener og mangelen på en teoretisk begrunnelse for metodologiske trekk ved bruken i idrett trening, og spesielt i prosessen med å utdanne fysiske egenskaper.

I forbindelse med de identifiserte motsetningene og utilstrekkelig utvikling, var problemet med å bruke systemet med metoder for verbal heteropåvirkning i prosessen med å utdanne de fysiske egenskapene til idrettsutøvere forhåndsbestemt formålet med studien - å utvikle rasjonelle målrettede metoder for PPV i våken tilstand, bidra til å forbedre prosessen med å utdanne fysiske kvaliteter basert på vurdering av den mentale tilstanden, manifestasjonen og dynamikken til fysiske kvaliteter judoister av elementære treningsgrupper.

For å teste og bestemme effektiviteten til de eksperimentelle metodene til PPV i utviklingen av de fysiske egenskapene til judobrytere, ble det utført et sammenlignende pedagogisk eksperiment, der fire grupper deltok - tre eksperimentelle og en kontroll. I den første eksperimentelle gruppen (EG) ble PPV M1-teknikken brukt, i den andre - PPV M2-teknikken, i den tredje - PPV M3-teknikken. I kontrollgruppen (CG) ble ikke PPV-metoder brukt.

For å bestemme effektiviteten av den pedagogiske effekten av PPV-metodene i prosessen med å utdanne fysiske kvaliteter blant judokaer, ble det utført en en-faktor variansanalyse.

Graden av påvirkning av PPV M1-metodikken i utdanningsprosessen:

Utholdenhet:

a) etter den tredje måneden var 11,1 %;

Hastighetsevner:

a) etter den første måneden - 16,4%;

b) etter den andre - 26,5%;

c) etter den tredje - 34,8%;

a) etter den andre måneden - 26,7%;

b) etter den tredje - 35,3%;

Fleksibilitet:

a) etter den tredje måneden - 20,8%;

a) etter den andre måneden av det pedagogiske hovedeksperimentet var graden av påvirkning av metodikken 6,4 %;

b) etter den tredje - 10,2%.

Følgelig ble det funnet betydelige endringer i indikatorene for utviklingsnivået av fysiske egenskaper ved bruk av PPV M1-metoden i hastighetsevner og styrke, graden av innflytelse av metoden i dette tilfellet er størst. Den minste grad av innflytelse av metodikken ble funnet i prosessen med å utdanne utholdenhet, fleksibilitet og koordinasjonsevner, noe som gir grunnlag for å snakke om den utilstrekkelige effektiviteten av å bruke PPV M1-metoden for å utdanne disse egenskapene.

Graden av påvirkning av PPV M2-metodikken i utdanningsprosessen:

Utholdenhet

a) etter den første måneden av eksperimentet - 12,6%;

b) etter den andre - 17,8%;

c) etter den tredje - 20,3%.

Hastighetsevner:

a) etter den tredje måneden med treningsøkter - 28%.

a) etter den andre måneden - 27,9%;

b) etter den tredje - 35,9%.

Fleksibilitet:

a) etter den tredje måneden med treningsøkter - 14,9 %;

Koordinasjonsevner - 13,1%.

Det oppnådde resultatet av enkeltfaktoranalysen av variansen til denne EG lar oss konkludere med at PPV M2-metoden er den mest effektive i utviklingen av utholdenhet og styrke. Det er mindre effektivt i prosessen med å utvikle fleksibilitet, hurtighet og koordinasjonsevner.

Graden av påvirkning av PPV M3-metodikken i utdanningsprosessen:

Utholdenhet:

a) etter den første måneden av eksperimentet 16,8 %;

b) etter den andre - 29,5%;

c) etter den tredje - 37,6%.

Hastighetsevner:

a) etter den første måneden - 26,3%;

b) etter den andre - 31,3%;

c) etter den tredje - 40,9%.

a) etter den første måneden - 18,7%;

b) etter den andre - 26,7%;

c) etter den tredje - 32,3%.

Fleksibilitet:

a) etter den første - det er ingen endringer;

b) etter den andre - 16,9%;

c) etter den tredje - 23,5%.

Koordinasjonsevner:

a) det er ingen endringer etter den første måneden;

b) etter den andre - 23,8%;

c) etter den tredje - 91%.

Således viste en-faktor variansanalyse at bruken av PPV M3-metoden i forberedelsesperioden er mest effektiv i prosessen med å utdanne fysiske egenskaper, siden det er en økning i graden av dens innflytelse etter hver måned av det pedagogiske eksperimentet /9/.

2.7 Lindring av akutte psykotiske symptomer hos pasienter med schizofreni med et atypisk antipsykotikum

Formålet med studien var å studere muligheten for å bruke rispolept for lindring av akutt psykose hos pasienter diagnostisert med schizofreni (paranoid type i henhold til ICD-10) og schizoaffektiv lidelse. Samtidig ble indikatoren for varigheten av vedvarende psykotiske symptomer under farmakoterapi med rispolept (hovedgruppe) og klassiske antipsykotika brukt som hovedkriteriet som ble undersøkt.

Hovedmålene med studien var å bestemme indikatoren for varigheten av psykosen (den såkalte nettopsykosen), som ble forstått som bevaring av produktive psykotiske symptomer fra starten av bruken av antipsykotika, uttrykt i dager. Denne indikatoren ble beregnet separat for risperidongruppen og separat for den klassiske antipsykotiske gruppen.

Sammen med dette ble oppgaven satt til å bestemme andelen reduksjon av produktive symptomer under påvirkning av risperidon sammenlignet med klassiske antipsykotika ved ulike behandlingsperioder.

Totalt ble 89 pasienter (42 menn og 47 kvinner) med akutte psykotiske symptomer innenfor den paranoide formen schizofreni (49 pasienter) og schizoaffektiv lidelse (40 pasienter) studert.

Den første episoden og sykdomsvarigheten inntil 1 år ble registrert hos 43 pasienter, mens det i andre tilfeller på studietidspunktet ble notert påfølgende episoder med schizofreni med en sykdomsvarighet på mer enn 1 år.

Rispoleptombehandling ble mottatt av 29 personer, blant dem var det 15 pasienter med den såkalte første episoden. Behandling med klassiske neuroleptika ble mottatt av 60 personer, blant dem var det 28 personer med den første episoden. Dosen av rispolept varierte i området fra 1 til 6 mg per dag og var i gjennomsnitt 4±0,4 mg/dag. Risperidon ble utelukkende tatt oralt etter måltider en gang daglig om kvelden.

Behandling med klassiske antipsykotika inkluderte bruk av trifluoperazin (triftazin) i en daglig dose på opptil 30 mg intramuskulært, haloperidol i en daglig dose på opptil 20 mg intramuskulært, triperidol i en daglig dose på opptil 10 mg oralt. De aller fleste pasienter tok klassiske antipsykotika som monoterapi i løpet av de to første ukene, hvoretter de byttet om nødvendig (med bibeholdelse av vrangforestillinger, hallusinatoriske eller andre produktive symptomer) til en kombinasjon av flere klassiske antipsykotika. Samtidig forble et nevroleptika med en uttalt elektiv anti-vrangforestillings- og anti-hallusinatorisk effekt (for eksempel haloperidol eller triftazin) som hovedmedisin, et medikament med en distinkt hypnoserende effekt (klorpromazin, tizercin, klorprotiksen i doser opptil 50-100 mg / dag) ble tilsatt om kvelden.

I gruppen som tok klassiske antipsykotika, var det planlagt å ta antikolinerge korrektorer (Parkopan, Cyclodol) i doser opp til 10-12 mg/dag. Korrektorer ble foreskrevet ved forekomst av tydelige ekstrapyramidale bivirkninger i form av akutt dystoni, legemiddelindusert parkinsonisme og akatisi.

Tabell 2.1 viser data om varigheten av psykose ved behandling av rispolept og klassiske antipsykotika.

Tabell 2.1 - Varighet av psykose ("netto psykose") ved behandling av rispolept og klassiske antipsykotika

Som det følger av dataene i tabellen, når man sammenligner varigheten av psykose under terapi med klassiske antipsykotika og risperidon, er det en nesten to ganger reduksjon i varigheten av psykotiske symptomer under påvirkning av rispolept. Det er betydelig at verken faktorene til serienummeret på anfall eller arten av bildet av det ledende syndromet påvirket denne verdien av varigheten av psykosen. Psykosens varighet ble med andre ord utelukkende bestemt av terapifaktoren, dvs. avhenger av typen medikament som ble brukt, uavhengig av serienummeret på angrepet, varigheten av sykdommen og arten av det ledende psykopatologiske syndromet.

For å bekrefte de oppnådde regularitetene ble det utført en tofaktor variansanalyse. Samtidig ble interaksjonen av terapifaktoren og serienummeret til angrepet (stadium 1) og interaksjonen av terapifaktoren og arten av det ledende syndromet (stadium 2) tatt i betraktning etter tur. Resultatene av variansanalysen bekreftet påvirkningen av terapifaktoren på varigheten av psykose (F=18,8) i fravær av påvirkning av angrepstallfaktoren (F=2,5) og den psykopatologiske syndromtypefaktoren (F=1,7) ). Det er viktig at den felles påvirkningen av terapifaktoren og antallet angrep på varigheten av psykosen også var fraværende, samt felles påvirkning av terapifaktoren og den psykopatologiske syndromfaktoren.

Dermed bekreftet resultatene av variansanalysen påvirkningen av bare faktoren til det anvendte antipsykotiske middelet. Rispolept førte utvetydig til en reduksjon i varigheten av psykotiske symptomer sammenlignet med tradisjonelle antipsykotika med ca. 2 ganger. Det er viktig at denne effekten ble oppnådd til tross for oral administrering av rispolept, mens klassiske antipsykotika ble brukt parenteralt hos de fleste pasienter /10/.

2.8 Vridning av fancy garn med roving-effekt

Kostroma State Technological University har utviklet en ny formet trådstruktur med variable geometriske parametere. I denne forbindelse er det et problem med å behandle fancy garn i forberedende produksjon. Denne studien ble viet prosessen med vridning på spørsmålene: valg av type strammer, som gir minimal spredning av spenning og justering av spenning, tråder med forskjellige lineære tettheter langs bredden av vridningsakselen.

Forskningsobjektet er en linformet tråd av fire varianter med lineær tetthet fra 140 til 205 tex. Arbeidet med strekkenheter av tre typer ble studert: porselensvasker, to-sone NS-1P og en-sone NS-1P. En eksperimentell studie av spenningen til vridningstråder ble utført på en vridningsmaskin SP-140-3L. Vridningshastigheten, vekten av bremseskivene tilsvarte de teknologiske parametrene for vridningen av garnet.

For å studere avhengigheten av spenningen til den formede tråden på de geometriske parameterne under vridning, ble det utført en analyse for to faktorer: X 1 - effektens diameter, X 2 - lengden på effekten. Utgangsparametrene er spenning Y 1 og spenningsfluktuasjon Y 2 .

De resulterende regresjonsligningene er tilstrekkelige til de eksperimentelle dataene ved et signifikansnivå på 0,95, siden det beregnede Fisher-kriteriet for alle ligninger er mindre enn det tabellformede.

For å bestemme graden av påvirkning av faktorene X 1 og X 2 på parameterne Y 1 og Y 2 ble det utført en variansanalyse som viste at diameteren på effekten har større innflytelse på spenningsnivået og fluktuasjonen av spenningen. .

En komparativ analyse av de oppnådde tensogrammene viste at minimumsspredningen av spenning under vridning av dette garnet tilveiebringes av en to-soners spenningsanordning NS-1P.

Det er fastslått at med en økning i lineær tetthet fra 105 til 205 tex, gir NS-1P-apparatet en økning i spenningsnivået med kun 23%, mens porselensvaskeren - med 37%, enkeltsone NS-1P - med 53 %.

Ved forming av vridningsaksler, inkludert formede og "glatte" tråder, er det nødvendig å justere strammeren individuelt ved hjelp av den tradisjonelle metoden /11/.

2.9 Samtidig patologi med fullstendig tap av tenner hos eldre og senile mennesker

Epidemiologisk fullstendig tap av tenner og samtidig patologi hos den eldre befolkningen som bor på sykehjem på Chuvashias territorium har blitt studert. Undersøkelsen ble utført ved hjelp av tannundersøkelse og utfylling av statistikkkort på 784 personer. Resultatene av analysen viste en høy prosentandel av fullstendig tap av tenner, forverret av kroppens generelle patologi. Dette karakteriserer den undersøkte kategorien av befolkningen som en gruppe med økt tannlegerisiko og krever en revisjon av hele systemet for deres tannbehandling.

Hos eldre er forekomsten to ganger, og i alderdommen seks ganger høyere sammenlignet med forekomsten hos yngre.

De viktigste sykdommene hos eldre og senile mennesker er sykdommer i sirkulasjonssystemet, nervesystemet og sensoriske organer, luftveisorganer, fordøyelsesorganer, bein og bevegelsesorganer, neoplasmer og skader.

Formålet med studien er å utvikle og innhente informasjon om samtidige sykdommer, effektiviteten av proteser og behov for ortopedisk behandling av eldre og senile mennesker med fullstendig tap av tenner.

Totalt ble 784 personer i alderen 45 til 90 år undersøkt. Forholdet mellom kvinner og menn er 2,8:1.

Evaluering av den statistiske sammenhengen ved bruk av korrelasjonskoeffisienten til Pearsons rangeringer gjorde det mulig å etablere gjensidig påvirkning av manglende tenner på samtidig sykelighet med et pålitelighetsnivå på p=0,0005. Eldre pasienter med fullstendig tap av tenner lider av sykdommer som er karakteristiske for alderdom, nemlig cerebral aterosklerose og hypertensjon.

Variansanalyse viste at spesifisiteten til sykdommen spiller en avgjørende rolle under forholdene som studeres. Rollen til nosologiske former i forskjellige aldersperioder varierer fra 52-60%. Den største statistisk signifikante innvirkningen på fravær av tenner er forårsaket av sykdommer i fordøyelsessystemet og diabetes mellitus.

Generelt var pasientgruppen i alderen 75-89 år preget av et stort antall patologiske sykdommer.

I denne studien ble det utført en komparativ studie av forekomsten av komorbiditet blant pasienter med fullstendig tap av tenner i eldre og senil alder som bor på sykehjem. En høy prosentandel av manglende tenner blant personer i denne aldersgruppen ble avslørt. Hos pasienter med fullstendig adentia observeres komorbiditeter som er karakteristiske for denne alderen. Aterosklerose og hypertensjon var de vanligste blant de undersøkte. Statistisk signifikant innvirkning på tilstanden til munnhulen til sykdommer som sykdommer i mage-tarmkanalen og diabetes mellitus, andelen av andre nosologiske former var i området 52-60%. Bruken av variansanalyse bekreftet ikke den signifikante rollen til kjønn og bosted på indikatorer på tilstanden til munnhulen.

Avslutningsvis bør det derfor bemerkes at analysen av fordelingen av samtidige sykdommer hos personer med fullstendig fravær av tenner i eldre og senil alder viste at denne kategorien borgere tilhører en spesiell gruppe av befolkningen som bør få tilstrekkelig tannlege. omsorg innenfor rammen av eksisterende tannhelsesystemer /12/ .

3 Variansanalyse i sammenheng med statistiske metoder

Statistiske analysemetoder er en metodikk for å måle resultatene av menneskelig aktivitet, det vil si å konvertere kvalitative egenskaper til kvantitative.

Hovedtrinnene i den statistiske analysen:

Utarbeide en plan for innsamling av innledende data - verdiene til inngangsvariabler (X 1 ,...,X p), antall observasjoner n. Dette trinnet utføres når eksperimentet er aktivt planlagt.

Innhente innledende data og legge dem inn i en datamaskin. På dette stadiet dannes arrays av tall (x 1i ,..., x pi ; y 1i ,..., y qi), i=1,..., n, hvor n er prøvestørrelsen.

Primær statistisk databehandling. På dette stadiet dannes en statistisk beskrivelse av de vurderte parametrene:

a) konstruksjon og analyse av statistiske avhengigheter;

b) korrelasjonsanalyse er designet for å evaluere betydningen av påvirkningen av faktorer (X 1 ,...,X p) på responsen Y;

c) variansanalyse brukes til å evaluere påvirkningen av ikke-kvantitative faktorer (X 1 ,...,X p) på responsen Y for å velge den viktigste blant dem;

d) regresjonsanalyse er designet for å bestemme den analytiske avhengigheten av responsen Y på kvantitative faktorer X;

Tolkning av resultatene i forhold til oppgavesettet /13/.

Tabell 3.1 viser de statistiske metodene for å løse analytiske problemer. De tilsvarende cellene i tabellen inneholder frekvensene for bruk av statistiske metoder:

Etikett "-" - metoden brukes ikke;

Etikett "+" - metoden brukes;

Etikett "++" - metoden er mye brukt;

Merk "+++" - bruken av metoden er av spesiell interesse /14/.

Analyse av varians, som Students t-test, lar deg evaluere forskjeller mellom utvalgsmidler; i motsetning til t-testen har den imidlertid ingen begrensninger på antall gjennomsnitt sammenlignet. I stedet for å spørre om to utvalgsmidler er forskjellige, kan man altså vurdere om to, tre, fire, fem eller k betyr forskjellig.

ANOVA lar deg håndtere to eller flere uavhengige variabler (funksjoner, faktorer) samtidig, og evaluerer ikke bare effekten av hver av dem separat, men også effekten av interaksjon mellom dem /15/.


Tabell 3.1 - Anvendelse av statistiske metoder ved løsning av analytiske problemer

Analytiske oppgaver som oppstår innen virksomhet, økonomi og ledelse

Deskriptive statistikkmetoder

Metoder for å verifisere statistiske hypoteser

Regresjonsanalysemetoder

Metoder for spredningsanalyse

Metoder for multivariat analyse

Diskriminerende analysemetoder

klynge-nogo

Analysemetoder

overlevelsesevne

Analysemetoder

og prognose

tidsserier

Oppgaver med horisontal (tidslig) analyse

Oppgaver med vertikal (strukturell) analyse

Oppgaver med trendanalyse og prognose

Oppgaver med analyse av relative indikatorer

Oppgaver med komparativ (romlig) analyse

Oppgaver med faktoranalyse

For de fleste komplekse systemer gjelder Pareto-prinsippet, hvor 20 % av faktorene bestemmer egenskapene til systemet med 80 %. Derfor er den primære oppgaven til forskeren av simuleringsmodellen å eliminere ubetydelige faktorer, noe som gjør det mulig å redusere dimensjonen til modelloptimeringsproblemet.

Analyse av varians evaluerer avviket til observasjoner fra det totale gjennomsnittet. Deretter brytes variasjonen ned i deler som hver har sin årsak. Den gjenværende delen av variasjonen, som ikke kan relateres til forsøksbetingelsene, anses å være dens tilfeldige feil. For å bekrefte signifikansen brukes en spesiell test - F-statistikk.

Variansanalyse avgjør om det er en effekt. Regresjonsanalyse lar deg forutsi responsen (verdien av objektivfunksjonen) på et tidspunkt i parameterrommet. Den umiddelbare oppgaven med regresjonsanalyse er å estimere regresjonskoeffisientene /16/.

For store utvalgsstørrelser gjør statistiske analyser vanskelige, så det er fornuftig å redusere prøvestørrelsen.

Ved å anvende variansanalyse er det mulig å identifisere betydningen av ulike faktorers innflytelse på variabelen som studeres. Hvis påvirkningen av en faktor viser seg å være ubetydelig, kan denne faktoren utelukkes fra videre behandling.

Makroøkonometikere må være i stand til å løse fire logisk distinkte problemer:

Beskrivelse av data;

Makroøkonomisk prognose;

Strukturell slutning;

Politisk analyse.

Å beskrive data betyr å beskrive egenskapene til en eller flere tidsserier og formidle disse egenskapene til et bredt spekter av økonomer. Makroøkonomiske prognoser betyr å forutsi forløpet av økonomien, vanligvis to til tre år eller mindre (hovedsakelig fordi det er for vanskelig å forutsi over lengre horisonter). Strukturell slutning betyr å sjekke om makroøkonomiske data stemmer overens med en bestemt økonomisk teori. Makroøkonometrisk politikkanalyse går langs flere linjer: på den ene siden vurderes virkningen på økonomien av en hypotetisk endring av virkemidler (for eksempel en skattesats eller kortsiktig rente), på den andre siden vurderes virkningen av en endring i politiske regler (for eksempel en overgang til et nytt pengepolitisk regime) vurderes. Et empirisk makroøkonomisk forskningsprosjekt kan omfatte en eller flere av disse fire oppgavene. Hvert problem må løses på en slik måte at det tas hensyn til korrelasjoner mellom tidsserier.

På 1970-tallet ble disse problemene løst ved hjelp av en rekke metoder, som, hvis de ble vurdert ut fra moderne posisjoner, var utilstrekkelige av flere grunner. For å beskrive dynamikken til en individuell serie var det nok å bare bruke endimensjonale modeller av tidsserier, og for å beskrive fellesdynamikken til to serier var det nok å bruke spektralanalyse. Det fantes imidlertid ikke noe felles språk egnet for systematisk beskrivelse av de felles dynamiske egenskapene til flere tidsserier. Økonomiske prognoser ble laget enten ved å bruke forenklede autoregressive-moving average (ARMA)-modeller eller ved å bruke store strukturelle økonometriske modeller som var populære på den tiden. Strukturell slutning var basert enten på små enkeltlikningsmodeller eller på store modeller hvis identifikasjon ble oppnådd gjennom dårlig begrunnede ekskluderingsbegrensninger og som vanligvis ikke inkluderte forventninger. Politisk analyse av strukturelle modeller var avhengig av disse identifiserende forutsetningene.

Til slutt ble prisveksten på 1970-tallet av mange sett på som et stort tilbakeslag for de store modellene som ble brukt til å lage politiske anbefalinger på den tiden. Det vil si at det var det rette tidspunktet for fremveksten av en ny makroøkonometrisk konstruksjon som kunne løse disse mange problemene.

I 1980 ble en slik konstruksjon opprettet - vektor autoregresjoner (VAR). Ved første øyekast er VAR ikke noe mer enn en generalisering av univariat autoregresjon til det multivariate tilfellet, og hver ligning i VAR er ikke noe mer enn en enkel minste kvadraters regresjon av én variabel på de etterskrevne verdiene av seg selv og andre variabler i VAR. Men dette tilsynelatende enkle verktøyet gjorde det mulig å systematisk og internt konsekvent fange den rike dynamikken til multivariate tidsserier, og det statistiske verktøysettet som følger med VAR viste seg å være praktisk og, veldig viktig, lett å tolke.

Det er tre forskjellige VAR-modeller:

Redusert VAR-skjema;

Rekursiv VAR;

Strukturell VAR.

Alle tre er dynamiske lineære modeller som relaterer nåværende og tidligere verdier til Yt-vektoren til en n-dimensjonal tidsserie. Den reduserte formen og rekursive VAR er statistiske modeller som ikke bruker andre økonomiske hensyn enn valg av variabler. Disse VAR-ene brukes til å beskrive data og prognoser. Strukturell VAR inkluderer begrensninger avledet fra makroøkonomisk teori, og denne VAR brukes til strukturelle slutninger og politiske analyser.

Ovennevnte form for VAR uttrykker Y t som et distribuert tidligere lag pluss et serielt ukorrelert feilledd, det vil si at den generaliserer univariat autoregresjon til tilfellet med vektorer. Den matematisk reduserte formen av VAR-modellen er et system av n ligninger som kan skrives i matriseform som følger:

hvor  er n l vektor av konstanter;

A 1 , A 2 , ..., A p er n n koeffisientmatriser;

 t , er en nl vektor av serielt ukorrelerte feil, som antas å ha et gjennomsnitt på null og en kovariansmatrise .

Feil  t , i (17) er uventet dynamikk i Y t , som gjenstår etter å ha tatt i betraktning den lineært distribuerte etterslep av tidligere verdier.

Det er enkelt å estimere parametrene til det reduserte VAR-skjemaet. Hver av likningene inneholder de samme regressorene (Y t–1 ,...,Y t–p), og det er ingen gjensidige begrensninger mellom likningene. Dermed blir den effektive estimeringen (maksimal sannsynlighetsmetode med full informasjon) forenklet til de vanlige minste kvadrater brukt på hver av ligningene. Feilkovariansmatrisen kan med rimelighet estimeres av prøven kovariansmatrisen oppnådd fra LSM-restene.

Den eneste subtiliteten er å bestemme ettersleplengden p, men dette kan gjøres ved å bruke et informasjonskriterium som AIC eller BIC.

På nivå med matriseligninger ser rekursiv og strukturell VAR like ut. Disse to VAR-modellene tar eksplisitt i betraktning samtidige interaksjoner mellom elementer av Y t , noe som utgjør å legge til et samtidig ledd til høyre side av ligningen (17). Følgelig er både rekursiv og strukturell VAR representert i følgende generelle form:

hvor  - vektor av konstanter;

Bo,..., Bp-matriser;

 t - feil.

Tilstedeværelsen av matrisen B 0 i ligningen betyr muligheten for samtidig interaksjon mellom n variabler; det vil si at B 0 lar deg gjøre disse variablene relatert til samme tidspunkt, definert sammen.

Rekursiv VAR kan estimeres på to måter. Den rekursive strukturen gir et sett med rekursive ligninger som kan estimeres ved hjelp av minste kvadraters metode. En ekvivalent estimeringsmetode er at likningene til den reduserte formen (17), sett på som et system, multipliseres fra venstre med den nedre trekantmatrisen.

Metoden for å estimere den strukturelle VAR avhenger av hvordan nøyaktig B 0 identifiseres. Tilnærmingen med delvis informasjon innebærer bruk av enkle ligningsestimeringsmetoder som to-trinns minste kvadrater. Den fullstendige informasjonstilnærmingen innebærer bruk av estimeringsmetoder med flere ligninger, for eksempel tre-trinns minste kvadrater.

Vær oppmerksom på de mange forskjellige typene VAR. Den reduserte formen for VAR er unik. Denne rekkefølgen av variabler i Y t tilsvarer en enkelt rekursiv VAR, men det er n! slike bestillinger, dvs. n! ulike rekursive VAR-er. Antall strukturelle VAR-er – det vil si sett med antakelser som identifiserer samtidige relasjoner mellom variabler – begrenses kun av forskerens oppfinnsomhet.

Siden matriser med estimerte VAR-koeffisienter er vanskelige å tolke direkte, er VAR-estimeringsresultater vanligvis representert av en funksjon av disse matrisene. Til slik statistikk dekomponering av prognosefeil.

Utvidelser av prognosefeilvarianser beregnes hovedsakelig for rekursive eller strukturelle systemer. Denne dekomponeringen av variansen viser hvor viktig feilen i den jth ligningen er for å forklare de uventede endringene i den ith variabelen. Når VAR-feilene er likningsmessig ukorrelerte, kan variansen til prognosefeilen for h perioder fremover skrives som summen av komponentene som er et resultat av hver av disse feilene /17/.

3.2 Faktoranalyse

I moderne statistikk forstås faktoranalyse som et sett med metoder som, på grunnlag av virkelige forhold mellom funksjoner (eller objekter), gjør det mulig å identifisere latente generaliserende egenskaper ved organisasjonsstrukturen og mekanismen for utvikling av fenomenene og prosesser under utredning.

Begrepet latens i definisjonen er nøkkelen. Det betyr implisitten av egenskapene som avsløres ved bruk av faktoranalysemetoder. Først tar vi for oss et sett med elementære trekk X j , deres interaksjon forutsetter tilstedeværelsen av visse årsaker, spesielle forhold, dvs. eksistensen av noen skjulte faktorer. Sistnevnte er etablert som et resultat av generalisering av elementære trekk og fungerer som integrerte kjennetegn, eller trekk, men på et høyere nivå. Naturligvis kan ikke bare trivielle trekk X j korrelere, men også de observerte objektene Ni selv, så søket etter latente faktorer er teoretisk mulig både ved trekk- og objektdata.

Hvis objekter er preget av et tilstrekkelig stort antall elementære trekk (m > 3), så er en annen antakelse også logisk - om eksistensen av tette klynger av punkter (trekk) i rommet til n objekter. Samtidig generaliserer de nye aksene ikke egenskapene til X j , men objektene n i, henholdsvis, og de latente faktorene F r vil bli gjenkjent av sammensetningen av de observerte objektene:

F r = c 1 n 1 + c 2 n 2 + ... + c N n N ,

hvor c i er vekten av objektet n i i faktoren F r .

Avhengig av hvilken av korrelasjonstypene som vurderes ovenfor - elementære trekk eller observerte objekter - som studeres i faktoranalyse, skilles R og Q - tekniske metoder for databehandling.

Navnet på R-teknikken er volumetrisk dataanalyse etter m funksjoner, som et resultat av at r lineære kombinasjoner (grupper) av funksjoner oppnås: F r =f(X j), (r=1..m). Analyse i henhold til nærhet (forbindelse) av n observerte objekter kalles Q-teknikk og lar deg bestemme r lineære kombinasjoner (grupper) av objekter: F=f(n i), (i = l .. N).

For tiden løses i praksis mer enn 90 % av problemene ved hjelp av R-teknikker.

Settet med faktoranalysemetoder er for tiden ganske stort, det inkluderer dusinvis av forskjellige tilnærminger og databehandlingsteknikker. For å fokusere på riktig valg av metoder i forskning, er det nødvendig å presentere funksjonene deres. Vi deler alle metodene for faktoranalyse inn i flere klassifiseringsgrupper:

Hovedkomponentmetode. Det er strengt tatt ikke klassifisert som faktoranalyse, selv om det har mye til felles med det. Spesifikt er for det første at i løpet av beregningsprosedyrer oppnås alle hovedkomponentene samtidig, og antallet deres er i utgangspunktet lik antallet elementære funksjoner. For det andre postuleres muligheten for en fullstendig dekomponering av spredningen av elementære trekk, med andre ord dens fullstendige forklaring gjennom latente faktorer (generaliserte trekk).

Metoder for faktoranalyse. Variansen til elementære trekk er ikke fullstendig forklart her, det erkjennes at en del av variansen forblir ugjenkjent som en egenskap. Faktorer blir vanligvis skilt ut sekvensielt: den første, forklarer den største andelen av variasjon i elementære trekk, deretter den andre, forklarer den mindre delen av variansen, den andre etter den første latente faktoren, den tredje, etc. Prosessen med å trekke ut faktorer kan avbrytes på et hvilket som helst trinn hvis det tas en beslutning om tilstrekkeligheten av andelen av den forklarte variansen av elementære trekk eller tar hensyn til tolkningen av latente faktorer.

Det er tilrådelig å dele faktoranalysemetodene videre i to klasser: forenklede og moderne tilnærmingsmetoder.

Enkle faktoranalysemetoder er hovedsakelig assosiert med innledende teoretiske utviklinger. De har begrensede evner til å identifisere latente faktorer og tilnærme faktorielle løsninger. Disse inkluderer:

En faktor modell. Den lar deg velge bare én generell latent og én karakteristisk faktor. For eventuelt eksisterende andre latente faktorer gjøres det en antagelse om deres ubetydelighet;

bifaktoriell modell. Tillater innflytelse på variasjonen av elementære trekk ved ikke én, men flere latente faktorer (vanligvis to) og én karakteristisk faktor;

tyngdepunktsmetode. I den betraktes korrelasjoner mellom variabler som en haug med vektorer, og den latente faktoren er geometrisk representert som en balanserende vektor som går gjennom midten av denne haugen. : Metoden lar deg identifisere flere latente og karakteristiske faktorer, for første gang blir det mulig å korrelere den faktorielle løsningen med de originale dataene, dvs. løse tilnærmingsproblemet på den enkleste formen.

Moderne tilnærmingsmetoder forutsetter ofte at den første, omtrentlige løsningen allerede er funnet av noen av metodene, og denne løsningen er optimalisert ved påfølgende trinn. Metodene er forskjellige i kompleksiteten til beregninger. Disse metodene inkluderer:

gruppemetode. Løsningen er basert på grupper av elementære funksjoner som er forhåndsvalgt på en eller annen måte;

Metode for hovedfaktorer. Det er nærmest metoden for hovedkomponenter, forskjellen ligger i antagelsen om eksistensen av funksjoner;

Maksimal sannsynlighet, minimumsrester, a-faktoranalyse, kanonisk faktoranalyse, alt optimalisering.

Disse metodene gjør det mulig å konsekvent forbedre tidligere funnet løsninger basert på bruk av statistiske teknikker for å estimere en tilfeldig variabel eller statistiske kriterier, og krever en stor mengde tidkrevende beregninger. Den mest lovende og praktiske for arbeid i denne gruppen er metoden med maksimal sannsynlighet.

Hovedoppgaven, som løses ved forskjellige metoder for faktoranalyse, inkludert metoden for hovedkomponenter, er komprimering av informasjon, overgangen fra settet med verdier i henhold til m elementære funksjoner med informasjonsmengden n x m til en begrenset sett med elementer i faktorkartleggingsmatrisen (m x r) eller matrisen av latente verdier faktorer for hvert observert objekt med dimensjon n x r, og vanligvis r< m.

Faktoranalysemetoder gjør det også mulig å visualisere strukturen til fenomenene og prosessene som studeres, noe som betyr å bestemme tilstanden deres og forutsi deres utvikling. Til slutt gir faktoranalysedataene grunnlag for å identifisere objektet, dvs. løse problemet med bildegjenkjenning.

Faktoranalysemetoder har egenskaper som er svært attraktive for bruk som del av andre statistiske metoder, oftest i korrelasjons-regresjonsanalyse, klyngeanalyse, multivariat skalering osv. /18/.

3.3 Paret regresjon. Probabilistisk karakter av regresjonsmodeller.

Hvis vi vurderer problemet med å analysere matutgifter i grupper med samme inntekt, for eksempel $10 000(x), så er dette en deterministisk verdi. Men Y - andelen av disse pengene brukt på mat - er tilfeldig og kan endres fra år til år. Derfor, for hver i-te person:

hvor ε i - tilfeldig feil;

α og β er konstanter (teoretisk), selv om de kan variere fra modell til modell.

Forutsetninger for parvis regresjon:

X og Y er lineært beslektet;

X er en ikke-tilfeldig variabel med faste verdier;

- ε - feil er normalfordelt N(0,σ 2);

- .

Figur 3.1 viser en parvis regresjonsmodell.

Figur 3.1 - Paret regresjonsmodell

Disse forutsetningene beskriver den klassiske lineære regresjonsmodellen.

Hvis feilen har et gjennomsnitt som ikke er null, vil den opprinnelige modellen være ekvivalent med den nye modellen og andre avskjæringer, men med null gjennomsnitt for feilen.

Hvis forutsetningene er oppfylt, er minste kvadraters estimatorer og effektive lineære objektive estimatorer

Hvis vi utpeker:

det faktum at den matematiske forventningen og spredningen av koeffisientene vil være følgende:

Kovarians av koeffisienter:

Hvis en da er de også normalfordelt:

Av dette følger at:

Variasjonen β er fullstendig bestemt av variasjonen ε;

Jo høyere variansen til X er, desto bedre er estimatet av β.

Den totale spredningen bestemmes av formelen:

Variansen til avvikene i denne formen er et objektivt estimat og kalles standardfeilen for regresjonen. N-2 - kan tolkes som antall frihetsgrader.

Analyse av avvik fra regresjonslinjen kan gi et nyttig mål på hvor godt den estimerte regresjonen reflekterer de reelle dataene. En god regresjon er en som forklarer en betydelig andel av variansen i Y, og omvendt, en dårlig regresjon sporer ikke de fleste fluktuasjonene i de opprinnelige dataene. Det er intuitivt klart at eventuell tilleggsinformasjon vil forbedre modellen, det vil si redusere den uforklarlige andelen av variasjon Y. For å analysere regresjonsmodellen dekomponeres variansen i komponenter, og bestemmelseskoeffisienten R 2 bestemmes.

Forholdet mellom de to variansene er fordelt etter F-fordelingen, dvs. hvis vi sjekker for statistisk signifikans av forskjellen mellom modellens varians og variansen til residualene, kan vi konkludere med at R 2 er signifikant.

Tester hypotesen om likheten mellom variansene til disse to prøvene:

Hvis hypotesen H 0 (varianslikhet av flere utvalg) er sann, har t en F-fordeling med (m 1 ,m 2)=(n 1 -1,n 2 -1) frihetsgrader.

Etter å ha beregnet F-forholdet som forholdet mellom to dispersjoner og sammenlignet med tabellverdien, kan vi konkludere med at R 2 /2/, /19/ er statistisk signifikant.

Konklusjon

Moderne anvendelser av variansanalyse dekker et bredt spekter av problemer innen økonomi, biologi og teknologi og tolkes vanligvis i form av den statistiske teorien om å avsløre systematiske forskjeller mellom resultatene av direkte målinger utført under visse skiftende forhold.

Takket være automatiseringen av variansanalyse kan en forsker utføre ulike statistiske studier ved hjelp av datamaskiner, samtidig som de bruker mindre tid og krefter på databeregninger. For tiden er det mange programvarepakker som implementerer dispersjonsanalyseapparatet. De vanligste programvareproduktene er:

De fleste statistiske metoder er implementert i moderne statistiske programvareprodukter. Med utviklingen av algoritmiske programmeringsspråk ble det mulig å lage flere blokker for behandling av statistiske data.

ANOVA er en kraftig moderne statistisk metode for å behandle og analysere eksperimentelle data innen psykologi, biologi, medisin og andre vitenskaper. Det er veldig nært knyttet til den spesifikke metodikken for planlegging og gjennomføring av eksperimentelle studier.

Variansanalyse brukes på alle områder av vitenskapelig forskning, hvor det er nødvendig å analysere påvirkningen av ulike faktorer på variabelen som studeres.

Bibliografi

1 Kremer N.Sh. Sannsynlighetsteori og matematisk statistikk. M.: Unity - Dana, 2002.-343s.

2 Gmurman V.E. Sannsynlighetsteori og matematisk statistikk. - M .: Videregående skole, 2003.-523s.

4 www.conf.mitme.ru

5 www.pedklin.ru

6 www.webcenter.ru

7 www.infecties.ru

8 www.encycl.yandex.ru

9 www.infosport.ru

10 www.medtrust.ru

11 www.flax.net.ru

12 www.jdc.org.il

13 www.big.spb.ru

14 www.bizcom.ru

15 Gusev A.N. Spredningsanalyse i eksperimentell psykologi. - M .: Pedagogisk og metodisk samler "Psykologi", 2000.-136s.

17 www.econometrics.exponenta.ru

18 www.optimizer.by.ru