Biografier Kjennetegn Analyse

Metoder for regresjonsanalyse. Regresjonsanalyse - en statistisk metode for å studere avhengigheten av en tilfeldig variabel av variabler

I nærvær av en korrelasjon mellom faktor og resulterende tegn, må leger ofte bestemme hvor mye verdien av ett tegn kan endres når et annet endres med en måleenhet som er generelt akseptert eller etablert av forskeren selv.

Hvordan vil for eksempel kroppsvekten til skoleelever i 1. klasse (jenter eller gutter) endre seg hvis høyden øker med 1 cm Til dette brukes regresjonsanalysemetoden.

Oftest brukes regresjonsanalysemetoden for å utvikle normative skalaer og standarder for fysisk utvikling.

  1. Definisjon av regresjon. Regresjon er en funksjon som gjør det mulig, basert på gjennomsnittsverdien til ett attributt, å bestemme gjennomsnittsverdien til en annen attributt som er korrelert med den første.

    Til dette formålet brukes regresjonskoeffisienten og en rekke andre parametere. For eksempel kan du beregne antall forkjølelser i gjennomsnitt ved visse verdier av den gjennomsnittlige månedlige lufttemperaturen i høst-vinterperioden.

  2. Definisjon av regresjonskoeffisienten. Regresjonskoeffisienten er den absolutte verdien som verdien av ett attributt endres med i gjennomsnitt når en annen attributt knyttet til den endres med den etablerte måleenheten.
  3. Formel for regresjonskoeffisient. R y / x \u003d r xy x (σ y / σ x)
    hvor R y / x - regresjonskoeffisient;
    r xy - korrelasjonskoeffisient mellom funksjonene x og y;
    (σ y og σ x) - standardavvik for funksjonene x og y.

    I vårt eksempel;
    σ x = 4,6 (standardavvik for lufttemperatur i høst-vinterperioden;
    σ y = 8,65 (standardavvik for antall smittsomme forkjølelser).
    Dermed er R y/x regresjonskoeffisienten.
    R y / x \u003d -0,96 x (4,6 / 8,65) \u003d 1,8, dvs. med en nedgang i gjennomsnittlig månedlig lufttemperatur (x) med 1 grad, vil gjennomsnittlig antall smittsomme forkjølelser (y) i høst-vinterperioden endres med 1,8 tilfeller.

  4. Regresjonsligning. y \u003d M y + R y / x (x - M x)
    hvor y er gjennomsnittsverdien av attributtet, som bør bestemmes når gjennomsnittsverdien til en annen attributt (x) endres;
    x - kjent gjennomsnittsverdi for en annen funksjon;
    R y/x - regresjonskoeffisient;
    M x, M y - kjente gjennomsnittsverdier av funksjonene x og y.

    For eksempel kan gjennomsnittlig antall smittsomme forkjølelser (y) bestemmes uten spesielle målinger ved en hvilken som helst gjennomsnittsverdi av gjennomsnittlig månedlig lufttemperatur (x). Så hvis x \u003d - 9 °, R y / x \u003d 1,8 sykdommer, M x \u003d -7 °, M y \u003d 20 sykdommer, så y \u003d 20 + 1,8 x (9-7) \u003d 20 + 3,6 = 23,6 sykdommer.
    Denne ligningen brukes i tilfelle av et rettlinjet forhold mellom to funksjoner (x og y).

  5. Hensikten med regresjonsligningen. Regresjonsligningen brukes til å plotte regresjonslinjen. Sistnevnte tillater, uten spesielle målinger, å bestemme en hvilken som helst gjennomsnittsverdi (y) for en attributt, hvis verdien (x) til en annen attributt endres. Basert på disse dataene bygges en graf - regresjonslinje, som kan brukes til å bestemme gjennomsnittlig antall forkjølelser til enhver verdi av gjennomsnittlig månedlig temperatur innenfor området mellom de beregnede verdiene for antall forkjølelser.
  6. Regresjonssigma (formel).
    hvor σ Ru/x - sigma (standardavvik) for regresjonen;
    σ y er standardavviket til egenskapen y;
    r xy - korrelasjonskoeffisient mellom funksjonene x og y.

    Så hvis σ y er standardavviket for antall forkjølelser = 8,65; r xy - korrelasjonskoeffisienten mellom antall forkjølelser (y) og gjennomsnittlig månedlig lufttemperatur i høst-vinterperioden (x) er -0,96, da

  7. Hensikten med sigma-regresjon. Gir en karakteristikk av målet for mangfoldet til det resulterende trekk (y).

    For eksempel karakteriserer det mangfoldet av antall forkjølelser ved en viss verdi av den gjennomsnittlige månedlige lufttemperaturen i høst-vinterperioden. Så gjennomsnittlig antall forkjølelser ved lufttemperatur x 1 \u003d -6 ° kan variere fra 15,78 sykdommer til 20,62 sykdommer.
    Ved x 2 = -9° kan gjennomsnittlig antall forkjølelser variere fra 21,18 sykdommer til 26,02 sykdommer osv.

    Regresjonssigmaen brukes i konstruksjonen av en regresjonsskala, som reflekterer avviket til verdiene til den effektive attributten fra dens gjennomsnittlige verdi plottet på regresjonslinjen.

  8. Data som kreves for å beregne og plotte regresjonsskalaen
    • regresjonskoeffisient - Ry/x;
    • regresjonsligning - y \u003d M y + R y / x (x-M x);
    • regresjon sigma - σ Rx/y
  9. Rekkefølgen av beregninger og grafisk representasjon av regresjonsskalaen.
    • Bestem regresjonskoeffisienten med formelen (se avsnitt 3). For eksempel bør man bestemme hvor mye kroppsvekten vil endre seg i gjennomsnitt (ved en viss alder avhengig av kjønn) hvis gjennomsnittshøyden endres med 1 cm.
    • i henhold til formelen til regresjonsligningen (se avsnitt 4), bestemme hva som vil være gjennomsnittet, for eksempel kroppsvekt (y, y 2, y 3 ...) * for en viss vekstverdi (x, x 2, x 3 ...).
      ________________
      * Verdien av "y" bør beregnes for minst tre kjente verdier av "x".

      Samtidig er gjennomsnittsverdiene for kroppsvekt og høyde (M x og M y) for en viss alder og kjønn kjent

    • beregn regresjonens sigma, kjenn til de tilsvarende verdiene til σ y og r xy og bytt inn verdiene deres i formelen (se avsnitt 6).
    • basert på de kjente verdiene x 1, x 2, x 3 og deres tilsvarende gjennomsnittsverdier y 1, y 2 y 3, så vel som de minste (y - σ ru / x) og største (y + σ ru / x) verdier\u200b\u200b(y) konstruere en regresjonsskala.

      For en grafisk representasjon av regresjonsskalaen markeres først verdiene x, x 2, x 3 (y-aksen), dvs. en regresjonslinje bygges, for eksempel avhengigheten av kroppsvekt (y) av høyde (x).

      Deretter, ved de tilsvarende punktene y 1 , y 2 , y 3 er de numeriske verdiene til regresjonssigmaet merket, dvs. på grafen finn de minste og største verdiene av y 1 , y 2 , y 3 .

  10. Praktisk bruk av regresjonsskalaen. Normative skalaer og standarder utvikles, spesielt for fysisk utvikling. I henhold til standardskalaen er det mulig å gi en individuell vurdering av utviklingen til barn. Samtidig vurderes fysisk utvikling som harmonisk hvis for eksempel ved en viss høyde barnets kroppsvekt er innenfor én regresjonssigma til gjennomsnittlig beregnet kroppsvektenhet - (y) for en gitt høyde (x) ( y ± 1 σ Ry / x).

    Fysisk utvikling anses som disharmonisk med tanke på kroppsvekt dersom barnets kroppsvekt for en viss høyde er innenfor andre regresjonssigma: (y ± 2 σ Ry/x)

    Fysisk utvikling vil være sterkt disharmonisk både på grunn av overflødig og utilstrekkelig kroppsvekt dersom kroppsvekten for en viss høyde er innenfor regresjonens tredje sigma (y ± 3 σ Ry/x).

I følge resultatene fra en statistisk studie av den fysiske utviklingen til 5 år gamle gutter, er det kjent at deres gjennomsnittlige høyde (x) er 109 cm, og deres gjennomsnittlige kroppsvekt (y) er 19 kg. Korrelasjonskoeffisienten mellom høyde og kroppsvekt er +0,9, standardavvik er presentert i tabellen.

Påkrevd:

  • beregne regresjonskoeffisienten;
  • ved hjelp av regresjonsligningen, bestemme hva den forventede kroppsvekten til 5 år gamle gutter vil være med en høyde lik x1 = 100 cm, x2 = 110 cm, x3 = 120 cm;
  • beregne regresjonssigma, bygge en regresjonsskala, presentere resultatene av løsningen grafisk;
  • trekke passende konklusjoner.

Tilstanden til problemet og resultatene av løsningen er presentert i sammendragstabellen.

Tabell 1

Betingelsene for problemet Resultatet av problemløsning
regresjonsligning sigma regresjon regresjonsskala (forventet kroppsvekt (i kg))
M σ r xy R y/x X σRx/y y - σ Rу/х y + σ Rу/х
1 2 3 4 5 6 7 8 9 10
Høyde (x) 109 cm ± 4,4 cm +0,9 0,16 100 cm 17,56 kg ± 0,35 kg 17,21 kg 17,91 kg
Kroppsvekt (y) 19 kg ± 0,8 kg 110 cm 19,16 kg 18,81 kg 19,51 kg
120 cm 20,76 kg 20,41 kg 21,11 kg

Løsning.

Konklusjon. Dermed lar regresjonsskalaen innenfor de beregnede verdiene av kroppsvekt deg bestemme den for enhver annen vekstverdi eller vurdere den individuelle utviklingen til barnet. For å gjøre dette, gjenopprett vinkelrett på regresjonslinjen.

  1. Vlasov V.V. Epidemiologi. - M.: GEOTAR-MED, 2004. - 464 s.
  2. Lisitsyn Yu.P. Folkehelse og helsevesen. Lærebok for videregående skoler. - M.: GEOTAR-MED, 2007. - 512 s.
  3. Medik V.A., Yuriev V.K. Et forelesningskurs om folkehelse og helsevesen: Del 1. Folkehelse. - M.: Medisin, 2003. - 368 s.
  4. Minyaev V.A., Vishnyakov N.I. Sosialmedisin og helseorganisasjon (Veiledning i 2 bind). - St. Petersburg, 1998. -528 s.
  5. Kucherenko V.Z., Agarkov N.M. Sosial hygiene og organisering av helsetjenester (Tutorial) - Moskva, 2000. - 432 s.
  6. S. Glantz. Medisinsk-biologisk statistikk. Per fra engelsk. - M., Praksis, 1998. - 459 s.

A) Grafisk analyse av en enkel lineær regresjon.

Enkel lineær regresjonsligning y=a+bx. Hvis det er en korrelasjon mellom de tilfeldige variablene Y og X, så er verdien y = ý + ,

hvor ý er den teoretiske verdien av y oppnådd fra ligningen ý = f(x),

 er avviksfeilen til den teoretiske ligningen ý fra de faktiske (eksperimentelle) dataene.

Ligningen for avhengigheten av gjennomsnittsverdien til ý på x, det vil si ý = f (x), kalles regresjonsligningen. Regresjonsanalyse består av fire trinn:

1) angi oppgaven og etablere årsakene til tilkoblingen.

2) begrensning av objektet for forskning, innsamling av statistisk informasjon.

3) valg av koblingsligningen basert på analysen og arten av de innsamlede dataene.

4) beregning av numeriske verdier, egenskaper ved korrelasjon.

Hvis to variabler er relatert på en slik måte at en endring i den ene variabelen tilsvarer en systematisk endring i den andre variabelen, brukes regresjonsanalyse for å estimere og velge forholdslikningen mellom dem hvis disse variablene er kjent. I motsetning til regresjonsanalyse, brukes korrelasjonsanalyse for å analysere tettheten i forholdet mellom X og Y.

Vurder å finne en rett linje i regresjonsanalyse:

Teoretisk regresjonsligning.

Begrepet "enkel regresjon" indikerer at størrelsen på en variabel estimeres basert på kunnskap om en annen variabel. I motsetning til enkel multivariat regresjon, brukes den til å estimere en variabel basert på kunnskap om to, tre eller flere variabler. Tenk på en grafisk analyse av en enkel lineær regresjon.

La oss anta at vi har resultatene fra screeningtestene før ansettelse og arbeidsproduktivitet.

Utvalgsresultater (100 poeng), x

Ytelse (20 poeng), y

Setter vi punktene på grafen, får vi et spredningsdiagram (felt). Vi bruker den til å analysere resultatene av utvalgstester og arbeidsproduktivitet.

La oss analysere regresjonslinjen ved å bruke spredningsplottet. I regresjonsanalyse spesifiseres alltid minst to variabler. En systematisk endring i en variabel er assosiert med en endring i en annen. hovedmål regresjonsanalyse er å estimere verdien av en variabel hvis verdien av den andre variabelen er kjent. For en komplett oppgave er vurderingen av arbeidsproduktiviteten viktig.

Uavhengig variabel i regresjonsanalyse brukes en mengde som grunnlag for analysen av en annen variabel. I dette tilfellet er dette resultatene av utvalgstester (langs X-aksen).

avhengig variabel kalt den estimerte verdien (langs Y-aksen). I en regresjonsanalyse kan det bare være én avhengig variabel og flere uavhengige variabler.

For en enkel regresjonsanalyse kan avhengigheten representeres i et to-koordinatsystem (x og y), langs x-aksen - en uavhengig variabel, langs y-aksen - avhengig. Vi plotter skjæringspunktene på en slik måte at et par størrelser presenteres på grafen. Grafen kalles scatterplot. Konstruksjonen er den andre fasen av regresjonsanalysen, siden den første er valget av de analyserte verdiene og innsamlingen av prøvedata. Dermed brukes regresjonsanalyse for statistisk analyse. Forholdet mellom eksempeldataene i diagrammet er lineært.

For å estimere verdien av variabelen y basert på variabelen x, er det nødvendig å bestemme posisjonen til linjen som best representerer forholdet mellom x og y basert på plasseringen av spredningsplottpunktene. I vårt eksempel er dette ytelsesanalyse. Linjen trukket gjennom spredningspunktene - regresjonslinje. En måte å bygge en regresjonslinje basert på visuell opplevelse er frihåndsmetoden. Regresjonslinjen vår kan brukes til å bestemme arbeidsproduktiviteten. Når man finner ligningen til regresjonslinjen

Ofte brukes minste kvadraters test. Den mest passende linjen er den der summen av de kvadrerte avvikene er minimal.

Den matematiske ligningen til vekstlinjen representerer loven om vekst i aritmetisk progresjon:

= enbX.

Y = en + bX– den reduserte ligningen med én parameter er den enkleste formen for begrensningsligningen. Det er akseptabelt for gjennomsnittsverdier. For å bedre uttrykke forholdet mellom X og , innføres en ekstra proporsjonalitetsfaktor b, som indikerer helningen til regresjonslinjen.

B) Konstruksjon av en teoretisk regresjonslinje.

Prosessen med å finne den består i å velge og begrunne kurvetypen og beregne parametrene en, b, Med etc. Byggeprosessen kalles utjevning, og beholdningen av kurver som tilbys av matten. analyse, variert. Oftest, i økonomiske problemer, brukes en familie av kurver, ligninger som er uttrykt av polynomer med heltalls positive grader.

1)
- ligning av en rett linje,

2)
er hyperbelligningen,

3)
er parabelligningen,

hvor ý er ordinatene til den teoretiske regresjonslinjen.

Etter å ha valgt type ligning, er det nødvendig å finne parametrene som denne ligningen avhenger av. For eksempel viste karakteren av plasseringen av punkter i spredningsfeltet at den teoretiske regresjonslinjen er rett.

Spredningsdiagrammet lar deg representere arbeidsproduktivitet ved å bruke regresjonsanalyse. I økonomi forutsier regresjonsanalyse mange egenskaper som påvirker sluttproduktet (tar hensyn til prissetting).

C) Kriteriet for de minste rammene for å finne en rett linje.

Et av kriteriene vi kan bruke for en passende regresjonslinje i et spredningsplott er basert på å velge en linje der summen av kvadratfeilene vil være minimal.

Nærheten til spredningspunktene til den rette linjen måles ved ordinatene til segmentene. Avvikene til disse punktene kan være positive eller negative, men summen av de kvadrerte avvikene til den teoretiske linjen fra den eksperimentelle linjen er alltid positiv og bør være minimal. Det faktum at alle spredningspunkter ikke faller sammen med posisjonen til regresjonslinjen indikerer eksistensen av et avvik mellom de eksperimentelle og teoretiske dataene. Dermed kan det sies at ingen annen regresjonslinje, bortsett fra den som er funnet, kan gi en mindre sum av avvik mellom eksperimentelle og eksperimentelle data. Derfor, etter å ha funnet den teoretiske ligningen ý og regresjonslinjen, tilfredsstiller vi minste kvadraters krav.

Dette gjøres ved å bruke begrensningsligningen
, ved å bruke formler for å finne parametere en og b. Tar den teoretiske verdien
og angir venstre side av ligningen gjennom f, får vi funksjonen
fra ukjente parametere en og b. Verdier en og b vil tilfredsstille minimum av funksjonen f og finnes fra partielle differensialligninger
og
. den nødvendig tilstand, men for en positiv kvadratisk funksjon er dette også en tilstrekkelig betingelse for å finne en og b.

La oss utlede formlene for parametrene fra ligningene til partielle deriverte en og b:



vi får et ligningssystem:

hvor
– aritmetiske gjennomsnittsfeil.

Ved å erstatte numeriske verdier finner vi parametrene en og b.

Det er et konsept
. Dette er tilnærmingsfaktoren.

Hvis en e < 33%, то модель приемлема для дальнейшего анализа;

Hvis en e> 33 %, så tar vi en hyperbel, en parabel osv. Dette gir rett til å analysere i ulike situasjoner.

Konklusjon: i henhold til kriteriet til tilnærmingskoeffisienten er den mest passende linjen den som

, og ingen annen regresjonslinje for vårt problem gir et minimum av avvik.

D) Kvadratisk estimeringsfeil, verifisering av deres typiske karakter.

For en populasjon med mindre enn 30 studieparametere ( n < 30), для проверки типичности параметров уравнения регрессии используется t-Elevens kriterium. Dette beregner den faktiske verdien t-kriterier:

Herfra

hvor er den gjenværende rotmiddelkvadratfeilen. Mottatt t en og t b sammenlignet med kritiske t k fra studentens tabell, tatt i betraktning akseptert signifikansnivå ( = 0,01 = 99 % eller  = 0,05 = 95 %). P = f = k 1 = m er antall parametere i ligningen som studeres (frihetsgrad). For eksempel hvis y = en + bx; m = 2, k 2 = f 2 = s 2 = n – (m+ 1), hvor n- antall studerte funksjoner.

t en < t k < t b .

Konklusjon: i henhold til parametrene til regresjonsligningen sjekket for typiskhet, konstrueres en matematisk modell av forbindelsen
. I dette tilfellet mottar parametrene til den matematiske funksjonen som brukes i analysen (lineær, hyperbel, parabel) de tilsvarende kvantitative verdiene. Det semantiske innholdet i modellene som er oppnådd på denne måten er at de karakteriserer gjennomsnittsverdien til den effektive funksjonen
fra en faktoregenskap X.

E) Kurvilineær regresjon.

Ganske ofte er det en krumlinjet sammenheng, når det etableres en skiftende sammenheng mellom variablene. Intensiteten av økningen (reduksjonen) avhenger av nivået for å finne X. Kurvilineær avhengighet kan være av forskjellige typer. Vurder for eksempel forholdet mellom utbytte og nedbør. Med en økning i nedbør under like naturlige forhold, en intensiv økning i avling, men opp til en viss grense. Etter det kritiske punktet er nedbør overflødig, og utbyttet synker katastrofalt. Eksemplet viser at først forholdet var positivt, og deretter negativt. Kritisk punkt - det optimale nivået av funksjon X, som tilsvarer maksimums- eller minimumsverdien til funksjon Y.

I økonomi observeres et slikt forhold mellom pris og forbruk, produktivitet og tjenestetid.

parabolsk avhengighet.

Hvis dataene viser at en økning i faktorattributtet fører til en økning i den resulterende attributten, så tas andreordensligningen (parablen) som regresjonsligningen.

. Koeffisientene a,b,c er funnet fra partielle differensialligninger:

Vi får et ligningssystem:

Typer krumlinjede ligninger:

,

,

Det er rimelig å anta at det er en krumlinjet sammenheng mellom arbeidsproduktivitet og seleksjonsprøveresultater. Dette betyr at med veksten av scoringssystemet vil ytelsen begynne å avta på et eller annet nivå, slik at den direkte modellen kan vise seg å være krumlinjet.

Den tredje modellen vil være en hyperbel, og i alle ligninger vil det i stedet for variabelen x være et uttrykk.

I de forrige notatene har fokus ofte vært på en enkelt numerisk variabel, for eksempel fondsavkastning, lastetid på nettsider eller brusforbruk. I denne og de følgende notatene vil vi vurdere metoder for å forutsi verdiene til en numerisk variabel avhengig av verdiene til en eller flere andre numeriske variabler.

Materialet vil bli illustrert med et gjennomgående eksempel. Prognose salgsvolum i en klesbutikk. Sunflowers-kjeden av lavprisklesbutikker har ekspandert konstant i 25 år. Selskapet har imidlertid foreløpig ikke en systematisk tilnærming til valg av nye utsalgssteder. Stedet hvor selskapet har til hensikt å åpne ny butikk fastsettes ut fra subjektive hensyn. Utvalgskriteriene er gunstige leieforhold eller lederens idé om den ideelle plasseringen av butikken. Tenk deg at du er leder for Spesialprosjekt- og planavdelingen. Du har fått i oppgave å utvikle en strategisk plan for åpning av nye butikker. Denne planen bør inneholde en prognose for årlig salg i nyåpnede butikker. Du tror at salgslokaler er direkte relatert til inntekter og ønsker å ta dette faktum inn i beslutningsprosessen din. Hvordan utvikler man en statistisk modell som predikerer årlig salg basert på ny butikkstørrelse?

Vanligvis brukes regresjonsanalyse for å forutsi verdiene til en variabel. Målet er å utvikle en statistisk modell som forutsier verdiene til den avhengige variabelen, eller responsen, fra verdiene til minst én uavhengig eller forklarende variabel. I dette notatet vil vi vurdere en enkel lineær regresjon - en statistisk metode som lar deg forutsi verdiene til den avhengige variabelen Y med verdiene til den uavhengige variabelen X. Følgende notater vil beskrive en multippel regresjonsmodell designet for å forutsi verdiene til den uavhengige variabelen Y ved verdiene til flere avhengige variabler ( X1, X2, …, X k).

Last ned notat i eller format, eksempler i format

Typer regresjonsmodeller

hvor ρ 1 er autokorrelasjonskoeffisienten; hvis ρ 1 = 0 (ingen autokorrelasjon), D≈ 2; hvis ρ 1 ≈ 1 (positiv autokorrelasjon), D≈ 0; hvis ρ 1 = -1 (negativ autokorrelasjon), D ≈ 4.

I praksis er anvendelsen av Durbin-Watson-kriteriet basert på en sammenligning av verdien D med kritiske teoretiske verdier d L og d U for et gitt antall observasjoner n, antall uavhengige variabler i modellen k(for enkel lineær regresjon k= 1) og signifikansnivå α. Hvis en D< d L , hypotesen om uavhengighet av tilfeldige avvik avvises (derfor er det en positiv autokorrelasjon); hvis D > dU, hypotesen er ikke forkastet (det vil si at det ikke er noen autokorrelasjon); hvis d L< D < d U det er ikke nok grunn til å ta en avgjørelse. Når den beregnede verdien D overstiger 2, da d L og d U det er ikke selve koeffisienten som sammenlignes D, og uttrykket (4 – D).

For å beregne Durbin-Watson-statistikken i Excel, går vi til den nederste tabellen i fig. fjorten Saldouttak. Telleren i uttrykk (10) beregnes ved å bruke funksjonen = SUMMQDIFF(matrise1, matrise2), og nevneren = SUMMQ(matrise) (fig. 16).

Ris. 16. Formler for beregning av Durbin-Watson-statistikk

I vårt eksempel D= 0,883. Hovedspørsmålet er: hvilken verdi av Durbin-Watson-statistikken bør anses som liten nok til å konkludere med at det er en positiv autokorrelasjon? Det er nødvendig å korrelere verdien av D med de kritiske verdiene ( d L og d U) avhengig av antall observasjoner n og signifikansnivå α (fig. 17).

Ris. 17. Kritiske verdier av Durbin-Watson-statistikk (tabellfragment)

Derfor, i problemet med salgsvolumet i en butikk som leverer varer til hjemmet ditt, er det én uavhengig variabel ( k= 1), 15 observasjoner ( n= 15) og signifikansnivå α = 0,05. Følgelig d L= 1,08 og dU= 1,36. Fordi det D = 0,883 < d L= 1,08, det er en positiv autokorrelasjon mellom residualene, minste kvadraters metode kan ikke brukes.

Testing av hypoteser om helning og korrelasjonskoeffisient

Regresjonen ovenfor ble kun brukt for prognoser. For å bestemme regresjonskoeffisienter og forutsi verdien av en variabel Y for en gitt variabelverdi X metoden med minste kvadrater ble brukt. I tillegg vurderte vi standardfeilen til estimatet og koeffisienten for blandet korrelasjon. Dersom restanalysen bekrefter at minstekvadratmetodens anvendbarhetsbetingelser ikke brytes, og den enkle lineære regresjonsmodellen er adekvat, basert på utvalgsdataene, kan det hevdes at det er en lineær sammenheng mellom variablene i populasjonen.

applikasjont -kriterier for helning. Ved å sjekke om populasjonshellingen β 1 er lik null, kan man fastslå om det er en statistisk signifikant sammenheng mellom variablene X og Y. Hvis denne hypotesen forkastes, kan det hevdes at mellom variablene X og Y det er en lineær sammenheng. Null- og alternativhypotesene er formulert som følger: H 0: β 1 = 0 (ingen lineær sammenheng), H1: β 1 ≠ 0 (det er en lineær sammenheng). Per definisjon t-statistikk er lik forskjellen mellom prøvehellingen og den hypotetiske populasjonshellingen, delt på standardfeilen til helningsestimatet:

(11) t = (b 1 β 1 ) / Sb 1

hvor b 1 er helningen til den direkte regresjonen basert på prøvedata, β1 er den hypotetiske helningen til den direkte generelle populasjonen, og teststatistikk t Det har t- distribusjon med n - 2 grader av frihet.

La oss sjekke om det er en statistisk signifikant sammenheng mellom butikkstørrelse og årlig omsetning ved α = 0,05. t-kriterier vises sammen med andre parametere ved bruk Analysepakke(alternativ Regresjon). De fullstendige resultatene av analysepakken er vist i fig. 4, et fragment relatert til t-statistikk - i fig. atten.

Ris. 18. Søknadsresultater t

Fordi antall butikker n= 14 (se fig. 3), kritisk verdi t-statistikk på et signifikansnivå α = 0,05 kan finnes ved formelen: t L=STUDENT.INV(0,025;12) = -2,1788 der 0,025 er halvparten av signifikansnivået og 12 = n – 2; t U\u003d STUDENT.INV (0,975, 12) \u003d +2,1788.

Fordi det t-statistikk = 10,64 > t U= 2,1788 (fig. 19), nullhypotese H 0 blir avvist. På den andre siden, R-verdi for X\u003d 10.6411, beregnet ved formelen \u003d 1-STUDENT.DIST (D3, 12, TRUE), er omtrent lik null, så hypotesen H 0 blir avvist igjen. Det faktum at R-verdien er nesten null, noe som betyr at hvis det ikke var noen reell lineær sammenheng mellom butikkstørrelse og årlig salg, ville det være nesten umulig å finne den ved hjelp av lineær regresjon. Derfor er det en statistisk signifikant lineær sammenheng mellom gjennomsnittlig årlig butikksalg og butikkstørrelse.

Ris. 19. Testing av hypotesen om helningen til den generelle befolkningen på et signifikansnivå på 0,05 og 12 frihetsgrader

applikasjonF -kriterier for helning. En alternativ tilnærming til å teste hypoteser om helningen til en enkel lineær regresjon er å bruke F-kriterier. Husk det F-kriterium brukes til å teste forholdet mellom to varianser (se detaljer). Når du tester helningshypotesen, er målet for tilfeldige feil feilvariansen (summen av kvadrerte feil delt på antall frihetsgrader), så F-test bruker forholdet mellom variansen forklart av regresjonen (dvs. verdiene SSR delt på antall uavhengige variabler k), til feilavviket ( MSE=SYX 2 ).

Per definisjon F-statistikk er lik gjennomsnittet av kvadrerte avvik på grunn av regresjon (MSR) delt på feilvariansen (MSE): F = MSR/ MSE, hvor MSR=SSR / k, MSE =SSE/(n– k – 1), k er antall uavhengige variabler i regresjonsmodellen. Teststatistikk F Det har F- distribusjon med k og n– k – 1 grader av frihet.

For et gitt signifikansnivå α er beslutningsregelen formulert slik: if F > FU, nullhypotesen forkastes; ellers blir det ikke avvist. Resultatene, presentert i form av en oppsummeringstabell over variansanalysen, er vist i fig. tjue.

Ris. 20. Tabell med variansanalyse for å teste hypotesen om den statistiske signifikansen til regresjonskoeffisienten

på samme måte t-kriterium F-kriterier vises i tabellen ved bruk Analysepakke(alternativ Regresjon). Fullstendige resultater av arbeidet Analysepakke vist i fig. 4, fragment relatert til F-statistikk - i fig. 21.

Ris. 21. Søknadsresultater F- Kriterier oppnådd ved hjelp av Excel Analysis ToolPack

F-statistikk er 113,23 og R-verdi nær null (celle BetydningF). Hvis signifikansnivået α er 0,05, bestemmer du den kritiske verdien F-fordelinger med én og 12 frihetsgrader kan fås fra formelen F U\u003d F. OBR (1-0,05; 1; 12) \u003d 4,7472 (fig. 22). Fordi det F = 113,23 > F U= 4,7472, og R-verdi nær 0< 0,05, нулевая гипотеза H 0 avviker, dvs. Størrelsen på en butikk er nært knyttet til dens årlige salgsvolum.

Ris. 22. Testing av hypotesen om helningen til den generelle befolkningen på et signifikansnivå på 0,05, med én og 12 frihetsgrader

Konfidensintervall som inneholder helning β 1 . For å teste hypotesen om eksistensen av en lineær sammenheng mellom variabler, kan du bygge et konfidensintervall som inneholder helningen β 1 og sørge for at den hypotetiske verdien β 1 = 0 tilhører dette intervallet. Sentrum av konfidensintervallet som inneholder helningen β 1 er prøvehellingen b 1 , og dens grenser er mengdene b 1 ±t n –2 Sb 1

Som vist i fig. atten, b 1 = +1,670, n = 14, Sb 1 = 0,157. t 12 \u003d STUDENT.OBR (0,975, 12) \u003d 2,1788. Følgelig b 1 ±t n –2 Sb 1 = +1,670 ± 2,1788 * 0,157 = +1,670 ± 0,342, eller + 1,328 ≤ β 1 ≤ +2,012. Dermed ligger helningen til befolkningen med en sannsynlighet på 0,95 i området fra +1,328 til +2,012 (dvs. fra $1,328,000 til $2,012,000). Fordi disse verdiene er større enn null, er det en statistisk signifikant lineær sammenheng mellom årlig salg og butikkareal. Hvis konfidensintervallet inneholdt null, ville det ikke være noen sammenheng mellom variablene. I tillegg betyr konfidensintervallet at hver 1000 kvm. fot resulterer i en økning i gjennomsnittlig salg på $1.328.000 til $2.012.000.

Brukt -kriterier for korrelasjonskoeffisienten. korrelasjonskoeffisient ble introdusert r, som er et mål på forholdet mellom to numeriske variabler. Den kan brukes til å finne ut om det er en statistisk signifikant sammenheng mellom to variabler. La oss betegne korrelasjonskoeffisienten mellom populasjonene til begge variablene med symbolet ρ. Null- og alternativhypotesene er formulert som følger: H 0: ρ = 0 (ingen korrelasjon), H 1: ρ ≠ 0 (det er en korrelasjon). Sjekker om det finnes en korrelasjon:

hvor r = + , hvis b 1 > 0, r = – , hvis b 1 < 0. Тестовая статистика t Det har t- distribusjon med n - 2 grader av frihet.

I problemet med butikkjeden Sunflowers r2= 0,904, og b 1- +1,670 (se fig. 4). Fordi det b 1> 0, er korrelasjonskoeffisienten mellom årsomsetning og butikkstørrelse r= +√0,904 = +0,951. La oss teste nullhypotesen om at det ikke er noen korrelasjon mellom disse variablene ved å bruke t- statistikk:

Ved et signifikansnivå på α = 0,05 bør nullhypotesen forkastes pga. t= 10,64 > 2,1788. Dermed kan det hevdes at det er en statistisk signifikant sammenheng mellom årsomsetning og butikkstørrelse.

Når man diskuterer slutninger om populasjonshellinger, er konfidensintervaller og kriterier for testing av hypoteser utskiftbare verktøy. Beregningen av konfidensintervallet som inneholder korrelasjonskoeffisienten viser seg imidlertid å være vanskeligere, siden formen for samplingsfordelingen av statistikken r avhenger av den sanne korrelasjonskoeffisienten.

Estimering av matematisk forventning og prediksjon av individuelle verdier

Denne delen diskuterer metoder for å estimere forventet respons Y og spådommer om individuelle verdier Y for gitte verdier av variabelen X.

Konstruksjon av et konfidensintervall. I eksempel 2 (se avsnittet ovenfor Minste kvadratiske metode) regresjonsligningen gjorde det mulig å forutsi verdien av variabelen Y X. I problemet med å velge et sted for et utsalgssted, er det gjennomsnittlige årlige salget i en butikk med et areal på 4000 kvm. fot var lik 7,644 millioner dollar, men dette anslaget av den matematiske forventningen til befolkningen generelt er et poeng. for å estimere den matematiske forventningen til den generelle befolkningen, ble konseptet med et konfidensintervall foreslått. På samme måte kan man introdusere konseptet konfidensintervall for den matematiske forventningen til responsen for en gitt verdi av en variabel X:

hvor , = b 0 + b 1 X i– predikert verdivariabel YX = X i, S YX er den gjennomsnittlige kvadratfeilen, n er prøvestørrelsen, XJeg- den gitte verdien av variabelen X, µ Y|X = XJeg– matematisk forventning til en variabel YX = Х i,SSX=

Analyse av formel (13) viser at bredden på konfidensintervallet avhenger av flere faktorer. Ved et gitt signifikansnivå fører en økning i amplituden av fluktuasjoner rundt regresjonslinjen, målt ved bruk av gjennomsnittlig kvadratfeil, til en økning i intervallets bredde. På den annen side, som forventet, er en økning i utvalgsstørrelsen ledsaget av en innsnevring av intervallet. I tillegg endres bredden på intervallet avhengig av verdiene XJeg. Hvis verdien av variabelen Y spådd for mengder X, nær gjennomsnittsverdien , viser konfidensintervallet seg å være smalere enn når man forutsier responsen for verdier langt fra gjennomsnittet.

La oss si at når vi velger et sted for en butikk, ønsker vi å bygge et 95 % konfidensintervall for gjennomsnittlig årlig omsetning i alle butikker med et areal på 4000 kvadratmeter. føtter:

Derfor gjennomsnittlig årlig salgsvolum i alle butikker med et areal på 4000 kvadratmeter. fot, med en 95% sannsynlighet ligger i området fra 6,971 til 8,317 millioner dollar.

Beregn konfidensintervallet for den anslåtte verdien. I tillegg til konfidensintervallet for den matematiske forventningen til responsen for en gitt verdi av variabelen X, er det ofte nødvendig å vite konfidensintervallet for den predikerte verdien. Selv om formelen for å beregne et slikt konfidensintervall er veldig lik formel (13), inneholder dette intervallet en predikert verdi og ikke et estimat av parameteren. Intervall for antatt respons YX = Xi for en bestemt verdi av variabelen XJeg bestemmes av formelen:

La oss anta at når vi velger et sted for et utsalgssted, ønsker vi å bygge et 95 % konfidensintervall for det anslåtte årlige salgsvolumet i en butikk med et areal på 4000 kvadratmeter. føtter:

Derfor er det anslåtte årlige salgsvolumet for en 4000 kvm. fot, med 95 % sannsynlighet ligger i området fra 5,433 til 9,854 millioner dollar. Som du kan se, er konfidensintervallet for den predikerte responsverdien mye bredere enn konfidensintervallet for dens matematiske forventning. Dette er fordi variasjonen i å forutsi individuelle verdier er mye større enn i å estimere forventet verdi.

Fallgruver og etiske problemstillinger knyttet til bruk av regresjon

Vanskeligheter knyttet til regresjonsanalyse:

  • Ignorerer betingelsene for anvendelighet av metoden for minste kvadrater.
  • Et feilaktig estimat av betingelsene for anvendelighet av minste kvadraters metode.
  • Feil valg av alternative metoder i strid med minste kvadraters bruksbetingelser.
  • Anvendelse av regresjonsanalyse uten inngående kjennskap til studiefaget.
  • Ekstrapolering av regresjonen utenfor rekkevidden til forklaringsvariabelen.
  • Forvirring mellom statistiske og årsakssammenhenger.

Den utbredte bruken av regneark og statistisk programvare har eliminert beregningsproblemene som hindret bruken av regresjonsanalyse. Dette førte imidlertid til at regresjonsanalyse begynte å bli brukt av brukere som ikke har tilstrekkelige kvalifikasjoner og kunnskaper. Hvordan vet brukerne om alternative metoder hvis mange av dem ikke har noen formening om betingelsene for anvendelighet av minste kvadraters metode og ikke vet hvordan de skal kontrollere implementeringen?

Forskeren skal ikke la seg rive med av sliping av tall - å beregne forskyvning, helning og blandet korrelasjonskoeffisient. Han trenger dypere kunnskap. La oss illustrere dette med et klassisk eksempel hentet fra lærebøker. Anscombe viste at alle fire datasettene vist i fig. 23 har samme regresjonsparametere (fig. 24).

Ris. 23. Fire kunstige datasett

Ris. 24. Regresjonsanalyse av fire kunstige datasett; ferdig med Analysepakke(klikk på bildet for å forstørre bildet)

Så, fra synspunktet til regresjonsanalyse, er alle disse datasettene helt identiske. Hvis analysen endte der, ville vi mistet mye nyttig informasjon. Dette er bevist av spredningsplottene (fig. 25) og gjenværende plott (fig. 26) konstruert for disse datasettene.

Ris. 25. Spredningsplott for fire datasett

Spredningsplott og restplott viser at disse dataene er forskjellige fra hverandre. Den eneste mengden fordelt langs en rett linje er sett A. Plottet av residualene beregnet fra sett A har ikke noe mønster. Det samme kan ikke sies for sett B, C og D. Spredningsplottet plottet for sett B viser et uttalt kvadratisk mønster. Denne konklusjonen bekreftes av plottet av rester, som har en parabolsk form. Spredningsplottet og restplottet viser at datasett B inneholder en uteligger. I denne situasjonen er det nødvendig å ekskludere uteliggeren fra datasettet og gjenta analysen. Teknikken for å oppdage og eliminere uteliggere fra observasjoner kalles påvirkningsanalyse. Etter å ha eliminert uteliggeren, kan resultatet av revurderingen av modellen bli helt annerledes. Et spredningsplott plottet fra datasett D illustrerer en uvanlig situasjon der den empiriske modellen er svært avhengig av en enkelt respons ( X 8 = 19, Y 8 = 12,5). Slike regresjonsmodeller må beregnes spesielt nøye. Så sprednings- og gjenværende plott er et viktig verktøy for regresjonsanalyse og bør være en integrert del av det. Uten dem er ikke regresjonsanalyse troverdig.

Ris. 26. Plott av residualer for fire datasett

Slik unngår du fallgruver i regresjonsanalyse:

  • Analyse av mulig sammenheng mellom variabler X og Y start alltid med et scatterplot.
  • Før du tolker resultatene av en regresjonsanalyse, sjekk betingelsene for dens anvendelighet.
  • Plott residualene versus den uavhengige variabelen. Dette vil tillate å bestemme hvordan den empiriske modellen tilsvarer resultatene av observasjon, og å oppdage brudd på variansens konstantitet.
  • Bruk histogrammer, stilk- og bladplott, boksplott og normalfordelingsplott for å teste antakelsen om en normalfordeling av feil.
  • Hvis anvendbarhetsbetingelsene for minste kvadraters metode ikke er oppfylt, bruk alternative metoder (for eksempel kvadratiske eller multiple regresjonsmodeller).
  • Hvis anvendbarhetsbetingelsene for minste kvadraters metode er oppfylt, er det nødvendig å teste hypotesen om den statistiske signifikansen til regresjonskoeffisientene og konstruere konfidensintervaller som inneholder den matematiske forventningen og den predikerte responsverdien.
  • Unngå å forutsi verdier av den avhengige variabelen utenfor rekkevidden til den uavhengige variabelen.
  • Husk at statistiske avhengigheter ikke alltid er årsakssammenheng. Husk at korrelasjon mellom variabler ikke betyr at det er en årsakssammenheng mellom dem.

Sammendrag. Som vist i blokkdiagrammet (fig. 27), beskriver notatet en enkel lineær regresjonsmodell, betingelsene for dens anvendelighet og måter å teste disse forholdene på. Ansett t-kriterium for å teste den statistiske signifikansen av helningen til regresjonen. En regresjonsmodell ble brukt til å forutsi verdiene til den avhengige variabelen. Et eksempel vurderes knyttet til valg av sted for et utsalgssted, hvor avhengigheten av det årlige salgsvolumet av butikkarealet studeres. Informasjonen som innhentes lar deg velge et sted for butikken mer nøyaktig og forutsi dets årlige salg. I de følgende notatene vil diskusjonen om regresjonsanalyse fortsette, så vel som flere regresjonsmodeller.

Ris. 27. Blokkdiagram av et notat

Materiale fra boken Levin mfl. Statistikk for ledere benyttes. - M.: Williams, 2004. - s. 792–872

Hvis den avhengige variabelen er kategorisk, bør logistisk regresjon brukes.

Regresjonsanalyse er en av de mest populære metodene for statistisk forskning. Den kan brukes til å bestemme graden av påvirkning av uavhengige variabler på den avhengige variabelen. Funksjonaliteten til Microsoft Excel har verktøy utviklet for å utføre denne typen analyser. La oss ta en titt på hva de er og hvordan du bruker dem.

Men for å bruke funksjonen som lar deg utføre regresjonsanalyse, må du først og fremst aktivere analysepakken. Først da vil verktøyene som er nødvendige for denne prosedyren vises på Excel-båndet.


Nå når vi går til fanen "Data", på båndet i verktøykassen "Analyse" vi vil se en ny knapp - "Dataanalyse".

Typer regresjonsanalyse

Det finnes flere typer regresjoner:

  • parabolsk;
  • makt;
  • logaritmisk;
  • eksponentiell;
  • demonstrasjon;
  • hyperbolsk;
  • lineær regresjon.

Vi vil snakke mer detaljert om implementeringen av den siste typen regresjonsanalyse i Excel senere.

Lineær regresjon i Excel

Nedenfor er som eksempel en tabell som viser gjennomsnittlig daglig lufttemperatur på gaten, og antall butikkkunder for tilsvarende arbeidsdag. La oss finne ut ved hjelp av regresjonsanalyse nøyaktig hvordan værforhold i form av lufttemperatur kan påvirke oppmøtet til en detaljhandel.

Den generelle lineære regresjonsligningen ser slik ut: Y = a0 + a1x1 + ... + axk. I denne formelen Y betyr variabelen hvis innflytelse vi prøver å studere. I vårt tilfelle er dette antallet kjøpere. Betydning x er de ulike faktorene som påvirker variabelen. Alternativer en er regresjonskoeffisientene. Det vil si at de bestemmer betydningen av en bestemt faktor. Indeks k angir det totale antallet av de samme faktorene.


Analyseresultater analyse

Resultatene av regresjonsanalysen vises i form av en tabell på stedet angitt i innstillingene.

En av hovedindikatorene er R-firkant. Det indikerer kvaliteten på modellen. I vårt tilfelle er denne koeffisienten 0,705 eller omtrent 70,5%. Dette er et akseptabelt kvalitetsnivå. Et forhold mindre enn 0,5 er dårlig.

En annen viktig indikator er plassert i cellen ved skjæringspunktet mellom linjen "Y-kryss" og kolonne "Koeffisienter". Her er det angitt hvilken verdi Y vil ha, og i vårt tilfelle er dette antall kjøpere, med alle andre faktorer lik null. I denne tabellen er denne verdien 58,04.

Verdi i skjæringspunktet mellom grafen "Variabel X1" og "Koeffisienter" viser nivået av avhengighet av Y på X. I vårt tilfelle er dette nivået av avhengighet av antall butikkkunder av temperatur. En koeffisient på 1,31 regnes som en ganske høy indikator på innflytelse.

Som du kan se, er det ganske enkelt å lage en regresjonsanalysetabell ved hjelp av Microsoft Excel. Men bare en trent person kan jobbe med dataene som er oppnådd ved utgangen, og forstå essensen deres.

Forelesning 3

Regresjonsanalyse.

1) Numeriske kjennetegn ved regresjon

2) Lineær regresjon

3) Ikke-lineær regresjon

4) Multippel regresjon

5) Bruke MS EXCEL for å utføre regresjonsanalyse

Kontroll- og evalueringsverktøy - testoppgaver

1. Numeriske kjennetegn ved regresjon

Regresjonsanalyse er en statistisk metode for å studere innflytelsen av en eller flere uavhengige variabler på en avhengig variabel. Uavhengige variabler kalles ellers regressorer eller prediktorer, og avhengige variabler kalles kriterier. Terminologien til avhengige og uavhengige variabler reflekterer kun den matematiske avhengigheten til variablene, og ikke forholdet mellom årsak og virkning.

Mål for regresjonsanalyse

  • Bestemmelse av graden av determinisme av variasjonen av kriteriet (avhengig) variabel ved prediktorer (uavhengige variabler).
  • Forutsi verdien av den avhengige variabelen ved å bruke den eller de uavhengige variablene.
  • Bestemmelse av bidraget til individuelle uavhengige variabler til variasjonen av den avhengige.

Regresjonsanalyse kan ikke brukes til å avgjøre om det er en sammenheng mellom variabler, siden eksistensen av en slik sammenheng er en forutsetning for å anvende analysen.

For å utføre regresjonsanalyse, må du først gjøre deg kjent med de grunnleggende begrepene statistikk og sannsynlighetsteori.

Grunnleggende numeriske egenskaper ved diskrete og kontinuerlige tilfeldige variabler: matematisk forventning, varians og standardavvik.

Tilfeldige variabler er delt inn i to typer:

  • Diskret, som bare kan ta spesifikke, forhåndsbestemte verdier (for eksempel verdiene til tall på oversiden av en kastet terning eller ordensverdier for gjeldende måned);
  • · kontinuerlig (oftest - verdiene til noen fysiske mengder: vekter, avstander, temperaturer, etc.), som i henhold til naturlovene kan ta på seg alle verdier, i det minste i et visst intervall.

Fordelingsloven til en tilfeldig variabel er samsvaret mellom de mulige verdiene til en diskret tilfeldig variabel og dens sannsynligheter, vanligvis skrevet i en tabell:

Den statistiske definisjonen av sannsynlighet uttrykkes i form av den relative frekvensen av en tilfeldig hendelse, det vil si at den finnes som forholdet mellom antall tilfeldige variabler og det totale antallet tilfeldige variabler.

Matematisk forventning til en diskret tilfeldig variabelX kalles summen av produktene av verdiene av mengden X på sannsynligheten for disse verdiene. Den matematiske forventningen er betegnet med eller M(X) .

n

= M(X) = x 1 s 1 + x 2 s 2 +… + x n p n = S x i pi

Jeg=1

Spredningen av en tilfeldig variabel i forhold til dens matematiske forventning bestemmes ved å bruke en numerisk karakteristikk kalt spredning. Enkelt sagt er varians spredningen av en tilfeldig variabel rundt gjennomsnittet. For å forstå essensen av spredning, vurder et eksempel. Gjennomsnittslønnen i landet er omtrent 25 tusen rubler. Hvor kommer dette tallet fra? Mest sannsynlig er all lønn lagt sammen og delt på antall ansatte. I dette tilfellet er det en veldig stor spredning (minstelønnen er omtrent 4 tusen rubler, og maksimum er omtrent 100 tusen rubler). Hvis alle hadde samme lønn, ville spredningen vært null, og det ville ikke vært noen spredning.

Spredning av en diskret tilfeldig variabelX kalles den matematiske forventningen til kvadratet av forskjellen til en tilfeldig variabel og dens matematiske forventning:

D = M [ ((X - M (X)) 2 ]

Ved å bruke definisjonen av matematisk forventning for å beregne variansen, får vi formelen:

D \u003d S (x i - M (X)) 2 p i

Variansen har dimensjonen til kvadratet til en tilfeldig variabel. I tilfeller der det er nødvendig å ha en numerisk karakteristikk av spredningen av mulige verdier i samme dimensjon som selve tilfeldige variabelen, brukes standardavviket.

Standardavvik tilfeldig variabel kalles kvadratroten av dens varians.

Gjennomsnittlig kvadratavvik er et mål på spredningen av verdiene til en tilfeldig variabel rundt dens matematiske forventning.

Eksempel.

Fordelingsloven til en tilfeldig variabel X er gitt av følgende tabell:

Finn dens matematiske forventning, varians og standardavvik .

Vi bruker formlene ovenfor:

M (X) \u003d 1 0,1 + 2 0,4 + 4 0,4 ​​+ 5 0,1 \u003d 3

D \u003d (1-3) 2 0,1 + (2 - 3) 2 0,4 + (4 - 3) 2 0,4 + (5 - 3) 2 0,1 \u003d 1,6

Eksempel.

I pengelotteriet spilles 1 gevinst på 1000 rubler, 10 gevinster på 100 rubler og 100 gevinster på 1 rubler hver med et totalt antall lodd på 10 000. Lag en distribusjonslov for en tilfeldig gevinst X for eieren av ett lodd og bestemme den matematiske forventningen, variansen og standardavviket til en tilfeldig variabel.

X 1 \u003d 1000, X 2 \u003d 100, X 3 \u003d 1, X 4 \u003d 0,

P 1 = 1/10 000 = 0,0001, P 2 = 10/10000 = 0,001, P 3 = 100/10 000 = 0,01, P 4 = 1 - (P 1 + P 2 + P 3) = 0,9889.

Vi legger resultatene i en tabell:

Matematisk forventning - summen av sammenkoblede produkter av verdien av en tilfeldig variabel etter deres sannsynlighet. For dette problemet er det tilrådelig å beregne det med formelen

1000 0,0001 + 100 0,001 + 1 0,01 + 0 0,9889 = 0,21 rubler.

Vi fikk en skikkelig "fair" billettpris.

D \u003d S (x i - M (X)) 2 p i \u003d (1000 - 0,21) 2 0,0001 + (100 - 0,21) 2 0,001 +

+ (1 - 0,21) 2 0,01 + (0 - 0,21) 2 0,9889 ≈ 109,97

Fordelingsfunksjon av kontinuerlige tilfeldige variabler

Verdien, som som et resultat av testen vil ta én mulig verdi (det er ikke kjent på forhånd hvilken), kalles en tilfeldig variabel. Som nevnt ovenfor er tilfeldige variabler diskrete (diskontinuerlige) og kontinuerlige.

En diskret variabel er en tilfeldig variabel som antar separate mulige verdier med visse sannsynligheter som kan nummereres.

En kontinuerlig variabel er en tilfeldig variabel som kan ta på seg alle verdier fra et begrenset eller uendelig intervall.

Frem til dette punktet har vi begrenset oss til bare én "variasjon" av tilfeldige variabler - diskrete, dvs. tar endelige verdier.

Men statistikkens teori og praksis krever bruk av konseptet med en kontinuerlig tilfeldig variabel - som tillater alle numeriske verdier fra ethvert intervall.

Fordelingsloven til en kontinuerlig tilfeldig variabel spesifiseres praktisk ved å bruke den såkalte. f(x). Sannsynlighet P(a< X < b) того, что значение, принятое случайной величиной Х, попадет в промежуток (a; b), определяется равенством

P (a< X < b) = ∫ f(x) dx

Grafen til funksjonen f (x) kalles distribusjonskurven. Geometrisk er sannsynligheten for at en tilfeldig variabel faller inn i intervallet (a; b) lik arealet til den tilsvarende kurvelinjeformede trapesen, avgrenset av fordelingskurven, okseaksen og de rette linjene x = a, x = b .

P(a£X

Hvis et begrenset eller tellbart sett trekkes fra en kompleks hendelse, vil sannsynligheten for en ny hendelse forbli uendret.

Funksjon f(x) - en numerisk skalarfunksjon av et reelt argument x kalles en sannsynlighetstetthet, og eksisterer i et punkt x hvis det er en grense på dette punktet:

Sannsynlighetstetthetsegenskaper:

  1. Sannsynlighetstettheten er en ikke-negativ funksjon, dvs. f(x) ≥ 0

(hvis alle verdiene til den tilfeldige variabelen X er i intervallet (a;b), så den siste

likhet kan skrives som ∫ f (x) dx = 1).

Tenk nå på funksjonen F(x) = P(X< х). Эта функция называется функцией распределения вероятности случайной величины Х. Функция F(х) существует как для дискретных, так и для непрерывных случайных величин. Если f (x) - функция плотности распределения вероятности

kontinuerlig tilfeldig variabel X, deretter F (x) = ∫ f(x) dx = 1).

Det følger av den siste likheten at f (x) = F" (x)

Noen ganger kalles funksjonen f(x) den differensielleen, og funksjonen F(x) kalles den kumulativeen.

Vi legger merke til de viktigste egenskapene tilen:

  1. F(x) er en ikke-avtagende funksjon.
  2. F(-∞)=0.
  3. F (+∞) = 1.

Begrepet en fordelingsfunksjon er sentralt i sannsynlighetsteorien. Ved å bruke dette konseptet kan man gi en annen definisjon av en kontinuerlig tilfeldig variabel. En tilfeldig variabel kalles kontinuerlig hvis dens integralfordelingsfunksjon F(x) er kontinuerlig.

Numeriske kjennetegn ved kontinuerlige tilfeldige variabler

Den matematiske forventningen, variansen og andre parametere for eventuelle tilfeldige variabler beregnes nesten alltid ved hjelp av formler som følger av fordelingsloven.

For en kontinuerlig tilfeldig variabel beregnes den matematiske forventningen med formelen:

M(X) = ∫ x f(x) dx

Spredning:

D(X) = ∫ ( x- M (X)) 2 f(x) dx eller D(X) = ∫ x 2 f(x) dx - (M (X)) 2

2. Lineær regresjon

La komponentene X og Y til en todimensjonal tilfeldig variabel (X, Y) være avhengige. Vi vil anta at en av dem tilnærmet kan representeres som en lineær funksjon av den andre, for eksempel

Y ≈ g(X) = α + βX, og bestem parametrene α og β ved hjelp av minste kvadraters metode.

Definisjon. Funksjonen g(X) = α + βX kalles beste tilnærming Y i betydningen minste kvadraters metode, hvis den matematiske forventningen M(Y - g(X)) 2 har minst mulig verdi; funksjonen g(X) kalles gjennomsnittlig kvadratregresjon Y til X.

Teorem Den lineære gjennomsnittlige kvadratiske regresjonen av Y på X er:

hvor er korrelasjonskoeffisienten X og Y.

Koeffisienter til ligningen.

Man kan sjekke at for disse verdiene funksjonsfunksjonen F(α, β)

F(α, β ) = M(Y - a - βX)² har et minimum, som beviser påstanden til teoremet.

Definisjon. Koeffisienten kalles regresjonskoeffisient Y på X, og den rette linjen - - direkte gjennomsnittlig kvadratregresjon av Y på X.

Ved å erstatte koordinatene til det stasjonære punktet i likheten, kan vi finne minimumsverdien til funksjonen F(α, β) lik Denne verdien kalles restdispersjon Y i forhold til X og karakteriserer mengden feil som er tillatt når Y erstattes med

g(X) = α + βX. Ved er restvariansen 0, det vil si at likheten ikke er omtrentlig, men eksakt. Derfor, når Y og X er forbundet med en lineær funksjonell avhengighet. På samme måte kan du få en rett linje med rot-middel-kvadrat-regresjon av X på Y:

og den gjenværende variansen til X med hensyn til Y. For begge direkte regresjoner sammenfaller. Ved å sammenligne regresjonsligningene Y på X og X på Y og løse likningssystemet, kan du finne skjæringspunktet for regresjonslinjene - et punkt med koordinater (t x, t y), kalt sentrum av fellesfordelingen av X- og Y-verdier.

Vi vil vurdere algoritmen for å kompilere regresjonsligninger fra læreboken til V. E. Gmurman "Sannsynlighetsteori og matematisk statistikk" s. 256.

1) Sett sammen en beregningstabell der antall prøveelementer, prøvealternativer, deres kvadrater og produkt vil bli registrert.

2) Regn ut summen over alle kolonnene unntatt tallet.

3) Beregn gjennomsnittsverdiene for hver mengde, spredning og standardavvik.

5) Test hypotesen om eksistensen av en sammenheng mellom X og Y.

6) Komponer likningene til begge regresjonslinjene og plott grafene til disse likningene.

Helningen til den rette linjeregresjonen Y på X er prøveregresjonskoeffisienten

Koeffisient b=

Vi får den ønskede ligningen av regresjonslinjen Y på X:

Y \u003d 0,202 X + 1,024

Tilsvarende, regresjonsligningen X på Y:

Helningen til den rette linjeregresjonen Y på X er prøveregresjonskoeffisienten pxy:

Koeffisient b=

X \u003d 4.119 Y - 3.714

3. Ikke-lineær regresjon

Hvis det er ikke-lineære forhold mellom økonomiske fenomener, uttrykkes de ved å bruke de tilsvarende ikke-lineære funksjonene.

Det er to klasser av ikke-lineære regresjoner:

1. Regresjoner som er ikke-lineære med hensyn til forklaringsvariablene som er inkludert i analysen, men lineære med hensyn til de estimerte parameterne, for eksempel:

Polynomer av ulike grader

Likesidet hyperbole - ;

Semilogaritmisk funksjon - .

2. Regresjoner som er ikke-lineære når det gjelder estimerte parametere, for eksempel:

Makt - ;

Demonstrerende -;

Eksponentiell - .

Ikke-lineære regresjoner på de inkluderte variablene reduseres til en lineær form ved en enkel endring av variabler, og videre estimering av parameterne utføres ved hjelp av minste kvadraters metode. La oss vurdere noen funksjoner.

Parabelen av andre grad reduseres til en lineær form ved å bruke erstatningen: . Som et resultat kommer vi til en tofaktorligning, estimeringen av hvis parametere ved bruk av minste kvadraters metode fører til ligningssystemet:

En parabel av andre grad brukes vanligvis i tilfeller der, for et visst intervall av faktorverdier, arten av forholdet til funksjonene som vurderes endres: et direkte forhold endres til et inverst eller et inverst til et direkte.

En likesidet hyperbel kan brukes til å karakterisere forholdet mellom de spesifikke kostnadene for råvarer, materialer, drivstoff og volum av produksjon, tidspunktet for sirkulasjon av varer og verdien av omsetningen. Det klassiske eksempelet er Phillips-kurven, som karakteriserer det ikke-lineære forholdet mellom arbeidsledigheten. x og prosentvis lønnsøkning y.

Hyperbelen reduseres til en lineær ligning ved en enkel erstatning: . Du kan også bruke Minste kvadraters metode for å bygge et system med lineære ligninger.

På lignende måte reduseres avhengighetene til en lineær form: , og andre.

En likesidet hyperbel og en semi-logaritmisk kurve brukes for å beskrive Engel-kurven (en matematisk beskrivelse av forholdet mellom andelen av utgifter til varige goder og totalforbruk (eller inntekt)). Ligningene de er inkludert i brukes i studier av produktivitet, arbeidsintensitet i landbruksproduksjonen.

4. Multippel regresjon

Multippel regresjon - en koblingsligning med flere uavhengige variabler:

hvor er den avhengige variabelen (resultanttegn);

Uavhengige variabler (faktorer).

For å bygge en multippel regresjonsligning, brukes følgende funksjoner oftest:

lineær -

makt -

utstiller -

overdrivelse - .

Du kan bruke andre funksjoner som kan reduseres til en lineær form.

For å estimere parametrene til den multiple regresjonsligningen, brukes minste kvadraters metode (LSM). For lineære ligninger og ikke-lineære ligninger som kan reduseres til lineære, er følgende system med normale ligninger konstruert, hvis løsning gjør det mulig å oppnå estimater av regresjonsparametrene:

For å løse det kan metoden for determinanter brukes:

hvor er determinanten for systemet;

Private determinanter; som oppnås ved å erstatte den tilsvarende kolonnen i matrisen til systemets determinant med dataene på venstre side av systemet.

En annen type multippel regresjonsligning er den standardiserte skala-regresjonsligningen, LSM er anvendelig for multippel regresjonsligningen på en standardisert skala.

5. BrukMSUTMERKEå utføre regresjonsanalyse

Regresjonsanalyse etablerer formen for forholdet mellom den tilfeldige variabelen Y (avhengig) og verdiene til en eller flere variabler (uavhengig), og verdiene til sistnevnte anses å være nøyaktig gitt. Slik avhengighet bestemmes vanligvis av en matematisk modell (regresjonsligning) som inneholder flere ukjente parametere. I løpet av regresjonsanalysen, på grunnlag av prøvedata, blir estimater av disse parameterne funnet, statistiske feil av estimater eller grenser for konfidensintervaller blir bestemt, og samsvar (tilstrekkelighet) av den aksepterte matematiske modellen med eksperimentelle data blir kontrollert.

I lineær regresjonsanalyse antas forholdet mellom tilfeldige variabler å være lineært. I det enkleste tilfellet, i en sammenkoblet lineær regresjonsmodell, er det to variabler X og Y. Og det kreves for n par observasjoner (X1, Y1), (X2, Y2), ..., (Xn, Yn) å bygge (velge) en rett linje, kalt regresjonslinjen, som "best" tilnærmer de observerte verdiene. Ligningen til denne linjen y=ax+b er en regresjonsligning. Ved å bruke en regresjonsligning kan du forutsi forventet verdi av den avhengige variabelen y som tilsvarer en gitt verdi av den uavhengige variabelen x. I tilfellet når avhengigheten mellom en avhengig variabel Y og flere uavhengige variabler X1, X2, ..., Xm vurderes, snakker man om multippel lineær regresjon.

I dette tilfellet har regresjonsligningen formen

y = a 0 +a 1 x 1 +a 2 x 2 +…+a m x m ,

hvor a0, a1, a2, …, am er regresjonskoeffisientene som skal bestemmes.

Koeffisientene til regresjonsligningen bestemmes ved hjelp av minste kvadraters metode, for å oppnå den minste mulige summen av kvadratforskjeller mellom de reelle verdiene til variabelen Y og de som er beregnet ved bruk av regresjonsligningen. Således kan for eksempel en lineær regresjonsligning konstrueres selv når det ikke er noen lineær korrelasjon.

Et mål på effektiviteten til regresjonsmodellen er bestemmelseskoeffisienten R2 (R-kvadrat). Bestemmelseskoeffisienten kan ta verdier mellom 0 og 1 bestemmer med hvilken grad av nøyaktighet den resulterende regresjonsligningen beskriver (tilnærmet) de opprinnelige dataene. Regresjonsmodellens betydning undersøkes også ved hjelp av F-kriteriet (Fisher) og påliteligheten til differansen mellom koeffisientene a0, a1, a2, ..., am fra null kontrolleres ved hjelp av Elevens t-test.

I Excel er de eksperimentelle dataene tilnærmet med en lineær ligning opp til 16. orden:

y = a0+a1x1+a2x2+…+a16x16

For å få lineære regresjonskoeffisienter kan "Regresjon"-prosedyren fra analysepakken brukes. Funksjonen LINJE gir også fullstendig informasjon om den lineære regresjonsligningen. I tillegg kan SLOPE- og INTERCEPT-funksjonene brukes til å få parametrene til regresjonsligningen, og TREND- og FORECAST-funksjonene kan brukes til å oppnå de predikerte Y-verdiene ved de nødvendige punktene (for parvis regresjon).

La oss vurdere i detalj anvendelsen av LINEST-funksjonen (kjent_y, [kjent_x], [konstant], [statistikk]): kjent_y - området av kjente verdier for den avhengige parameteren Y. I parvis regresjonsanalyse kan den ha hvilken som helst form; i flertall må det enten være en rad eller en kolonne; kjent_x er rekkevidden av kjente verdier for én eller flere uavhengige parametere. Må ha samme form som Y-området (henholdsvis for flere parametere, flere kolonner eller rader); konstant - boolsk argument. Hvis det, basert på den praktiske betydningen av regresjonsanalyseoppgaven, er nødvendig at regresjonslinjen går gjennom origo, det vil si at den frie koeffisienten er lik 0, bør verdien av dette argumentet settes lik 0 (eller " falsk"). Hvis verdien er satt til 1 (eller "sann") eller utelatt, beregnes den frie koeffisienten på vanlig måte; statistikk er et boolsk argument. Hvis verdien er satt til 1 (eller "true"), returneres en ekstra regresjonsstatistikk (se tabell) som brukes til å evaluere effektiviteten og betydningen av modellen. I det generelle tilfellet, for parvis regresjon y=ax+b, ser resultatet av å bruke LINJE-funksjonen slik ut:

Bord. Utdataområde for LINJE for parvis regresjonsanalyse

Ved multippel regresjonsanalyse for ligningen y=a0+a1x1+a2x2+…+amxm, vises koeffisientene am,…,a1,a0 på den første linjen, og standardfeilene for disse koeffisientene vises i den andre linjen . Rad 3-5, bortsett fra de to første kolonnene fylt med regresjonsstatistikk, vil gi #N/A.

LINEST-funksjonen skal legges inn som en matriseformel, først velge en matrise med ønsket størrelse for resultatet (m+1 kolonner og 5 rader hvis regresjonsstatistikk kreves) og fullføre formeloppføringen ved å trykke CTRL+SHIFT+ENTER.

Resultatet for vårt eksempel:

I tillegg har programmet en innebygd funksjon - Data Analysis på fanen Data.

Den kan også brukes til å utføre regresjonsanalyse:

På lysbildet - resultatet av regresjonsanalysen utført ved bruk av Data Analysis.

RESULTATER

Regresjonsstatistikk

Flere R

R-firkant

Normalisert R-kvadrat

standard feil

Observasjoner

Analyse av varianter

Betydning F

Regresjon

Odds

standard feil

t-statistikk

P-verdi

nederste 95 %

Topp 95 %

Lavere 95,0 %

Topp 95,0 %

Y-kryss

Variabel X 1

Regresjonsligningene som vi så på tidligere er også bygget i MS Excel. For å utføre dem, bygges først et spredningsplott, deretter velger du - Legg til trendlinje gjennom kontekstmenyen. I det nye vinduet, merk av i boksene - Vis ligningen på diagrammet og plasser verdien av tilnærmingspåliteligheten (R ^ 2) på diagrammet.

Litteratur:

  1. Sannsynlighetsteori og matematisk statistikk. Gmurman V. E. Lærebok for universiteter. - Ed. 10., sr. - M.: Høyere. skole, 2010. - 479s.
  2. Høyere matematikk i øvelser og oppgaver. Lærebok for universiteter / Danko P. E., Popov A. G., Kozhevnikova T. Ya., Danko S. P. Om 2 timer - Ed. 6., sr. - M .: Oniks Publishing House LLC: Mir and Education Publishing House LLC, 2007. - 416 s.
    1. 3. http://www.machinelearning.ru/wiki/index.php?title=%D0%A0%D0%B5%D0%B3%D1%80%D0%B5%D1%81%D1%81%D0%B8 %D1%8F - litt informasjon om regresjonsanalyse