Biografier Kjennetegn Analyse

Lineær regresjonsanalyse. Metoder for matematisk statistikk

RESULTATER

Tabell 8.3a. Regresjonsstatistikk
Regresjonsstatistikk
Flere R 0,998364
R-firkant 0,99673
Normalisert R-kvadrat 0,996321
standard feil 0,42405
Observasjoner 10

La oss først se på den øvre delen av beregningene presentert i tabell 8.3a, regresjonsstatistikken.

Verdien R-kvadrat, også kalt et mål på sikkerhet, karakteriserer kvaliteten på den resulterende regresjonslinjen. Denne kvaliteten uttrykkes ved graden av samsvar mellom de opprinnelige dataene og regresjonsmodellen (kalkulerte data). Sikkerhetsmålet er alltid innenfor intervallet.

I de fleste tilfeller er R-kvadratverdien mellom disse verdiene, kalt ekstremer, dvs. mellom null og én.

Hvis verdien av R-kvadraten er nær én, betyr dette at den konstruerte modellen forklarer nesten all variabiliteten til de tilsvarende variablene. Motsatt betyr en R-kvadratverdi nær null dårlig kvalitet på den konstruerte modellen.

I vårt eksempel er sikkerhetsmålet 0,99673, noe som indikerer en veldig god tilpasning av regresjonslinjen til de opprinnelige dataene.

Flere R- koeffisient for multippel korrelasjon R - uttrykker graden av avhengighet av uavhengige variabler (X) og avhengig variabel (Y).

Multippel R er lik kvadratroten av bestemmelseskoeffisienten, denne verdien tar verdier i området fra null til én.

I en enkel lineær regresjonsanalyse er multiplumet R lik Pearson-korrelasjonskoeffisienten. Faktisk er multiplumet R i vårt tilfelle lik Pearson-korrelasjonskoeffisienten fra forrige eksempel (0,998364).

Tabell 8.3b. Regresjonskoeffisienter
Odds standard feil t-statistikk
Y-kryss 2,694545455 0,33176878 8,121757129
Variabel X 1 2,305454545 0,04668634 49,38177965
* En avkortet versjon av beregningene er gitt

Vurder nå den midtre delen av beregningene presentert i tabell 8.3b. Her er regresjonskoeffisienten b (2,305454545) og offset langs y-aksen gitt, dvs. konstant a (2,694545455).

Basert på beregningene kan vi skrive regresjonsligningen som følger:

Y= x*2,305454545+2,694545455

Retningen til forholdet mellom variablene bestemmes basert på tegnene (negative eller positive) regresjonskoeffisienter(koeffisient b).

Hvis skiltet kl regresjonskoeffisient- positiv, forholdet mellom den avhengige variabelen og den uavhengige vil være positiv. I vårt tilfelle er tegnet på regresjonskoeffisienten positivt, derfor er forholdet også positivt.

Hvis skiltet kl regresjonskoeffisient- negativ, forholdet mellom den avhengige variabelen og den uavhengige variabelen er negativ (invers).

I tabell 8.3c. resultatene av produksjonen av residualene presenteres. For at disse resultatene skal vises i rapporten, er det nødvendig å aktivere avmerkingsboksen "Rester" når du starter "Regresjon"-verktøyet.

RESTERENDE UTTAK

Tabell 8.3c. Rester
Observasjon Spådde Y Rester Standard saldo
1 9,610909091 -0,610909091 -1,528044662
2 7,305454545 -0,305454545 -0,764022331
3 11,91636364 0,083636364 0,209196591
4 14,22181818 0,778181818 1,946437843
5 16,52727273 0,472727273 1,182415512
6 18,83272727 0,167272727 0,418393181
7 21,13818182 -0,138181818 -0,34562915
8 23,44363636 -0,043636364 -0,109146047
9 25,74909091 -0,149090909 -0,372915662
10 28,05454545 -0,254545455 -0,636685276

Ved å bruke denne delen av rapporten kan vi se avvikene til hvert punkt fra den konstruerte regresjonslinjen. Største absolutte verdi

Forelesning 3

Regresjonsanalyse.

1) Numeriske kjennetegn ved regresjon

2) Lineær regresjon

3) Ikke-lineær regresjon

4) Multippel regresjon

5) Bruke MS EXCEL for å utføre regresjonsanalyse

Kontroll- og evalueringsverktøy - testoppgaver

1. Numeriske kjennetegn ved regresjon

Regresjonsanalyse er en statistisk metode for å studere innflytelsen av en eller flere uavhengige variabler på en avhengig variabel. Uavhengige variabler kalles ellers regressorer eller prediktorer, og avhengige variabler kalles kriterier. Terminologien til avhengige og uavhengige variabler reflekterer kun den matematiske avhengigheten til variablene, og ikke forholdet mellom årsak og virkning.

Mål for regresjonsanalyse

  • Bestemmelse av graden av determinisme av variasjonen av kriteriet (avhengig) variabel ved prediktorer (uavhengige variabler).
  • Forutsi verdien av den avhengige variabelen ved å bruke den eller de uavhengige variablene.
  • Bestemmelse av bidraget til individuelle uavhengige variabler til variasjonen av den avhengige.

Regresjonsanalyse kan ikke brukes til å avgjøre om det er en sammenheng mellom variabler, siden eksistensen av en slik sammenheng er en forutsetning for å anvende analysen.

For å utføre regresjonsanalyse, må du først gjøre deg kjent med de grunnleggende begrepene statistikk og sannsynlighetsteori.

Grunnleggende numeriske egenskaper ved diskrete og kontinuerlige tilfeldige variabler: matematisk forventning, varians og standardavvik.

Tilfeldige variabler er delt inn i to typer:

  • Diskret, som bare kan ta spesifikke, forhåndsbestemte verdier (for eksempel verdiene til tall på oversiden av en kastet terning eller ordensverdier for gjeldende måned);
  • · kontinuerlig (oftest - verdiene til noen fysiske mengder: vekter, avstander, temperaturer, etc.), som i henhold til naturlovene kan ta på seg alle verdier, i det minste i et visst intervall.

Fordelingsloven til en tilfeldig variabel er samsvaret mellom de mulige verdiene til en diskret tilfeldig variabel og dens sannsynligheter, vanligvis skrevet i en tabell:

Den statistiske definisjonen av sannsynlighet uttrykkes i form av den relative frekvensen av en tilfeldig hendelse, det vil si at den finnes som forholdet mellom antall tilfeldige variabler og det totale antallet tilfeldige variabler.

Matematisk forventning til en diskret tilfeldig variabelX kalles summen av produktene av verdiene av mengden X på sannsynligheten for disse verdiene. Den matematiske forventningen er betegnet med eller M(X) .

n

= M(X) = x 1 s 1 + x 2 s 2 +… + x n p n = S x i pi

Jeg=1

Spredningen av en tilfeldig variabel i forhold til dens matematiske forventning bestemmes ved å bruke en numerisk karakteristikk kalt spredning. Enkelt sagt er varians spredningen av en tilfeldig variabel rundt gjennomsnittet. For å forstå essensen av spredning, vurder et eksempel. Gjennomsnittslønnen i landet er omtrent 25 tusen rubler. Hvor kommer dette tallet fra? Mest sannsynlig er all lønn lagt sammen og delt på antall ansatte. I dette tilfellet er det en veldig stor spredning (minstelønnen er omtrent 4 tusen rubler, og maksimum er omtrent 100 tusen rubler). Hvis alle hadde samme lønn, ville spredningen vært null, og det ville ikke vært noen spredning.

Spredning av en diskret tilfeldig variabelX kalles den matematiske forventningen til kvadratet av forskjellen til en tilfeldig variabel og dens matematiske forventning:

D = M [ ((X - M (X)) 2 ]

Ved å bruke definisjonen av matematisk forventning for å beregne variansen, får vi formelen:

D \u003d S (x i - M (X)) 2 p i

Variansen har dimensjonen til kvadratet til en tilfeldig variabel. I tilfeller der det er nødvendig å ha en numerisk karakteristikk av spredningen av mulige verdier i samme dimensjon som selve tilfeldige variabelen, brukes standardavviket.

Standardavvik tilfeldig variabel kalles kvadratroten av dens varians.

Gjennomsnittlig kvadratavvik er et mål på spredningen av verdiene til en tilfeldig variabel rundt dens matematiske forventning.

Eksempel.

Fordelingsloven til en tilfeldig variabel X er gitt av følgende tabell:

Finn dens matematiske forventning, varians og standardavvik .

Vi bruker formlene ovenfor:

M (X) \u003d 1 0,1 + 2 0,4 + 4 0,4 ​​+ 5 0,1 \u003d 3

D \u003d (1-3) 2 0,1 + (2 - 3) 2 0,4 + (4 - 3) 2 0,4 + (5 - 3) 2 0,1 \u003d 1,6

Eksempel.

I pengelotteriet spilles 1 gevinst på 1000 rubler, 10 gevinster på 100 rubler og 100 gevinster på 1 rubler hver med et totalt antall lodd på 10 000. Lag en distribusjonslov for en tilfeldig gevinst X for eieren av ett lodd og bestemme den matematiske forventningen, variansen og standardavviket til en tilfeldig variabel.

X 1 \u003d 1000, X 2 \u003d 100, X 3 \u003d 1, X 4 \u003d 0,

P 1 = 1/10 000 = 0,0001, P 2 = 10/10000 = 0,001, P 3 = 100/10 000 = 0,01, P 4 = 1 - (P 1 + P 2 + P 3) = 0,9889.

Vi legger resultatene i en tabell:

Matematisk forventning - summen av sammenkoblede produkter av verdien av en tilfeldig variabel etter deres sannsynlighet. For dette problemet er det tilrådelig å beregne det med formelen

1000 0,0001 + 100 0,001 + 1 0,01 + 0 0,9889 = 0,21 rubler.

Vi fikk en skikkelig "fair" billettpris.

D \u003d S (x i - M (X)) 2 p i \u003d (1000 - 0,21) 2 0,0001 + (100 - 0,21) 2 0,001 +

+ (1 - 0,21) 2 0,01 + (0 - 0,21) 2 0,9889 ≈ 109,97

Fordelingsfunksjon av kontinuerlige tilfeldige variabler

Verdien, som som et resultat av testen vil ta én mulig verdi (det er ikke kjent på forhånd hvilken), kalles en tilfeldig variabel. Som nevnt ovenfor er tilfeldige variabler diskrete (diskontinuerlige) og kontinuerlige.

En diskret variabel er en tilfeldig variabel som antar separate mulige verdier med visse sannsynligheter som kan nummereres.

En kontinuerlig variabel er en tilfeldig variabel som kan ta på seg alle verdier fra et begrenset eller uendelig intervall.

Frem til dette punktet har vi begrenset oss til bare én "variasjon" av tilfeldige variabler - diskrete, dvs. tar endelige verdier.

Men statistikkens teori og praksis krever bruk av konseptet med en kontinuerlig tilfeldig variabel - som tillater alle numeriske verdier fra ethvert intervall.

Fordelingsloven til en kontinuerlig tilfeldig variabel spesifiseres praktisk ved å bruke den såkalte. f(x). Sannsynlighet P(a< X < b) того, что значение, принятое случайной величиной Х, попадет в промежуток (a; b), определяется равенством

P (a< X < b) = ∫ f(x) dx

Grafen til funksjonen f (x) kalles distribusjonskurven. Geometrisk er sannsynligheten for at en tilfeldig variabel faller inn i intervallet (a; b) lik arealet til den tilsvarende kurvelinjeformede trapesen, avgrenset av fordelingskurven, okseaksen og de rette linjene x = a, x = b .

P(a£X

Hvis et begrenset eller tellbart sett trekkes fra en kompleks hendelse, vil sannsynligheten for en ny hendelse forbli uendret.

Funksjon f(x) - en numerisk skalarfunksjon av et reelt argument x kalles en sannsynlighetstetthet, og eksisterer i et punkt x hvis det er en grense på dette punktet:

Sannsynlighetstetthetsegenskaper:

  1. Sannsynlighetstettheten er en ikke-negativ funksjon, dvs. f(x) ≥ 0

(hvis alle verdiene til den tilfeldige variabelen X er i intervallet (a;b), så den siste

likhet kan skrives som ∫ f (x) dx = 1).

Tenk nå på funksjonen F(x) = P(X< х). Эта функция называется функцией распределения вероятности случайной величины Х. Функция F(х) существует как для дискретных, так и для непрерывных случайных величин. Если f (x) - функция плотности распределения вероятности

kontinuerlig tilfeldig variabel X, deretter F (x) = ∫ f(x) dx = 1).

Det følger av den siste likheten at f (x) = F" (x)

Noen ganger kalles funksjonen f(x) den differensielleen, og funksjonen F(x) kalles den kumulativeen.

Vi legger merke til de viktigste egenskapene tilen:

  1. F(x) er en ikke-avtagende funksjon.
  2. F(-∞)=0.
  3. F (+∞) = 1.

Begrepet en fordelingsfunksjon er sentralt i sannsynlighetsteorien. Ved å bruke dette konseptet kan man gi en annen definisjon av en kontinuerlig tilfeldig variabel. En tilfeldig variabel kalles kontinuerlig hvis dens integralfordelingsfunksjon F(x) er kontinuerlig.

Numeriske kjennetegn ved kontinuerlige tilfeldige variabler

Den matematiske forventningen, variansen og andre parametere for eventuelle tilfeldige variabler beregnes nesten alltid ved hjelp av formler som følger av fordelingsloven.

For en kontinuerlig tilfeldig variabel beregnes den matematiske forventningen med formelen:

M(X) = ∫ x f(x) dx

Spredning:

D(X) = ∫ ( x- M (X)) 2 f(x) dx eller D(X) = ∫ x 2 f(x) dx - (M (X)) 2

2. Lineær regresjon

La komponentene X og Y til en todimensjonal tilfeldig variabel (X, Y) være avhengige. Vi vil anta at en av dem tilnærmet kan representeres som en lineær funksjon av den andre, for eksempel

Y ≈ g(X) = α + βX, og bestem parametrene α og β ved hjelp av minste kvadraters metode.

Definisjon. Funksjonen g(X) = α + βX kalles beste tilnærming Y i betydningen minste kvadraters metode, hvis den matematiske forventningen M(Y - g(X)) 2 har minst mulig verdi; funksjonen g(X) kalles gjennomsnittlig kvadratregresjon Y til X.

Teorem Den lineære gjennomsnittlige kvadratiske regresjonen av Y på X er:

hvor er korrelasjonskoeffisienten X og Y.

Koeffisienter til ligningen.

Man kan sjekke at for disse verdiene funksjonsfunksjonen F(α, β)

F(α, β ) = M(Y - a - βX)² har et minimum, som beviser påstanden til teoremet.

Definisjon. Koeffisienten kalles regresjonskoeffisient Y på X, og den rette linjen - - direkte gjennomsnittlig kvadratregresjon av Y på X.

Ved å erstatte koordinatene til det stasjonære punktet i likheten, kan vi finne minimumsverdien til funksjonen F(α, β) lik Denne verdien kalles restdispersjon Y i forhold til X og karakteriserer mengden feil som er tillatt når Y erstattes med

g(X) = α + βX. Ved er restvariansen 0, det vil si at likheten ikke er omtrentlig, men eksakt. Derfor, når Y og X er forbundet med en lineær funksjonell avhengighet. På samme måte kan du få en rett linje med rot-middel-kvadrat-regresjon av X på Y:

og den gjenværende variansen til X med hensyn til Y. For begge direkte regresjoner sammenfaller. Ved å sammenligne regresjonsligningene Y på X og X på Y og løse likningssystemet, kan du finne skjæringspunktet for regresjonslinjene - et punkt med koordinater (t x, t y), kalt sentrum av fellesfordelingen av X- og Y-verdier.

Vi vil vurdere algoritmen for å kompilere regresjonsligninger fra læreboken til V. E. Gmurman "Sannsynlighetsteori og matematisk statistikk" s. 256.

1) Sett sammen en beregningstabell der antall prøveelementer, prøvealternativer, deres kvadrater og produkt vil bli registrert.

2) Regn ut summen over alle kolonnene unntatt tallet.

3) Beregn gjennomsnittsverdiene for hver mengde, spredning og standardavvik.

5) Test hypotesen om eksistensen av en sammenheng mellom X og Y.

6) Komponer likningene til begge regresjonslinjene og plott grafene til disse likningene.

Helningen til den rette linjeregresjonen Y på X er prøveregresjonskoeffisienten

Koeffisient b=

Vi får den ønskede ligningen av regresjonslinjen Y på X:

Y \u003d 0,202 X + 1,024

Tilsvarende, regresjonsligningen X på Y:

Helningen til den rette linjeregresjonen Y på X er prøveregresjonskoeffisienten pxy:

Koeffisient b=

X \u003d 4.119 Y - 3.714

3. Ikke-lineær regresjon

Hvis det er ikke-lineære forhold mellom økonomiske fenomener, uttrykkes de ved å bruke de tilsvarende ikke-lineære funksjonene.

Det er to klasser av ikke-lineære regresjoner:

1. Regresjoner som er ikke-lineære med hensyn til forklaringsvariablene som er inkludert i analysen, men lineære med hensyn til de estimerte parameterne, for eksempel:

Polynomer av ulike grader

Likesidet hyperbole - ;

Semilogaritmisk funksjon - .

2. Regresjoner som er ikke-lineære når det gjelder estimerte parametere, for eksempel:

Makt - ;

Demonstrerende -;

Eksponentiell - .

Ikke-lineære regresjoner på de inkluderte variablene reduseres til en lineær form ved en enkel endring av variabler, og videre estimering av parameterne utføres ved hjelp av minste kvadraters metode. La oss vurdere noen funksjoner.

Parabelen av andre grad reduseres til en lineær form ved å bruke erstatningen: . Som et resultat kommer vi til en tofaktorligning, estimeringen av hvis parametere ved bruk av minste kvadraters metode fører til ligningssystemet:

En parabel av andre grad brukes vanligvis i tilfeller der, for et visst intervall av faktorverdier, arten av forholdet til funksjonene som vurderes endres: et direkte forhold endres til et inverst eller et inverst til et direkte.

En likesidet hyperbel kan brukes til å karakterisere forholdet mellom de spesifikke kostnadene for råvarer, materialer, drivstoff og volum av produksjon, tidspunktet for sirkulasjon av varer og verdien av omsetningen. Det klassiske eksempelet er Phillips-kurven, som karakteriserer det ikke-lineære forholdet mellom arbeidsledigheten. x og prosentvis lønnsøkning y.

Hyperbelen reduseres til en lineær ligning ved en enkel erstatning: . Du kan også bruke Minste kvadraters metode for å bygge et system med lineære ligninger.

På lignende måte reduseres avhengighetene til en lineær form: , og andre.

En likesidet hyperbel og en semi-logaritmisk kurve brukes for å beskrive Engel-kurven (en matematisk beskrivelse av forholdet mellom andelen av utgifter til varige goder og totalforbruk (eller inntekt)). Ligningene de er inkludert i brukes i studier av produktivitet, arbeidsintensitet i landbruksproduksjonen.

4. Multippel regresjon

Multippel regresjon - en koblingsligning med flere uavhengige variabler:

hvor er den avhengige variabelen (resultanttegn);

Uavhengige variabler (faktorer).

For å bygge en multippel regresjonsligning, brukes følgende funksjoner oftest:

lineær -

makt -

utstiller -

overdrivelse - .

Du kan bruke andre funksjoner som kan reduseres til en lineær form.

For å estimere parametrene til den multiple regresjonsligningen, brukes minste kvadraters metode (LSM). For lineære ligninger og ikke-lineære ligninger som kan reduseres til lineære, er følgende system med normale ligninger konstruert, hvis løsning gjør det mulig å oppnå estimater av regresjonsparametrene:

For å løse det kan metoden for determinanter brukes:

hvor er determinanten for systemet;

Private determinanter; som oppnås ved å erstatte den tilsvarende kolonnen i matrisen til systemets determinant med dataene på venstre side av systemet.

En annen type multippel regresjonsligning er den standardiserte skala-regresjonsligningen, LSM er anvendelig for multippel regresjonsligningen på en standardisert skala.

5. BrukMSUTMERKEå utføre regresjonsanalyse

Regresjonsanalyse etablerer formen for forholdet mellom den tilfeldige variabelen Y (avhengig) og verdiene til en eller flere variabler (uavhengig), og verdiene til sistnevnte anses å være nøyaktig gitt. Slik avhengighet bestemmes vanligvis av en matematisk modell (regresjonsligning) som inneholder flere ukjente parametere. I løpet av regresjonsanalysen, på grunnlag av prøvedata, blir estimater av disse parameterne funnet, statistiske feil av estimater eller grenser for konfidensintervaller blir bestemt, og samsvar (tilstrekkelighet) av den aksepterte matematiske modellen med eksperimentelle data blir kontrollert.

I lineær regresjonsanalyse antas forholdet mellom tilfeldige variabler å være lineært. I det enkleste tilfellet, i en sammenkoblet lineær regresjonsmodell, er det to variabler X og Y. Og det kreves for n par observasjoner (X1, Y1), (X2, Y2), ..., (Xn, Yn) å bygge (velge) en rett linje, kalt regresjonslinjen, som "best" tilnærmer de observerte verdiene. Ligningen til denne linjen y=ax+b er en regresjonsligning. Ved å bruke en regresjonsligning kan du forutsi forventet verdi av den avhengige variabelen y som tilsvarer en gitt verdi av den uavhengige variabelen x. I tilfellet når avhengigheten mellom en avhengig variabel Y og flere uavhengige variabler X1, X2, ..., Xm vurderes, snakker man om multippel lineær regresjon.

I dette tilfellet har regresjonsligningen formen

y = a 0 +a 1 x 1 +a 2 x 2 +…+a m x m ,

hvor a0, a1, a2, …, am er regresjonskoeffisientene som skal bestemmes.

Koeffisientene til regresjonsligningen bestemmes ved hjelp av minste kvadraters metode, for å oppnå den minste mulige summen av kvadratforskjeller mellom de reelle verdiene til variabelen Y og de som er beregnet ved bruk av regresjonsligningen. Således kan for eksempel en lineær regresjonsligning konstrueres selv når det ikke er noen lineær korrelasjon.

Et mål på effektiviteten til regresjonsmodellen er bestemmelseskoeffisienten R2 (R-kvadrat). Bestemmelseskoeffisienten kan ta verdier mellom 0 og 1 bestemmer med hvilken grad av nøyaktighet den resulterende regresjonsligningen beskriver (tilnærmet) de opprinnelige dataene. Regresjonsmodellens betydning undersøkes også ved hjelp av F-kriteriet (Fisher) og påliteligheten til differansen mellom koeffisientene a0, a1, a2, ..., am fra null kontrolleres ved hjelp av Elevens t-test.

I Excel er de eksperimentelle dataene tilnærmet med en lineær ligning opp til 16. orden:

y = a0+a1x1+a2x2+…+a16x16

For å få lineære regresjonskoeffisienter kan "Regresjon"-prosedyren fra analysepakken brukes. Funksjonen LINJE gir også fullstendig informasjon om den lineære regresjonsligningen. I tillegg kan SLOPE- og INTERCEPT-funksjonene brukes til å få parametrene til regresjonsligningen, og TREND- og FORECAST-funksjonene kan brukes til å oppnå de predikerte Y-verdiene ved de nødvendige punktene (for parvis regresjon).

La oss vurdere i detalj anvendelsen av LINEST-funksjonen (kjent_y, [kjent_x], [konstant], [statistikk]): kjent_y - området av kjente verdier for den avhengige parameteren Y. I parvis regresjonsanalyse kan den ha hvilken som helst form; i flertall må det enten være en rad eller en kolonne; kjent_x er rekkevidden av kjente verdier for én eller flere uavhengige parametere. Må ha samme form som Y-området (henholdsvis for flere parametere, flere kolonner eller rader); konstant - boolsk argument. Hvis det, basert på den praktiske betydningen av regresjonsanalyseoppgaven, er nødvendig at regresjonslinjen går gjennom origo, det vil si at den frie koeffisienten er lik 0, bør verdien av dette argumentet settes lik 0 (eller " falsk"). Hvis verdien er satt til 1 (eller "sann") eller utelatt, beregnes den frie koeffisienten på vanlig måte; statistikk er et boolsk argument. Hvis verdien er satt til 1 (eller "true"), returneres en ekstra regresjonsstatistikk (se tabell) som brukes til å evaluere effektiviteten og betydningen av modellen. I det generelle tilfellet, for parvis regresjon y=ax+b, ser resultatet av å bruke LINJE-funksjonen slik ut:

Bord. Utdataområde for LINJE for parvis regresjonsanalyse

Ved multippel regresjonsanalyse for ligningen y=a0+a1x1+a2x2+…+amxm, vises koeffisientene am,…,a1,a0 på den første linjen, og standardfeilene for disse koeffisientene vises i den andre linjen . Rad 3-5, bortsett fra de to første kolonnene fylt med regresjonsstatistikk, vil gi #N/A.

LINEST-funksjonen skal legges inn som en matriseformel, først velge en matrise med ønsket størrelse for resultatet (m+1 kolonner og 5 rader hvis regresjonsstatistikk kreves) og fullføre formeloppføringen ved å trykke CTRL+SHIFT+ENTER.

Resultatet for vårt eksempel:

I tillegg har programmet en innebygd funksjon - Data Analysis på fanen Data.

Den kan også brukes til å utføre regresjonsanalyse:

På lysbildet - resultatet av regresjonsanalysen utført ved bruk av Data Analysis.

RESULTATER

Regresjonsstatistikk

Flere R

R-firkant

Normalisert R-kvadrat

standard feil

Observasjoner

Analyse av varianter

Betydning F

Regresjon

Odds

standard feil

t-statistikk

P-verdi

nederste 95 %

Topp 95 %

Lavere 95,0 %

Topp 95,0 %

Y-kryss

Variabel X 1

Regresjonsligningene som vi så på tidligere er også bygget i MS Excel. For å utføre dem, bygges først et spredningsplott, deretter velger du - Legg til trendlinje gjennom kontekstmenyen. I det nye vinduet, merk av i boksene - Vis ligningen på diagrammet og plasser verdien av tilnærmingspåliteligheten (R ^ 2) på diagrammet.

Litteratur:

  1. Sannsynlighetsteori og matematisk statistikk. Gmurman V. E. Lærebok for universiteter. - Ed. 10., sr. - M.: Høyere. skole, 2010. - 479s.
  2. Høyere matematikk i øvelser og oppgaver. Lærebok for universiteter / Danko P. E., Popov A. G., Kozhevnikova T. Ya., Danko S. P. Om 2 timer - Ed. 6., sr. - M .: Oniks Publishing House LLC: Mir and Education Publishing House LLC, 2007. - 416 s.
    1. 3. http://www.machinelearning.ru/wiki/index.php?title=%D0%A0%D0%B5%D0%B3%D1%80%D0%B5%D1%81%D1%81%D0%B8 %D1%8F - litt informasjon om regresjonsanalyse

Begrepet regresjon. Sammenheng mellom variabler x og y kan beskrives på forskjellige måter. Spesielt kan enhver form for forbindelse uttrykkes med en generell ligning , hvor y behandles som en avhengig variabel, eller funksjoner fra en annen - en uavhengig variabel x, kalt argument. Korrespondansen mellom et argument og en funksjon kan gis av en tabell, en formel, en graf og så videre. Å endre en funksjon avhengig av en endring i ett eller flere argumenter kalles regresjon. Alle virkemidler som brukes for å beskrive korrelasjoner er innholdet regresjonsanalyse.

Korrelasjonsligninger, eller regresjonsligninger, empiriske og teoretisk beregnede regresjonsserier, deres grafer, kalt regresjonslinjer, samt lineære og ikke-lineære regresjonskoeffisienter, tjener til å uttrykke regresjon.

Regresjonsindikatorer uttrykker korrelasjonen toveis, tar hensyn til endringen i gjennomsnittsverdiene til attributtet Y ved endring av verdier x Jeg skilt X, og omvendt, viser endringen i middelverdiene til funksjonen X ved endrede verdier y Jeg skilt Y. Unntaket er tidsserier, eller serier av dynamikk, som viser endringen i tegn over tid. Regresjonen av slike serier er ensidig.

Det finnes mange forskjellige former og typer korrelasjoner. Oppgaven er redusert til å identifisere forbindelsesformen i hvert enkelt tilfelle og uttrykke den med den tilsvarende korrelasjonsligningen, som lar oss forutse mulige endringer i ett tegn Y basert på kjente endringer X, assosiert med den første korrelasjonen.

12.1 Lineær regresjon

Regresjonsligning. Resultatene av observasjoner utført på et bestemt biologisk objekt i henhold til korrelerte egenskaper x og y, kan representeres av punkter på et plan ved å konstruere et system av rektangulære koordinater. Som et resultat oppnås et visst spredningsdiagram, som gjør det mulig å bedømme formen og stramheten til forholdet mellom forskjellige funksjoner. Ganske ofte ser dette forholdet ut som en rett linje eller kan tilnærmes med en rett linje.

Lineær sammenheng mellom variabler x og y er beskrevet av en generell ligning , hvor a, b, c, d,… er parametrene til ligningen som bestemmer forholdet mellom argumentene x 1 , x 2 , x 3 , …, x m og funksjoner.

I praksis blir ikke alle mulige argumenter tatt i betraktning, men bare noen argumenter, i det enkleste tilfellet bare ett:

I den lineære regresjonsligningen (1) en er et fritt begrep, og parameteren b bestemmer helningen til regresjonslinjen i forhold til de rektangulære koordinataksene. I analytisk geometri kalles denne parameteren helningsfaktor, og i biometri - regresjonskoeffisient. En visuell representasjon av denne parameteren og posisjonen til regresjonslinjene YX og XY i systemet med rektangulære koordinater gir Fig.1.

Ris. 1 Y ved X og X ved Y regresjonslinjer i systemet

rektangulære koordinater

Regresjonslinjene, som vist i fig. 1, skjærer hverandre i punktet O (,), som tilsvarer de aritmetiske middelverdiene til tegn korrelert med hverandre Y og X. Når du plotter regresjonsgrafer, plottes verdiene til den uavhengige variabelen X langs abscissen, og verdiene til den avhengige variabelen, eller funksjon Y, plottes langs ordinaten. Linjen AB som går gjennom punktet O (, ) tilsvarer det fullstendige (funksjonelle) forholdet mellom variablene Y og X når korrelasjonskoeffisienten . Jo sterkere sammenheng mellom Y og X, jo nærmere regresjonslinjene er AB, og omvendt, jo svakere forholdet mellom disse verdiene er, jo mer fjernt er regresjonslinjene fra AB. I fravær av en sammenheng mellom funksjonene er regresjonslinjene vinkelrette på hverandre og .

Siden regresjonsindikatorene uttrykker korrelasjonen toveis, bør regresjonsligningen (1) skrives som følger:

I henhold til den første formelen bestemmes gjennomsnittsverdiene når fortegnet endres X per måleenhet, på den andre - gjennomsnittsverdier når en funksjon endres per måleenhet Y.

Regresjonskoeffisient. Regresjonskoeffisienten viser hvordan, i gjennomsnitt, verdien av en funksjon y endres når en annen måleenhet, korrelert med Y skilt X. Denne indikatoren bestemmes av formelen

Her verdier s multipliser med størrelsen på klasseintervallene λ hvis de ble funnet av variasjonsserier eller korrelasjonstabeller.

Regresjonskoeffisienten kan beregnes utenom beregningen av standardavvik s y og s x i henhold til formelen

Hvis korrelasjonskoeffisienten er ukjent, bestemmes regresjonskoeffisienten som følger:

Sammenheng mellom regresjon og korrelasjonskoeffisienter. Ved å sammenligne formlene (11.1) (emne 11) og (12.5), ser vi at telleren deres inneholder samme verdi , noe som indikerer en sammenheng mellom disse indikatorene. Dette forholdet kommer til uttrykk i likheten

Dermed er korrelasjonskoeffisienten lik det geometriske gjennomsnittet av koeffisientene b yx og b xy. Formel (6) tillater for det første fra de kjente verdiene til regresjonskoeffisientene b yx og b xy bestemme regresjonskoeffisienten R xy, og for det andre for å kontrollere riktigheten av beregningen av denne korrelasjonsindikatoren R xy mellom ulike egenskaper X og Y.

I likhet med korrelasjonskoeffisienten karakteriserer regresjonskoeffisienten kun en lineær sammenheng og er ledsaget av et plusstegn for en positiv sammenheng og et minustegn for en negativ sammenheng.

Bestemmelse av lineære regresjonsparametere. Det er kjent at summen av de kvadrerte avvikene til varianten x Jeg fra gjennomsnittet er det den minste verdien, dvs. denne teoremet danner grunnlaget for minste kvadraters metode. Med hensyn til lineær regresjon [se formel (1)], er kravet til denne teoremet tilfredsstilt av et visst ligningssystem kalt vanlig:

Felles løsning av disse ligningene med hensyn til parametere en og b fører til følgende resultater:

;

;

, hvorfra jeg.

Gitt den toveis karakteren av forholdet mellom variablene Y og X, formelen for å bestemme parameteren en skal uttrykkes slik:

og . (7)

Parameter b, eller regresjonskoeffisient, bestemmes av følgende formler:

Konstruksjon av empiriske regresjonsserier. I nærvær av et stort antall observasjoner begynner regresjonsanalyse med konstruksjon av empiriske regresjonsserier. Empirisk regresjonsserie dannes ved å beregne verdiene til en variabelattributt X gjennomsnittsverdier av den andre, korrelert med X skilt Y. Med andre ord, konstruksjonen av empiriske regresjonsserier kommer ned til å finne gruppen betyr u fra de tilsvarende verdiene til tegnene Y og X.

En empirisk regresjonsserie er en dobbel serie med tall som kan representeres av punkter på et plan, og deretter, ved å koble disse punktene med rette linjesegmenter, kan en empirisk regresjonslinje oppnås. Empiriske regresjonsserier, spesielt plottene deres, kalt regresjonslinjer, gi en visuell representasjon av formen og stramheten til korrelasjonsavhengigheten mellom ulike funksjoner.

Utjevning av empiriske regresjonsserier. Grafer over empiriske regresjonsserier er som regel stiplede linjer i stedet for glatte. Dette forklares av det faktum at sammen med hovedårsakene som bestemmer det generelle mønsteret i variabiliteten til korrelerte egenskaper, påvirkes verdien deres av påvirkningen av en rekke sekundære årsaker som forårsaker tilfeldige svingninger i regresjonens nodalpunkter. For å identifisere hovedtrenden (trenden) til den konjugerte variasjonen av korrelerte funksjoner, må du erstatte de brutte linjene med jevne, jevnt løpende regresjonslinjer. Prosessen med å erstatte brutte linjer med glatte kalles justering av empiriske serier og regresjonslinjer.

Grafisk justering metode. Dette er den enkleste metoden som ikke krever beregningsarbeid. Dens essens er som følger. Den empiriske regresjonsserien er plottet som en graf i et rektangulært koordinatsystem. Deretter er midtpunktene av regresjonen visuelt skissert, langs hvilken en heltrukket linje er tegnet ved hjelp av en linjal eller et mønster. Ulempen med denne metoden er åpenbar: den utelukker ikke påvirkningen av forskerens individuelle egenskaper på resultatene av justeringen av empiriske regresjonslinjer. Derfor, i tilfeller der høyere nøyaktighet er nødvendig når man erstatter brutte regresjonslinjer med glatte, brukes andre metoder for å justere den empiriske serien.

Glidende gjennomsnittsmetode. Essensen av denne metoden er redusert til den sekvensielle beregningen av det aritmetiske gjennomsnittet av to eller tre tilstøtende medlemmer av den empiriske serien. Denne metoden er spesielt praktisk i tilfeller der den empiriske serien er representert av et stort antall termer, slik at tapet av to av dem - de ekstreme, som er uunngåelig med denne utjevningsmetoden, ikke vil påvirke strukturen merkbart.

Minste kvadratiske metode. Denne metoden ble foreslått på begynnelsen av 1800-tallet av A.M. Legendre og, uavhengig av ham, K. Gauss. Den lar deg justere den empiriske serien mest nøyaktig. Denne metoden, som vist ovenfor, er basert på antakelsen om at summen av de kvadrerte avvikene til varianten x Jeg fra gjennomsnittet deres er det en minimumsverdi, det vil si derav navnet på metoden, som brukes ikke bare i økologi, men også i teknologi. Metoden for minste kvadrater er objektiv og universell, den brukes i en rekke tilfeller når man finner empiriske ligninger av regresjonsserier og bestemmer deres parametere.

Kravet til minste kvadraters metode er at de teoretiske punktene til regresjonslinjen skal oppnås på en slik måte at summen av kvadrerte avvik fra disse punktene for empiriske observasjoner y Jeg var minimal, dvs.

Ved å beregne minimum av dette uttrykket i samsvar med prinsippene for matematisk analyse og transformere det på en bestemt måte, kan man få et system med s.k. normale ligninger, der de ukjente verdiene er de ønskede parametrene til regresjonsligningen, og de kjente koeffisientene bestemmes av de empiriske verdiene til funksjonene, vanligvis summene av deres verdier og deres kryssprodukter.

Multippel lineær regresjon. Forholdet mellom flere variabler uttrykkes vanligvis ved en multippel regresjonsligning, som kan være lineær og ikke-lineær. I sin enkleste form uttrykkes multippel regresjon ved en ligning med to uavhengige variabler ( x, z):

hvor en er ligningens frie ledd; b og c er parametrene til ligningen. For å finne parametrene til ligning (10) (ved minste kvadraters metode), brukes følgende system med normale ligninger:

Rader med dynamikk. Radjustering. Endringen i tegn over tid danner den såkalte tidsserier eller rader med dynamikk. Et karakteristisk trekk ved slike serier er at tidsfaktoren her alltid fungerer som den uavhengige variabelen X, og det skiftende tegnet er den avhengige variabelen Y. Avhengig av regresjonsserien er forholdet mellom variablene X og Y ensidig, siden tidsfaktoren ikke er avhengig av variasjonen til funksjoner. Til tross for disse funksjonene kan tidsserier sammenlignes med regresjonsserier og behandles med de samme metodene.

I likhet med regresjonsserier, påvirkes empiriske tidsserier ikke bare av de viktigste, men også av en rekke sekundære (tilfeldige) faktorer som skjuler hovedtrenden i variabiliteten av funksjoner, som på statistikkspråket kalles trend.

Analyse av tidsserier begynner med å identifisere formen på trenden. For å gjøre dette er tidsserien avbildet som en linjegraf i et rektangulært koordinatsystem. Samtidig plottes tidspunkter (år, måneder og andre tidsenheter) langs abscisseaksen, og verdiene til den avhengige variabelen Y plottes langs ordinataksen. er regresjonsligningen i form av avvik av leddene til serien til den avhengige variabelen Y fra det aritmetiske gjennomsnittet av serien til den uavhengige variabelen X:

Her er den lineære regresjonsparameteren.

Numeriske kjennetegn ved serien av dynamikk. De viktigste generaliserende numeriske egenskapene til serien av dynamikk inkluderer geometrisk gjennomsnitt og et aritmetisk gjennomsnitt nær det. De karakteriserer den gjennomsnittlige hastigheten der verdien av den avhengige variabelen endres over visse tidsperioder:

Et estimat av variabiliteten til termene i dynamikkserien er standardavvik. Ved valg av regresjonsligninger for å beskrive tidsserien, tas trendens form i betraktning, som kan være lineær (eller redusert til lineær) og ikke-lineær. Riktigheten av valget av regresjonsligningen bedømmes vanligvis av likheten mellom de empirisk observerte og beregnede verdiene til den avhengige variabelen. Mer nøyaktig for å løse dette problemet er metoden for regresjonsanalyse av varians (emne 12 s.4).

Korrelasjon av serier av dynamikk. Det er ofte nødvendig å sammenligne dynamikken i parallelle tidsserier som er relatert til hverandre ved noen generelle forhold, for eksempel for å finne ut sammenhengen mellom jordbruksproduksjon og husdyrvekst over en viss tidsperiode. I slike tilfeller er forholdet mellom variablene X og Y preget av korrelasjonskoeffisient R xy (i nærvær av en lineær trend).

Det er kjent at trenden til serier av dynamikk, som regel, skjules av fluktuasjoner i termene til rekken av den avhengige variabelen Y. Derfor oppstår et todelt problem: å måle avhengigheten mellom sammenlignede serier, uten å ekskludere trenden, og måling av avhengigheten mellom tilstøtende medlemmer av samme serie, unntatt trenden. I det første tilfellet er en indikator på nærheten av forbindelsen mellom den sammenlignede serien av dynamikk korrelasjonskoeffisient(hvis forholdet er lineært), i den andre - autokorrelasjonskoeffisient. Disse indikatorene har forskjellige verdier, selv om de er beregnet ved hjelp av de samme formlene (se emne 11).

Det er lett å se at verdien av autokorrelasjonskoeffisienten påvirkes av variabiliteten til medlemmene av serien til den avhengige variabelen: jo mindre medlemmene av serien avviker fra trenden, jo høyere er autokorrelasjonskoeffisienten, og omvendt.

I nærvær av en korrelasjon mellom faktor og resulterende tegn, må leger ofte bestemme hvor mye verdien av ett tegn kan endres når et annet endres med en måleenhet som er generelt akseptert eller etablert av forskeren selv.

Hvordan vil for eksempel kroppsvekten til skoleelever i 1. klasse (jenter eller gutter) endre seg hvis høyden øker med 1 cm Til dette brukes regresjonsanalysemetoden.

Oftest brukes regresjonsanalysemetoden for å utvikle normative skalaer og standarder for fysisk utvikling.

  1. Definisjon av regresjon. Regresjon er en funksjon som gjør det mulig, basert på gjennomsnittsverdien til ett attributt, å bestemme gjennomsnittsverdien til en annen attributt som er korrelert med den første.

    Til dette formålet brukes regresjonskoeffisienten og en rekke andre parametere. For eksempel kan du beregne antall forkjølelser i gjennomsnitt ved visse verdier av den gjennomsnittlige månedlige lufttemperaturen i høst-vinterperioden.

  2. Definisjon av regresjonskoeffisienten. Regresjonskoeffisienten er den absolutte verdien som verdien av ett attributt endres med i gjennomsnitt når en annen attributt knyttet til den endres med den etablerte måleenheten.
  3. Formel for regresjonskoeffisient. R y / x \u003d r xy x (σ y / σ x)
    hvor R y / x - regresjonskoeffisient;
    r xy - korrelasjonskoeffisient mellom funksjonene x og y;
    (σ y og σ x) - standardavvik for funksjonene x og y.

    I vårt eksempel;
    σ x = 4,6 (standardavvik for lufttemperatur i høst-vinterperioden;
    σ y = 8,65 (standardavvik for antall smittsomme forkjølelser).
    Dermed er R y/x regresjonskoeffisienten.
    R y / x \u003d -0,96 x (4,6 / 8,65) \u003d 1,8, dvs. med en nedgang i gjennomsnittlig månedlig lufttemperatur (x) med 1 grad, vil gjennomsnittlig antall smittsomme forkjølelser (y) i høst-vinterperioden endres med 1,8 tilfeller.

  4. Regresjonsligning. y \u003d M y + R y / x (x - M x)
    hvor y er gjennomsnittsverdien av attributtet, som bør bestemmes når gjennomsnittsverdien til en annen attributt (x) endres;
    x - kjent gjennomsnittsverdi for en annen funksjon;
    R y/x - regresjonskoeffisient;
    M x, M y - kjente gjennomsnittsverdier av funksjonene x og y.

    For eksempel kan gjennomsnittlig antall smittsomme forkjølelser (y) bestemmes uten spesielle målinger ved en hvilken som helst gjennomsnittsverdi av gjennomsnittlig månedlig lufttemperatur (x). Så hvis x \u003d - 9 °, R y / x \u003d 1,8 sykdommer, M x \u003d -7 °, M y \u003d 20 sykdommer, så y \u003d 20 + 1,8 x (9-7) \u003d 20 + 3,6 = 23,6 sykdommer.
    Denne ligningen brukes i tilfelle av et rettlinjet forhold mellom to funksjoner (x og y).

  5. Hensikten med regresjonsligningen. Regresjonsligningen brukes til å plotte regresjonslinjen. Sistnevnte tillater, uten spesielle målinger, å bestemme en hvilken som helst gjennomsnittsverdi (y) for en attributt, hvis verdien (x) til en annen attributt endres. Basert på disse dataene bygges en graf - regresjonslinje, som kan brukes til å bestemme gjennomsnittlig antall forkjølelser til enhver verdi av gjennomsnittlig månedlig temperatur innenfor området mellom de beregnede verdiene for antall forkjølelser.
  6. Regresjonssigma (formel).
    hvor σ Ru/x - sigma (standardavvik) for regresjonen;
    σ y er standardavviket til egenskapen y;
    r xy - korrelasjonskoeffisient mellom funksjonene x og y.

    Så hvis σ y er standardavviket for antall forkjølelser = 8,65; r xy - korrelasjonskoeffisienten mellom antall forkjølelser (y) og gjennomsnittlig månedlig lufttemperatur i høst-vinterperioden (x) er -0,96, da

  7. Hensikten med sigma-regresjon. Gir en karakteristikk av målet for mangfoldet til det resulterende trekk (y).

    For eksempel karakteriserer det mangfoldet av antall forkjølelser ved en viss verdi av den gjennomsnittlige månedlige lufttemperaturen i høst-vinterperioden. Så gjennomsnittlig antall forkjølelser ved lufttemperatur x 1 \u003d -6 ° kan variere fra 15,78 sykdommer til 20,62 sykdommer.
    Ved x 2 = -9° kan gjennomsnittlig antall forkjølelser variere fra 21,18 sykdommer til 26,02 sykdommer osv.

    Regresjonssigmaen brukes i konstruksjonen av en regresjonsskala, som reflekterer avviket til verdiene til den effektive attributten fra dens gjennomsnittlige verdi plottet på regresjonslinjen.

  8. Data som kreves for å beregne og plotte regresjonsskalaen
    • regresjonskoeffisient - Ry/x;
    • regresjonsligning - y \u003d M y + R y / x (x-M x);
    • regresjon sigma - σ Rx/y
  9. Rekkefølgen av beregninger og grafisk representasjon av regresjonsskalaen.
    • Bestem regresjonskoeffisienten med formelen (se avsnitt 3). For eksempel bør man bestemme hvor mye kroppsvekten vil endre seg i gjennomsnitt (ved en viss alder avhengig av kjønn) hvis gjennomsnittshøyden endres med 1 cm.
    • i henhold til formelen til regresjonsligningen (se avsnitt 4), bestemme hva som vil være gjennomsnittet, for eksempel kroppsvekt (y, y 2, y 3 ...) * for en viss vekstverdi (x, x 2, x 3 ...).
      ________________
      * Verdien av "y" bør beregnes for minst tre kjente verdier av "x".

      Samtidig er gjennomsnittsverdiene for kroppsvekt og høyde (M x og M y) for en viss alder og kjønn kjent

    • beregn regresjonens sigma, kjenn til de tilsvarende verdiene til σ y og r xy og bytt inn verdiene deres i formelen (se avsnitt 6).
    • basert på de kjente verdiene x 1, x 2, x 3 og deres tilsvarende gjennomsnittsverdier y 1, y 2 y 3, så vel som de minste (y - σ ru / x) og største (y + σ ru / x) verdier\u200b\u200b(y) konstruere en regresjonsskala.

      For en grafisk representasjon av regresjonsskalaen markeres først verdiene x, x 2, x 3 (y-aksen), dvs. en regresjonslinje bygges, for eksempel avhengigheten av kroppsvekt (y) av høyde (x).

      Deretter, ved de tilsvarende punktene y 1 , y 2 , y 3 er de numeriske verdiene til regresjonssigmaet merket, dvs. på grafen finn de minste og største verdiene av y 1 , y 2 , y 3 .

  10. Praktisk bruk av regresjonsskalaen. Normative skalaer og standarder utvikles, spesielt for fysisk utvikling. I henhold til standardskalaen er det mulig å gi en individuell vurdering av utviklingen til barn. Samtidig vurderes fysisk utvikling som harmonisk hvis for eksempel ved en viss høyde barnets kroppsvekt er innenfor én regresjonssigma til gjennomsnittlig beregnet kroppsvektenhet - (y) for en gitt høyde (x) ( y ± 1 σ Ry / x).

    Fysisk utvikling anses som disharmonisk med tanke på kroppsvekt dersom barnets kroppsvekt for en viss høyde er innenfor andre regresjonssigma: (y ± 2 σ Ry/x)

    Fysisk utvikling vil være sterkt disharmonisk både på grunn av overflødig og utilstrekkelig kroppsvekt dersom kroppsvekten for en viss høyde er innenfor regresjonens tredje sigma (y ± 3 σ Ry/x).

I følge resultatene fra en statistisk studie av den fysiske utviklingen til 5 år gamle gutter, er det kjent at deres gjennomsnittlige høyde (x) er 109 cm, og deres gjennomsnittlige kroppsvekt (y) er 19 kg. Korrelasjonskoeffisienten mellom høyde og kroppsvekt er +0,9, standardavvik er presentert i tabellen.

Påkrevd:

  • beregne regresjonskoeffisienten;
  • ved hjelp av regresjonsligningen, bestemme hva den forventede kroppsvekten til 5 år gamle gutter vil være med en høyde lik x1 = 100 cm, x2 = 110 cm, x3 = 120 cm;
  • beregne regresjonssigma, bygge en regresjonsskala, presentere resultatene av løsningen grafisk;
  • trekke passende konklusjoner.

Tilstanden til problemet og resultatene av løsningen er presentert i sammendragstabellen.

Tabell 1

Betingelsene for problemet Resultatet av problemløsning
regresjonsligning sigma regresjon regresjonsskala (forventet kroppsvekt (i kg))
M σ r xy R y/x X σRx/y y - σ Rу/х y + σ Rу/х
1 2 3 4 5 6 7 8 9 10
Høyde (x) 109 cm ± 4,4 cm +0,9 0,16 100 cm 17,56 kg ± 0,35 kg 17,21 kg 17,91 kg
Kroppsvekt (y) 19 kg ± 0,8 kg 110 cm 19,16 kg 18,81 kg 19,51 kg
120 cm 20,76 kg 20,41 kg 21,11 kg

Løsning.

Konklusjon. Dermed lar regresjonsskalaen innenfor de beregnede verdiene av kroppsvekt deg bestemme den for enhver annen vekstverdi eller vurdere den individuelle utviklingen til barnet. For å gjøre dette, gjenopprett vinkelrett på regresjonslinjen.

  1. Vlasov V.V. Epidemiologi. - M.: GEOTAR-MED, 2004. - 464 s.
  2. Lisitsyn Yu.P. Folkehelse og helsevesen. Lærebok for videregående skoler. - M.: GEOTAR-MED, 2007. - 512 s.
  3. Medik V.A., Yuriev V.K. Et forelesningskurs om folkehelse og helsevesen: Del 1. Folkehelse. - M.: Medisin, 2003. - 368 s.
  4. Minyaev V.A., Vishnyakov N.I. Sosialmedisin og helseorganisasjon (Veiledning i 2 bind). - St. Petersburg, 1998. -528 s.
  5. Kucherenko V.Z., Agarkov N.M. Sosial hygiene og organisering av helsetjenester (Tutorial) - Moskva, 2000. - 432 s.
  6. S. Glantz. Medisinsk-biologisk statistikk. Per fra engelsk. - M., Praksis, 1998. - 459 s.

I statistisk modellering er regresjonsanalyse en studie som brukes til å evaluere sammenhengen mellom variabler. Denne matematiske metoden inkluderer mange andre metoder for å modellere og analysere flere variabler når fokus er på forholdet mellom en avhengig variabel og en eller flere uavhengige variabler. Mer spesifikt hjelper regresjonsanalyse deg å forstå hvordan den typiske verdien av den avhengige variabelen endres hvis en av de uavhengige variablene endres mens de andre uavhengige variablene forblir faste.

I alle tilfeller er målskåren en funksjon av de uavhengige variablene og kalles regresjonsfunksjonen. I regresjonsanalyse er det også av interesse å karakterisere endringen i den avhengige variabelen som en funksjon av regresjon, som kan beskrives ved hjelp av en sannsynlighetsfordeling.

Oppgaver med regresjonsanalyse

Denne statistiske forskningsmetoden er mye brukt for prognoser, der bruken har en betydelig fordel, men noen ganger kan den føre til illusjon eller falske sammenhenger, så det anbefales å bruke den forsiktig i dette spørsmålet, siden for eksempel korrelasjon ikke betyr årsakssammenheng.

Det er utviklet et stort antall metoder for å utføre regresjonsanalyse, som lineær og ordinær minste kvadraters regresjon, som er parametriske. Essensen deres er at regresjonsfunksjonen er definert i form av et begrenset antall ukjente parametere som er estimert fra dataene. Ikke-parametrisk regresjon lar funksjonen ligge i et visst sett med funksjoner, som kan være uendelig dimensjonale.

Som en statistisk forskningsmetode avhenger regresjonsanalyse i praksis av formen på datagenereringsprosessen og hvordan den forholder seg til regresjonstilnærmingen. Siden den sanne formen for dataprosessen som genererer vanligvis er et ukjent tall, avhenger dataregresjonsanalyse ofte til en viss grad av antakelser om prosessen. Disse forutsetningene er noen ganger testbare hvis det er nok data tilgjengelig. Regresjonsmodeller er ofte nyttige selv når forutsetninger er moderat krenket, selv om de kanskje ikke presterer på sitt beste.

I en snevrere forstand kan regresjon spesifikt referere til estimering av kontinuerlige responsvariabler, i motsetning til de diskrete responsvariablene som brukes i klassifisering. Tilfellet av en kontinuerlig utdatavariabel kalles også metrisk regresjon for å skille den fra relaterte problemer.

Historie

Den tidligste formen for regresjon er den velkjente metoden for minste kvadrater. Den ble utgitt av Legendre i 1805 og Gauss i 1809. Legendre og Gauss brukte metoden på problemet med å bestemme ut fra astronomiske observasjoner banene til kropper rundt Solen (hovedsakelig kometer, men senere også nyoppdagede mindre planeter). Gauss publiserte en videreutvikling av teorien om minste kvadrater i 1821, inkludert en variant av Gauss-Markov-teoremet.

Begrepet "regresjon" ble laget av Francis Galton på 1800-tallet for å beskrive et biologisk fenomen. Poenget var at veksten av etterkommere fra veksten av forfedre, som regel, går tilbake til det normale gjennomsnittet. For Galton hadde regresjon bare denne biologiske betydningen, men senere ble arbeidet hans tatt opp av Udni Yoley og Karl Pearson og tatt til en mer generell statistisk kontekst. I arbeidet til Yule og Pearson anses fellesfordelingen av respons- og forklaringsvariablene å være gaussisk. Denne antagelsen ble avvist av Fischer i avisene fra 1922 og 1925. Fisher foreslo at den betingede fordelingen av responsvariabelen er gaussisk, men fellesfordelingen trenger ikke være det. I denne forbindelse er Fishers forslag nærmere Gauss sin formulering fra 1821. Før 1970 tok det noen ganger opptil 24 timer å få resultatet av en regresjonsanalyse.

Regresjonsanalysemetoder fortsetter å være et område for aktiv forskning. De siste tiårene er det utviklet nye metoder for robust regresjon; regresjoner som involverer korrelerte responser; regresjonsmetoder som imøtekommer ulike typer manglende data; ikke-parametrisk regresjon; Bayesianske regresjonsmetoder; regresjoner der prediktorvariabler måles med feil; regresjoner med flere prediktorer enn observasjoner, og kausale slutninger med regresjon.

Regresjonsmodeller

Regresjonsanalysemodeller inkluderer følgende variabler:

  • Ukjente parametere, betegnet som beta, som kan være en skalar eller en vektor.
  • Uavhengige variabler, X.
  • Avhengige variabler, Y.

Innenfor ulike vitenskapsfelt der regresjonsanalyse brukes, brukes ulike termer i stedet for avhengige og uavhengige variabler, men i alle tilfeller relaterer regresjonsmodellen Y til en funksjon av X og β.

Tilnærmingen er vanligvis formulert som E (Y | X) = F (X, β). For å utføre regresjonsanalyse må formen til funksjonen f bestemmes. Mer sjelden er det basert på kunnskap om forholdet mellom Y og X som ikke er avhengig av data. Hvis slik kunnskap ikke er tilgjengelig, velges en fleksibel eller praktisk form F.

Avhengig variabel Y

La oss nå anta at vektoren med ukjente parametere β har lengde k. For å utføre en regresjonsanalyse må brukeren gi informasjon om den avhengige variabelen Y:

  • Hvis N datapunkter av skjemaet (Y, X) blir observert, hvor N< k, большинство классических подходов к регрессионному анализу не могут быть выполнены, так как система уравнений, определяющих модель регрессии в качестве недоопределенной, не имеет достаточного количества данных, чтобы восстановить β.
  • Hvis nøyaktig N = K observeres, og funksjonen F er lineær, kan ligningen Y = F(X, β) løses nøyaktig, ikke tilnærmet. Dette koker ned til å løse et sett med N-ligninger med N-ukjente (elementene i β) som har en unik løsning så lenge X er lineært uavhengig. Hvis F er ikke-lineær, kan det hende at en løsning ikke eksisterer, eller det kan være mange løsninger.
  • Den vanligste situasjonen er hvor det er N > punkter til dataene. I dette tilfellet er det nok informasjon i dataene til å estimere den unike verdien for β som passer best til dataene, og regresjonsmodellen når den brukes på dataene kan sees på som et overstyrt system i β.

I sistnevnte tilfelle gir regresjonsanalyse verktøy for:

  • Å finne en løsning for ukjente parametere β, som for eksempel vil minimere avstanden mellom den målte og predikerte verdien til Y.
  • Under visse statistiske forutsetninger bruker regresjonsanalyse overflødig informasjon for å gi statistisk informasjon om de ukjente parameterne β og de predikerte verdiene til den avhengige variabelen Y.

Nødvendig antall uavhengige målinger

Tenk på en regresjonsmodell som har tre ukjente parametere: β 0 , β 1 og β 2 . La oss anta at eksperimentatoren gjør 10 målinger i samme verdi av den uavhengige variabelen til vektoren X. I dette tilfellet gir ikke regresjonsanalysen et unikt sett med verdier. Det beste du kan gjøre er å estimere gjennomsnittet og standardavviket til den avhengige variabelen Y. På samme måte, ved å måle to forskjellige verdier av X, kan du få nok data for en regresjon med to ukjente, men ikke for tre eller flere ukjente.

Hvis eksperimentørens målinger ble tatt ved tre forskjellige verdier av den uavhengige vektorvariabelen X, ville regresjonsanalysen gi et unikt sett med estimater for de tre ukjente parameterne i β.

Ved generell lineær regresjon tilsvarer setningen ovenfor kravet om at matrisen X T X er inverterbar.

Statistiske forutsetninger

Når antallet målinger N er større enn antallet ukjente parametere k og målefeilene εi, blir som regel overskuddsinformasjonen i målingene fordelt og brukt til statistiske prediksjoner angående ukjente parametere. Dette overskuddet av informasjon kalles regresjonens frihetsgrad.

Underliggende antakelser

Klassiske antakelser for regresjonsanalyse inkluderer:

  • Sampling er representativt for inferensprediksjon.
  • Feilen er en tilfeldig variabel med en middelverdi på null, som er betinget av forklaringsvariablene.
  • De uavhengige variablene måles uten feil.
  • Som uavhengige variabler (prediktorer) er de lineært uavhengige, det vil si at det ikke er mulig å uttrykke noen prediktor som en lineær kombinasjon av de andre.
  • Feilene er ukorrelerte, det vil si feilkovariansmatrisen til diagonalene og hvert ikke-nullelement er variansen til feilen.
  • Feilvariansen er konstant på tvers av observasjoner (homoskedastisitet). Hvis ikke, kan vektede minste kvadrater eller andre metoder brukes.

Disse tilstrekkelige betingelsene for minste kvadraters estimatet har de nødvendige egenskapene, spesielt betyr disse forutsetningene at parameterestimatene vil være objektive, konsistente og effektive, spesielt når de tas i betraktning i klassen lineære estimater. Det er viktig å merke seg at de faktiske dataene sjelden tilfredsstiller betingelsene. Det vil si at metoden brukes selv om forutsetningene ikke stemmer. Variasjon fra forutsetninger kan noen ganger brukes som et mål på hvor nyttig modellen er. Mange av disse antakelsene kan lempes i mer avanserte metoder. Statistiske analyserapporter inkluderer typisk analyse av tester mot prøvedata og metodikk for nytten av modellen.

I tillegg refererer variabler i noen tilfeller til verdier målt på punktplasseringer. Det kan være romlige trender og romlige autokorrelasjoner i variabler som bryter med statistiske forutsetninger. Geografisk vektet regresjon er den eneste metoden som håndterer slike data.

Ved lineær regresjon er funksjonen at den avhengige variabelen, som er Y i , er en lineær kombinasjon av parametere. For eksempel, i enkel lineær regresjon, bruker n-punktsmodellering én uavhengig variabel, x i, og to parametere, β 0 og β 1 .

I multippel lineær regresjon er det flere uavhengige variabler eller deres funksjoner.

Ved tilfeldig utvalg fra en populasjon, gjør dens parametere det mulig å få et utvalg av en lineær regresjonsmodell.

I dette aspektet er minste kvadraters metode den mest populære. Den gir parameterestimater som minimerer summen av kvadrater av residualene. Denne typen minimering (som er typisk for lineær regresjon) av denne funksjonen fører til et sett med normale ligninger og et sett med lineære ligninger med parametere, som løses for å oppnå parameterestimater.

Forutsatt videre at populasjonsfeil generelt forplanter seg, kan forskeren bruke disse estimatene av standardfeil til å lage konfidensintervaller og utføre hypotesetesting om parametrene.

Ikke-lineær regresjonsanalyse

Et eksempel hvor funksjonen ikke er lineær med hensyn til parameterne indikerer at summen av kvadrater bør minimeres med en iterativ prosedyre. Dette introduserer mange komplikasjoner som definerer forskjellene mellom lineære og ikke-lineære minste kvadraters metoder. Følgelig er resultatene av regresjonsanalyse ved bruk av en ikke-lineær metode noen ganger uforutsigbare.

Beregning av effekt og prøvestørrelse

Her er det som regel ingen konsistente metoder når det gjelder antall observasjoner sammenlignet med antall uavhengige variabler i modellen. Den første regelen ble foreslått av Dobra og Hardin og ser ut som N = t^n, der N er utvalgsstørrelsen, n er antall forklarende variabler, og t er antall observasjoner som trengs for å oppnå ønsket nøyaktighet hvis modellen hadde kun én forklaringsvariabel. For eksempel bygger en forsker en lineær regresjonsmodell ved hjelp av et datasett som inneholder 1000 pasienter (N). Hvis forskeren bestemmer at fem observasjoner er nødvendig for nøyaktig å bestemme linjen (m), er det maksimale antallet forklaringsvariabler som modellen kan støtte 4.

Andre metoder

Selv om parametrene til en regresjonsmodell vanligvis estimeres ved bruk av minste kvadraters metode, er det andre metoder som brukes mye sjeldnere. Dette er for eksempel følgende metoder:

  • Bayesianske metoder (for eksempel den Bayesianske metoden for lineær regresjon).
  • En prosentvis regresjon som brukes for situasjoner der reduksjon av prosentvise feil anses som mer hensiktsmessig.
  • De minste absolutte avvikene, som er mer robuste i nærvær av uteliggere som fører til kvantilregresjon.
  • Ikke-parametrisk regresjon som krever et stort antall observasjoner og beregninger.
  • Avstanden til læringsmetrikken som læres på jakt etter en meningsfull avstandsberegning i det gitte inndatarommet.

Programvare

Alle større statistiske programvarepakker utføres ved bruk av minste kvadraters regresjonsanalyse. Enkel lineær regresjon og multippel regresjonsanalyse kan brukes i enkelte regnearkapplikasjoner så vel som noen kalkulatorer. Mens mange statistiske programvarepakker kan utføre ulike typer ikke-parametrisk og robust regresjon, er disse metodene mindre standardiserte; forskjellige programvarepakker implementerer forskjellige metoder. Spesialisert regresjonsprogramvare er utviklet for bruk innen områder som undersøkelsesanalyse og nevroimaging.