Biografier Kjennetegn Analyse

Parametrene til den lineære regresjonsligningen beregnes basert på. Regresjonsligning

Emne:Elementer i teorien om korrelasjon

Serieobjekter populasjoner har flere egenskaper X, Y, ... som skal studeres, som kan tolkes som et system av sammenhengende størrelser. Eksempler er: vekten av dyret og mengden hemoglobin i blodet, høyden til en mann og volumet av brystet, økningen i innendørs jobber og forekomsten av virusinfeksjoner, mengden administrert legemiddel og konsentrasjonen av det. i blodet osv.

Det er åpenbart en sammenheng mellom disse mengdene, men det kan ikke være en streng funksjonell avhengighet, siden endringen i en av mengdene påvirkes ikke bare av endringen i den andre mengden, men også av andre faktorer. I slike tilfeller sies de to mengdene å være relatert. stokastisk(dvs. tilfeldig) avhengighet. Vi skal studere spesielt tilfelle stokastisk avhengighet - korrelasjonsavhengighet.

DEFINISJON:stokastisk hvis endringen i en av dem ikke bare påvirkes av endringen i den andre verdien, men også av andre faktorer.

DEFINISJON: Avhengigheten av tilfeldige variabler kalles statistisk, hvis en endring i en av dem fører til en endring i distribusjonsloven for den andre.

DEFINISJON: Hvis en endring i en av de tilfeldige variablene medfører en endring i gjennomsnittet av en annen tilfeldig variabel, kalles den statistiske avhengigheten sammenheng.

Eksempler korrelasjonsavhengighet er koblinger mellom:

kroppsvekt og høyde;

    dose ioniserende stråling og antall mutasjoner;

    menneskehår pigment og øyenfarge;

    indikatorer for befolkningens levestandard og prosentandelen av dødelighet;

    antall glipp av forelesninger av studenter og eksamenskarakterer mv.

Det er korrelasjonsavhengighetene som oftest finnes i naturen på grunn av gjensidig innflytelse og tett sammenveving av et stort utvalg av svært forskjellige faktorer som bestemmer verdiene til de studerte indikatorene.

Resultatene av observasjonen utført over et bestemt biologisk objekt i henhold til de korrelerte tegnene Y og X kan avbildes som punkter på et plan ved å konstruere et system av rektangulære koordinater. Som et resultat oppnås et visst spredningsdiagram, som gjør det mulig å bedømme formen og stramheten til forholdet mellom forskjellige funksjoner.

Hvis dette forholdet kan tilnærmes med en kurve, vil det være mulig å forutsi en endring i en av parameterne med en målrettet endring i en annen parameter.

korrelasjonsavhengighet fra
kan beskrives ved hjelp av en formlikning

(1)

G
de
betinget gjennomsnitt mengder tilsvarende verdien mengder
, a
noen funksjon. Ligning (1) kalles
.

Figur 1. Lineær regresjon betydelige. Modell
.

Funksjon
kalt prøveregresjon
, og grafen er prøveregresjonslinje
.

Helt lik prøveregresjonsligning
er ligningen
.

Avhengig av typen av regresjonsligningen og formen på den tilsvarende regresjonslinjen, bestemmes formen for korrelasjonsavhengigheten mellom de vurderte verdiene - lineær, kvadratisk, eksponentiell, eksponentiell.

Det viktigste er spørsmålet om valg av type regresjonsfunksjon
[eller
], for eksempel lineær eller ikke-lineær (eksponentiell, logaritmisk, etc.)

I praksis kan formen til regresjonsfunksjonen bestemmes ved å konstruere på koordinatplanet et sett med punkter som tilsvarer alle tilgjengelige observasjonspar (
).

Ris. 2. Lineær regresjon er ikke signifikant. Modell
.

R
er. 3. Ikke-lineær modell
.

For eksempel, i fig.1. det er en stigende trend i verdier med vekst
, mens gjennomsnittsverdiene plassert visuelt på en rett linje. Det er fornuftig å bruke en lineær modell (typen avhengighet fra
kalt en modell) avhengigheter fra
.

I fig.2. gjennomsnittsverdier ikke avhengig av , derfor er den lineære regresjonen ubetydelig (regresjonsfunksjonen er konstant og lik ).

På fig. 3. det er en tendens til at modellen er ikke-lineær.

Eksempler på et rettlinjet forhold:

    en økning i mengden konsumert jod og en reduksjon i forekomsten av struma,

    øke arbeidserfaringen og øke produktiviteten.

Eksempler på kurvlineær avhengighet:

    med økning i nedbør øker utbyttet, men dette skjer opp til en viss nedbørsgrense. Etter det kritiske punktet er nedbør allerede for mye, jorda blir vannfylt og utbyttet synker,

    forholdet mellom dosen klor som brukes til å desinfisere vann og antall bakterier i 1 ml. vann. Ved økning av klordosen synker antallet bakterier i vannet, men når det kritiske punktet er nådd vil antallet bakterier holde seg konstant (eller helt fraværende), uansett hvordan vi øker klordosen.

Lineær regresjon

Å velge type regresjonsfunksjon, dvs. type avhengighetsmodell under vurdering fra X (eller X fra Y), for eksempel en lineær modell
, er det nødvendig å bestemme de spesifikke verdiene til koeffisientene til modellen.

For ulike verdier en og
det er mulig å bygge et uendelig antall avhengigheter av formen
dvs. på koordinatplan det er et uendelig antall linjer, men vi trenger en slik avhengighet som matcher de observerte verdiene på den beste måten. Dermed er problemet redusert til valget av de beste koeffisientene.

Minste kvadrater (LSM)

lineær funksjon
vi søker kun basert på et visst antall tilgjengelige observasjoner. For å finne funksjonen som passer best til de observerte verdiene, bruker vi metode minste kvadrater.

Fig.4. Forklaring av estimering av koeffisienter ved hjelp av minste kvadraters metode

Betegn: - verdi beregnet i henhold til ligningen

- målt verdi,

- forskjellen mellom målte og beregnede verdier,

.

minste kvadrater Forpliktet til , forskjellen mellom de målte og verdier beregnet av ligningen , var minimal. Derfor finner vi å velge koeffisientene en og slik at summen av kvadrerte avvik av de observerte verdiene fra verdiene på den rette regresjonslinjen er den minste:

Denne tilstanden oppnås hvis parametrene en og vil bli beregnet i henhold til formlene:

kalt regresjonskoeffisient; kalt gratis medlem regresjonsligninger.

Den resulterende rette linjen er et estimat for den teoretiske regresjonslinjen. Vi har

Så,
er lineær regresjonsligning.

Regresjon kan være direkte
og reverser
.

DEFINISJON: Omvendt regresjon betyr at når en parameter øker, reduseres verdiene til den andre parameteren.

Sammenkoblet lineær regresjon

VERKSTED

Sammenkoblet lineær regresjon: Workshop. -

Studiet i økonometrikk innebærer at studentene får erfaring med å bygge økonometriske modeller, ta beslutninger om spesifikasjon og identifisering av en modell, velge en metode for å estimere modellparametere, vurdere dens kvalitet, tolke resultater, innhente prediktive estimater osv. Workshopen skal hjelpe studentene tilegne seg praktiske ferdigheter i disse spørsmålene.

Godkjent av redaksjons- og forlagsrådet

Satt sammen av: M.B. Perova, doktor i økonomi, professor

Generelle bestemmelser

Økonometrisk forskning begynner med en teori som etablerer sammenhenger mellom fenomener. Fra hele spekteret av faktorer som påvirker den effektive funksjonen, skilles de viktigste faktorene. Etter at tilstedeværelsen av et forhold mellom de studerte egenskapene er identifisert, bestemmes den eksakte formen for dette forholdet ved hjelp av regresjonsanalyse.

Regresjonsanalyse er å bestemme et analytisk uttrykk (i definisjonen av en funksjon), der en endring i en verdi (effektivt trekk) skyldes påvirkningen uavhengig verdi(faktortegn). Dette forholdet kan kvantifiseres ved å konstruere en regresjonsligning eller en regresjonsfunksjon.

Den grunnleggende regresjonsmodellen er en paret (én-faktor) regresjonsmodell. Parregresjon– ligningen for kobling av to variabler og X:

hvor - avhengig variabel (resultattegn);

– uavhengig, forklarende variabel (faktortegn).

Avhengig av endringens art med endring X skille mellom lineære og ikke-lineære regresjoner.

Lineær regresjon

Denne regresjonsfunksjonen kalles et polynom av første grad og brukes til å beskrive prosesser som utvikler seg jevnt over tid.

Å ha et tilfeldig medlem (regresjonsfeil) er assosiert med innvirkningen på den avhengige variabelen av andre faktorer som ikke er tatt i betraktning i ligningen, med den mulige ikke-lineariteten til modellen, målefeil, derfor utseendet tilfeldig feilligning regresjon kan skyldes følgende mål grunner:

1) ikke-representativitet av utvalget. Den parede regresjonsmodellen inkluderer en faktor som ikke fullt ut klarer å forklare variasjonen i utfallsvariabelen, som kan påvirkes av mange andre faktorer (manglende variabler) i mye større grad. Sysselsetting, lønn kan i tillegg til kvalifikasjoner avhenge av utdanningsnivå, arbeidserfaring, kjønn osv.;

2) det er en mulighet for at variablene som er involvert i modellen kan måles feil. For eksempel er data om familiens matutgifter kompilert fra registrene til deltakere i undersøkelsen, som forventes å nøye registrere sine daglige utgifter. Dette kan selvsagt føre til feil.

Basert på prøveobservasjonen estimeres prøveregresjonsligningen ( regresjonslinje):

,

hvor
– estimater av parametrene til regresjonsligningen (
).

Analytisk form for avhengighet mellom det studerte trekkparet (regresjonsfunksjon) bestemmes ved å bruke følgende metoder:

    Basert på teoretisk og logisk analyse naturen til de studerte fenomenene, deres sosioøkonomiske essens. Hvis for eksempel sammenhengen mellom inntekten til befolkningen og størrelsen på befolkningens innskudd i banker studeres, så er det åpenbart at sammenhengen er direkte.

    Grafisk metode når karakteren av forholdet vurderes visuelt.

Denne avhengigheten kan tydelig sees hvis du bygger en graf ved å plotte verdien av attributtet på x-aksen X, og på y-aksen - verdiene til funksjonen . Sett på grafen punktene som tilsvarer verdiene X og , vi får korrelasjonsfelt:

a) hvis punktene er tilfeldig spredt over hele feltet, indikerer dette fraværet av en sammenheng mellom disse funksjonene;

b) hvis punktene er konsentrert rundt en akse som strekker seg fra nedre venstre hjørne til øvre høyre, så er det et direkte forhold mellom skiltene;

c) hvis punktene er konsentrert rundt en akse som går fra øvre venstre hjørne til nedre høyre, da omvendt forhold mellom skiltene.

Hvis vi på korrelasjonsfeltet forbinder punktene med linjestykker, får vi brutt linje med en viss oppadgående trend. Dette vil være en empirisk kobling eller empirisk regresjonslinje. Ved dets utseende kan man bedømme ikke bare tilstedeværelsen, men også formen for forholdet mellom de studerte funksjonene.

Bygge en parregresjonsligning

Konstruksjonen av regresjonsligningen er redusert til å estimere dens parametere. Disse parameterestimatene kan finnes på forskjellige måter. En av dem er metoden for minste kvadrater (LSM). Essensen av metoden er som følger. Hver verdi tilsvarer den empiriske (observerte) verdien . Ved å konstruere en regresjonsligning, for eksempel en rettlinjeligning, hver verdi vil tilsvare den teoretiske (kalkulerte) verdien . Observerte verdier ikke ligge nøyaktig på regresjonslinjen, dvs. ikke samsvarer med . Forskjellen mellom de faktiske og beregnede verdiene til den avhengige variabelen kalles rest:

LSM lar deg få slike estimater av parametere, der summen av kvadrerte avvik av de faktiske verdiene til den effektive funksjonen fra teoretisk , dvs. summen av kvadrater av rester, minimum:

For lineære ligninger og ikke-lineære ligninger reduserbare til lineære, løses følgende system mht. en og b:

hvor n– prøvestørrelse.

Når vi løser ligningssystemet, får vi verdiene en og b, som lar oss skrive regresjonsligning(regresjonsligning):

hvor er den forklarende (uavhengige) variabelen;

–forklart (avhengig) variabel;

Regresjonslinjen går gjennom punktet ( ,) og likheter er oppfylt:

Du kan bruke ferdige formler som følger av dette ligningssystemet:

hvor - gjennomsnittsverdien til den avhengige funksjonen;

er gjennomsnittsverdien til en uavhengig funksjon;

er det aritmetiske gjennomsnittet av produktet av de avhengige og uavhengige egenskapene;

er variansen til et uavhengig trekk;

er kovariansen mellom de avhengige og uavhengige egenskapene.

Eksempel på kovarians to variabler X, kalt gjennomsnittlig verdi produktet av avvikene til disse variablene fra deres middel

Parameter bX har en flott praktisk verdi og kalles regresjonskoeffisienten. Regresjonskoeffisient viser hvor mange enheter verdien endres i gjennomsnitt X 1 måleenhet.

Parametertegn b i parregresjonsligningen indikerer retningen av forholdet:

hvis
, da er forholdet mellom de studerte indikatorene direkte, dvs. med en økning i faktortegnet X det resulterende tegnet øker , og vice versa;

hvis
, da er forholdet mellom de studerte indikatorene omvendt, dvs. med en økning i faktortegnet X effektivt tegn minker og omvendt.

Parameterverdi en i parregresjonsligningen kan i noen tilfeller tolkes som startverdien til den effektive funksjonen . Denne tolkningen av parameteren en bare mulig hvis verdien
har betydningen.

Etter å ha bygget regresjonsligningen, de observerte verdiene y kan tenkes som:

Rester , samt feil , er tilfeldige variabler, men de, i motsetning til feil , observerbar. Resten er den delen av den avhengige variabelen y, som ikke kan forklares med regresjonsligningen.

Ut fra regresjonsligningen kan man regne ut teoretiske verdier X for eventuelle verdier X.

I økonomisk analyse brukes ofte begrepet elastisiteten til en funksjon. Funksjonselastisitet
beregnet som relativ endring y til relativ endring x. Elastisitet viser hvor mye funksjonen endres
når den uavhengige variabelen endres med 1 %.

Siden elastisiteten til en lineær funksjon
er ikke konstant verdi, men avhenger av X, så beregnes vanligvis elastisitetskoeffisienten som gjennomsnittlig elastisitetsindeks.

Elastisitetskoeffisient viser med hvor mange prosent verdien av det effektive attributtet vil endres i gjennomsnitt i aggregatet når du endrer faktortegnet X 1 % av gjennomsnittsverdien:

hvor
– gjennomsnittsverdier av variabler X og i prøven.

Evaluering av kvaliteten på den konstruerte regresjonsmodellen

Kvaliteten på regresjonsmodellen– tilstrekkeligheten av den konstruerte modellen til de første (observerte) dataene.

For å måle koblingens tetthet, dvs. for å måle hvor nær det er funksjonelle, må du bestemme variansen som måler avvikene fra X og karakterisering av gjenværende variasjon på grunn av andre faktorer. De ligger til grunn for indikatorene som karakteriserer regresjonsmodellens kvalitet.

Kvaliteten på parvis regresjon bestemmes ved å bruke koeffisienter som karakteriserer

1) tettheten til forbindelsen - korrelasjonsindeksen, den parede lineære korrelasjonskoeffisienten;

2) tilnærmingsfeil;

3) kvaliteten på regresjonsligningen og dens individuelle parametere - gjennomsnittlig kvadratfeil for regresjonsligningen som helhet og dens individuelle parametere.

For regresjonsligninger av enhver art er definert korrelasjonsindeks, som kun karakteriserer tettheten av korrelasjonsavhengigheten, dvs. graden av dens tilnærming til en funksjonell forbindelse:

,

hvor – faktoriell (teoretisk) varians;

er den totale variansen.

Korrelasjonsindeksen tar verdier
, hvori,

hvis

hvis
er forholdet mellom funksjoner X og er funksjonell, jo nærmere til 1, jo nærmere forholdet mellom de studerte egenskapene vurderes. Hvis en
, da kan forholdet betraktes som nært

Avvikene som kreves for å beregne indikatorene for tettheten til forbindelsen, beregnes:

Total varians, måling vanlig variasjon på grunn av virkningen av alle faktorer:

Faktoriell (teoretisk) varians, måle variasjonen av den resulterende egenskapen på grunn av virkningen av et faktortegn X:

Restdispersjon, som karakteriserer variasjonen av egenskapen på grunn av alle faktorer unntatt X(dvs. med de ekskluderte X):

Deretter, i henhold til regelen for tillegg av avvik:

Kvalitet på damprommet lineær regresjon kan også defineres ved hjelp av paret lineær korrelasjonskoeffisient:

,

hvor
– kovarians av variabler X og ;

– standardavvik for en uavhengig funksjon;

er standardavviket til den avhengige funksjonen.

Den lineære korrelasjonskoeffisienten karakteriserer tettheten og retningen av forholdet mellom de studerte funksjonene. Det måles innenfor [-1; +1]:

hvis
- da er forholdet mellom tegnene direkte;

hvis
- da er forholdet mellom tegnene omvendt;

hvis
– da er det ingen sammenheng mellom skiltene;

hvis
eller
- da er forholdet mellom funksjonene funksjonelt, dvs. preget av en perfekt match mellom X og . Jo nærmere til 1, jo nærmere forholdet mellom de studerte egenskapene vurderes.

Hvis korrelasjonsindeksen (parret lineær korrelasjonskoeffisient) kvadreres, får vi bestemmelseskoeffisienten.

Bestemmelseskoeffisient- representerer andelen faktorvarians i totalen og viser hvor mange prosent variasjonen av det resulterende attributtet forklares med variasjonen av faktortrekket X:

Den dekker ikke alle varianter. fra en faktoregenskap X, men bare den delen av den som tilsvarer den lineære regresjonsligningen, dvs. viser egenvekt variasjon av den resulterende egenskapen, lineært relatert til variasjonen av faktoregenskapen.

Verdi
- andelen av variasjonen til det resulterende attributtet, som regresjonsmodellen ikke kunne ta hensyn til.

Spredningen av punkter i korrelasjonsfeltet kan være svært stor, og den beregnede regresjonsligningen kan gi en stor feil ved å estimere den analyserte indikatoren.

Gjennomsnittlig tilnærmingsfeil viser gjennomsnittlig avvik av de beregnede verdiene fra de faktiske:

Maksimal tillatt verdi er 12–15 %.

Standardfeilen brukes som et mål på spredningen av den avhengige variabelen rundt regresjonslinjen. For hele settet med observerte verdier, standard (rms) regresjonsligningsfeil, som er standardavviket til de faktiske verdiene i forhold til teoretiske verdier beregnet av regresjonsligningen X .

,

hvor
er antall frihetsgrader;

m er antall parametere i regresjonsligningen (for den rette linjeligningen m=2).

Estimer verdien av gjennomsnittet kvadratisk feil du kan sammenligne det

a) med gjennomsnittsverdien til den effektive funksjonen ;

b) med standardavviket til funksjonen :

hvis
, da er bruken av denne regresjonsligningen passende.

Separat vurdert standard (rms) feil på ligningsparametere og korrelasjonsindeks:

;
;
.

X– standardavvik X.

Sjekke betydningen av regresjonsligningen og indikatorer på tettheten til forbindelsen

For at den konstruerte modellen skal kunne brukes til videre økonomiske beregninger, er det ikke nok å kontrollere kvaliteten på den konstruerte modellen. Det er også nødvendig å sjekke signifikansen (viktigheten) av estimatene for regresjonsligningen og indikatoren for nærhet til forbindelse oppnådd ved bruk av minste kvadraters metode, dvs. det er nødvendig å sjekke dem for samsvar med de sanne parametrene i forholdet.

Dette skyldes det faktum at indikatorene beregnet for en begrenset populasjon beholder elementet av tilfeldighet som er iboende i de individuelle verdiene til attributtet. Derfor er de bare estimater av en viss statistisk regularitet. Det er nødvendig å vurdere graden av nøyaktighet og signifikans (pålitelighet, materialitet) av regresjonsparameterne. Under betydning forstå sannsynligheten for at verdien av den sjekkede parameteren ikke er lik null, inkluderer ikke verdier av motsatte fortegn.

Signifikanstest– kontrollere antakelsen om at parameterne avviker fra null.

Vurdere betydningen av den sammenkoblede regresjonsligningen kommer ned til å teste hypoteser om betydningen av regresjonsligningen som helhet og dens individuelle parametere ( en, b), parbestemmelseskoeffisient eller korrelasjonsindeks.

I dette tilfellet kan følgende fremsettes hovedhypoteserH 0 :

1)
– regresjonskoeffisientene er ubetydelige og regresjonsligningen er også ubetydelig;

2)
– parbestemmelseskoeffisienten er ubetydelig og regresjonsligningen er også ubetydelig.

Alternative (eller omvendte) er følgende hypoteser:

1)
– regresjonskoeffisienter er signifikant forskjellig fra null, og den konstruerte regresjonsligningen er signifikant;

2)
– parbestemmelseskoeffisienten er signifikant forskjellig fra null og den konstruerte regresjonsligningen er signifikant.

Tester hypotesen om betydningen av den sammenkoblede regresjonsligningen

For å teste hypotesen om statistisk insignifikans for regresjonsligningen som helhet og bestemmelseskoeffisienten, bruker vi F-kriterium(Fishers kriterium):

eller

hvor k 1 = m–1 ; k 2 = nm er antall frihetsgrader;

n er antall befolkningsenheter;

m er antall parametere i regresjonsligningen;

– faktorspredning;

er restvariansen.

Hypotesen testes som følger:

1) hvis den faktiske (observerte) verdien F-kriteriet er større enn den kritiske (tabell)verdien til dette kriteriet
, da med sannsynlighet
hovedhypotesen om insignifikansen til regresjonsligningen eller parbestemmelseskoeffisienten forkastes, og regresjonsligningen anerkjennes som signifikant;

2) hvis den faktiske (observerte) verdien av F-kriteriet er mindre enn den kritiske verdien til dette kriteriet
, da med sannsynlighet (
) hovedhypotesen om regresjonsligningens insignifikans eller parbestemmelseskoeffisienten aksepteres, og den konstruerte regresjonsligningen anerkjennes som insignifikant.

kritisk verdi F- kriteriet er funnet i henhold til de tilsvarende tabellene avhengig av signifikansnivå og antall frihetsgrader
.

Antall frihetsgrader– indikator, som er definert som forskjellen mellom prøvestørrelsen ( n) og antall estimerte parametere for denne prøven ( m). For en paret regresjonsmodell beregnes antall frihetsgrader som
, siden to parametere er estimert fra utvalget (
).

Signifikansnivå - verdien som er fastsatt
,

hvor er konfidenssannsynligheten for at den estimerte parameteren faller innenfor konfidensintervallet. Vanligvis tas 0,95. På denne måten er sannsynligheten for at den estimerte parameteren ikke faller inn i konfidensintervallet, lik 0,05 (5%) .

Deretter, når det gjelder å vurdere betydningen av den parede regresjonsligningen, beregnes den kritiske verdien av F-kriteriet som
:

.

Testing av hypotesen om betydningen av parameterne til parregresjonsligningen og korrelasjonsindeksen

Når du sjekker betydningen av parametrene til ligningen (antakelsen om at parametrene avviker fra null), fremsettes hovedhypotesen om ubetydeligheten til de oppnådde estimatene (
. Som en alternativ (omvendt) hypotese fremsettes om betydningen av parametrene til ligningen (
).

For å teste de foreslåtte hypotesene bruker vi t -kriterium (t-statistikk) Student. Observert verdi t-kriterier sammenlignes med verdien t-kriterium bestemt av studentens fordelingstabell (kritisk verdi). kritisk verdi t- kriterier
avhenger av to parametere: signifikansnivå og antall frihetsgrader
.

De foreslåtte hypotesene testes som følger:

1) hvis modulen til den observerte verdien t-kriteriene er større enn den kritiske verdien t-kriterier, dvs.
, da med sannsynlighet
hovedhypotesen om regresjonsparametrenes ubetydelighet forkastes, dvs. regresjonsparametere er ikke lik 0;

2) hvis modulen til den observerte verdien t- kriteriet er mindre enn eller lik den kritiske verdien t-kriterier, dvs.
, da med sannsynlighet
hovedhypotesen om regresjonsparametrenes insignifikans er akseptert, dvs. regresjonsparametere avviker nesten ikke fra 0 eller er lik 0.

Vurderingen av betydningen av regresjonskoeffisientene ved å bruke studentens test utføres ved å sammenligne estimatene deres med verdien av standardfeilen:

;

For å vurdere den statistiske signifikansen av indeksen (lineær koeffisient) til korrelasjonen, brukes den også t-Elevens kriterium.

I løpet av studiene møter studentene veldig ofte en rekke ligninger. En av dem - regresjonsligningen - vurderes i denne artikkelen. Denne typen ligninger brukes spesifikt for å beskrive egenskapene til forholdet mellom matematiske parametere. Denne typen likheter brukes i statistikk og økonometri.

Definisjon av regresjon

I matematikk forstås regresjon som en viss mengde som beskriver avhengigheten av gjennomsnittsverdien til et datasett av verdiene til en annen mengde. Regresjonsligningen viser, som funksjon av et bestemt trekk, gjennomsnittsverdien til et annet trekk. Regresjonsfunksjonen har formen enkel ligning y \u003d x, der y er den avhengige variabelen, og x er den uavhengige variabelen (funksjonsfaktor). Faktisk er regresjonen uttrykt som y = f (x).

Hva er typene forhold mellom variabler

Generelt skilles det mellom to motsatte typer forhold: korrelasjon og regresjon.

Den første er preget av likhet mellom betingede variabler. PÅ denne saken det er ikke kjent med sikkerhet hvilken variabel som avhenger av den andre.

Hvis det ikke er likhet mellom variablene og betingelsene sier hvilken variabel som er forklarende og hvilken som er avhengig, så kan vi snakke om tilstedeværelsen av en sammenheng av den andre typen. For å bygge en lineær regresjonsligning vil det være nødvendig å finne ut hvilken type sammenheng som observeres.

Typer regresjoner

Til dags dato er det 7 forskjellige typer regresjon: hyperbolsk, lineær, multippel, ikke-lineær, parvis, invers, logaritmisk lineær.

Hyperbolsk, lineær og logaritmisk

Den lineære regresjonsligningen brukes i statistikk for å tydelig forklare parametrene til ligningen. Det ser ut som y = c + m * x + E. Den hyperbolske ligningen har form av en regulær hyperbel y \u003d c + m / x + E. Den logaritmisk lineære ligningen uttrykker forholdet vha. logaritmisk funksjon: I y \u003d I c + t * I x + I E.

Multippel og ikke-lineær

to til komplekse typer regresjoner er multiple og ikke-lineære. Ligningen multippel regresjon uttrykt ved funksjonen y \u003d f (x 1, x 2 ... x c) + E. I denne situasjonen er y den avhengige variabelen og x er den forklarende variabelen. Variabelen E er stokastisk og inkluderer påvirkning av andre faktorer i ligningen. Ikke-lineær ligning regresjon er litt inkonsekvent. På den ene siden, med hensyn til indikatorene tatt i betraktning, er den ikke lineær, og på den andre siden, i rollen som å vurdere indikatorer, er den lineær.

Inverse og parvise regresjoner

En invers er en slags funksjon som må konverteres til lineær visning. I de mest tradisjonelle applikasjonsprogrammene har den form av en funksjon y \u003d 1 / c + m * x + E. Den sammenkoblede regresjonsligningen viser forholdet mellom dataene som en funksjon av y = f(x) + E. Akkurat som de andre ligningene er y avhengig av x og E er en stokastisk parameter.

Konseptet med korrelasjon

Dette er en indikator som viser eksistensen av et forhold mellom to fenomener eller prosesser. Styrken til sammenhengen uttrykkes som en korrelasjonskoeffisient. Verdien svinger innenfor intervallet [-1;+1]. Negativ indikator snakker om tilstedeværelsen tilbakemelding, positiv - om en rett linje. Hvis koeffisienten tar en verdi lik 0, er det ingen sammenheng. Jo nærmere verdien er 1 - jo sterkere forholdet mellom parameterne, jo nærmere 0 - jo svakere.

Metoder

Korrelasjonsparametriske metoder kan estimere tettheten i forholdet. De brukes på grunnlag av distribusjonsestimater for å studere parametere som følger normalfordelingsloven.

Parametrene til den lineære regresjonsligningen er nødvendige for å identifisere typen avhengighet, funksjonen til regresjonsligningen og evaluere indikatorene for den valgte relasjonsformelen. Korrelasjonsfeltet brukes som en metode for å identifisere en sammenheng. For å gjøre dette må alle eksisterende data representeres grafisk. I et rektangulært todimensjonalt koordinatsystem må alle kjente data plottes. Slik dannes korrelasjonsfeltet. Verdien av den beskrivende faktoren er markert langs abscissen, mens verdiene til den avhengige faktoren er markert langs ordinaten. Hvis det er en funksjonell sammenheng mellom parameterne, stiller de opp i form av en linje.

Hvis korrelasjonskoeffisienten til slike data er mindre enn 30%, kan vi snakke om nesten fullstendig fravær av en forbindelse. Hvis det er mellom 30 % og 70 %, indikerer dette tilstedeværelsen av koblinger med middels nærhet. En 100 % indikator er bevis på en funksjonell forbindelse.

En ikke-lineær regresjonsligning, akkurat som en lineær, må suppleres med en korrelasjonsindeks (R).

Korrelasjon for multippel regresjon

Bestemmelseskoeffisienten er en indikator på kvadratet multippel korrelasjon. Han snakker om stramheten i forholdet til det presenterte settet med indikatorer med egenskapen som studeres. Det kan også snakke om arten av påvirkningen av parametere på resultatet. Multippel regresjonsligningen evalueres ved hjelp av denne indikatoren.

For å beregne den multiple korrelasjonsindeksen, er det nødvendig å beregne dens indeks.

Minste kvadratiske metode

Denne metoden er en måte å estimere regresjonsfaktorer på. Dens essens ligger i å minimere summen av kvadrerte avvik oppnådd på grunn av faktorens avhengighet av funksjonen.

En sammenkoblet lineær regresjonsligning kan estimeres ved å bruke en slik metode. Denne typen ligninger brukes i tilfelle deteksjon mellom indikatorene for et paret lineært forhold.

Ligningsalternativer

Hver parameter i den lineære regresjonsfunksjonen har en spesifikk betydning. Den sammenkoblede lineære regresjonsligningen inneholder to parametere: c og m. Parameteren t viser gjennomsnittlig endring i den endelige indikatoren til funksjonen y, med forbehold om en reduksjon (økning) i variabelen x med én konvensjonell enhet. Hvis variabelen x er null, er funksjonen lik parameteren c. Hvis variabelen x ikke er null, bærer ikke faktoren c økonomisk sans. Den eneste påvirkningen på funksjonen er tegnet foran faktoren c. Hvis det er et minus, kan vi si om en langsom endring i resultatet sammenlignet med faktoren. Hvis det er et pluss, indikerer dette en akselerert endring i resultatet.

Hver parameter som endrer verdien av regresjonsligningen kan uttrykkes i form av en ligning. For eksempel har faktoren c formen c = y - mx.

Grupperte data

Det er slike forhold ved problemet der all informasjon er gruppert i henhold til attributten x, men samtidig for bestemt gruppe de tilsvarende gjennomsnittsverdiene til den avhengige indikatoren er indikert. I dette tilfellet karakteriserer gjennomsnittsverdiene hvordan indikatoren avhenger av x. Dermed hjelper den grupperte informasjonen til å finne regresjonsligningen. Den brukes som en relasjonsanalyse. Imidlertid har denne metoden sine ulemper. Dessverre er gjennomsnitt ofte gjenstand for eksterne svingninger. Disse svingningene er ikke en refleksjon av mønstrene i forholdet, de maskerer bare "støyen". Gjennomsnitt viser forholdsmønstre mye verre enn en lineær regresjonsligning. De kan imidlertid brukes som grunnlag for å finne en ligning. Ved å multiplisere størrelsen på en bestemt populasjon med det tilsvarende gjennomsnittet, kan du få summen av y innenfor gruppen. Deretter må du slå ut alle mottatte beløp og finne den endelige indikatoren y. Det er litt vanskeligere å gjøre beregninger med sumindikatoren xy. I tilfelle at intervallene er små, kan vi betinget ta indikatoren x for alle enheter (innenfor gruppen) den samme. Multipliser det med summen av y for å finne summen av produktene av x og y. Videre er alle summene slått sammen og det viser seg totale mengden hu.

Regresjon av flere par ligninger: Vurdere betydningen av et forhold

Som diskutert tidligere, har multippel regresjon en funksjon av formen y \u003d f (x 1, x 2, ..., x m) + E. Oftest brukes en slik ligning for å løse problemet med tilbud og etterspørsel etter varer, renteinntekter på tilbakekjøpte aksjer, studere årsakene og typen produksjonskostnadsfunksjon. Den brukes også aktivt i en lang rekke makroøkonomiske studier og beregninger, men på mikroøkonominivå brukes denne ligningen litt sjeldnere.

Hovedoppgaven til multippel regresjon er å bygge en datamodell som inneholder en enorm mengde informasjon for videre å bestemme hvilken innflytelse hver av faktorene individuelt og i sin helhet har på indikatoren som skal modelleres og dens koeffisienter. Regresjonsligningen kan ha en rekke verdier. I dette tilfellet brukes vanligvis to typer funksjoner for å vurdere forholdet: lineær og ikke-lineær.

En lineær funksjon er avbildet i form av et slikt forhold: y \u003d a 0 + a 1 x 1 + a 2 x 2, + ... + a m x m. I dette tilfellet anses a2, a m for å være koeffisientene for "ren" regresjon. De er nødvendige for å karakterisere den gjennomsnittlige endringen i parameteren y med en endring (reduksjon eller økning) i hver tilsvarende parameter x med en enhet, med betingelsen om en stabil verdi av andre indikatorer.

Ikke-lineære ligninger har for eksempel formen strømfunksjon y=ax 1 b1 x 2 b2 ...x m bm . I dette tilfellet kalles indikatorene b 1, b 2 ..... b m - elastisitetskoeffisienter, de viser hvordan resultatet vil endre seg (med hvor mye%) med en økning (reduksjon) i den tilsvarende indikatoren x med 1% og med en stabil indikator på andre faktorer.

Hvilke faktorer bør vurderes når man bygger en multippel regresjon

For å konstruere en multippel regresjon på riktig måte, er det nødvendig å finne ut hvilke faktorer som bør vies spesiell oppmerksomhet.

Det er nødvendig å ha en viss forståelse av arten av forholdet mellom økonomiske faktorer og modellert. Faktorene som skal inkluderes må oppfylle følgende kriterier:

  • Må være målbart. For å bruke en faktor som beskriver kvaliteten til et objekt, bør det uansett gis en kvantitativ form.
  • Det skal ikke være noen faktor interkorrelasjon, eller funksjonell sammenheng. Slike handlinger fører oftest til irreversible konsekvenser - systemet vanlige ligninger blir ubetinget, og dette medfører dens upålitelighet og uklare vurderinger.
  • I tilfelle eksistensen av en enorm korrelasjonsindeks, er det ingen måte å finne ut den isolerte påvirkningen av faktorer på endelig resultat indikator, derfor blir koeffisientene utolkbare.

Konstruksjonsmetoder

Finnes stor mengde metoder og teknikker som forklarer hvordan du kan velge faktorene til ligningen. Imidlertid er alle disse metodene basert på valg av koeffisienter ved bruk av korrelasjonsindeksen. Blant dem er:

  • Ekskluderingsmetode.
  • Slå på metoden.
  • Trinnvis regresjonsanalyse.

Den første metoden innebærer å sile ut alle koeffisienter fra det samlede settet. Den andre metoden innebærer å introdusere et sett tilleggsfaktorer. Vel, den tredje er eliminering av faktorer som tidligere ble brukt på ligningen. Hver av disse metodene har rett til å eksistere. De har sine fordeler og ulemper, men de kan løse problemet med å sile ut unødvendige indikatorer på sin egen måte. Som regel oppnås resultatene av hver egen metode er nærme nok.

Metoder for multivariat analyse

Slike metoder for å bestemme faktorer er basert på vurdering av individuelle kombinasjoner av sammenhengende funksjoner. Disse inkluderer diskriminantanalyse, mønstergjenkjenning, hovedkomponentanalyse og klyngeanalyse. I tillegg er det også faktoranalyse, men det viste seg som et resultat av utviklingen av komponentmetoden. Alle av dem brukes under visse omstendigheter, under visse forhold og faktorer.

x - kalles en prediktor - en uavhengig eller forklarende variabel.

For en gitt mengde x er Y verdien av y-variabelen (kalt den avhengige, utgangs- eller responsvariabelen) som ligger på estimatlinjen. Dette er verdien vi forventer for y (i gjennomsnitt) hvis vi kjenner verdien av x, og dette kalles "forutsagt verdi av y" (Figur 5).

a - gratis medlem (kryss) av evalueringslinjen; er verdien av Y når x = 0.

b- skråningen eller gradienten til den estimerte linjen; den representerer mengden som Y øker med i gjennomsnitt hvis vi øker x med én enhet (Figur 5). Koeffisienten b kalles regresjonskoeffisienten.

For eksempel: med en økning i menneskelig kroppstemperatur med 1 ° C, øker pulsen med gjennomsnittlig 10 slag per minutt.

Figur 5. Lineær regresjonslinje som viser koeffisienten en og skråning b(øke verdien Y med økende X per enhet)

Matematisk reduseres løsningen av den lineære regresjonsligningen til å beregne parametrene a og b på en slik måte at punktene til de første dataene til korrelasjonsfeltet så nær den direkte regresjonen som mulig .

Den statistiske bruken av ordet "regresjon" kommer fra et fenomen kjent som regresjon til gjennomsnittet, tilskrevet Francis Galton (1889). Han viste at mens høye fedre har en tendens til å ha høye sønner, er gjennomsnittshøyden på sønner mindre enn for de høye fedrene deres. Gjennomsnittshøyden til sønner "regrerte" eller "vendte" mot gjennomsnittshøyden for alle fedre i befolkningen. Således har høye fedre i gjennomsnitt kortere (men fortsatt høye) sønner, og lave fedre har høyere (men fortsatt ganske korte) sønner.

Vi ser gjennomsnittlig regresjon i screening og kliniske studier der en undergruppe av pasienter kan velges for behandling fordi nivåene deres av en bestemt variabel, for eksempel kolesterol, er ekstremt høye (eller lave). Hvis denne målingen gjentas over tid, er undergruppegjennomsnittet for den andre avlesningen vanligvis mindre enn den første avlesningen, og tenderer (dvs. går tilbake) mot alders- og kjønnstilpasset gjennomsnitt i populasjonen, uavhengig av behandlingen de kan motta. . Pasienter rekruttert til en klinisk studie basert på høy level Kolesterolnivået ved deres første besøk vil derfor sannsynligvis vise et gjennomsnittlig fall i kolesterolnivået ved deres andre besøk, selv om de var ubehandlet i denne perioden.

Ofte brukes metoden for regresjonsanalyse for å utvikle normative skalaer og standarder for fysisk utvikling.


Hvor godt regresjonslinjen passer til dataene kan bedømmes ved å beregne koeffisienten R (vanligvis uttrykt i prosent og kalt bestemmelseskoeffisienten), som er lik kvadratet av korrelasjonskoeffisienten (r 2). Den representerer andelen eller prosentandelen av variansen til y som kan forklares med forholdet til x, dvs. andelen variasjon av egenskap-resultatet som har utviklet seg under påvirkning av en uavhengig egenskap. Det kan ta verdier i området fra 0 til 1, eller henholdsvis fra 0 til 100%. Forskjellen (100 % - R) er prosentandelen av varians i y som ikke kan forklares av denne interaksjonen.

Eksempel

Sammenheng mellom høyde (målt i cm) og systolisk blodtrykk (SBP, målt i mmHg) hos barn. Vi utførte en parvis lineær regresjonsanalyse av SBP versus høyde (fig. 6). Det er en signifikant lineær sammenheng mellom høyde og SBP.

Figur 6. Todimensjonal graf som viser sammenhengen mellom systolisk blodtrykk og høyde. Vist er den estimerte regresjonslinjen, systolisk blodtrykk.

Den estimerte regresjonslinjeligningen er som følger:

HAGE \u003d 46,28 + 0,48 x høyde.

I dette eksemplet er avskjæringen ikke av interesse (en økning på null er klart utenfor området observert i studien). Vi kan imidlertid tolke skråningen; SBP er spådd å øke med et gjennomsnitt på 0,48 mm Hg hos disse barna. med en økning i høyden med en centimeter

Vi kan bruke en regresjonsligning for å forutsi SBP vi ville forvente hos et barn ved en gitt høyde. For eksempel har et 115 cm høyt barn en forventet SBP på 46,28 + (0,48 x 115) = 101,48 mm Hg. Art., et barn med en høyde på 130 har en forventet SBP, 46,28 + (0,48 x 130) = 108,68 mm Hg. Kunst.

Ved beregning av korrelasjonskoeffisienten ble det funnet at den er lik 0,55, noe som indikerer en direkte korrelasjon middels styrke. I dette tilfellet, bestemmelseskoeffisienten r 2 \u003d 0,55 2 \u003d 0,3. Dermed kan vi si at andelen av påvirkning av vekst på nivået av blodtrykk hos barn ikke overstiger 30%, henholdsvis 70% av påvirkningen faller på andelen av andre faktorer.

Lineær (enkel) regresjon er begrenset til å vurdere forholdet mellom den avhengige variabelen og kun én uavhengig variabel. Hvis det er mer enn én uavhengig variabel i forholdet, må vi vende oss til multippel regresjon. Ligningen for en slik regresjon ser slik ut:

y = a + bx 1 + b 2 x 2 +.... + b n x n

Man kan være interessert i resultatet av påvirkningen av flere uavhengige variabler x 1 , x 2 , .., x n på responsvariabelen y. Hvis vi tror at disse x-ene kan være avhengige av hverandre, må vi ikke se separat på effekten av å endre verdien av en x med y, men må samtidig ta hensyn til verdiene til alle andre x-er.

Eksempel

Siden det er en sterk sammenheng mellom høyde og kroppsvekt til et barn, kan man spørre seg om forholdet mellom høyde og systolisk blodtrykk også endres når barnets kroppsvekt og kjønn også tas i betraktning. Multippel lineær regresjon undersøker den kombinerte effekten av disse flere uavhengige variablene på y.

Multippel regresjonsligningen i dette tilfellet kan se slik ut:

HAGE \u003d 79,44 - (0,03 x høyde) + (1,18 x vekt) + (4,23 x kjønn) *

* - (for kjønn, verdier 0 - gutt, 1 - jente)

I følge denne ligningen ville en jente som er 115 cm høy og veier 37 kg ha en forventet SBP:

HAGE \u003d 79,44 - (0,03 x 115) + (1,18 x 37) + (4,23 x 1) \u003d 123,88 mm Hg.

Logistisk regresjon er veldig lik lineær regresjon; den brukes når det er et binært resultat av interesse (dvs. tilstedeværelse/fravær av et symptom eller et individ som har/ikke har en sykdom) og et sett med prediktorer. Fra den logistiske regresjonsligningen er det mulig å bestemme hvilke prediktorer som påvirker utfallet og ved å bruke verdiene til pasientens prediktorer estimere sannsynligheten for at han/hun vil ha et bestemt utfall. For eksempel: komplikasjoner vil oppstå eller ikke, behandling vil være effektiv eller ikke.

Begynn å lage en binær variabel for å representere de to resultatene (f.eks. "har sykdom" = 1, "har ingen sykdom" = 0). Vi kan imidlertid ikke bruke disse to verdiene som den avhengige variabelen i en lineær regresjonsanalyse fordi normalitetsantagelsen brytes og vi ikke kan tolke predikerte verdier som ikke er null eller én.

Faktisk tar vi i stedet sannsynligheten for at subjektet er klassifisert i den nærmeste kategorien (dvs. "har en sykdom") av den avhengige variabelen, og for å overvinne matematiske vanskeligheter bruker vi en logistisk transformasjon i regresjonsligningen - naturlig logaritme forholdet mellom sannsynligheten for "sykdom" (p) og sannsynligheten for "ingen sykdom" (1-p).

En integrativ prosess kalt maximum likelihood-metoden, i stedet for vanlig regresjon (fordi vi ikke kan bruke den lineære regresjonsprosedyren) skaper et estimat av den logistiske regresjonsligningen fra prøvedataene

logit(p) = a + bx 1 + b 2 x 2 +.... + b n x n

logit (p) er et estimat av verdien av den sanne sannsynligheten for at en pasient med et individuelt sett med verdier for x 1 ... x n har en sykdom;

a - evaluering av konstanten (fri sikt, skjæringspunkt);

b 1 , b 2 ,... ,b n — estimater av logistiske regresjonskoeffisienter.

1. Spørsmål om emnet for leksjonen:

1. Gi en definisjon av funksjonell og korrelasjon.

2. Gi eksempler på direkte og omvendt korrelasjon.

3. Angi størrelsene på korrelasjonskoeffisientene for svak, middels og sterk tilknytning mellom skiltene.

4. I hvilke tilfeller gjelder det rangeringsmetode beregne korrelasjonskoeffisienten?

5. I hvilke tilfeller brukes beregningen av Pearson-korrelasjonskoeffisienten?

6. Hva er hovedtrinnene for å beregne korrelasjonskoeffisienten ved rangeringsmetoden?

7. Definer "regresjon". Hva er essensen av regresjonsmetoden?

8. Beskriv formelen for en enkel lineær regresjonsligning.

9. Definer regresjonskoeffisienten.

10. Hvilken konklusjon kan man trekke hvis regresjonskoeffisienten for vekt for høyde er 0,26 kg/cm?

11. Hva brukes regresjonsligningsformelen til?

12. Hva er bestemmelseskoeffisienten?

13. I hvilke tilfeller brukes multippel regresjonsligningen.

14. Hva brukes metoden for logistisk regresjon til?

Utdannings- og vitenskapsdepartementet i Den russiske føderasjonen

Federal Agency for Education

Stat utdanningsinstitusjon høyere profesjonsutdanning

All-Russian Correspondence Institute of Finance and Economics

Filial i Tula

Test

i faget "Økonometri"

Tula - 2010

Oppgave 2 (a, b)

For lettindustribedrifter ble det innhentet informasjon som karakteriserer avhengigheten av produksjonsvolumet (Y, millioner rubler) på volumet av kapitalinvesteringer (X, millioner rubler) Tabell. en.

X 33 17 23 17 36 25 39 20 13 12
Y 43 27 32 29 45 35 47 32 22 24

Påkrevd:

1. Finn parameterne til den lineære regresjonsligningen, gi en økonomisk tolkning av regresjonskoeffisienten.

2. Beregn residualene; finne restmengde firkanter; estimere variansen til residuene

; plott restene.

3. Sjekk oppfyllelsen av LSM-forutsetningene.

4. Sjekk signifikansen av parameterne til regresjonsligningen ved å bruke Students t-test (α=0,05).

5. Beregn bestemmelseskoeffisienten, sjekk signifikansen av regresjonsligningen ved hjelp av Fisher F-testen (α=0,05), finn den gjennomsnittlige relative tilnærmingsfeilen. Lag en vurdering om kvaliteten på modellen.

6. Forutsi gjennomsnittsverdien til indikatoren Y ved et signifikansnivå på α=0,1, hvis den predikerte verdien av faktor X er 80 % av dens maksimale verdi.

7. Presenter grafisk: faktiske og modell Y-verdier, prognosepunkter.

8. Lag ikke-lineære regresjonsligninger:

hyperbolsk;

makt;

veiledende.

Gi grafer over de konstruerte regresjonsligningene.

9. For disse modellene, finn koeffisientene for bestemmelse og gjennomsnitt relative feil tilnærminger. Sammenlign modeller i henhold til disse egenskapene og trekk en konklusjon.

1. Lineær modell ser ut som:

Parametrene til den lineære regresjonsligningen kan bli funnet ved å bruke formlene

Beregningen av parameterverdiene er presentert i tabell. 2.

t y x yx
1 43 33 1419 1089 42,236 0,764 0,584 90,25 88,36 0,018
2 27 17 459 289 27,692 -0,692 0,479 42,25 43,56 0,026
3 32 23 736 529 33,146 -1,146 1,313 0,25 2,56 0,036
4 29 17 493 289 27,692 1,308 1,711 42,25 21,16 0,045
5 45 36 1620 1296 44,963 0,037 0,001 156,25 129,96 0,001
6 35 25 875 625 34,964 0,036 0,001 2,25 1,96 0,001
7 47 39 1833 1521 47,69 -0,69 0,476 240,25 179,56 0,015
8 32 20 640 400 30,419 1,581 2,500 12,25 2,56 0,049
9 22 13 286 169 24,056 -2,056 4,227 110,25 134,56 0,093
10 24 12 288 144 23,147 0,853 0,728 132,25 92,16 0,036
336 235 8649 6351 12,020 828,5 696,4 0,32
Gj.sn. 33,6 23,5 864,9 635,1

La oss bestemme parametrene til den lineære modellen

Den lineære modellen har formen

Regresjonskoeffisient

viser at produksjonen av Y øker med et gjennomsnitt på 0,909 millioner rubler. med en økning i volumet av kapitalinvesteringer X med 1 million rubler.

2. Beregn resten

, Restsummen av kvadrater , finner vi restdispersjon i henhold til formelen:

Beregningene er presentert i tabell. 2.


Ris. 1. Graf over residualer ε.

3. La oss sjekke oppfyllelsen av LSM-forutsetningene basert på Durbin-Watson-kriteriet.

0,584
2,120 0,479
0,206 1,313
6,022 1,711
1,615 0,001
0,000 0,001
0,527 0,476
5,157 2,500
13,228 4,227
2,462 0,728
31,337 12,020

dl=0,88; d2=1,32 for a=0,05, n=10, k=1.

,

Dette betyr at en rekke rester ikke er korrelert.

4. La oss sjekke betydningen av parametrene til ligningen basert på Students t-test. (a=0,05).

for v=8; a=0,05.

Verdiberegning

produsert i Tabell. 2. Vi får:
, så kan vi konkludere med at regresjonskoeffisientene a og b er signifikante med en sannsynlighet på 0,95.

5. Finn korrelasjonskoeffisienten ved hjelp av formelen

Beregninger vil bli gjort i tabell. 2.

. At. forholdet mellom investeringsvolumet X og utgang Y kan betraktes som nært, fordi .

Bestemmelseskoeffisienten er funnet av formelen