Biografier Kjennetegn Analyse

Konstruer en regresjonslinje. Grunnleggende om lineær regresjon

For territoriene i regionen er det oppgitt data for 200X.

Regionnummer Gjennomsnittlig levelønn per innbygger per dag for én arbeidsfør person, rub., x Gjennomsnittlig dagslønn, rub., y
1 78 133
2 82 148
3 87 134
4 79 154
5 89 162
6 106 195
7 67 139
8 88 158
9 73 152
10 87 162
11 76 159
12 115 173

Trening:

1. Konstruer et korrelasjonsfelt og formuler en hypotese om sammenhengens form.

2. Beregn parametrene til ligningen lineær regresjon

4. Bruk den gjennomsnittlige (generelle) elastisitetskoeffisienten, gi en komparativ vurdering av styrken til forholdet mellom faktoren og resultatet.

7. Beregn den predikerte verdien av resultatet hvis den predikerte verdien av faktoren øker med 10 % fra gjennomsnittsnivået. Bestem prognosekonfidensintervallet for signifikansnivået.

Løsning:

La oss bestemme denne oppgaven ved hjelp av Excel.

1. Ved å sammenligne de tilgjengelige dataene x og y, for eksempel, rangere dem i økende rekkefølge av faktor x, kan man observere tilstedeværelsen av en direkte sammenheng mellom egenskapene, når en økning i gjennomsnittlig eksistensnivå per innbygger øker gjennomsnittlig daglig lønn. Ut fra dette kan vi anta at forholdet mellom egenskapene er direkte og kan beskrives med en rettlinjeligning. Den samme konklusjonen bekreftes basert på grafisk analyse.

For å bygge et korrelasjonsfelt kan du bruke Excel PPP. Skriv inn de første dataene i rekkefølge: først x, deretter y.

Velg området av celler som inneholder data.

Velg deretter: Sett inn / spredningsplott / spredning med markører som vist i figur 1.

Figur 1 Konstruksjon av korrelasjonsfeltet

Analyse av korrelasjonsfeltet viser tilstedeværelsen av nær direkte lineær avhengighet, siden punktene er plassert nesten i en rett linje.

2. For å beregne parametrene til den lineære regresjonsligningen
La oss bruke den innebygde statistiske funksjonen LINJEST.

For dette:

1) Åpne en eksisterende fil som inneholder de analyserte dataene;
2) Velg et 5x2 område med tomme celler (5 rader, 2 kolonner) for å vise resultatene regresjonsstatistikk.
3) Aktiver Funksjonsveiviser: i hovedmenyen velg Formler / Sett inn funksjon.
4) I vinduet Kategori du tar Statistisk, i funksjonsvinduet - LINJEST. Klikk på knappen OK som vist i figur 2;

Figur 2 Dialogboks for funksjonsveiviser

5) Fyll inn funksjonsargumentene:

Kjente verdier for

Kjente verdier av x

Konstant- en logisk verdi som indikerer tilstedeværelsen eller fraværet av et fritt ledd i ligningen; hvis Konstant = 1, beregnes dummyleddet på vanlig måte, hvis Konstant = 0, så er frileddet 0;

Statistikk- en logisk verdi som indikerer om det skal vises tilleggsinformasjon om regresjonsanalyse eller ikke. Hvis statistikk = 1, da Tilleggsinformasjon vises, hvis statistikk = 0, vises kun estimater av ligningsparametrene.

Klikk på knappen OK;

Figur 3 Dialogboksen LINEST funksjonsargumenter

6) Det første elementet i den endelige tabellen vil vises i cellen øverst til venstre i det valgte området. For å åpne hele bordet, trykk på knappen , og deretter til tastekombinasjonen ++ .

Ytterligere regresjonsstatistikk vil bli sendt ut i rekkefølgen vist i følgende diagram:

Koeffisientverdi b Koeffisient en verdi
Standard feil b Standard feil a
Standard feil y
F-statistikk
Regresjonssum av kvadrater

Figur 4 Resultat av beregning av LINJE-funksjonen

Vi fikk regresjonsnivået:

Vi konkluderer: Med en økning i gjennomsnittlig eksistensnivå per innbygger med 1 rub. den gjennomsnittlige dagslønnen øker med et gjennomsnitt på 0,92 rubler.

Betyr 52 % variasjon lønn(y) forklares med variasjonen av faktor x - gjennomsnittlig eksistensnivå per innbygger, og 48% - av virkningen av andre faktorer som ikke er inkludert i modellen.

Ved å bruke den beregnede bestemmelseskoeffisienten kan korrelasjonskoeffisienten beregnes: .

Tilknytningen vurderes som nær.

4. Ved å bruke den gjennomsnittlige (generelle) elastisitetskoeffisienten, bestemmer vi styrken til faktorens innflytelse på resultatet.

For en rettlinjeligning bestemmer vi den gjennomsnittlige (totale) elastisitetskoeffisienten ved å bruke formelen:

Vi finner gjennomsnittsverdiene ved å velge området av celler med x-verdier og velge Formler / Autosum / Gjennomsnitt, og vi vil gjøre det samme med verdiene til y.

Figur 5 Beregning av gjennomsnittlige funksjonsverdier og argument

Hvis gjennomsnittlig levekostnad per innbygger endres med 1 % fra gjennomsnittsverdien, vil den gjennomsnittlige dagslønnen endres med gjennomsnittlig 0,51 %.

Ved hjelp av et dataanalyseverktøy Regresjon tilgjengelig:
- resultater av regresjonsstatistikk,
- resultater Analyse av varianter,
- resultater av konfidensintervaller,
- grafer for tilpasning av residualer og regresjonslinje,
- rester og normal sannsynlighet.

Fremgangsmåten er som følger:

1) sjekk tilgang til Analysepakke. I hovedmenyen velger du: Fil/Alternativer/Tillegg.

2) I rullegardinlisten Kontroll Velg en Excel-tillegg og trykk på knappen Gå.

3) I vinduet Tillegg merk av i boksen Analysepakke og klikk deretter på knappen OK.

Hvis Analysepakke ikke i feltlisten Tilgjengelige tillegg, trykk på knappen Anmeldelse for å utføre et søk.

Hvis du mottar en melding som indikerer at analysepakken ikke er installert på datamaskinen din, klikker du Jaå installere den.

4) I hovedmenyen velger du: Data / Dataanalyse / Analyseverktøy / Regresjon og klikk deretter på knappen OK.

5) Fyll ut dialogboksen for datainndata og utdataparametere:

Inndataintervall Y- område som inneholder data for det resulterende attributtet;

Inndataintervall X- område som inneholder data for faktorkarakteristikken;

Tagger- et flagg som indikerer om den første linjen inneholder kolonnenavn eller ikke;

Konstant - null- et flagg som indikerer tilstedeværelse eller fravær av et fritt ledd i ligningen;

Utgangsintervall- det er nok å indikere den øvre venstre cellen i det fremtidige området;

6) Nytt regneark - du kan angi et vilkårlig navn for det nye arket.

Klikk deretter på knappen OK.

Figur 6 Dialogboks for å legge inn parametere for regresjonsverktøyet

Resultatene av regresjonsanalysen for problemdataene er presentert i figur 7.

Figur 7 Resultat av bruk av regresjonsverktøyet

5. La oss vurdere å bruke gjennomsnittlig feil tilnærmingskvalitet på ligninger. La oss bruke resultatene av regresjonsanalysen presentert i figur 8.

Figur 8 Resultat av bruk av regresjonsverktøyet «Uttak av rest»

La oss lage en ny tabell som vist i figur 9. I kolonne C regner vi relativ feil tilnærming i henhold til formelen:

Figur 9 Beregning av gjennomsnittlig tilnærmingsfeil

Den gjennomsnittlige tilnærmingsfeilen beregnes ved å bruke formelen:

Kvaliteten på den konstruerte modellen vurderes som god, siden den ikke overstiger 8 - 10 %.

6. Fra tabellen med regresjonsstatistikk (Figur 4) skriver vi ned den faktiske verdien av Fishers F-test:

Fordi det på et 5 % signifikansnivå, så kan vi konkludere med at regresjonsligningen er signifikant (sammenhengen er bevist).

8. Evaluering Statistisk signifikant Vi vil utføre regresjonsparametere ved å bruke Students t-statistikk og ved å beregne konfidensintervallet til hver indikator.

Vi legger frem hypotesen H 0 om en statistisk insignifikant forskjell mellom indikatorene og null:

.

for antall frihetsgrader

Figur 7 har de faktiske t-statistikkverdiene:

T-testen for korrelasjonskoeffisienten kan beregnes på to måter:

Metode I:

Hvor - tilfeldig feil korrelasjonskoeffisient.

Vi tar dataene for beregning fra tabellen i figur 7.

Metode II:

De faktiske t-statistikkverdiene overskrider tabellverdiene:

Derfor forkastes hypotesen H 0, det vil si at regresjonsparametrene og korrelasjonskoeffisienten ikke skiller seg fra null ved en tilfeldighet, men er statistisk signifikante.

Konfidensintervallet for parameter a er definert som

For parameter a var 95 %-grensene som vist i figur 7:

Konfidensintervallet for regresjonskoeffisienten er definert som

For regresjonskoeffisienten b var 95 %-grensene som vist i figur 7:

Analyse av øvre og nedre grenser for konfidensintervaller fører til konklusjonen at med sannsynlighet parametere a og b, som er innenfor de angitte grensene, godtas ikke null verdier, dvs. er ikke statistisk insignifikante og signifikant forskjellig fra null.

7. De oppnådde estimatene av regresjonsligningen gjør at den kan brukes til prognoser. Hvis de anslåtte levekostnadene er:

Da vil den anslåtte verdien av levekostnadene være:

Vi beregner prognosefeilen ved å bruke formelen:

Hvor

Vi vil også beregne variansen ved hjelp av Excel PPP. For dette:

1) Aktiver Funksjonsveiviser: i hovedmenyen velg Formler / Sett inn funksjon.

3) Fyll ut området som inneholder de numeriske dataene for faktorkarakteristikken. Klikk OK.

Figur 10 Beregning av varians

Vi fikk variansverdien

For telling gjenværende varians for én grad av frihet vil vi bruke resultatene av variansanalyse som vist i figur 7.

Konfidensintervaller for å forutsi individuelle verdier av y med en sannsynlighet på 0,95 bestemmes av uttrykket:

Intervallet er ganske bredt, først og fremst på grunn av det lille volumet av observasjoner. Generelt viste prognosen for gjennomsnittlig månedslønn seg å være pålitelig.

Problemstillingens tilstand er hentet fra: Workshop on econometrics: Proc. godtgjørelse / I.I. Eliseeva, S.V. Kurysheva, N.M. Gordeenko og andre; Ed. I.I. Eliseeva. - M.: Finans og statistikk, 2003. - 192 s.: ill.

Bruker den grafiske metoden.
Denne metoden brukes til å visuelt skildre formen for sammenheng mellom de studerte økonomiske indikatorene. For dette formålet i rektangulært system koordinater, plottes en graf, langs ordinataksen plottes de individuelle verdier resulterende karakteristikk Y, og på x-aksen - individuelle verdier av faktorkarakteristikken X.
Settet med punkter av resultant- og faktorkarakteristikkene kalles korrelasjonsfelt.
Basert på korrelasjonsfeltet kan en hypotese fremsettes (for befolkning) at forholdet mellom alle mulige verdier av X og Y er lineært.

Lineær regresjonsligning har formen y = bx + a + ε
Her er ε en tilfeldig feil (avvik, forstyrrelse).
Årsaker til eksistensen av en tilfeldig feil:
1. Unnlatelse av å inkludere signifikante forklaringsvariabler i regresjonsmodellen;
2. Aggregering av variabler. For eksempel er totalforbruksfunksjonen et forsøk på generelt å uttrykke summen av individuelle utgiftsbeslutninger. Dette er bare en tilnærming individuelle forhold, som har forskjellige parametere.
3. Feil beskrivelse av modellstrukturen;
4. Feil funksjonsspesifikasjon;
5. Målefeil.
Siden avvik ε i for hver spesifikke observasjon i er tilfeldige og verdiene deres i utvalget er ukjente, så:
1) fra observasjoner x i og y i kan kun estimater av parametere α og β oppnås
2) Estimater av parametere α og β regresjonsmodell er henholdsvis mengdene a og b, som er tilfeldig natur, fordi tilsvarer et tilfeldig utvalg;
Da vil den estimerende regresjonsligningen (konstruert fra prøvedata) ha formen y = bx + a + ε, hvor e i er de observerte verdiene (estimater) av feilene ε i , og a og b er henholdsvis estimater av parametrene α og β til regresjonsmodellen som skal finnes.
For å estimere parametere α og β - minste kvadraters metode brukes (metode minste kvadrater).
System av normale ligninger.

For våre data har ligningssystemet formen:

10a + 356b = 49
356a + 2135b = 9485

Fra den første ligningen uttrykker vi a og erstatter den med den andre ligningen
Vi får b = 68,16, a = 11,17

Regresjonsligning:
y = 68,16 x - 11,17

1. Regresjonsligningsparametere.
Eksempel betyr.



Prøveavvik.


Gjennomsnitt standardavvik

1.1. Korrelasjonskoeffisient
Vi beregner indikatoren for tilkoblingsnærhet. Denne indikatoren er et eksempel lineær koeffisient korrelasjon, som beregnes av formelen:

Den lineære korrelasjonskoeffisienten tar verdier fra –1 til +1.
Forbindelser mellom egenskaper kan være svake og sterke (nære). Kriteriene deres er vurdert i henhold til Chaddock-skalaen:
0.1 < r xy < 0.3: слабая;
0.3 < r xy < 0.5: умеренная;
0.5 < r xy < 0.7: заметная;
0.7 < r xy < 0.9: высокая;
0.9 < r xy < 1: весьма высокая;
I vårt eksempel er sammenhengen mellom egenskap Y og faktor X veldig høy og direkte.

1.2. Regresjonsligning(estimering av regresjonsligning).

Den lineære regresjonsligningen er y = 68,16 x -11,17
Koeffisientene til den lineære regresjonsligningen kan gis økonomisk sans. Regresjonsligningskoeffisient viser hvor mange enheter. resultatet endres når faktoren endres med 1 enhet.
Koeffisient b = 68,16 viser gjennomsnittlig endring i den effektive indikatoren (i måleenheter y) med en økning eller reduksjon i verdien av faktor x per måleenhet. I i dette eksemplet med en økning på 1 enhet, øker y med et gjennomsnitt på 68,16.
Koeffisienten a = -11,17 viser formelt det predikerte nivået til y, men bare hvis x = 0 er nær prøveverdiene.
Men hvis x = 0 er langt fra prøveverdiene til x, kan en bokstavelig tolkning føre til feil resultater, og selv om regresjonslinjen beskriver de observerte prøveverdiene ganske nøyaktig, er det ingen garanti for at dette også vil være tilfelle ved ekstrapolering til venstre eller høyre.
Ved å erstatte de riktige x-verdiene i regresjonsligningen, kan vi bestemme de justerte (forutsagte) verdiene til ytelsesindikatoren y(x) for hver observasjon.
Forholdet mellom y og x bestemmer fortegnet til regresjonskoeffisienten b (hvis > 0 - direkte sammenheng, ellers - invers). I vårt eksempel er forbindelsen direkte.

1.3. Elastisitetskoeffisient.
Det er ikke tilrådelig å bruke regresjonskoeffisienter (i eksempel b) for direkte å vurdere påvirkningen av faktorer på en resulterende karakteristikk hvis det er en forskjell i måleenhetene til den resulterende indikatoren y og faktorkarakteristikken x.
For disse formålene beregnes elastisitetskoeffisienter og beta-koeffisienter. Elastisitetskoeffisienten er funnet ved formelen:


Den viser med hvor mange prosent i gjennomsnitt den effektive attributten y endres når faktorattributten x endres med 1 %. Den tar ikke hensyn til graden av fluktuasjon av faktorer.
I vårt eksempel er elastisitetskoeffisienten større enn 1. Derfor, hvis X endres med 1 %, vil Y endres med mer enn 1 %. Med andre ord, X påvirker Y betydelig.
Beta koeffisient viser med hvilken del av verdien av standardavviket den gjennomsnittlige verdien av den resulterende karakteristikken vil endres når faktorkarakteristikken endres med verdien av standardavviket med verdien av de gjenværende uavhengige variablene fast på et konstant nivå:

De. en økning i x med standardavviket til denne indikatoren vil føre til en økning i gjennomsnittlig Y med 0,9796 standardavvik denne indikatoren.

1.4. Tilnærmingsfeil.
La oss evaluere kvaliteten på regresjonsligningen ved å bruke feilen for absolutt tilnærming.


Siden feilen er mer enn 15 %, altså gitt ligning Det er ikke tilrådelig å bruke det som en regresjon.

1.6. Bestemmelseskoeffisient.
Kvadraten til (multippel) korrelasjonskoeffisienten kalles bestemmelseskoeffisienten, som viser andelen variasjon i den resulterende attributten forklart av variasjonen i faktorattributten.
Oftest, når man tolker bestemmelseskoeffisienten, uttrykkes den som en prosentandel.
R2 = 0,982 = 0,9596
de. i 95,96 % av tilfellene fører endringer i x til endringer i y. Med andre ord er nøyaktigheten av å velge regresjonsligningen høy. De resterende 4,04 % av endringen i Y forklares av faktorer som ikke er tatt hensyn til i modellen.

x y x 2 y 2 x y y(x) (y i -y cp) 2 (y-y(x)) 2 (x i -x cp) 2 |y - y x |:y
0.371 15.6 0.1376 243.36 5.79 14.11 780.89 2.21 0.1864 0.0953
0.399 19.9 0.1592 396.01 7.94 16.02 559.06 15.04 0.163 0.1949
0.502 22.7 0.252 515.29 11.4 23.04 434.49 0.1176 0.0905 0.0151
0.572 34.2 0.3272 1169.64 19.56 27.81 87.32 40.78 0.0533 0.1867
0.607 44.5 .3684 1980.25 27.01 30.2 0.9131 204.49 0.0383 0.3214
0.655 26.8 0.429 718.24 17.55 33.47 280.38 44.51 0.0218 0.2489
0.763 35.7 0.5822 1274.49 27.24 40.83 61.54 26.35 0.0016 0.1438
0.873 30.6 0.7621 936.36 26.71 48.33 167.56 314.39 0.0049 0.5794
2.48 161.9 6.17 26211.61 402 158.07 14008.04 14.66 2.82 0.0236
7.23 391.9 9.18 33445.25 545.2 391.9 16380.18 662.54 3.38 1.81

2. Estimering av regresjonsligningsparametere.
2.1. Betydningen av korrelasjonskoeffisienten.

Ved å bruke Elevens tabell med signifikansnivå α=0,05 og frihetsgrader k=7 finner vi t crit:
t krit = (7;0,05) = 1,895
hvor m = 1 er antall forklaringsvariabler.
Hvis t observert > t kritisk, anses den oppnådde verdien av korrelasjonskoeffisienten som signifikant ( nullhypotesen, som hevder at korrelasjonskoeffisienten er lik null, avvises).
Siden t obs > t crit, avviser vi hypotesen om at korrelasjonskoeffisienten er lik 0. Korrelasjonskoeffisienten er med andre ord statistisk signifikant
I paret lineær regresjon er t 2 r = t 2 b og deretter testing av hypoteser om signifikansen av regresjon og korrelasjonskoeffisienter ekvivalent med å teste hypotesen om signifikans lineær ligning regresjon.

2.3. Analyse av nøyaktigheten av å bestemme regresjonskoeffisientestimater.
Et objektivt estimat av spredningen av forstyrrelser er verdien:


S 2 y = 94,6484 - uforklarlig varians (et mål på spredningen av den avhengige variabelen rundt regresjonslinjen).
S y = 9,7287 - standard feil estimater (standard regresjonsfeil).
S a - standardavvik tilfeldig variabel en.


S b - standardavvik for tilfeldig variabel b.

2.4. Konfidensintervaller for den avhengige variabelen.
Økonomisk prognose basert på den konstruerte modellen forutsetter at forhåndseksisterende relasjoner mellom variabler opprettholdes i ledetidsperioden.
For å forutsi den avhengige variabelen til den resulterende attributten, er det nødvendig å kjenne de predikerte verdiene for alle faktorer som er inkludert i modellen.
De forutsagte verdiene av faktorene erstattes i modellen og prediktive punktestimater for indikatoren som studeres oppnås. (a + bx p ± ε)
Hvor

La oss beregne grensene for intervallet der 95% av de mulige verdiene til Y vil bli konsentrert med et ubegrenset antall observasjoner og X p = 1 (-11,17 + 68,16*1 ± 6,4554)
(50.53;63.44)

Individuell konfidensintervaller TilYtil en gitt verdiX.
(a + bx i ± ε)
Hvor

x i y = -11,17 + 68,16x i εi ymin ymax
0.371 14.11 19.91 -5.8 34.02
0.399 16.02 19.85 -3.83 35.87
0.502 23.04 19.67 3.38 42.71
0.572 27.81 19.57 8.24 47.38
0.607 30.2 19.53 10.67 49.73
0.655 33.47 19.49 13.98 52.96
0.763 40.83 19.44 21.4 60.27
0.873 48.33 19.45 28.88 67.78
2.48 158.07 25.72 132.36 183.79

Med en sannsynlighet på 95 % er det mulig å garantere at Y-verdien for et ubegrenset antall observasjoner ikke vil falle utenfor grensene for de funnet intervallene.

2.5. Teste hypoteser angående koeffisientene til en lineær regresjonsligning.
1) t-statistikk. Elevens t-test.
La oss sjekke hypotesen H 0 om likheten mellom individuelle regresjonskoeffisienter til null (hvis alternativet ikke er lik H 1) på signifikansnivået α=0,05.
t krit = (7;0,05) = 1,895


Siden 12.8866 > 1.895 bekreftes den statistiske signifikansen til regresjonskoeffisienten b (vi avviser hypotesen om at denne koeffisienten er lik null).


Siden 2.0914 > 1.895 bekreftes den statistiske signifikansen til regresjonskoeffisienten a (vi avviser hypotesen om at denne koeffisienten er lik null).

Konfidensintervall for regresjonsligningskoeffisienter.
La oss bestemme konfidensintervallene til regresjonskoeffisientene, som med en pålitelighet på 95% vil være som følger:
(b - t crit S b ; b + t crit S b)
(68.1618 - 1.895 5.2894; 68.1618 + 1.895 5.2894)
(58.1385;78.1852)
Med en sannsynlighet på 95 % kan det angis at verdien av denne parameteren vil ligge i det funnet intervallet.
(a - t a)
(-11.1744 - 1.895 5.3429; -11.1744 + 1.895 5.3429)
(-21.2992;-1.0496)
Med en sannsynlighet på 95 % kan det angis at verdien av denne parameteren vil ligge i det funnet intervallet.

2) F-statistikk. Fisher-kriterium.
Testing av betydningen av en regresjonsmodell utføres ved å bruke Fishers F-test, hvis beregnede verdi er funnet som forholdet mellom variansen til den opprinnelige serien av observasjoner av indikatoren som studeres og det objektive estimatet av variansen til restsekvensen for denne modellen.
Dersom den beregnede verdien med lang=EN-US>n-m-1) frihetsgrader er større enn den tabellerte verdien ved et gitt signifikansnivå, så anses modellen som signifikant.

hvor m er antall faktorer i modellen.
Den statistiske signifikansen av sammenkoblet lineær regresjon vurderes ved hjelp av følgende algoritme:
1. Det fremsettes en nullhypotese om at ligningen som helhet er statistisk insignifikant: H 0: R 2 =0 på signifikansnivået α.
2. Bestem deretter den faktiske verdien av F-kriteriet:


hvor m=1 for parvis regresjon.
3. Tabellverdi bestemt fra Fisher-fordelingstabeller for et gitt signifikansnivå, tatt i betraktning at antall frihetsgrader for totale mengden kvadrater (større varians) er 1 og antall frihetsgrader restmengde kvadrater (mindre varians) for lineær regresjon er n-2.
4. Hvis den faktiske verdien av F-testen er mindre enn tabellverdien, så sier de at det ikke er noen grunn til å forkaste nullhypotesen.
Ellers forkastes nullhypotesen og den alternative hypotesen om statistisk signifikans av ligningen som helhet aksepteres med sannsynlighet (1-α).
Tabellverdi av kriteriet med frihetsgrader k1=1 og k2=7, Fkp = 5,59
Siden den faktiske verdien av F > Fkp, er bestemmelseskoeffisienten statistisk signifikant (det funnet estimatet av regresjonsligningen er statistisk pålitelig).

Sjekker for autokorrelasjon av residualer.
En viktig forutsetning for å konstruere en kvalitativ regresjonsmodell ved bruk av OLS er uavhengighet av verdier tilfeldige avvik fra avviksverdiene i alle andre observasjoner. Dette sikrer at det ikke er korrelasjon mellom eventuelle avvik og spesielt mellom tilstøtende avvik.
Autokorrelasjon (seriell korrelasjon) er definert som korrelasjonen mellom observerte indikatorer ordnet i tid (tidsserier) eller rom (kryssserier). Autokorrelasjon av residualer (varianser) er vanlig i regresjonsanalyse ved bruk av tidsseriedata og svært sjelden ved bruk av tverrsnittsdata.
I økonomiske problemer er det mye mer vanlig positiv autokorrelasjon , heller enn negativ autokorrelasjon. I de fleste tilfeller er positiv autokorrelasjon forårsaket av retningskonstant påvirkning av noen faktorer som ikke er tatt med i modellen.
Negativ autokorrelasjon betyr faktisk at et positivt avvik etterfølges av et negativt og omvendt. Denne situasjonen kan oppstå hvis det samme forholdet mellom etterspørselen etter brus og inntekt vurderes i henhold til sesongdata (vinter-sommer).
Blant hovedårsakene til autokorrelasjon, kan følgende skilles:
1. Spesifikasjonsfeil. Unnlatelse av å ta hensyn til noen viktig forklaringsvariabel i modellen eller feil valg av avhengighetsform fører vanligvis til systemiske avvik av observasjonspunkter fra regresjonslinjen, noe som kan føre til autokorrelasjon.
2. Treghet. Mange økonomiske indikatorer(inflasjon, arbeidsledighet, BNP osv.) har en viss syklisk karakter knyttet til bølger næringsvirksomhet. Derfor skjer ikke endringen i indikatorer umiddelbart, men har en viss treghet.
3. Edderkoppnetteffekt. I mange industri- og andre områder reagerer økonomiske indikatorer på endringer økonomiske tilstander med forsinkelse (tidsforsinkelse).
4. Datautjevning. Ofte innhentes data for en viss lang tidsperiode ved å beregne et gjennomsnitt av data over dets konstituerende intervaller. Dette kan føre til en viss utjevning av svingninger som har oppstått innenfor den aktuelle perioden, som igjen kan forårsake autokorrelasjon.
Konsekvensene av autokorrelasjon er lik konsekvensene av heteroskedastisitet: konklusjonene fra t- og F-statistikken som bestemmer betydningen av regresjonskoeffisienten og bestemmelseskoeffisienten vil sannsynligvis være feil.

Autokorrelasjonsdeteksjon

1. Grafisk metode
Det finnes en rekke alternativer grafisk definisjon autokorrelasjon. En av dem kobler avvik e i med øyeblikkene for mottak i. I dette tilfellet viser abscisseaksen enten tidspunktet for innhenting av statistiske data, eller serienummer observasjoner, og langs ordinaten - avvik e i (eller estimater av avvik).
Det er naturlig å anta at dersom det er en viss sammenheng mellom avvik, så skjer autokorrelasjon. Fravær av avhengighet vil mest sannsynlig indikere fravær av autokorrelasjon.
Autokorrelasjon blir tydeligere hvis du plotter avhengigheten av e i på e i-1.

Durbin-Watson test.
Dette kriteriet er det mest kjente for å oppdage autokorrelasjon.
Statistisk analyse regresjonsligninger på det første stadiet ofte sjekke gjennomførbarheten av en forutsetning: betingelsene for statistisk uavhengighet av avvik seg imellom. I dette tilfellet sjekkes ukorrelasjonen til naboverdier e i.

y y(x) e i = y-y(x) e 2 (e i - e i-1) 2
15.6 14.11 1.49 2.21 0
19.9 16.02 3.88 15.04 5.72
22.7 23.04 -0.3429 0.1176 17.81
34.2 27.81 6.39 40.78 45.28
44.5 30.2 14.3 204.49 62.64
26.8 33.47 -6.67 44.51 439.82
35.7 40.83 -5.13 26.35 2.37
30.6 48.33 -17.73 314.39 158.7
161.9 158.07 3.83 14.66 464.81
662.54 1197.14

For å analysere korrelasjonen av avvik brukes Durbin-Watson-statistikk:

De kritiske verdiene d 1 og d 2 bestemmes på grunnlag av spesielle tabeller for nødvendig signifikansnivå α, antall observasjoner n = 9 og antall forklaringsvariabler m = 1.
Det er ingen autokorrelasjon hvis følgende betingelse er oppfylt:
d 1< DW и d 2 < DW < 4 - d 2 .
Uten å referere til tabeller kan du bruke en tilnærmet regel og anta at det ikke er noen autokorrelasjon av residualer hvis 1,5< DW < 2.5. Для более надежного вывода целесообразно обращаться к табличным значениям.

Regresjonsanalyse er en av de mest populære metodene statistisk forskning. Den kan brukes til å bestemme graden av påvirkning uavhengige mengder på den avhengige variabelen. I funksjonalitet Microsoft Excel Det finnes verktøy utviklet for å utføre denne typen analyser. La oss se på hva de er og hvordan du bruker dem.

Men for å bruke funksjonen som lar deg utføre regresjonsanalyse, må du først aktivere analysepakken. Først da vil verktøyene som er nødvendige for denne prosedyren vises på Excel-båndet.


Nå når vi går til fanen "Data", på båndet i verktøykassen "Analyse" vi vil se en ny knapp - "Dataanalyse".

Typer regresjonsanalyse

Det finnes flere typer regresjoner:

  • parabolsk;
  • sedate;
  • logaritmisk;
  • eksponentiell;
  • demonstrativ;
  • hyperbolsk;
  • lineær regresjon.

Om utførelse siste type Vi vil snakke om regresjonsanalyse i Excel mer detaljert senere.

Lineær regresjon i Excel

Nedenfor er som eksempel en tabell som viser gjennomsnittlig daglig lufttemperatur ute og antall butikkkunder for tilsvarende arbeidsdag. La oss finne ut hvordan du bruker regresjonsanalyse vær i form av lufttemperatur kan påvirke oppmøtet til en detaljhandelsbedrift.

Den generelle lineære regresjonsligningen er som følger: Y = a0 + a1x1 +…+ akhk. I denne formelen Y betyr en variabel, påvirkningen av faktorer som vi prøver å studere. I vårt tilfelle er dette antallet kjøpere. Betydning x- Dette ulike faktorer, som påvirker variabelen. Alternativer en er regresjonskoeffisienter. Det vil si at det er de som bestemmer betydningen av en bestemt faktor. Indeks k står for Total disse samme faktorene.


Analyseresultater analyse

Resultatene av regresjonsanalysen vises i form av en tabell på stedet angitt i innstillingene.

En av hovedindikatorene er R-firkant. Det indikerer kvaliteten på modellen. I vårt tilfelle denne koeffisienten lik 0,705 eller omtrent 70,5%. Dette er et akseptabelt kvalitetsnivå. Avhengighet mindre enn 0,5 er dårlig.

En annen viktig indikator plassert i cellen i skjæringspunktet mellom linjen "Y-kryss" og kolonne "Odser". Dette indikerer hvilken verdi Y vil ha, og i vårt tilfelle er dette antall kjøpere, med alle andre faktorer lik null. I denne tabellen gitt verdi tilsvarer 58,04.

Verdi i skjæringspunktet mellom grafen "Variabel X1" Og "Odser" viser nivået av avhengighet av Y på X. I vårt tilfelle er dette nivået av avhengighet av antall butikkkunder av temperatur. En koeffisient på 1,31 regnes som en ganske høy påvirkningsindikator.

Som vi kan se, bruker Microsoft-programmer Excel er ganske enkelt å lage en regresjonsanalysetabell. Men bare en trent person kan jobbe med utdataene og forstå essensen.

Begrepet regresjon. Avhengighet mellom variabler x Og y kan beskrives på forskjellige måter. Spesielt kan enhver form for forbindelse uttrykkes ved en generell ligning, hvor y behandles som en avhengig variabel, eller funksjoner fra en annen - uavhengig variabel x, kalt argument. Korrespondansen mellom et argument og en funksjon kan spesifiseres av en tabell, formel, graf osv. Å endre en funksjon avhengig av en endring i ett eller flere argumenter kalles regresjon. Alle virkemidler som brukes for å beskrive korrelasjoner utgjør innholdet regresjonsanalyse.

For å uttrykke regresjon, korrelasjonsligninger, eller regresjonsligninger, empiriske og teoretisk beregnede regresjonsserier, brukes grafene deres, kalt regresjonslinjer, samt lineære og ikke-lineære regresjonskoeffisienter.

Regresjonsindikatorer uttrykker korrelasjonsforholdet bilateralt, tar hensyn til endringer i gjennomsnittsverdiene til karakteristikken Y ved endring av verdier x Jeg skilt X, og omvendt viser en endring i gjennomsnittsverdiene til karakteristikken X i henhold til endrede verdier y Jeg skilt Y. Unntaket er tidsserier, eller tidsserier, som viser endringer i egenskaper over tid. Regresjonen til slike serier er ensidig.

Det finnes mange forskjellige former og typer korrelasjoner. Oppgaven kommer ned til å identifisere formen på forbindelsen i hvert enkelt tilfelle og uttrykke den med den passende korrelasjonsligningen, som lar oss forutse mulige endringer i en egenskap Y basert på kjente endringer i en annen X, relatert til den første korrelasjonsmessig.

12.1 Lineær regresjon

Regresjonsligning. Resultater av observasjoner utført på et bestemt biologisk objekt basert på korrelerte egenskaper x Og y, kan representeres av punkter på planet ved å konstruere et system rektangulære koordinater. Resultatet er et slags spredningsdiagram som lar en bedømme formen og nærheten til forholdet mellom varierende egenskaper. Ganske ofte ser dette forholdet ut som en rett linje eller kan tilnærmes med en rett linje.

Lineær sammenheng mellom variabler x Og y beskrives med en generell ligning, hvor a, b, c, d,... – parametere til ligningen som bestemmer sammenhengene mellom argumentene x 1 , x 2 , x 3 , …, x m og funksjoner.

I praksis blir ikke alle mulige argumenter tatt i betraktning, men bare noen argumenter; i det enkleste tilfellet, bare ett:

I den lineære regresjonsligningen (1) en er fribegrepet, og parameteren b bestemmer helningen til regresjonslinjen i forhold til de rektangulære koordinataksene. I analytisk geometri kalles denne parameteren skråningen, og i biometri – regresjonskoeffisient. En visuell representasjon av denne parameteren og posisjonen til regresjonslinjene Y Av X Og X Av Y i det rektangulære koordinatsystemet gir Fig. 1.

Ris. 1 Regresjonslinjer av Y ved X og X ved Y i systemet

rektangulære koordinater

Regresjonslinjer, som vist i fig. 1, skjærer hverandre ved punkt O (,), som tilsvarer de aritmetiske gjennomsnittsverdiene for karakteristikker korrelert med hverandre Y Og X. Når du konstruerer regresjonsgrafer, plottes verdiene til den uavhengige variabelen X langs abscisseaksen, og verdiene til den avhengige variabelen, eller funksjon Y, plottes langs ordinataksen. Linje AB som går gjennom punkt O (, ) tilsvarer det fullstendige (funksjonelle) forholdet mellom variablene Y Og X, når korrelasjonskoeffisienten . Jo sterkere sammenheng mellom Y Og X, jo nærmere regresjonslinjene er AB, og omvendt, jo nærmere svakere forbindelse mellom disse verdiene, jo fjernere er regresjonslinjene fra AB. Hvis det ikke er noen sammenheng mellom egenskapene, står regresjonslinjene i rette vinkler på hverandre og .

Siden regresjonsindikatorer uttrykker korrelasjonsforholdet bilateralt, bør regresjonsligning (1) skrives som følger:

Den første formelen bestemmer gjennomsnittsverdiene når karakteristikken endres X per måleenhet, for det andre - gjennomsnittsverdier ved endring med én måleenhet for attributtet Y.

Regresjonskoeffisient. Regresjonskoeffisienten viser hvor mye i gjennomsnitt verdien av en egenskap y endres når målet til en annen, korrelert med, endres med en Y skilt X. Denne indikatoren bestemmes av formelen

Her er verdiene s multiplisert med størrelsen på klasseintervallene λ , hvis de ble funnet fra variasjonsserier eller korrelasjonstabeller.

Regresjonskoeffisienten kan beregnes uten å beregne gjennomsnitt kvadratavvik s y Og s x i henhold til formelen

Hvis korrelasjonskoeffisienten er ukjent, bestemmes regresjonskoeffisienten som følger:

Sammenheng mellom regresjon og korrelasjonskoeffisienter. Ved å sammenligne formler (11.1) (emne 11) og (12.5), ser vi: deres teller har samme verdi, noe som indikerer en sammenheng mellom disse indikatorene. Dette forholdet kommer til uttrykk i likheten

Dermed er korrelasjonskoeffisienten lik det geometriske gjennomsnittet av koeffisientene b yx Og b xy. Formel (6) tillater for det første basert på de kjente verdiene til regresjonskoeffisientene b yx Og b xy bestemme regresjonskoeffisienten R xy, og for det andre, sjekk riktigheten av beregningen av denne korrelasjonsindikatoren R xy mellom forskjellige egenskaper X Og Y.

I likhet med korrelasjonskoeffisienten karakteriserer regresjonskoeffisienten kun en lineær sammenheng og er ledsaget av et plusstegn for en positiv sammenheng og et minustegn for en negativ sammenheng.

Bestemmelse av lineære regresjonsparametere. Det er kjent at summen av kvadrerte avvik er en variant x Jeg fra gjennomsnittet er den minste verdien, dvs. denne teoremet danner grunnlaget for minste kvadraters metode. Angående lineær regresjon [se formel (1)] kravet til denne teoremet er tilfredsstilt av et visst system av ligninger kalt normal:

Felles løsning av disse ligningene med hensyn til parametere en Og b fører til følgende resultater:

;

;

, hvorfra og.

Tatt i betraktning den toveis karakteren av forholdet mellom variablene Y Og X, formel for å bestemme parameteren EN skal uttrykkes slik:

Og . (7)

Parameter b, eller regresjonskoeffisient, bestemmes av følgende formler:

Konstruksjon av empiriske regresjonsserier. I nærvær av stort nummer observasjoner, begynner regresjonsanalyse med konstruksjon av empiriske regresjonsserier. Empirisk regresjonsserie dannes ved å beregne verdiene til en varierende karakteristikk X gjennomsnittsverdier av en annen, korrelert med X skilt Y. Med andre ord, konstruksjonen av empiriske regresjonsserier kommer ned til å finne gruppegjennomsnitt fra de tilsvarende verdiene for egenskapene Y og X.

En empirisk regresjonsserie er en dobbel serie med tall som kan representeres av punkter på et plan, og deretter, ved å koble disse punktene med rette linjesegmenter, kan en empirisk regresjonslinje oppnås. Empiriske regresjonsserier, spesielt grafene deres, kalt regresjonslinjer, gi visuell representasjon om formen og nærheten til sammenhengen mellom varierende egenskaper.

Justering av empiriske regresjonsserier. Grafer av empiriske regresjonsserier viser seg som regel ikke å bevege seg jevnt, men brutte linjer. Dette forklares av det faktum at sammen med hovedårsakene som bestemmer det generelle mønsteret i variabiliteten av korrelerte egenskaper, påvirkes størrelsen deres av påvirkningen av en rekke sekundære årsaker som forårsaker tilfeldige svingninger i regresjonsknutepunktene. For å identifisere hovedtendensen (trenden) til den konjugerte variasjonen av korrelerte egenskaper, er det nødvendig å erstatte brutte linjer med jevne, jevnt løpende regresjonslinjer. Prosessen med å erstatte brutte linjer med glatte kalles justering av empiriske serier Og regresjonslinjer.

Grafisk justering metode. Dette er den enkleste metoden som ikke krever beregningsarbeid. Dens essens koker ned til følgende. Den empiriske regresjonsserien er avbildet som en graf i et rektangulært koordinatsystem. Deretter er midtpunktene for regresjon visuelt skissert, langs hvilken en heltrukket linje er tegnet ved hjelp av en linjal eller et mønster. Ulempen med denne metoden er åpenbar: den utelukker ikke påvirkningen av forskerens individuelle egenskaper på resultatene av justering av empiriske regresjonslinjer. Derfor i tilfeller hvor det trengs mer høy presisjon Når man erstatter brutte regresjonslinjer med glatte, brukes andre metoder for å justere empiriske serier.

Glidende gjennomsnittsmetode. Essensen av denne metoden kommer ned til sekvensiell beregning av aritmetiske gjennomsnitt fra to eller tre tilstøtende ledd i den empiriske serien. Denne metoden er spesielt praktisk i tilfeller der den empiriske serien er representert av et stort antall termer, slik at tapet av to av dem - de ekstreme, som er uunngåelig med denne innrettingsmetoden, ikke vil påvirke strukturen merkbart.

Minste kvadratiske metode. Denne metoden ble foreslått på begynnelsen av 1800-tallet av A.M. Legendre og, uavhengig av ham, K. Gauss. Den lar deg justere empiriske serier mest nøyaktig. Denne metoden, som vist ovenfor, er basert på antakelsen om at summen av kvadrerte avvik er et alternativ x Jeg fra gjennomsnittet deres er det en minimumsverdi, det vil si derav navnet på metoden, som brukes ikke bare i økologi, men også i teknologi. Minste kvadraters metode er objektiv og universell; den brukes i en lang rekke tilfeller når man finner empiriske ligninger for regresjonsserier og bestemmer deres parametere.

Kravet til minste kvadraters metode er det teoretiske poeng regresjonslinjer må oppnås på en slik måte at summen av kvadrerte avvik fra disse punktene for empiriske observasjoner y Jeg var minimal, dvs.

Ved å beregne minimum av dette uttrykket i samsvar med prinsippene for matematisk analyse og transformere det på en bestemt måte, kan man få et system med s.k. normale ligninger, der de ukjente verdiene er de nødvendige parametrene til regresjonsligningen, og de kjente koeffisientene bestemmes av de empiriske verdiene til egenskapene, vanligvis summene av deres verdier og deres kryssprodukter.

Multippel lineær regresjon. Forholdet mellom flere variabler uttrykkes vanligvis ved en multippel regresjonsligning, som kan være lineær Og ikke-lineær. I sin enkleste form uttrykkes multippel regresjon som en ligning med to uavhengige variabler ( x, z):

Hvor en– fri term av ligningen; b Og c– parametere for ligningen. For å finne parametrene til ligning (10) (ved bruk av minste kvadraters metode), brukes følgende system med normale ligninger:

Dynamisk serie. Justering av rader. Endringer i egenskaper over tid danner den såkalte tidsserier eller dynamikk serien. Et karakteristisk trekk ved slike serier er at den uavhengige variabelen X her alltid er tidsfaktoren, og den avhengige variabelen Y er et skiftende trekk. Avhengig av regresjonsserien er forholdet mellom variablene X og Y ensidig, siden tidsfaktoren ikke er avhengig av variasjonen til egenskapene. Til tross for disse funksjonene, kan dynamikkserier sammenlignes med regresjonsserier og behandles med de samme metodene.

I likhet med regresjonsserier påvirkes empiriske dynamikkserier ikke bare av de viktigste, men også av en rekke sekundære (tilfeldige) faktorer som skjuler hovedtrenden i variabiliteten av egenskaper, som på statistikkspråket kalles trend.

Analyse av tidsserier begynner med å identifisere formen på trenden. For å gjøre dette er tidsserien avbildet som linjediagram i et rektangulært koordinatsystem. I dette tilfellet plottes tidspunkter (år, måneder og andre tidsenheter) langs abscisseaksen, og verdiene til den avhengige variabelen Y plottes langs ordinataksen. Hvis det er en lineær sammenheng mellom variablene X og Y (lineær trend), minste kvadraters metode er den mest hensiktsmessige for å justere tidsserien er en regresjonsligning i form av avvik av leddene til serien til den avhengige variabelen Y fra det aritmetiske gjennomsnittet av serien til den uavhengige variabelen. variabel X:

Her er den lineære regresjonsparameteren.

Numeriske egenskaper for dynamikkserier. De viktigste generaliserende numeriske egenskapene til dynamikkserier inkluderer geometrisk gjennomsnitt og et aritmetisk gjennomsnitt nær det. De karakteriserer den gjennomsnittlige hastigheten der verdien av den avhengige variabelen endres over visse tidsperioder:

En vurdering av variasjonen til medlemmer av dynamikkserien er standardavvik. Når man velger regresjonsligninger for å beskrive tidsserier, tas formen på trenden i betraktning, som kan være lineær (eller redusert til lineær) og ikke-lineær. Riktigheten av valget av regresjonsligning bedømmes vanligvis av likheten mellom de empirisk observerte og beregnede verdiene til den avhengige variabelen. En mer nøyaktig løsning på dette problemet er regresjonsanalysen av variansmetoden (tema 12, avsnitt 4).

Korrelasjon av tidsserier. Det er ofte nødvendig å sammenligne dynamikken til parallelle tidsserier knyttet til hverandre ved visse generelle forhold, for eksempel for å finne ut sammenhengen mellom landbruksproduksjon og veksten av husdyrtall over en viss tidsperiode. I slike tilfeller er karakteristikken for forholdet mellom variablene X og Y korrelasjonskoeffisient R xy (i nærvær av en lineær trend).

Det er kjent at trenden til tidsserier som regel skjules av fluktuasjoner i rekken av den avhengige variabelen Y. Dette gir opphav til et todelt problem: måling av avhengigheten mellom sammenlignede serier, uten å ekskludere trenden, og måling av avhengighet mellom nabomedlemmer i samme serie, unntatt trenden. I det første tilfellet er indikatoren for nærhet av forbindelsen mellom de sammenlignede tidsseriene korrelasjonskoeffisient(hvis forholdet er lineært), i den andre – autokorrelasjonskoeffisient. Disse indikatorene har forskjellig betydning, selv om de er beregnet ved hjelp av de samme formlene (se emne 11).

Det er lett å se at verdien av autokorrelasjonskoeffisienten påvirkes av variabiliteten til seriemedlemmene til den avhengige variabelen: jo mindre seriemedlemmene avviker fra trenden, jo høyere er autokorrelasjonskoeffisienten, og omvendt.

Laboratoriearbeid nr. 5. Regresjonsanalyse.

Laboratoriearbeidet utføres i Excel 2007.

Hensikten med arbeidet er å konstruere et korrelasjonsfelt, finne lineære regresjonskoeffisienter og konstruere en gjennomsnittlig kvadratisk regresjonslinje ved hjelp av Excel.

En tabell med kontrollerte variabelverdier er spesifisert X og tilfeldig variabel Y . Konstruer et korrelasjonsfelt. Finn parametrene for lineær middelkvadratregresjon. Konstruer en lineær regresjonslinje.

1. Lag en tabell over verdiene til den kontrollerte variabelen X og tilfeldig variabel Y , som vist i fig. 1 og i vedlagte rapport.

Ris. 1. Tabell over startdata og parametere for regresjonsligningen.

En rapport om laboratoriearbeid i Excel/

2. Bruk de originale dataene, konstruer et korrelasjonsfelt (det er det det kalles).

Ris. 2. Korrelasjonsfeltgraf.

3. Den lineære regresjonsligningen har formen:

- lineær regresjonsligning;

Lineær regresjonsligning redusert til form av en ligning med en helning;

Eksempel regresjonskoeffisient;

- prøveregresjonskonstant;

X ;

Standardavvik Y .

Korrelasjonskoeffisient;

Korrelasjonsmoment;

;

X ;

Forventning til en tilfeldig variabel Y .

4. Lag en tabell over parametere for regresjonsligningen ,,,,(som vist i fig. 1):

For å beregne den matematiske forventningen, bruk funksjonen GJENNOMSNITT fra kategori Statistisk(og ikke spør hvordan du gjør det);

For å beregne standardavviket, bruk funksjonen STANDARDAVVIK fra kategori Statistisk(hvordan du gjør dette, kan du spørre læreren hvis du ikke er redd);

For å beregne korrelasjonskoeffisienten, bruk CORREL-funksjonen fra kategorien Statistisk.

4. Skriv inn formelen i celle C2 , ved å bruke resultatene av beregninger av parametere,,, og, som vist i formelinnføringslinjen i fig. 1.

Gjengi denne formelen i en kolonne med cellene C2:C6 merket .

5. Legg til en regresjonslinje i korrelasjonsfeltgrafen.

Excel har en annen måte å finne en utjevnende lineær relasjon og bygge en regresjonslinje.

6. Kopier de originale dataene inn i cellen EN20 . Finn parametrene til den lineære regresjonsligningen som følger:

Eksempelregresjonskoeffisienten er funnet ved hjelp av funksjonen HELLING fra kategori Statistisk;

Eksempelregresjonskonstanten finnes ved å bruke funksjonen LINJESTYKKE fra kategori Statistisk;

Beregningsresultatene er vist i følgende figur:

Ris. 3. Tabell for beregning av parametere og data y* å bygge en regresjonslinje

7. Konstruer en kombinert graf av korrelasjonsfeltet og regresjonslinjen.

En annen Excel-funksjon for å finne lineær regresjon og plotte en trendlinje.

8. Velg inn Hovedmeny følgende bokmerker i rekkefølge Data →Dataanalyse →Regresjon.

Fyll ut de tomme feltene i dialogboksen Regresjon tilsvarende data som vist i figur 4:

Inndataintervall y: innledende data y;

Inndataintervall x: innledende data x;

Utgangsintervall: EN47

Kryss av for valgplanen. OK!!!

Ris. 4. Dialogboks Regresjon

Fremgangsmåte Regresjon viser en graf over de originale dataene og en utjevningsregresjonslinje (grafen må formateres).

I tredje bord KONKLUSJON AV RESULTATER finner vi regresjonsparametrene vi er interessert i og - koeffisienter Y-kryss og variabel X. I tillegg kommer prosedyren Regresjon viser et stort antall andre resultater i form av tabeller, som vi trenger senere når vi skal løse økonometriske problemer.

Det er ytterligere to måter å bygge en trendlinje i Excel.

Kopier de originale X- og Y-dataene inn i en blokk som starter i celle A28 og plott korrelasjonsfeltet igjen ( Sett inn → Graf → Punkt)

Ved å høyreklikke på markøren til ett av punktene i korrelasjonsfeltgrafen, vil dette aktivere dialogboksen for seriedataformatering. Velg et alternativ Legg til trendlinje... ( som vist i fig. 5)

I vinduet som åpnes Trendlinjeformat installere Alternativer for trendlinje:

- Lineær

- vis ligningen på diagrammet

- Plasser den tilnærmede pålitelighetsverdien på diagrammet.

Når du krysser av i boksen - plasser tilnærmet pålitelighetsverdi på diagrammet, vises verdien av bestemmelseskoeffisienten på diagrammet.

Jo bedre regresjonsfunksjonen er valgt og jo mindre forskjellen er mellom de observerte og beregnede verdiene, jo nærmere enhet er den.

Ris. 5. Dialogboks Regresjon

Ris. 6. Dialogboks Regresjon

Etter å ha fullført prosedyren Legg til trendlinje... Korrelasjonsfeltgrafen vil ha formen:

Ris. 7. Grafer over korrelasjonsfeltet og trendlinjen med regresjonsligningen og bestemmelseskoeffisienten.

Formater grafen og trekk konklusjoner fra laboratoriearbeidet.

Send arbeidsresultatene dine til læreren for karaktersetting.

Oppgavealternativer.

Det oppnås en verditabell for den kontrollerte variabelen X og den tilfeldige variabelen Y. Finn den lineære regresjonsligningen. Plott de opprinnelige dataene til den tilfeldige variabelen Y og plott regresjonslinjen.

Valg 1.

Alternativ 2.

Alternativ 3.

Alternativ 4.

Alternativ 5.

Alternativ 6.

Alternativ 7.

Alternativ 8.

Alternativ 9.

Alternativ 10.

Alternativ 11.

Alternativ 12.

Alternativ 13.

Alternativ 14.

Alternativ 15.

Alternativ 16.

Alternativ 17.

Alternativ 18.

Alternativ 19.