Biografier Kjennetegn Analyse

Definisjon av multippel regresjon. Modellspesifikasjon


Forelesning 3 Multippel regresjon

    Vilkår for bruk av metoden og dens begrensninger

Parregresjon kan gi et godt resultat i modellering dersom påvirkning av andre faktorer som påvirker studieobjektet kan neglisjeres. Oppførselen til individuelle økonomiske variabler kan ikke kontrolleres; det er ikke mulig å sikre likestilling av alle andre betingelser for å vurdere påvirkningen av én faktor som studeres. I dette tilfellet bør man forsøke å identifisere påvirkningen av andre faktorer ved å introdusere dem i modellen, dvs. lag en multippel regresjonsligning:

Hovedmålet med multippel regresjon er å bygge en modell med et stort antall faktorer, mens man bestemmer påvirkningen av hver av dem individuelt, så vel som deres kumulative innvirkning på den modellerte indikatoren. Spesifikasjonen av modellen omfatter to spørsmålsområder: valg av faktorer og valg av type regresjonsligning.

Faktorkrav:

    Bør kunne kvantifiseres. Ta eventuelt med i modellen kvalitetsfaktor, som ikke har en kvantitativ måling, må den gis kvantitativ sikkerhet (for eksempel i en avlingsmodell er jordkvalitet gitt i form av poeng).

    De bør ikke være interkorrelert og enda mer være i et eksakt funksjonelt forhold. Inkludering i modellen av faktorer med høy interkorrelasjon når

for avhengighet

kan føre til uønskede konsekvenser, føre til ustabilitet og upålitelighet av estimater av regresjonskoeffisienter. Hvis det er en høy korrelasjon mellom faktorer, er det umulig å bestemme deres isolerte innflytelse på ytelsesindikatoren, så parametrene til regresjonsligningen viser seg å være utolkede.

    Multikollinearitet

Spesifikt for multifaktorielle systemer er betingelsen om avvisning av for nær sammenheng mellom faktorkarakteristikker. Denne tilstanden blir ofte referert til som faktoren kollinearitetsproblem. Kollinearitet betyr en ganske nær ikke-tilfeldig lineær korrelasjon av noen faktorer med andre. Det anbefales ofte å ekskludere en faktor knyttet til en annen faktor ved. Av de to tett bundet venn med andre faktorer er det rasjonelt å utelukke en faktor som er svakere knyttet til den effektive funksjonen.

Det kreves en mer kompleks teknikk for å finne og ekskludere en faktor som ikke har en nær sammenheng med noen individuell faktor, men som har en nær multifaktoriell sammenheng med et kompleks av andre faktorer. Denne posisjonen kalles multikollinearitet. For å måle det, bør man beregne sekvensielt koeffisientene til multippel korrelasjon (eller bestemmelse) av hver faktor (i rollen som utfall) med alle andre faktorer (i rollen som forklaringsvariabler). Etter å ha oppdaget en multikollineær faktor eller flere av dem, bør man vurdere muligheten for å ekskludere de mest avhengige av komplekset av de gjenværende faktorene, dersom dette ikke fører til tap av modellens økonomiske betydning.

Kollinearitet og multikollinearitet av faktorer i økonomiske systemer oppstår ikke ved en tilfeldighet. I et sett med homogene foretak eller regioner, som regel, på grunn av økonomiske lover, oppstår det en parallell variasjon av faktorkarakteristikker: de foretakene som har de beste verdiene av noen faktorer, for eksempel de beste naturlige forhold, samtidig ha høyere kapital- og kraft-til-vekt-forhold, høyere kvalifisering av personell, bedre teknologi osv. Derav den uunngåelige større eller mindre kolineariteten til alle produksjonsfaktorer eller sosioøkonomiske livsbetingelser.

Tilstedeværelsen av kollinearitet i systemet forverrer de matematiske kvalitetene til modellen, kan føre til ustabilitet av de resulterende parameterne, som endres dramatisk med en liten endring i verdiene til faktorene.

Et spesifikt problem ved multivariat analyse er spørsmålet om muligheten for å erstatte en faktor som det ikke er informasjon om med en annen faktor og konsekvensene av en slik erstatning.

Du bør, hvis mulig, finne en annen variabel hvis verdier er kjent og som er i tilstrekkelig nær forbindelse med den manglende faktoren. For eksempel, hvis det ikke er data for regionen om gjennomsnittlig lønn, kan de erstattes med verdien av brutto regionalprodukt per innbygger, med tanke på at det bør være et nært (men ikke nøyaktig kjent) forhold mellom disse økonomiske indikatorer.

Det er viktig å vurdere formålet som modellen bygges for. Hvis målet kun er å forutsi en effektiv funksjon, vil det å erstatte faktoren med en annen variabel, hvis den er nært knyttet til den erstattede faktoren, ikke føre til signifikante feil. Men hvis målet med modellen var å ta beslutninger om dens økonomiske politikk av forvalteren, vil det å erstatte den kontrollerte faktoren med en nært beslektet, men ikke-administrert erstatningsfaktor frata modellen mening, til tross for den høye besluttsomheten.

    Velge type multifaktoriell modell og faktorfunksjoner

Forholdet til den effektive funksjonen y med faktorer x 1 , x 2 , …, x k uttrykkes ved ligningen:

(22)

hvor en er ligningens frie ledd;

k– antall faktorer;

j– faktornummer;

Jeg er nummeret på befolkningsenheten;

b j er den betinget rene regresjonskoeffisienten med faktoren x j, som måler endringen i resultatet når faktoren endres med sin enhet, og med konstansen til andre faktorer inkludert i modellen;

ε Jeg- tilfeldig variasjon y Jeg, ikke forklart av modellen.

Modellen i skjemaet (22) er additiv. Dette betyr at modellen er basert på hypotesen om at hver faktor legger til eller trekker noe fra verdien av den resulterende attributten. En slik hypotese om typen sammenheng mellom årsaker og virkninger reflekterer fullt ut en rekke økonomiske systemer med sammenhengende funksjoner. For eksempel hvis y er avlingsavlingen, og x 1 , x 2 , …, x k- agrotekniske faktorer: doser av forskjellige typer gjødsel, antall ugress, vanning, andelen tap under høsting, så faktisk, hver av disse faktorene enten øker eller reduserer utbyttet, og resultatet kan eksistere uten noen av disse faktorene.

Additivmodellen er imidlertid ikke egnet for alle relasjoner i økonomien. Hvis et slikt forhold studeres som avhengigheten av produksjonsvolumet til en bedrift y fra det okkuperte området x 1 , Antall ansatte x 2 , kostnad for anleggsmidler x 3 (eller totalkapital), så er hver av faktorene nødvendig for eksistensen av resultatet, og ikke et tillegg til det. I slike situasjoner må man gå ut fra hypotesen om den multiplikative formen til modellen:

(23)

En slik modell ble ifølge de første skaperne kalt "Cobb-Douglas-modellen".

En blandet form av modellen er også mulig, der noen faktorer vil gå inn additivt, mens andre vil gå inn multiplikativt.

Ved valg av faktoregenskaper bør man gå ut fra følgende bestemmelser.

    Faktorer bør være årsakene, og det resulterende tegnet bør være deres konsekvens. Det er uakseptabelt å inkludere i antall faktorer en funksjon som opptar en plass i realøkonomien ved systemets "output", dvs. modellavhengig. Det bygges for eksempel en modell av kostnadene for en sentner korn. Faktorene som tas er utbyttet av kornavlinger og arbeidsintensiteten til en centner, men bestemmelseskoeffisienten er liten, modellen er dårlig. For å «forbedre» den ble lønnsomheten i kornproduksjonen lagt til antall faktorer. Bestemmelseskoeffisienten hoppet umiddelbart til 0,88. Men modellen er ikke blitt bedre, den har blitt meningsløs, siden lønnsomheten avhenger av kostprisen, og ikke omvendt.

    Faktortegn skal ikke være komponenter av det resulterende tegnet. I samme kostnadsmodell kan ikke lønnsprosent korn, kostnaden for å transportere en centner korn osv. introduseres som faktorer. sammenheng av helheten med sin strukturelle deler skal ikke analyseres vha korrelasjonsanalyse, men ved hjelp av indekssystemer.

    Duplisering av faktorer bør unngås. Hver reell faktor skal representeres av én indikator. For eksempel kan arbeidsfaktoren i produksjonsvolummodellen representeres enten ved gjennomsnittlig antall ansatte, eller av kostnadene for dagsverk (arbeidstimer) for produksjon, men ikke ved begge indikatorene. Duplisering av faktorer fører til fragmentering faktor påvirkning, og det kan være upålitelig på grunn av slik fragmentering.

    Faktorer som er nært knyttet til andre bør unngås når det er mulig.

    Faktorer på ett nivå i hierarkiet bør inkluderes, faktorer på et høyere nivå og deres underfaktorer bør ikke inkluderes. I kornkostnadsmodellen inkluderer vi for eksempel utbytte, arbeidsintensitet, men vi legger ikke til fruktbarhetspoeng, dosen av gjødsel, strømforsyningen til arbeidere, dvs. underfaktorer - årsakene som påvirker utbyttet og arbeidsintensiteten. Inkludering av underfaktorer er også en duplisering av en faktor.

    Det er logikk i en slik konstruksjon av modellen, der alle tegn er tilordnet samme enhet av populasjonen, både det effektive tegnet og faktorene. For eksempel, hvis produksjonsvolumet til en bedrift er modellert, bør faktorene også referere til bedriften: antall ansatte, arealet av land, anleggsmidler, etc. Hvis det bygges en modell lønn ansatt, da bør faktorene også gjelde for den ansatte: hans tjenestetid, alder, utdanning, kategori av tariffskalaen (skala), strømforsyning, etc.

    Prinsippet om modellenkelhet gjelder. Hvis det er mulig å bygge god modell med fem faktorer bør du ikke jage etter ideell modell med ti faktorer, forverrer vanligvis ekstra faktorer modellen.

    Målkort for multivariat korrelasjon og regresjon

La oss vurdere dette indikatorsystemet på eksempelet på forholdet mellom utbyttet av kornavlinger i 51 landbruksbedrifter i Oryol-regionen. Opprinnelig ble det valgt ut 8 faktoregenskaper som kan påvirke avlingsvariasjonen:

x 1 - størrelsen på det sådde området av korn, ha;

x 2 egenvekt korn i det totale arealet, %;

x 3 – kostnader per 1 ha kornavlinger, tusen rubler/ha;

x 4 - lønnskostnader per 1 ha, timeverk;.

x 5 – godtgjørelsesnivå, rub./person-time;

x 6 – energiforsyning, hk/100 ha dyrkbar jord;

x 7 - antall skurtreskere per 1000 hektar korn, stk.;

x 8 - antall traktorførere per 100 hektar dyrkbar jord, mennesker.

Den opprinnelige regresjonsligningen er:

Imidlertid er det kun koeffisientene kl x 3 (t-kriteriet er lik 10,5) og når x 8 (t-kriteriet er lik 2,72). Større pålitelighet enn andre faktorer har og x 5 .

Etter å ha filtrert ut upålitelige faktorer, dvs. fjerner du dem fra ligningen, er den endelige regresjonsligningen:

Dermed var forskjellen i avkastning i dataene til 51 landbruksbedrifter sterkest og mest pålitelig påvirket av forskjeller mellom bedrifter i kostnader per 1 ha, i lønnsnivå og i tilgjengeligheten av faglærte.

Hver av koeffisientene, kalt rene regresjonskoeffisienter, tolkes som mengden endring i utbytte, forutsatt at denne faktoren endres av den aksepterte måleenheten, og de to andre faktorene forblir konstante på gjennomsnittsnivåene. For eksempel, b 3 betyr at med en økning i kostnadene per 1 hektar med kornavlinger og med samme lønn og tilgjengelighet på traktorførere, økte gjennomsnittlig avling med gjennomsnittlig 4,6 centners per hektar. Begrepet "betinget ren regresjon" betyr at påvirkningen av en enkelt faktor er renset for den samtidige variasjonen av bare de faktorene som kommer inn i ligningen, men ikke renset for den mulige samtidige variasjonen av andre faktorer.

Verdien av de betinget rene regresjonskoeffisientene avhenger av de aksepterte måleenhetene. Hvis faktoren x 3 ble målt ikke i tusenvis av rubler per hektar, men i rubler per hektar, da koeffisienten b 3 ville være lik 0,00461 rubler/ha. Derfor er det umulig å sammenligne koeffisientene for betinget ren regresjon seg imellom. For å oppnå sammenlignbare koeffisienter for påvirkningen av variasjonen av faktorer på variasjonen av resultatet, bør man kvitte seg med måleenhetene, bringe dem til en konvensjonell enhet. To metoder kan brukes for dette.

Den første måten kalles standardisering. Dette begrepet stammer fra engelsk navn standardavvik. Standardiserte regresjonskoeffisienter uttrykkes i brøker eller verdier, hvis de overstiger én - i form av σ y. Standardiserte koeffisienter er betegnet med den greske bokstaven β og kalles beta-koeffisienter. Formelen deres er:

I vårt eksempel får vi:

β 3 = 0,772;

β 5 = 0,147;

β 8 = 0,223.

Tolkningen av beta-koeffisientene er som følger: når faktoren endres x 3 for ett av dets standardavvik fra gjennomsnittsverdien og med konstansen til andre faktorer, vil den effektive egenskapen (utbyttet) avvike fra sitt gjennomsnittlige nivå med 0,772 av standardavviket. Siden alle standardiserte koeffisienter er uttrykt i de samme enhetene, i σ y , de er sammenlignbare med hverandre, og det kan konkluderes med at variasjonen i avling var sterkest påvirket i det studerte settet av foretak av variasjonen i kostnader per hektar såing.

En annen måte å bringe regresjonskoeffisientene til en sammenlignbar form er å konvertere dem til elastisitetskoeffisienter. Formel for elastisitetskoeffisient ℓ j :

(25)

Elastisitetskoeffisienten tolkes som følger: når faktoren endres x j på hans gjennomsnittlig verdi og med konstansen til andre faktorer inkludert i ligningen, vil den resulterende funksjonen endres i gjennomsnitt med ℓ j deler av gjennomsnittet (eller ℓ j gjennomsnitt hvis ℓ j>1, noe som skjer sjeldnere). Det sies ofte, "vil endres til ℓ j prosent per 1 % endring i faktoren.

I vårt eksempel har vi:

Elastisitetskoeffisienter er like uttalt som β j, i de samme enhetene og er sammenlignbare med hverandre. De er mer praktiske enn β-koeffisienter å bruke i planlegging og prognoser. Det er usannsynlig at forvalteren planlegger å øke faktoren, for eksempel, investeringene med 0,6 sigma. Vanligvis planlegger de å endre faktorene, hvis de er håndterbare, med så mange prosent av det oppnådde nivået. Hvis vi for eksempel planlegger å øke kostnadene per hektar med kornavlinger med 10 %, lønningene med 30 % og tilgjengeligheten av kvalifiserte traktorførere med 20 %, så kan vi forvente en endring i utbyttet med
, hvor k j– planlagte vekstrater av faktorer.

Vurder nå systemet med indikatorer for tetthet av multifaktorielle forhold. Først av alt konstrueres en matrise av sammenkoblede korrelasjonskoeffisienter (tabell 1).

Tabell 1. Matrise av sammenkoblede korrelasjonskoeffisienter

tegn

x 3

x 5

x 8

x 3

x 5

x 8

Matrisen med parvise korrelasjonskoeffisienter gir inndata for andre indikatorer på tettheten til forbindelsen og for den primære kontrollen for kollinearitet. PÅ denne saken alle forhold mellom faktorer er svake, kolinearitet vil ikke ødelegge modellen.

Den viktigste indikatoren på kommunikasjonens nærhet i et multifaktorielt system er koeffisienten for multippel bestemmelse R 2 . Den måler den generelle stramheten i forholdet til variasjonen av den resulterende egenskapen y med en variasjon av hele systemet av faktorer som inngår i modellen. Verdien av koeffisienten for multippel bestemmelse kan beregnes på flere måter.

1. Beregning basert på matrisen av parede korrelasjonskoeffisienter

,

hvor A * - matrisedeterminant;

, (26)

og Δ er determinanten for en matrise som ikke inkluderer den første raden Δ * og dens siste kolonne, dvs.:

Med to faktorer oppnås en forenklet beregningsformel:

(27)

Det følger av (27) at dersom faktorene er uavhengige av hverandre, dvs. , er koeffisienten for multippel bestemmelse summen av parbestemmelseskoeffisienten.

Ved å bruke formel (27) kan vi beregne tre muliger:

2. Beregning basert på parede korrelasjonskoeffisienter og β-koeffisienter:

I eksemplet: R 2 \u003d 0,86 0,772 + 0,35 0,147 + 0,433 0,223 \u003d 0,8119.

3. Beregning som en korrelasjonsrelasjon, dvs. forholdet mellom variasjonen av den resulterende attributten y, assosiert med variasjonen av systemet av faktorer som er inkludert i modellen (i regresjonsligningen), til hele den generelle variasjonen av det resulterende attributtet:

. (30)

Telleren til formelen (30) er summen av kvadrerte avvik av de individuelle beregnede verdiene til det effektive attributtet fra gjennomsnittet, og nevneren er summen av kvadratene av de faktiske verdiene til det effektive attributtet fra gjennomsnittet, for alle enheter av befolkningen.

Partialbestemmelseskoeffisienter er indikatorer som måler hvor stor andel den uforklarlige variasjonen reduseres med faktorene som allerede er i modellen når denne faktoren inngår i modellen. x m. Formelen for den partielle bestemmelseskoeffisienten er som følger:

I vårt eksempel:

Tolkningen er som følger: inkludering i modellen av faktoren x 3 etter x 5 og x 8 y med 74 %; inkluderingsfaktor x 5 etter x 3 og x 8 reduserer uforklarlige variasjoner y på 10 %; inkluderingsfaktor x 8 etter x 3 og x 5 reduserer uforklarlige variasjoner y med 20 %.

Koeffisientene for privat bestemmelse er uforlignelige seg imellom, siden disse er brøkdeler av forskjellige nevnerverdier.

Ved å trekke ut kvadratroten av en hvilken som helst bestemmelseskoeffisient, får man koeffisienten til den tilsvarende korrelasjonen: multiplum, par eller privat.

5. Inkludering av ikke-kvantitative faktorer i den multifaktorielle modellen

Ikke-kvantitative faktorer ved landbruksproduksjonen er f.eks naturområde, eierformen til foretak, den dominerende produksjonsretningen (industrien) og andre. Det er å foretrekke å ikke blande foretak eller regioner som er forskjellige i disse kvalitative egenskapene i den opprinnelige befolkningen. Men det kan også være nødvendig å bygge en modell med heterogene enheter av befolkningen, for eksempel dersom antallet enheter som er kvalitetsmessig homogene er for lite for en pålitelig sammenheng. Noen ganger kan målet være å måle netto påvirkning av en ikke-kvantitativ faktor, som eierskap, på produksjonen, og dette krever inkludering av en kvalitativ faktor i en multifaktormodell.

I slike tilfeller kan de kvalitative graderingene til en funksjon kodes av spesielle variabler, ofte kalt "dummy" eller "strukturelle" variabler. De gjenspeiler heterogeniteten i den kvalitative strukturen til befolkningen. Anta at det er nødvendig å bygge en regresjonsmodell av lønnsomheten til bedriftenes produkter, og i regionen er det 16 statlige foretak, 28 private, 13 kooperative eierformer.

Hvis vi ignorerer forskjellene knyttet til eierformen, vil de enten gå inn i gjenværende variasjon, forverre lønnsomhetsmodellen, eller de vil blande seg med påvirkning av visse kvalitative faktorer i en ukjent andel, og forvrenge målet for deres innflytelse.

Nødvendig for m ikke-kvantitative faktorer eller graderinger av en slik faktor å introdusere m-1 strukturell variabel, betegnet med U j. Beregningsdataene vil se slik ut: m=3 (Tabell 2).

Tabell 2. Startdata med strukturelle variabler

Type eierskap

Befolkningsenhet

Kvantitative egenskaper

Strukturelle variabler

X 1

X 2

X k

U 1

U 2

Stat

Betydningen av disse tegnene

Betydningen av disse tegnene

Kooperativ

Betydningen av disse tegnene

Som et resultat av løsningen vil en modell av skjemaet bli oppnådd:

hvor x k +1 tilsvarer variabelen U 1 , a x k +2 - variabel U 2 .

La oss omskrive modellen i spesiell notasjon:

Betydningen av koeffisientene for strukturelle variabler er som følger: koeffisient c 1 betyr at private virksomheter med samme verdier av kvantitative faktorer x 1 x k ha en lønnsomhet c 1 mer enn statseide foretak, som tas som et sammenligningsgrunnlag (har ingen strukturelle variabler U 1 og U 2 ). Foretak i den kooperative eierformen har lønnsomhet på c 2 større enn de statlige. Mengder c 1 og c 2 kan være både positiv og negativ.

I stedet for en generell modell kan du skrive tre private modeller for bedrifter individuelle grupper ved eierskap, og legger til koeffisienten til den strukturelle variabelen til ligningens frie ledd:

a) for offentlige virksomheter

b) for bedrifter i privat sektor

c) for foretak i samvirkesektoren

6. Anvendelse av multifaktoriell regresjonsmodeller for å analysere virksomheten til virksomheter og prognoser

Evaluering av ytelse basert på en regresjonsmodell, sammenlignet med den enkleste metoden for en slik vurdering – å sammenligne resultatet oppnådd av en gitt virksomhet med gjennomsnittsresultatet for en homogen populasjon – gir ytterligere fordeler.

I følge vårt eksempel var gjennomsnittsavlingen for 51 landbruksbedrifter 22,9 c/ha korn.

Agrofirm 1 fikk 17,6 kv/ha. Derfor henger dette firmaet etter. Imidlertid oppstår spørsmålet: kanskje produksjonsforholdene til dette selskapet var dårligere enn gjennomsnittet? Sammenligning med befolkningsgjennomsnittet ignorerer fullstendig forskjellen i "faktortilførselen" til bedrifter, og faktisk er bedrifter ikke alltid under de samme forholdene.

Evaluering av aktiviteter basert på regresjonsmodellen innebærer å ta hensyn til ulikhet i produksjonsforhold, for eksempel jordfruktbarhet, økonomisk situasjon, tilgjengelighet på kvalifisert personell og andre. Det er umulig å fullt ut ta hensyn til forskjellen i produksjonsforhold mellom bedrifter, siden enhver modell ikke tar hensyn til alle faktorer for avkastningsvariasjon. Vurderingen basert på modellen gjøres ved å sammenligne det faktiske resultatet (yielden) med resultatet som ville oppnådd av virksomheten med de faktiske faktorene og gjennomsnittet over totalen av deres effektivitet, uttrykt ved betinget rene regresjonskoeffisienter. Vurder resultatene av å beregne avkastningen til to bedrifter (tabell 3).

Tabell 3. Faktisk og estimert produksjonsresultat

Agrofirma

Faktor tegn

Produktivitet, c/ha

x 3

x 5

x 8

faktiske

estimert

Eksempel gjennomsnitt

Begge firmaene har dårligere enn gjennomsnittet i utvalget, verdiene av hovedfaktorene x 3 og x 8 , og følgelig er verdiene av det beregnede utbyttet lavere enn gjennomsnittet. Men samtidig har bedrift 1 praktisk talt samme estimerte avkastning som faktisk oppnådd. Det er ingen grunn til å vurdere dette firmaet som henger etter. Bedrift 2 har en faktisk avkastning lavere enn den beregnede basert på tilgjengelige faktorer. Dette betyr at enten de ukjente faktorene som ikke er inkludert i modellen viste seg å være dårligere enn gjennomsnittet for dette firmaet, eller bruksgraden av hovedfaktorene - kostnader per hektar og tilgjengeligheten av fagarbeidere er lavere enn gjennomsnittet.

Prognoser basert på regresjonsmodellen er basert på antakelsen om at faktorene er kontrollerbare og kan ta en eller annen planlagt, forventet verdi, og andre ukjente forhold vil holde seg på gjennomsnittsnivå i populasjonen. Kontrollerbarheten til faktorer betyr ikke at noen av verdiene deres kan erstattes i modellen ved prognoser. Regresjonsligningen reflekterer forholdene som eksisterte i aggregatet, som ligningen ble oppnådd etter. Hvis verdiene av faktortegn var 2-3 ganger høyere, kan det ikke hevdes at de betinget rene regresjonskoeffisientene ville forbli de samme.

Derfor anbefales det, ved prognoser ved bruk av regresjonsligningen, å ikke gå utover grensene for de faktisk observerte verdiene av faktorene i aggregatet, eller å gå utover disse grensene med ikke mer enn 10-15% av gjennomsnittet verdier. Et like viktig krav i prognoser er kravet om at de predikerte verdiene av faktorer er konsistente. Det er nødvendig å ta hensyn til tegnet og nærheten til forholdet mellom faktorene. For eksempel, hvis det er spådd å øke graden av tilbud med kvalifiserte arbeidere, er det umulig å forlate uendret, langt mindre redusere, den anslåtte verdien av lønnsnivået. Ved planlegging av veksten i kraft-til-vekt-forholdet er det nødvendig å øke kapital-arbeidsforholdet omtrent i samme andel.

Med fokus på verdiene til faktorene som er angitt i tabell 3, antar vi at når vi forutsier avkastningen, planlegger vi kostnadene per hektar ( x 3 ) på nivået 3 tusen rubler, tilstedeværelsen av traktorførere per 100 hektar dyrkbar jord 0,8; timelønn på 20 rubler. i timen. Ved å erstatte disse verdiene i regresjonsmodellen får vi en punktprognose for utbyttet av kornavlinger:

En punktprognose er den matematiske forventningen (gjennomsnittet) av de mulige verdiene til det forutsagte attributtet med forskjellig sannsynlighet. Det er nødvendig å supplere punktprognosen med beregning av konfidensgrenser med tilstrekkelig høy sannsynlighet. For å gjøre dette, bruk verdien av gjennomsnittlig kvadrattilnærmingsfeil, som beregnes av formelen:

(33)

Telleren til det radikale uttrykket er den gjenværende, ikke forklart av modellen, summen av de kvadrerte avvikene til det resulterende trekk, og nevneren er antall frihetsgrader for den gjenværende variasjonen. I vårt eksempel er restsummen av kvadrerte avvik 814,3. Vi har:

Derfor, med en reliabilitet på 0,95, vil det anslåtte utbyttet være 25,4±4,16·2, eller fra 17,8 til 33,72 c/ha. Alle disse beregningene refererer til avkastningsprognoser for individuelle landbruksbedrifter. Hvis en vi snakker om gjennomsnittlig avkastning for til sammen 51 landbruksbedrifter, da gjennomsnittlig feil det aritmetiske gjennomsnittet er lik standardavviket delt på kvadratroten av prøvestørrelsen n, dvs. vil være:

Tolkningen av denne verdien av gjennomsnittlig prognosefeil er som følger: hvis 51 landbruksbedrifter er utstyrt med faktorer x 3 , x 5 , x 8 ved nivåene 3, 20, 0,8, henholdsvis, vil en samlet gjennomsnittsavling på 25,4 ± 0,583 c/ha oppnås. Med en sannsynlighet på 0,95 vil gjennomsnittlig samlet forventet avling være 25,4±0,583·2, eller fra 23,7 til 27,1 c/ha.

En økonometrisk korrelasjons-regresjonsmodell av et system av innbyrdes beslektede trekk ved den studerte populasjonen er en slik regresjonsligning som inkluderer hovedfaktorene som påvirker variasjonen av det resulterende trekk i populasjonen, har Høy verdi bestemmelseskoeffisient (ikke lavere enn 0,5), pålitelig og korrekt tolket i samsvar (i fortegn og størrelsesorden) med teorien om systemet som studeres ved regresjonskoeffisienter, og på grunn av disse egenskapene, egnet for å vurdere aktiviteten til befolkningsenheter og for prognoser.

flere regresjon (2)Abstrakt >> Markedsføring

Introdusere dem i modellen, dvs. konstruere ligningen flere regresjon. Flere regresjon mye brukt for å løse etterspørselsproblemer ...

I løpet av studiene møter studentene veldig ofte en rekke ligninger. En av dem - regresjonsligningen - vurderes i denne artikkelen. Denne typen ligninger brukes spesifikt for å beskrive egenskapene til forholdet mellom matematiske parametere. Denne typen likhet brukes i statistikk og økonometri.

Definisjon av regresjon

I matematikk forstås regresjon som en viss mengde som beskriver avhengigheten av gjennomsnittsverdien til et datasett av verdiene til en annen mengde. Regresjonsligningen viser, som funksjon av et bestemt trekk, gjennomsnittsverdien til et annet trekk. Regresjonsfunksjonen har formen enkel ligning y \u003d x, der y er den avhengige variabelen, og x er den uavhengige variabelen (funksjonsfaktor). Faktisk er regresjonen uttrykt som y = f (x).

Hva er typene forhold mellom variabler

Generelt skilles det mellom to motsatte typer forhold: korrelasjon og regresjon.

Den første er preget av likhet mellom betingede variabler. I dette tilfellet er det ikke sikkert hvilken variabel som avhenger av den andre.

Hvis det ikke er likhet mellom variablene og betingelsene sier hvilken variabel som er forklarende og hvilken som er avhengig, så kan vi snakke om tilstedeværelsen av en sammenheng av den andre typen. For å bygge en ligning lineær regresjon, vil det være nødvendig å finne ut hvilken type tilkobling som er observert.

Typer regresjoner

Til dags dato er det 7 forskjellige typer regresjon: hyperbolsk, lineær, multippel, ikke-lineær, parvis, invers, logaritmisk lineær.

Hyperbolsk, lineær og logaritmisk

Den lineære regresjonsligningen brukes i statistikk for å tydelig forklare parametrene til ligningen. Det ser ut som y = c + m * x + E. Den hyperbolske ligningen har form av en vanlig hyperbel y \u003d c + m / x + E. Logaritmisk lineær ligning uttrykker et forhold til logaritmisk funksjon: I y \u003d I c + t * I x + I E.

Multippel og ikke-lineær

to til komplekse typer regresjoner er multiple og ikke-lineære. Multippel regresjonsligningen uttrykkes ved funksjonen y \u003d f (x 1, x 2 ... x c) + E. I denne situasjonen er y den avhengige variabelen og x er den forklarende variabelen. Variabelen E er stokastisk og inkluderer påvirkning av andre faktorer i ligningen. Ikke-lineær ligning regresjon er litt inkonsekvent. På den ene siden, med hensyn til indikatorene tatt i betraktning, er den ikke lineær, og på den andre siden, i rollen som å vurdere indikatorer, er den lineær.

Inverse og parvise regresjoner

En invers er en slags funksjon som må konverteres til lineær visning. I de mest tradisjonelle applikasjonsprogrammene har den form av en funksjon y \u003d 1 / c + m * x + E. Den sammenkoblede regresjonsligningen viser forholdet mellom dataene som en funksjon av y = f(x) + E. Akkurat som de andre ligningene er y avhengig av x og E er en stokastisk parameter.

Konseptet med korrelasjon

Dette er en indikator som viser eksistensen av et forhold mellom to fenomener eller prosesser. Styrken til sammenhengen uttrykkes som en korrelasjonskoeffisient. Verdien svinger innenfor intervallet [-1;+1]. Negativ indikator snakker om tilstedeværelsen tilbakemelding, positiv - om en rett linje. Hvis koeffisienten tar en verdi lik 0, er det ingen sammenheng. Jo nærmere verdien er 1, desto sterkere forbindelse mellom parametrene, jo nærmere 0 - jo svakere.

Metoder

Korrelasjonsparametriske metoder kan estimere tettheten i forholdet. De brukes på grunnlag av distribusjonsestimater for å studere parametere som følger normalfordelingsloven.

Parametrene til den lineære regresjonsligningen er nødvendige for å identifisere typen avhengighet, funksjonen til regresjonsligningen og evaluere indikatorene for den valgte relasjonsformelen. Korrelasjonsfeltet brukes som en metode for å identifisere en sammenheng. For å gjøre dette må alle eksisterende data representeres grafisk. I et rektangulært todimensjonalt koordinatsystem må alle kjente data plottes. Slik dannes korrelasjonsfeltet. Verdien av den beskrivende faktoren er markert langs abscissen, mens verdiene til den avhengige faktoren er markert langs ordinaten. Hvis det er en funksjonell sammenheng mellom parameterne, stiller de opp i form av en linje.

Hvis korrelasjonskoeffisienten til slike data er mindre enn 30%, kan vi snakke om nesten fullstendig fravær av en forbindelse. Hvis det er mellom 30 % og 70 %, indikerer dette tilstedeværelsen av koblinger med middels nærhet. En 100 % indikator er bevis på en funksjonell forbindelse.

En ikke-lineær regresjonsligning, akkurat som en lineær, må suppleres med en korrelasjonsindeks (R).

Korrelasjon for multippel regresjon

Bestemmelseskoeffisienten er en indikator på kvadratet multippel korrelasjon. Han snakker om stramheten i forholdet til det presenterte settet med indikatorer med egenskapen som studeres. Det kan også snakke om arten av påvirkningen av parametere på resultatet. Multippel regresjonsligningen evalueres ved hjelp av denne indikatoren.

For å beregne den multiple korrelasjonsindeksen, er det nødvendig å beregne dens indeks.

Minste kvadratiske metode

Denne metoden er en måte å estimere regresjonsfaktorer på. Dens essens ligger i å minimere summen av kvadrerte avvik oppnådd på grunn av faktorens avhengighet av funksjonen.

En sammenkoblet lineær regresjonsligning kan estimeres ved å bruke en slik metode. Denne typen ligninger brukes i tilfelle deteksjon mellom indikatorene for et paret lineært forhold.

Ligningsalternativer

Hver parameter i den lineære regresjonsfunksjonen har en spesifikk betydning. Den sammenkoblede lineære regresjonsligningen inneholder to parametere: c og m. Parameteren t viser den gjennomsnittlige endringen i den endelige indikatoren til funksjonen y, med forbehold om en reduksjon (økning) i variabelen x med én konvensjonell enhet. Hvis variabelen x er null, er funksjonen lik parameteren c. Hvis variabelen x ikke er null, bærer ikke faktoren c økonomisk sans. Den eneste påvirkningen på funksjonen er tegnet foran faktoren c. Hvis det er et minus, kan vi si om en langsom endring i resultatet sammenlignet med faktoren. Hvis det er et pluss, indikerer dette en akselerert endring i resultatet.

Hver parameter som endrer verdien av regresjonsligningen kan uttrykkes i form av en ligning. For eksempel har faktoren c formen c = y - mx.

Grupperte data

Det er slike forhold ved problemet der all informasjon er gruppert i henhold til attributten x, men samtidig for bestemt gruppe de tilsvarende gjennomsnittsverdiene til den avhengige indikatoren er indikert. I dette tilfellet karakteriserer gjennomsnittsverdiene hvordan indikatoren avhenger av x. Dermed hjelper den grupperte informasjonen til å finne regresjonsligningen. Den brukes som en relasjonsanalyse. Imidlertid har denne metoden sine ulemper. Dessverre er gjennomsnitt ofte gjenstand for eksterne svingninger. Disse svingningene er ikke en refleksjon av mønstrene i forholdet, de maskerer bare "støyen". Gjennomsnitt viser forholdsmønstre mye verre enn en lineær regresjonsligning. De kan imidlertid brukes som grunnlag for å finne en ligning. Ved å multiplisere størrelsen på en bestemt populasjon med det tilsvarende gjennomsnittet, kan du få summen av y innenfor gruppen. Deretter må du slå ut alle mottatte beløp og finne den endelige indikatoren y. Det er litt vanskeligere å gjøre beregninger med sumindikatoren xy. I tilfelle at intervallene er små, kan vi betinget ta indikatoren x for alle enheter (innenfor gruppen) den samme. Multipliser det med summen av y for å finne summen av produktene av x og y. Videre er alle summene slått sammen og det viser seg totale mengden hu.

Regresjon av flere par ligninger: Vurdere betydningen av et forhold

Som diskutert tidligere, har multippel regresjon en funksjon av formen y \u003d f (x 1, x 2, ..., x m) + E. Oftest brukes en slik ligning for å løse problemet med tilbud og etterspørsel etter varer, renteinntekter på tilbakekjøpte aksjer, studere årsakene og typen produksjonskostnadsfunksjon. Den brukes også aktivt i en rekke makroøkonomiske studier og beregninger, men på mikroøkonominivå brukes denne ligningen litt sjeldnere.

Hovedoppgaven til multippel regresjon er å bygge en datamodell som inneholder en enorm mengde informasjon for videre å bestemme hvilken innflytelse hver av faktorene individuelt og i sin helhet har på indikatoren som skal modelleres og dens koeffisienter. Regresjonsligningen kan ha en rekke verdier. I dette tilfellet brukes vanligvis to typer funksjoner for å vurdere forholdet: lineær og ikke-lineær.

En lineær funksjon er avbildet i form av et slikt forhold: y \u003d a 0 + a 1 x 1 + a 2 x 2, + ... + a m x m. I dette tilfellet anses a2, a m for å være koeffisientene for "ren" regresjon. De er nødvendige for å karakterisere den gjennomsnittlige endringen i parameteren y med en endring (reduksjon eller økning) i hver tilsvarende parameter x med en enhet, med betingelsen om en stabil verdi av andre indikatorer.

Ikke-lineære ligninger har for eksempel formen strømfunksjon y=ax 1 b1 x 2 b2 ...x m bm . I dette tilfellet kalles indikatorene b 1, b 2 ..... b m - elastisitetskoeffisienter, de viser hvordan resultatet vil endre seg (med hvor mye%) med en økning (reduksjon) i den tilsvarende indikatoren x med 1% og med en stabil indikator på andre faktorer.

Hvilke faktorer bør vurderes når man bygger en multippel regresjon

For å konstruere en multippel regresjon på riktig måte, er det nødvendig å finne ut hvilke faktorer som bør vies spesiell oppmerksomhet.

Det er nødvendig å ha en viss forståelse av arten av forholdet mellom økonomiske faktorer og modellert. Faktorene som skal inkluderes må oppfylle følgende kriterier:

  • Må være målbart. For å bruke en faktor som beskriver kvaliteten til et objekt, bør det uansett gis en kvantitativ form.
  • Det skal ikke være noen faktor interkorrelasjon, eller funksjonell sammenheng. Slike handlinger fører oftest til irreversible konsekvenser - systemet vanlige ligninger blir ubetinget, og dette medfører dens upålitelighet og uklare vurderinger.
  • I tilfelle eksistensen av en enorm korrelasjonsindeks, er det ingen måte å finne ut den isolerte påvirkningen av faktorer på endelig resultat indikator, derfor blir koeffisientene utolkbare.

Konstruksjonsmetoder

Finnes stor mengde metoder og teknikker som forklarer hvordan du kan velge faktorene til ligningen. Imidlertid er alle disse metodene basert på valg av koeffisienter ved bruk av korrelasjonsindeksen. Blant dem er:

  • Ekskluderingsmetode.
  • Slå på metoden.
  • Trinnvis regresjonsanalyse.

Den første metoden innebærer å sile ut alle koeffisienter fra det samlede settet. Den andre metoden innebærer å introdusere et sett tilleggsfaktorer. Vel, den tredje er eliminering av faktorer som tidligere ble brukt på ligningen. Hver av disse metodene har rett til å eksistere. De har sine fordeler og ulemper, men de kan løse problemet med å sile ut unødvendige indikatorer på sin egen måte. Som regel oppnås resultatene av hver egen metode er nærme nok.

Metoder for multivariat analyse

Slike metoder for å bestemme faktorer er basert på vurdering av individuelle kombinasjoner av sammenhengende funksjoner. Disse inkluderer diskriminantanalyse, mønstergjenkjenning, hovedkomponentanalyse og klyngeanalyse. I tillegg er det også faktoranalyse, men det viste seg som et resultat av utviklingen av komponentmetoden. Alle av dem brukes under visse omstendigheter, under visse forhold og faktorer.

I virkeligheten bestemmes hvert fenomen av handlingen av ikke én årsak, men flere, til og med et kompleks av årsaker. Dem felles aksjon kan ha ulike implikasjoner for resultatet. "Effekten genereres av den kumulative handlingen av mange årsaker. En kompleks kombinasjon av årsaker fører til forskjellige resultater. Ved å handle på konsekvensen i samme retning, styrker de hverandres innflytelse. Hvis noen av årsakene har motsatt retning i forhold til handlingsobjektet, så blir deres kombinerte effekt på effekten svekket eller til og med opphevet. En situasjon kan til og med oppstå når en veldefinert, virkelig handlende årsak ikke har en åpenbar effekt. Dette betyr at sammen med denne årsaken, virker en annen, og absorberer handlingen til den første. Så det er nødvendig å studere virkningen forskjellige årsaker, dvs. å undersøke avhengigheten av ett fenomen av en rekke andre fenomener som forårsaker det første.

Det er helt åpenbart at ikke alle årsaker og faktorer som til en viss grad påvirker fenomenet som studeres kan undersøkes. Vi er tvunget til å begrense oss til de vesentlige årsakene.

Et økonomisk fenomen bestemmes av en mengde samtidig og kollektivt. driftsårsaker. Derfor står vi overfor oppgaven med å studere avhengigheten til en avhengig variabel av flere forklaringsvariabler under forholdene til et bestemt sted og bestemt tid. Dette problemet kan løses ved hjelp av multippel, eller multivariat, regresjonsanalyse. I dette tilfellet begrenser vi oss igjen til å vurdere en lineær sammenheng mellom den avhengige variabelen y og forklaringsvariablene xm. Vi vil også diskutere bruken av regresjonsanalyse med en ikke-lineær sammenheng mellom variabler, men kun for det tilfellet hvor en lineær tilnærming er mulig.

Så hvis det er et lineært forhold mellom variablene, skrives det generelle uttrykket for multippel regresjonsligningen (2.1) som

Forklaringsvariablene har en felles samtidig effekt på den avhengige variabelen y.

Som sagt kan vi ikke dekke hele komplekset av årsaker og ta hensyn til tilfeldigheten som ligger i en eller annen grad i en årsakshandling og effekten bestemt av den. Derfor, med å begrense oss til de viktigste forklaringsvariablene, introduserer vi en additiv komponent av den forstyrrende variabelen u i uttrykket av regresjonsfunksjonen, som gir den totale effekten av virkningen av alle uoversiktlige faktorer og ulykker. De empiriske verdiene til y kan derfor representeres som følger:

Så den forstyrrende variabelen og tolkes på samme måte som i enkel lineær regresjon.

I et funksjonsuttrykk, de beregnede verdiene av regresjonen. De indikerer gjennomsnittsverdiene til variabelen y på et punkt for faste verdier for de forklarende variablene, forutsatt at bare disse variablene får variabelen y til å endre seg. y-verdiene er estimater av gjennomsnittlige y-verdier for de faste verdiene til variablene på punktet

Koeffisienter er regresjonsparametere (2,42). Konstant regresjon utfører igjen funksjonen av utjevning i regresjonsligningen. Den definerer skjæringspunktet for regresjonshyperflaten med y-aksen.

Verdiene er estimater av regresjonskoeffisientene. Indeksen ved koeffisienten tilsvarer indeksen til forklaringsvariabelen. Så, indikerer gjennomsnittlig endring i y ved endring med én enhet, forutsatt at andre variabler forblir uendret; viser med hvor mange enheter y ville endret seg i gjennomsnitt hvis variabelen endret seg med én, forutsatt at variablene forble uendret, osv. gjennomsnittlig partiell påvirkning av variabler, forutsatt at andre forklarende variabler holdes konstante. Fra synspunkt statistisk metodikk dermed er det ingen forskjell mellom multippel og partiell regresjon. (Vi vil gå nærmere inn på dette i neste avsnitt.) Av denne grunn blir parametrene i litteraturen referert til som både multiple og partielle regresjonskoeffisienter.

En slik meningsfull tolkning av regresjonskoeffisientene kan føre til den feilaktige konklusjonen at det er nok å definere flere enkle lineære regresjoner av variabelen y på individuelle variabler. Men, som vi nevnte tidligere og som vi vil se i eksemplet, multippel regresjon, selv om den dekker den samtidige virkningen av forklaringsvariabler, utelukker regresjonskoeffisienten påvirkning av andre forklaringsvariabler,

Ved enkel lineær regresjon er situasjonen annerledes. Ved enkel lineær regresjon gjenspeiles påvirkningen av andre forklaringsvariabler delvis i regresjonskoeffisienten, som kan forklares med den ofte tosidige sammenhengen mellom forklaringsvariabler. Så hvis du har tilstrekkelig informasjon og empirisk numerisk materiale av flere årsaker-faktorer for variabelen y, så er det mer hensiktsmessig og teoretisk begrunnet å bygge en multippel regresjon. I avsnitt 2.5 har vi allerede påpekt at på grunn av spredningen av verdiene til individuelle variabler, er regresjonsfunksjonen ikke reversibel selv når den er logisk begrunnet og begrunnet av faglige hensyn. Irreversibilitet er også karakteristisk for multippel regresjon. Hvis du ikke bare er interessert i avhengigheten til variabelen y av, men også i variabelens avhengighet av y, bør du definere en annen funksjon (regresjon x på y og Teoretisk sett er det konjugerte, eller alternative, regresjoner. Allerede her vi tar hensyn til det faktum at den multilaterale avhengigheten mellom variablene y og bryter med de essensielle forutsetningene for bruken av metoden minste kvadrater. Vi vil diskutere dette mer detaljert i kapittel 12.

Vi vil vurdere prosedyren for å konstruere multippel regresjon ved å bruke eksemplet med regresjon med to forklarende variabler. Funksjonen til lineær multippel regresjon i dette tilfellet skrives som

Oppgaven er å estimere regresjonsparametrene basert på resultatene av prøveobservasjoner på variablene som inngår i analysen. For dette formålet bruker vi igjen metoden med minste kvadrater. La oss sette en betingelse for at regresjonen skal stemme så godt som mulig med empirien. Derfor, av samme grunner som i avsnitt 2.4, vil vi fremsette kravet om at summen av kvadrerte avvik av alle observerte verdier av den avhengige variabelen fra verdiene beregnet av regresjonsligningen (dvs. summen av kvadrert) rester) bør være minimale. Så kravet må oppfylles

Ved å erstatte uttrykk (2.43) i stedet får vi

Akkurat som i avsnitt 2.4, er 5 en funksjon av de ukjente regresjonsparametrene. Nødvendig tilstand oppfyllelse av (2.45) er inversjonen av de null-partielle deriverte av funksjonen med hensyn til hver av parameterne. Etter den tilsvarende algebraiske

beregninger vi får neste system normale ligninger:

Hvis vi sammenligner disse likningene med normallikningene for enkel lineær regresjon, vil vi se en stor likhet. De skiller seg kun ut i begrepet som tar hensyn til den nye variabelen.Derfor byr det ikke på store vanskeligheter å inkludere nye variabler i analysen.

Ved å dele begge sider av ligning (2.46) med får vi følgende uttrykk for konstant regresjon

Ved å erstatte (2.49) med (2.43), etter noen enkle transformasjoner, får vi et uttrykk som ligner på (2.25):

Å løse systemet med normalligninger for ukjente parametere får vi

I analogi med formel (2.27) for enkel regresjon, kan koeffisientene til multippel eller partiell regresjon representeres gjennom varianser og kovarianser.

Del først begge sider av normalligningen (2.46) med og multipliser dem ved å trekke dem fra henholdsvis venstre og venstre. riktige deler ligninger (2,47). Som et resultat får vi

Deretter multipliserer vi begge sider av normalligningen (2.46) med tidligere delt på og subtraherer dem fra henholdsvis venstre og høyre side av ligning (2.48). Som et resultat får vi

Vi kan representere begge likhetene som følger:

Ved å dele begge deler av likheter (2.53) og (2.54) med finner vi, tatt i betraktning definisjonene av varians og kovarians, uttrykkene for regresjonskoeffisientene:

Ved å bruke eksempeldataene fra avsnitt 2.4, supplerer vi dem med resultatene av observasjoner på den andre forklaringsvariabelen - gjennomsnittsalderen for arbeidere. Variabelen x brukt i eksemplet i avsnitt 2.4 vil nå bli betegnet med . I tabellen. 7 viser verdiene som variabelen tar og mellomresultater beregninger som kreves for å finne estimater av regresjonskoeffisientene.

Tabell 7. Gjennomsnittsalder for ansatte, gjennomsnittlig prosentandel av overholdelse av normen ved 14 virksomheter og mellomresultater som trengs for å finne estimater av regresjonsparametere (se skanning)

Variabelt gjennomsnitt

Bruke mellomresultatene fra tabellen. 3 og 7, ved å bruke formlene (2.51) og (2.52) beregner vi regresjonskoeffisientene:

Regresjonskonstanten oppnås med formelen (2.49):

Så, i samsvar med regresjonsfunksjonsformelen (2.43), kan regresjonsligningen skrives som

Hvis vi vurderer produktivitetens avhengighet av både arbeidsmekaniseringsnivået og arbeidstakernes gjennomsnittsalder, vil arbeidsproduktiviteten i gjennomsnitt endres med , forutsatt at arbeidsmekaniseringsnivået endres med én prosent, ekskludert påvirkningen av gjennomsnittet alder på arbeidere. Hvis vi ekskluderer påvirkningen av nivået på mekanisering av arbeidet, vil arbeidsproduktiviteten i gjennomsnitt endres med en endring i gjennomsnittsalderen for arbeidere med ett år.

Sammenlignet med regresjonskoeffisienten i ligningen med én forklaringsvariabel, sank den partielle regresjonskoeffisienten noe. Dette er fordi variabelen korrelerer med det vi vil se med den kvantitative indikatoren. Av denne grunn påvirker variabelen variabelen y som styrken av avhengigheten til y svekkes gjennom. Tilstedeværelsen av avhengighet blant forklaringsvariablene bryter med en av grunnantakelsene i den lineære modellen for regresjonsanalyse, som medfører spesielle problemer. Vi vil diskutere disse spørsmålene mer detaljert i kapittel 9.

Ved å erstatte verdiene til variablene suksessivt i den resulterende ligningen, finner vi de beregnede verdiene for regresjonen. Ved å trekke dem fra de observerte verdiene til variabelen y, får vi resten:

Ut fra størrelsen på disse residualene kan man trekke en konklusjon som ligner på konklusjonen gjort i avsnitt 2.4 for enkel lineær regresjon.

Ved å sammenligne formler (2.51) og (2.52) med (2.22) og (2.23), samt beregningsprosedyrer, ser vi at inkludering av nye forklaringsvariabler i regresjonen kompliserer de analytiske uttrykkene til formlene, og med det beregningene. Generalisering av en multippel regresjonsmodell til forklarende variabler krever bruk av matrisenotasjon og kunnskap om matrisealgebrateknikker. I tillegg er dette nødvendig for kompaktheten til presentasjonen og bruken av noen standard beregningsprosedyrer, som i stor grad letter og fremskynder analysen av de observerte verdiene til argumentene;
b- vektor - dimensjonskolonne [ (k+1) x 1] ukjente parametere (regresjonskoeffisienter) for modellen som skal estimeres;
e- tilfeldig vektor - dimensjonskolonne (n x 1) observasjonsfeil (rester).

Oppgaver med regresjonsanalyse
Hovedoppgaven til regresjonsanalyse er å finne utvalgsstørrelsen n estimater av ukjente regresjonskoeffisienter b 0 , b 1 ,..., b k. Oppgavene til regresjonsanalyse er å bruke tilgjengelige statistiske data for variablene X i og Y:

  • få beste estimater av ukjente parametere b 0 , b 1 ,..., b k;
  • bekrefte statistiske hypoteser om modellparametere;
  • sjekk om modellen stemmer godt nok med de statistiske dataene (modellens tilstrekkelighet til observasjonsdataene).

Å bygge flere regresjonsmodeller består av følgende trinn:

  1. valg av koblingsform (regresjonsligninger);
  2. bestemmelse av parametrene til den valgte ligningen;
  3. analyse av kvaliteten på ligningen og verifisering av ligningens tilstrekkelighet til empiriske data, forbedring av ligningen.
  • Multippel regresjon med én variabel
  • Multippel regresjon med tre variabler

Instruksjon. Spesifiser mengden data (antall rader), antall variabler x, klikk på Neste.

Antall faktorer (x) 1 2 3 4 5 6 7 8 9 10 Antall linjer
.");">

Et eksempel på en løsning for å finne en multippel regresjonsmodell

Multippel regresjon med to variabler

Multippel regresjonsmodell av formen Y \u003d b 0 + b 1 X 1 + b 2 X 2;
1) Du kan finne de ukjente b 0, b 1, b 2, vi løser et system med tre-lineære ligninger med tre ukjente b 0, b 1, b 2:

For å løse systemet kan du bruke
2) Eller bruke formler


For å gjøre dette bygger vi en tabell med skjemaet:

Y x 1 x2 (å-å gjennomsnitt) 2 (x 1 -x 1sr) 2 (x 2 -x 2sr) 2 (å-å sr)(x 1 -x 1sr) (å-å sr)(x 2 -x 2sr) (x 1 -x 1sr)(x 2 -x 2sr)

Prøvevariansene til empiriske multiple regresjonskoeffisienter kan bestemmes som følger:

Her er z" jj det j-te diagonale elementet i matrisen Z -1 =(X T X) -1 .

Hvori:

hvor m er antall forklaringsvariabler i modellen.
Spesielt for den multiple regresjonsligningen Y = b 0 + b 1 X 1 + b 2 X 2 med to forklarende variabler, brukes følgende formler:


Eller

eller
,,.
Her r 12 - prøvekorrelasjonskoeffisient mellom forklaringsvariablene X 1 og X 2 ; Sbj- standard feil regresjonskoeffisient; S er standardfeilen for multippel regresjon (ubiased estimat).
I analogi med parregresjon etter å ha bestemt punktestimatene b j for koeffisientene β j (j=1,2,...,m) teoretisk ligning multippel regresjon kan beregnes intervallanslag angitte koeffisienter.

Konfidensintervalldekning med pålitelighet (1-α ) ukjent verdi parameter β j er definert som

Multippel regresjon i Excel

For å finne flere regresjonsparametere ved hjelp av Excel, funksjonen LINEST(Y;X;0;1) brukes,
hvor Y er en matrise for Y-verdier
hvor X er en matrise for X-verdier (spesifisert som en enkelt matrise for alle X-verdier i)

Kontrollere den statistiske signifikansen til koeffisientene til den multiple regresjonsligningen

Som i tilfellet med multippel regresjon, testes den statistiske signifikansen til koeffisientene for multippel regresjon med m forklarende variabler basert på t-statistikken:

har i dette tilfellet Students fordeling med antall frihetsgrader v = n-m-1. På det nødvendige signifikansnivået sammenlignes den observerte verdien av t-statistikken med den kritiske eksakte Students fordeling.
Hvis , så bekreftes den statistiske signifikansen til den tilsvarende multiple regresjonskoeffisienten. Dette betyr at faktoren Xj er lineært relatert til den avhengige variabelen Y. Dersom det fastslås at koeffisienten b j er ubetydelig, så anbefales det å ekskludere variabelen Xj fra ligningen. Dette vil ikke føre til et betydelig tap i kvaliteten på modellen, men vil gjøre den mer spesifikk.

For dette formål, som i tilfellet med multippel regresjon, brukes bestemmelseskoeffisienten R 2:

Forholdet er 0<=R2<=1. Чем ближе этот коэффициент к единице, тем mer ligning multippel regresjon forklarer oppførselen til Y.
Til multippel regresjon bestemmelseskoeffisienten er en ikke-avtagende funksjon av antall forklaringsvariabler. Tilføyelse av en ny forklaringsvariabel reduserer aldri verdien av R 2 , siden hver påfølgende variabel bare kan legge til, men ikke redusere, informasjonen som forklarer oppførselen til den avhengige variabelen.

Forholdet kan representeres i følgende skjema:

for m>1. Som verdien av m


Indikatorene F og R2 er lik eller ikke lik null på samme tid. Hvis F=0, så er R 2 =0, derfor er verdien av Y lineært uavhengig av X1,X2,...,Xm.. Den beregnede verdien av F sammenlignes med den kritiske Fcr. Fcr, basert på nødvendig signifikansnivå α og tallene for frihetsgrader v1 = m og v2 = n - m - 1, bestemmes basert på Fisher-fordelingen. Hvis F>Fcr, så er R 2 statistisk signifikant.

Kontrollerer gjennomførbarheten av forutsetningene for OLS multippel regresjon. Durbin-Watson-statistikk for multippel regresjon

Den statistiske signifikansen til de multiple regresjonskoeffisientene og verdien av bestemmelseskoeffisienten R 2 nær én garanterer ikke den høye kvaliteten på den multiple regresjonsligningen. Derfor er det neste trinnet i å sjekke kvaliteten på den multiple regresjonsligningen å sjekke gjennomførbarheten til LSM-forutsetningene. Årsakene til og konsekvensene av umuligheten av disse forutsetningene, metoder for å korrigere regresjonsmodeller vil bli vurdert i påfølgende kapitler. I denne delen vil vi vurdere det populære regresjonsanalyse Durbin-Watson statistikk.
Statistisk analyse regresjonsligninger på det første stadiet ofte sjekker de gjennomførbarheten av ett premiss: betingelsene for statistisk uavhengighet av avvik fra hverandre.

I dette tilfellet kontrolleres ukorrelasjonen til nabomengder e i,i=1,2,…n..
For å analysere korrelasjonen av avvik brukes Durbin-Watson-statistikk:

Kritiske verdier d1 og d2 fastsettes på grunnlag av spesielle tabeller for nødvendig signifikansnivå α , antall observasjoner n og antall forklaringsvariabler m.

Partielle korrelasjonskoeffisienter i multippel regresjon

Partielle korrelasjonskoeffisienter (eller indekser) som måler virkningen på y av faktoren x i med nivået av andre faktorer uendret, bestemmes av standardformelen lineær koeffisient korrelasjoner, dvs. parene yx 1 , yx 2 ,... , x 1 x 2 , x 1 x 3 og så videre tas sekvensielt og for hvert par blir korrelasjonskoeffisienten funnet
Beregninger i MS Excel. En matrise med parvise korrelasjonskoeffisienter for variabler kan beregnes ved hjelp av analyseverktøyet for korrelasjonsdata. For dette:
1) Kjør kommando Tjeneste / Dataanalyse / Korrelasjon.
2) Spesifiser dataområdet;

Kontrollere den generelle kvaliteten til en multippel regresjonsligning

For dette formål, som i tilfellet med multippel regresjon, brukes bestemmelseskoeffisienten R2:

Greit forhold 0 < =R 2 < = 1 . Jo nærmere denne koeffisienten er én, jo mer forklarer den multiple regresjonsligningen oppførselen Y.
Til multippel regresjon bestemmelseskoeffisienten er en ikke-avtagende funksjon av antall forklaringsvariabler. Å legge til en ny forklarende variabel reduserer aldri verdien R2, siden hver påfølgende variabel bare kan supplere, men på ingen måte redusere informasjonen som forklarer oppførselen til den avhengige variabelen.
Noen ganger, når man beregner bestemmelseskoeffisienten for å oppnå objektive estimater i telleren og nevneren for brøken trukket fra enhet, blir det gjort en korreksjon for antall frihetsgrader, dvs. den såkalte justerte (korrigerte) bestemmelseskoeffisienten introduseres:

Forholdet kan representeres som følger:

for m>1. Som verdien av m justert bestemmelseskoeffisient vokser langsommere enn vanlig Det er åpenbart at bare når R 2 = 1. kan ta negative verdier.
Det er bevist at øker med tillegg av en ny forklaringsvariabel hvis og bare hvis modulo t-statistikken for denne variabelen er større enn én. Derfor gjennomføres tilføyelsen av nye forklaringsvariabler til modellen så lenge den justerte bestemmelseskoeffisienten vokser.
Det anbefales, etter å ha kontrollert den generelle kvaliteten på regresjonsligningen, å analysere dens statistiske signifikans. For dette brukes F-statistikken:
Indikatorer F og R2 lik eller ikke lik null på samme tid. Hvis en F=0, deretter R 2 \u003d 0, derfor verdien Y lineært uavhengig av X 1 , X 2 , ..., X m.Beregnet verdi F sammenlignet med kritiske Fcr. Fcr, basert på nødvendig grad av betydning α og antall frihetsgrader v 1 = m og v 2 \u003d n - m - 1, bestemmes basert på Fisher-fordelingen. Hvis en F > Fcr, deretter R2 Statistisk signifikant.

Formål: å lære å bestemme parametrene til ligningen av multippel lineær regresjon ved minste kvadraters metode og analysere den konstruerte ligningen.

Retningslinjer

Alt i dette kapittelet er viktig. Før du studerer, er det nødvendig å gjennomgå følgende materiale fra matriseanalyse: matrisemultiplikasjon, invers matrise, løsning av et system av lineære ligninger ved metoden invers matrise. I dette kapittelet er alt relatert til parvis lineær regresjon generalisert til den multippel lineære modellen. Det første kapittelet viser funksjonene til programmet Microsoft office Excel som lar deg utføre operasjoner med matriser. Merk at, sammenlignet med forrige kapittel, er fraværet av multikollinearitet (sterk lineær sammenheng) av disse variablene viktig for å bestemme den sosioøkonomiske betydningen av koeffisientene for forklarende variabler. Husk at formelen for beregning av koeffisientene til ligningen også følger av anvendelsen av minste kvadraters metode. Du bør studere eksempelet nedenfor. Vær oppmerksom på forholdet mellom modellen i originalen og i de standardiserte variablene.

§ 1. Fastsettelse av parametrene til regresjonsligningen

For enhver økonomisk indikator Oftest påvirker ikke én, men flere faktorer. I dette tilfellet, i stedet for sammenkoblet reg-

M(Y x) = f(x) ansett multippel regresjon:

x1 ,x2 ,...,xm ) = f(x1 ,x2 ,...,xm ) .

Oppgaven med å vurdere den statistiske sammenhengen

variabler

Y og X = (X1, X2, ..., Xm) er formulert på lignende måte

anledningen til par

noah regresjon. Multippel regresjonsligning kan representeres som:

Y = f(β ,X) + ε ,

hvor Y ogX = (X 1 , X 2 , ..., X m ) - vektor av uavhengige (forklarende) variabler; β= (β 0 , β 1 , β 2 ,..., β m ) - vektor av parametere

(å være bestemt); ε- tilfeldig feil(avvik), Y - avhengig (forklart) variabel. Det antas at for dette befolkning det er funksjonen f som forbinder den undersøkte variabelen Y med vektoren til uavhengige variabler

Y og X= (X1, X2, ..., Xm).

Tenk på den mest brukte og enkleste av de multiple regresjonsmodellene - den multiple lineære regresjonsmodellen.

Den teoretiske lineære regresjonsligningen har formen:

Her er β= (β 0 , β 1 , β 2 ,..., β m ) en vektor med dimensjon (m +1) av ukjente parametere. β j , j = (1, 2, ..., m ) kalles j - m teoretisk

skim regresjonskoeffisient (partiell regresjonskoeffisient). Det karakteriserer følsomheten til Y for en endring i X j . Med andre ord reflekterer det innvirkningen på den betingede matematikken

logisk forventning M (Y x 1 ,x 2 ,...,x m ) til den avhengige variabelen Y forklarer

variabel X j forutsatt at alle andre forklarende modellvariabler forbli konstant, β 0 er et fritt ledd,

som bestemmer verdien av Y i tilfellet når alle forklaringsvariabler X j er lik null.

Etter valg lineær funksjon som en avhengighetsmodell er det nødvendig å estimere regresjonsparametrene.

La det være n observasjoner av vektoren til forklaringsvariablene X = (X 1 , X 2 , ...,X m ) og den avhengige variabelen Y :

(xi 1, xi 2, ..., xim, yi), i= 1,2, ..., n.

For å unikt løse problemet med å finne parametrene β 0 , β 1 , β 2 ,..., β m , ulikheten

n ≥ m + 1. Hvis n = m + 1, så er estimatene av koeffisientene til vektoren β

beregnet på en unik måte.

Hvis antallet observasjoner er større enn minimumskravet: n > m + 1, er det behov for optimalisering, estimering

parametere β 0 , β 1 , β 2 ,..., β m , som formelen gir best for

tilnærming for tilgjengelige observasjoner.

I dette tilfellet kalles tallet ν= n − m − 1 antall frihetsgrader. Den vanligste metoden for å estimere parametrene til en multippel lineær regresjonsligning er minste kvadrat-metoden(MNK). Husk at essensen er å minimere summen av kvadrerte avvik av de observerte verdiene

avhengig variabel Y på dens Y-verdier oppnådd av regresjonsligningen.

Legg merke til at forutsetningene for minste kvadrater som er satt tidligere tillater oss å analysere innenfor rammen av den klassiske lineære regresjonsmodellen.

Som i tilfellet med parvis regresjon, sanne verdier parametere β j kan ikke hentes fra prøven. I dette tilfellet, i stedet for

teoretisk regresjonsligning (3.3) estimeres ved den såkalte

gitt empirisk regresjonsligning:

Y = b0 + b1 X1 + b2 X2 + ...+ bm Xm + e.

b 0 , b 1 , ..., b m - estimater av teoretisk

verdier

β 0 , β 1 , ..., β m

regresjonskoeffisienter (empiriske koeffisienter

regresjon enter, e - tilfeldig avviksestimat ε ). For individuelle observasjoner har vi:

yi = b0 + b1 xi 1 + b2 xi 2 + ...+ bm xim + ei ,(i= 1 ,2 , ..., n) (3.6)

Den estimerte ligningen skal først og fremst beskrive den generelle trenden (retningen) av endringen i den avhengige variabelen Y . I dette tilfellet er det nødvendig å kunne beregne avvik fra den angitte trenden.

I følge volumprøven n:(xi 1 , xi 2 , ..., xim , yi ) , i= 1 ,2 , ..., n

det er nødvendig å estimere verdiene til parametrene β j til vektoren β , dvs. å parametrisere den valgte modellen (her x ij , j = 1, 2, ..., m

verdien av variabelen X j i den i-te observasjonen).

Når LSM-forutsetningene er oppfylt med hensyn til tilfeldige avvik ε i, estimerer b 0 , b 1 , ..., b m av parametere β 0 , β 1 , ..., β m

Minste kvadraters lineære regresjoner er objektive, effektive og konsistente.

Basert på (3.6), avviket e i av verdien av y i av den avhengige variabelen fra modellverdien ˆy i , tilsvarende ligningen regresjon og i-observasjon i = 1, 2, ..., n , beregnes med formelen:

ei = yi − ˆyi = yi − b0 − b1 xi 1 − b2 xi 2 − ...− bm xim . (3.7)

§ 2. Beregning av koeffisienter for multippel lineær regresjon

Vi presenterer observasjonsdataene og de tilsvarende koeffisientene i matriseform.

xn 1

xn 2

x1 m

x2 m

Her er Y en n-dimensjonal kolonnevektor av observasjoner av den avhengige variabelen Y ;X er en n × (m + 1) matrise der den i-te raden i = 1, 2, ..., n representerer i- observasjon av vektoren av verdier til de uavhengige variablene X 1 , X 2 , ..., X m , en tilsvarer en variabel med et fritt medlem b 0 ;

(m + 1) parametere for regresjonsligningen (3.5);

regresjonsligning:

i=1

hvor e T \u003d (e 1, e 2, ..., e n), dvs. den hevete T betyr trans-

gjengitt matrise.

Det kan vises at betingelse (3.10) er oppfylt hvis kolonnevektoren til koeffisientene B er funnet ved formelen:

B = (XTX) − 1XTY.

Her er X T matrisen transponert til matrisen X ,

(X T X ) − 1 er matrisen invers til (X T X ) . Relasjon (3.11)

gyldig for regresjonsligninger med et vilkårlig antall m forklaringsvariabler.

Eksempel 3.1. La tilbudsvolumet av en viss vare Y til bedriften lineært avhenge av prisen X 1 og lønn X 2 til ansatte som produserer denne varen (tabell 3.1). La oss bestemme koeffisientene til den lineære regresjonsligningen. (Dette forutsetter kunnskap om matrisealgebra).

Tabell 3.1

Data for multippel lineær regresjon

Matrisene ser slik ut:

X T X= 318

7, 310816

− 0, 10049

− 0, 53537

−1

0, 001593

, (XTX)

= − 0, 10049

− 0, 006644,

− 0, 53537

− 0, 006644

0, 043213

X T Y = 23818,