Biografier Kjennetegn Analyse

Eksempel på multippel regresjon. Introduksjon til multippel regresjon

Materialet vil bli illustrert med et gjennomgående eksempel: salgsprognoser for OmniPower. Tenk deg at du er markedssjef for en stor nasjonal dagligvarekjede. PÅ i fjor Næringsstenger som inneholder et stort nummer av fett, karbohydrater og kalorier. De lar deg raskt gjenopprette energireservene brukt av løpere, klatrere og andre idrettsutøvere i utmattende treningsøkter og konkurranser. De siste årene har salget av matbarer eksplodert, og ledelsen til OmniPower har kommet til at dette markedssegmentet er svært lovende. Før selskapet introduserer en ny type bar på det nasjonale markedet, ønsker selskapet å evaluere effekten av kostnadene og reklamekostnadene på salget. 34 butikker ble valgt ut for markedsundersøkelser. Du må lage en regresjonsmodell som lar deg analysere data innhentet under studien. Er det mulig å bruke den enkle lineære regresjonsmodellen diskutert i forrige notat for dette? Hvordan bør det endres?

Multippel regresjonsmodell

For markedsundersøkelser laget OmniPower et utvalg av 34 butikker med omtrent samme salgsvolum. Vurder to uavhengige variabler - prisen på en OmniPower-bar i cent ( X 1) og månedlig budsjett reklamekampanje holdt i butikken, uttrykt i dollar ( X 2). Dette budsjettet inkluderer utgifter til skilting og butikkvinduer, samt utdeling av kuponger og gratis vareprøver. Avhengig variabel Y representerer antall solgte OmniPower-stenger per måned (figur 1).

Ris. 1. Månedlig salgsvolum av OmniPower-barer, deres pris og annonseringskostnader

Last ned notat i eller format, eksempler i format

Tolkning av regresjonskoeffisienter. Hvis et problem er å undersøke flere forklaringsvariabler, kan den enkle lineære regresjonsmodellen utvides ved å anta at det er et gap mellom responsen og hver av forklaringsvariablene. lineær avhengighet. For eksempel hvis det er k forklarende variabler, har den multiple lineære regresjonsmodellen formen:

(1) Y i = β 0 + β 1 X 1i + β 2 X 2i + … + β k X ki + ε i

hvor β 0 - skift, β 1 - rett linje skråning Y, avhengig av variabelen X 1 hvis variablene X 2 , X 3 , … , X k er konstanter β 2 - rett linje skråning Y, avhengig av variabelen X 2 hvis variablene X 1, X 3, …, X k er konstanter β k- rett linje skråning Y, avhengig av variabelen X k hvis variablene X1, X2, …, X k-1 er konstanter ε Jeg Y i Jeg m observasjon.

Nærmere bestemt en multippel regresjonsmodell med to forklarende variabler:

(2) Y i = β 0 + β 1 X 1 Jeg + β 2 X 2 Jeg + ε i

hvor β 0 - skift, β 1 - rett linje skråning Y, avhengig av variabelen X 1 hvis variabelen X 2 er en konstant, β 2 - rett linje skråning Y, avhengig av variabelen X 2 hvis variabelen X 1 er en konstant, ε Jeg- tilfeldig variabel feil Y i Jeg m observasjon.

La oss sammenligne denne multiple lineære regresjonsmodellen og en enkel lineær regresjonsmodell: Y i = β 0 + β 1 X i + ε i. I en enkel lineær regresjonsmodell er helningen β 1 Y når verdien av variabelen X endres med én og ikke tar hensyn til påvirkning av andre faktorer. I en multippel regresjonsmodell med to uavhengige variabler (2), er helningen β 1 representerer endringen i middelverdien til variabelen Y når du endrer verdien til en variabel x1 per enhet, tatt i betraktning påvirkningen av variabelen X 2. Denne verdien kalles koeffisienten for ren regresjon (eller delvis regresjon).

Som i en enkel lineær regresjonsmodell er utvalgets regresjonskoeffisienter b 0 , b 1 , og b 2 er estimater av parametrene til den tilsvarende generelle befolkningen β 0 , β 1 og β 2 .

Multippel regresjonsligning med to uavhengige variabler:

(3) = b 0 + b 1 X 1 Jeg + b 2 X 2 Jeg

For å beregne regresjonskoeffisientene brukes metoden minste kvadrater. I Excel kan du bruke Analysepakke, alternativ Regresjon. I motsetning til å bygge en lineær regresjon, sett bare som Inndataintervall X område inkludert alle uavhengige variabler (fig. 2). I vårt eksempel er dette $C$1:$D$35.

Ris. 2. Batch-regresjonsvindu Excel-analyse

Resultatene av analysepakken er vist i fig. 3. Som vi ser, b 0 = 5 837,52, b 1 = -53,217 og b 2 = 3,163. Følgelig = 5 837,52 –53,217 X 1 Jeg + 3,163 X 2 Jeg, hvor Ŷ Jeg- spådd salg av OmniPower ernæringsbarer i Jeg-m butikk (stykker), X 1Jeg- barpris (i cent) i Jeg-m butikk, X 2i- månedlige annonseutgifter Jeg butikk (i dollar).

Ris. 3. Multippel regresjonsstudie av OmniPower bar salgsvolum

Selektiv helning b 0 er 5 837,52 og er et estimat på gjennomsnittlig antall OmniPower Bars solgt per måned til null pris og ingen annonseringskostnader. Siden disse forholdene er meningsløse, i denne situasjonen verdien av skråningen b 0 har ingen fornuftig tolkning.

Selektiv helning b 1 er -53.217. Dette betyr at for en gitt månedlig mengde annonseringskostnader, vil en økning på én cent i prisen på en bar resultere i en nedgang i forventet salg med 53 217 enheter. Tilsvarende prøvetakingshellingen b 2 , lik 3,613, betyr at når fast pris en økning på 1 USD i månedlige annonseringskostnader er ledsaget av en økning i forventet barsalg på 3 613. Disse estimatene gir en bedre forståelse av effekten av pris og annonsering på salget. For eksempel, med et fast beløp på annonseringsutgifter, vil en 10-centreduksjon i prisen på en bar øke salget med 532 173 enheter, og med en fast pris på en bar vil en økning på 100 USD i annonseringskostnadene øke salget med 361,31 enheter .

Tolkning av skråninger i en multippel regresjonsmodell. Koeffisientene i en multippel regresjonsmodell kalles rene regresjonskoeffisienter. De anslår gjennomsnittlig endring i respons Y når du endrer verdien X per enhet dersom alle andre forklaringsvariabler er "frosset". For eksempel, i OmniPower-barproblemet, vil en butikk med et fast beløp for annonseringsforbruk per måned selge 53 217 færre barer hvis de øker prisen med én cent. En annen tolkning av disse koeffisientene er mulig. Se for deg de samme butikkene med samme mengde annonseringsforbruk. Hvis prisen på en bar synker med én cent, vil salget i disse butikkene øke med 53 217 barer. Tenk nå på to butikker hvor barene koster det samme, men annonsekostnadene er forskjellige. Dersom disse kostnadene øker med én dollar, vil salgsvolumet i disse butikkene øke med 3.613 enheter. Som vi kan se, er en rimelig tolkning av bakkene bare mulig under visse begrensninger pålagt forklaringsvariablene.

Forutsi verdiene til den avhengige variabelen Y. Når vi finner ut at de akkumulerte dataene tillater oss å bruke en multippel regresjonsmodell, kan vi forutsi det månedlige salget av OmniPower Bars og bygge konfidensintervaller for gjennomsnittlig og forventet salg. For å forutsi det gjennomsnittlige månedlige salget på 79 cent OmniPower Bars i en butikk som bruker $400 per måned på annonsering, bruk ligningen med multiple regresjon: Y = 5,837,53 – 53,2173*79 + 3,6131*400 = 3,079. Derfor er forventet salgsvolum for butikkene. å selge OmniPower-barer til 79 cent og bruke $400 per måned på reklame er 3079.

Beregner verdien Y og ved å evaluere residualene kan man konstruere konfidensintervaller som inneholder forventet verdi og den anslåtte responsverdien. vi vurderte denne prosedyren innenfor rammen av en enkel lineær regresjonsmodell. Konstruksjonen av lignende estimater for multippel regresjonsmodellen er imidlertid forbundet med store beregningsvansker og presenteres ikke her.

Multippel blandet korrelasjonskoeffisient. Husk at regresjonsmodellen lar deg beregne koeffisienten for blandet korrelasjon r2. Fordi det er minst to forklaringsvariabler i en multippel regresjonsmodell, er den multiple blandede korrelasjonskoeffisienten brøkdelen av variabelens varians Y, forklart av et gitt sett med forklarende variabler:

hvor SSR er summen av kvadrater av regresjonen, SSTtotale mengden firkanter.

For eksempel i problemet med å selge en OmniPower-bar SSR = 39 472 731, SST= 52 093 677 og k = 2. Dermed

Dette betyr at 75,8 % av variasjonen i salgsvolum skyldes prisendringer og svingninger i annonsekostnadene.

Residualanalyse for en multippel regresjonsmodell

Residualanalyse lar deg bestemme om en multippel regresjonsmodell med to (eller flere) forklaringsvariabler kan brukes. Vanligvis utført følgende typer restanalyse:

Den første grafen (fig. 4a) lar oss analysere fordelingen av residualer avhengig av de predikerte verdiene til . Hvis verdien av residualene ikke avhenger av de predikerte verdiene og tar både positive og negative verdier(som i vårt eksempel), betingelsen for den lineære avhengigheten til variabelen Y på begge forklaringsvariablene er tilfredsstilt. Dessverre, i Analysepakke Av en eller annen grunn blir ikke denne grafen opprettet. Kan være i vinduet Regresjon(se fig. 2) slå på Rester. Dette vil tillate deg å vise en tabell med restene, og allerede bygge på den spredningsplott(Fig. 4).

Ris. 4. Avhengighet av residualer på den predikerte verdien

Den andre og tredje grafen viser avhengigheten av residualene av forklaringsvariablene. Disse plottene kan avsløre en kvadratisk effekt. I denne situasjonen er det nødvendig å legge til en kvadratisk forklaringsvariabel til multippel regresjonsmodellen. Disse plottene vises av analysepakken (se fig. 2) hvis du aktiverer alternativet Residual Graph (fig. 5).

Ris. 5. Avhengighet av restprodukter av pris og annonseringskostnader

Testing av betydningen av en multippel regresjonsmodell.

Etter å ha bekreftet, ved bruk av restanalyse, at den lineære multippel regresjonsmodellen er tilstrekkelig, kan det fastslås om det er en statistisk signifikant sammenheng mellom den avhengige variabelen og settet med forklarende variabler. Siden modellen inkluderer flere forklaringsvariabler, formuleres null- og alternativhypotesene som følger: H 0: β 1 = β 2 = ... = β k = 0 (det er ingen lineær sammenheng mellom responsen og forklaringsvariablene), H 1: det er minst én verdi β j ≠ 0 (det er en lineær avhengighet mellom responsen og minst én forklaringsvariabel).

For å teste nullhypotesen bruker vi F-kriterium - test F-statistikk er lik regresjonsmiddelkvadrat (MSR) delt på feilvarians (MSE):

hvor F F- distribusjon med k og n–k–1 grader av frihet k- antall uavhengige variabler i regresjonsmodellen.

Beslutningsregelen ser slik ut: ved et signifikansnivå på α, nullhypotesen H 0 avvist hvis F > F U(k,n – k – 1), ellers forkastes ikke hypotesen H 0 (fig. 6).

Ris. 6. Sammendragstabell for variansanalyse for å teste hypotesen om Statistisk signifikant flere regresjonskoeffisienter

ANOVA sammendragstabell fullført ved hjelp av Analysepakke Excel når du løser problemet med å selge OmniPower-stenger er vist i fig. 3 (se område A10:F14). Hvis signifikansnivået er 0,05, er den kritiske verdien F-fordelinger med to og 31 frihetsgrader FU(2,31)\u003d F. OBR (1-0,05; 2; 31) \u003d lik 3,305 (fig. 7).

Ris. 7. Teste hypotesen om signifikansen av regresjonskoeffisientene på signifikansnivået α = 0,05, med 2 og 31 frihetsgrader

Som vist i fig. 3, F-statistikk er 48.477 > FU(2,31)= 3,305, og s-verdi nær 0.000< 0,05. Следовательно, нулевая гипотеза Н 0 отклоняется, и объем продаж линейно связан хотя бы с одной из объясняющих переменных (ценой и/или затратами на рекламу).

Statistiske slutninger om populasjonen av regresjonskoeffisienter

Å identifisere en statistisk signifikant sammenheng mellom variabler X og Y i en enkel lineær regresjonsmodell ble det utført en helningshypotesetest. I tillegg, for å anslå helningen til befolkningen generelt, bygde vi konfidensintervall(cm. ).

Hypotesetesting. For å teste hypotesen om at helningen til populasjonen β 1 i en enkel lineær regresjonsmodell er null, brukes formelen t = (b 1 – β 1)/S b 1. Den kan utvides til en multippel regresjonsmodell:

hvor t er en teststatistikk som har t- distribusjon med n–k–1 grader av frihet bj- helningen til variabelen Xj med hensyn til variabel Y hvis alle andre forklaringsvariabler er konstanter, Sbj er rotmiddelkvadratfeilen til regresjonskoeffisienten bj, k- antall forklaringsvariabler i regresjonsligningen, β j - den hypotetiske helningen til populasjonen av svar j-th med hensyn til en variabel når alle andre variabler er faste.

På fig. 3 (nederste tabell) viser resultatene av søknaden t-kriterier (oppnådd ved hjelp av Analysepakke) for hver av de uavhengige variablene inkludert i regresjonsmodellen. Således, hvis det er nødvendig å avgjøre om en variabel har X 2(annonseringskostnader) en betydelig innvirkning på salg til en fast pris på en OmniPower-bar, er null- og alternativhypotesene formulert: H 0: β2 = 0, H 1: β2 ≠ 0. I samsvar med formel (6) får vi :

Hvis signifikansnivået er 0,05, er de kritiske verdiene t-fordelinger med 31 frihetsgrader er t L = STUDENT.OBR(0,025;31) = –2,0395 og t U = STUDENT.OBR(0,975;31) = 2,0395 (fig. 8). R-verdi =1-STUDENT.FORDELING(5,27;31;TRUE) og er nær 0,0000. Basert på en av ulikhetene t= 5,27 > 2,0395 eller R = 0,0000 < 0,05 нулевая гипотеза H 0 blir avvist. Derfor, til en fast pris på en bar mellom variabelen X 2(annonsekostnader) og salgsvolum, er det en statistisk signifikant sammenheng. Dermed er det en ekstremt liten sjanse for å avvise nullhypotesen dersom det ikke er noen lineær sammenheng mellom annonsekostnader og salgsvolum.

Ris. 8. Teste hypotesen om signifikansen til regresjonskoeffisienten ved et signifikansnivå på α = 0,05, med 31 frihetsgrader

Å teste betydningen av spesifikke regresjonskoeffisienter er faktisk å teste hypotesen om betydningen av en bestemt variabel inkludert i regresjonsmodellen sammen med andre. Følgelig t-kriterium for å teste hypotesen om regresjonskoeffisientens signifikans tilsvarer å teste hypotesen om påvirkningen av hver av forklaringsvariablene.

Konfidensintervaller. I stedet for å teste hypotesen om helningen til befolkningen, kan du anslå verdien av denne helningen. I en multippel regresjonsmodell brukes følgende formel for å bygge et konfidensintervall:

(7) bj ± t nk –1 Sbj

Vi bruker denne formelen til å konstruere et 95 % konfidensintervall som inneholder helningen til populasjonen β 1 (effekten av pris x1 på salgsvolum Y med et fast beløp for annonseringskostnader X 2). I henhold til formel (7) får vi: b 1 ± t nk –1 Sb 1 . Fordi det b 1 = –53,2173 (se fig. 3), Sb 1 = 6,8522, kritisk verdi t-statistikk på 95 % selvtillitsnivå og 31 frihetsgrader t nk –1 \u003d STUDENT.OBR (0.975; 31) \u003d 2.0395, får vi:

–53,2173 ± 2,0395*6,8522

–53,2173 ± 13,9752

–67.1925 ≤ β 1 ≤ –39.2421

Når man tar i betraktning effekten av annonsekostnadene, kan det derfor hevdes at med en økning i prisen på en bar med én cent, reduseres salgsvolumet med et beløp som varierer fra 39,2 til 67,2 enheter. Det er 95 % sjanse for at dette intervallet estimerer forholdet mellom de to variablene riktig. Siden dette konfidensintervallet ikke inneholder null, kan det hevdes at regresjonskoeffisienten β 1 har en statistisk signifikant effekt på salget.

Vurdere betydningen av forklaringsvariabler i en multippel regresjonsmodell

En multippel regresjonsmodell bør bare inkludere de forklarende variablene som nøyaktig forutsier verdien av den avhengige variabelen. Dersom noen av forklaringsvariablene ikke oppfyller dette kravet, må den fjernes fra modellen. Som en alternativ metode for å estimere bidraget til forklaringsvariabelen, som regel en privat F-kriterium. Den består i å vurdere endringen i kvadratsummen av regresjonen etter inkludering av neste variabel i modellen. En ny variabel inkluderes i modellen bare når den fører til en betydelig økning i nøyaktigheten av prediksjonen.

For å bruke en delvis F-test på OmniPower barsalgsproblemet, er det nødvendig å evaluere bidraget til variabelen X 2(annonsekostnader) etter å ha inkludert variabelen i modellen x1(barpris). Hvis modellen inkluderer flere forklaringsvariabler, bidraget til forklaringsvariabelen Xj kan bestemmes ved å ekskludere den fra modellen og evaluere regresjonssummen av kvadrater (SSR) beregnet over de gjenværende variablene. Hvis modellen inkluderer to variabler, bestemmes bidraget til hver av dem av formlene:

Estimere bidraget til en variabel X 1 X 2:

(8a) SSR(X 1 |X 2) = SSR(X 1 og X 2) – SSR(X 2)

Estimere bidraget til en variabel X 2 forutsatt at variabelen er inkludert i modellen X 1:

(8b) SSR(X 2 |X 1) = SSR(X 1 og X 2) – SSR(X 1)

Mengder SSR(X2) og SSR(X 1) er henholdsvis kvadratsummene av regresjonen beregnet for kun én av de forklarte variablene (fig. 9).

Ris. 9. Koeffisientene til en enkel lineær regresjonsmodell, som tar hensyn til: (a) salgsvolumet og prisen på søylen - SSR(X 1); (b) salgsvolum og annonseringskostnader - SSR(X2)(hentet ved hjelp av Excel Analysis ToolPack)

Null- og alternative hypoteser om bidraget til en variabel X 1 er formulert som følger: H 0- aktiver variabel X 1 fører ikke til en signifikant økning i nøyaktigheten til modellen, som tar hensyn til variabelen X 2; H 1- aktiver variabel X 1 fører til en betydelig økning i nøyaktigheten til modellen, som tar hensyn til variabelen X 2. Statistikken som ligger til grunn for kvotienten F-kriterium for to variabler, beregnet med formelen:

hvor MSE er variansen av feilen (residual) for to faktorer samtidig. Per definisjon F-statistikk har F-fordeling fra en og n-k-1 grader av frihet.

Så, SSR(X2)= 14 915 814 (fig. 9), SSR(X 1 og X 2)= 39 472 731 (fig. 3, celle C12). Derfor, i henhold til formel (8a), får vi: SSR (X 1 | X 2) \u003d SSR (X 1 og X 2) - SSR (X 2) \u003d 39 472 731 - 14 915 814 = 24 556 917. Så for SSR(X 1 |X 2) = 24 556 917 og MSE (X 1 og X 2) = 407 127 (fig. 3, celle D13), ved bruk av formel (9), får vi: F= 24 556 917 / 407 127 = 60,32. Hvis signifikansnivået er 0,05, så er den kritiske verdien F-fordelinger med en og 31 frihetsgrader = F. OBR (0,95; 1; 31) = 4,16 (fig. 10).

Ris. 10. Teste hypotesen om betydningen av regresjonskoeffisienten på et signifikansnivå på 0,05, med én og 31 frihetsgrader

Siden den beregnede verdien F-statistikk mer enn kritisk (60,32 > 4,17), hypotese H 0 avvises, og tar derfor hensyn til variabelen X 1(priser) forbedrer en regresjonsmodell som allerede inkluderer variabelen X 2(annonsekostnader).

På samme måte kan man evaluere påvirkningen av variabelen X 2(annonseringskostnader) per modell som allerede inkluderer variabelen X 1(pris). Gjør beregningene selv. Beslutningsbetingelsen forårsaker 27,8 > 4,17, og derav inkluderingen av variabelen X 2 fører også til en betydelig økning i nøyaktigheten til modellen, som tar hensyn til variabelen X 1 . Så å inkludere hver av variablene forbedrer nøyaktigheten til modellen. Derfor må begge variablene inkluderes i multippel regresjonsmodellen: pris og annonseringskostnader.

Merkelig nok, verdien t-statistikk beregnet etter formel (6), og verdien av det private F-statistikk, gitt formel(9) er unikt sammenkoblet:

hvor en er antall frihetsgrader.

Dummy variable regresjonsmodeller og interaksjonseffekter

Når vi diskuterer flere regresjonsmodeller, har vi antatt at hver uavhengig variabel er et tall. Men i mange situasjoner er det nødvendig å inkludere kategoriske variabler i modellen. For eksempel, i OmniPower-barsalgsproblemet, ble pris og annonseringskostnader brukt til å forutsi gjennomsnittlig månedlig salg. I tillegg til disse numeriske variablene, kan du prøve å ta hensyn til i modellen plasseringen av varene inne i butikken (for eksempel i vinduet eller ikke). For å gjøre rede for kategoriske variabler i regresjonsmodellen, må dummyvariabler inkluderes i den. For eksempel, hvis en kategorisk forklarende variabel har to kategorier, er én dummy-variabel nok til å representere dem Xd: X d= 0 hvis observasjonen tilhører den første kategorien, X d= 1 hvis observasjonen tilhører den andre kategorien.

For å illustrere dummyvariablene, vurder en modell for å forutsi gjennomsnittlig takst på eiendom basert på et utvalg på 15 hus. Som forklarende variabler velger vi boligarealet til huset (tusen kvadratfot) og tilstedeværelsen av en peis (fig. 11). Dummy variabel X 2(tilstedeværelse av en peis) er definert som følger: X 2= 0 hvis det ikke er peis i huset, X 2= 1 hvis huset har peis.

Ris. 11. Estimert verdi spådd av boareal og tilstedeværelse av en peis

La oss anta at helningen på den beregnede verdien, avhengig av boligarealet, er den samme for hus med og uten peis. Da ser den multiple regresjonsmodellen slik ut:

Y i = β 0 + β 1 X 1i + β 2 X 2i + ε i

hvor Y i- taksert verdi Jeg-th hus, målt inn tusen dollar, β 0 - svarskifte, x1Jeg,- stue Jeg-go house, målt i tusen kvadratmeter. føtter, β 1 - hellingen til den estimerte verdien, avhengig av boligarealet til huset med en konstant verdi av dummyvariabelen, x1Jeg, er en dummy-variabel som indikerer tilstedeværelse eller fravær av en peis, β 1 - hellingen til den estimerte verdien, avhengig av boligarealet til huset med en konstant verdi av dummyvariabelen β 2 - effekten av å øke den estimerte verdien av huset, avhengig av tilstedeværelsen av en peis når konstant verdi stue, ε Jeg– en tilfeldig feil i den estimerte verdien Jeg huset. Resultatene av beregning av regresjonsmodellen er vist i fig. 12.

Ris. 12. Resultater av beregning av regresjonsmodellen for estimert verdi av hus; oppnådd med Analysepakke i Excel; en tabell tilsvarende fig. 1 ble brukt for beregningen. 11, med den eneste endringen: "Ja" erstattes med enere og "Nei" med nuller

I denne modellen tolkes regresjonskoeffisientene som følger:

  1. Hvis dummyvariabelen er konstant, øker boarealet per 1000 kvm. fot resulterer i en økning på $16,2k i den anslåtte gjennomsnittlige takserte verdien.
  2. Hvis boarealet er konstant, øker det å ha en peis den gjennomsnittlige boligverdien med $3 900.

Vær oppmerksom (fig. 12), t-statistikk tilsvarende boareal er 6,29, og R- Verdien er nesten null. På samme tid t-statistikk som tilsvarer dummy-variabelen er 3,1, og s-verdi - 0,009. Dermed bidrar hver av disse to variablene signifikant til modellen dersom signifikansnivået er 0,01. I tillegg betyr den multiple blandede korrelasjonskoeffisienten at 81,1 % av variasjonen i takst skyldes variasjonen i boligens boareal og tilstedeværelsen av en peis.

Interaksjonseffekt. I alle regresjonsmodeller diskutert ovenfor ble effekten av respons på forklaringsvariabelen ansett for å være statistisk uavhengig av effekten av respons på andre forklaringsvariabler. Hvis denne betingelsen ikke er oppfylt, er det en interaksjon mellom de avhengige variablene. For eksempel er det sannsynlig at reklame har stor innvirkning på salget av lavprisprodukter. Men hvis prisen på et produkt er for høy, kan ikke en økning i annonseutgifter øke salget betydelig. I dette tilfellet er det en interaksjon mellom prisen på produktet og kostnaden for dets annonsering. Man kan med andre ord ikke komme med generelle utsagn om salgets avhengighet av annonsekostnader. Effekten av annonseringskostnader på salget avhenger av prisen. Denne påvirkningen tas i betraktning i multippel regresjonsmodellen ved bruk av interaksjonseffekten. For å illustrere dette konseptet, la oss gå tilbake til problemet med kostnadene for hus.

I regresjonsmodellen vi utviklet, ble det antatt at effekten av husstørrelse på verdien ikke er avhengig av om huset har peis. Med andre ord ble det antatt at hellingen av den estimerte verdien, avhengig av boligarealet til huset, var den samme for hus med og uten peis. Hvis disse bakkene er forskjellige fra hverandre, er det et samspill mellom størrelsen på huset og tilstedeværelsen av en peis.

Å teste hypotesen om like helninger kommer ned til å estimere bidraget som produktet av forklaringsvariabelen gir til regresjonsmodellen x1 og en dummy-variabel X 2. Hvis dette bidraget er statistisk signifikant, kan ikke den opprinnelige regresjonsmodellen brukes. Resultater av en regresjonsanalyse som involverer variabler X 1, X 2 og X 3 \u003d X 1 * X 2 vist i fig. 1. 3.

Ris. 13. Resultater oppnådd med Analysepakke Excel for en regresjonsmodell som tar hensyn til boareal, tilstedeværelsen av en peis og deres interaksjon

For å teste nullhypotesen H 0: β 3 = 0 og den alternative hypotesen H 1: β 3 ≠ 0, ved å bruke resultatene vist i fig. 13, merk det t-statistikk som tilsvarer effekten av interaksjonen av variabler er lik 1,48. Fordi det R-verdien er 0,166 > 0,05, nullhypotesen forkastes ikke. Derfor har ikke interaksjonen mellom variabler en signifikant effekt på regresjonsmodellen, som tar hensyn til boareal og tilstedeværelsen av en peis.

Sammendrag. Dette notatet viser hvordan en markedssjef kan bruke flere lineære analyser for å forutsi salgsvolum basert på pris og annonseringsforbruk. Ulike multiple regresjonsmodeller vurderes, inkludert kvadratiske modeller, modeller med dummyvariabler og modeller med interaksjonseffekter (fig. 14).

Ris. fjorten. Strukturopplegg notater

Materiale fra boken Levin mfl. Statistikk for ledere benyttes. - M.: Williams, 2004. - s. 873–936

Anta at en utvikler verdsetter en gruppe små kontorbygg i et tradisjonelt forretningsdistrikt.

En utvikler kan bruke multippel regresjonsanalyse for å estimere prisen på et kontorbygg i et gitt område basert på følgende variabler.

y er estimert pris på et kontorbygg;

x 1 - totalt areal i kvadratmeter;

x 2 - antall kontorer;

x 3 - antall innganger (0,5 inngang betyr en inngang bare for levering av korrespondanse);

x 4 - driftstidspunkt for bygget i år.

Dette eksemplet forutsetter at det er en lineær sammenheng mellom hver uavhengig variabel (x 1, x 2, x 3 og x 4) og den avhengige variabelen (y), det vil si prisen på et kontorbygg i et gitt område. De første dataene er vist i figuren.

Innstillingene for å løse oppgaven vises i figuren i vinduet " Regresjon". Beregningsresultatene legges på eget ark i tre tabeller

Som et resultat fikk vi følgende matematisk modell:

y = 52318 + 27,64*x1 + 12530*x2 + 2553*x3 - 234,24*x4.

Utbygger kan nå fastsette takst på et kontorbygg i samme område. Hvis denne bygningen har et areal på 2500 kvadratmeter, tre kontorer, to innganger og en levetid på 25 år, kan du estimere verdien ved å bruke følgende formel:

y \u003d 27,64 * 2500 + 12530 * 3 + 2553 * 2 - 234,24 * 25 + 52318 \u003d 158 261 c.u.

I regresjonsanalyse er de viktigste resultatene:

  • koeffisienter for variabler og Y-kryss, som er de ønskede parameterne til modellen;
  • multiple R som karakteriserer nøyaktigheten til modellen for tilgjengelige inngangsdata;
  • Fisher F-test(i det betraktede eksemplet overskrider den den kritiske verdien lik 4,06 betydelig);
  • t-statistikk– verdier som karakteriserer graden av signifikans av individuelle koeffisienter i modellen.

Spesiell oppmerksomhet bør rettes mot t-statistikk. Svært ofte, når man bygger en regresjonsmodell, er det ikke kjent om denne eller den faktoren x påvirker y. Inkludering i modellen av faktorer som ikke påvirker produksjonsverdien forringer kvaliteten på modellen. Å beregne t-statistikken hjelper til med å oppdage slike faktorer. Et omtrentlig estimat kan gjøres som følger: hvis for n>>k absoluttverdien av t-statistikken er betydelig større enn tre, bør den tilsvarende koeffisienten anses som signifikant, og faktoren bør inkluderes i modellen, ellers ekskludert fra modellen. Dermed er det mulig å foreslå en teknologi for å konstruere en regresjonsmodell, bestående av to trinn:

1) behandle pakken " Regresjon"alle tilgjengelige data, analyser t-statistiske verdier;

2) fjern fra tabellen med innledende datakolonner med de faktorene som koeffisientene er ubetydelige for og behandle med pakken " Regresjon"nytt bord.

I de forrige notatene har fokus ofte vært på en enkelt numerisk variabel, for eksempel fondsavkastning, lastetid på nettsider eller brusforbruk. I denne og de følgende notatene vil vi vurdere metoder for å forutsi verdiene til en numerisk variabel avhengig av verdiene til en eller flere andre numeriske variabler.

Materialet vil bli illustrert med et gjennomgående eksempel. Prognose salgsvolum i en klesbutikk. Sunflowers-kjeden av lavprisklesbutikker har ekspandert konstant i 25 år. Selskapet har imidlertid foreløpig ikke en systematisk tilnærming til valg av nye utsalgssteder. Stedet hvor selskapet har til hensikt å åpne ny butikk fastsettes ut fra subjektive hensyn. Utvalgskriteriene er gunstige leieforhold eller lederens idé om den ideelle plasseringen av butikken. Se for deg at du er leder for Spesialprosjekt- og planavdelingen. Du har fått i oppdrag å utvikle deg strategisk planåpne nye butikker. Denne planen bør inneholde en prognose for årlig salg i nyåpnede butikker. Tror du at handelsområde er direkte relatert til inntektsbeløpet, og du ønsker å ta hensyn til dette i beslutningsprosessen. Hvordan utvikle seg statistisk modellå forutsi årlig salg basert på ny butikkstørrelse?

Vanligvis brukes regresjonsanalyse for å forutsi verdiene til en variabel. Målet er å utvikle en statistisk modell som forutsier verdiene til den avhengige variabelen, eller responsen, fra verdiene til minst én uavhengig eller forklarende variabel. I dette notatet vil vi vurdere en enkel lineær regresjon - statistisk metode, slik at du kan forutsi verdiene til den avhengige variabelen Y med verdiene til den uavhengige variabelen X. Følgende notater vil beskrive en multippel regresjonsmodell designet for å forutsi verdiene til den uavhengige variabelen Y ved verdiene til flere avhengige variabler ( X1, X2, …, X k).

Last ned notat i eller format, eksempler i format

Typer regresjonsmodeller

hvor ρ 1 er autokorrelasjonskoeffisienten; hvis ρ 1 = 0 (ingen autokorrelasjon), D≈ 2; hvis ρ 1 ≈ 1 (positiv autokorrelasjon), D≈ 0; hvis ρ 1 = -1 (negativ autokorrelasjon), D ≈ 4.

I praksis er anvendelsen av Durbin-Watson-kriteriet basert på en sammenligning av verdien D med kritiske teoretiske verdier d L og d U for et gitt antall observasjoner n, antall uavhengige modellvariabler k(for enkel lineær regresjon k= 1) og signifikansnivå α. Hvis en D< d L , uavhengighetshypotese tilfeldige avvik avvist (derav positiv autokorrelasjon tilstede); hvis D > d U, hypotesen er ikke forkastet (det vil si at det ikke er noen autokorrelasjon); hvis d L< D < d U det er ikke nok grunn til å ta en avgjørelse. Når den beregnede verdien D overstiger 2, da d L og d U det er ikke selve koeffisienten som sammenlignes D, og uttrykket (4 – D).

For å beregne Durbin-Watson-statistikken i Excel, går vi til den nederste tabellen i fig. fjorten Saldouttak. Telleren i uttrykk (10) beregnes ved å bruke funksjonen = SUMMQDIFF(matrise1, matrise2), og nevneren = SUMMQ(matrise) (fig. 16).

Ris. 16. Formler for beregning av Durbin-Watson-statistikk

I vårt eksempel D= 0,883. Hovedspørsmålet er: hvilken verdi av Durbin-Watson-statistikken bør anses som liten nok til å konkludere med at det er en positiv autokorrelasjon? Det er nødvendig å korrelere verdien av D med de kritiske verdiene ( d L og d U) avhengig av antall observasjoner n og signifikansnivå α (fig. 17).

Ris. 17. Kritiske verdier av Durbin-Watson-statistikk (tabellfragment)

Derfor, i problemet med salgsvolumet i en butikk som leverer varer til hjemmet ditt, er det én uavhengig variabel ( k= 1), 15 observasjoner ( n= 15) og signifikansnivå α = 0,05. Følgelig d L= 1,08 og dU= 1,36. Fordi det D = 0,883 < d L= 1,08, det er en positiv autokorrelasjon mellom residualene, minste kvadraters metode kan ikke brukes.

Testing av hypoteser om helning og korrelasjonskoeffisient

Regresjonen ovenfor ble kun brukt for prognoser. For å bestemme regresjonskoeffisienter og forutsi verdien av en variabel Ygitt verdi variabel X metoden med minste kvadrater ble brukt. I tillegg vurderte vi standardfeilen til estimatet og koeffisienten for blandet korrelasjon. Dersom restanalysen bekrefter at minstekvadratmetodens anvendbarhetsbetingelser ikke brytes, og den enkle lineære regresjonsmodellen er adekvat, basert på utvalgsdataene, kan det hevdes at det er en lineær sammenheng mellom variablene i populasjonen.

applikasjont -kriterier for helning. Ved å sjekke om populasjonshellingen β 1 er lik null, kan man fastslå om det er en statistisk signifikant sammenheng mellom variablene X og Y. Hvis denne hypotesen forkastes, kan det hevdes at mellom variablene X og Y det er en lineær sammenheng. Null- og alternativhypotesene er formulert som følger: H 0: β 1 = 0 (ingen lineær sammenheng), H1: β 1 ≠ 0 (det er en lineær sammenheng). Per definisjon t-statistikk er lik forskjellen mellom prøvehellingen og den hypotetiske populasjonshellingen, delt på standardfeilen til helningsestimatet:

(11) t = (b 1 β 1 ) / Sb 1

hvor b 1 er helningen til den direkte regresjonen basert på prøvedata, β1 er den hypotetiske helningen til den direkte generelle populasjonen, og teststatistikk t Det har t- distribusjon med n - 2 grader av frihet.

La oss sjekke om det er en statistisk signifikant sammenheng mellom butikkstørrelse og årlig omsetning ved α = 0,05. t-kriterier vises sammen med andre parametere ved bruk Analysepakke(alternativ Regresjon). De fullstendige resultatene av analysepakken er vist i fig. 4, et fragment relatert til t-statistikk - i fig. atten.

Ris. 18. Søknadsresultater t

Fordi antall butikker n= 14 (se fig. 3), kritisk verdi t-statistikk på et signifikansnivå α = 0,05 kan finnes ved formelen: t L=STUDENT.INV(0,025;12) = -2,1788 der 0,025 er halvparten av signifikansnivået og 12 = n – 2; t U\u003d STUDENT.INV (0,975, 12) \u003d +2,1788.

Fordi det t-statistikk = 10,64 > t U= 2,1788 (fig. 19), nullhypotese H 0 blir avvist. På den andre siden, R-verdi for X\u003d 10.6411, beregnet ved formelen \u003d 1-STUDENT.DIST (D3, 12, TRUE), er omtrent lik null, så hypotesen H 0 blir avvist igjen. Det faktum at R-verdien er nesten null, noe som betyr at hvis det ikke var noen reell lineær sammenheng mellom butikkstørrelse og årlig salg, ville det være nesten umulig å finne den ved hjelp av lineær regresjon. Derfor er det en statistisk signifikant lineær sammenheng mellom gjennomsnittlig årlig butikksalg og butikkstørrelse.

Ris. 19. Testing av hypotesen om helningen til den generelle befolkningen på et signifikansnivå på 0,05 og 12 frihetsgrader

applikasjonF -kriterier for helning. En alternativ tilnærming til å teste hypoteser om helningen til en enkel lineær regresjon er å bruke F-kriterier. Husk det F-kriterium brukes til å teste forholdet mellom to varianser (se detaljer). Når man tester helningshypotesen med et mål tilfeldige feil er feilvariansen (summen av kvadrerte feil delt på antall frihetsgrader), altså F-test bruker forholdet mellom variansen forklart av regresjonen (dvs. verdiene SSR delt på antall uavhengige variabler k), til feilavviket ( MSE=SYX 2 ).

Per definisjon F-statistikk er lik gjennomsnittet av kvadrerte avvik på grunn av regresjon (MSR) delt på feilvariansen (MSE): F = MSR/ MSE, hvor MSR=SSR / k, MSE =SSE/(n– k – 1), k er antall uavhengige variabler i regresjonsmodellen. Teststatistikk F Det har F- distribusjon med k og n– k – 1 grader av frihet.

For et gitt signifikansnivå α vedtaksregel formulert som følger: if F > FU, nullhypotesen forkastes; ellers blir det ikke avvist. Resultatene, presentert i form av en oppsummeringstabell over variansanalysen, er vist i fig. tjue.

Ris. 20. Tabell med variansanalyse for å teste hypotesen om den statistiske signifikansen til regresjonskoeffisienten

på samme måte t-kriterium F-kriterier vises i tabellen ved bruk Analysepakke(alternativ Regresjon). Fullstendige resultater av arbeidet Analysepakke vist i fig. 4, fragment relatert til F-statistikk - i fig. 21.

Ris. 21. Søknadsresultater F- Kriterier oppnådd ved hjelp av Excel Analysis ToolPack

F-statistikk er 113,23 og R-verdi nær null (celle BetydningF). Hvis signifikansnivået α er 0,05, bestemmer du den kritiske verdien F-fordelinger med én og 12 frihetsgrader kan fås fra formelen F U\u003d F. OBR (1-0,05; 1; 12) \u003d 4,7472 (fig. 22). Fordi det F = 113,23 > F U= 4,7472, og R-verdi nær 0< 0,05, нулевая гипотеза H 0 avviker, dvs. Størrelsen på en butikk er nært knyttet til dens årlige salgsvolum.

Ris. 22. Testing av hypotesen om helningen til den generelle befolkningen på et signifikansnivå på 0,05, med én og 12 frihetsgrader

Konfidensintervall som inneholder helning β 1 . For å teste hypotesen om eksistensen av en lineær sammenheng mellom variabler, kan du bygge et konfidensintervall som inneholder helningen β 1 og sørge for at den hypotetiske verdien β 1 = 0 tilhører dette intervallet. Sentrum av konfidensintervallet som inneholder helningen β 1 er prøvehellingen b 1 , og dens grenser er mengdene b 1 ±t n –2 Sb 1

Som vist i fig. atten, b 1 = +1,670, n = 14, Sb 1 = 0,157. t 12 \u003d STUDENT.OBR (0,975, 12) \u003d 2,1788. Følgelig b 1 ±t n –2 Sb 1 = +1,670 ± 2,1788 * 0,157 = +1,670 ± 0,342, eller + 1,328 ≤ β 1 ≤ +2,012. Dermed ligger helningen til befolkningen med en sannsynlighet på 0,95 i området fra +1,328 til +2,012 (dvs. fra $1,328,000 til $2,012,000). Fordi disse verdiene er større enn null, er det en statistisk signifikant lineær sammenheng mellom årlig salg og butikkareal. Hvis konfidensintervallet inneholdt null, ville det ikke være noen sammenheng mellom variablene. I tillegg betyr konfidensintervallet at hver 1000 kvm. fot resulterer i en økning i gjennomsnittlig salg på $1.328.000 til $2.012.000.

Brukt -kriterier for korrelasjonskoeffisienten. korrelasjonskoeffisient ble introdusert r, som er et mål på forholdet mellom to numeriske variabler. Den kan brukes til å finne ut om det er en statistisk signifikant sammenheng mellom to variabler. La oss betegne korrelasjonskoeffisienten mellom populasjonene til begge variablene med symbolet ρ. Null- og alternativhypotesene er formulert som følger: H 0: ρ = 0 (ingen korrelasjon), H 1: ρ ≠ 0 (det er en korrelasjon). Sjekker om det finnes en korrelasjon:

hvor r = + , hvis b 1 > 0, r = – , hvis b 1 < 0. Тестовая статистика t Det har t- distribusjon med n - 2 grader av frihet.

I problemet med butikkjeden Sunflowers r2= 0,904, og b 1- +1,670 (se fig. 4). Fordi det b 1> 0, er korrelasjonskoeffisienten mellom årsomsetning og butikkstørrelse r= +√0,904 = +0,951. La oss teste nullhypotesen om at det ikke er noen korrelasjon mellom disse variablene ved å bruke t- statistikk:

Ved et signifikansnivå på α = 0,05 bør nullhypotesen forkastes pga. t= 10,64 > 2,1788. Dermed kan det hevdes at det er en statistisk signifikant sammenheng mellom årsomsetning og butikkstørrelse.

Når man diskuterer slutninger om populasjonshellinger, er konfidensintervaller og kriterier for testing av hypoteser utskiftbare verktøy. Beregningen av konfidensintervallet som inneholder korrelasjonskoeffisienten viser seg imidlertid å være vanskeligere, siden formen for samplingsfordelingen av statistikken r avhenger av den sanne korrelasjonskoeffisienten.

Forventningsestimering og prediksjon individuelle verdier

Denne delen diskuterer metoder for å estimere forventet respons Y og spådommer om individuelle verdier Y for gitte verdier av variabelen X.

Konstruksjon av et konfidensintervall. I eksempel 2 (se avsnittet ovenfor Minste kvadratiske metode) regresjonsligningen gjorde det mulig å forutsi verdien av variabelen Y X. I problemet med å velge et sted for et utsalgssted, er det gjennomsnittlige årlige salget i en butikk med et areal på 4000 kvm. fot var lik 7,644 millioner dollar, men dette anslaget av den matematiske forventningen til befolkningen generelt er et poeng. for å estimere den matematiske forventningen til den generelle befolkningen, ble konseptet med et konfidensintervall foreslått. På samme måte kan man introdusere konseptet konfidensintervall for den matematiske forventningen til responsenangi verdi variabel X:

hvor , = b 0 + b 1 X i– predikert verdivariabel YX = X i, S YX er den gjennomsnittlige kvadratfeilen, n er prøvestørrelsen, XJeg- den gitte verdien av variabelen X, µ Y|X = XJeg– matematisk forventning til en variabel YX = Х i,SSX=

Analyse av formel (13) viser at bredden på konfidensintervallet avhenger av flere faktorer. Ved et gitt signifikansnivå fører en økning i amplituden av fluktuasjoner rundt regresjonslinjen, målt ved bruk av gjennomsnittlig kvadratfeil, til en økning i intervallets bredde. På den annen side, som forventet, er en økning i utvalgsstørrelsen ledsaget av en innsnevring av intervallet. I tillegg endres bredden på intervallet avhengig av verdiene XJeg. Hvis verdien av variabelen Y spådd for mengder X, nær gjennomsnittsverdien , viser konfidensintervallet seg å være smalere enn når man forutsier responsen for verdier langt fra gjennomsnittet.

La oss si at når vi velger et sted for en butikk, ønsker vi å bygge et 95 % konfidensintervall for gjennomsnittlig årlig omsetning i alle butikker med et areal på 4000 kvadratmeter. føtter:

Derfor gjennomsnittlig årlig salgsvolum i alle butikker med et areal på 4000 kvadratmeter. fot, med en 95% sannsynlighet ligger i området fra 6,971 til 8,317 millioner dollar.

Beregn konfidensintervallet for den anslåtte verdien. I tillegg til konfidensintervallet for den matematiske forventningen til responsen for en gitt verdi av variabelen X, er det ofte nødvendig å vite konfidensintervallet for den predikerte verdien. Selv om formelen for å beregne et slikt konfidensintervall er veldig lik formel (13), inneholder dette intervallet en predikert verdi og ikke et estimat av parameteren. Intervall for antatt respons YX = Xi for en bestemt verdi av variabelen XJeg bestemmes av formelen:

La oss anta at når vi velger et sted for et utsalgssted, ønsker vi å bygge et 95 % konfidensintervall for det anslåtte årlige salgsvolumet i en butikk med et areal på 4000 kvadratmeter. føtter:

Derfor er det anslåtte årlige salgsvolumet for en 4000 kvm. fot, med 95 % sannsynlighet ligger i området fra 5,433 til 9,854 millioner dollar. Som du kan se, er konfidensintervallet for den predikerte responsverdien mye bredere enn konfidensintervallet for dens matematiske forventning. Dette er fordi variasjonen i å forutsi individuelle verdier er mye større enn i å estimere forventet verdi.

Fallgruver og etiske problemstillinger knyttet til bruk av regresjon

Vanskeligheter knyttet til regresjonsanalyse:

  • Ignorerer betingelsene for anvendelighet av metoden for minste kvadrater.
  • Et feilaktig estimat av betingelsene for anvendelighet av minste kvadraters metode.
  • Feil valg av alternative metoder i strid med minste kvadraters bruksbetingelser.
  • Anvendelse av regresjonsanalyse uten inngående kjennskap til studiefaget.
  • Ekstrapolering av regresjonen utenfor rekkevidden til forklaringsvariabelen.
  • Forvirring mellom statistiske og årsakssammenhenger.

Spredningen av regneark og programvare for statistiske beregninger eliminerte beregningsproblemene som hindret bruken av regresjonsanalyse. Dette førte imidlertid til at regresjonsanalyse begynte å bli brukt av brukere som ikke har tilstrekkelige kvalifikasjoner og kunnskaper. Hvordan vet brukerne om alternative metoder hvis mange av dem ikke har noen formening om betingelsene for anvendelighet av minste kvadraters metode og ikke vet hvordan de skal kontrollere implementeringen?

Forskeren skal ikke la seg rive med av sliping av tall - å beregne forskyvning, helning og blandet korrelasjonskoeffisient. Han trenger dypere kunnskap. La oss illustrere dette klassisk eksempel hentet fra lærebøker. Anscombe viste at alle fire datasettene vist i fig. 23 har samme regresjonsparametere (fig. 24).

Ris. 23. Fire kunstige datasett

Ris. 24. Regresjonsanalyse av fire kunstige datasett; ferdig med Analysepakke(klikk på bildet for å forstørre bildet)

Så, fra synspunktet til regresjonsanalyse, er alle disse datasettene helt identiske. Hvis analysen var over på dette, ville vi tapt mye nyttig informasjon. Dette er bevist av spredningsplottene (fig. 25) og gjenværende plott (fig. 26) konstruert for disse datasettene.

Ris. 25. Spredningsplott for fire datasett

Spredningsplott og restplott viser at disse dataene er forskjellige fra hverandre. Den eneste mengden fordelt langs en rett linje er sett A. Plottet av residualene beregnet fra sett A har ikke noe mønster. Det samme kan ikke sies for sett B, C og D. Spredningsplottet plottet for sett B viser et uttalt kvadratisk mønster. Denne konklusjonen bekreftes av plottet av rester, som har en parabolsk form. Spredningsplottet og restplottet viser at datasett B inneholder en uteligger. I denne situasjonen er det nødvendig å ekskludere uteliggeren fra datasettet og gjenta analysen. Teknikken for å oppdage og eliminere uteliggere fra observasjoner kalles påvirkningsanalyse. Etter å ha eliminert uteliggeren, kan resultatet av revurderingen av modellen bli helt annerledes. Et spredningsplott bygget ved hjelp av data fra sett D illustrerer uvanlig situasjon, der den empiriske modellen avhenger betydelig av den individuelle responsen ( X 8 = 19, Y 8 = 12,5). Slike regresjonsmodeller må beregnes spesielt nøye. Så sprednings- og gjenværende plott er et viktig verktøy for regresjonsanalyse og bør være en integrert del av det. Uten dem er ikke regresjonsanalyse troverdig.

Ris. 26. Plott av residualer for fire datasett

Slik unngår du fallgruver i regresjonsanalyse:

  • Analyse av mulig sammenheng mellom variabler X og Y start alltid med et scatterplot.
  • Før du tolker resultatene av en regresjonsanalyse, sjekk betingelsene for dens anvendelighet.
  • Plott residualene versus den uavhengige variabelen. Dette vil tillate å bestemme hvordan den empiriske modellen tilsvarer resultatene av observasjon, og å oppdage brudd på variansens konstantitet.
  • Bruk histogrammer, stilk- og bladplott, boksplott og normalfordelingsplott for å teste antakelsen om en normalfordeling av feil.
  • Hvis anvendbarhetsbetingelsene for minste kvadraters metode ikke er oppfylt, bruk alternative metoder (for eksempel kvadratiske eller multiple regresjonsmodeller).
  • Hvis anvendbarhetsbetingelsene for minste kvadraters metode er oppfylt, er det nødvendig å teste hypotesen om den statistiske signifikansen til regresjonskoeffisientene og konstruere konfidensintervaller som inneholder den matematiske forventningen og den predikerte responsverdien.
  • Unngå å forutsi verdier av den avhengige variabelen utenfor rekkevidden til den uavhengige variabelen.
  • Husk det statistiske avhengigheter er ikke alltid årsakssammenheng. Husk at korrelasjon mellom variabler ikke betyr at det er en årsakssammenheng mellom dem.

Sammendrag. Som vist i blokkdiagrammet (fig. 27), beskriver notatet en enkel lineær regresjonsmodell, betingelsene for dens anvendelighet og måter å teste disse forholdene på. Ansett t-kriterium for å teste den statistiske signifikansen av helningen til regresjonen. For å forutsi verdiene til den avhengige variabelen brukte vi regresjonsmodell. Et eksempel vurderes knyttet til valg av sted for et utsalgssted, hvor avhengigheten av det årlige salgsvolumet av butikkarealet studeres. Informasjonen som innhentes lar deg velge et sted for butikken mer nøyaktig og forutsi dets årlige salg. I de følgende notatene vil diskusjonen om regresjonsanalyse fortsette, så vel som flere regresjonsmodeller.

Ris. 27. Blokkdiagram av et notat

Materiale fra boken Levin mfl. Statistikk for ledere benyttes. - M.: Williams, 2004. - s. 792–872

Hvis den avhengige variabelen er kategorisk, bør logistisk regresjon brukes.

Hensikten med multippel regresjon er å analysere sammenhengen mellom én avhengig og flere uavhengige variabler.

Eksempel: Det finnes data om kostnaden for ett sete (ved kjøp av 50 seter) for ulike PDM-systemer. Nødvendig: for å evaluere forholdet mellom prisen på en PDM-systemarbeidsplass og antall egenskaper implementert i den, vist i tabell 2.

Tabell 2 - Karakteristikk av PDM-systemer

Artikkelnummer PDM system Pris Produktkonfigurasjonsadministrasjon Produktmodeller Teamarbeid Produktendringsledelse Dokumentflyt Arkiv Dokumentsøk Prosjektplanlegging Produktproduksjonsledelse
jeg er en Ja Ja
Party Plus Ja Ja
PDM STEP Suite Ja Ja
Søk Ja Ja
Vindavkjøling Ja Ja
Compass Manager Ja Ja
T-Flex Docs Ja Ja
TechnoPro Ikke Ikke

Den numeriske verdien av egenskaper (unntatt "Kostnad", "Produktmodeller" og "Teamwork") betyr antall implementerte krav for hver egenskap.

La oss lage og fylle ut et regneark med innledende data (Figur 27).

Verdien "1" for variablene "Mod. red." og "Samle. r-ta." tilsvarer verdien "Ja" for kildedataene, og verdien "0" til verdien "Nei" for kildedataene.

La oss bygge en regresjon mellom den avhengige variabelen "Cost" og de uavhengige variablene "Ex. konf., Mod. red., Samle. r-ta", "Eks. rev.", "Dok.", "Arkiv", "Søk", "Plan-e", "Eks. laget.

For å starte den statistiske analysen av de første dataene, ring modulen "Multippel regresjon" (Figur 22).

I dialogboksen som vises (Figur 23), spesifiser variablene som den statistiske analysen skal utføres for.

Figur 27 - Startdata

For å gjøre dette, trykk på knappen Variables og i dialogboksen som vises (Figur 28) i delen som tilsvarer avhengige variabler (Dependent var.) velg "1-Cost", og i delen som tilsvarer uavhengige variabler (Uavhengig variabelliste) ) velg alle andre variabler. Valget av flere variabler fra listen utføres ved å bruke "Ctrl" eller "Shift"-tastene, eller ved å spesifisere tallene (utstrekning av tall) til variablene i det tilsvarende feltet.



Figur 28 - Dialogboks for innstilling av variabler for statistisk analyse

Etter at variablene er valgt, klikker du på "OK"-knappen i dialogboksen for å angi parametrene til "Multiple Regresjon"-modulen. I vinduet som vises med påskriften "No of indep. vars. >=(N-1); kan ikke invertere korr. matrise." (Figur 29) trykk på "OK"-knappen.

Denne meldingen vises når systemet ikke kan bygge en regresjon for alle erklærte uavhengige variabler, fordi antall variabler er større enn eller lik antall forekomster minus 1.

I vinduet som vises (Figur 30), på "Avansert"-fanen, kan du endre metoden for å konstruere regresjonsligningen.

Figur 29 - Feilmelding

For å gjøre dette, i "Metode" (metode)-feltet, velg "Forover trinnvis" (trinn-for-trinn med inkludering).

Figur 30 - Vindu for valg av metode og innstilling av parametere for å konstruere en regresjonsligning

Metoden for trinnvis regresjon består i at ved hvert trinn inkluderes eller ekskluderes en uavhengig variabel i modellen. Dermed blir et sett med de mest "signifikante" variablene skilt ut. Dette reduserer antallet variabler som beskriver avhengigheten.

Trinnvis analyse med unntak ("Trinnvis bakover"). I dette tilfellet vil alle variabler inkluderes i modellen først, og deretter ved hvert trinn vil variabler som bidrar lite til prediksjonene bli eliminert. Da kan, som et resultat av en vellykket analyse, kun de «viktige» variablene i modellen lagres, det vil si de variablene hvis bidrag til diskriminering er større enn de andre.

Trinnvis analyse med inkludering ("Forward stepwise"). Ved bruk av denne metoden inkluderes uavhengige variabler sekvensielt i regresjonsligningen inntil ligningen beskriver de opprinnelige dataene på en tilfredsstillende måte. Inkludering av variabler bestemmes ved hjelp av F-kriteriet. Ved hvert trinn blir alle variabler sett gjennom og den som gir størst bidrag til forskjellen mellom settene blir funnet. Denne variabelen må inkluderes i modellen for dette trinnet, og fortsett til neste trinn.

I "Intercept"-feltet (fri regresjonsterm) kan du velge om du vil inkludere den i ligningen ("Inkluder i modell") eller ignorere den og vurdere den som lik null ("Sett til null").

"Toleranse"-parameteren er toleransen til variablene. Definert som 1 minus kvadratet av koeffisienten multippel korrelasjon denne variabelen med alle andre uavhengige variabler i regresjonsligningen. Derfor, jo mindre toleransen til en variabel er, desto mer overflødig er dens bidrag til regresjonsligningen. Hvis toleransen til noen av variablene i regresjonsligningen er lik eller nær null, kan ikke regresjonsligningen evalueres. Derfor er det ønskelig å sette toleranseparameteren til 0,05 eller 0,1.

Parameteren "Ridge regresjon; lambda:" brukes når de uavhengige variablene er sterkt interkorrelerte og robuste estimater for koeffisientene til regresjonsligningen ikke kan oppnås gjennom minste kvadrater. Den spesifiserte konstanten (lambda) vil bli lagt til diagonalen til korrelasjonsmatrisen, som deretter vil bli re-normalisert (slik at alle diagonale elementer er lik 1,0). Med andre ord reduserer denne parameteren kunstig korrelasjonskoeffisientene slik at mer robuste (men likevel partiske) estimater av regresjonsparametrene kan beregnes. I vårt tilfelle brukes ikke denne parameteren.

Alternativet "Batchbehandling/utskrift" brukes når det er nødvendig å umiddelbart utarbeide flere tabeller for rapporten, som gjenspeiler resultatene og prosessen med regresjonsanalyse. Dette alternativet er veldig nyttig når du vil skrive ut eller analysere resultatene av en trinnvis regresjonsanalyse ved hvert trinn.

På «Trinnvis»-fanen (Figur 31), kan du angi parametrene for inkludering («F for å angi») eller eksklusjon («F for å fjerne») betingelsene for variabler når du konstruerer regresjonsligningen, samt antall trinn for å konstruere ligningen ("Antall trinn").

Figur 31 - Fane "Trinnvis" i vinduet for valg av metode og innstilling av parametere for å konstruere en regresjonsligning

F er verdien av F-kriteriet.

Hvis det under trinnvis analyse med inkludering er nødvendig at alle eller nesten alle variabler er inkludert i regresjonsligningen, er det nødvendig å sette "F to enter"-verdien til minimum (0,0001), og sette "F to remove" verdi til et minimum også.

Hvis det under trinnvis analyse med unntak er nødvendig å fjerne alle variabler (en etter en) fra regresjonsligningen, er det nødvendig å sette verdien av "F for å angi" veldig stor, for eksempel 999, og angi verdien av "F for å fjerne" nær "F for å gå inn".

Det bør huskes at verdien av parameteren "F for å fjerne" alltid må være mindre enn "F for å angi".

Alternativet «Vis resultater» har to alternativer:

2) Ved hvert trinn - vis resultatene av analysen ved hvert trinn.

Etter å ha klikket på "OK"-knappen i vinduet for valg av metoder for regresjonsanalyse, vil et vindu med analyseresultater vises (Figur 32).

Figur 32 - Analyseresultatvindu

Figur 33 - Sammendrag av regresjonsanalyseresultater

I henhold til resultatene av analysen, bestemmes koeffisienten . Dette betyr at den konstruerte regresjonen forklarer 99,987 % av spredningen av verdier i forhold til gjennomsnittet, dvs. forklarer nesten all variabiliteten til variablene.

Veldig viktig og dets signifikansnivå viser at den konstruerte regresjonen er svært signifikant.

For å se sammendrag av regresjonsresultater, klikk på knappen "Sammendrag: Regresjonsresultat". Skjermen vil vises regneark med resultatene av analysen (Figur 33).

Den tredje kolonnen ("B") viser estimater av de ukjente parametrene til modellen, dvs. koeffisientene til regresjonsligningen.

Dermed ser den nødvendige regresjonen slik ut:

En kvalitativt konstruert regresjonsligning kan tolkes som følger:

1) Kostnaden for et PDM-system øker med en økning i antall implementerte funksjoner for endringsledelse, arbeidsflyt og planlegging, og også dersom produktmodellstøttefunksjonen inngår i systemet;

2) Kostnaden for et PDM-system synker med økningen i implementerte konfiguog med økningen i søkemulighetene.

Oppgaven til multippel lineær regresjon er å bygge en lineær modell av forholdet mellom et sett med kontinuerlige prediktorer og en kontinuerlig avhengig variabel. Følgende regresjonsligning brukes ofte:

Her en i- regresjonskoeffisienter, b 0- gratis medlem (hvis brukt), e- et element som inneholder en feil - det gjøres forskjellige antakelser om det, som imidlertid oftere reduseres til normaliteten til fordelingen med en null vektormatte. forventnings- og korrelasjonsmatrise .

Slik lineær modell mange oppgaver er godt beskrevet i ulike fagområder for eksempel økonomi, industri, medisin. Dette er fordi noen oppgaver er lineære.

La oss ta et enkelt eksempel. La det være nødvendig å forutsi kostnadene ved å legge en vei i henhold til dens kjente parametere. Samtidig har vi data om allerede anlagte veier, som indikerer lengden, dybden på sprinklingen, mengden arbeidsmateriale, antall arbeidere og så videre.

Det er klart at kostnaden for veien vil bli etter hvert lik summen verdiene av alle disse faktorene hver for seg. Det vil ta en viss mengde, for eksempel pukk, med en kjent kostnad per tonn, en viss mengde asfalt, også med en kjent kostnad.

Det er mulig at skogbruket må kuttes for utlegging, noe som også vil føre til merkostnader. Alt dette til sammen vil gi kostnadene ved å lage veien.

I dette tilfellet vil modellen inkludere et gratis medlem, som for eksempel vil være ansvarlig for organisasjonskostnader (som er omtrent det samme for alle bygge- og installasjonsarbeider gitt nivå) eller skatter.

Feilen vil inkludere faktorer som vi ikke tok hensyn til da vi bygde modellen (for eksempel været under byggingen - det kan ikke tas med i det hele tatt).

Eksempel: Multippel regresjonsanalyse

For dette eksemplet vil flere mulige sammenhenger mellom fattigdomsrater og en makt som forutsier andelen familier under fattigdomsgrensen bli analysert. Derfor vil vi vurdere variabelen som karakteriserer prosentandelen av familier under fattigdomsgrensen som den avhengige variabelen, og de resterende variablene som kontinuerlige prediktorer.

Regresjonskoeffisienter

For å finne ut hvilke av forklaringsvariablene som bidrar mest til å forutsi fattigdom, undersøker vi de standardiserte koeffisientene (eller Beta) til regresjonen.

Ris. 1. Estimater av parametrene til regresjonskoeffisientene.

Beta-koeffisientene er koeffisientene du ville fått hvis du justerte alle variablene til et gjennomsnitt på 0 og et standardavvik på 1. Derfor lar størrelsen på disse Beta-koeffisientene deg sammenligne det relative bidraget til hver uavhengig variabel med den avhengige variabelen . Som det fremgår av tabellen ovenfor, endres befolkningen siden 1960 (POP_CHING), prosentandelen av befolkningen som bor i landsbyen (PT_RURAL) og antall sysselsatte i landsbyen. jordbruk(N_Empld) er de viktigste prediktorene for fattigdomsrater, som bare de er statistisk signifikante (deres 95 % konfidensintervall inkluderer ikke 0). Regresjonskoeffisienten for befolkningsendring siden 1960 (Pop_Chng) er negativ, så jo mindre befolkningsveksten er, jo mindre flere familier som lever under fattigdomsgrensa i det respektive fylket. Regresjonskoeffisienten for befolkningen (%) som bor i landsbyen (Pt_Rural) er positiv, dvs. jo større prosentandel landsbyboere, emner mer nivå fattigdom.

Betydningen av prediktoreffekter

La oss se på tabellen med betydningskriteriene.

Ris. 2. Samtidige resultater for hver gitt variabel.

Som denne tabellen viser, er bare effektene av 2 variabler statistisk signifikante: endringen i befolkningen siden 1960 (Pop_Chng) og prosentandelen av befolkningen som bor i landsbyen (Pt_Rural), p.< .05.

Restanalyse. Etter å ha tilpasset en regresjonsligning, er det nesten alltid nødvendig å sjekke de predikerte verdiene og residualene. For eksempel kan store uteliggere i stor grad skjeve resultatene og føre til feilaktige konklusjoner.

Linjegraf over utslipp

Det er vanligvis nødvendig å kontrollere originale eller standardiserte rester for store avvik.

Ris. 3. Antall observasjoner og residualer.

Skala vertikal akse av denne grafen er plottet i form av sigma, dvs. standardavvik rester. Hvis en eller flere observasjoner ikke faller innenfor ±3 ganger sigma, så kan det være verdt å ekskludere disse observasjonene (dette kan enkelt gjøres gjennom seleksjonsbetingelsene for observasjoner) og kjøre analysen på nytt for å sikre at resultatene ikke endres av disse uteliggere.

Mahalanobis-avstander

De fleste statistiske lærebøker bruker mye tid på uteliggere og residualer på den avhengige variabelen. Rollen til uteliggere i prediktorer forblir imidlertid ofte uidentifisert. På siden av prediktorvariabelen er det en liste over variabler som deltar med ulik vekt (regresjonskoeffisienter) i å predikere den avhengige variabelen. Du kan tenke på de uavhengige variablene som et flerdimensjonalt rom der enhver observasjon kan utsettes. For eksempel hvis du har to uavhengige variabler med like odds regresjon, ville det være mulig å konstruere et spredningsplott av disse to variablene og plassere hver observasjon på dette plottet. Deretter kunne man markere gjennomsnittsverdien på denne grafen og beregne avstandene fra hver observasjon til dette gjennomsnittet (det såkalte tyngdepunktet) i todimensjonalt rom. Dette er hovedideen bak å beregne Mahalanobis-avstanden. Se nå på histogrammet til populasjonsendringsvariabelen siden 1960.

Ris. 4. Histogram over distribusjon av Mahalanobis-avstander.

Det følger av grafen at det er én uteligger ved Mahalanobis-avstandene.

Ris. 5. Observerte, predikerte og restverdier.

Legg merke til hvordan Shelby County (i første rad) skiller seg ut fra resten av fylkene. Hvis du ser på de originale dataene, vil du finne at Shelby County i virkeligheten har mest stort antall personer sysselsatt i landbruket (variabel N_Empld). Det kan være klokere å uttrykke det som en prosentandel i stedet for absolutte tall, i så fall vil Shelby Countys Mahalanobis-avstand sannsynligvis ikke være så stor sammenlignet med andre fylker. Det er klart at Shelby County er en uteligger.

Fjernet rester

En annen svært viktig statistikk som gjør det mulig å måle alvorlighetsgraden av uteliggerproblemet er de fjernede restene. Dette er de standardiserte residualene for de respektive tilfellene, som oppnås ved å fjerne den saken fra analysen. Husk at multippel regresjonsprosedyren justerer regresjonsoverflaten for å vise forholdet mellom den avhengige variabelen og prediktoren. Hvis en observasjon er en uteligger (som Shelby County), så er det en tendens til å "trekke" regresjonsoverflaten mot den uteliggeren. Som et resultat, hvis den tilsvarende observasjonen fjernes, vil en annen overflate (og Beta-koeffisienter) bli oppnådd. Derfor, hvis de fjernede restene er svært forskjellige fra de standardiserte reststoffene, vil du ha grunn til å anta det regresjonsanalyse alvorlig forvrengt av den relevante observasjonen. I dette eksemplet viser de fjernede residualene for Shelby County at dette er en uteligger som gjør analysen alvorlig skjev. Spredningsdiagrammet viser tydelig avviket.

Ris. 6. Initial Residuals and Displaced Residuals variabel som indikerer prosentandelen av familier som lever under fattigdomsgrensen.

De fleste av dem har mer eller mindre klare tolkninger, la oss imidlertid gå til normale sannsynlighetsgrafer.

Multippel regresjon forutsetter som allerede nevnt at det er en lineær sammenheng mellom variablene i ligningen og en normalfordeling av residualene. Hvis disse forutsetningene brytes, kan konklusjonen være unøyaktig. Et normalt sannsynlighetsplott av residualer vil fortelle deg om det er alvorlige brudd på disse forutsetningene eller ikke.

Ris. 7. Normal sannsynlighetsgraf; originale rester.

Dette diagrammet ble bygget på følgende måte. Først blir de standardiserte residualene rangert i rekkefølge. Fra disse rekkene kan du beregne z-verdier (dvs. standardverdier for normalfordeling) basert på antakelsen om at dataene følger en normalfordeling. Disse z-verdiene er plottet langs y-aksen på grafen.

Hvis de observerte residualene (plott langs x-aksen) er normalfordelt, vil alle verdier ligge på en rett linje på grafen. På grafen vår er alle punktene veldig nære i forhold til kurven. Hvis residualene ikke er normalfordelt, avviker de fra denne linjen. Outliers blir også merkbare i denne grafen.

Hvis det er tap av samsvar og dataene ser ut til å danne en tydelig kurve (f.eks. i form av en S) rundt linjen, kan den avhengige variabelen transformeres på en eller annen måte (f.eks. logaritmisk transformasjonå "redusere" halen av distribusjonen, etc.). En diskusjon av denne metoden ligger utenfor rammen av dette eksemplet (Neter, Wasserman og Kutner, 1985, s. 134-141, en diskusjon av transformasjoner som fjerner ikke-normalitet og ikke-linearitet av data presenteres). Imidlertid utfører forskere svært ofte ganske enkelt analyser direkte uten å teste de relevante forutsetningene, noe som fører til feilaktige konklusjoner.