Biografije Karakteristike Analiza

Primjer višestruke regresije. Uvod u višestruku regresiju

Materijal će biti ilustrovan nizom primjera: predviđanje prodaje za OmniPower. Zamislite da ste marketing menadžer za veliki nacionalni lanac prehrambenih proizvoda. AT poslednjih godina Hranljive pločice koje sadrže veliki broj masti, ugljikohidrate i kalorije. Omogućavaju vam da brzo obnovite rezerve energije koje troše trkači, penjači i drugi sportisti u napornim treninzima i takmičenjima. Posljednjih godina prodaja food barova je eksplodirala, a menadžment OmniPowera došao je do zaključka da je ovaj segment tržišta vrlo perspektivan. Prije nego što uvede novu vrstu šipke na nacionalno tržište, kompanija bi željela procijeniti uticaj njenih troškova i troškova oglašavanja na prodaju. Za marketinško istraživanje odabrane su 34 radnje. Morate kreirati regresijski model koji vam omogućava da analizirate podatke dobijene tokom studije. Da li je za ovo moguće koristiti model jednostavne linearne regresije o kojem se raspravljalo u prethodnoj napomeni? Kako ga treba promijeniti?

Model višestruke regresije

Za istraživanje tržišta, OmniPower je napravio uzorak od 34 prodavnice sa približno istim obimom prodaje. Razmotrite dvije nezavisne varijable - cijenu OmniPower šipke u centima ( X 1) i mjesečni budžet Reklamna kampanja drži u prodavnici, izraženo u dolarima ( X 2). Ovaj budžet uključuje troškove natpisa i izloga, kao i distribuciju kupona i besplatnih uzoraka. Zavisna varijabla Y predstavlja broj prodatih OmniPower šipki mjesečno (Slika 1).

Rice. 1. Mjesečni obim prodaje OmniPower šipki, njihova cijena i troškovi oglašavanja

Preuzmite bilješku u formatu ili, primjere u formatu

Interpretacija koeficijenata regresije. Ako je problem ispitivanje višestrukih eksplanatornih varijabli, model jednostavne linearne regresije može se proširiti uz pretpostavku da postoji jaz između odgovora i svake od nezavisnih varijabli. linearna zavisnost. Na primjer, ako postoji k objašnjavajuće varijable, model višestruke linearne regresije ima oblik:

(1) Y i = β 0 + β 1 X 1i + β 2 X 2i + … + β k X ki + ε i

gdje β 0 - smjena, β 1 - pravi nagib Y, u zavisnosti od varijable X 1 ako su varijable X 2 , X 3 , … , X k su konstante β 2 - pravi nagib Y, u zavisnosti od varijable X 2 ako su varijable X 1 , X 3 , … , X k su konstante β k- pravi nagib Y, u zavisnosti od varijable X k ako su varijable X 1 , X 2 , … , X k-1 su konstante ε i Y in i m posmatranje.

Konkretno, model višestruke regresije sa dvije varijable koje objašnjavaju:

(2) Y i = β 0 + β 1 X 1 i + β 2 X 2 i + ε i

gdje β 0 - smjena, β 1 - pravi nagib Y, u zavisnosti od varijable X 1 ako je varijabla X 2 je konstanta, β 2 - pravi nagib Y, u zavisnosti od varijable X 2 ako je varijabla X 1 je konstanta, ε i- greška slučajne varijable Y in i m posmatranje.

Uporedimo ovaj model višestruke linearne regresije i jednostavan model linearne regresije: Y i = β 0 + β 1 X i + ε i. U jednostavnom modelu linearne regresije, nagib β 1 Y kada se vrijednost varijable X mijenja za jedan i ne uzima u obzir utjecaj drugih faktora. U modelu višestruke regresije sa dvije nezavisne varijable (2), nagib β 1 predstavlja promjenu srednje vrijednosti varijable Y prilikom promjene vrijednosti varijable x1 po jedinici, uzimajući u obzir uticaj varijable X 2. Ova vrijednost se naziva koeficijent čiste regresije (ili djelomične regresije).

Kao u jednostavnom modelu linearne regresije, koeficijenti regresije uzorka b 0 , b 1 , i b 2 su procjene parametara odgovarajuće opšte populacije β 0 , β 1 i β 2 .

Jednačina višestruke regresije sa dvije nezavisne varijable:

(3) = b 0 + b 1 X 1 i + b 2 X 2 i

Za izračunavanje koeficijenata regresije koristi se metoda najmanjih kvadrata. U Excelu možete koristiti Paket analiza, opcija Regresija. Za razliku od izgradnje linearne regresije, samo postavite kao Interval unosa X područje uključujući sve nezavisne varijable (slika 2). U našem primjeru, ovo je $C$1:$D$35.

Rice. 2. Prozor skupne regresije Excel analiza

Rezultati Paketa analiza prikazani su na sl. 3. Kao što vidimo, b 0 = 5 837,52, b 1 = -53,217 i b 2 = 3.163. dakle, = 5 837,52 –53,217 X 1 i + 3,163 X 2 i, gdje Ŷ i- predviđena prodaja OmniPower nutritivnih pločica u i-m prodavnica (komada), X 1i- cijena bara (u centima) u i-m prodavnica, X 2i- mjesečna potrošnja na oglase i prodavnica (u dolarima).

Rice. 3. Studija višestruke regresije obima prodaje OmniPower bara

Selektivni nagib b 0 iznosi 5.837,52 i predstavlja procjenu prosječnog broja OmniPower barova koji se prodaju mjesečno po nultoj cijeni i bez troškova oglašavanja. Pošto su ovi uslovi besmisleni, u ovoj situaciji vrednost nagiba b 0 nema razumno tumačenje.

Selektivni nagib b 1 je -53.217. To znači da bi za dati mjesečni iznos reklamnih troškova povećanje cijene slatkiša za jedan cent rezultiralo smanjenjem očekivane prodaje za 53.217 jedinica. Slično, nagib uzorkovanja b 2 , jednako 3,613, znači da kada fiksna cijena povećanje od 1 dolara mjesečne potrošnje na oglašavanje praćeno je povećanjem očekivane prodaje bara od 3.613. Ove procjene pružaju bolje razumijevanje utjecaja cijene i oglašavanja na prodaju. Na primjer, s fiksnim iznosom troškova oglašavanja, smanjenje cijene šipke od 10 centi povećat će prodaju za 532.173 jedinice, a s fiksnom cijenom šipke, povećanje troškova oglašavanja od 100 dolara povećat će prodaju za 361,31 jedinicu. .

Interpretacija nagiba u modelu višestruke regresije. Koeficijenti u modelu višestruke regresije nazivaju se koeficijenti čiste regresije. Oni procjenjuju prosječnu promjenu u odgovoru Y prilikom promjene vrijednosti X po jedinici ako su sve ostale objašnjavajuće varijable "zamrznute". Na primjer, u problemu OmniPower bara, trgovina s fiksnim iznosom mjesečne potrošnje na oglašavanje prodat će 53.217 barova manje ako povećaju cijenu za jedan cent. Moguća je i druga interpretacija ovih koeficijenata. Zamislite iste trgovine sa istim iznosom troškova oglašavanja. Ako cijena šipke padne za jedan cent, prodaja u ovim trgovinama će porasti za 53.217 bara. Zamislite sada dvije trgovine u kojima šipke koštaju isto, ali su troškovi reklamiranja različiti. Ako se ovi troškovi povećaju za jedan dolar, obim prodaje u ovim trgovinama će se povećati za 3.613 jedinica. Kao što vidimo, razumno tumačenje nagiba moguće je samo pod određenim ograničenjima nametnutim eksplanatornim varijablama.

Predviđanje vrijednosti zavisne varijable Y. Kada otkrijemo da nam akumulirani podaci omogućavaju korištenje modela višestruke regresije, možemo predvidjeti mjesečnu prodaju OmniPower Bars-a i izgraditi intervale povjerenja za prosječnu i predviđenu prodaju. Da biste predvidjeli prosječnu mjesečnu prodaju od 79 centi OmniPower Bars u prodavnici koja troši 400 USD mjesečno na oglašavanje, koristite jednadžbu višestruke regresije: Y = 5837,53 – 53,2173*79 + 3,6131*400 = 3,079. Prema tome, očekivani obim prodaje u trgovini prodaja OmniPower šipki po cijeni od 79 centi i trošenje 400 dolara mjesečno na oglašavanje je 3.079.

Izračunavanje vrijednosti Y i procjenom reziduala, mogu se konstruirati intervali povjerenja koji sadrže očekivana vrijednost i predviđenu vrijednost odgovora. ovaj postupak smo razmatrali u okviru jednostavnog modela linearne regresije. Međutim, konstrukcija sličnih procjena za model višestruke regresije povezana je s velikim računskim poteškoćama i ovdje nije prikazana.

Višestruki mješoviti koeficijent korelacije. Podsjetimo da regresijski model omogućava izračunavanje koeficijenta mješovite korelacije r2. Budući da u modelu višestruke regresije postoje najmanje dvije varijable koje objašnjavaju, višestruki mješoviti koeficijent korelacije je dio varijanse varijable Y, objašnjeno datim skupom varijabli koje objašnjavaju:

gdje SSR je zbir kvadrata regresije, SSTukupan iznos kvadrata.

Na primjer, u problemu prodaje OmniPower šipke SSR = 39 472 731, SST= 52 093 677 i k = 2. Dakle,

To znači da je 75,8% varijacija u obimu prodaje uzrokovano promjenama cijena i fluktuacijama u potrošnji na oglašavanje.

Analiza reziduala za model višestruke regresije

Analiza reziduala vam omogućava da odredite može li se primijeniti model višestruke regresije s dvije (ili više) objašnjavajućih varijabli. Obično se sprovodi sledeće vrste analiza ostataka:

Prvi grafikon (slika 4a) nam omogućava da analiziramo distribuciju reziduala u zavisnosti od predviđenih vrednosti . Ako vrijednost reziduala ne ovisi o predviđenim vrijednostima i uzima i pozitivne i negativne vrijednosti(kao u našem primjeru), uvjet za linearnu ovisnost varijable Y na obje eksplanatorne varijable je zadovoljen. Nažalost, in Paket analiza Iz nekog razloga ovaj grafikon se ne kreira. Može biti u prozoru Regresija(vidi sliku 2) uključiti Ostaje. Ovo će vam omogućiti da prikažete tabelu sa ostatcima i da već gradite na njoj Scatter plot(Sl. 4).

Rice. 4. Ovisnost reziduala od predviđene vrijednosti

Drugi i treći grafikoni pokazuju ovisnost reziduala o varijablama za objašnjenje. Ovi dijagrami mogu otkriti kvadratni efekat. U ovoj situaciji potrebno je modelu višestruke regresije dodati kvadratnu eksplanatornu varijablu. Ove grafikone prikazuje Paket analize (vidi sliku 2) ako omogućite opciju Residual Graph (slika 5).

Rice. 5. Ovisnost ostataka o cijeni i troškovima oglašavanja

Testiranje značaja modela višestruke regresije.

Nakon potvrde, korištenjem rezidualne analize, da je model linearne višestruke regresije adekvatan, može se utvrditi postoji li statistički značajna veza između zavisne varijable i skupa varijabli za objašnjenje. Budući da model uključuje nekoliko eksplanatornih varijabli, nulte i alternativne hipoteze su formulirane na sljedeći način: H 0: β 1 = β 2 = ... = β k = 0 (ne postoji linearna veza između odgovora i varijabli koje objašnjavaju), H 1: postoji najmanje jedna vrijednost β j ≠ 0 (postoji linearna ovisnost između odgovora i barem jedne varijable koja objašnjava).

Za testiranje nulte hipoteze koristimo se F-kriterijum - test F-statistika je jednaka srednjem kvadratu regresije (MSR) podijeljenom s varijansom greške (MSE):

gdje F F- distribucija sa k i n–k–1 stepena slobode k- broj nezavisnih varijabli u regresijskom modelu.

Pravilo odlučivanja izgleda ovako: na nivou značajnosti α, nulta hipoteza H 0 odbijeno ako F > F U(k,n – k – 1), inače se hipoteza H 0 ne odbacuje (slika 6).

Rice. 6. Zbirna tabela analize varijanse za testiranje hipoteze o statistički značaj višestruki koeficijenti regresije

Zbirna tabela ANOVA dovršena korištenjem Paket analiza Excel prilikom rješavanja problema prodaje OmniPower šipki je prikazan na sl. 3 (vidi područje A10:F14). Ako je nivo značajnosti 0,05, kritična vrijednost F-distribucije sa dva i 31 stepen slobode FU(2.31)\u003d F. OBR (1-0,05; 2; 31) = jednako 3,305 (slika 7).

Rice. 7. Testiranje hipoteze o značajnosti koeficijenata regresije na nivou značajnosti α = 0,05, sa 2 i 31 stepenom slobode

Kao što je prikazano na sl. 3, F-statistika je 48.477 > FU(2.31)= 3,305, i str-vrijednost blizu 0.000< 0,05. Следовательно, нулевая гипотеза Н 0 отклоняется, и объем продаж линейно связан хотя бы с одной из объясняющих переменных (ценой и/или затратами на рекламу).

Statistički zaključci o populaciji regresijskih koeficijenata

Identificirati statistički značajan odnos između varijabli X i Y u jednostavnom modelu linearne regresije, izvršen je test hipoteze nagiba. Osim toga, da bismo procijenili nagib opće populacije, izgradili smo interval povjerenja(cm. ).

Testiranje hipoteza. Za testiranje hipoteze da je nagib populacije β 1 nula u jednostavnom modelu linearne regresije, koristi se formula t = (b 1 – β 1)/S b 1. Može se proširiti na model višestruke regresije:

gdje t je test statistika koja ima t- distribucija sa n–k–1 stepena slobode bj- nagib varijable Xj u odnosu na varijablu Y ako su sve ostale varijable koje objašnjavaju konstante, Sbj je srednja kvadratna greška koeficijenta regresije bj, k- broj eksplanatornih varijabli u jednadžbi regresije, β j - hipotetički nagib populacije odgovora j-th u odnosu na varijablu kada su sve ostale varijable fiksne.

Na sl. 3 (donja tabela) prikazuje rezultate prijave t-kriterijumi (dobijeni korišćenjem Paket analiza) za svaku od nezavisnih varijabli uključenih u regresijski model. Dakle, ako je potrebno utvrditi ima li varijabla X 2(troškovi oglašavanja) značajnog uticaja na prodaju po fiksnoj ceni OmniPower šipke, formulišu se nulta i alternativna hipoteza: H 0: β2 = 0, H 1: β2 ≠ 0. U skladu sa formulom (6) dobijamo :

Ako je nivo značajnosti 0,05, kritične vrijednosti t-distribucije sa 31 stepenom slobode su t L = STUDENT.OBR(0,025;31) = –2,0395 i t U = STUDENT.OBR(0,975;31) = 2,0395 (slika 8). R-vrijednost =1-STUDENT.DIST(5.27;31;TRUE) i blizu je 0.0000. Na osnovu jedne od nejednakosti t= 5,27 > 2,0395 ili R = 0,0000 < 0,05 нулевая гипотеза H 0 je odbijen. Dakle, po fiksnoj cijeni šipke između varijabli X 2(troškovi oglašavanja) i obima prodaje, postoji statistički značajna veza. Dakle, postoji izuzetno mala šansa za odbijanje Nulta hipoteza ako ne postoji linearna veza između troškova oglašavanja i obima prodaje.

Rice. 8. Testiranje hipoteze o značajnosti koeficijenata regresije na nivou značajnosti α = 0,05, sa 31 stepenom slobode

Testiranje značaja specifičnih regresijskih koeficijenata je zapravo test hipoteze o značaju određene varijable koja je uključena u regresijski model zajedno sa ostalima. dakle, t-kriterijum za testiranje hipoteze o značajnosti koeficijenta regresije je ekvivalentan testiranju hipoteze o uticaju svake od eksplanatornih varijabli.

Intervali pouzdanosti. Umjesto testiranja hipoteze o nagibu populacije, možete procijeniti vrijednost ovog nagiba. U modelu višestruke regresije, sljedeća formula se koristi za izgradnju intervala povjerenja:

(7) bj ± t nk –1 Sbj

Koristimo ovu formulu da konstruišemo interval poverenja od 95% koji sadrži nagib populacije β 1 (efekat cene x1 na obim prodaje Y sa fiksnim iznosom troškova oglašavanja X 2). Prema formuli (7) dobijamo: b 1 ± t nk –1 Sb 1 . Ukoliko b 1 = –53,2173 (vidi sliku 3), Sb 1 = 6,8522, kritična vrijednost t-statistika na 95% nivo samopouzdanja i 31 stepen slobode t nk –1 \u003d STUDENT.OBR (0,975; 31) \u003d 2,0395, dobijamo:

–53,2173 ± 2,0395*6,8522

–53,2173 ± 13,9752

–67,1925 ≤ β 1 ≤ –39,2421

Dakle, uzimajući u obzir učinak troškova oglašavanja, može se tvrditi da povećanjem cijene šipke za jedan cent, obim prodaje se smanjuje za iznos koji se kreće od 39,2 do 67,2 jedinice. Postoji 95% šanse da ovaj interval ispravno procjenjuje odnos između dvije varijable. Budući da ovaj interval povjerenja ne sadrži nulu, može se tvrditi da koeficijent regresije β 1 ima statistički značajan utjecaj na prodaju.

Procjena značaja eksplanatornih varijabli u modelu višestruke regresije

Model višestruke regresije trebao bi uključivati ​​samo one objašnjavajuće varijable koje precizno predviđaju vrijednost zavisne varijable. Ako bilo koja od varijabli za objašnjenje ne ispunjava ovaj zahtjev, mora se ukloniti iz modela. Kao alternativna metoda za procjenu doprinosa eksplanatorne varijable, po pravilu, privatni F-kriterijum. Sastoji se u procjeni promjene sume kvadrata regresije nakon uključivanja sljedeće varijable u model. Nova varijabla se uključuje u model samo kada dovodi do značajnog povećanja tačnosti predviđanja.

Da bismo primijenili parcijalni F-test na problem prodaje OmniPower šipke, potrebno je procijeniti doprinos varijable X 2(troškovi oglašavanja) nakon uključivanja varijable u model x1(cijena bara). Ako model uključuje više eksplanatornih varijabli, doprinos eksplanatorne varijable Xj može se odrediti isključivanjem iz modela i procjenom regresijskog suma kvadrata (SSR) izračunatog preko preostalih varijabli. Ako model uključuje dvije varijable, doprinos svake od njih je određen formulama:

Procjena doprinosa varijable X 1 X 2:

(8a) SSR(X 1 |X 2) = SSR(X 1 i X 2) – SSR(X 2)

Procjena doprinosa varijable X 2 pod uslovom da je varijabla uključena u model X 1:

(8b) SSR(X 2 |X 1) = SSR(X 1 i X 2) – SSR(X 1)

Količine SSR(X2) i SSR (X 1) su, redom, sume kvadrata regresije izračunate samo za jednu od objašnjenih varijabli (slika 9).

Rice. 9. Koeficijenti jednostavnog modela linearne regresije, uzimajući u obzir: (a) obim prodaje i cijenu bara - SSR(X 1); (b) obim prodaje i troškovi oglašavanja - SSR(X2)(dobije se pomoću Excel Analysis ToolPack-a)

Null i alternativne hipoteze o doprinosu varijable X 1 formulirani su na sljedeći način: H 0- omogućiti varijablu X 1 ne dovodi do značajnog povećanja tačnosti modela, koji uzima u obzir varijablu X 2; H 1- omogućiti varijablu X 1 dovodi do značajnog povećanja tačnosti modela, koji uzima u obzir varijablu X 2. Statistika na kojoj se temelji količnik F-kriterijum za dvije varijable, izračunat po formuli:

gdje MSE je varijansa greške (ostatak) za dva faktora istovremeno. A-prioritet F-statistika ima F-distribucija od jednog i n-k-1 stepena slobode.

dakle, SSR(X2)= 14 915 814 (slika 9), SSR(X 1 i X 2)= 39 472 731 (slika 3, ćelija C12). Dakle, prema formuli (8a) dobijamo: SSR (X 1 | X 2) \u003d SSR (X 1 i X 2) - SSR (X 2) \u003d 39 472 731 - 14 915 814 = 24 556 917. Dakle, za SSR(X 1 |X 2) = 24 556 917 i MSE (X 1 i X 2) = 407 127 (slika 3, ćelija D13), koristeći formulu (9), dobijamo: F= 24,556,917 / 407,127 = 60,32. Ako je nivo značajnosti 0,05, onda je kritična vrijednost F-distribucije sa jednim i 31 stepenom slobode = F. OBR (0,95; 1; 31) = 4,16 (Sl. 10).

Rice. 10. Testiranje hipoteze o značajnosti koeficijenata regresije na nivou značajnosti od 0,05, sa jednim i 31 stepenom slobode

Pošto je izračunata vrednost F-statistika više nego kritična (60,32 > 4,17), hipoteza H 0 se odbacuje, stoga se uzima u obzir varijabla X 1(cijene) uvelike poboljšava regresijski model koji već uključuje varijablu X 2(troškovi oglašavanja).

Slično, može se procijeniti uticaj varijable X 2(troškovi oglašavanja) po modelu koji već uključuje varijablu X 1(Cijena). Izračunajte sami. Uslov odluke uzrokuje 27,8 > 4,17, a time i uključivanje varijable X 2 takođe dovodi do značajnog povećanja tačnosti modela, koji uzima u obzir varijablu X 1 . Dakle, uključivanje svake od varijabli poboljšava tačnost modela. Stoga obje varijable moraju biti uključene u model višestruke regresije: cijena i troškovi oglašavanja.

Zanimljivo, vrijednost t-statistika izračunata po formuli (6), a vrijednost privatnog F-statistika, datu formulu(9) su jedinstveno međusobno povezani:

gdje a je broj stepeni slobode.

Modeli regresije lažne varijable i efekti interakcije

Kada smo raspravljali o višestrukim regresijskim modelima, pretpostavili smo da je svaka nezavisna varijabla broj. Međutim, u mnogim situacijama potrebno je uključiti kategoričke varijable u model. Na primjer, u problemu prodaje OmniPower bara, cijena i troškovi oglašavanja su korišteni za predviđanje prosječne mjesečne prodaje. Pored ovih numeričkih varijabli, možete pokušati uzeti u obzir u modelu lokaciju robe unutar trgovine (na primjer, u izlogu ili ne). Da bi se uzele u obzir kategoričke varijable u regresijskom modelu, lažne varijable moraju biti uključene u njega. Na primjer, ako kategorička eksplanatorna varijabla ima dvije kategorije, jedna lažna varijabla je dovoljna da ih predstavi Xd: X d= 0 ako zapažanje pripada prvoj kategoriji, X d= 1 ako zapažanje pripada drugoj kategoriji.

Da bismo ilustrirali lažne varijable, razmotrimo model za predviđanje prosječne procijenjene vrijednosti nekretnina na osnovu uzorka od 15 kuća. Kao varijable za objašnjenje biramo stambenu površinu kuće (hiljadu kvadratnih metara) i prisustvo kamina (Sl. 11). Lažna varijabla X 2(prisustvo kamina) definira se na sljedeći način: X 2= 0 ako u kući nema kamina, X 2= 1 ako kuća ima kamin.

Rice. 11. Procijenjena vrijednost predviđena stambenim prostorom i prisustvom kamina

Pretpostavimo da je nagib procijenjene vrijednosti, ovisno o stambenoj površini, isti za kuće sa i bez kamina. Tada model višestruke regresije izgleda ovako:

Y i = β 0 + β 1 X 1i + β 2 X 2i + ε i

gdje Y i- procijenjena vrijednost i-tu kuću, mjereno u hiljadu dolara, β 0 - pomak odgovora, x1i,- životni prostor i-go kuća, mjerena u hiljadama kvadratnih metara. stopala, β 1 - nagib procijenjene vrijednosti, ovisno o stambenoj površini kuće sa konstantnom vrijednošću lažne varijable, x1i, je lažna varijabla koja ukazuje na prisustvo ili odsustvo kamina, β 1 - nagib procijenjene vrijednosti, ovisno o stambenoj površini kuće sa konstantnom vrijednošću lažne varijable β 2 - efekat povećanja procenjene vrednosti kuće, u zavisnosti od prisustva kamina kada konstantna vrijednost dnevni boravak, ε i– slučajna greška u procijenjenoj vrijednosti i th house. Rezultati izračunavanja regresijskog modela prikazani su na sl. 12.

Rice. 12. Rezultati proračuna regresionog modela za procijenjenu vrijednost kuća; dobijeno sa Paket analiza u Excelu; za proračun je korištena tabela slična slici 1. 11, sa jedinom promjenom: "Da" se zamjenjuju jedinicama, a "Ne" nulama

U ovom modelu, koeficijenti regresije se tumače na sljedeći način:

  1. Ako je lažna varijabla konstantna, povećanje stambenog prostora na 1.000 kvadratnih metara. stopa rezultira povećanjem od 16,2 hiljada dolara u predviđenoj prosječnoj procijenjenoj vrijednosti.
  2. Ako je životni prostor konstantan, posedovanje kamina povećava prosečnu vrednost kuće za 3.900 dolara.

Obratite pažnju (slika 12), t-statistika koja odgovara stambenoj površini je 6,29, i R- vrijednost je skoro nula. U isto vrijeme t-statistika koja odgovara lažnoj varijabli je 3.1, i str-vrijednost - 0,009. Dakle, svaka od ove dvije varijable značajno doprinosi modelu ako je nivo značajnosti 0,01. Osim toga, višestruki mješoviti koeficijent korelacije znači da je 81,1% varijacije u procijenjenoj vrijednosti posljedica varijabilnosti stambenog prostora kuće i prisustva kamina.

Efekat interakcije. U svim gore navedenim regresijskim modelima, smatralo se da je efekat odgovora na eksplanatornu varijablu statistički nezavisan od efekta odgovora na druge varijable koje objašnjavaju. Ako ovaj uslov nije ispunjen, dolazi do interakcije između zavisnih varijabli. Na primjer, vjerovatno je da oglašavanje ima veliki utjecaj na prodaju proizvoda niske cijene. Međutim, ako je cijena proizvoda previsoka, povećanje potrošnje na oglašavanje ne može značajno povećati prodaju. U ovom slučaju postoji interakcija između cijene proizvoda i troškova njegovog oglašavanja. Drugim riječima, ne mogu se davati generalne izjave o zavisnosti prodaje od troškova oglašavanja. Utjecaj troškova oglašavanja na prodaju ovisi o cijeni. Ovaj uticaj se uzima u obzir u modelu višestruke regresije koristeći efekat interakcije. Da bismo ilustrovali ovaj koncept, vratimo se na problem cijene kuća.

U regresijskom modelu koji smo razvili, pretpostavljeno je da uticaj veličine kuće na njenu vrijednost ne zavisi od toga da li kuća ima kamin. Drugim riječima, vjerovalo se da je nagib procijenjene vrijednosti, ovisno o stambenoj površini kuće, isti za kuće sa i bez kamina. Ako se ove padine razlikuju jedna od druge, postoji interakcija između veličine kuće i prisutnosti kamina.

Testiranje hipoteze o jednakim nagibima svodi se na procjenu doprinosa koji proizvod eksplanatorne varijable daje regresijskom modelu x1 i lažna varijabla X 2. Ako je ovaj doprinos statistički značajan, originalni regresijski model se ne može primijeniti. Rezultati regresione analize koja uključuje varijable X 1, X 2 i X 3 \u003d X 1 * X 2 prikazano na sl. trinaest.

Rice. 13. Rezultati dobijeni sa Paket analiza Excel za regresijski model koji uzima u obzir životni prostor, prisustvo kamina i njihovu interakciju

Da bismo testirali nultu hipotezu H 0: β 3 = 0 i alternativnu hipotezu H 1: β 3 ≠ 0, koristeći rezultate prikazane na sl. 13, zapazite to t-statistika koja odgovara efektu interakcije varijabli je jednaka 1,48. Ukoliko R-vrijednost je 0,166 > 0,05, nulta hipoteza se ne odbacuje. Stoga interakcija varijabli nema značajan utjecaj na regresijski model, koji uzima u obzir stambeni prostor i prisustvo kamina.

Sažetak. Ova napomena pokazuje kako marketing menadžer može primijeniti višestruku linearnu analizu da predvidi obim prodaje na osnovu cijene i potrošnje na oglašavanje. Razmatrani su različiti modeli višestruke regresije, uključujući kvadratne modele, modele sa lažnim varijablama i modele sa efektima interakcije (slika 14).

Rice. četrnaest. Strukturna shema bilješke

Korišteni su materijali iz knjige Levin i dr. Statistika za menadžere. - M.: Williams, 2004. - str. 873–936

Pretpostavimo da programer procjenjuje grupu malih poslovnih zgrada u tradicionalnoj poslovnoj četvrti.

Programer može koristiti analizu višestruke regresije da procijeni cijenu poslovne zgrade u datom području na osnovu sljedećih varijabli.

y je procijenjena cijena poslovne zgrade;

x 1 - ukupna površina u kvadratnim metrima;

x 2 - broj kancelarija;

x 3 - broj ulaza (0,5 ulaz znači ulaz samo za dostavu korespondencije);

x 4 - vrijeme rada zgrade u godinama.

Ovaj primjer pretpostavlja da postoji linearna veza između svake nezavisne varijable (x 1 , x 2 , x 3 i x 4) i zavisne varijable (y), odnosno cijene poslovne zgrade u datom području. Početni podaci prikazani su na slici.

Postavke za rješavanje zadatka prikazane su na slici prozora " Regresija Rezultati proračuna nalaze se na posebnom listu u tri tabele

Kao rezultat, dobili smo sljedeće matematički model:

y = 52318 + 27,64*x1 + 12530*x2 + 2553*x3 - 234,24*x4.

Investitor sada može odrediti procijenjenu vrijednost poslovne zgrade na istom području. Ako ova zgrada ima površinu od 2500 kvadratnih metara, tri kancelarije, dva ulaza i životni vek od 25 godina, možete proceniti njegovu vrednost koristeći sledeću formulu:

y = 27,64 * 2500 + 12530 * 3 + 2553 * 2 - 234,24 * 25 + 52318 \u003d 158 261 k.u.

U regresionoj analizi najvažniji rezultati su:

  • koeficijenti za varijable i Y-presjek, koji su željeni parametri modela;
  • višestruki R koji karakteriše tačnost modela za dostupne ulazne podatke;
  • Fisher F-test(u razmatranom primjeru značajno premašuje kritičnu vrijednost jednaku 4,06);
  • t-statistika– vrijednosti koje karakteriziraju stepen značajnosti pojedinih koeficijenata modela.

Posebnu pažnju treba obratiti na t-statistiku. Vrlo često, kada se gradi regresijski model, nije poznato da li ovaj ili onaj faktor x utiče na y. Uključivanje u model faktora koji ne utiču na izlaznu vrijednost degradira kvalitet modela. Izračunavanje t-statistike pomaže u otkrivanju takvih faktora. Približna procjena može se napraviti na sljedeći način: ako je za n>>k apsolutna vrijednost t-statistike značajno veća od tri, odgovarajući koeficijent treba smatrati značajnim, a faktor treba uključiti u model, inače isključen iz model. Dakle, moguće je predložiti tehnologiju za izgradnju regresijskog modela, koja se sastoji od dvije faze:

1) obraditi paket " Regresija"sve dostupne podatke, analizirati t-statističke vrijednosti;

2) ukloniti iz tabele kolone početnih podataka sa onim faktorima za koje su koeficijenti beznačajni i obraditi sa paketom " Regresija"novi sto.

U prethodnim napomenama, fokus je često bio na jednoj numeričkoj varijabli, kao što su prinosi od zajedničkih fondova, vrijeme učitavanja web stranice ili potrošnja bezalkoholnih pića. U ovoj i sljedećim napomenama razmotrit ćemo metode za predviđanje vrijednosti numeričke varijable ovisno o vrijednostima jedne ili više drugih numeričkih varijabli.

Materijal će biti ilustrovan nizom primjera. Predviđanje prodaje u prodavnici odjeće. Lanac diskontnih radnji Sunflowers kontinuirano se širi već 25 godina. Međutim, kompanija trenutno nema sistematski pristup odabiru novih prodajnih mjesta. Lokacija na kojoj kompanija namjerava otvoriti novu radnju određuje se na osnovu subjektivnih razmatranja. Kriterijumi odabira su povoljni uvjeti najma ili ideja menadžera o idealnoj lokaciji trgovine. Zamislite da ste šef Odjeljenja za posebne projekte i planiranje. Dobili ste zadatak da razvijate strateški plan otvaranje novih radnji. Ovaj plan treba da sadrži prognozu godišnje prodaje u novootvorenim radnjama. da li ti to misliš trgovačko područje je u direktnoj vezi sa visinom prihoda i ovu činjenicu želite da uzmete u obzir u procesu donošenja odluka. Kako se razvijati statistički model da predvidi godišnju prodaju na osnovu nove veličine prodavnice?

Obično se regresiona analiza koristi za predviđanje vrijednosti varijable. Njegov cilj je razviti statistički model koji predviđa vrijednosti zavisne varijable, odnosno odgovora, iz vrijednosti najmanje jedne nezavisne, ili eksplanatorne, varijable. U ovoj napomeni razmotrićemo jednostavnu linearnu regresiju - statistička metoda, omogućavajući predviđanje vrijednosti zavisne varijable Y prema vrijednostima nezavisne varijable X. Sljedeće napomene će opisati model višestruke regresije dizajniran za predviđanje vrijednosti nezavisne varijable Y vrijednostima nekoliko zavisnih varijabli ( X 1 , X 2 , …, X k).

Preuzmite bilješku u formatu ili, primjere u formatu

Vrste regresijskih modela

gdje ρ 1 je koeficijent autokorelacije; ako ρ 1 = 0 (bez autokorelacije), D≈ 2; ako ρ 1 ≈ 1 (pozitivna autokorelacija), D≈ 0; ako ρ 1 = -1 (negativna autokorelacija), D ≈ 4.

U praksi se primjena Durbin-Watsonovog kriterija zasniva na poređenju vrijednosti D sa kritičnim teorijskim vrijednostima dL i d U za dati broj zapažanja n, brojevi nezavisnih varijable modela k(za jednostavnu linearnu regresiju k= 1) i nivo značajnosti α. Ako a D< d L , hipoteza nezavisnosti slučajna odstupanja odbijeno (dakle prisutna pozitivna autokorelacija); ako D > dU, hipoteza se ne odbacuje (tj. nema autokorelacije); ako dL< D < d U nema dovoljno razloga za donošenje odluke. Kada je izračunata vrijednost D prelazi 2, tada dL i d U ne poredi se sam koeficijent D, i izraz (4 – D).

Da bismo izračunali Durbin-Watsonovu statistiku u Excelu, okrećemo se donjoj tabeli na Sl. četrnaest Povlačenje bilansa. Brojač u izrazu (10) se izračunava pomoću funkcije = SUMMQDIFF(niz1, niz2), a nazivnik = SUMMQ(niz) (slika 16).

Rice. 16. Formule za izračunavanje Durbin-Watson statistike

U našem primjeru D= 0,883. Glavno pitanje je: koju vrijednost Durbin-Watsonove statistike treba smatrati dovoljno malom da se zaključi da postoji pozitivna autokorelacija? Potrebno je povezati vrijednost D sa kritičnim vrijednostima ( dL i d U) u zavisnosti od broja zapažanja n i nivo značajnosti α (slika 17).

Rice. 17. Kritične vrijednosti Durbin-Watson statistike (fragment tabele)

Dakle, u problemu obima prodaje u trgovini koja isporučuje robu u vaš dom postoji jedna nezavisna varijabla ( k= 1), 15 zapažanja ( n= 15) i nivo značajnosti α = 0,05. dakle, dL= 1,08 i dU= 1,36. Ukoliko D = 0,883 < dL= 1,08, postoji pozitivna autokorelacija između reziduala, metoda najmanjih kvadrata se ne može primijeniti.

Testiranje hipoteza o nagibu i koeficijentu korelacije

Navedena regresija je primijenjena isključivo za predviđanje. Odrediti koeficijente regresije i predvidjeti vrijednost varijable Y at datu vrijednost varijabla X korištena je metoda najmanjih kvadrata. Uz to, razmatrali smo standardnu ​​grešku procjene i koeficijent mješovite korelacije. Ako rezidualna analiza potvrdi da uvjeti primjenjivosti metode najmanjih kvadrata nisu narušeni, a model jednostavne linearne regresije je adekvatan, na osnovu podataka uzorka, može se tvrditi da postoji linearna veza između varijabli u populaciji.

Aplikacijat -kriterijumi za nagib. Provjerom da li je nagib populacije β 1 jednak nuli, može se utvrditi postoji li statistički značajna veza između varijabli X i Y. Ako se ova hipoteza odbaci, može se tvrditi da između varijabli X i Y postoji linearna veza. Nulte i alternativne hipoteze su formulisane na sledeći način: H 0: β 1 = 0 (nema linearne veze), H1: β 1 ≠ 0 (postoji linearna veza). A-prioritet t-statistika je jednaka razlici između nagiba uzorka i hipotetičkog nagiba populacije, podijeljena sa standardnom greškom procjene nagiba:

(11) t = (b 1 β 1 ) / Sb 1

gdje b 1 je nagib direktne regresije zasnovane na podacima uzorka, β1 je hipotetički nagib direktne opće populacije, , i statistiku testiranja t Ima t- distribucija sa n - 2 stepena slobode.

Provjerimo postoji li statistički značajan odnos između veličine trgovine i godišnje prodaje na α = 0,05. t-kriterijum se prikazuje zajedno sa ostalim parametrima kada se koristi Paket analiza(opcija Regresija). Potpuni rezultati Paketa analiza prikazani su na Sl. 4, fragment koji se odnosi na t-statistiku - na sl. osamnaest.

Rice. 18. Rezultati prijave t

Zbog broja prodavnica n= 14 (vidi sliku 3), kritična vrijednost t-statistika na nivou značajnosti α = 0,05 može se naći po formuli: t L=STUDENT.INV(0,025;12) = -2,1788 gdje je 0,025 polovina nivoa značajnosti, a 12 = n – 2; t U\u003d STUDENT.INV (0,975, 12) \u003d +2,1788.

Ukoliko t-statistika = 10,64 > t U= 2,1788 (slika 19), nulta hipoteza H 0 je odbijen. Na drugoj strani, R-vrijednost za X\u003d 10,6411, izračunato po formuli \u003d 1-STUDENT.DIST (D3, 12, TRUE), približno je jednako nuli, tako da je hipoteza H 0 je ponovo odbijen. Činjenica da R-vrijednost je gotovo nula, što znači da ako ne postoji stvarna linearna veza između veličine trgovine i godišnje prodaje, bilo bi gotovo nemoguće otkriti je korištenjem linearne regresije. Stoga postoji statistički značajna linearna veza između prosječne godišnje prodaje u prodavnici i veličine trgovine.

Rice. 19. Testiranje hipoteze o nagibu opšte populacije na nivou značajnosti od 0,05 i 12 stepeni slobode

AplikacijaF -kriterijumi za nagib. Alternativni pristup testiranju hipoteza o nagibu jednostavne linearne regresije je korištenje F-kriterijumi. Prisjetite se toga F-kriterijum se koristi za testiranje odnosa između dvije varijanse (vidi detalje). Prilikom testiranja hipoteze nagiba mjerom slučajne greške je varijansa greške (zbir grešaka na kvadrat podijeljen sa brojem stupnjeva slobode), dakle F-test koristi omjer varijanse objašnjene regresijom (tj. vrijednosti SSR podijeljeno brojem nezavisnih varijabli k), na varijansu greške ( MSE=S YX 2 ).

A-prioritet F-statistika je jednaka srednjem kvadratu odstupanja zbog regresije (MSR) podijeljenom s varijansom greške (MSE): F = MSR/ MSE, gdje MSR=SSR / k, MSE =SSE/(n– k – 1), k je broj nezavisnih varijabli u regresijskom modelu. Statistika testa F Ima F- distribucija sa k i n– k – 1 stepena slobode.

Za dati nivo značajnosti α pravilo odluke formulisan na sledeći način: ako F > FU, nulta hipoteza se odbacuje; u suprotnom se ne odbija. Rezultati, predstavljeni u obliku zbirne tabele analize varijanse, prikazani su na sl. 20.

Rice. 20. Tabela analize varijanse za testiranje hipoteze o statističkoj značajnosti koeficijenta regresije

Slično t-kriterijum F-kriterijum se prikazuje u tabeli kada se koristi Paket analiza(opcija Regresija). Puni rezultati rada Paket analiza prikazano na sl. 4, fragment koji se odnosi na F-statistika - na sl. 21.

Rice. 21. Rezultati prijave F- Kriterijumi dobijeni pomoću Excel Analysis ToolPack-a

F-statistika je 113,23 i R-vrijednost blizu nule (ćelija ZnačajF). Ako je nivo značajnosti α 0,05, odredite kritičnu vrijednost F-iz formule se mogu dobiti distribucije sa jednim i 12 stepeni slobode F U\u003d F. OBR (1-0,05; 1; 12) \u003d 4,7472 (Sl. 22). Ukoliko F = 113,23 > F U= 4,7472, i R-vrijednost blizu 0< 0,05, нулевая гипотеза H 0 odstupa, tj. Veličina prodavnice je usko povezana sa njenim godišnjim obimom prodaje.

Rice. 22. Testiranje hipoteze o nagibu opšte populacije na nivou značajnosti 0,05, sa jednim i 12 stepeni slobode

Interval pouzdanosti koji sadrži nagib β 1 . Da biste testirali hipotezu o postojanju linearne veze između varijabli, možete izgraditi interval pouzdanosti koji sadrži nagib β 1 i osigurati da hipotetička vrijednost β 1 = 0 pripada ovom intervalu. Centar intervala pouzdanosti koji sadrži nagib β 1 je nagib uzorka b 1 , a njegove granice su količine b 1 ±t n –2 Sb 1

Kao što je prikazano na sl. osamnaest, b 1 = +1,670, n = 14, Sb 1 = 0,157. t 12 \u003d STUDENT.OBR (0,975, 12) \u003d 2,1788. dakle, b 1 ±t n –2 Sb 1 = +1,670 ± 2,1788 * 0,157 = +1,670 ± 0,342, ili + 1,328 ≤ β 1 ≤ +2,012. Dakle, nagib populacije sa vjerovatnoćom od 0,95 leži u rasponu od +1,328 do +2,012 (tj. od 1.328.000 dolara do 2.012.000 dolara). Budući da su ove vrijednosti veće od nule, postoji statistički značajan linearni odnos između godišnje prodaje i površine trgovine. Kada bi interval povjerenja sadržavao nulu, ne bi postojao odnos između varijabli. Uz to, interval pouzdanosti znači da svakih 1.000 kvadratnih metara. stopa rezultira povećanjem prosječne prodaje od $1,328,000 na $2,012,000.

Upotrebat -kriterijumi za koeficijent korelacije. uveden je koeficijent korelacije r, što je mjera odnosa između dvije numeričke varijable. Može se koristiti za određivanje da li postoji statistički značajna veza između dvije varijable. Označimo koeficijent korelacije između populacija obje varijable simbolom ρ. Nulte i alternativne hipoteze su formulirane na sljedeći način: H 0: ρ = 0 (bez korelacije), H 1: ρ ≠ 0 (postoji korelacija). Provjera postojanja korelacije:

gdje r = + , ako b 1 > 0, r = – , ako b 1 < 0. Тестовая статистика t Ima t- distribucija sa n - 2 stepena slobode.

U problemu lanca prodavnica Suncokreti r2= 0,904, i b 1- +1,670 (vidi sliku 4). Ukoliko b 1> 0, koeficijent korelacije između godišnje prodaje i veličine prodavnice je r= +√0,904 = +0,951. Testirajmo nultu hipotezu da ne postoji korelacija između ovih varijabli koristeći t- statistika:

Na nivou značajnosti od α = 0,05, nultu hipotezu treba odbaciti jer t= 10,64 > 2,1788. Stoga se može tvrditi da postoji statistički značajna veza između godišnje prodaje i veličine trgovine.

Kada se raspravlja o zaključcima o nagibu populacije, intervali povjerenja i kriteriji za testiranje hipoteza su zamjenjivi alati. Međutim, pokazalo se da je izračunavanje intervala povjerenja koji sadrži koeficijent korelacije teže, budući da je oblik distribucije uzorkovanja statistike r zavisi od pravog koeficijenta korelacije.

Procjena očekivanja i predviđanje individualne vrednosti

Ovaj odjeljak govori o metodama za procjenu očekivanog odgovora Y i predviđanja individualnih vrijednosti Y za date vrijednosti varijable X.

Izgradnja intervala povjerenja. U primjeru 2 (vidi gornji dio Metoda najmanjeg kvadrata) jednačina regresije je omogućila da se predvidi vrijednost varijable Y X. U problemu odabira lokacije za maloprodajni objekat, prosječna godišnja prodaja u trgovini površine 4000 kvadratnih metara. stopa iznosio je 7,644 miliona dolara.Međutim, ova procjena matematičkog očekivanja opšte populacije je tačka. da bi se procijenila matematička očekivanja opće populacije, predložen je koncept intervala povjerenja. Slično, može se uvesti koncept interval pouzdanosti za matematičko očekivanje odgovora at postavljena vrijednost varijabla X:

gdje , = b 0 + b 1 X i– varijabla predviđene vrijednosti Y at X = X i, S YX je srednja kvadratna greška, n je veličina uzorka, Xi- datu vrijednost varijable X, µ Y|X = Xi– matematičko očekivanje varijable Y at X = H i,SSX=

Analiza formule (13) pokazuje da širina intervala povjerenja ovisi o nekoliko faktora. Na datom nivou značajnosti, povećanje amplitude fluktuacija oko linije regresije, mjereno korištenjem srednje kvadratne greške, dovodi do povećanja širine intervala. S druge strane, očekivano, povećanje veličine uzorka je praćeno sužavanjem intervala. Osim toga, širina intervala se mijenja ovisno o vrijednostima Xi. Ako je vrijednost varijable Y predviđene za količine X, blizu prosječne vrijednosti , ispada da je interval povjerenja uži nego kod predviđanja odgovora za vrijednosti koje su daleko od srednje vrijednosti.

Recimo da pri odabiru lokacije za trgovinu želimo izgraditi interval povjerenja od 95% za prosječnu godišnju prodaju u svim trgovinama površine 4000 kvadratnih metara. stopala:

Dakle, prosječan godišnji obim prodaje u svim radnjama površine 4.000 kvadratnih metara. stopa, sa vjerovatnoćom od 95% leži u rasponu od 6,971 do 8,317 miliona dolara.

Izračunajte interval pouzdanosti za predviđenu vrijednost. Pored intervala pouzdanosti za matematičko očekivanje odgovora za datu vrijednost varijable X, često je potrebno znati interval pouzdanosti za predviđenu vrijednost. Iako je formula za izračunavanje takvog intervala povjerenja vrlo slična formuli (13), ovaj interval sadrži predviđenu vrijednost, a ne procjenu parametra. Interval za predviđeni odgovor YX = Xi za određenu vrijednost varijable Xi određuje se formulom:

Pretpostavimo da pri odabiru lokacije za maloprodajni objekat želimo izgraditi interval povjerenja od 95% za predviđeni godišnji obim prodaje u trgovini površine 4000 kvadratnih metara. stopala:

Dakle, predviđeni godišnji obim prodaje za 4.000 kvadratnih metara. stopa, sa vjerovatnoćom od 95% leži u rasponu od 5,433 do 9,854 miliona dolara Kao što vidite, interval povjerenja za predviđenu vrijednost odgovora je mnogo širi od intervala povjerenja za njegovo matematičko očekivanje. To je zato što je varijabilnost u predviđanju pojedinačnih vrijednosti mnogo veća nego u procjeni očekivane vrijednosti.

Zamke i etička pitanja povezana s korištenjem regresije

Poteškoće povezane s regresijskom analizom:

  • Zanemarivanje uslova primenljivosti metode najmanjih kvadrata.
  • Pogrešna procjena uslova za primenljivost metode najmanjih kvadrata.
  • Pogrešan izbor alternativnih metoda uz kršenje uslova primjenjivosti metode najmanjih kvadrata.
  • Primjena regresione analize bez dubinskog poznavanja predmeta proučavanja.
  • Ekstrapolacija regresije izvan opsega eksplanatorne varijable.
  • Konfuzija između statističkih i uzročno-posledičnih veza.

Širenje tabela i softvera za statističke proračune eliminisani su računski problemi koji su sprečavali upotrebu regresione analize. Međutim, to je dovelo do činjenice da su regresijsku analizu počeli koristiti korisnici koji nemaju dovoljno kvalifikacija i znanja. Kako korisnici znaju za alternativne metode ako mnogi od njih nemaju pojma o uvjetima primjenjivosti metode najmanjih kvadrata i ne znaju kako provjeriti njihovu primjenu?

Istraživača ne treba zanositi brušenje brojeva – izračunavanje pomaka, nagiba i mešovite korelacije. Potrebno mu je dublje znanje. Hajde da to ilustrujemo klasičan primjer preuzeto iz udžbenika. Anscombe je pokazao da sva četiri skupa podataka prikazana na Sl. 23 imaju iste parametre regresije (slika 24).

Rice. 23. Četiri vještačka skupa podataka

Rice. 24. Regresiona analiza četiri vještačka skupa podataka; gotovo sa Paket analiza(kliknite na sliku da uvećate sliku)

Dakle, sa stanovišta regresione analize, svi ovi skupovi podataka su potpuno identični. Da je analiza na ovome završena, izgubili bismo mnogo korisne informacije. O tome svjedoče dijagrami raspršenosti (slika 25) i dijagrami reziduala (slika 26) koji su napravljeni za ove skupove podataka.

Rice. 25. Dijagrami raspršenosti za četiri skupa podataka

Dijagrami raspršenosti i dijagrami rezidua pokazuju da se ovi podaci razlikuju jedni od drugih. Jedini skup raspoređen duž prave linije je skup A. Dijagram reziduala izračunatih iz skupa A ne prati nikakvu pravilnost. Isto se ne može reći za skupove B, C i D. Dijagram raspršenosti za skup B pokazuje naglašen kvadratni obrazac. Ovaj zaključak potvrđuje dijagram reziduala, koji ima parabolički oblik. Dijagram raspršenosti i dijagram ostatka pokazuju da skup podataka B sadrži odstupnicu. U ovoj situaciji, potrebno je isključiti outlier iz skupa podataka i ponoviti analizu. Tehnika za otkrivanje i eliminisanje outliera iz opservacija naziva se analiza uticaja. Nakon eliminacije odstupanja, rezultat ponovne evaluacije modela može biti potpuno drugačiji. Ilustrira dijagram raspršenosti napravljen pomoću podataka iz skupa D neobična situacija, u kojem empirijski model značajno ovisi o individualnom odgovoru ( X 8 = 19, Y 8 = 12,5). Takve regresijske modele potrebno je posebno pažljivo izračunati. Dakle, dijagrami rasipanja i rezidua su suštinski alat za regresijsku analizu i trebali bi biti njen sastavni dio. Bez njih, regresiona analiza nije vjerodostojna.

Rice. 26. Pločice reziduala za četiri skupa podataka

Kako izbjeći zamke u regresijskoj analizi:

  • Analiza mogućeg odnosa između varijabli X i Y uvijek počnite sa dijagramom raspršenosti.
  • Prije tumačenja rezultata regresione analize, provjerite uslove za njenu primjenjivost.
  • Nacrtajte ostatke u odnosu na nezavisnu varijablu. Ovo će nam omogućiti da utvrdimo koliko dobro empirijski model odgovara rezultatima posmatranja i da otkrijemo kršenje konstantnosti varijanse.
  • Koristite histograme, dijagrame stabljike i listova, dijagrame okvira i dijagrame normalne distribucije da biste testirali pretpostavku normalne distribucije grešaka.
  • Ako nisu ispunjeni uvjeti primjenjivosti metode najmanjih kvadrata, koristite alternativne metode (na primjer, kvadratne ili modele višestruke regresije).
  • Ako su ispunjeni uslovi primenljivosti metode najmanjih kvadrata, potrebno je testirati hipotezu o statističkoj značajnosti koeficijenata regresije i konstruisati intervale poverenja koji sadrže matematičko očekivanje i predviđenu vrednost odgovora.
  • Izbjegavajte predviđanje vrijednosti zavisne varijable izvan opsega nezavisne varijable.
  • Imajte to na umu statističke zavisnosti nisu uvijek uzročne. Zapamtite da korelacija između varijabli ne znači da postoji uzročna veza između njih.

Sažetak. Kao što je prikazano na blok dijagramu (slika 27), napomena opisuje jednostavan model linearne regresije, uslove njegove primenljivosti i načine testiranja ovih uslova. Razmatrano t-kriterijum za testiranje statističke značajnosti nagiba regresije. Za predviđanje vrijednosti zavisne varijable koristili smo se regresijski model. Razmatran je primjer koji se odnosi na izbor mjesta za maloprodajno mjesto, u kojem se proučava ovisnost godišnjeg obima prodaje od površine trgovine. Dobivene informacije vam omogućavaju da preciznije odaberete lokaciju za trgovinu i predvidite njenu godišnju prodaju. U napomenama koje slijede nastavit će se rasprava o regresionoj analizi, kao io višestrukim regresijskim modelima.

Rice. 27. Blok dijagram bilješke

Korišteni su materijali iz knjige Levin i dr. Statistika za menadžere. - M.: Williams, 2004. - str. 792–872

Ako je zavisna varijabla kategorička, treba primijeniti logističku regresiju.

Svrha višestruke regresije je analizirati odnos između jedne zavisne i nekoliko nezavisnih varijabli.

Primjer: Postoje podaci o cijeni jednog sjedišta (pri kupovini 50 mjesta) za različite PDM sisteme. Potrebno: procijeniti odnos između cijene radnog mjesta PDM sistema i broja karakteristika koje su implementirane u njemu, prikazanih u tabeli 2.

Tabela 2 - Karakteristike PDM sistema

Broj artikla PDM sistem Cijena Upravljanje konfiguracijom proizvoda Modeli proizvoda Timski rad Upravljanje promjenama proizvoda Tok dokumenata Arhive Pretraga dokumenata Projektno planiranje Menadžment proizvodnje proizvoda
iMAN Da Da
PartY Plus Da Da
PDM STEP Suite Da Da
Traži Da Da
Hladan vjetar Da Da
Compass Manager Da Da
T-Flex Docs Da Da
TechnoPro Ne Ne

Numerička vrijednost karakteristika (osim "Cijena", "Modeli proizvoda" i "Timski rad") označava broj implementiranih zahtjeva svake karakteristike.

Kreirajmo i popunimo tabelu sa početnim podacima (slika 27).

Vrijednost "1" varijabli "Mod. izd." i „Prikupi. r-ta.” odgovara vrijednosti "Da" izvornih podataka, a vrijednost "0" vrijednosti "Ne" izvornih podataka.

Napravimo regresiju između zavisne varijable "Cost" i nezavisnih varijabli "Pr. konf., mod. izd., Collect. r-ta”, “Pr. rev.", "Doc.", "Arhiva", "Traži", "Plan-e", "Pr. napravljeno.

Da biste započeli statističku analizu početnih podataka, pozovite modul "Višestruka regresija" (slika 22).

U dijaloškom okviru koji se pojavi (slika 23) navedite varijable za koje će se izvršiti statistička analiza.

Slika 27 - Početni podaci

Da biste to uradili, pritisnite dugme Variables i u dijaloškom okviru koji se pojavi (slika 28) u delu koji odgovara zavisnim varijablama (Dependent var.) izaberite „1-Cost“, a u delu koji odgovara nezavisnim varijablama (Lista nezavisnih varijabli ) odaberite sve ostale varijable. Odabir nekoliko varijabli sa liste vrši se pomoću tipki "Ctrl" ili "Shift", ili navođenjem brojeva (opseg brojeva) varijabli u odgovarajućem polju.



Slika 28 - Dijaloški okvir za podešavanje varijabli za statističku analizu

Nakon što su varijable odabrane, kliknite na dugme "OK" u dijaloškom okviru za podešavanje parametara modula "Multiple Regression". U prozoru koji se pojavi sa natpisom „Broj indep. vars. >=(N-1); ne može invertirati kor. matrica." (Slika 29) pritisnite dugme "OK".

Ova poruka se pojavljuje kada sistem ne može izgraditi regresiju za sve deklarirane nezavisne varijable, jer broj varijabli je veći ili jednak broju pojavljivanja minus 1.

U prozoru koji se pojavi (slika 30) na kartici „Napredno“ možete promijeniti metodu za konstruiranje regresijske jednačine.

Slika 29 - Poruka o grešci

Da biste to učinili, u polju "Metoda" (metoda) odaberite "Naprijed korak po korak" (korak po korak sa uključivanjem).

Slika 30 - Prozor za izbor metode i postavljanje parametara za konstruisanje regresione jednadžbe

Metoda postupne regresije sastoji se u činjenici da se na svakom koraku neka nezavisna varijabla uključuje ili isključuje u model. Tako se izdvaja skup „najznačajnijih“ varijabli. Ovo smanjuje broj varijabli koje opisuju ovisnost.

Postepena analiza sa izuzetkom ("Postupno unazad"). U ovom slučaju, sve varijable će prvo biti uključene u model, a zatim će u svakom koraku biti eliminisane varijable koje malo doprinose predviđanjima. Tada se, kao rezultat uspješne analize, mogu pohraniti samo "važne" varijable u modelu, odnosno one varijable čiji je doprinos diskriminaciji veći od ostalih.

Postepena analiza sa uključivanjem ("Forward stepwise"). Kada se koristi ovaj metod, nezavisne varijable su sekvencijalno uključene u jednadžbu regresije sve dok jednačina na zadovoljavajući način ne opisuje originalne podatke. Uključivanje varijabli određuje se korištenjem F-kriterijuma. U svakom koraku se pregledavaju sve varijable i pronalazi se ona koja daje najveći doprinos razlici između skupova. Ova varijabla mora biti uključena u model za ovaj korak, i nastavite na sljedeći korak.

U polju "Presretni" (termin besplatne regresije) možete odabrati hoćete li ga uključiti u jednačinu ("Uključi u model") ili ga zanemariti i smatrati jednakim nuli ("Postavi na nulu").

Parametar "Tolerancija" je tolerancija varijabli. Definirano kao 1 minus kvadrat koeficijenta višestruka korelacija ovu varijablu sa svim ostalim nezavisnim varijablama u jednadžbi regresije. Stoga, što je manja tolerancija varijable, to je njen doprinos regresionoj jednačini više redundantni. Ako je tolerancija bilo koje od varijabli u jednadžbi regresije jednaka ili blizu nule, tada se regresiona jednačina ne može procijeniti. Stoga je poželjno postaviti parametar tolerancije na 0,05 ili 0,1.

Parametar "Regresija grebena; lambda:" se koristi kada su nezavisne varijable visoko međusobno korelirane i robusne procjene za koeficijente regresione jednadžbe ne mogu se dobiti pomoću najmanjih kvadrata. Navedena konstanta (lambda) će biti dodata dijagonali korelacione matrice, koja će se zatim ponovo normalizovati (tako da svi elementi dijagonale budu jednaki 1.0). Drugim riječima, ovaj parametar umjetno smanjuje koeficijente korelacije tako da se mogu izračunati robusnije (ali pristrasnije) procjene parametara regresije. U našem slučaju ovaj parametar se ne koristi.

Parametar "Batch processing/printing" se koristi kada je potrebno odmah pripremiti nekoliko tabela za izvještaj, koje odražavaju rezultate i proces regresione analize. Ova opcija je vrlo korisna kada želite ispisati ili analizirati rezultate postupne regresione analize u svakom koraku.

Na kartici „Stepwise“ (Slika 31) možete podesiti parametre za uključivanje („F to enter“) ili isključenje („F to remove“) uslova za varijable prilikom konstruisanja regresione jednačine, kao i broj koraci za konstruisanje jednačine (“Broj koraka”).

Slika 31 - Kartica “Stepwise” prozora za izbor metode i podešavanje parametara za konstruisanje regresijske jednačine

F je vrijednost F-kriterijuma.

Ako je prilikom postupne analize sa uključivanjem potrebno da sve ili skoro sve varijable uđu u jednadžbu regresije, tada je potrebno podesiti vrijednost “F za unos” na minimum (0,0001), a “F za uklanjanje” postaviti vrednost takođe na minimum.

Ako je tokom postupne analize sa izuzetkom potrebno ukloniti sve varijable (jednu po jednu) iz jednadžbe regresije, tada je potrebno podesiti vrijednost "F za ulazak" vrlo veliku, na primjer 999, i postaviti vrijednost "F za uklanjanje" blizu "F za ulazak".

Treba imati na umu da vrijednost parametra "F za uklanjanje" uvijek mora biti manja od "F za ulazak".

Opcija "Prikaži rezultate" ima dvije opcije:

2) Na svakom koraku - prikažite rezultate analize u svakom koraku.

Nakon klika na dugme „OK“ u prozoru za izbor metoda regresione analize, pojaviće se prozor sa rezultatima analize (Slika 32).

Slika 32 - Prozor rezultata analize

Slika 33 - Sažetak rezultata regresione analize

Prema rezultatima analize, koeficijent determinacije . To znači da konstruirana regresija objašnjava 99,987% širenja vrijednosti u odnosu na srednju vrijednost, tj. objašnjava gotovo svu varijabilnost varijabli.

Velika važnost i njen nivo značajnosti pokazuju da je konstruisana regresija visoko značajna.

Da vidite zbirne rezultate regresije, kliknite na dugme "Sažetak: rezultat regresije". Na ekranu će se prikazati tabela sa rezultatima analize (Slika 33).

Treća kolona ("B") prikazuje procjene nepoznatih parametara modela, tj. koeficijenti regresione jednadžbe.

Dakle, potrebna regresija izgleda ovako:

Kvalitativno konstruisana jednačina regresije može se tumačiti na sledeći način:

1) Troškovi PDM sistema se povećavaju sa povećanjem broja implementiranih funkcija za upravljanje promjenama, tok rada i planiranje, kao i ako je u sistem uključena funkcija podrške modelu proizvoda;

2) Troškovi PDM sistema opadaju sa povećanjem implementiranih funkcija upravljanja konfiguracijom i povećanjem mogućnosti pretraživanja.

Zadatak višestruke linearne regresije je da izgradi linearni model odnosa između skupa kontinuiranih prediktora i kontinuirane zavisne varijable. Često se koristi sljedeća regresijska jednačina:

Evo a i- koeficijenti regresije, b 0- besplatni član (ako se koristi), e- termin koji sadrži grešku - o njemu se prave različite pretpostavke, koje se, međutim, češće svode na normalnost distribucije sa nultom vektorskom maticom. matrica očekivanja i korelacije.

Takve linearni model mnogi zadaci su dobro opisani u raznim predmetne oblasti npr. ekonomija, industrija, medicina. To je zato što su neki zadaci linearne prirode.

Uzmimo jednostavan primjer. Neka se traži da se predvidi trošak polaganja puta prema njegovim poznatim parametrima. Istovremeno, imamo podatke o već postavljenim putevima koji ukazuju na dužinu, dubinu posipanja, količinu radnog materijala, broj radnika itd.

Jasno je da će cijena puta na kraju postati jednak zbiru vrijednosti svih ovih faktora posebno. Biće potrebna određena količina, na primer, lomljenog kamena, sa poznatom cenom po toni, određena količina asfalta, takođe sa poznatom cenom.

Moguće je da će se šuma morati sjeći radi polaganja, što će također dovesti do dodatnih troškova. Sve ovo zajedno će dati trošak izgradnje puta.

U ovom slučaju, model će uključivati ​​besplatnog člana, koji će, na primjer, biti odgovoran za organizacione troškove (koji su približno isti za sve građevinsko-instalacijske radove dati nivo) ili porezima.

Greška će uključivati ​​faktore koje nismo uzeli u obzir prilikom izrade modela (na primjer, vremenske prilike tokom izgradnje - to se uopće ne može uzeti u obzir).

Primjer: Višestruka regresijska analiza

Za ovaj primjer, analizirat će se nekoliko mogućih korelacija stopa siromaštva i moći koja predviđa postotak porodica ispod linije siromaštva. Stoga ćemo varijablu koja karakteriše procenat porodica ispod linije siromaštva smatrati zavisnom varijablom, a preostale varijable kao kontinuiranim prediktorima.

Regresijski koeficijenti

Da bismo saznali koja od eksplanatornih varijabli više doprinosi predviđanju siromaštva, ispitujemo standardizovane koeficijente (ili Beta) regresije.

Rice. 1. Procjene parametara koeficijenata regresije.

Beta koeficijenti su koeficijenti koje biste dobili kada biste sve varijable podesili na srednju vrijednost od 0 i standardnu ​​devijaciju od 1. Prema tome, veličina ovih Beta koeficijenata vam omogućava da uporedite relativni doprinos svake nezavisne varijable zavisnoj varijabli . Kao što se može vidjeti iz gornje tabele, broj stanovnika se mijenja od 1960. godine (POP_CHING), postotak stanovništva koji živi u selu (PT_RURAL) i broj ljudi zaposlenih u poljoprivreda(N_Empld) su najvažniji prediktori stopa siromaštva, kao samo su oni statistički značajni (njihov interval pouzdanosti od 95% ne uključuje 0). Koeficijent regresije promjene stanovništva od 1960. godine (Pop_Chng) je negativan, tako da što je manji rast stanovništva, to je više porodica koji žive ispod granice siromaštva u dotičnoj županiji. Koeficijent regresije za stanovništvo (%) koje živi na selu (Pt_Rural) je pozitivan, tj. što je veći procenat seljani, teme više nivoa siromaštvo.

Značaj prediktorskih efekata

Pogledajmo tabelu sa kriterijumima značaja.

Rice. 2. Simultani rezultati za svaku datu varijablu.

Kao što ova tabela pokazuje, samo efekti 2 varijable su statistički značajni: promena stanovništva od 1960. godine (Pop_Chng) i procenat stanovništva koji živi u selu (Pt_Rural), p< .05.

Analiza rezidua. Nakon uklapanja jednadžbe regresije, gotovo je uvijek potrebno provjeriti predviđene vrijednosti i ostatke. Na primjer, veliki odstupnici mogu uvelike iskriviti rezultate i dovesti do pogrešnih zaključaka.

Linijski grafikon emisija

Obično je potrebno provjeriti originalne ili standardizirane ostatke za velike odstupanja.

Rice. 3. Broj zapažanja i rezidua.

Scale vertikalna osa ovog grafa je iscrtan u terminima sigme, tj. standardna devijacija ostaci. Ako jedno ili više zapažanja ne spadaju u ±3 puta sigma, tada bi možda bilo vrijedno isključiti ta zapažanja (ovo se lako može učiniti kroz uvjete odabira promatranja) i ponovo pokrenuti analizu kako biste bili sigurni da rezultati nisu promijenjeni ovim outliers.

Mahalanobis Distances

Većina statističkih udžbenika troši mnogo vremena na vanjske vrijednosti i reziduale zavisne varijable. Međutim, uloga autliera u prediktorima često ostaje neidentifikovana. Na strani prediktorske varijable nalazi se lista varijabli koje učestvuju sa različitim težinama (koeficijentima regresije) u predviđanju zavisne varijable. O nezavisnim varijablama možete razmišljati kao o višedimenzionalnom prostoru u kojem se svako opažanje može odložiti. Na primjer, ako imate dvije nezavisne varijable sa jednake šanse regresije, bilo bi moguće konstruisati dijagram raspršenja ove dvije varijable i smjestiti svako zapažanje na ovu grafiku. Tada bi se mogla označiti prosječna vrijednost na ovom grafikonu i izračunati udaljenosti od svakog posmatranja do ovog prosjeka (tzv. centar gravitacije) u dvodimenzionalnom prostoru. Ovo je glavna ideja koja stoji iza izračunavanja Mahalanobisove udaljenosti. Sada pogledajte histogram varijable promjene stanovništva od 1960. godine.

Rice. 4. Histogram distribucije Mahalanobisovih udaljenosti.

Iz grafikona proizilazi da postoji jedan outlier na Mahalanobisovim udaljenostima.

Rice. 5. Uočene, predviđene i rezidualne vrijednosti.

Obratite pažnju kako se okrug Shelby (u prvom redu) izdvaja od ostalih okruga. Ako pogledate originalne podatke, vidjet ćete da u stvarnosti Shelby County ima najviše veliki broj ljudi zaposleni u poljoprivredi (varijabla N_Empld). Možda bi bilo mudrije izraziti ga u postocima, a ne u apsolutnim brojevima, u tom slučaju udaljenost Mahalanobisa u okrugu Shelby vjerojatno ne bi bila tako velika u usporedbi s drugim okruzima. Očigledno, Shelby County je izvan sebe.

Uklonjeni ostaci

Još jedna vrlo važna statistika koja omogućava da se procijeni ozbiljnost problema sa izuzetkom su uklonjeni ostaci. Ovo su standardizovani ostaci za odgovarajuće slučajeve, koji se dobijaju uklanjanjem tog slučaja iz analize. Zapamtite da procedura višestruke regresije prilagođava površinu regresije da pokaže odnos između zavisne varijable i prediktora. Ako je jedno zapažanje van granica (poput okruga Shelby), onda postoji tendencija da se regresijska površina "povuče" prema toj izvanrednoj vrijednosti. Kao rezultat, ako se ukloni odgovarajuća opservacija, dobiće se druga površina (i Beta koeficijenti). Stoga, ako su uklonjeni ostaci vrlo različiti od standardiziranih ostataka, onda ćete imati razloga pretpostaviti da regresiona analiza ozbiljno iskrivljeno relevantnim zapažanjem. U ovom primjeru, uklonjeni ostaci za okrug Shelby pokazuju da je ovo odstupanje koje ozbiljno iskrivljuje analizu. Dijagram raspršenosti jasno pokazuje outlier.

Rice. 6. Početni ostaci i raseljeni reziduali varijabla koja ukazuje na procenat porodica koje žive ispod linije siromaštva.

Većina njih ima manje-više jasne interpretacije, međutim, okrenimo se normalnim grafovima vjerovatnoće.

Kao što je već spomenuto, višestruka regresija pretpostavlja da postoji linearna veza između varijabli u jednadžbi i normalne distribucije reziduala. Ako su ove pretpostavke prekršene, zaključak može biti netačan. Normalni dijagram vjerovatnoće reziduala će vam reći da li postoje ozbiljne povrede ovih pretpostavki ili ne.

Rice. 7. Grafikon normalne vjerovatnoće; originalni ostaci.

Ovaj grafikon je napravljen na sljedeći način. Prvo, standardizirani ostaci su rangirani po redu. Iz ovih rangova možete izračunati z-vrijednosti (tj. standardne vrijednosti normalne distribucije) na osnovu pretpostavke da podaci slijede normalnu distribuciju. Ove z vrijednosti su iscrtane duž y-ose na grafikonu.

Ako su posmatrani ostaci (iscrtani duž x-ose) normalno raspoređeni, tada bi sve vrijednosti ležale na pravoj liniji na grafikonu. Na našem grafikonu sve tačke su veoma blizu u odnosu na krivu. Ako ostaci nisu normalno raspoređeni, onda odstupaju od ove linije. Outliers takođe postaju primetni na ovom grafikonu.

Ako dođe do gubitka slaganja i čini se da podaci formiraju jasnu krivulju (npr. u obliku slova S) oko linije, tada se zavisna varijabla može na neki način transformirati (npr. logaritamska transformacija za "smanjenje" repa distribucije itd.). Rasprava o ovoj metodi je izvan okvira ovog primjera (Neter, Wasserman i Kutner, 1985, str. 134-141, prikazana je rasprava o transformacijama koje uklanjaju nenormalnost i nelinearnost podataka). Međutim, istraživači vrlo često jednostavno provode analize direktno bez testiranja relevantnih pretpostavki, što dovodi do pogrešnih zaključaka.