Biograafiad Omadused Analüüs

Mitme regressiooni näide. Sissejuhatus mitmekordsesse regressiooni

Materjali illustreeritakse läbiva näitega: OmniPoweri müügiprognoos. Kujutage ette, et olete suure riikliku toidupoeketi turundusjuht. AT viimased aastad Toitainebatoonid, mis sisaldavad suur hulk rasvad, süsivesikud ja kalorid. Need võimaldavad teil kiiresti taastada jooksjate, mägironijate ja teiste sportlaste kurnavatel treeningutel ja võistlustel kulutatud energiavarud. Viimastel aastatel on toidubatoonide müük plahvatuslikult kasvanud ning OmniPoweri juhtkond on jõudnud järeldusele, et see turusegment on väga perspektiivikas. Enne uut tüüpi kangi siseriiklikule turule toomist soovib ettevõte hinnata selle kulu ja reklaamikulude mõju müügile. Turundusuuringusse valiti 34 kauplust. Peate looma regressioonimudeli, mis võimaldab analüüsida uuringu käigus saadud andmeid. Kas selleks on võimalik kasutada lihtsat lineaarse regressiooni mudelit, millest oli juttu eelmises märkuses? Kuidas tuleks seda muuta?

Mitme regressioonimudel

Turu-uuringuks koostas OmniPower valimi 34 kauplusest, mille müügimaht on ligikaudu sama. Mõelge kahele sõltumatule muutujale – OmniPoweri lati hind sentides ( X 1) ja kuueelarve reklaamikampaania hoitakse poes, väljendatuna dollarites ( X 2). See eelarve sisaldab siltide ja vaateakende kulusid, samuti kupongide ja tasuta näidiste jagamist. Sõltuv muutuja Y tähistab kuus müüdud OmniPoweri baaride arvu (joonis 1).

Riis. 1. OmniPower lattide igakuine müügimaht, nende hind ja reklaamikulud

Laadige alla märge vormingus või vormingus, näited vormingus

Regressioonikordajate tõlgendamine. Kui probleem on mitme seletava muutuja uurimisel, saab lihtsat lineaarset regressioonimudelit laiendada, eeldades, et vastuse ja iga sõltumatu muutuja vahel on lünk. lineaarne sõltuvus. Näiteks kui on k selgitavate muutujate korral on mitme lineaarse regressiooni mudel järgmine:

(1) Y i = β 0 + β 1 X 1i + β 2 X 2i + … + β k X ki + ε i

kus β 0 - vahetus, β 1 - sirgjoone kalle Y, olenevalt muutujast X 1 kui muutujad X 2 , X 3 , … , X k on konstandid β 2 - sirgjoone kalle Y, olenevalt muutujast X 2 kui muutujad X 1 , X 3 , … , X k on konstandid β k- sirgjoone kalle Y, olenevalt muutujast X k kui muutujad X 1, X 2, …, X k-1 on konstandid ε i Y sisse i m vaatlus.

Täpsemalt, mitmekordse regressioonimudel kahe selgitava muutujaga:

(2) Y i = β 0 + β 1 X 1 i + β 2 X 2 i + ε i

kus β 0 - vahetus, β 1 - sirgjoone kalle Y, olenevalt muutujast X 1 kui muutuja X 2 on konstant, β 2 - sirgjoone kalle Y, olenevalt muutujast X 2 kui muutuja X 1 on konstant, ε i- juhusliku muutuja viga Y sisse i m vaatlus.

Võrdleme seda mitmekordse lineaarse regressiooni mudelit ja lihtsat lineaarse regressiooni mudelit: Y i = β 0 + β 1 X i + ε i. Lihtsa lineaarse regressioonimudeli puhul on kalle β 1 Y kui muutuja X väärtus muutub ühe võrra ja ei võta arvesse teiste tegurite mõju. Kahe sõltumatu muutujaga (2) mitmekordse regressioonimudeli puhul on kalle β 1 tähistab muutuja keskmise väärtuse muutust Y muutuja väärtuse muutmisel x1ühiku kohta, võttes arvesse muutuja mõju X 2. Seda väärtust nimetatakse puhta regressiooni koefitsiendiks (või osaliseks regressiooniks).

Nagu lihtsas lineaarses regressioonimudelis, valimi regressioonikordajad b 0 , b 1 , ja b 2 on vastava üldkogumi parameetrite hinnangud β 0 , β 1 ja β 2 .

Mitmekordne regressioonivõrrand kahe sõltumatu muutujaga:

(3) = b 0 + b 1 X 1 i + b 2 X 2 i

Regressioonikoefitsientide arvutamiseks kasutatakse meetodit vähimruudud. Excelis saate kasutada Analüüsi pakett, valik Regressioon. Erinevalt lineaarse regressiooni loomisest määrake lihtsalt kui Sisestusintervall X ala, mis sisaldab kõiki sõltumatuid muutujaid (joonis 2). Meie näites on see $C$1:$D$35.

Riis. 2. Pakiregressiooni aken Exceli analüüs

Analüüsipaketi tulemused on näidatud joonisel fig. 3. Nagu näeme, b 0 = 5 837,52, b 1 = -53,217 ja b 2 = 3,163. Seega = 5 837,52 –53,217 X 1 i + 3,163 X 2 i, kus Ŷ i- OmniPoweri toitumisbatoonide prognoositav müük aastal i-m kauplus (tk), X 1i- baari hind (sentides) tollides i-m kauplus, X 2i- igakuised reklaamikulud i pood (dollarites).

Riis. 3. OmniPoweri lati müügimahu mitmekordne regressiooniuuring

Valikuline kalle b 0 on 5 837,52 ja see on hinnanguline keskmine OmniPoweri baaride arv, mida müüakse kuus nullhinnaga ja ilma reklaamikuludeta. Kuna need tingimused on mõttetud, on antud olukorras kalde väärtus b 0 puudub mõistlik tõlgendus.

Valikuline kalle b 1 on -53,217. See tähendab, et antud igakuise reklaamikulu summa juures tooks lati ühe sendi hinna tõus kaasa eeldatava müügi vähenemise 53 217 ühiku võrra. Samamoodi proovivõtu kalle b 2 , võrdne 3,613, tähendab, et millal püsihind igakuiste reklaamikulude 1-dollarilise kasvuga kaasneb baarimüügi eeldatav kasv 3613 võrra. Need hinnangud annavad parema ülevaate hinna ja reklaami mõjust müügile. Näiteks fikseeritud summa reklaamikulu korral suurendab baari hinna 10-sendine langus müüki 532 173 ühiku võrra ja 100-dollarine reklaamikulude kasv müüki 361,31 ühiku võrra. .

Nõlvade tõlgendamine mitme regressiooni mudelis. Mitmekordse regressioonimudeli koefitsiente nimetatakse puhasteks regressioonikordajateks. Nad hindavad reaktsiooni keskmist muutust Y väärtuse muutmisel Xühiku kohta, kui kõik muud selgitavad muutujad on "külmutatud". Näiteks OmniPoweri baariprobleemi puhul müüb pood, mille reklaamikulu on kuus fikseeritud, 53 217 baari vähem, kui tõstab oma hinda ühe sendi võrra. Nende koefitsientide teine ​​tõlgendus on võimalik. Kujutage ette samu poode sama suure reklaamikuluga. Kui batooni hind langeb ühe sendi võrra, kasvab müük neis poodides 53 217 baari võrra. Mõelge nüüd kahele poele, kus baarid maksavad sama palju, kuid reklaamikulud on erinevad. Kui need kulud suurenevad ühe dollari võrra, siis müügimaht neis kauplustes kasvab 3613 ühiku võrra. Nagu näeme, on nõlvade mõistlik tõlgendamine võimalik ainult teatud piirangute korral, mis on seatud selgitavatele muutujatele.

Sõltuva muutuja Y väärtuste ennustamine. Kui leiame, et kogutud andmed võimaldavad meil kasutada mitme regressioonimudelit, saame ennustada OmniPower Barsi igakuist müüki ning luua keskmise ja prognoositava müügi usaldusvahemikud. OmniPower Barsi keskmise 79-sendise müügimüügi ennustamiseks kuus kaupluses, mis kulutab reklaamile 400 dollarit kuus, kasutage mitmekordse regressiooni võrrandit: Y = 5837,53 – 53,2173*79 + 3,6131*400 = 3079. Seetõttu on poodide eeldatav müügimaht müües OmniPoweri baarid hinnaga 79 senti ja kulutades reklaamile 400 dollarit kuus, on 3079.

Väärtuse arvutamine Y ja jääke hinnates saab konstrueerida usaldusvahemikke, mis sisaldavad oodatud väärtus ja prognoositud vastuse väärtus. käsitlesime seda protseduuri lihtsa lineaarse regressioonimudeli raames. Sarnaste hinnangute koostamine mitme regressioonimudeli jaoks on aga seotud suurte arvutusraskustega ja seda siin ei esitata.

Mitmekordne segakorrelatsioonikordaja. Tuletame meelde, et regressioonimudel võimaldab arvutada segakorrelatsiooni koefitsiendi r2. Kuna mitme regressioonimudelis on vähemalt kaks seletavat muutujat, on mitmekordne segakorrelatsioonikordaja muutuja dispersiooni murdosa. Y, mida seletatakse antud selgitavate muutujate komplektiga:

kus SSR on regressiooni ruutude summa, SSTkogu summa ruudud.

Näiteks OmniPoweri baari müügiprobleemis SSR = 39 472 731, SST= 52 093 677 ja k = 2. Seega,

See tähendab, et 75,8% müügimahtude kõikumisest on tingitud hinnamuutustest ja reklaamikulude kõikumisest.

Mitme regressioonimudeli jääkanalüüs

Jääkanalüüs võimaldab määrata, kas saab rakendada kahe (või enama) selgitava muutujaga mitme regressioonimudelit. Tavaliselt viiakse läbi järgmised tüübid jääkide analüüs:

Esimene graafik (joonis 4a) võimaldab analüüsida jääkide jaotust sõltuvalt ennustatud väärtustest. Kui jääkide väärtus ei sõltu prognoositud väärtustest ja võtab nii positiivse kui ka negatiivsed väärtused(nagu meie näites), muutuja lineaarse sõltuvuse tingimus Y mõlema seletava muutuja puhul on täidetud. Kahjuks sisse Analüüsi pakett Millegipärast seda graafikut ei koostata. Võib olla aknas Regressioon(vt joonis 2) lülitage sisse Jäänused. See võimaldab teil kuvada tabeli koos ülejäänud osadega ja juba sellele tugineda hajuvusdiagramm(joonis 4).

Riis. 4. Jääkide sõltuvus prognoositavast väärtusest

Teine ja kolmas graafik näitavad jääkide sõltuvust selgitavatest muutujatest. Need graafikud võivad paljastada ruutväärtuse. Sellises olukorras on vaja mitmekordse regressiooni mudelile lisada ruudus seletav muutuja. Neid graafikuid kuvab analüüsipakett (vt joonis 2), kui lubate suvandi Jääkgraafik (Joon. 5).

Riis. 5. Jääkide sõltuvus hinnast ja reklaamikuludest

Mitme regressioonimudeli olulisuse testimine.

Pärast jääkanalüüsi abil kinnitamist, et lineaarne mitmikregressioonimudel on adekvaatne, saab kindlaks teha, kas sõltuva muutuja ja selgitavate muutujate hulga vahel on statistiliselt oluline seos. Kuna mudel sisaldab mitmeid seletavaid muutujaid, siis null- ja alternatiivhüpotees on sõnastatud järgmiselt: H 0: β 1 = β 2 = ... = β k = 0 (vastuse ja selgitavate muutujate vahel lineaarne seos puudub), H 1: on vähemalt üks väärtus β j ≠ 0 (vastuse ja vähemalt ühe seletava muutuja vahel on lineaarne sõltuvus).

Nullhüpoteesi testimiseks kasutame F-kriteerium - test F-statistika võrdub regressiooni keskmise ruut (MSR) jagatud vea dispersiooniga (MSE):

kus F F- levitamine koos k ja n–k–1 vabadusastmed k- sõltumatute muutujate arv regressioonimudelis.

Otsustusreegel näeb välja järgmine: olulisuse tasemel α on nullhüpotees H 0 lükatakse tagasi, kui F > F U(k,n – k – 1), vastasel juhul ei lükata hüpoteesi H 0 tagasi (joonis 6).

Riis. 6. Dispersioonanalüüsi kokkuvõtlik tabel hüpoteesi kontrollimiseks statistiline olulisus mitu regressioonikordajat

ANOVA koondtabel on täidetud kasutades Analüüsi pakett Excel OmniPoweri baaride müügiprobleemi lahendamisel on näidatud joonisel fig. 3 (vt ala A10:F14). Kui olulisuse tase on 0,05, siis kriitiline väärtus F-jaotused kahe ja 31 vabadusastmega FU(2,31)\u003d F. OBR (1-0,05; 2; 31) \u003d võrdub 3,305-ga (joonis 7).

Riis. 7. Hüpoteesi kontrollimine regressioonikordajate olulisuse kohta olulisuse tasemel α = 0,05, 2 ja 31 vabadusastmega

Nagu on näidatud joonisel fig. 3, F-statistika on 48,477 > FU(2,31)= 3,305 ja lk-väärtus 0000 lähedal< 0,05. Следовательно, нулевая гипотеза Н 0 отклоняется, и объем продаж линейно связан хотя бы с одной из объясняющих переменных (ценой и/или затратами на рекламу).

Statistilised järeldused regressioonikordajate üldkogumi kohta

Et tuvastada muutujate vaheline statistiliselt oluline seos X ja Y lihtsas lineaarse regressiooni mudelis viidi läbi kaldehüpoteesi test. Lisaks sellele, et hinnata üldrahvastiku kallet, ehitasime usaldusvahemik(cm. ).

Hüpoteesi testimine. Et kontrollida hüpoteesi, et üldkogumi β 1 tõus lihtsas lineaarses regressioonimudelis on null, kasutatakse valemit t = (b 1 – β 1)/S b 1. Seda saab laiendada mitme regressioonimudeliga:

kus t on teststatistika, millel on t- levitamine koos n–k–1 vabadusastmed bj- muutuja kalle Xj muutuja suhtes Y kui kõik muud selgitavad muutujad on konstandid, Sbj on regressioonikordaja ruutkeskmine viga bj, k- seletavate muutujate arv regressioonivõrrandis, β j - vastuste populatsiooni hüpoteetiline kalle j-th muutuja suhtes, kui kõik muud muutujad on fikseeritud.

Joonisel fig. 3 (alumine tabel) näitab taotlemise tulemusi t-kriteeriumid (saadud kasutades Analüüsi pakett) iga regressioonimudelis sisalduva sõltumatu muutuja kohta. Seega, kui on vaja kindlaks teha, kas muutujal on X 2(reklaamikulud) olulise mõju müügile fikseeritud hinnaga OmniPower baari, formuleeritakse null- ja alternatiivhüpoteesid: H 0: β2 = 0, H 1: β2 ≠ 0. Kooskõlas valemiga (6) saame :

Kui olulisuse tase on 0,05, siis kriitilised väärtused t-31 vabadusastmega jaotused on t L = STUDENT.OBR(0,025;31) = –2,0395 ja t U = ÕPILAS.OBR(0,975;31) = 2,0395 (joonis 8). R-väärtus =1-ÕPILAS.DIST(5,27;31;TRUE) ja on 0,0000 lähedal. Ühe ebavõrdsuse alusel t= 5,27 > 2,0395 või R = 0,0000 < 0,05 нулевая гипотеза H 0 lükatakse tagasi. Seega fikseeritud hinnaga lati vahel muutuja X 2(reklaamikulud) ja müügimahust on statistiliselt oluline seos. Seega on tagasilükkamise võimalus äärmiselt väike nullhüpotees kui puudub lineaarne seos reklaamikulude ja müügimahtude vahel.

Riis. 8. Hüpoteesi kontrollimine regressioonikordajate olulisuse kohta olulisuse tasemel α = 0,05, 31 vabadusastmega

Spetsiifiliste regressioonikordajate olulisuse testimine on tegelikult hüpoteesi testimine regressioonimudelis sisalduva konkreetse muutuja olulisuse kohta koos teistega. Seega t-regressioonikordaja olulisuse hüpoteesi kontrollimise kriteerium on samaväärne iga selgitava muutuja mõju hüpoteesi kontrollimisega.

Usaldusintervallid. Selle asemel, et testida hüpoteesi populatsiooni kalde kohta, saate hinnata selle kalde väärtust. Mitme regressioonimudeli korral kasutatakse usaldusvahemiku koostamiseks järgmist valemit:

(7) bj ± t nk –1 Sbj

Me kasutame seda valemit 95% usaldusvahemiku koostamiseks, mis sisaldab üldkogumi kallet β 1 (hinna mõju x1 müügimahu kohta Y kindla summaga reklaamikuludega X 2). Vastavalt valemile (7) saame: b 1 ± t nk –1 Sb 1 . Niivõrd kui b 1 = –53,2173 (vt joonis 3), Sb 1 = 6,8522, kriitiline väärtus t- statistika 95% juures usalduse tase ja 31 vabadusastet t nk –1 \u003d STUDENT.OBR (0,975; 31) \u003d 2,0395, saame:

–53,2173 ± 2,0395*6,8522

–53,2173 ± 13,9752

–67,1925 ≤ β 1 ≤ –39,2421

Seega võib reklaamikulude mõju arvesse võttes väita, et lati ühe sendi võrra kallinedes väheneb müügimaht summas, mis jääb vahemikku 39,2-67,2 ühikut. On 95% tõenäosus, et see intervall hindab kahe muutuja vahelist seost õigesti. Kuna see usaldusvahemik ei sisalda nulli, võib väita, et regressioonikoefitsiendil β 1 on statistiliselt oluline mõju müügile.

Seletavate muutujate olulisuse hindamine mitme regressiooni mudelis

Mitme regressiooni mudel peaks sisaldama ainult neid selgitavaid muutujaid, mis ennustavad täpselt sõltuva muutuja väärtust. Kui mõni selgitav muutuja sellele nõudele ei vasta, tuleb see mudelist eemaldada. Alternatiivse meetodina selgitava muutuja panuse hindamiseks reeglina privaatne F- kriteerium. See seisneb regressiooni ruutude summa muutuse hindamises pärast järgmise muutuja kaasamist mudelisse. Uus muutuja kaasatakse mudelisse ainult siis, kui see toob kaasa ennustuse täpsuse olulise suurenemise.

Osalise F-testi rakendamiseks OmniPoweri baari müügiprobleemile on vaja hinnata muutuja panust X 2(reklaamikulud) pärast muutuja lisamist mudelisse x1(baari hind). Kui mudel sisaldab mitut selgitavat muutujat, siis selgitava muutuja panus Xj saab määrata, jättes selle mudelist välja ja hinnates ülejäänud muutujate põhjal arvutatud ruutude regressioonisummat (SSR). Kui mudel sisaldab kahte muutujat, määratakse nende mõlema panus valemitega:

Muutuja panuse hindamine X 1 X 2:

(8a) SSR(X 1 |X 2) = SSR(X 1 ja X 2) – SSR(X 2)

Muutuja panuse hindamine X 2 eeldusel, et muutuja on mudelisse kaasatud X 1:

(8b) SSR(X 2 |X 1) = SSR(X 1 ja X 2) – SSR(X 1)

Kogused SSR(X2) ja SSR(X 1) on vastavalt ainult ühe selgitatud muutuja jaoks arvutatud regressiooni ruutude summad (joonis 9).

Riis. 9. Lihtsa lineaarse regressioonimudeli koefitsiendid, võttes arvesse: (a) müügimahtu ja lati hinda - SSR(X 1); b) müügimaht ja reklaamikulud – SSR(X2)(saadud Exceli analüüsi tööriistapaketi abil)

Null- ja alternatiivsed hüpoteesid muutuja panuse kohta X 1 on sõnastatud järgmiselt: H 0- muutuja lubamine X 1 ei too kaasa muutujat arvesse võtva mudeli täpsuse olulist suurenemist X 2; H 1- muutuja lubamine X 1 toob kaasa muutujaga arvestava mudeli täpsuse olulise suurenemise X 2. Jagatise aluseks olev statistika F- kahe muutuja kriteerium, mis arvutatakse järgmise valemiga:

kus MSE on vea (jääk) dispersioon kahe teguri samaaegselt. A-prioor F- statistikas on F-jaotus ühest ja n-k-1 vabadusastmed.

Niisiis, SSR(X2)= 14 915 814 (joonis 9), SSR(X 1 ja X 2)= 39 472 731 (joonis 3, lahter C12). Seetõttu saame valemi (8a) kohaselt: SSR (X 1 | X 2) \u003d SSR (X 1 ja X 2) - SSR (X 2) \u003d 39 472 731 - 14 915 814 = 24 556 917. Seega SSR(X 1 |X 2) = 24 556 917 ja MSE (X 1 ja X 2) = 407 127 (joonis 3, lahter D13) saame valemi (9) abil: F= 24 556 917 / 407 127 = 60,32. Kui olulisuse tase on 0,05, siis kriitiline väärtus F-jaotused ühe ja 31 vabadusastmega = F. OBR (0,95; 1; 31) = 4,16 (joonis 10).

Riis. 10. Hüpoteesi kontrollimine regressioonikordajate olulisuse kohta olulisuse tasemel 0,05, ühe ja 31 vabadusastmega

Alates arvutatud väärtusest F-statistika rohkem kui kriitiline (60,32 > 4,17), hüpotees H 0 on tagasi lükatud, seega arvestatakse muutujat X 1(hinnad) parandab oluliselt regressioonimudelit, mis juba sisaldab muutujat X 2(reklaamikulud).

Samamoodi saab hinnata muutuja mõju X 2(reklaamikulud) mudeli kohta, mis juba sisaldab muutujat X 1(hind). Tehke arvutused ise. Otsustustingimus põhjustab 27,8 > 4,17 ja sellest tulenevalt muutuja kaasamise X 2 toob kaasa ka mudeli täpsuse olulise suurenemise, mis võtab arvesse muutujat X 1 . Seega parandab iga muutuja kaasamine mudeli täpsust. Seetõttu tuleb mitmekordse regressiooni mudelisse kaasata mõlemad muutujad: hind ja reklaamikulud.

Kummalisel kombel väärtus t-valemiga (6) arvutatud statistika ja eraisiku väärtus F- statistika, antud valem(9) on omavahel ainulaadselt seotud:

kus a on vabadusastmete arv.

Näivmuutuja regressioonimudelid ja interaktsiooniefektid

Mitme regressioonimudeli käsitlemisel oleme eeldanud, et iga sõltumatu muutuja on arv. Siiski on paljudes olukordades vaja mudelisse lisada kategoorilised muutujad. Näiteks OmniPoweri baari müügiprobleemi puhul kasutati hinda ja reklaamikulusid, et ennustada igakuist keskmist müüki. Lisaks nendele numbrilistele muutujatele võite proovida mudelis arvesse võtta kauba asukohta kaupluses sees (näiteks aknal või mitte). Kategooriliste muutujate arvestamiseks regressioonimudelis tuleb sellesse kaasata näivaid muutujaid. Näiteks kui kategoorilisel selgitaval muutujal on kaks kategooriat, piisab nende esindamiseks ühest näivast muutujast Xd: X d= 0, kui vaatlus kuulub esimesse kategooriasse, X d= 1, kui vaatlus kuulub teise kategooriasse.

Näidismuutujate illustreerimiseks kaaluge mudelit kinnisvara keskmise hinnatud väärtuse ennustamiseks 15 maja valimi põhjal. Selgitavateks muutujateks valime maja elamispinna (tuhat ruutjalga) ja kamina olemasolu (joon. 11). Näiv muutuja X 2(kamina olemasolu) määratletakse järgmiselt: X 2= 0, kui majas pole kaminat, X 2= 1, kui majas on kamin.

Riis. 11. Elamispinna ja kamina olemasolu järgi prognoositav hinnanguline väärtus

Oletame, et hinnangulise väärtuse kalle olenevalt elupinnast on kaminaga ja kaminata majadel sama. Siis näeb mitmekordne regressioonimudel välja selline:

Y i = β 0 + β 1 X 1i + β 2 X 2i + ε i

kus Y i- hinnatud väärtus i-th maja, mõõdetuna tuhat dollarit, β 0 - reageerimisvahetus, x1i,- eluruum i-mineku maja, mõõdetuna tuhandetes ruutmeetrites. jalad, β 1 - hinnangulise väärtuse kalle, sõltuvalt maja elamispinnast mannekeeni muutuja konstantse väärtusega, x1i, on näiv muutuja, mis näitab kamina olemasolu või puudumist, β 1 - hinnangulise väärtuse kalle, sõltuvalt maja elamispinnast mannekeeni muutuja konstantse väärtusega β 2 - maja hinnangulise väärtuse suurendamise mõju, olenevalt kamina olemasolust millal püsiv väärtus elutuba, ε i– hinnangulise väärtuse juhuslik viga i th maja. Regressioonimudeli arvutamise tulemused on näidatud joonisel fig. 12.

Riis. 12. Majade hinnangulise väärtuse regressioonimudeli arvutamise tulemused; saadud koos Analüüsi pakett Excelis; arvutamiseks kasutati joonisele 1 sarnast tabelit. 11, ainsa muudatusega: "Jah" asendatakse ühtedega ja "Ei" nullidega

Selles mudelis tõlgendatakse regressioonikoefitsiente järgmiselt:

  1. Kui näiv muutuja on konstantne, suureneb elamispind 1000 ruutmeetri kohta. jala tulemuseks on 16,2 000 dollari suurune prognoositav keskmine hinnatud väärtus.
  2. Kui elamispind on püsiv, suurendab kamin kodu keskmist väärtust 3900 dollari võrra.

Pöörake tähelepanu (joonis 12), t-elupinnale vastav statistika on 6,29 ja R- väärtus on peaaegu null. Samal ajal t näivmuutujale vastav statistika on 3,1 ja lk-väärtus - 0,009. Seega annavad kumbki neist kahest muutujast mudelile olulise panuse, kui olulisuse tase on 0,01. Lisaks tähendab mitmekordne segakorrelatsioonikordaja, et 81,1% hinnatud väärtuse kõikumisest tuleneb kodu elamispinna muutlikkusest ja kamina olemasolust.

Interaktsiooniefekt. Kõigis eespool käsitletud regressioonimudelites peeti vastuse mõju selgitavale muutujale statistiliselt sõltumatuks vastuse mõjust teistele selgitavatele muutujatele. Kui see tingimus ei ole täidetud, on sõltuvate muutujate vahel interaktsioon. Näiteks on tõenäoline, et reklaamil on suur mõju madala hinnaga toodete müügile. Kui aga toote hind on liiga kõrge, ei saa reklaamikulutuste kasv oluliselt müüki tõsta. Sel juhul on toote hind ja selle reklaamikulud omavahel seotud. Teisisõnu ei saa teha üldisi väiteid müügi sõltuvuse kohta reklaamikuludest. Reklaamikulude mõju müügile sõltub hinnast. Seda mõju võetakse interaktsiooniefekti kasutavas mitmekordse regressiooni mudelis arvesse. Selle kontseptsiooni illustreerimiseks pöördugem tagasi majade maksumuse probleemi juurde.

Meie väljatöötatud regressioonimudelis eeldati, et maja suuruse mõju selle väärtusele ei sõltu sellest, kas majas on kamin. Teisisõnu arvati, et eeldatava väärtuse kalle olenevalt maja elamispinnast oli kaminaga ja ilma kaminata majade puhul sama. Kui need nõlvad erinevad üksteisest, on maja suuruse ja kamina olemasolu vahel koostoime.

Võrdsete nõlvade hüpoteesi testimine taandub seletava muutuja korrutise panuse hindamisele regressioonimudelisse x1 ja näiv muutuja X 2. Kui see panus on statistiliselt oluline, ei saa algset regressioonimudelit rakendada. Muutujaid hõlmava regressioonanalüüsi tulemused X 1, X 2 ja X 3 \u003d X 1 * X 2 näidatud joonisel fig. kolmteist.

Riis. 13. Tulemused, mis on saadud rakendusega Analüüsi pakett Excel regressioonimudeli jaoks, mis võtab arvesse elamispinda, kamina olemasolu ja nende koostoimet

Nullhüpoteesi H 0: β 3 = 0 ja alternatiivse hüpoteesi H 1: β 3 ≠ 0 testimiseks, kasutades joonisel fig. 13, pange tähele t-muutujate interaktsiooni mõjule vastav statistika on võrdne 1,48-ga. Niivõrd kui R-väärtus on 0,166 > 0,05, nullhüpoteesi ei lükata tagasi. Seetõttu ei oma muutujate koostoime eluruumi ja kamina olemasolu arvestavale regressioonimudelile olulist mõju.

Kokkuvõte. See märkus näitab, kuidas turundusjuht saab kasutada mitut lineaarset analüüsi, et ennustada müügimahtu hinna ja reklaamikulude põhjal. Vaadeldakse erinevaid mitme regressioonimudeleid, sealhulgas ruutmudeleid, näivate muutujatega mudeleid ja interaktsiooniefektidega mudeleid (joonis 14).

Riis. neliteist. Struktuurne skeem märkmeid

Kasutatud on materjale raamatust Levin jt Statistics for managers. - M.: Williams, 2004. - lk. 873–936

Oletame, et arendaja hindab traditsioonilises äripiirkonnas väikeste büroohoonete rühma.

Arendaja saab kasutada mitme regressioonianalüüsi, et hinnata büroohoone hinda antud piirkonnas järgmiste muutujate põhjal.

y on büroohoone eeldatav hind;

x 1 - kogupindala ruutmeetrites;

x 2 - kontorite arv;

x 3 - sisendite arv (0,5 sisend tähendab sisendit ainult kirjavahetuse edastamiseks);

x 4 - hoone kasutusaeg aastates.

See näide eeldab, et iga sõltumatu muutuja (x 1, x 2, x 3 ja x 4) ja sõltuva muutuja (y) vahel on lineaarne seos, st büroohoone hind antud piirkonnas. Algandmed on näidatud joonisel.

Ülesande lahendamise seaded on näidatud akna joonisel " Regressioon Arvutustulemused on paigutatud eraldi lehele kolmes tabelis

Selle tulemusena saime järgmise matemaatiline mudel:

y = 52318 + 27,64 * × 1 + 12530 * × 2 + 2553 * × 3 - 234,24 * × 4.

Arendaja saab nüüd määrata samas piirkonnas asuva büroohoone hinnangulise väärtuse. Kui selle hoone pindala on 2500 ruutmeetrit, kolm kontorit, kaks sissepääsu ja eluiga 25 aastat, saate selle väärtust hinnata järgmise valemi abil:

y = 27,64 * 2500 + 12530 * 3 + 2553 * 2 - 234,24 * 25 + 52318 \u003d 158 261 c.u.

Regressioonanalüüsis on kõige olulisemad tulemused:

  • muutujate ja Y-lõike koefitsiendid, mis on mudeli soovitud parameetrid;
  • mitu R, mis iseloomustab mudeli täpsust saadaolevate sisendandmete jaoks;
  • Fisheri F-test(vaadatud näites ületab see oluliselt kriitilist väärtust, mis võrdub 4,06);
  • t-statistika– mudeli üksikute koefitsientide olulisuse astet iseloomustavad väärtused.

Erilist tähelepanu tuleks pöörata t-statistikale. Väga sageli ei ole regressioonimudeli koostamisel teada, kas see või teine ​​tegur x mõjutab y-d. Väljundväärtust mittemõjutavate tegurite kaasamine mudelisse halvendab mudeli kvaliteeti. T-statistika arvutamine aitab selliseid tegureid tuvastada. Ligikaudse hinnangu saab anda järgmiselt: kui n>>k korral on t-statistika absoluutväärtus oluliselt suurem kui kolm, tuleb vastav koefitsient lugeda oluliseks ja see tegur tuleb mudelisse kaasata, vastasel juhul välistada. mudel. Seega on võimalik välja pakkuda kahest etapist koosneva regressioonimudeli koostamise tehnoloogia:

1) töötle paketti " Regressioon"kõik kättesaadavad andmed, analüüsige t-statistilisi väärtusi;

2) eemaldada lähteandmete tabelist need tegurid, mille koefitsiendid on ebaolulised, ja töödelda paketiga " Regressioon"uus laud.

Eelmistes märkustes on sageli keskendutud ühele numbrilisele muutujale, nagu investeerimisfondide tootlus, veebilehe laadimisaeg või karastusjookide tarbimine. Selles ja järgmistes märkustes käsitleme arvulise muutuja väärtuste ennustamise meetodeid sõltuvalt ühe või mitme muu arvmuutuja väärtustest.

Materjali illustreeritakse läbiva näitega. Müügimahu prognoosimine riidepoes. Soodusrõivaste kaupluste kett Sunflowers on pidevalt laienenud juba 25 aastat. Samas ei ole ettevõttel praegu süsteemset lähenemist uute müügikohtade valikule. Asukoht, kus ettevõte kavatseb uue kaupluse avada, määratakse subjektiivsete kaalutluste põhjal. Valikukriteeriumiks on soodsad renditingimused või juhataja ettekujutus kaupluse ideaalsest asukohast. Kujutage ette, et olete eriprojektide ja planeerimise osakonna juhataja. Teile on määratud areneda strateegiline plaan uute kaupluste avamine. See plaan peaks sisaldama äsja avatud kaupluste aastamüügi prognoosi. Kas sa arvad nii kaubanduspiirkond on otseselt seotud tulu suurusega ja soovite seda asjaolu otsustusprotsessis arvesse võtta. Kuidas areneda statistiline mudel prognoosida iga-aastast müüki uue poe suuruse põhjal?

Tavaliselt kasutatakse muutuja väärtuste ennustamiseks regressioonanalüüsi. Selle eesmärk on välja töötada statistiline mudel, mis ennustab sõltuva muutuja ehk vastuse väärtusi vähemalt ühe sõltumatu või selgitava muutuja väärtuste põhjal. Selles märkuses käsitleme lihtsat lineaarset regressiooni - statistiline meetod, mis võimaldab ennustada sõltuva muutuja väärtusi Y sõltumatu muutuja väärtuste järgi X. Järgmistes märkustes kirjeldatakse mitmekordset regressioonimudelit, mis on loodud sõltumatu muutuja väärtuste ennustamiseks Y mitme sõltuva muutuja väärtuste järgi ( X 1, X 2, …, X k).

Laadige alla märge vormingus või vormingus, näited vormingus

Regressioonimudelite tüübid

kus ρ 1 on autokorrelatsioonikordaja; kui ρ 1 = 0 (autokorrelatsioon puudub), D≈ 2; kui ρ 1 ≈ 1 (positiivne autokorrelatsioon), D≈ 0; kui ρ 1 = -1 (negatiivne autokorrelatsioon), D ≈ 4.

Praktikas põhineb Durbin-Watsoni kriteeriumi rakendamine väärtuse võrdlusel D kriitiliste teoreetiliste väärtustega dl ja d U etteantud arvu vaatluste jaoks n, sõltumatute arvud mudeli muutujad k(lihtsa lineaarse regressiooni jaoks k= 1) ja olulisuse tase α. Kui a D< d L , sõltumatuse hüpotees juhuslikud kõrvalekalded tagasi lükatud (seega positiivne autokorrelatsioon olemas); kui D > d U, hüpoteesi ei lükata tagasi (st puudub autokorrelatsioon); kui dl< D < d U otsuse tegemiseks pole piisavalt põhjust. Kui arvutatud väärtus Dületab 2, siis dl ja d U ei võrrelda koefitsienti ennast D ja avaldis (4 – D).

Durbin-Watsoni statistika arvutamiseks Excelis pöördume joonisel fig. neliteist Saldo väljavõtmine. Lugeja avaldises (10) arvutatakse funktsiooni = SUMMQDIFF(massiiv1, massiiv2) ja nimetaja = SUMMQ(massiivi) abil (joonis 16).

Riis. 16. Durbin-Watsoni statistika arvutamise valemid

Meie näites D= 0,883. Põhiküsimus on: millist Durbin-Watsoni statistika väärtust tuleks pidada piisavalt väikeseks, et järeldada positiivse autokorrelatsiooni olemasolust? On vaja korreleerida D väärtus kriitiliste väärtustega ( dl ja d U) olenevalt vaatluste arvust n ja olulisuse tase α (joonis 17).

Riis. 17. Durbin-Watsoni statistika kriitilised väärtused (tabeli fragment)

Seega on teie koju kaupu tarniva kaupluse müügimahu probleemis üks sõltumatu muutuja ( k= 1), 15 vaatlust ( n= 15) ja olulisuse tase α = 0,05. Seega dl= 1,08 ja dU= 1,36. Niivõrd kui D = 0,883 < dl= 1,08, jääkide vahel on positiivne autokorrelatsioon, vähimruutude meetodit ei saa rakendada.

Hüpoteeside testimine kalde ja korrelatsioonikordaja kohta

Ülaltoodud regressiooni kasutati ainult prognoosimiseks. Regressioonikordajate määramiseks ja muutuja väärtuse ennustamiseks Y juures antud väärtus muutuv X kasutati vähimruutude meetodit. Lisaks võtsime arvesse hinnangu standardviga ja segakorrelatsioonikordaja. Kui jääkanalüüs kinnitab, et vähimruutude meetodi rakendatavuse tingimusi ei rikuta ning lihtne lineaarse regressioonimudel on adekvaatne, võib valimiandmete põhjal väita, et üldkogumi muutujate vahel on lineaarne seos.

Rakendust -kalde kriteeriumid. Kontrollides, kas populatsiooni kalle β 1 on võrdne nulliga, saab kindlaks teha, kas muutujate vahel on statistiliselt oluline seos X ja Y. Kui see hüpotees tagasi lükata, võib väita, et muutujate vahel X ja Y on lineaarne seos. Null- ja alternatiivhüpoteesid formuleeritakse järgmiselt: H 0: β 1 = 0 (lineaarne seos puudub), H1: β 1 ≠ 0 (on lineaarne seos). A-prioor t-statistika võrdub valimi kalde ja hüpoteetilise populatsiooni kalde erinevusega, mis on jagatud kalde hinnangu standardveaga:

(11) t = (b 1 β 1 ) / Sb 1

kus b 1 on valimiandmetel põhineva otsese regressiooni kalle, β1 on otsese üldkogumi hüpoteetiline tõus, ja teststatistikat t Sellel on t- levitamine koos n-2 vabadusastmed.

Kontrollime, kas poe suuruse ja aastamüügi vahel on statistiliselt oluline seos α = 0,05 juures. t-kriteeriumid kuvatakse kasutamisel koos teiste parameetritega Analüüsi pakett(valik Regressioon). Analüüsipaketi täielikud tulemused on näidatud joonisel fig. 4, t-statistikaga seotud fragment - joonisel fig. kaheksateist.

Riis. 18. Taotluste tulemused t

Kuna kaupluste arv n= 14 (vt joonis 3), kriitiline väärtus t-statistikat olulisuse tasemel α = 0,05 saab leida valemiga: t L=ÕPILAS.INV(0,025;12) = -2,1788 kus 0,025 on pool olulisuse tasemest ja 12 = n – 2; t U\u003d STUDENT.INV (0,975, 12) \u003d +2,1788.

Niivõrd kui t-statistika = 10,64 > t U= 2,1788 (joonis 19), nullhüpotees H 0 lükatakse tagasi. Teisel pool, R- väärtus X\u003d 10,6411, mis on arvutatud valemiga \u003d 1-TUDENG.DIST (D3, 12, TÕENE), on ligikaudu võrdne nulliga, seega on hüpotees H 0 lükatakse uuesti tagasi. Asjaolu, et R-väärtus on peaaegu null, mis tähendab, et kui poe suuruse ja aastamüügi vahel poleks reaalset lineaarset seost, oleks seda lineaarse regressiooni abil peaaegu võimatu tuvastada. Seetõttu on keskmise aastase kaupluse müügi ja kaupluse suuruse vahel statistiliselt oluline lineaarne seos.

Riis. 19. Hüpoteesi testimine üldpopulatsiooni kalde kohta olulisuse tasemel 0,05 ja 12 vabadusastet

RakendusF -kalde kriteeriumid. Lihtsa lineaarse regressiooni tõusu hüpoteeside kontrollimise alternatiivne lähenemisviis on kasutada F- kriteeriumid. Tuletage seda meelde F-kriteeriumit kasutatakse kahe dispersiooni vahelise seose testimiseks (vt üksikasju). Kaldehüpoteesi kontrollimisel mõõduga juhuslikud vead on vea dispersioon (vigade ruudu summa jagatud vabadusastmete arvuga), seega F-test kasutab regressiooniga seletatud dispersiooni suhet (st väärtusi SSR jagatud sõltumatute muutujate arvuga k), vea dispersioonini ( MSE=SYX 2 ).

A-prioor F-statistika võrdub regressioonist tingitud keskmiste ruutude hälvete (MSR) jagamisel vea dispersiooniga (MSE): F = MSR/ MSE, kus MSR=SSR / k, MSE =SSE/(n– k – 1), k on sõltumatute muutujate arv regressioonimudelis. Testi statistika F Sellel on F- levitamine koos k ja n– k – 1 vabadusastmed.

Antud olulisuse taseme α korral otsuse reegel sõnastatud järgmiselt: kui F > FU, nullhüpotees lükatakse tagasi; vastasel juhul seda tagasi ei lükata. Tulemused, mis on esitatud dispersioonanalüüsi koondtabeli kujul, on näidatud joonisel fig. 20.

Riis. 20. Dispersioonanalüüsi tabel regressioonikordaja statistilise olulisuse hüpoteesi kontrollimiseks

Samamoodi t- kriteerium F-kriteeriumid kuvatakse kasutamisel tabelis Analüüsi pakett(valik Regressioon). Töö täielikud tulemused Analüüsi pakett näidatud joonisel fig. 4, fragment seotud F-statistika - joonisel fig. 21.

Riis. 21. Taotluste tulemused F- Excel Analysis ToolPacki abil saadud kriteeriumid

F-statistika on 113,23 ja R- nullilähedane väärtus (lahter TähtsusF). Kui olulisuse tase α on 0,05, määrake kriitiline väärtus F-valemist saab ühe ja 12 vabadusastmega jaotusi F U\u003d F. OBR (1-0,05; 1; 12) \u003d 4,7472 (joonis 22). Niivõrd kui F = 113,23 > F U= 4,7472 ja R- 0-le lähedane väärtus< 0,05, нулевая гипотеза H 0 kaldub kõrvale, st. Poe suurus on tihedalt seotud selle aastase müügimahuga.

Riis. 22. Hüpoteesi testimine üldpopulatsiooni kalde kohta olulisuse tasemel 0,05, ühe ja 12 vabadusastmega

Usaldusvahemik, mis sisaldab kallet β 1 . Et testida hüpoteesi muutujatevahelise lineaarse seose olemasolu kohta, saate luua usaldusvahemiku, mis sisaldab kallet β 1, ja veenduda, et hüpoteetiline väärtus β 1 = 0 kuulub sellesse intervalli. Kallet β 1 sisaldava usaldusvahemiku keskpunkt on valimi kalle b 1 , ja selle piirid on kogused b 1 ±t n –2 Sb 1

Nagu on näidatud joonisel fig. kaheksateist, b 1 = +1,670, n = 14, Sb 1 = 0,157. t 12 \u003d STUDENT.OBR (0,975, 12) \u003d 2,1788. Seega b 1 ±t n –2 Sb 1 = +1,670 ± 2,1788 * 0,157 = +1,670 ± 0,342 või + 1,328 ≤ β 1 ≤ +2,012. Seega on populatsiooni kalle tõenäosusega 0,95 vahemikus +1,328 kuni +2,012 (st 1 328 000 kuni 2 012 000 dollarit). Kuna need väärtused on suuremad kui null, on aastase müügi ja kaupluse pindala vahel statistiliselt oluline lineaarne seos. Kui usaldusvahemik sisaldaks nulli, poleks muutujate vahel seost. Lisaks tähendab usaldusvahemik, et iga 1000 ruutmeetri kohta. jalad põhjustavad keskmise müügi kasvu 1 328 000 dollari võrra 2 012 000 dollarini.

Kasutaminet -korrelatsioonikordaja kriteeriumid. võeti kasutusele korrelatsioonikordaja r, mis on kahe arvmuutuja vahelise seose mõõt. Selle abil saab määrata, kas kahe muutuja vahel on statistiliselt oluline seos. Korrelatsioonikordaja mõlema muutuja populatsioonide vahel tähistame sümboliga ρ. Null- ja alternatiivsed hüpoteesid on sõnastatud järgmiselt: H 0: ρ = 0 (korrelatsioon puudub), H 1: ρ ≠ 0 (seal on korrelatsioon). Korrelatsiooni olemasolu kontrollimine:

kus r = + , kui b 1 > 0, r = – , kui b 1 < 0. Тестовая статистика t Sellel on t- levitamine koos n-2 vabadusastmed.

Päevalillede kaupluseketi probleemis r2= 0,904 ja b 1- +1,670 (vt joonis 4). Niivõrd kui b 1> 0, on aastase müügi ja kaupluse suuruse korrelatsioonikoefitsient r= +√0,904 = +0,951. Testime nullhüpoteesi, et nende muutujate vahel puudub korrelatsioon t- statistika:

Olulisuse tasemel α = 0,05 tuleks nullhüpotees tagasi lükata, kuna t= 10,64 > 2,1788. Seega võib väita, et aastamüügi ja kaupluse suuruse vahel on statistiliselt oluline seos.

Arutades järeldusi populatsiooni nõlvade kohta, on usaldusvahemikud ja hüpoteeside kontrollimise kriteeriumid omavahel asendatavad. Korrelatsioonikordaja sisaldava usaldusvahemiku arvutamine osutub aga keerulisemaks, kuna statistika valimijaotuse vorm r sõltub tegelikust korrelatsioonikordajast.

Ootuste hindamine ja ennustamine individuaalsed väärtused

Selles jaotises käsitletakse eeldatava vastuse hindamise meetodeid Y ja individuaalsete väärtuste ennustused Y muutuja antud väärtuste jaoks X.

Usaldusvahemiku konstrueerimine. Näites 2 (vt ülaltoodud jaotist Vähima ruudu meetod) regressioonivõrrand võimaldas ennustada muutuja väärtust Y X. Jaemüügikoha asukoha valimise probleemis on 4000 ruutmeetri suuruse kaupluse keskmine aastane müük. jalg oli võrdne 7,644 miljoni dollariga. See üldrahvastiku matemaatiliste ootuste hinnang on aga punkt. üldkogumi matemaatilise ootuse hindamiseks pakuti välja usaldusvahemiku kontseptsioon. Samamoodi võib kontseptsiooni tutvustada vastuse matemaatilise ootuse usaldusvahemik juures seatud väärtus muutuv X:

kus , = b 0 + b 1 X i– prognoositava väärtuse muutuja Y juures X = X i, S YX on keskmine ruutviga, n on valimi suurus, Xi- muutuja antud väärtus X, µ Y|X = Xi– muutuja matemaatiline ootus Y juures X = Х i,SSX=

Valemi (13) analüüs näitab, et usaldusvahemiku laius sõltub mitmest tegurist. Antud olulisuse tasemel viib kõikumiste amplituudi suurenemine regressioonijoone ümber, mõõdetuna keskmise ruutvea abil, intervalli laiuse suurenemiseni. Teisest küljest, nagu oodatud, kaasneb valimi suuruse suurenemisega intervalli ahenemine. Lisaks muutub intervalli laius sõltuvalt väärtustest Xi. Kui muutuja väärtus Y prognoositud koguste jaoks X, keskmise väärtuse lähedal , osutub usaldusvahemik kitsamaks kui keskmisest kaugel olevate väärtuste vastuse ennustamisel.

Ütleme nii, et kaupluse asukoha valikul soovime kõigis 4000 ruutmeetrise pindalaga kauplustes ehitada 95% usaldusvahemikku aasta keskmise müügikäibe kohta. jalad:

Seetõttu on keskmine aastane müügimaht kõigis kauplustes, mille pindala on 4000 ruutmeetrit. jalga, 95% tõenäosusega jääb vahemikku 6,971–8,317 miljonit dollarit.

Arvutage prognoositud väärtuse usaldusvahemik. Lisaks sellele muutuja antud väärtuse vastuse matemaatilise ootuse usaldusvahemikule X, on sageli vaja teada prognoositava väärtuse usaldusvahemikku. Kuigi sellise usaldusvahemiku arvutamise valem on väga sarnane valemiga (13), sisaldab see intervall prognoositavat väärtust, mitte parameetri hinnangut. Prognoositava vastuse intervall YX = Xi muutuja konkreetse väärtuse jaoks Xi määratakse järgmise valemiga:

Oletame, et jaemüügikoha asukoha valikul soovime 4000 ruutmeetri suuruse kaupluse prognoositavale aastasele müügimahule ehitada 95% usaldusvahemikku. jalad:

Seetõttu prognoositi 4000 ruutmeetri aastase müügimahu kohta. jalga, jääb 95% tõenäosusega vahemikku 5,433 kuni 9,854 miljonit dollarit Nagu näete, on prognoositud vastuse väärtuse usaldusvahemik palju laiem kui selle matemaatilise ootuse usaldusvahemik. Selle põhjuseks on asjaolu, et üksikute väärtuste prognoosimise varieeruvus on palju suurem kui eeldatava väärtuse hindamisel.

Regressiooni kasutamisega seotud lõksud ja eetilised probleemid

Regressioonanalüüsiga seotud raskused:

  • Vähimruutude meetodi rakendamistingimuste eiramine.
  • Vähimruutude meetodi rakendamistingimuste ekslik hinnang.
  • Alternatiivsete meetodite vale valik, rikkudes vähimruutude meetodi kohaldamistingimusi.
  • Regressioonanalüüsi rakendamine ilma õppeaine süvendatud tundmiseta.
  • Regressiooni ekstrapoleerimine väljaspool selgitava muutuja vahemikku.
  • Segadus statistiliste ja põhjuslike seoste vahel.

Arvutustabelite levik ja tarkvara statistiliste arvutuste jaoks kõrvaldas arvutusprobleemid, mis takistasid regressioonanalüüsi kasutamist. See aga viis selleni, et regressioonanalüüsi hakkasid kasutama kasutajad, kellel ei ole piisavat kvalifikatsiooni ja teadmisi. Kuidas saavad kasutajad teada alternatiivmeetoditest, kui paljudel neist pole vähimruutude meetodi rakendamistingimustest üldse aimu ega tea, kuidas nende rakendamist kontrollida?

Uurijat ei tohiks ära viia numbrite lihvimine – nihke, kalde ja segakorrelatsioonikordaja arvutamine. Ta vajab sügavamaid teadmisi. Illustreerime seda klassikaline näideõpikutest võetud. Anscombe näitas, et kõik neli joonisel fig. 23 on samad regressiooniparameetrid (joonis 24).

Riis. 23. Neli tehisandmekogumit

Riis. 24. Nelja tehisandmestiku regressioonanalüüs; tehtud Analüüsi pakett(pildi suurendamiseks klõpsake pildil)

Seega on regressioonanalüüsi seisukohast kõik need andmekogumid täiesti identsed. Kui selle analüüs oleks lõppenud, oleksime palju kaotanud kasulik informatsioon. Seda tõendavad nende andmekogumite jaoks koostatud hajuvusdiagrammid (joonis 25) ja jääkgraafikud (joonis 26).

Riis. 25. Nelja andmekogumi hajuvusdiagrammid

Hajudiagrammid ja jääkdiagrammid näitavad, et need andmed erinevad üksteisest. Ainus hulk, mis on jaotatud piki sirgjoont, on komplekt A. Hulgi A alusel arvutatud jääkide graafikul puudub muster. Sama ei saa öelda hulkade B, C ja D kohta. Hulga B jaoks kujutatud hajuvusgraafik näitab selgelt väljendunud ruutmustrit. Seda järeldust kinnitab paraboolse kujuga jääkide graafik. Hajumisdiagramm ja jääkdiagramm näitavad, et andmestik B sisaldab kõrvalekaldeid. Sellises olukorras on vaja välistada andmestik ja analüüsi korrata. Vaatlustest kõrvalekallete tuvastamise ja kõrvaldamise tehnikat nimetatakse mõjuanalüüsiks. Pärast kõrvalekalde kõrvaldamist võib mudeli ümberhindamise tulemus olla täiesti erinev. Illustreerib komplekti D andmete põhjal koostatud hajuvusdiagramm ebatavaline olukord, milles empiiriline mudel sõltub oluliselt individuaalsest vastusest ( X 8 = 19, Y 8 = 12,5). Selliseid regressioonimudeleid tuleb eriti hoolikalt arvutada. Seega on hajuvus- ja jääkgraafikud regressioonianalüüsi olulised vahendid ja peaksid olema selle lahutamatu osa. Ilma nendeta pole regressioonanalüüs usaldusväärne.

Riis. 26. Jääkide graafikud nelja andmekogumi jaoks

Kuidas regressioonanalüüsis lõkse vältida:

  • Muutujatevahelise võimaliku seose analüüs X ja Y alusta alati hajuvusdiagrammiga.
  • Enne regressioonanalüüsi tulemuste tõlgendamist kontrollige selle rakendatavuse tingimusi.
  • Joonistage jäägid sõltuvusse sõltumatust muutujast. See võimaldab kindlaks teha, kuidas empiiriline mudel vastab vaatlustulemustele, ja tuvastada dispersiooni püsivuse rikkumisi.
  • Vigade normaaljaotuse eelduse testimiseks kasutage histogramme, varre- ja lehediagramme, kastdiagramme ja normaaljaotuse graafikuid.
  • Kui vähimruutude meetodi rakendustingimused ei ole täidetud, kasutage alternatiivseid meetodeid (näiteks ruut- või mitmekordse regressiooni mudeleid).
  • Kui vähimruutude meetodi rakendatavuse tingimused on täidetud, on vaja kontrollida hüpoteesi regressioonikordajate statistilise olulisuse kohta ning konstrueerida matemaatilist ootust ja prognoositavat vastuse väärtust sisaldavad usaldusvahemikud.
  • Vältige sõltuva muutuja väärtuste ennustamist väljaspool sõltumatu muutuja vahemikku.
  • Pidage seda meeles statistilised sõltuvused ei ole alati põhjuslikud. Pidage meeles, et muutujate vaheline korrelatsioon ei tähenda, et nende vahel on põhjuslik seos.

Kokkuvõte. Nagu näidatud plokkskeemil (joonis 27), kirjeldab märkus lihtsat lineaarse regressioonimudelit, selle rakendatavuse tingimusi ja viise nende tingimuste testimiseks. Arvestatud t-regressiooni kalde statistilise olulisuse testimise kriteerium. Sõltuva muutuja väärtuste ennustamiseks kasutasime regressioonimudel. Näitena käsitletakse jaemüügikoha koha valikuga seonduvat, milles uuritakse aastase müügimahu sõltuvust kaupluse pinnast. Saadud teave võimaldab teil täpsemalt valida kaupluse asukohta ja prognoosida selle aastakäivet. Järgmistes märkustes jätkub arutelu regressioonanalüüsi ja ka mitme regressioonimudeli üle.

Riis. 27. Sedeli plokkskeem

Kasutatud on materjale raamatust Levin jt Statistics for managers. - M.: Williams, 2004. - lk. 792–872

Kui sõltuv muutuja on kategooriline, tuleks rakendada logistilist regressiooni.

Mitmekordse regressiooni eesmärk on analüüsida seost ühe sõltuva ja mitme sõltumatu muutuja vahel.

Näide: On olemas andmed ühe istekoha maksumuse kohta (50 istekoha ostmisel) erinevate PDM-süsteemide jaoks. Vajalik: hinnata seost PDM-süsteemi töökoha hinna ja selles realiseeritud omaduste arvu vahel, mis on näidatud tabelis 2.

Tabel 2 – PDM-süsteemide karakteristikud

Eseme number PDM süsteem Hind Toote konfiguratsiooni haldamine Toodete mudelid Meeskonnatöö Tootemuudatuste juhtimine Dokumendivoog Arhiivid Dokumendiotsing Projekti planeerimine Toodete tootmise juhtimine
iMAN Jah Jah
Party Plus Jah Jah
PDM STEP Suite Jah Jah
Otsing Jah Jah
Tuulekülm Jah Jah
Kompassi haldur Jah Jah
T-Flexi dokumendid Jah Jah
TechnoPro Mitte Mitte

Karakteristikute arvväärtus (v.a "Kulu", "Tootemudelid" ja "Meeskonnatöö") tähendab iga tunnuse rakendatud nõuete arvu.

Koostame ja täidame lähteandmetega tabeli (Joonis 27).

Muutujate "Mod. toim." ja "Kogu. r-ta." vastab lähteandmete väärtusele "Jah" ja väärtus "0" lähteandmete väärtusele "Ei".

Ehitame regressiooni sõltuva muutuja "Kulu" ja sõltumatute muutujate "Näit. konf., Mod. toim., koguda. r-ta“, „Nt. rev.", "Dokum", "Arhiiv", "Otsi", "Plan-e", "Ex. tehtud.

Algandmete statistilise analüüsi alustamiseks helistage "Mitme regressiooni" moodulisse (joonis 22).

Ilmuvas dialoogiboksis (Joonis 23) määrake muutujad, mille kohta statistiline analüüs tehakse.

Joonis 27 – Algandmed

Selleks vajutage nuppu Variables ja ilmuvas dialoogiaknas (Joonis 28) sõltuvatele muutujatele vastavas osas (Dependent var.) valige "1-Cost", sõltumatutele muutujatele vastavas osas (Independent muutujate loend) ) valige kõik muud muutujad. Mitme muutuja valimine loendist toimub klahvide "Ctrl" või "Shift" abil või vastaval väljal muutujate numbrite (numbrivahemiku) määramisega.



Joonis 28 – Dialoogiboks muutujate määramiseks statistilise analüüsi jaoks

Pärast muutujate valimist klõpsake mooduli "Multiple Regression" parameetrite määramise dialoogiboksis nuppu "OK". Ilmuvas aknas kirjaga "No of indep. vars. >=(N-1); ei saa inverteerida corr. maatriks." (Joonis 29) vajutage nuppu "OK".

See teade kuvatakse, kui süsteem ei saa luua regressiooni kõigi deklareeritud sõltumatute muutujate jaoks, kuna muutujate arv on suurem kui esinemiste arv miinus 1 või sellega võrdne.

Ilmuvas aknas (Joonis 30) saate vahekaardil "Täpsemalt" muuta regressioonivõrrandi koostamise meetodit.

Joonis 29 – Veateade

Selleks valige väljal "Meetod" (meetod) "Edasta sammhaaval" (samm-sammult koos kaasamisega).

Joonis 30 – Regressioonivõrrandi koostamise meetodi valimise ja parameetrite seadmise aken

Astmelise regressiooni meetod seisneb selles, et igal etapil kaasatakse või jäetakse mudelisse mõni sõltumatu muutuja. Seega eristatakse kõige "olulisemate" muutujate kogum. See vähendab sõltuvust kirjeldavate muutujate arvu.

Astmepõhine analüüs erandiga ("Tagasi sammhaaval"). Sel juhul kaasatakse mudelisse esmalt kõik muutujad ja seejärel elimineeritakse igas etapis muutujad, mis ennustustele vähe kaasa aitavad. Seejärel saab eduka analüüsi tulemusena salvestada ainult mudelis olevad "olulised" muutujad ehk need muutujad, mille panus diskrimineerimisse on ülejäänutest suurem.

Samm-analüüs koos kaasamisega ("Edasi sammhaaval"). Selle meetodi kasutamisel kaasatakse sõltumatud muutujad järjestikku regressioonivõrrandisse, kuni võrrand kirjeldab rahuldavalt algandmeid. Muutujate kaasamine määratakse F-kriteeriumi abil. Igas etapis vaadatakse läbi kõik muutujad ja leitakse see, mis annab suurema panuse hulkade erinevusse. See muutuja peab sisalduma mudeli jaoks see samm ja jätkake järgmise sammuga.

Väljal "Lõige" (vaba regressiooni liige) saate valida, kas lisada see võrrandisse ("Kaasa mudelisse") või ignoreerida ja lugeda nulliga võrdseks ("Set to zero").

Parameeter "Tolerants" on muutujate tolerants. Määratud kui 1 miinus koefitsiendi ruut mitmekordne korrelatsioon see muutuja kõigi teiste sõltumatute muutujatega regressioonivõrrandis. Seega, mida väiksem on muutuja tolerants, seda üleliigsem on tema panus regressioonivõrrandisse. Kui regressioonivõrrandi mõne muutuja tolerants on võrdne nulliga või nullilähedane, siis ei saa regressioonivõrrandit hinnata. Seetõttu on soovitav seada tolerantsi parameetriks 0,05 või 0,1.

Parameeter "Ridge regressioon; lambda:" kasutatakse juhul, kui sõltumatud muutujad on omavahel tihedalt korrelatsioonis ja regressioonivõrrandi koefitsientide usaldusväärseid hinnanguid ei ole võimalik saada vähimruutude kaudu. Määratud konstant (lambda) lisatakse korrelatsioonimaatriksi diagonaalile, mis seejärel uuesti normaliseeritakse (nii et kõik diagonaali elemendid on võrdsed 1,0-ga). Teisisõnu, see parameeter vähendab kunstlikult korrelatsioonikoefitsiente, nii et saab arvutada regressiooniparameetrite tugevamaid (kuid kallutatud) hinnanguid. Meie puhul seda parameetrit ei kasutata.

Parameetrit "Partii töötlemine/trükkimine" kasutatakse siis, kui aruande jaoks on vaja koheselt koostada mitu tabelit, mis kajastavad tulemusi ja regressioonanalüüsi protsessi. See suvand on väga kasulik, kui soovite printida või analüüsida iga etapi astmelise regressioonanalüüsi tulemusi.

Vahekaardil „Stepwise” (Joonis 31) saate regressioonivõrrandi koostamisel määrata muutujate kaasamise ("F to enter") või välistamise ("F to remove") tingimuste parameetreid, aga ka parameetrite arvu. võrrandi koostamise sammud (“Sammude arv”).

Joonis 31 - Regressioonivõrrandi koostamise meetodi valimise ja parameetrite seadmise akna vahekaart "Sammuline"

F on F-kriteeriumi väärtus.

Kui kaasamisega astmelise analüüsi käigus on vaja, et kõik või peaaegu kõik muutujad sisestaksid regressioonivõrrandisse, siis on vaja "F to enter" väärtus seada minimaalseks (0,0001) ja määrata "F eemaldamiseks" väärtus samuti miinimumini.

Kui erandiga astmelise analüüsi käigus on vaja regressioonivõrrandist eemaldada kõik muutujad (ükshaaval), siis on vaja määrata "F to enter" väärtus väga suureks, näiteks 999 ja seada väärtus "F to remove" lähedane "F to enter".

Tuleb meeles pidada, et parameetri "F to remove" väärtus peab alati olema väiksem kui "F to enter".

Valikul „Kuva tulemused” on kaks valikut.

2) Igal etapil - kuvage analüüsi tulemused igal etapil.

Pärast regressioonanalüüsi meetodite valimise aknas nupu "OK" klõpsamist ilmub analüüsitulemuste aken (Joonis 32).

Joonis 32 – analüüsitulemuste aken

Joonis 33 – Regressioonanalüüsi tulemuste kokkuvõte

Analüüsi tulemuste kohaselt on määramiskoefitsient . See tähendab, et konstrueeritud regressioon selgitab 99,987% väärtuste levikust keskmise suhtes, s.o. selgitab peaaegu kogu muutujate varieeruvust.

Suur tähtsus ja selle olulisuse tase näitavad, et konstrueeritud regressioon on väga oluline.

Kokkuvõtlike regressioonitulemuste vaatamiseks klõpsake nuppu "Kokkuvõte: regressioonitulemus". Ekraanil kuvatakse arvutustabel analüüsi tulemustega (joonis 33).

Kolmandas veerus ("B") kuvatakse mudeli tundmatute parameetrite hinnangud, st. regressioonivõrrandi koefitsiendid.

Seega näeb nõutav regressioon välja järgmine:

Kvalitatiivselt koostatud regressioonivõrrandit saab tõlgendada järgmiselt:

1) PDM-süsteemi maksumus suureneb koos muudatuste juhtimise, töövoo ja planeerimise juurutatud funktsioonide arvu suurenemisega ning ka tootemudeli tugifunktsiooni kaasamisel süsteemi;

2) PDM-süsteemi maksumus väheneb rakendatud konsuurenemisega ja otsinguvõimaluste suurenemisega.

Mitme lineaarse regressiooni ülesandeks on luua pidevate ennustajate hulga ja pideva sõltuva muutuja vahelise seose lineaarne mudel. Sageli kasutatakse järgmist regressioonivõrrandit:

Siin a i- regressioonikoefitsiendid, b 0- tasuta liige (kui kasutatakse), e- viga sisaldav liige - selle kohta tehakse erinevaid oletusi, mis aga sagedamini taandatakse nullvektori matiga jaotuse normaalsusele. ootus- ja korrelatsioonimaatriks .

Sellised lineaarne mudel paljud ülesanded on hästi kirjeldatud erinevates ainevaldkonnad nt majandus, tööstus, meditsiin. Seda seetõttu, et mõned ülesanded on oma olemuselt lineaarsed.

Võtame lihtsa näite. Olgu siis nõutav tee rajamise maksumuse ennustamine selle teadaolevate parameetrite järgi. Samas on meil andmed juba rajatud teede kohta, kus on märgitud pikkus, puistamissügavus, töömaterjali hulk, tööliste arv jne.

On selge, et tee maksumus lõpuks muutub võrdne summaga kõigi nende tegurite väärtused eraldi. See võtab teatud koguse, näiteks killustikku, mille tonni maksumus on teada, teatud kogus asfalti, samuti teadaoleva maksumusega.

Võimalik, et munemiseks tuleb metsandus maha võtta, mis toob kaasa ka lisakulusid. Kõik see kokku annab tee loomise maksumuse.

Sel juhul on mudelis tasuta liige, kes vastutab näiteks korralduskulude eest (mis on kõigi ehitus- ja paigaldustööde puhul ligikaudu samad antud tase) või maksud.

Viga sisaldab tegureid, mida me mudeli ehitamisel ei arvestanud (näiteks ehitusaegne ilm - seda ei saa üldse arvesse võtta).

Näide: mitme regressioonianalüüs

Selle näite puhul analüüsitakse mitmeid võimalikke seoseid vaesuse määra ja võimsuse vahel, mis ennustab vaesuspiirist allapoole jäävate perede protsenti. Seetõttu käsitleme sõltuvaks muutujaks muutujat, mis iseloomustab vaesuspiiri all olevate perede protsenti, ja ülejäänud muutujaid pidevate ennustajatena.

Regressioonikoefitsiendid

Et teada saada, milline selgitavatest muutujatest aitab rohkem kaasa vaesuse ennustamisele, uurime regressiooni standardiseeritud koefitsiente (või beeta).

Riis. 1. Regressioonikordajate parameetrite hinnangud.

Beeta koefitsiendid on koefitsiendid, mille saaksite, kui kohandaksite kõik muutujad keskmiseks 0 ja standardhälbeks 1. Seetõttu võimaldab nende beetakoefitsientide suurus võrrelda iga sõltumatu muutuja suhtelist panust sõltuvasse muutujasse. . Nagu ülaltoodud tabelist näha, muutub rahvaarv alates 1960. aastast (POP_CHING), külas elava elanikkonna protsent (PT_RURAL) ja tööga hõivatud inimeste arv. põllumajandus(N_Empld) on vaesuse määra kõige olulisemad ennustajad, nagu ainult need on statistiliselt olulised (nende 95% usaldusvahemik ei sisalda 0). Rahvaarvu muutuse regressioonikoefitsient alates 1960. aastast (Pop_Chng) on ​​negatiivne, seega mida väiksem on rahvastiku kasv, seda rohkem perekondi kes elavad vastavas maakonnas allpool vaesuspiiri. Külas elava elanikkonna (%) regressioonikoefitsient (Pt_Rural) on positiivne, st mida suurem on protsent külaelanikud, teemad rohkem tasemel vaesus.

Ennustavate mõjude tähtsus

Vaatame olulisuse kriteeriumidega tabelit.

Riis. 2. Samaaegsed tulemused iga antud muutuja kohta.

Nagu see tabel näitab, on statistiliselt olulised vaid 2 muutuja mõju: rahvaarvu muutus alates 1960. aastast (Pop_Chng) ja külas elava elanikkonna protsent (Pt_Rural), p.< .05.

Jääkide analüüs. Pärast regressioonivõrrandi sobitamist on peaaegu alati vaja kontrollida prognoositud väärtusi ja jääke. Näiteks võivad suured kõrvalekalded tulemusi oluliselt moonutada ja viia ekslike järeldusteni.

Heitkoguste joondiagramm

Tavaliselt on vaja kontrollida originaalseid või standardseid jääke suurte kõrvalekallete suhtes.

Riis. 3. Vaatluste ja jääkide arv.

Kaal vertikaalne telg selle graafiku graafik on kujutatud sigma järgi, st standardhälveülejäägid. Kui üks või mitu vaatlust ei jää ±3-kordse sigma piiresse, tasub need vaatlused välja jätta (seda saab hõlpsasti teha vaatluse valiku tingimuste kaudu) ja analüüs uuesti läbi viia, veendumaks, et need ei muuda tulemusi. kõrvalekalded.

Mahalanobis vahemaad

Enamik statistikaõpikuid kulutavad palju aega sõltuva muutuja kõrvalekallete ja jääkide kohta. Siiski jääb kõrvalekallete roll ennustajates sageli tuvastamata. Ennustava muutuja küljel on nimekiri muutujatest, mis osalevad sõltuva muutuja ennustamisel erineva kaaluga (regressioonikordajatega). Sõltumatutest muutujatest võib mõelda kui mitmemõõtmelisele ruumile, milles saab iga vaatluse edasi lükata. Näiteks kui teil on kaks sõltumatut muutujat võrdsed koefitsiendid regressiooni, oleks võimalik koostada nende kahe muutuja hajuvusdiagramm ja paigutada iga vaatlus sellele graafikule. Siis võiks sellele graafikule märkida keskmise väärtuse ja arvutada kahemõõtmelises ruumis iga vaatluse kaugused selle keskmiseni (nn raskuskeskmesse). See on Mahalanobise vahemaa arvutamise põhiidee. Nüüd vaadake rahvastiku muutuse muutuja histogrammi alates 1960. aastast.

Riis. 4. Mahalanobi kauguste jaotuse histogramm.

Graafikult järeldub, et Mahalanobise kaugustel on üks kõrvalekalle.

Riis. 5. Vaadeldud, prognoositud ja jääkväärtused.

Pange tähele, kuidas Shelby maakond (esimeses reas) ülejäänud maakondadest silma paistab. Kui vaatate esialgseid andmeid, näete, et tegelikult on Shelby maakonnas kõige rohkem suur number põllumajanduses hõivatud inimesed (muutuja N_Empld). Võib-olla oleks targem väljendada seda protsentides, mitte absoluutarvudes, sel juhul poleks Shelby maakonna Mahalanobise vahemaa teiste maakondadega võrreldes ilmselt nii suur. On selge, et Shelby maakond on kõrvalekalle.

Eemaldatud jäänused

Teine väga oluline statistika, mis võimaldab hinnata kõrvalekallete probleemi tõsidust, on eemaldatud jäägid. Need on vastavate juhtumite standardiseeritud jäägid, mis saadakse selle juhtumi analüüsist eemaldamisel. Pidage meeles, et mitmekordse regressiooni protseduur kohandab regressioonipinda, et näidata seost sõltuva muutuja ja ennustaja vahel. Kui üks tähelepanek on kõrvalekalle (nagu Shelby maakond), siis on kalduvus regressioonipinda selle kõrvalekalde poole "tõmmata". Selle tulemusena, kui vastav vaatlus eemaldatakse, saadakse teine ​​pind (ja beeta koefitsiendid). Seega, kui eemaldatud jäägid on standardiseeritud jääkidest väga erinevad, on teil põhjust eeldada, et regressioonanalüüs asjakohane tähelepanek tõsiselt moonutatud. Selles näites näitavad Shelby maakonna eemaldatud jäägid, et see on kõrvalekalle, mis moonutab analüüsi tõsiselt. Hajumisdiagramm näitab selgelt kõrvalekaldeid.

Riis. 6. Esialgsete jääkide ja ümberasustatud jääkide muutuja, mis näitab allpool vaesuspiiri elavate perede protsenti.

Enamikul neist on enam-vähem selged tõlgendused, kuid pöördume tavaliste tõenäosusgraafikute poole.

Nagu juba mainitud, eeldab mitmekordne regressioon, et võrrandi muutujate ja jääkide normaaljaotuse vahel on lineaarne seos. Kui neid eeldusi rikutakse, võib järeldus olla ebatäpne. Tavaline jääkide tõenäosusgraafik näitab teile, kas neid eeldusi on tõsiselt rikutud või mitte.

Riis. 7. Normaaltõenäosuse graafik; originaaljäägid.

See diagramm koostati järgmisel viisil. Esiteks on standardiseeritud jäägid järjestatud. Nendest ridadest saate arvutada z-väärtused (st normaaljaotuse standardväärtused), mis põhinevad eeldusel, et andmed järgivad normaaljaotust. Need z väärtused kantakse graafikule piki y-telge.

Kui vaadeldud jäägid (joonistatud piki x-telge) on normaalselt jaotunud, asuvad kõik väärtused graafikul sirgel. Meie graafikul on kõik punktid kõvera suhtes väga lähedal. Kui jäägid ei ole normaalselt jaotunud, kalduvad nad sellelt realt kõrvale. Sellel graafikul on märgatavad ka kõrvalekalded.

Kui kokkulepe on kadunud ja andmed näivad moodustavat selge kõvera (nt S-kujulise) joone ümber, siis saab sõltuvat muutujat mingil viisil teisendada (nt logaritmiline teisendus jaotuse saba "vähendamiseks" jne). Selle meetodi käsitlemine jääb selle näite raamidest välja (Neter, Wasserman ja Kutner, 1985, lk 134–141, esitatakse arutelu andmete ebanormaalsuse ja mittelineaarsuse eemaldavate teisenduste kohta). Teadlased teevad aga väga sageli lihtsalt analüüse otse ilma vastavaid eeldusi kontrollimata, mis viib ekslike järeldusteni.