Biograafiad Omadused Analüüs

Regressioonanalüüsi meetodid. Regressioonanalüüs - statistiline meetod juhusliku suuruse muutujatest sõltuvuse uurimiseks

Faktor- ja resultantmärkide vahelise korrelatsiooni olemasolul peavad arstid sageli kindlaks tegema, kui palju võib ühe märgi väärtus muutuda, kui teist muudetakse üldtunnustatud või uurija enda kehtestatud mõõtühikuga.

Näiteks kuidas muutub 1. klassi kooliõpilaste (tüdrukute või poiste) kehakaal, kui nende pikkus suureneb 1 cm. Selleks kasutatakse regressioonanalüüsi meetodit.

Kõige sagedamini kasutatakse regressioonanalüüsi meetodit füüsilise arengu normskaalade ja standardite väljatöötamiseks.

  1. Regressiooni definitsioon. Regressioon on funktsioon, mis võimaldab ühe atribuudi keskmise väärtuse põhjal määrata teise atribuudi keskmise väärtuse, mis on korrelatsioonis esimesega.

    Sel eesmärgil kasutatakse regressioonikoefitsienti ja mitmeid muid parameetreid. Näiteks saate arvutada külmetushaiguste arvu keskmiselt igakuise keskmise õhutemperatuuri teatud väärtuste juures sügis-talvisel perioodil.

  2. Regressioonikordaja definitsioon. Regressioonikoefitsient on absoluutväärtus, mille võrra ühe tunnuse väärtus keskmiselt muutub, kui muu sellega seotud atribuut muutub kehtestatud mõõtühiku võrra.
  3. Regressioonikordaja valem. R y / x \u003d r xy x (σ y / σ x)
    kus R y / x - regressioonikoefitsient;
    r xy - tunnuste x ja y vaheline korrelatsioonikordaja;
    (σ y ja σ x) - tunnuste x ja y standardhälbed.

    Meie näites;
    σ x = 4,6 (õhutemperatuuri standardhälve sügis-talvisel perioodil;
    σ y = 8,65 (nakkuslike külmetushaiguste arvu standardhälve).
    Seega on R y/x regressioonikordaja.
    R y / x \u003d -0,96 x (4,6 / 8,65) \u003d 1,8, s.o. kuu keskmise õhutemperatuuri (x) langusega 1 kraadi võrra muutub sügis-talvisel perioodil nakatunud külmetushaiguste keskmine arv (y) 1,8 juhtumi võrra.

  4. Regressioonivõrrand. y \u003d M y + R y / x (x - M x)
    kus y on atribuudi keskmine väärtus, mis tuleks määrata, kui teise atribuudi (x) keskmine väärtus muutub;
    x - muu tunnuse teadaolev keskmine väärtus;
    R y/x - regressioonikordaja;
    M x, M y - tunnuste x ja y teadaolevad keskmised väärtused.

    Näiteks saab ilma erimõõtmisteta määrata nakkuslike külmetushaiguste keskmise arvu (y) iga kuu keskmise õhutemperatuuri (x) keskmise väärtuse juures. Niisiis, kui x \u003d - 9 °, R y / x \u003d 1,8 haigust, M x \u003d -7 °, M y \u003d 20 haigust, siis y \u003d 20 + 1,8 x (9-7) \u003d 20 + 3 ,6 = 23,6 haigust.
    Seda võrrandit rakendatakse kahe tunnuse (x ja y) vahelise sirgjoonelise seose korral.

  5. Regressioonivõrrandi eesmärk. Regressioonijoone joonistamiseks kasutatakse regressioonivõrrandit. Viimane võimaldab ilma erimõõtmisteta määrata ühe tunnuse mis tahes keskmist väärtust (y), kui teise tunnuse väärtus (x) muutub. Nende andmete põhjal koostatakse graafik - regressioonijoon, mida saab kasutada külmetushaiguste keskmise arvu määramiseks igakuise keskmise temperatuuri mis tahes väärtusel külmetushaiguste arvu arvutatud väärtuste vahelises vahemikus.
  6. Regressiooni sigma (valem).
    kus σ Ru/x - regressiooni sigma (standardhälve);
    σ y on tunnuse y standardhälve;
    r xy - tunnuste x ja y vaheline korrelatsioonikordaja.

    Niisiis, kui σ y on külmetushaiguste arvu standardhälve = 8,65; r xy - korrelatsioonikoefitsient külmetushaiguste arvu (y) ja kuu keskmise õhutemperatuuri vahel sügis-talvisel perioodil (x) on - 0,96, siis

  7. Sigma regressiooni eesmärk. Annab saadud tunnuse (y) mitmekesisuse mõõdu tunnuse.

    Näiteks iseloomustab see külmetushaiguste arvu mitmekesisust igakuise keskmise õhutemperatuuri teatud väärtusel sügis-talvisel perioodil. Niisiis võib keskmine külmetushaiguste arv õhutemperatuuril x 1 \u003d -6 ° olla vahemikus 15,78 kuni 20,62 haigust.
    Kui x 2 = -9°, võib keskmine külmetushaiguste arv ulatuda 21,18 haigusest 26,02 haiguseni jne.

    Regressioonisigmat kasutatakse regressiooniskaala koostamisel, mis kajastab efektiivse atribuudi väärtuste kõrvalekaldeid selle regressioonijoonele kantud keskmisest väärtusest.

  8. Regressiooniskaala arvutamiseks ja joonistamiseks vajalikud andmed
    • regressioonikordaja - Ry/x;
    • regressioonivõrrand - y \u003d M y + R y / x (x-M x);
    • regressioonisigma - σ Rx/y
  9. Arvutuste jada ja regressiooniskaala graafiline esitus.
    • määrata regressioonikordaja valemiga (vt punkt 3). Näiteks tuleks määrata, kui palju muutub kehakaal keskmiselt (sõltuvalt soost teatud vanuses), kui keskmine pikkus muutub 1 cm võrra.
    • vastavalt regressioonivõrrandi valemile (vt lõik 4) määrake, milline on keskmine, näiteks kehakaal (y, y 2, y 3 ...) * teatud kasvuväärtuse (x, x 2, x 3 ...) .
      ________________
      * "y" väärtus tuleks arvutada vähemalt kolme teadaoleva "x" väärtuse jaoks.

      Samal ajal on teada teatud vanuse ja soo keskmised kehakaalu ja pikkuse (M x ja M y) väärtused

    • arvutage regressiooni sigma, teades vastavaid σ y ja r xy väärtusi ning asendades nende väärtused valemiga (vt lõik 6).
    • põhinevad teadaolevatel väärtustel x 1, x 2, x 3 ja neile vastavatel keskmistel väärtustel y 1, y 2 y 3, samuti väikseimal (y - σ ru / x) ja suurimal (y + σ ru) / x) väärtused (y) konstrueerivad regressiooniskaala.

      Regressiooniskaala graafiliseks esitamiseks märgitakse graafikule esmalt väärtused x, x 2 , x 3 (y-telg), s.o. koostatakse regressioonisirge, näiteks kehakaalu (y) sõltuvus pikkusest (x).

      Seejärel märgitakse vastavatesse punktidesse y 1 , y 2 , y 3 regressioonisigma arvväärtused, s.o. leidke graafikult y 1 , y 2 , y 3 väikseim ja suurim väärtus.

  10. Regressiooniskaala praktiline kasutamine. Töötatakse välja normskaalad ja standardid, eelkõige füüsilise arengu jaoks. Standardskaala järgi on võimalik anda individuaalne hinnang laste arengule. Samas hinnatakse füüsilist arengut harmooniliseks, kui näiteks teatud pikkuse juures on lapse kehamass ühe sigma täpsusega regressioonist keskmise arvestusliku kehakaalu ühikuni - (y) antud pikkuse (x) puhul (y ± 1 σ Ry / x).

    Füüsilist arengut peetakse kehamassi osas ebaharmooniliseks, kui lapse kehakaal teatud pikkuse puhul jääb teise regressioonisigma piiresse: (y ± 2 σ Ry/x)

    Füüsiline areng on järsult ebaharmooniline nii liigse kui ka ebapiisava kehakaalu tõttu, kui kehakaal on teatud pikkuse puhul regressiooni kolmanda sigma piires (y ± 3 σ Ry/x).

5-aastaste poiste füüsilise arengu statistilise uuringu tulemuste põhjal on teada, et nende keskmine pikkus (x) on 109 cm, keskmine kehakaal (y) 19 kg. Pikkuse ja kehakaalu korrelatsioonikoefitsient on +0,9, standardhälbed on toodud tabelis.

Nõutud:

  • arvutada regressioonikordaja;
  • regressioonivõrrandi abil määrake, milline on 5-aastaste poiste eeldatav kehakaal pikkusega x1 = 100 cm, x2 = 110 cm, x3 = 120 cm;
  • arvutada regressioonisigmat, koostada regressiooniskaala, esitada selle lahenduse tulemused graafiliselt;
  • teha vastavad järeldused.

Ülesande seisukord ja selle lahendamise tulemused on toodud koondtabelis.

Tabel 1

Probleemi tingimused Probleemilahenduse tulemused
regressioonivõrrand sigma regressioon regressiooniskaala (eeldatav kehakaal (kg))
M σ r xy R y/x X Kell σRx/y y - σ Rу/х y + σ Rу/х
1 2 3 4 5 6 7 8 9 10
Kõrgus (x) 109 cm ± 4,4 cm +0,9 0,16 100 cm 17,56 kg ± 0,35 kg 17,21 kg 17,91 kg
Kehakaal (y) 19 kg ± 0,8 kg 110 cm 19,16 kg 18,81 kg 19,51 kg
120 cm 20,76 kg 20,41 kg Kaal 21,11 kg

Otsus.

Järeldus. Seega võimaldab arvutatud kehakaalu väärtuste regressiooniskaala määrata selle mis tahes muu kasvuväärtuse jaoks või hinnata lapse individuaalset arengut. Selleks taasta regressioonijoonega risti.

  1. Vlasov V.V. Epidemioloogia. - M.: GEOTAR-MED, 2004. - 464 lk.
  2. Lisitsyn Yu.P. Rahvatervis ja tervishoid. Õpik gümnaasiumile. - M.: GEOTAR-MED, 2007. - 512 lk.
  3. Medik V.A., Juriev V.K. Rahvatervise ja tervishoiu loengute kursus: 1. osa. Rahvatervis. - M.: Meditsiin, 2003. - 368 lk.
  4. Minjajev V.A., Višnjakov N.I. ja teised.Sotsiaalmeditsiin ja tervishoiukorraldus (Juhend 2 köites). - Peterburi, 1998. -528 lk.
  5. Kucherenko V.Z., Agarkov N.M. ja teised Sotsiaalhügieen ja tervishoiu korraldus (Õpetus) - Moskva, 2000. - 432 lk.
  6. S. Glantz. Meditsiini-bioloogiline statistika. Per inglise keelest. - M., Praktika, 1998. - 459 lk.

A) Lihtsa lineaarse regressiooni graafiline analüüs.

Lihtne lineaarse regressiooni võrrand y=a+bx. Kui juhuslike suuruste Y ja X vahel on korrelatsioon, siis väärtus y = ý + ,

kus ý on y teoreetiline väärtus, mis saadakse võrrandist ý = f(x),

 on teoreetilise võrrandi ý hälve tegelikest (katse)andmetest.

Võrrandit ý keskmise väärtuse sõltuvuse kohta x-st, st ý = f (x), nimetatakse regressioonivõrrandiks. Regressioonanalüüs koosneb neljast etapist:

1) ülesande püstitamine ja ühendamise põhjuste väljaselgitamine.

2) uurimisobjekti piiramine, statistilise teabe kogumine.

3) seosvõrrandi valimine lähtuvalt kogutud andmete analüüsist ja iseloomust.

4) arvväärtuste arvutamine, korrelatsiooni tunnused.

Kui kaks muutujat on omavahel seotud nii, et ühe muutuja muutus vastab teise muutuja süstemaatilisele muutusele, siis nende muutujate teadaolekul kasutatakse nendevahelise seose võrrandi hindamiseks ja valimiseks regressioonanalüüsi. Erinevalt regressioonanalüüsist kasutatakse korrelatsioonianalüüsi X ja Y vahelise seose tiheduse analüüsimiseks.

Kaaluge regressioonanalüüsis sirgjoone leidmist:

Teoreetiline regressioonivõrrand.

Mõiste "lihtne regressioon" näitab, et ühe muutuja suurust hinnatakse teise muutuja teadmiste põhjal. Erinevalt lihtsast mitme muutujaga regressioonist kasutatakse seda muutuja hindamiseks kahe, kolme või enama muutuja teadmiste põhjal. Mõelge lihtsa lineaarse regressiooni graafilisele analüüsile.

Oletame, et meil on olemas tööleasumise ja tööviljakuse sõeltestide tulemused.

Valiku tulemused (100 punkti), x

Esitus (20 punkti), a

Pannes punktid graafikule, saame hajusdiagrammi (välja). Kasutame seda valikutestide tulemuste ja tööviljakuse analüüsimiseks.

Analüüsime regressioonijoont hajuvusdiagrammi abil. Regressioonanalüüsis määratakse alati vähemalt kaks muutujat. Ühe muutuja süstemaatiline muutus on seotud teise muutumisega. esmane eesmärk regressioonanalüüs on ühe muutuja väärtuse hindamine, kui teise muutuja väärtus on teada. Täieliku ülesande täitmisel on oluline tööviljakuse hindamine.

Sõltumatu muutuja regressioonanalüüsis võetakse teise muutuja analüüsi aluseks suurus. Sel juhul on need valikutestide tulemused (piki X-telge).

sõltuv muutuja nimetatakse hinnanguliseks väärtuseks (piki Y-telge). Regressioonanalüüsis saab olla ainult üks sõltuv muutuja ja mitu sõltumatut muutujat.

Lihtsa regressioonianalüüsi jaoks võib sõltuvust esitada kahe koordinaadi süsteemis (x ja y), piki x-telge - sõltumatu muutuja, piki y-telge - sõltuv. Lõikepunktid joonistame nii, et graafikul esitatakse suuruste paar. Graafikut nimetatakse hajuvusdiagramm. Selle koostamine on regressioonanalüüsi teine ​​etapp, kuna esimene on analüüsitavate väärtuste valik ja prooviandmete kogumine. Seega kasutatakse statistilise analüüsi jaoks regressioonanalüüsi. Diagrammi näidisandmete vaheline seos on lineaarne.

Muutuja y väärtuse hindamiseks muutuja x põhjal on vaja hajuvusdiagrammi punktide asukoha põhjal määrata selle sirge asukoht, mis kõige paremini esindab x ja y vahelist suhet. Meie näites on see jõudlusanalüüs. Läbi hajuvuspunktide tõmmatud joon - regressioonijoon. Üks võimalus visuaalsel kogemusel põhineva regressioonijoone koostamiseks on vabakäe meetod. Meie regressioonijoont saab kasutada tööviljakuse määramiseks. Regressioonisirge võrrandi leidmisel

Sageli kasutatakse vähimruutude testi. Sobivaim on sirge, kus hälvete ruudu summa on minimaalne.

Kasvujoone matemaatiline võrrand esindab aritmeetilise progressiooni kasvu seadust:

juures = abX.

Y = a + bX– ühe parameetriga taandatud võrrand on piiranguvõrrandi kõige lihtsam vorm. Keskmiste väärtuste korral on see vastuvõetav. Et omavahelist suhet paremini väljendada X ja juures, võetakse kasutusele täiendav proportsionaalsustegur b, mis näitab regressioonijoone kallet.

B) Teoreetilise regressioonisirge konstrueerimine.

Selle leidmise protsess seisneb kõvera tüübi valimises ja põhjendamises ning parameetrite arvutamises a, b, koos jne. Ehitusprotsessi nimetatakse tasandamiseks ja mati pakutavate kõverate varu. analüüs, mitmekesine. Kõige sagedamini kasutatakse majandusprobleemides kõverate perekonda, võrrandeid, mida väljendatakse positiivsete täisarvude polünoomidega.

1)
- sirgjoone võrrand,

2)
on hüperbooli võrrand,

3)
on parabooli võrrand,

kus ý on teoreetilise regressioonisirge ordinaadid.

Olles valinud võrrandi tüübi, on vaja leida parameetrid, millest see võrrand sõltub. Näiteks punktide asukoha olemus hajuvusväljas näitas, et teoreetiline regressioonisirge on sirge.

Hajuvusdiagramm võimaldab teil regressioonanalüüsi abil kujutada tööviljakust. Majandusteaduses ennustab regressioonanalüüs paljusid lõpptoodet mõjutavaid omadusi (arvestades hinnakujundust).

C) Väikseimate raamide kriteerium sirge leidmiseks.

Üks kriteerium, mida saaksime hajuvusgraafikus sobiva regressioonijoone jaoks rakendada, põhineb sirge valimisel, mille puhul on vigade ruudu summa minimaalne.

Hajumispunktide lähedust sirgele mõõdetakse lõikude ordinaatidega. Nende punktide kõrvalekalded võivad olla positiivsed või negatiivsed, kuid teoreetilise sirge katsejoonest kõrvalekallete ruudu summa on alati positiivne ja peaks olema minimaalne. Asjaolu, et kõik hajuvuspunktid ei kattu regressioonijoone asukohaga, viitab lahknevuse olemasolule eksperimentaalsete ja teoreetiliste andmete vahel. Seega võib öelda, et ükski teine ​​regressioonisirge peale leitud ühe ei suuda anda väiksemat summat hälvete katse- ja katseandmete vahel. Seega, olles leidnud teoreetilise võrrandi ý ja regressioonisirge, täidame vähimruutude nõude.

Seda tehakse piiranguvõrrandi abil
, kasutades parameetrite leidmiseks valemeid a ja b. Võttes teoreetilise väärtuse
ja võrrandi vasaku poole tähistamine läbi f, saame funktsiooni
tundmatutest parameetritest a ja b. Väärtused a ja b täidab funktsiooni miinimumi f ja leitakse osadiferentsiaalvõrranditest
ja
. See on vajalik tingimus, aga positiivse ruutfunktsiooni korral on see ka piisav tingimus leidmiseks a ja b.

Tuletame osatuletiste võrranditest parameetrite valemid a ja b:



saame võrrandisüsteemi:

kus
- aritmeetilised keskmised vead.

Arvväärtusi asendades leiame parameetrid a ja b.

On kontseptsioon
. See on ligikaudne tegur.

Kui a e < 33%, то модель приемлема для дальнейшего анализа;

Kui a e> 33%, siis võtame hüperbooli, parabooli jne. See annab õiguse erinevates olukordades analüüsida.

Järeldus: lähenduskoefitsiendi kriteeriumi järgi on sobivaim rida, mille jaoks

, ja ükski teine ​​meie probleemi regressioonisirge ei anna minimaalseid hälbeid.

D) Hinnangu ruutviga, nende tüüpilisuse kontrollimine.

Populatsiooni jaoks, kus on vähem kui 30 uuringuparameetrit ( n < 30), для проверки типичности параметров уравнения регрессии используется t- Üliõpilase kriteerium. See arvutab tegeliku väärtuse t- kriteeriumid:

Siit

kus on jääkkeskmine ruutviga. Vastu võetud t a ja t b võrreldes kriitilisega t küliõpilase tabelist, võttes arvesse aktsepteeritud olulisuse taset ( = 0,01 = 99% või  = 0,05 = 95%). P = f = k 1 = m on uuritava võrrandi parameetrite arv (vabadusaste). Näiteks kui y = a + bx; m = 2, k 2 = f 2 = lk 2 = n – (m+ 1), kus n- uuritud tunnuste arv.

t a < t k < t b .

Järeldus: tüüpilisuse suhtes kontrollitud regressioonivõrrandi parameetrite järgi koostatakse ühenduse matemaatiline mudel
. Sel juhul saavad analüüsis kasutatud matemaatilise funktsiooni parameetrid (lineaarne, hüperbool, parabool) vastavad kvantitatiivsed väärtused. Sel viisil saadud mudelite semantiline sisu seisneb selles, et need iseloomustavad efektiivse tunnuse keskmist väärtust
faktori tunnusest X.

E) Kurviline regressioon.

Üsna sageli esineb kõverjooneline seos, kui muutujate vahel luuakse muutuv seos. Suurenemise (vähenemise) intensiivsus sõltub X leidmise tasemest. Kurviline sõltuvus võib olla erinevat tüüpi. Näiteks kaaluge saagikuse ja sademete vahelist seost. Sademete hulga suurenemisega võrdsetes looduslikes tingimustes, saagikuse intensiivne suurenemine, kuid teatud piirini. Pärast kriitilist punkti on sademete hulk üleliigne ja saagikus langeb katastroofiliselt. Näide näitab, et alguses oli suhe positiivne ja seejärel negatiivne. Kriitiline punkt – tunnuse X optimaalne tase, mis vastab tunnuse Y maksimaalsele või minimaalsele väärtusele.

Majandusteaduses täheldatakse sellist seost hinna ja tarbimise, tootlikkuse ja tööstaaži vahel.

paraboolne sõltuvus.

Kui andmed näitavad, et faktoriatribuudi suurenemine toob kaasa resultantatribuudi suurenemise, siis võetakse regressioonivõrrandiks teist järku võrrand (parabool).

. Koefitsiendid a,b,c leitakse osadiferentsiaalvõrranditest:

Saame võrrandisüsteemi:

Kõverajooneliste võrrandite tüübid:

,

,

On mõistlik eeldada, et tööviljakuse ja valikutestide skooride vahel on kõverjooneline seos. See tähendab, et punktisüsteemi kasvuga hakkab jõudlus mingil tasemel langema, nii et otsemudel võib osutuda kõverjooneliseks.

Kolmas mudel on hüperbool ja kõigis võrrandites on muutuja x asemel avaldis.

Eelmistes märkustes on sageli keskendutud ühele numbrilisele muutujale, nagu investeerimisfondide tootlus, veebilehe laadimisaeg või karastusjookide tarbimine. Selles ja järgmistes märkustes käsitleme arvulise muutuja väärtuste ennustamise meetodeid sõltuvalt ühe või mitme muu arvmuutuja väärtustest.

Materjali illustreeritakse läbiva näitega. Müügimahu prognoosimine riidepoes. Soodusrõivaste kaupluste kett Sunflowers on pidevalt laienenud juba 25 aastat. Samas ei ole ettevõttel praegu süsteemset lähenemist uute müügikohtade valikule. Asukoht, kus ettevõte kavatseb uue kaupluse avada, määratakse subjektiivsete kaalutluste põhjal. Valikukriteeriumiks on soodsad renditingimused või juhataja ettekujutus kaupluse ideaalsest asukohast. Kujutage ette, et olete eriprojektide ja planeerimise osakonna juhataja. Olete saanud ülesandeks välja töötada strateegiline plaan uute kaupluste avamiseks. See plaan peaks sisaldama äsja avatud kaupluste aastamüügi prognoosi. Arvate, et pinna müük on otseselt seotud tuluga, ja soovite seda asjaolu oma otsustusprotsessis arvesse võtta. Kuidas arendada statistilist mudelit, mis ennustab iga-aastast müüki uue kaupluse suuruse põhjal?

Tavaliselt kasutatakse muutuja väärtuste ennustamiseks regressioonanalüüsi. Selle eesmärk on välja töötada statistiline mudel, mis ennustab sõltuva muutuja ehk vastuse väärtusi vähemalt ühe sõltumatu või selgitava muutuja väärtuste põhjal. Selles märkuses käsitleme lihtsat lineaarset regressiooni - statistilist meetodit, mis võimaldab ennustada sõltuva muutuja väärtusi Y sõltumatu muutuja väärtuste järgi X. Järgmistes märkustes kirjeldatakse mitmekordset regressioonimudelit, mis on loodud sõltumatu muutuja väärtuste ennustamiseks Y mitme sõltuva muutuja väärtuste järgi ( X 1, X 2, …, X k).

Laadige alla märge vormingus või vormingus, näited vormingus

Regressioonimudelite tüübid

kus ρ 1 on autokorrelatsioonikordaja; kui ρ 1 = 0 (autokorrelatsioon puudub), D≈ 2; kui ρ 1 ≈ 1 (positiivne autokorrelatsioon), D≈ 0; kui ρ 1 = -1 (negatiivne autokorrelatsioon), D ≈ 4.

Praktikas põhineb Durbin-Watsoni kriteeriumi rakendamine väärtuse võrdlusel D kriitiliste teoreetiliste väärtustega dl ja d U etteantud arvu vaatluste jaoks n, mudeli sõltumatute muutujate arv k(lihtsa lineaarse regressiooni jaoks k= 1) ja olulisuse tase α. Kui a D< d L , lükatakse tagasi hüpotees juhuslike kõrvalekallete sõltumatuse kohta (seega on positiivne autokorrelatsioon); kui D > d U, hüpoteesi ei lükata tagasi (st puudub autokorrelatsioon); kui dl< D < d U otsuse tegemiseks pole piisavalt põhjust. Kui arvutatud väärtus Dületab 2, siis dl ja d U ei võrrelda koefitsienti ennast D ja avaldis (4 – D).

Durbin-Watsoni statistika arvutamiseks Excelis pöördume joonisel fig. neliteist Saldo väljavõtmine. Lugeja avaldises (10) arvutatakse funktsiooni = SUMMQDIFF(massiiv1, massiiv2) ja nimetaja = SUMMQ(massiivi) abil (joonis 16).

Riis. 16. Durbin-Watsoni statistika arvutamise valemid

Meie näites D= 0,883. Põhiküsimus on: millist Durbin-Watsoni statistika väärtust tuleks pidada piisavalt väikeseks, et järeldada positiivse autokorrelatsiooni olemasolust? On vaja korreleerida D väärtus kriitiliste väärtustega ( dl ja d U) olenevalt vaatluste arvust n ja olulisuse tase α (joonis 17).

Riis. 17. Durbin-Watsoni statistika kriitilised väärtused (tabeli fragment)

Seega on teie koju kaupu tarniva kaupluse müügimahu probleemis üks sõltumatu muutuja ( k= 1), 15 vaatlust ( n= 15) ja olulisuse tase α = 0,05. Seega dl= 1,08 ja dU= 1,36. Niivõrd kui D = 0,883 < dl= 1,08, jääkide vahel on positiivne autokorrelatsioon, vähimruutude meetodit ei saa rakendada.

Hüpoteeside testimine kalde ja korrelatsioonikordaja kohta

Ülaltoodud regressiooni kasutati ainult prognoosimiseks. Regressioonikordajate määramiseks ja muutuja väärtuse ennustamiseks Y antud muutuja väärtuse jaoks X kasutati vähimruutude meetodit. Lisaks võtsime arvesse hinnangu standardviga ja segakorrelatsioonikordaja. Kui jääkanalüüs kinnitab, et vähimruutude meetodi rakendatavuse tingimusi ei rikuta ning lihtne lineaarse regressioonimudel on adekvaatne, võib valimiandmete põhjal väita, et üldkogumi muutujate vahel on lineaarne seos.

Rakendust -kalde kriteeriumid. Kontrollides, kas populatsiooni kalle β 1 on võrdne nulliga, saab kindlaks teha, kas muutujate vahel on statistiliselt oluline seos X ja Y. Kui see hüpotees tagasi lükata, võib väita, et muutujate vahel X ja Y on lineaarne seos. Null- ja alternatiivhüpoteesid formuleeritakse järgmiselt: H 0: β 1 = 0 (lineaarne seos puudub), H1: β 1 ≠ 0 (on lineaarne seos). A-prioor t-statistika võrdub valimi kalde ja hüpoteetilise populatsiooni kalde erinevusega, mis on jagatud kalde hinnangu standardveaga:

(11) t = (b 1 β 1 ) / Sb 1

kus b 1 on valimiandmetel põhineva otsese regressiooni kalle, β1 on otsese üldkogumi hüpoteetiline tõus, ja teststatistikat t Sellel on t- levitamine koos n-2 vabadusastmed.

Kontrollime, kas poe suuruse ja aastamüügi vahel on statistiliselt oluline seos α = 0,05 juures. t-kriteeriumid kuvatakse kasutamisel koos teiste parameetritega Analüüsi pakett(valik Regressioon). Analüüsipaketi täielikud tulemused on näidatud joonisel fig. 4, t-statistikaga seotud fragment - joonisel fig. kaheksateist.

Riis. 18. Taotluste tulemused t

Kuna kaupluste arv n= 14 (vt joonis 3), kriitiline väärtus t-statistikat olulisuse tasemel α = 0,05 saab leida valemiga: t L=ÕPILAS.INV(0,025;12) = -2,1788 kus 0,025 on pool olulisuse tasemest ja 12 = n – 2; t U\u003d STUDENT.INV (0,975, 12) \u003d +2,1788.

Niivõrd kui t-statistika = 10,64 > t U= 2,1788 (joonis 19), nullhüpotees H 0 lükatakse tagasi. Teisel pool, R- väärtus X\u003d 10,6411, mis on arvutatud valemiga \u003d 1-TUDENG.DIST (D3, 12, TÕENE), on ligikaudu võrdne nulliga, seega on hüpotees H 0 lükatakse uuesti tagasi. Asjaolu, et R-väärtus on peaaegu null, mis tähendab, et kui poe suuruse ja aastamüügi vahel poleks reaalset lineaarset seost, oleks seda lineaarse regressiooni abil peaaegu võimatu tuvastada. Seetõttu on keskmise aastase kaupluse müügi ja kaupluse suuruse vahel statistiliselt oluline lineaarne seos.

Riis. 19. Hüpoteesi testimine üldpopulatsiooni kalde kohta olulisuse tasemel 0,05 ja 12 vabadusastet

RakendusF -kalde kriteeriumid. Lihtsa lineaarse regressiooni tõusu hüpoteeside kontrollimise alternatiivne lähenemisviis on kasutada F- kriteeriumid. Tuletage seda meelde F-kriteeriumit kasutatakse kahe dispersiooni vahelise seose testimiseks (vt üksikasju). Kaldehüpoteesi testimisel on juhuslike vigade mõõduks vea dispersioon (vigade ruudu summa jagatud vabadusastmete arvuga), nii et F-test kasutab regressiooniga seletatud dispersiooni suhet (st väärtusi SSR jagatud sõltumatute muutujate arvuga k), vea dispersioonini ( MSE=SYX 2 ).

A-prioor F-statistika võrdub regressioonist tingitud keskmiste ruutude hälvete (MSR) jagamisel vea dispersiooniga (MSE): F = MSR/ MSE, kus MSR=SSR / k, MSE =SSE/(n– k – 1), k on sõltumatute muutujate arv regressioonimudelis. Testi statistika F Sellel on F- levitamine koos k ja n– k – 1 vabadusastmed.

Antud olulisuse taseme α puhul formuleeritakse otsustusreegel järgmiselt: kui F > FU, nullhüpotees lükatakse tagasi; vastasel juhul seda tagasi ei lükata. Tulemused, mis on esitatud dispersioonanalüüsi koondtabeli kujul, on näidatud joonisel fig. 20.

Riis. 20. Dispersioonanalüüsi tabel regressioonikordaja statistilise olulisuse hüpoteesi kontrollimiseks

Samamoodi t- kriteerium F-kriteeriumid kuvatakse kasutamisel tabelis Analüüsi pakett(valik Regressioon). Töö täielikud tulemused Analüüsi pakett näidatud joonisel fig. 4, fragment seotud F-statistika - joonisel fig. 21.

Riis. 21. Taotluste tulemused F- Excel Analysis ToolPacki abil saadud kriteeriumid

F-statistika on 113,23 ja R- nullilähedane väärtus (lahter TähtsusF). Kui olulisuse tase α on 0,05, määrake kriitiline väärtus F-valemist saab ühe ja 12 vabadusastmega jaotusi F U\u003d F. OBR (1-0,05; 1; 12) \u003d 4,7472 (joonis 22). Niivõrd kui F = 113,23 > F U= 4,7472 ja R- 0-le lähedane väärtus< 0,05, нулевая гипотеза H 0 kaldub kõrvale, st. Poe suurus on tihedalt seotud selle aastase müügimahuga.

Riis. 22. Hüpoteesi testimine üldpopulatsiooni kalde kohta olulisuse tasemel 0,05, ühe ja 12 vabadusastmega

Usaldusvahemik, mis sisaldab kallet β 1 . Et testida hüpoteesi muutujatevahelise lineaarse seose olemasolu kohta, saate luua usaldusvahemiku, mis sisaldab kallet β 1, ja veenduda, et hüpoteetiline väärtus β 1 = 0 kuulub sellesse intervalli. Kallet β 1 sisaldava usaldusvahemiku keskpunkt on valimi kalle b 1 , ja selle piirid on kogused b 1 ±t n –2 Sb 1

Nagu on näidatud joonisel fig. kaheksateist, b 1 = +1,670, n = 14, Sb 1 = 0,157. t 12 \u003d STUDENT.OBR (0,975, 12) \u003d 2,1788. Seega b 1 ±t n –2 Sb 1 = +1,670 ± 2,1788 * 0,157 = +1,670 ± 0,342 või + 1,328 ≤ β 1 ≤ +2,012. Seega on populatsiooni kalle tõenäosusega 0,95 vahemikus +1,328 kuni +2,012 (st 1 328 000 kuni 2 012 000 dollarit). Kuna need väärtused on suuremad kui null, on aastase müügi ja kaupluse pindala vahel statistiliselt oluline lineaarne seos. Kui usaldusvahemik sisaldaks nulli, poleks muutujate vahel seost. Lisaks tähendab usaldusvahemik, et iga 1000 ruutmeetri kohta. jalad põhjustavad keskmise müügi kasvu 1 328 000 dollari võrra 2 012 000 dollarini.

Kasutaminet -korrelatsioonikordaja kriteeriumid. võeti kasutusele korrelatsioonikordaja r, mis on kahe arvmuutuja vahelise seose mõõt. Selle abil saab määrata, kas kahe muutuja vahel on statistiliselt oluline seos. Korrelatsioonikordaja mõlema muutuja populatsioonide vahel tähistame sümboliga ρ. Null- ja alternatiivsed hüpoteesid on sõnastatud järgmiselt: H 0: ρ = 0 (korrelatsioon puudub), H 1: ρ ≠ 0 (seal on korrelatsioon). Korrelatsiooni olemasolu kontrollimine:

kus r = + , kui b 1 > 0, r = – , kui b 1 < 0. Тестовая статистика t Sellel on t- levitamine koos n-2 vabadusastmed.

Päevalillede kaupluseketi probleemis r2= 0,904 ja b 1- +1,670 (vt joonis 4). Niivõrd kui b 1> 0, on aastase müügi ja kaupluse suuruse korrelatsioonikoefitsient r= +√0,904 = +0,951. Testime nullhüpoteesi, et nende muutujate vahel puudub korrelatsioon t- statistika:

Olulisuse tasemel α = 0,05 tuleks nullhüpotees tagasi lükata, kuna t= 10,64 > 2,1788. Seega võib väita, et aastamüügi ja kaupluse suuruse vahel on statistiliselt oluline seos.

Arutades järeldusi populatsiooni nõlvade kohta, on usaldusvahemikud ja hüpoteeside kontrollimise kriteeriumid omavahel asendatavad. Korrelatsioonikordaja sisaldava usaldusvahemiku arvutamine osutub aga keerulisemaks, kuna statistika valimijaotuse vorm r sõltub tegelikust korrelatsioonikordajast.

Matemaatilise ootuse hindamine ja individuaalsete väärtuste prognoosimine

Selles jaotises käsitletakse eeldatava vastuse hindamise meetodeid Y ja individuaalsete väärtuste ennustused Y muutuja antud väärtuste jaoks X.

Usaldusvahemiku konstrueerimine. Näites 2 (vt ülaltoodud jaotist Vähima ruudu meetod) regressioonivõrrand võimaldas ennustada muutuja väärtust Y X. Jaemüügikoha asukoha valimise probleemis on 4000 ruutmeetri suuruse kaupluse keskmine aastane müük. jalg oli võrdne 7,644 miljoni dollariga. See üldrahvastiku matemaatiliste ootuste hinnang on aga punkt. üldkogumi matemaatilise ootuse hindamiseks pakuti välja usaldusvahemiku kontseptsioon. Samamoodi võib kontseptsiooni tutvustada vastuse matemaatilise ootuse usaldusvahemik muutuja antud väärtuse jaoks X:

kus , = b 0 + b 1 X i– prognoositava väärtuse muutuja Y juures X = X i, S YX on keskmine ruutviga, n on valimi suurus, Xi- muutuja antud väärtus X, µ Y|X = Xi– muutuja matemaatiline ootus Y juures X = Х i,SSX=

Valemi (13) analüüs näitab, et usaldusvahemiku laius sõltub mitmest tegurist. Antud olulisuse tasemel viib kõikumiste amplituudi suurenemine regressioonijoone ümber, mõõdetuna keskmise ruutvea abil, intervalli laiuse suurenemiseni. Teisest küljest, nagu oodatud, kaasneb valimi suuruse suurenemisega intervalli ahenemine. Lisaks muutub intervalli laius sõltuvalt väärtustest Xi. Kui muutuja väärtus Y prognoositud koguste jaoks X, keskmise väärtuse lähedal , osutub usaldusvahemik kitsamaks kui keskmisest kaugel olevate väärtuste vastuse ennustamisel.

Ütleme nii, et kaupluse asukoha valikul soovime kõigis 4000 ruutmeetrise pindalaga kauplustes ehitada 95% usaldusvahemikku aasta keskmise müügikäibe kohta. jalad:

Seetõttu on keskmine aastane müügimaht kõigis kauplustes, mille pindala on 4000 ruutmeetrit. jalga, 95% tõenäosusega jääb vahemikku 6,971–8,317 miljonit dollarit.

Arvutage prognoositud väärtuse usaldusvahemik. Lisaks sellele muutuja antud väärtuse vastuse matemaatilise ootuse usaldusvahemikule X, on sageli vaja teada prognoositava väärtuse usaldusvahemikku. Kuigi sellise usaldusvahemiku arvutamise valem on väga sarnane valemiga (13), sisaldab see intervall prognoositavat väärtust, mitte parameetri hinnangut. Prognoositava vastuse intervall YX = Xi muutuja konkreetse väärtuse jaoks Xi määratakse järgmise valemiga:

Oletame, et jaemüügikoha asukoha valikul soovime 4000 ruutmeetri suuruse kaupluse prognoositavale aastasele müügimahule ehitada 95% usaldusvahemikku. jalad:

Seetõttu prognoositi 4000 ruutmeetri aastase müügimahu kohta. jalga, jääb 95% tõenäosusega vahemikku 5,433 kuni 9,854 miljonit dollarit Nagu näete, on prognoositud vastuse väärtuse usaldusvahemik palju laiem kui selle matemaatilise ootuse usaldusvahemik. Selle põhjuseks on asjaolu, et üksikute väärtuste prognoosimise varieeruvus on palju suurem kui eeldatava väärtuse hindamisel.

Regressiooni kasutamisega seotud lõksud ja eetilised probleemid

Regressioonanalüüsiga seotud raskused:

  • Vähimruutude meetodi rakendamistingimuste eiramine.
  • Vähimruutude meetodi rakendamistingimuste ekslik hinnang.
  • Alternatiivsete meetodite vale valik, rikkudes vähimruutude meetodi kohaldamistingimusi.
  • Regressioonanalüüsi rakendamine ilma õppeaine süvendatud tundmiseta.
  • Regressiooni ekstrapoleerimine väljaspool selgitava muutuja vahemikku.
  • Segadus statistiliste ja põhjuslike seoste vahel.

Arvutustabelite ja statistikatarkvara laialdane kasutamine on kõrvaldanud arvutusprobleemid, mis takistasid regressioonanalüüsi kasutamist. See aga viis selleni, et regressioonanalüüsi hakkasid kasutama kasutajad, kellel ei ole piisavat kvalifikatsiooni ja teadmisi. Kuidas saavad kasutajad teada alternatiivmeetoditest, kui paljudel neist pole vähimruutude meetodi rakendamistingimustest üldse aimu ega tea, kuidas nende rakendamist kontrollida?

Uurijat ei tohiks ära viia numbrite lihvimine – nihke, kalde ja segakorrelatsioonikordaja arvutamine. Ta vajab sügavamaid teadmisi. Illustreerime seda õpikutest võetud klassikalise näitega. Anscombe näitas, et kõik neli joonisel fig. 23 on samad regressiooniparameetrid (joonis 24).

Riis. 23. Neli tehisandmekogumit

Riis. 24. Nelja tehisandmestiku regressioonanalüüs; tehtud Analüüsi pakett(pildi suurendamiseks klõpsake pildil)

Seega on regressioonanalüüsi seisukohast kõik need andmekogumid täiesti identsed. Kui analüüs sellega lõppeks, kaotaksime palju kasulikku teavet. Seda tõendavad nende andmekogumite jaoks koostatud hajuvusdiagrammid (joonis 25) ja jääkgraafikud (joonis 26).

Riis. 25. Nelja andmekogumi hajuvusdiagrammid

Hajudiagrammid ja jääkdiagrammid näitavad, et need andmed erinevad üksteisest. Ainus hulk, mis on jaotatud piki sirgjoont, on komplekt A. Hulgi A alusel arvutatud jääkide graafikul puudub muster. Sama ei saa öelda hulkade B, C ja D kohta. Hulga B jaoks kujutatud hajuvusgraafik näitab selgelt väljendunud ruutmustrit. Seda järeldust kinnitab paraboolse kujuga jääkide graafik. Hajumisdiagramm ja jääkdiagramm näitavad, et andmestik B sisaldab kõrvalekaldeid. Sellises olukorras on vaja välistada andmestik ja analüüsi korrata. Vaatlustest kõrvalekallete tuvastamise ja kõrvaldamise tehnikat nimetatakse mõjuanalüüsiks. Pärast kõrvalekalde kõrvaldamist võib mudeli ümberhindamise tulemus olla täiesti erinev. Andmehulgast D joonistatud hajuvusdiagramm illustreerib ebatavalist olukorda, kus empiiriline mudel sõltub suuresti ühest vastusest ( X 8 = 19, Y 8 = 12,5). Selliseid regressioonimudeleid tuleb eriti hoolikalt arvutada. Seega on hajuvus- ja jääkgraafikud regressioonianalüüsi olulised vahendid ja peaksid olema selle lahutamatu osa. Ilma nendeta pole regressioonanalüüs usaldusväärne.

Riis. 26. Jääkide graafikud nelja andmekogumi jaoks

Kuidas regressioonanalüüsis lõkse vältida:

  • Muutujatevahelise võimaliku seose analüüs X ja Y alusta alati hajuvusdiagrammiga.
  • Enne regressioonanalüüsi tulemuste tõlgendamist kontrollige selle rakendatavuse tingimusi.
  • Joonistage jäägid sõltuvusse sõltumatust muutujast. See võimaldab kindlaks teha, kuidas empiiriline mudel vastab vaatlustulemustele, ja tuvastada dispersiooni püsivuse rikkumisi.
  • Vigade normaaljaotuse eelduse testimiseks kasutage histogramme, varre- ja lehediagramme, kastdiagramme ja normaaljaotuse graafikuid.
  • Kui vähimruutude meetodi rakendustingimused ei ole täidetud, kasutage alternatiivseid meetodeid (näiteks ruut- või mitmekordse regressiooni mudeleid).
  • Kui vähimruutude meetodi rakendatavuse tingimused on täidetud, on vaja kontrollida hüpoteesi regressioonikordajate statistilise olulisuse kohta ning konstrueerida matemaatilist ootust ja prognoositavat vastuse väärtust sisaldavad usaldusvahemikud.
  • Vältige sõltuva muutuja väärtuste ennustamist väljaspool sõltumatu muutuja vahemikku.
  • Pidage meeles, et statistilised sõltuvused ei ole alati põhjuslikud. Pidage meeles, et muutujate vaheline korrelatsioon ei tähenda, et nende vahel on põhjuslik seos.

Kokkuvõte. Nagu näidatud plokkskeemil (joonis 27), kirjeldab märkus lihtsat lineaarse regressioonimudelit, selle rakendatavuse tingimusi ja viise nende tingimuste testimiseks. Arvestatud t-regressiooni kalde statistilise olulisuse testimise kriteerium. Sõltuva muutuja väärtuste ennustamiseks kasutati regressioonimudelit. Näitena käsitletakse jaemüügikoha koha valikuga seonduvat, milles uuritakse aastase müügimahu sõltuvust kaupluse pinnast. Saadud teave võimaldab teil täpsemalt valida kaupluse asukohta ja prognoosida selle aastakäivet. Järgmistes märkustes jätkub arutelu regressioonanalüüsi ja ka mitme regressioonimudeli üle.

Riis. 27. Sedeli plokkskeem

Kasutatud on materjale raamatust Levin jt Statistics for managers. - M.: Williams, 2004. - lk. 792–872

Kui sõltuv muutuja on kategooriline, tuleks rakendada logistilist regressiooni.

Regressioonanalüüs on üks populaarsemaid statistilise uurimistöö meetodeid. Seda saab kasutada sõltumatute muutujate mõju määra määramiseks sõltuvale muutujale. Microsoft Exceli funktsionaalsus sisaldab tööriistu, mis on loodud seda tüüpi analüüside tegemiseks. Vaatame, mis need on ja kuidas neid kasutada.

Kuid selleks, et kasutada funktsiooni, mis võimaldab teil regressioonanalüüsi teha, peate esmalt aktiveerima analüüsipaketi. Alles siis ilmuvad Exceli lindile selle protseduuri jaoks vajalikud tööriistad.


Nüüd, kui läheme vahekaardile "Andmed", tööriistakasti lindil "Analüüs" näeme uut nuppu - "Andmete analüüs".

Regressioonanalüüsi tüübid

Regressioone on mitut tüüpi:

  • paraboolne;
  • võimsus;
  • logaritmiline;
  • eksponentsiaalne;
  • demonstratsioon;
  • hüperboolne;
  • lineaarne regressioon.

Viimast tüüpi regressioonanalüüsi rakendamisest Excelis räägime täpsemalt hiljem.

Lineaarne regressioon Excelis

Allpool on näitena toodud tabel, mis näitab ööpäeva keskmist õhutemperatuuri tänaval ning kaupluse klientide arvu vastaval tööpäeval. Uurime regressioonanalüüsi abil täpselt, kuidas ilmastikutingimused õhutemperatuuri näol võivad mõjutada kaubandusettevõtte külastatavust.

Üldine lineaarse regressiooni võrrand näeb välja selline: Y = a0 + a1x1 + ... + axk. Selles valemis Y tähendab muutujat, mille mõju püüame uurida. Meie puhul on see ostjate arv. Tähendus x on erinevad tegurid, mis seda muutujat mõjutavad. Valikud a on regressioonikoefitsiendid. See tähendab, et need määravad kindlaks konkreetse teguri olulisuse. Indeks k tähistab nende samade tegurite koguarvu.


Analüüsi tulemuste analüüs

Regressioonanalüüsi tulemused kuvatakse tabeli kujul seadistustes määratud kohas.

Üks peamisi näitajaid on R-ruut. See näitab mudeli kvaliteeti. Meie puhul on see koefitsient 0,705 ehk umbes 70,5%. See on vastuvõetav kvaliteeditase. Suhe alla 0,5 on halb.

Teine oluline indikaator asub lahtris joone ristumiskohas "Y-ristmik" ja veerg "Koefitsiendid". Siin näidatakse, milline väärtus Y saab olema, ja meie puhul on see ostjate arv, kusjuures kõik muud tegurid on võrdsed nulliga. Selles tabelis on see väärtus 58,04.

Väärtus graafiku ristumiskohas "Muutuja X1" ja "Koefitsiendid" näitab Y sõltuvuse taset X-st. Meie puhul on see kaupluse klientide arvu sõltuvuse tase temperatuurist. Koefitsienti 1,31 peetakse üsna kõrgeks mõjunäitajaks.

Nagu näete, on Microsoft Exceli abil regressioonianalüüsi tabeli koostamine üsna lihtne. Kuid ainult koolitatud inimene saab väljundis saadud andmetega töötada ja mõista nende olemust.

3. loeng

Regressioonanalüüs.

1) Regressiooni numbrilised karakteristikud

2) Lineaarne regressioon

3) Mittelineaarne regressioon

4) Mitmekordne regressioon

5) MS EXCELi kasutamine regressioonanalüüsi tegemiseks

Kontrolli- ja hindamisvahend – testülesanded

1. Regressiooni numbrilised karakteristikud

Regressioonanalüüs on statistiline meetod ühe või mitme sõltumatu muutuja mõju uurimiseks sõltuvale muutujale. Sõltumatuid muutujaid nimetatakse muidu regressoriteks või ennustajateks ja sõltuvaid muutujaid kriteeriumiteks. Sõltuvate ja sõltumatute muutujate terminoloogia peegeldab ainult muutujate matemaatilist sõltuvust, mitte põhjuse ja tagajärje seost.

Regressioonanalüüsi eesmärgid

  • Kriteeriumi (sõltuva) muutuja variatsiooni determinismi astme määramine ennustajate (sõltumatute muutujate) abil.
  • Sõltuva muutuja väärtuse ennustamine sõltumatu(te) muutuja(te) abil.
  • Üksikute sõltumatute muutujate panuse määramine sõltuva muutuja muutumisse.

Regressioonanalüüsi abil ei saa kindlaks teha, kas muutujate vahel on seos, kuna sellise seose olemasolu on analüüsi rakendamise eelduseks.

Regressioonanalüüsi läbiviimiseks peate esmalt tutvuma statistika ja tõenäosusteooria põhimõistetega.

Diskreetsete ja pidevate juhuslike suuruste põhilised numbrilised karakteristikud: matemaatiline ootus, dispersioon ja standardhälve.

Juhuslikud muutujad jagunevad kahte tüüpi:

  • Diskreetne, mis võib võtta ainult konkreetseid etteantud väärtusi (näiteks visatud täringu ülaosas olevate numbrite väärtused või jooksva kuu järguväärtused);
  • · pidev (kõige sagedamini - mõne füüsikalise suuruse väärtused: kaal, kaugus, temperatuur jne), mis vastavalt loodusseadustele võib võtta mis tahes väärtusi, vähemalt teatud intervalliga.

Juhusliku suuruse jaotusseadus on vastavus diskreetse juhusliku suuruse võimalike väärtuste ja selle tõenäosuste vahel, mis tavaliselt kirjutatakse tabelisse:

Tõenäosuse statistiline definitsioon väljendub juhusliku sündmuse suhtelise sageduse kaudu, st leitakse juhuslike suuruste arvu ja juhuslike suuruste koguarvu suhtena.

Diskreetse juhusliku suuruse matemaatiline ootusX nimetatakse koguse väärtuste korrutiste summaks X nende väärtuste tõenäosuse kohta. Matemaatiline ootus on tähistatud või M(X) .

n

= M(X) = x 1 lk 1 + x 2 lk 2 +… + x n p n = S x i pi

i=1

Juhusliku suuruse dispersioon selle matemaatilise ootuse suhtes määratakse arvulise tunnuse abil, mida nimetatakse dispersiooniks. Lihtsamalt öeldes on dispersioon juhusliku muutuja levik keskmise ümber. Dispersiooni olemuse mõistmiseks kaaluge näidet. Riigi keskmine palk on umbes 25 tuhat rubla. Kust see number pärit on? Suure tõenäosusega kõik palgad liidetakse ja jagatakse töötajate arvuga. Sel juhul on hajumine väga suur (minimaalne palk on umbes 4 tuhat rubla ja maksimaalne on umbes 100 tuhat rubla). Kui kõigil oleks sama palk, oleks dispersioon null ja vahet poleks.

Diskreetse juhusliku suuruse dispersioonX nimetatakse juhusliku suuruse erinevuse ruudu matemaatiliseks ootuseks ja selle matemaatiliseks ootuseks:

D = M [ ((X - M (X)) 2 ]

Kasutades dispersiooni arvutamiseks matemaatilise ootuse määratlust, saame järgmise valemi:

D \u003d S (x i - M (X)) 2 p i

Dispersioonil on juhusliku suuruse ruudu mõõde. Juhtudel, kui on vaja võimalike väärtuste hajuvuse arvulist karakteristikku juhusliku suuruse endaga samas mõõtmes, kasutatakse standardhälvet.

Standardhälve juhuslikku muutujat nimetatakse selle dispersiooni ruutjuureks.

Keskmine ruuthälve on juhusliku suuruse väärtuste hajumise mõõt selle matemaatilise ootuse ümber.

Näide.

Juhusliku suuruse X jaotusseadus on toodud järgmises tabelis:

Leidke selle matemaatiline ootus, dispersioon ja standardhälve .

Kasutame ülaltoodud valemeid:

M (X) = 1 0,1 + 2 0,4 + 4 0,4 ​​+ 5 0,1 \u003d 3

D \u003d (1-3) 2 0,1 + (2-3) 2 0,4 + (4-3) 2 0,4 + (5-3) 2 0,1 \u003d 1,6

Näide.

Rahaloteriis mängitakse 1 võit 1000 rubla, 10 võitu 100 rubla ja 100 võitu 1 rubla piletite koguarvuga 10 000. Tee ühe loteriipileti omanikule juhusliku võidu X jaotusseadus. ja määrata juhusliku suuruse matemaatiline ootus, dispersioon ja standardhälve.

X 1 \u003d 1000, X 2 = 100, X 3 = 1, X 4 = 0,

P 1 = 1/10000 = 0,0001, P 2 = 10/10000 = 0,001, P 3 = 100/10000 = 0,01, P 4 = 1 - (P 1 + P 2 + P 3) = 0,9889.

Paneme tulemused tabelisse:

Matemaatiline ootus - juhusliku suuruse väärtuse paariskorrutiste summa nende tõenäosuse järgi. Selle probleemi jaoks on soovitatav see arvutada valemiga

1000 0,0001 + 100 0,001 + 1 0,01 + 0 0,9889 = 0,21 rubla.

Saime päris "õiglase" piletihinna.

D \u003d S (x i - M (X)) 2 p i \u003d (1000 - 0,21) 2 0,0001 + (100 - 0,21) 2 0,001 +

+ (1 - 0,21) 2 0,01 + (0 - 0,21) 2 0,9889 ≈ 109,97

Pidevate juhuslike suuruste jaotusfunktsioon

Väärtust, mis testi tulemusel saab ühe võimaliku väärtuse (pole ette teada, millise), nimetatakse juhuslikuks muutujaks. Nagu eespool mainitud, on juhuslikud suurused diskreetsed (katkestavad) ja pidevad.

Diskreetne muutuja on juhuslik muutuja, mis võtab teatud tõenäosustega eraldi võimalikud väärtused, mida saab nummerdada.

Pidev muutuja on juhuslik muutuja, mis võib võtta kõik väärtused mõnest lõplikust või lõpmatust intervallist.

Seni oleme piirdunud ainult ühe juhuslike muutujatega – diskreetsete, s.o. lõplike väärtuste võtmine.

Kuid statistika teooria ja praktika nõuavad pideva juhusliku muutuja kontseptsiooni kasutamist - lubades mis tahes arvväärtusi mis tahes intervallist.

Pideva juhusliku suuruse jaotusseadust saab mugavalt täpsustada nn tõenäosustiheduse funktsiooni abil. f(x). Tõenäosus P(a< X < b) того, что значение, принятое случайной величиной Х, попадет в промежуток (a; b), определяется равенством

P (a< X < b) = ∫ f(x) dx

Funktsiooni f (x) graafikut nimetatakse jaotuskõveraks. Geomeetriliselt on tõenäosus, et juhuslik suurus langeb intervalli (a; b) võrdne vastava kõverjoonelise trapetsi pindalaga, mis on piiratud jaotuskõvera, Ox-telje ja sirgjoontega x \u003d a, x \ u003d b.

P(a£X

Kui keerulisest sündmusest lahutada lõplik või loendatav hulk, jääb uue sündmuse tõenäosus muutumatuks.

Funktsiooni f(x) – tegeliku argumendi x arvulist skalaarfunktsiooni nimetatakse tõenäosustiheduseks ja see eksisteerib punktis x, kui selles punktis on piir:

Tõenäosuse tiheduse omadused:

  1. Tõenäosustihedus on mittenegatiivne funktsioon, st f(x) ≥ 0

(kui kõik juhusliku suuruse X väärtused on vahemikus (a;b), siis viimane

võrdsuse saab kirjutada kui ∫ f (x) dx = 1).

Vaatleme nüüd funktsiooni F(x) = P(X< х). Эта функция называется функцией распределения вероятности случайной величины Х. Функция F(х) существует как для дискретных, так и для непрерывных случайных величин. Если f (x) - функция плотности распределения вероятности

pidev juhuslik suurus X, siis F (x) = ∫ f(x) dx = 1).

Viimasest võrratusest järeldub, et f (x) = F" (x)

Mõnikord nimetatakse funktsiooni f(x) diferentsiaaljaotuse funktsiooniks ja funktsiooni F(x) kumulatiivseks tõenäosusjaotuse funktsiooniks.

Märgime tõenäosusjaotuse funktsiooni kõige olulisemad omadused:

  1. F(x) on mittekahanev funktsioon.
  2. F(-∞)=0.
  3. F (+∞) = 1.

Jaotusfunktsiooni mõiste on tõenäosusteoorias kesksel kohal. Seda mõistet kasutades saab anda pideva juhusliku suuruse teise definitsiooni. Juhuslikku suurust nimetatakse pidevaks, kui selle integraaljaotusfunktsioon F(x) on pidev.

Pidevate juhuslike suuruste arvulised karakteristikud

Mis tahes juhuslike muutujate matemaatilised ootused, dispersioon ja muud parameetrid arvutatakse peaaegu alati jaotusseadusest tulenevate valemite abil.

Pideva juhusliku muutuja matemaatiline ootus arvutatakse järgmise valemiga:

M(X) = ∫ x f(x) dx

Dispersioon:

D(X) = ∫ ( x- M (X)) 2 f(x) dx või D(X) = ∫ x 2 f(x) dx - (M (X)) 2

2. Lineaarne regressioon

Olgu kahemõõtmelise juhusliku suuruse (X, Y) komponendid X ja Y sõltuvad. Eeldame, et ühte neist saab ligikaudselt esitada näiteks teise lineaarse funktsioonina

Y ≈ g(X) = α + βX ning määrake parameetrid α ja β vähimruutude meetodil.

Definitsioon. Funktsiooni g(X) = α + βX kutsutakse parim lähendus Y vähimruutude meetodi tähenduses, kui matemaatiline ootus M(Y - g(X)) 2 võtab väikseima võimaliku väärtuse; kutsutakse funktsioon g(X). keskmine ruutregressioon Y kuni X.

Teoreem Y lineaarne keskmine ruutregressioon X-l on:

kus on korrelatsioonikordaja X ja Y.

Võrrandi koefitsiendid.

Saab kontrollida, et nende väärtuste puhul on funktsioon F(α, β)

F(α, β ) = M(Y - α - βX)² omab miinimumi, mis tõestab teoreemi väidet.

Definitsioon. Koefitsienti nimetatakse regressioonikordaja Y kohta X, ja sirgjoon - - Y otsene ruutkeskmine regressioon X-l.

Asendades statsionaarse punkti koordinaadid võrdusse, leiame funktsiooni F(α, β) minimaalse väärtuse, mis on võrdne See väärtus on nn. jääkdispersioon Y X-i suhtes ja iseloomustab lubatud vea suurust Y asendamisel

g(X) = α + βX. Kell , on jääkdispersioon 0, see tähendab, et võrdsus ei ole ligikaudne, vaid täpne. Seega, kui Y ja X on ühendatud lineaarse funktsionaalse sõltuvusega. Samamoodi saate X-i ruutkeskmise regressiooni sirgjoone Y-le:

ja X jääkvariatsioon Y suhtes. Mõlema otsese regressiooni korral langevad kokku. Võrreldes regressioonivõrrandeid Y-l ja X-l Y-l ning lahendades võrrandisüsteemi, saab leida regressioonisirgete lõikepunkti - koordinaatidega punkti (t x,t y), nn. X ja Y väärtuste ühise jaotuse keskpunkt.

Vaatleme regressioonivõrrandite koostamise algoritmi V. E. Gmurmani õpikust “Tõenäosusteooria ja matemaatiline statistika” lk 256.

1) Koosta arvutustabel, kuhu märgitakse näidiselementide arvud, näidisvariandid, nende ruudud ja korrutis.

2) Arvutage kõigi veergude summa, välja arvatud arv.

3) Arvutage iga koguse, dispersiooni ja standardhälbete keskmised väärtused.

5) Kontrollige hüpoteesi X ja Y vahelise seose olemasolu kohta.

6) Koostage mõlema regressioonisirge võrrandid ja koostage nende võrrandite graafikud.

Sirgeregressiooni Y kalle X-l on valimi regressioonikordaja

Koefitsient b=

Saame X-i regressioonisirge Y soovitud võrrandi:

Y = 0,202 X + 1,024

Samamoodi regressioonivõrrand X kohta Y:

Sirgeregressiooni Y kalle X-l on regressioonikordaja valimi pxy:

Koefitsient b=

X \u003d 4,119 Y - 3,714

3. Mittelineaarne regressioon

Kui majandusnähtuste vahel on mittelineaarsed seosed, siis neid väljendatakse vastavate mittelineaarsete funktsioonide abil.

Mittelineaarseid regressioone on kahte klassi:

1. Regressioonid, mis on analüüsis sisalduvate selgitavate muutujate suhtes mittelineaarsed, kuid hinnanguliste parameetrite suhtes lineaarsed, näiteks:

Erineva astme polünoomid

Võrdkülgne hüperbool - ;

Poollogaritmiline funktsioon - .

2. Regressioonid, mis on hinnanguliste parameetrite poolest mittelineaarsed, näiteks:

Võimsus - ;

Demonstratiivne -;

Eksponentsiaalne - .

Mittelineaarsed regressioonid kaasatud muutujate suhtes taandatakse muutujate lihtsa muutmise teel lineaarseks ja edasine parameetrite hindamine viiakse läbi vähimruutude meetodil. Vaatleme mõnda funktsiooni.

Teise astme parabool taandatakse lineaarsele kujule, kasutades asendust: . Selle tulemusena jõuame kahefaktorilise võrrandini, mille parameetrite hindamine vähimruutude meetodil viib võrrandisüsteemini:

Teise astme parabooli kasutatakse tavaliselt juhtudel, kui teatud faktoriväärtuste intervalli puhul muutub vaadeldavate tunnuste seose olemus: otsene seos muutub pöördvõrdeliseks või pöördsuhe otseseks.

Võrdkülgse hüperbooli abil saab iseloomustada toorme, materjalide, kütuse erikulude ja toodangu mahu, kauba ringlusaja ja käibe väärtuse vahelist seost. Selle klassikaline näide on Phillipsi kõver, mis iseloomustab mittelineaarset seost töötuse määra vahel. x ja protsentuaalne palgatõus y.

Hüperbool taandatakse lineaarvõrrandiks lihtsa asendusega: . Lineaarvõrrandisüsteemi koostamiseks saate kasutada ka vähimate ruutude meetodit.

Sarnaselt taandatakse sõltuvused lineaarsele kujule: , ja teised.

Engeli kõvera kirjeldamiseks kasutatakse võrdkülgset hüperbooli ja poollogaritmilist kõverat (kestvuskaupadele tehtavate kulutuste osa ja kogukulutuste (või sissetulekute) vahelise seose matemaatiline kirjeldus). Võrrandeid, milles need sisalduvad, kasutatakse tootlikkuse, põllumajandusliku tootmise töömahukuse uuringutes.

4. Mitmekordne regressioon

Mitu regressiooni – mitme sõltumatu muutujaga lingi võrrand:

kus on sõltuv muutuja (tulemusmärk);

Sõltumatud muutujad (tegurid).

Mitme regressioonivõrrandi koostamiseks kasutatakse kõige sagedamini järgmisi funktsioone:

lineaarne -

võimsus -

eksponent -

hüperbool - .

Saate kasutada muid funktsioone, mida saab taandada lineaarsele kujule.

Mitme regressiooni võrrandi parameetrite hindamiseks kasutatakse vähimruutude meetodit (LSM). Lineaarvõrrandite ja lineaarseteks taandatud mittelineaarsete võrrandite jaoks koostatakse järgmine normaalvõrrandite süsteem, mille lahendamine võimaldab saada regressiooniparameetrite hinnanguid:

Selle lahendamiseks saab kasutada determinantide meetodit:

kus on süsteemi determinant;

Privaatsed määrajad; mis saadakse süsteemi determinandi maatriksi vastava veeru asendamisel süsteemi vasaku poole andmetega.

Teine mitmekordse regressiooni võrrandi tüüp on standardskaalaga regressioonivõrrand, LSM on rakendatav mitmekordse regressiooni võrrandi jaoks standardskaalal.

5. KasutaminePRLEXCELregressioonianalüüsi tegemiseks

Regressioonanalüüs tuvastab juhusliku muutuja Y (sõltuv) ja ühe või mitme muutuja väärtuste (sõltumatu) vahelise seose vormi ning viimaste väärtusi peetakse täpselt ette antud. Sellise sõltuvuse määrab tavaliselt mõni matemaatiline mudel (regressioonivõrrand), mis sisaldab mitmeid tundmatuid parameetreid. Regressioonanalüüsi käigus leitakse näidisandmete põhjal nende parameetrite hinnangud, määratakse hinnangute statistilised vead või usaldusvahemike piirid ning kontrollitakse aktsepteeritud matemaatilise mudeli vastavust (adekvaatsust) katseandmetele.

Lineaarse regressioonianalüüsi puhul eeldatakse, et juhuslike suuruste vaheline seos on lineaarne. Lihtsamal juhul on paaris lineaarse regressioonimudeli puhul kaks muutujat X ja Y. Ja seda on vaja n vaatluspaari jaoks (X1, Y1), (X2, Y2), ..., (Xn, Yn) ehitada (valida) sirge, mida nimetatakse regressioonijooneks ja mis on vaadeldavatele väärtustele "kõige parem". Selle sirge võrrand y=ax+b on regressioonivõrrand. Regressioonivõrrandi abil saate ennustada sõltuva muutuja y eeldatavat väärtust, mis vastab sõltumatu muutuja x etteantud väärtusele. Juhul, kui vaadeldakse sõltuvust ühe sõltuva muutuja Y ja mitme sõltumatu muutuja X1, X2, ..., Xm vahel, räägitakse mitmekordsest lineaarsest regressioonist.

Sel juhul on regressioonivõrrandil vorm

y = a 0 +a 1 x 1 +a 2 x 2 +…+a m x m,

kus a0, a1, a2, …, am on määratavad regressioonikoefitsiendid.

Regressioonivõrrandi koefitsiendid määratakse vähimruutude meetodil, saavutades muutuja Y tegelike väärtuste ja regressioonivõrrandi abil arvutatud erinevuste minimaalse võimaliku ruudusumma. Seega saab näiteks lineaarse regressiooni võrrandi koostada ka siis, kui lineaarne korrelatsioon puudub.

Regressioonimudeli efektiivsuse mõõdik on determinatsioonikordaja R2 (R-ruut). Määramiskoefitsient võib võtta väärtusi vahemikus 0 kuni 1, mis määrab, millise täpsusega saadud regressioonivõrrand kirjeldab (ligikaudne) algandmeid. Samuti uuritakse regressioonimudeli olulisust F-kriteeriumi (Fisher) abil ning koefitsientide a0, a1, a2, ..., am nullist erinevuse usaldusväärsust kontrollitakse Studenti kriteeriumi abil.

Excelis on katseandmed ligikaudsed lineaarvõrrandiga kuni 16. järguni:

y = a0+a1x1+a2x2+…+a16x16

Lineaarsete regressioonikoefitsientide saamiseks saab kasutada analüüsipaketi "Regression" protseduuri. Lisaks annab funktsioon LINEST täielikku teavet lineaarse regressiooni võrrandi kohta. Lisaks saab funktsioone SLOPE ja INTERCEPT kasutada regressioonivõrrandi parameetrite saamiseks ning funktsioone TREND ja FORECAST kasutada prognoositud Y väärtuste saamiseks vajalikes punktides (paaripõhiseks regressiooniks).

Vaatleme üksikasjalikult funktsiooni LINEST (tuntud_y, [tuntud_x], [konstant], [statistika]) rakendamist: teada_y - sõltuva parameetri Y teadaolevate väärtuste vahemik. Paaripõhises regressioonanalüüsis võib sellel olla mis tahes kujul; mitmuses peab see olema kas rida või veerg; teada_x on ühe või mitme sõltumatu parameetri teadaolevate väärtuste vahemik. Peab olema sama kujuga kui Y-vahemik (mitme parameetri, vastavalt mitme veeru või rea korral); konstant - Boolean argument. Kui regressioonianalüüsi ülesande praktilisest tähendusest lähtuvalt on vajalik, et regressioonisirge läbiks alguspunkti, st vaba koefitsient võrdub 0-ga, tuleks selle argumendi väärtuseks määrata 0 (või “ vale”). Kui väärtuseks on seatud 1 (või "tõene") või see jäetakse välja, arvutatakse vaba koefitsient tavapärasel viisil; statistika on tõepärane argument. Kui väärtuseks on seatud 1 (või "tõene"), tagastatakse täiendav regressioonistatistika (vt tabelit), mida kasutatakse mudeli tõhususe ja olulisuse hindamiseks. Üldjuhul näeb paaripõhise regressiooni korral y=ax+b funktsiooni LINEST rakendamise tulemus välja järgmine:

Tabel. LINEST väljundvahemik paaripõhise regressioonianalüüsi jaoks

Võrrandi y=a0+a1x1+a2x2+…+amxm mitmekordse regressioonianalüüsi korral kuvatakse esimesel real koefitsiendid am,…,a1,a0 ja nende koefitsientide standardvead kuvatakse teisel real. . Read 3–5, välja arvatud kaks esimest regressioonistatistikaga täidetud veergu, annavad #N/A.

Funktsioon LINEST tuleb sisestada massiivivalemina, valides esmalt tulemuseks soovitud suurusega massiivi (m+1 veergu ja 5 rida, kui on vaja regressioonistatistikat) ning lõpetada valemi sisestus vajutades CTRL+SHIFT+ENTER.

Meie näite tulemus:

Lisaks on programmil sisseehitatud funktsioon – Data Analysis vahekaardil Andmed.

Seda saab kasutada ka regressioonanalüüsi tegemiseks:

Slaidil - Andmeanalüüsi abil tehtud regressioonanalüüsi tulemus.

TULEMUSED

Regressioonistatistika

Mitu R

R-ruut

Normaliseeritud R-ruut

standardviga

Tähelepanekud

Dispersioonanalüüs

Tähtsus F

Regressioon

Koefitsiendid

standardviga

t-statistika

P-väärtus

alumine 95%

Top 95%

Madalam 95,0%

Top 95,0%

Y-ristmik

Muutuja X 1

Regressioonivõrrandid, mida me varem vaatlesime, on samuti ehitatud MS Excelis. Nende teostamiseks koostatakse esmalt hajuvusdiagramm, seejärel valige kontekstimenüüst - Lisa trendijoon. Uues aknas märkige ruudud - Näidake diagrammil võrrandit ja asetage diagrammile lähenduskindluse väärtus (R ^ 2).

Kirjandus:

  1. Tõenäosusteooria ja matemaatiline statistika. Gmurman V. E. Õpik ülikoolidele. - Toim. 10., sr. - M.: Kõrgem. kool, 2010. - 479s.
  2. Kõrgem matemaatika harjutustes ja ülesannetes. Õpik ülikoolidele / Danko P. E., Popov A. G., Kozhevnikova T. Ya., Danko S. P. 2 tunni pärast - toim. 6., sr. - M .: Kirjastus Oniks LLC: kirjastus Mir and Education, 2007. - 416 lk.
    1. 3. http://www.machinelearning.ru/wiki/index.php?title=%D0%A0%D0%B5%D0%B3%D1%80%D0%B5%D1%81%D1%81%D0%B8 %D1%8F - veidi teavet regressioonanalüüsi kohta