Biograafiad Omadused Analüüs

Lineaarse mudeli parameetrite usaldusvahemikud. Paaritud regressioonimudeli parameetrite usaldusintervallid

Loe ka:
  1. Ühenduse tugevuse absoluutsed ja suhtelised näitajad paari regressioonivõrrandites.
  2. Algoritm mitmekordse regressioonimudeli adekvaatsuse kontrollimiseks (tõendamise etappide olemus, arvutusvalemid, järelduse vormistamine).
  3. Algoritm paarisregressioonimudeli adekvaatsuse kontrollimiseks.
  4. Algoritm regressorite olulisuse kontrollimiseks mitmikregressioonimudelis: püstitatud statistiline hüpotees, selle kontrollimise protseduur, statistika arvutamise valemid.
  5. Käsuvormingu ja arvuti põhiparameetrite vastastikune sõltuvus
  6. Režiimi parameetrite seos tööriista elueaga.

Intervallhinnangute koostamisel kasutatakse teadaoleva jaotusega spetsiaalset statistikat. Leiliruumi parameetrite usaldusvahemike loomiseks regressioonimudel a ja b, moodustatakse t-statistika, sealhulgas abistav juhuslikud muutujad:

Lisagem klassikalise regressioonimudeli eeldustele juhusliku häiringu normaaljaotuse eeldus, siis statistikal V on jaotus , ja statistikud on normaaljaotusega.

Häirete jaotuse normaalsus eeldab valimiandmete Y t , (t=1,…,n) ühisjaotuse normaalsust ja kuna Regressioonikordajate a^ ja b^ vähimruutude hinnangud on lineaarsed funktsioonid Y t , siis on ka nende ühisjaotus normaalne ja a^ - N(a, σ a ^ ^2), b^ - N(b, σ b ^ ^2).

Parameetrite hinnangute veajaotused: b-b^ - N(0, σ b ^ ^2), a-a^ - N(0, σ a ^ ^2), tõesti

E(a-a^)=a-E(a^)=0, E(b-b^)=b-E(b^)=0, sest LSM – hinnangud b^ ja a^ on erapooletud. Variatsioonid: Var(a-a^)=Var(a^)= σ a ^ ^2, Var(b-b^)=Var(b^)= σ b ^ ^2.

Seetõttu on juhuslikud suurused Z b =(b-b^)/ σ b ^ ja Z a =(a-a^)/ σ a ^ normaaljaotus nullmatiga. ootus ja ühiku dispersioon Z a – N(0,1), Z b – N(0,1).

Reegli t=Z/ √V/k järgi moodustatud statistikal, kus Z on standardne normaaljuhuslik suurus ja V on Z-st sõltumatu muutuja, jaotatud hii-ruutseaduse järgi k vabadusastmega, on ( Studenti) t-jaotus parameetriga k. Seega juhuslikud suurused tb=Zb/√V/(n-2) = Zbσ/√Σet^2/(n-2) = Zbσ/√s^2 = ((b-b^)σ)/ σb^*s ,

ta= Za/√V/(n-2) = Zaσ/√Σet^2/(n-2) = Zaσ/√s^2 = ((b-b^)σ)/ σa^*s.

Need on t-statistika parameetriga n-2. Teisendame selle statistika avaldised arvutamiseks mugavaks vormiks. Kuna σb^/σ=sb^/s ja σa^/σ=sa^/s, on t-statistika väärtusi mugav arvutada järgmiste valemite abil:

t b =(b-b^)/s b^, t a =(b-b^)/s a^, kus s b^ ^2=s^2/Σx t ^2, s a^ ^2=s^2 * ΣX t ^2/nΣx t^2.

Avaldised on parameetrite hinnangute normaliseeritud vead ja neid nimetatakse Studenti murdarvuks. Studenti murrul on Studenti jaotus (n-2) vabadusastmega. Teatud olulisuse taseme α juures on võimalik t-jaotuse tabelitest määrata statistika kriitilist väärtust t cr ja standardprotseduuri kasutades konstrueerida usaldusvahemik, mis koos usalduse tase 1-α katab statistilise t väärtuse.

Avaleht > Abstraktne

Lineaarse mudeli parameetrite usaldusvahemikud.

Oluliste regressioonikoefitsientide jaoks saab usaldusvahemikud konstrueerida järgmise valemi abil: Intervallide hindamine vektori poolt määratletud punktis esialgsed tingimused x 0 , määratakse valemiga: , (2.21) kus = (x 0) t b; x 0 =
- dimensiooni (k+1) t algtingimuste veeruvektor määratakse Studenti jaotustabeliga olulisuse taseme  ja vabadusastmete arvu =n -k -1 jaoks.

Mudeli koostamiseks kasutatakse astmelise regressiooni meetodit. Mudelis iseloomustava tegurite seose keerukus majandusnähtused, tuleb seda lihtsustada, et tuua esile kõige olulisemad suhted. Vaja leida parim variant mudel, mis kajastab uuritava nähtuse põhimustreid piisava statistilise usaldusväärsusega. Mudel peaks sisaldama kõiki tegureid, mis majanduslikust seisukohast sõltuvale muutujale mõju avaldavad, kuid mudelis sisalduvate tegurite arv ei tohiks olla väga suur. Selle tingimuse eiramine toob kaasa mitmeid raskusi, sealhulgas hinnangute täpsuse vähenemine, mudeli tõlgendamise keerukus ja raskused selle praktilises kasutamises.

Võib eristada kahte erinevaid lähenemisviise algmuutujate arvu vähendamise probleemi lahendamiseks. Üks neist põhineb asjaolul, et esialgse mudeli koostamise käigus elimineeritakse vähem olulised tegurid, teine ​​aga esialgse muutujate komplekti asendamisel. vähem algse hulga teisenduste tulemusena saadud ekvivalenttegurid. Regressioonimudeli koostamise protsessis ebaoluliste tegurite kõrvaldamise protseduuri nimetatakse mitmeastmeliseks regressioonianalüüs. See meetod põhineb mitme vahepealse regressioonivõrrandi arvutamisel, mille analüüsi tulemusena saadakse lõplik mudel, mis sisaldab vaid tegureid, millel on uuritavale sõltuvale muutujale lähedane statistiliselt oluline mõju. Antud ülesandes kasutasin mitmeastmelist regressioonianalüüsi, mis põhines Regressioonikordajate olulisuse hindamisel Studenti t-testi abil. Regressioonivõrrand on üles ehitatud maksimumi järgi võimalik number selgitavad muutujad, mis eeldatavasti mõjutavad uuritavat muutujat. Seejärel jäetakse teatud kriteeriume kasutades välja need muutujad, millel on statistiliselt ebaoluline mõju. Regressioonivõrrandis oluliste tegurite valimise skeem t-testi abil näeb välja järgmine: kui kõik regressioonikordajad on olulised, siis tunnistatakse regressioonivõrrand lõplikuks ja võetakse uuritava tunnuse mudeliks; kui regressioonikordajate hulgas on ebaolulisi, siis tuleks vastavad seletavad muutujad võrrandist välja jätta. Esmalt tuleks aga reastada regressioonikordajad t obs väärtuse järgi ja ennekõike välistada selline tegur, mille puhul regressioonikordaja on ebaoluline ja t obs on väikseim väärtus peal absoluutväärtus. Regressioonivõrrandi väärtus arvutatakse uuesti ilma välistatud tegurita ja seejärel hinnatakse regressioonikordajaid t-testiga. Seda korratakse seni, kuni võrrandis olevad regressioonikoefitsiendid muutuvad oluliseks. Lihtsaim vooluring regressioonikoefitsientide olulisuse kontrollimine taandub igaühe jaoks usaldusvahemiku konstrueerimisele ja hüpoteesi testimisele, kas null on konstrueeritud intervalli sees. Kui hüpoteesi ei lükata tagasi, loetakse see regressioonikordaja ebaoluliseks või seatakse selle olulisus kahtluse alla ja selgitatakse analüüsi järgmistes etappides. Kell seda meetodit igal sammul, välja arvatud ametlik statistiline kontroll regressioonikordajate olulisus, see on ka majandusanalüüs kehtestatakse ebaolulised tegurid ja nende välistamise kord. Mõnel juhul on t obs väärtus lähedane t cr-le ja mudeli mõttekuse seisukohalt võib selle teguri jätta selle olulisuse hilisemaks kontrollimiseks koos teiste tegurite kogumitega. Regressioonikordaja mitteolulisus t-testi järgi ei ole alati aluseks muutuja edasisest analüüsist väljajätmiseks. Seetõttu on mõnel juhul vaja kasutada mõningaid täiendavaid empiirilisi protseduure, et muutuja regressioonivõrrandist välja jätta ainult siis, kui regressioonikordaja standardviga ületab arvutatud koefitsiendi absoluutsuurust, kui t obs 1,5. 3. Tsirkuse sissetulekute mitmemõõtmelise regressioonimudeli konstrueerimine Venemaa Föderatsioon. 3.1 Tegurite valik Vene Föderatsiooni tsirkuste sissetulekute mitmemõõtmelise regressioonimudeli koostamiseks. Vene Föderatsiooni tsirkuste sissetulekute mitme muutujaga regressioonimudeli koostamiseks valiti välja tsirkused 34 Vene Föderatsiooni linnas. Venemaa Riikliku Tsirkuse ja Vene Föderatsiooni riikliku statistikakomitee statistiliste andmete põhjal viidi läbi esialgsete andmete esialgne analüüs. Tsirkuse tegevust iseloomustavate teguritena võeti arvesse linna elanike arvu, kohtade arvu tsirkuses, etenduste arvu, tsirkust külastanud pealtvaatajate arvu, tulusid, kulusid, kasumit ja külastatavust. Homogeense statistilise populatsiooni saamiseks viidi läbi klasteranalüüs, mille tulemusena saadi klastrid, millel on piisav statistiline homogeensus mitme muutujaga regressioonimudeli koostamiseks. Klasteranalüüs viidi läbi 8 indikaatori kohta, kuid mitme muutujaga regressioonimudeli koostamiseks ei saa kõiki neid näitajaid kasutada, kuna valimi suurus peaks olema oluliselt rohkem numbrit regressioonimudelis sisalduvad tegurid n>>k .

Sellised tegurid nagu pealtvaatajate arv, kohtade arv ja etenduste arv sisalduvad kohalolekuteguri arvväärtuste arvutamise valemis, valem (3.1):

Vaatajate arv* 100% = külastuse %. (3.1)

Kohtade arv * etenduste arv

Seda valemit kasutatakse Venemaa Riikliku Tsirkuse raamatupidamises osalemise arvutamiseks. Seetõttu ei ole kohane lisada regressioonimudelisse tegurit vaatajate arv ja etenduste arv, kuna esineb multikollineaarsuse oht ja sellest tulenevalt mudeli statistiline ebausaldusväärsus. Istekohtade arvu koefitsient otsustati mudelisse lisada majanduslikel põhjustel. Regressioonivõrrandi konstrueerimine hõlmab kahe peamise probleemi lahendamist. Esimeseks ülesandeks on valida sõltumatud muutujad, meie näites kulu, kohtade arv, külastatavus, millel on oluline mõju sõltuvale muutujale (sissetulekule), ning määrata ka regressioonivõrrandi tüüp. Regressioonivõrrandi koostamise teine ​​ülesanne on võrrandi parameetrite hindamine. See lahendatakse ühe või teise andmetöötluse matemaatilis-statistilise meetodi abil. Statistiliste andmete analüüsiks kasutati rakendusprogrammide paketti Statistics 5.0 - PPP “Statistica”. Mitmemõõtmelises statistilises analüüsis kasutatavatel muutujatel on erinevad ühikud. Seetõttu enne läbiviimist Statistiline analüüs andmed standardiseeriti, st taandati ühtseks mõõtmisskaalaks. Rakenduspaketis Statistics 5.0 võimaldab käsk Standardi ridade veerge standardida valitud ploki iga rea ​​väärtusi. Plokis muudetakse muutujate väärtused standardseteks, mis arvutatakse järgmise valemi (3.2) abil: uus väärtus = (vana väärtus - valitud rea keskmine) / standardhälve, t = xx. (3.2) s Lisaks viidi homogeensete statistiliste agregaatide saamiseks läbi klasteranalüüs. Klasteranalüüs on üldnimetus klassifikatsiooni koostamiseks kasutatav arvutusprotseduuride komplekt. See on mitme muutujaga statistiline protseduur, mis kogub andmeid, sisaldab teavet objektide valimi kohta ja paigutab seejärel objektid suhteliselt homogeensetesse rühmadesse. Objektide vaheliseks kauguseks võeti erinevad kaugused, tavaline Eukleidiline kaugus, kaalutud eukleidiline kaugus. Klasteranalüüsis rühmadesse ühendamisel võeti arvesse dendogramme (lisa nr 4), mis tehti kahel hierarhilisel meetodil: meetod kauge naaber(Täielik sidumine) ja Wardi meetod. Graafiline esitus klasteranalüüsi tulemused viiakse läbi PPP “Statistica” abil. Klasteranalüüs viiakse läbi ühes ülalpool käsitletud statistikatarkvarapakettidest. Kõik dendogrammid on toodud lisas nr 4. Seega, kasutades mitmeid klastrite analüüsi algoritme, eelistame Wardi meetodil jagamist kaheks klastriks. "Ward" meetodil selles lõputöö rakendatakse kaalutud eukleidilist kaugust. Joonisel fig. 3.1 näitab linnade klassifikatsiooni dendogrammi, mis põhineb kaalutud eukleidilise kauguse ja Wardi põhimõttel.

Riis. 3.1. Dendogramm. Linnade klassifitseerimine kaalutud eukleidilise kauguse ja Wardi põhimõtte alusel.

Klassifikatsioon viidi läbi erinevate klasteranalüüsi algoritmide järgi, kuid sisult olid parimad Wardi meetodil saadud tulemused kaheks klastriks jagamisel, millest esimene koosnes 18 linnast ja teine ​​16 linnast. Nii saadi kaks statistiliselt homogeenset rühma. Meie näites peaksime keskenduma selle konkreetse meetodi kasutamisele kui parimale klassifitseerimisvõimalusele. Klasteranalüüsi tulemused on toodud tabelis 3.1. Tabel nr 3.1. Esimeses ja teises klastris sisalduvad linnad.

Nr p / lk 1 klaster Nr p / lk 2 klaster
1 Vladivostok 1 Astrahan
2 Volgograd 2 Brjansk
3

Voronež

3

Ivanovo

4 Irkutsk 4 Kemerovo
5 Krasnodar 5 Kirov
6 Krasnojarsk 6 Kislovodsk
7 Tver 7 Kostroma
8 Jekaterinburg 8 Kursk
9

Samara

9 Sotši
10 Novosibirsk 10 Magnitogorsk
11 Omsk 11 Nižni Tagil
12 permi keel 12 Novokuznetsk
13 Rostov Don 13 Orenburg
14 Rjazan 14 Penza
15 Saratov 15 Stavropol
16 Tula 16 Tjumen
17 Tšeljabinsk
18 Jaroslavl
3.2. Mitmemõõtmelise regressioonimudeli koostamine. Klasteranalüüsi kasutamine võimaldas esitada statistilisi andmeid kahe statistika kujul homogeensed rühmad, mille mõistmiseks on otstarbekas koostada klastrile nr 1 regressioonimudel. Korrelatsiooni- ja regressioonanalüüsi meetodite kasutamine võimaldas uurida tulude sõltuvust järgmistest tootmis- ja majandustegevuse näitajatest:
    y - sissetulek; х1 – istekohtade arv; x2 - tarbimine; x3 - külastada.
Analüüsi esialgsed statistilised andmed on toodud lisas nr 5. Pamaatriksi analüüs võimaldas hinnata mudelisse kaasatud tegurite omavaheliste seoste lähedust, samuti hinnata multikollineaarsuse võimalikkust. Multikollineaarsuse olemasolu selles mudelis ei leitud. Paariskorrelatsioonikordajate maatriksi analüüsi tulemuste põhjal jõuti järeldusele, et kasutatakse selliseid tegureid nagu: kohtade arv, tarbimine, külastatavus. Tõhusa märgina - sissetulek. Tabelis nr 3.2 on toodud klastri nr 1 sissetulekute regressioonimudeli koostamise tulemused sõltuvalt teguritest: kohtade arv, kulud, külastatavus ja tulud. Tabel nr 3.2. Tsirkusetulude mitme muutujaga regressioonimudeli parameetrite statistiline hindamine klastrile nr 1.
F(3,14)=32,512p<,00000 Std.Error of estimate: ,40801 RІ= ,87447834
Katkesta
KOHTADE ARV
KULUD
KÜLASTA
Durbin-Watson d = 2,1974158
Rakenduspaketi Statistics 5.0 - PPP "Statistica" rakendamine võimaldas ehitada klastri nr 1 sissetulekute regressioonimudeli: Y = +0,04547-0,04079*X1+0,99053*X2+0,07429*X3. (3.3) Mudeli statistilist usaldusväärsust hinnati järgmiste adekvaatsuse parameetrite abil (tabel nr 3.2): mitmekordne määramistegur R 2 = 0,87447, mis näitab, et 87,4% sissetulekute variatsioonist ühendavad mudelis sisalduvad näitajad. (X1, X2, X3), suhteline lähendusviga δ = 0,40801, F arvutatud väärtus - kriteerium Fobs = 32,512. Regressioonivõrrand on oluline, kuna F obl = 32,512 > F cr = 3,11, leitud tabelist F - jaotus olulisuse tasemel α = 0,05 ja vabadusastmed ν 1 =4 ja ν 1 =14. Individuaalsete regressioonikordajate H0 olulisuse hüpoteesi kontrollimiseks: θ j = 0, kus j = 1,2,3, võrrelge kriitilist väärtust tcr =2,145 väärtusel α = 0,05 ning vabadusastmete arvu ja ν 1 =14 . Võrrandist järeldub, et ainult üks regressioonikordaja t 2  on statistiliselt oluline, kuna arvutatud väärtus t 2  = 8,69883 > tcr = 2,145. Ülejäänud regressioonikoefitsientide arvutatud väärtused t j  on väiksemad kui tcr =2,145, kui α = 0,05 ja vabadusastmete arv ν 1 =14. Oluliste koefitsientidega regressiooni saamiseks kasutame samm-sammult algoritm regressioonianalüüs. Esialgu kasutame muutujate elimineerimisega samm-sammult algoritmi. Jätame mudelist välja muutuja X1 - kohtade arv, mis vastab koefitsiendi minimaalsele absoluutväärtusele t 1  = 0,34465. Ülejäänud muutujate jaoks koostame uuesti regressioonivõrrandi: Y = +0,03001+0,97113*X2+0,08843*X3. (3.4) Tabelis nr 3.3 on toodud klastri nr 1 tulude regressioonimudeli koostamise tulemused sõltuvalt teguritest: kulu, kohalolek ja tulu. Tabel nr 3.3. Tsirkusetulude mitme muutujaga regressioonimudeli parameetrite statistiline hindamine klastrile nr 1.
R= .93456584 RI= .87341332 Reguleeritud RI= .85653509

F(2,15) = 51,748 p<,00000 Std.Error of estimate: ,39585

Katkesta
KULUD
KÜLASTA

Durbin-Watson d = 2,1400127

Saadud võrrand on oluline, kuna F obl = 51,748 > F cr =3,29 olulisuse tasemel α = 0,05 ja vabadusastmete arvud ν 1 =3 ja ν 1 =15, mis on leitud F-jaotuse tabelist. Siiski on võrrandis t 2  = 10,11286 oluline ainult üks regressioonikoefitsient, kui tcr (0,05;15)=1,753. Arvutatud väärtus t 3  \u003d 0,95991 on väiksem kui tcr (0,05; 15) \u003d 1,753, mis on leitud tabelist t - jaotused tcr \u003d 2,145 ja d vabadusastmete arvuga α \u003 1 \u003d 15. Jätame mudelist välja muutuja X3 - visit, mis vastab koefitsiendi minimaalsele absoluutväärtusele t 3  = 0,95991. Ülejäänud muutujate jaoks koostame uuesti regressioonivõrrandi:

Reeglina sisse lineaarne regressioon tavaliselt hinnatakse mitte ainult võrrandi kui terviku, vaid ka selle üksikute parameetrite olulisust Piiratud üldkogumi kohta (valimi jaoks) arvutatud korrelatsiooninäitajad on vaid hinnangud ühele või teisele statistilisele mustrile, kuna iga parameetri puhul säilib element mittetäielikult. kustunud juhuslikkus, mis on omane individuaalsed väärtused märgid. Seetõttu on vajalik korrelatsiooniparameetrite täpsuse ja usaldusväärsuse statistiline hindamine. Usaldusväärsust mõistetakse siin kui tõenäosust, et kontrollitud parameetri väärtus ei ole võrdne nulliga, ei sisalda vastupidiste märkide väärtusi.

Korrelatsiooniparameetrite tõenäosuslik hinnang tehakse vastavalt üldreeglid kontrollid statistilised hüpoteesid, arenenud matemaatiline statistika, eriti kui võrrelda hinnangulist väärtust keskmisega juhuslik viga hinnangud. Paari regressioonikordaja jaoks b keskmine hinnanguviga arvutatakse järgmiselt:

kus D peatusjääkdispersioonüks vabadusaste.

Meie näite puhul oli regressioonikordaja standardvea väärtus:

.

Et hinnata, kui täpsed võivad indikaatorite väärtused arvutatutest erineda, koostatakse usaldusvahemikud. Need määravad kindlaks piirid, mille piires on määratud näitajate täpsed väärtused teatud täpsusastmega, mis vastab antud olulisuse tasemele. α (α - õige hüpoteesi tagasilükkamise tõenäosus, eeldusel, et see on tõene, võetakse tavaliselt võrdseks 0,05 või 0,01 ).

Hindadeks statistiline olulisus lineaarse regressiooni koefitsient ja lineaarne koefitsient paaride korrelatsiooni, samuti usaldusvahemike arvutamiseks b, rakendatud t – õpilase kriteerium.

Regressioonikordaja olulisuse hindamiseks võrreldakse selle väärtust selle standardveaga, s.o. määratakse Studenti t-testi tegelik väärtus: , mida seejärel võrreldakse tabeli väärtusega teatud olulisuse tasemel a ja vabadusastmete arv ( n- 2).

Selles näites oli regressioonikordaja t-testi tegelik väärtus:

.

Ekstraheerides saame sama tulemuse Ruutjuur leitud F-kriteeriumist, s.o.

Tõepoolest, võrdsus on tõsi.

At (kahepoolse kriteeriumi korral) ja vabadusastmete arv on 13 tabeli väärtus t b = 2.16. Kuna t-testi tegelik väärtus ületab tabeli väärtust, siis võib hüpoteesi, et regressioonikordaja on ebaoluline, tagasi lükata.

Parameetrite usaldusvahemike arvutamiseks a ja b lineaarse regressiooni võrrandid määratlevad piirviga iga näitaja kohta:

∆ a = t tab m a, ∆ b = t tab m b.

Usaldusvahemike arvutamise valemid on järgmised:

γ a = a ± ∆ a γ amiin = a - ∆ a γ amin = a + ∆ a

γ b = b ± ∆ b γ bmin = b - ∆ b γ bmin = b + ∆ b

Kui intervalli piirid on erinevad märgid, st. null jääb nendesse piiridesse, siis võetakse hinnanguliseks parameetriks null.

Regressioonikordaja usaldusvahemik on määratletud kui . Regressioonikordaja jaoks b näites on 95% piirid järgmised:

0,022 ± 2,16 0,0026 = 0,022 ± 0,0057, st.

0,016 ≤ b ≤ 0,027.

Kuna ökonomeetrilistes uuringutes on regressioonikordajal selge majanduslik tõlgendus, siis ei tohiks regressioonikordaja intervalli usalduspiirid sisaldada vastuolulisi tulemusi, näiteks -10 ≤ b ≤ 40. Seda tüüpi rekord viitab sellele tõeline väärtus regressioonikordaja sisaldab samaaegselt positiivseid ja negatiivsed väärtused ja isegi null, mis ei saa olla.

Parameetri standardviga a määratakse järgmise valemiga:

Selle parameetri olulisuse hindamise protseduur ei erine eespool regressioonikordaja puhul käsitletust; t-kriteerium arvutatakse: , selle väärtust võrreldakse tabeli väärtusega millal df= n- 2 vabadusastet. Meie näites m a ulatus 0,032.

Lineaarse korrelatsioonikordaja olulisust testitakse korrelatsioonikordaja vea suuruse põhjal härra:

Studenti t-testi tegelik väärtus on defineeritud kui

See valem näitab, et paaris lineaarses regressioonis , sest nagu juba mainitud, Lisaks seetõttu

Seega on regressiooni- ja korrelatsioonikordaja olulisuse hüpoteeside kontrollimine samaväärne olulisuse hüpoteesi kontrollimisega. lineaarvõrrand regressioon.

Selles näites t r sobis tb. Väärtus tr = 8,37ületab oluliselt tabeli väärtust 2,16 juures a = 0,05. Seetõttu erineb korrelatsioonikordaja oluliselt nullist ja sõltuvus on märkimisväärne.

Nimetatakse prognoosi, mis saadakse teguri eeldatava väärtuse asendamisel regressioonivõrrandiga punkti prognoos. Sellise prognoosi täpse elluviimise tõenäosus on äärmiselt väike. Sellega peab kaasnema väärtus keskmine viga prognoos või prognoosi usaldusvahemiküsna suure tõenäosusega.



Punktiprognoos seisneb prognoosiväärtuse y p saamises, mis määratakse regressioonivõrrandisse asendamisega

vastav prognoositav väärtus xp:

y p = a + b x p .

Intervallprognoos seisneb prognoosi usaldusvahemiku konstrueerimises, st. ülemised ja alumised piirid ypmin, ypmax intervall, mis sisaldab prognoositud väärtuse täpset väärtust
(ypmin< y p < y pmax ) . Usaldusvahemik määratakse alati etteantud tõenäosusega, mis vastab olulisuse taseme α aktsepteeritud väärtusele.

Eelarvutatud standardviga prognoos .

Ja siis ehitatakse prognoosi usaldusvahemik, st. määratakse prognoosivahemiku alumine ja ülemine piir

, ,

kus .

Oletame, et meie näites on vaja leida tulemuse ennustav väärtus eeldusel, et teguri ennustav väärtus X võrra suureneb 15% selle keskmisest tasemest ja määrake prognoosi usaldusvahemik.

Faktori prognoositava väärtuse suurenemine X annab väärtuse

Asendades selle valemis, leiame

,

tulemuse ennustav väärtus antud tingimusel

y p = a+b∙x p = 6,63+0,022∙149,99 = 9,95.

See. prognoosi usaldusvahemik on

9,73 < y p <10,18.

Millal mittelineaarne regressioon viiakse läbi korrelatsiooniindeksi olulisuse hindamine, samuti korrelatsioonikordaja usaldusväärsuse hindamine. Määramisindeksit kasutatakse mittelineaarse regressioonivõrrandi olulisuse kontrollimiseks üldiselt vastavalt Fisheri F-kriteeriumile:

kus R2– määramisindeks;

n on vaatluste arv;

m on muutujate parameetrite arv X.

Väärtus m iseloomustab ruutude faktoriaalsumma vabadusastmete arvu ja ( n-m- 1) on ruutude jääksumma vabadusastmete arv.

Toitefunktsiooni jaoks ja valem F - kriteeriumid on samal kujul kui lineaarse sõltuvuse korral:

Teise astme parabooli jaoks y=a + b x + c x 2 + ε m=2 ja .

Ehitatud mudeli kvaliteedi hindamiseks kasutame ka keskmine lähendusviga. Saadud atribuudi tegelikud väärtused erinevad regressioonivõrrandi abil arvutatud teoreetilistest väärtustest, st. kell ja . Mida väiksem on see erinevus, seda paremini sobivad teoreetilised väärtused empiirilistele andmetele ja seda parem on mudeli kvaliteet. Efektiivse tunnuse tegelike ja arvutatud väärtuste kõrvalekallete suurus ( juures- ) on iga vaatluse lähendusviga. Nende arv vastab rahvastiku mahule. Mõnel juhul võib lähendusviga olla null. Võrdluseks võetakse kõrvalekalded, väljendatuna protsentides tegelikest väärtustest. Seega, kui esimeseks vaatluseks y = 20, ja teise jaoks y = 50, on lähendusviga esimese vaatluse puhul 25% ja teise puhul 20%.

Kuna ( juures- ) võib olla nii positiivne kui ka negatiivne, siis on tavaks määrata iga vaatluse lähendusvead mooduli protsendina.

Mudeli kvaliteedi kohta üldise hinnangu saamiseks iga vaatluse suhteliste hälvete põhjal määratletakse keskmine lähendusviga lihtsa aritmeetilise keskmisena:

.

Oma näite puhul esitame tabelis 4 keskmise lähendusvea arvutamise.

2.4. Regressioonimudeli adekvaatsuse kontrollimine

2.4.1. Määramiskoefitsient

Klassikalises regressioonanalüüsis eeldatakse, et regressioonifunktsioon on teada (määratletud) kuni parameetriteni, st regressorite (sõltumatute muutujate) hulk on defineeritud. Majanduslike ja sotsiaalsete protsesside empiirilistes uuringutes tuleb paljudest võimalikest regressioonivõrrandite variantidest, mis erinevad regressorite komplekti poolest, valida kõige adekvaatseim mudel (regressioonifunktsioon). Selline mudel selgitab kõige paremini tegeliku protsessi käitumist. Lineaarse regressioonimudeli kvaliteedi hindamiseks klassikalises regressioonanalüüsis kasutatakse indikaatorit nn määramiskoefitsientR2(loe R- ruut). Determinatsioonikoefitsient mängib regressioonanalüüsis olulist rolli. Allpool on selle indikaatori kolm samaväärset määratlust, mis erinevad registreerimisvormi ja tõlgendamisviisi poolest.

Esitame sõltuva muutuja kõrvalekalde selle valimi keskmisest kui

Mõelge selle avaldise paremal küljel olevale viimasele terminile. Meil on:

me saame sellest aru

Selle avaldise vasakul küljel olevat summat nimetatakse ruutude täissumma, nimetatakse esimest summat () paremal küljel mudeliga seletatav ruutude summa, nimetatakse parempoolse külje teist summat ruutude jääksumma. Lisaks saame avaldist () kasutades kirjutada

Siin oleme kasutanud järgmisi suhteid:

(see tuleneb normaalvõrrandisüsteemi (2.11 ), (2.12) esimesest võrrandist, (siin on kasutusel jääkvara (2.20)). ()-st järeldub, et muutuja y koguvariatsiooni saab laotada kaheks komponendiks: - see on regressiooniga seletatav osa koguvariatsioonist ja - koguvariatsiooni seletamatu osa, mis tuleneb juhuslikust. mudeli komponent. Laiendusi () ja () kasutatakse määramiskoefitsiendi määramiseks.

Determinatsioonikoefitsiendi esimene esitus

Defineerime determinatsioonikoefitsiendi järgmise seosega

Nimetaja on ruutude kogusumma, kasutame selle tähistamiseks lühendit TSS, nii et

Paaritud lineaarse regressioonimudeli koostamisel tuleks jälgida, et determinatsioonikordaja väärtus oleks võimalikult lähedane ühele. Selle arvutamiseks on lihtsam ja mugavam kasutada valemit ().

Näide 2.4.

Näite 2.1 mudeli määramisteguri arvutamine. Arvutused valemiga () annavad näite 2.1 mudeli puhul järgmise määramiskoefitsiendi väärtuse: R2 = 0,9965. Seega on määramiskoefitsient ühtsuse lähedane, mis näitab konstrueeritud mudeli vaadeldavate andmete lähendamise head kvaliteeti.

Näide 2.5.

Näite 2.2 filiaalide käibemudelite määramiskoefitsientide arvutamine. Näite 2.2 esimese regressiooni jaoks, mis kirjeldab käibe sõltuvust müügipinnast, determinatsioonikoefitsient R 1 2 \u003d 0,96886. Teise regressiooni jaoks, mis kirjeldab käibe sõltuvust ostjavoo keskmisest päevasest intensiivsusest R 2 2 \u003d 0,42433.

Seega saadud regressioonimudelite kvaliteedi objektiivsed näitajad - determinatsioonikoefitsiendid kinnitavad varem tehtud oletust (vt näide 2.2), et esimene regressioon selgitab paremini sõltuva muutuja käitumist.

2.4.2. Regressioonikordajate usaldusvahemike loomine

Eelmises punktis käsitletud adekvaatsuse näitajat - determinatsioonikoefitsienti kasutatakse regressioonimudelite kvaliteedi hindamiseks üldiselt, alternatiivsete mudelite võrdlemisel. Selles jaotises käsitletakse protseduure, mis võimaldavad teha järelduse võrrandi üksikute parameetrite tegelike väärtuste hinnangute kvaliteedi kohta.

Vähimruutude koefitsientide hinnangute dispersioonide hinnangud

Hinnangu kvaliteedi üks olulisi omadusi on selle dispersioon, mis on eeldatavast väärtusest kõrvalekaldumise mõõt. Varem hinnangute dispersioonide jaoks saadud võrrandid (2.22 ), (2.23 ) (või (2.24 )) sõltuvad regressioonimudeli juhusliku komponendi tundmatust dispersioonist. u. Selleks, et neid võrrandeid saaks praktilistes arvutustes kasutada, on vaja kindlaks määrata koguse hinnang. See on mudeli teine ​​parameeter. Juhusliku liikme dispersiooni erapooletu hinnang u on vormi hinnang

Avaldist () kasutatakse hinnangute dispersioonide hinnangute arvutamiseks a ja b regressioonikoefitsiendid. Selleks asendatakse võrrandites (2.22 ), (2.23 ), (2.24 ) teoreetiline dispersioon selle hinnanguga (). Seega on dispersioonihinnangutel selline vorm

Usaldusvahemike määramine mudeli parameetrite hinnangute jaoks

Saadud parameetrite hinnangud ja mudelid on punkt . Valemid (2.13 ), (2.14 ) määravad hinnangud juhuslike arvude kujul sõltuvalt konkreetsest vaatlusvalimist. Need arvud võivad mõnel juhul parameetrite tegelikest väärtustest oluliselt erineda. Sellega seoses tekib küsimus - kas on võimalik piisava usaldusväärsusega kindlaks teha, kui lähedased on saadud hinnangud parameetrite tegelikele väärtustele, või täpsemalt määrata intervallid, mille jooksul tegelikud väärtused on parameetrid võivad olla antud tõenäosusega. Selgub, et selliseid intervalle saab konstrueerida kasutades nn t- testid. Ehitamiseks t-testid, on vaja eeldada juhusliku komponendi normaalsust, st t- testi rakendatakse eelduste piires klassikaline normaalne lineaarne regressioon. T-testide abil on võimalik testida hüpoteese nii regressioonikoefitsientide üksikute arvväärtuste kui ka nende lineaarsete kombinatsioonide väärtuste kohta. Viimane on eriti oluline mitme lineaarse regressioonimudeli adekvaatsuse hindamisel. t- testid võimaldavad ka ehitada usaldusvahemikud sõltuva muutuja regressioonikordajate ja ennustavate väärtuste jaoks.

t- testid põhinevad järgmisel olulisel väitel: juhuslikud muutujad

järgima keskmist Studenti jaotust (t-jaotus, sellest ka nimi - t - testid) vabadusastmega (n-2).

Märkus vabadusastmete kohta.

Vabadusastmete arv võrdub muutuvate vaatluste arvuga, millest on lahutatud hinnanguliste mudelikoefitsientide arv. Paaripõhises lineaarses regressioonimudelis on selliseid koefitsiente ainult kaks. Fikseeritud valimi suurusega regressioonimudelis koefitsientide arvu suurendamine vähendab vastavalt vabadusastmete arvu.

On ilmne, et koefitsientide punkthinnangute vead on vastavalt võrdsed . Need on juhuslikud muutujad, kuna hinnangud ise on juhuslikud. Seetõttu saab hinnangute täpsust (nende viga) hinnata ainult tõenäosuslikus mõttes. Määrame veavahemiku laiuse (mitte juhusliku muutuja) ja defineerime hinnangu usaldusväärsuse kui tõenäosuse, millega punkthinnangu viga langeb sellesse fikseeritud intervalli. Formaalselt võib seda kirjutada kui

kus on tõenäosus, et punkthinnangu viga jääb antud intervalli sisse. Võime öelda, et tõenäosus iseloomustab usaldusastet antud intervallis, nii et seda nimetatakse usalduse tase või usaldusväärsus. Nimetatakse suurusjärk - tõenäosus, et viga ületab etteantud intervalli olulisuse tase.

Seosed (), () saab vormis ümber kirjutada

Usaldusvahemike tõlgendamine.

Avaldisi (), () tõlgendatakse järgmiselt: väärtus on tõenäosus, et hinnangulised mittejuhuslikud parameetrid ja on vastavalt kaetud intervallidega , juhuslike otstega sõltuvalt juhuslikest muutujatest – hinnangud a ja b.

Neid intervalle nimetatakse usaldusvahemikud. Nimetatakse ka usaldusvahemikke intervallide hinnangud ja need täiendavad parameetrite punkthinnanguid. Intervallhinnangud annavad täiendavat väärtuslikku teavet punkthinnangute usaldusväärsuse kohta ja parandavad punkthinnangute kohta tehtud otsuste usaldusväärsust.

Usaldusvahemike määramine.

Usaldusvahemikud määratakse kasutades t- Õpilaste statistika vormil (), (). Statistika jaoks t(millel on t-jaotus), saate määrata väärtuse (tabelist t-kriteerium), mis vastab antud olulisuse tasemele ja teatud arvule vabadusastmetele, (siin lk- vabadusastmete arv kahe parameetriga p=2), selline, et

katta tõenäosusega regressiooniparameetrite tundmatud tegelikud väärtused ja . Usaldusvahemike asukoht ja laius on valimiti erinev. Tõepoolest, nende asukoht ja laius sõltuvad nii koefitsientide hinnangutest, mis on muutujad (juhuslikud muutujad), kui ka standardhälbete valimi hinnangute juhuslikest väärtustest. s a ja sb. Ökonomeetriliste regressioonimudelite koostamisel määratakse usaldusvahemikud tavaliselt kahe olulisuse taseme jaoks - ja . Sellest lähtuvalt räägivad nad sellest 5% olulisuse tase või umbes 1% olulisuse tase. Usalduse tõenäosused (usaldustasemed) on sel juhul võrdsed ja . Sellest lähtuvalt räägivad nad sellest 95% või umbes 99% usaldustase (usaldusväärsus). Rõhutame, et mida madalam on olulisuse tase (mida suurem on usaldustase), seda laiem on vastav usaldusvahemik (ceteris paribus).

Võib öelda, et 95% usaldusnivoo korral katab usaldusvahemik parameetri tegelikku väärtust keskmiselt 95 juhul 100-st ja 99% -l 99 juhul sajast.

Näide 2.6.

Usaldusvahemike määramine näidismudeli jaoks 2.1. Määratleme näite 2.1 mudeli koefitsientide usaldusvahemike piirid. Eeldame, et regressor x ei ole juhuslik muutuja. Seejärel arvutatakse valemitega (), (), ( () jääkide dispersioonide hinnangud ja regressioonikordajad. Need on vastavalt võrdsed: , , . Tabeli väärtus t- 13 vabadusastme ja olulisuse taseme statistika on 2,160. Neid andmeid kasutades on lihtne arvutada usaldusvahemike piire koefitsientide ja : ; . Seega võib väita, et koefitsientide tegelikud väärtused tõenäosusega 0,95 jäävad kindlaksmääratud piiridesse.

Näide 2.7.

Näite 2.2 mudelite usaldusvahemikud. Sarnaselt eelmisele näitele saate määrata usaldusvahemike piirid näite 2.2 kahe regressiooni jaoks. kriitiline väärtus t- statistika olulisuse tasemel 0,05 ja p = 12 - 2 = 10 vabadusastmed on 2,228 . Esimese regressiooni kordajate hinnangute hinnangulised standardhälbed on s a = 0,2887, s b = 0,2961. Koefitsientide usaldusvahemikud: , . Teiseks regressiooniks s a = 2,7334, s b = 0,2516. Usaldusvahemikud: , .

Joonistage näidete 2.1, 2.2 mudelite usaldusvahemikud. olulisuse tasemel.

2.4.3. Sõltuva muutuja punkti ja intervalli prognoos

Sõltuva muutuja keskmise väärtuse prognoosi defineerime teoreetilise seose hinnanguna, kasutades empiirilist (hinnangulist) regressioonifunktsiooni

kus x- mingi sõltumatu muutuja väärtus, mis üldiselt ei lange kokku valimi muutujate väärtustega, mille järgi regressiooniparameetreid hinnatakse. Alates hinnangutest a ja b on juhuslikud muutujad, siis on prognoos juhuslik muutuja.

kommenteerida. Keskmise väärtuse ennustamine ja sõltuva muutuja individuaalse väärtuse ennustamine.

Tuleb teha vahet regressiooni keskmise väärtuse prognoosil ja selle matemaatilise ootuse hinnangul, võttes arvesse eeldust. M(u i) = 0(Gaussi esimene tingimus - Markov) ja prognoos kui võimaliku individuaalse väärtuse hinnang (rakendamine) y i taandareng y. Sel juhul oleks tulnud võrrandile () lisada mudeli juhusliku komponendi prognoos. Juhusliku komponendi ennustava väärtusena võetakse selle matemaatiline ootus, mis võrdub nulliga. See erinevus prognoosi tähenduse mõistmisel on märkimisväärne, kuna vastavad prognoosivigade variatsioonid ja usaldusvahemikud on erinevad.

Mõelge esmalt keskmise sõltuva muutuja prognoosile.

Keskmise sõltuva muutuja prognoosi dispersioon ja selle hinnang

Dispersiooni võrrandite tuletamisel ja selle hindamisel kasutame juhuslike suuruste teoreetiliste variatsioonide (dispersioonide) ja kovariatsioonide teisendamise reegleid. Need reeglid on samad, mis vastavate näidiste karakteristikute puhul, mis on kehtestatud punktis 2.3.2. Variatsioonide ja kovariatsioonide teoreetiliste väärtuste kirjutamiseks kasutame tähistust var(,), cov(,).

Saame prognoosi dispersiooni avaldise. Meil on

Seega oleme lõpuks saanud

Pange tähele, et avaldises () on muutuja x on regressori (sõltumatu muutuja) väärtus, mille puhul määratakse sõltuva muutuja (regressandi) keskmise väärtuse prognoos. Kuna punktis () on mudeli juhusliku komponendi dispersiooni teoreetiline väärtus teadmata, siis prognoosi dispersiooni hinnangu saamiseks asendame selle hinnanguga valemi () abil. Siis saame

Usaldusintervallide määramine sõltuva muutuja keskmise ennustamiseks

Määrame sõltuva muutuja prognoosi () usaldusvahemiku. See intervall katab tõenäoliselt sõltuva muutuja keskmise. Usaldusvahemiku konstrueerimine põhineb vormi t-statistika kasutamisel

ülemine piir

See on ilmne

Individuaalsete sõltuvate muutujate väärtuste usaldusvahemik

Individuaalsete väärtuste usaldusvahemik konstrueeritakse kasutades t- vaadata statistikat

ülemine piir

kus on vabadusastmete arv p=n-2.

Näide 2.8. Näite 2.1 mudeli sõltuva muutuja keskmiste ja individuaalsete väärtuste prognooside usalduspiirid.

Teeme kindlaks ettevõtte aktsiate praeguse hetke kasumlikkuse prognoosi t = 3 st väärtuse pärast x \u003d x 3 \u003d 0,07 ja konstrueerida usaldusvahemikud keskmiste ja individuaalsete väärtuste prognoosimiseks, eeldades, et regressor x ei ole juhuslik muutuja.

Kasutades hinnanguliste kordajatega regressioonivõrrandit (vt näide 1.1.), saame

Usaldusvahemike määramiseks on vaja eelnevalt välja arvutada sõltuva muutuja keskmiste ja individuaalsete väärtuste prognoositud dispersioonide hinnangud. Kasutades vastavalt valemeid () ja () saame: , . Keskmise väärtuse piirid on järgmised:

madalam

ülemine

Joonistage näite 2.2 regressioonide sõltuva muutuja keskmiste ja individuaalsete väärtuste intervallennustused.

2.4.4. Regressioonikordajate statistiliste hüpoteeside testimine

Kahesabaline t-test
(t on kahepoolse hüpoteeside paari test)

Lisaks koefitsientide usaldusvahemike määramisele on regressioonimudelite koostamisel oluline testida hüpoteese üksikute regressioonikoefitsientide teatud väärtuste kohta. Selline küsimus tekib näiteks siis, kui on vaja kontrollida, kas regressori (sõltumatu muutuja) mõju regressandile (sõltuv muutuja) on statistiliselt oluline. Sel juhul saame sõnastada ja proovida testida kahte hüpoteesi:

nullhüpotees

Üldjuhul, kui modelleerimisobjekti analüüsi põhjal on võimalik eelnevalt (st juba enne vaatlusi) eeldada (teada hüpotees), et regressioonikordaja on võrdne teatud väärtusega, siis Selle eelduse testimiseks sõnastatakse hüpoteesid järgmiselt:

Statistikastatistikal põhinev otsustusreegel () on järgmine: hüpotees H 0 lükatakse tagasi, kui

(selle tingimuse samaväärne märge);

hüpotees H 0 on aktsepteeritud, kui

(samaväärne märge).

Avaldisega () antud t-statistika väärtuste vahemikku nimetatakse hüpoteesi kõrvalekalde alaks H0 ja ala () on hüpoteesi aktsepteerimise ala H0, tähtsuse tasemel .

I ja II tüüpi vead.

Hüpoteeside kontrollimisel ja aktsepteerimisel on oht teha I ja II tüüpi vigu. I tüüpi viga ilmneb siis, kui nullhüpotees on tõene, kuid see lükatakse tagasi. II tüüpi viga ilmneb siis, kui nullhüpotees on vale, kuid seda ei lükata tagasi. Kuna t- statistika on juhuslik väärtus, siis võib see kogemata võtta väärtuse nullhüpoteesi tagasilükkamise piirkonnast, isegi kui see hüpotees on tõene. Alates löögi tõenäosusest t-statistika hüpoteesi aktsepteerimise piirkonnas on võrdne ja tõenäosus, et see langeb kõrvalekalde piirkonda, on võrdne , siis on olulisuse tase esimest tüüpi vea tõenäosus. Mida madalam on olulisuse tase, seda rohkem põhjust (suurema usaldusväärsusega) saab nullhüpoteesi aktsepteerida. Seda olulisuse taset nimetatakse kõrgemaks. Kui aga nullhüpotees on tegelikult vale, suureneb II tüüpi vea tõenäosus. Kui aga valitakse madal olulisuse tase (see vastab suuremale väärtusele), on I tüüpi vea tõenäosus suurem. Praktikas tehakse kompromisse ja kontrollitakse hüpoteese kahe olulisuse taseme osas: madal, tavaliselt 5%, ja kõrge, tavaliselt 1%.