Biografije Karakteristike Analiza

Intervali pouzdanosti za parametre linearnog modela. Intervali pouzdanosti za uparene parametre regresijskog modela

Pročitajte također:
  1. Apsolutni i relativni pokazatelji snage veze u jednadžbama regresije para.
  2. Algoritam za provjeru adekvatnosti modela višestruke regresije (suština faza verifikacije, proračunske formule, formulacija zaključka).
  3. Algoritam za provjeru adekvatnosti uparenog regresijskog modela.
  4. Algoritam za provjeru značaja regresora u modelu višestruke regresije: postavljena statistička hipoteza, postupak za njeno testiranje, formule za izračunavanje statistike.
  5. Međuzavisnost formata komande i glavnih parametara računara
  6. Odnos između parametara režima i vijeka trajanja alata.

Prilikom konstruisanja intervalnih procjena koristi se posebna statistika sa poznatom distribucijom. Za izgradnju intervala pouzdanosti za parametre parne sobe regresijski model a i b formiraju se t-statistike, uključujući i pomoćne slučajne varijable:

Dodajmo preduvjetima klasičnog regresijskog modela premisu normalne raspodjele slučajne perturbacije, tada statistika V ima distribuciju , a statističari su normalno raspoređeni.

Normalnost raspodele perturbacija podrazumeva normalnost zajedničke distribucije podataka uzorka Y t , (t=1,…,n), a pošto Procjene najmanjih kvadrata koeficijenata regresije a^ i b^ su linearne funkcije Y t , tada je njihova zajednička raspodjela također normalna, a a^ - N(a, σ a ^ ^2), b^ - N(b, σ b ^ ^2).

Distribucija grešaka procjena parametara: b-b^ - N(0, σ b ^ ^2), a-a^ - N(0, σ a ^ ^2), stvarno

E(a-a^)=a-E(a^)=0, E(b-b^)=b-E(b^)=0, jer LSM - procjene b^ i a^ su nepristrasne. Varijanse: Var(a-a^)=Var(a^)= σ a ^ ^2, Var(b-b^)=Var(b^)= σ b ^ ^2.

Prema tome, slučajne varijable Z b =(b-b^)/ σ b ^ i Z a =(a-a^)/ σ a ^ imaju normalna distribucija sa nultom podlogom. očekivanje i jedinična varijansa Z a – N(0,1), Z b – N(0,1).

Statistika formirana prema pravilu t=Z/ √V/k, gdje je Z standardna normalna slučajna varijabla, a V varijabla neovisna o Z, distribuirana prema hi-kvadratu sa k stupnjeva slobode, ima ( Studentova) t-distribucija sa parametrom k. Dakle, slučajne varijable tb=Zb/√V/(n-2) = Zbσ/√Σet^2/(n-2) = Zbσ/√s^2 = ((b-b^)σ)/ σb^*s ,

ta= Za/√V/(n-2) = Zaσ/√Σet^2/(n-2) = Zaσ/√s^2 = ((b-b^)σ)/ σa^*s.

To su t-statistike s parametrom n-2. Hajde da transformišemo izraze za ove statistike u oblik pogodan za izračunavanje. Zbog činjenice da je σb^/σ=sb^/s i σa^/σ=sa^/s, zgodno je izračunati vrijednosti t-statistike pomoću formula:

t b =(b-b^)/s b^ , t a =(b-b^)/s a^ , gdje je s b^ ^2=s^2/Σx t ^2, s a^ ^2=s^2 * ΣX t ^2/nΣx t^2.

Izrazi su normalizovane greške procjena parametara i nazivaju se Studentov razlomak. Studentov razlomak ima Studentovu distribuciju sa (n-2) stepena slobode. S obzirom na određeni nivo značajnosti α, moguće je iz tabela t-distribucije odrediti kritičnu vrijednost statistike t cr i, koristeći standardnu ​​proceduru, konstruirati interval povjerenja, koji sa nivo samopouzdanja 1-α pokriva vrijednost statistike t.

Početna > Sažetak

Intervali pouzdanosti za parametre linearnog modela.

Za značajne koeficijente regresije, intervali povjerenja mogu se konstruirati pomoću formule: Interval Estimation u tački definisanoj vektorom početni uslovi x 0 , određuje se formulom: , (2.21) gdje je = (x 0) t b; x 0 =
- vektor stupaca početnih uslova dimenzije (k+1) t određen je Studentovom tablicom raspodjele za nivo značajnosti  i broj stupnjeva slobode =n -k -1.

Metoda postupne regresije će se koristiti za izgradnju modela. Složenost odnosa faktora u modelu karakterizira ekonomskih pojava, potrebno je pojednostaviti kako bi se istakli najznačajniji odnosi. Treba pronaći najbolja opcija model koji odražava glavne obrasce fenomena koji se proučava sa dovoljnim stepenom statističke pouzdanosti. Model treba da obuhvati sve faktore koji sa ekonomske tačke gledišta imaju uticaj na zavisnu varijablu, međutim, broj faktora uključenih u model ne bi trebalo da bude veoma veliki. Nepoštivanje ovog uvjeta dovest će do brojnih poteškoća, uključujući smanjenje točnosti procjena, složenost interpretacije modela i poteškoće u njegovoj praktičnoj upotrebi.

Dva se mogu razlikovati različiti pristupi na rješavanje problema smanjenja broja početnih varijabli. Jedan od njih se zasniva na činjenici da se manje značajni faktori eliminišu u procesu izgradnje početnog modela, a drugi se zasniva na zameni početnog skupa varijabli. manje ekvivalentni faktori dobijeni kao rezultat transformacija originalnog skupa. Postupak eliminisanja beznačajnih faktora u procesu izgradnje regresijskog modela naziva se višestepenim regresiona analiza. Ova metoda se zasniva na proračunu nekoliko međuregresionih jednačina, kao rezultat analize kojih se dobija konačni model koji uključuje samo faktore koji imaju blizak statistički značajan uticaj na zavisnu varijablu koja se proučava. U ovom problemu koristio sam višestepenu regresijsku analizu zasnovanu na procjeni značajnosti koeficijenata regresije korištenjem Studentovog t-testa. Jednačina regresije se gradi prema maksimumu mogući broj objašnjavajuće varijable za koje se očekuje da utiču na varijablu koja se proučava. Nakon toga, korištenjem određenih kriterija, isključuju se one varijable koje imaju statistički beznačajan učinak. Šema za odabir značajnih faktora u jednačini regresije pomoću t-testa izgleda ovako: ako su svi koeficijenti regresije značajni, tada se regresiona jednačina prepoznaje kao konačna i uzima se kao model osobine koja se proučava; ako među regresijskim koeficijentima ima beznačajnih, tada odgovarajuće varijable objašnjenja treba isključiti iz jednačine. Međutim, prvo treba rangirati koeficijente regresije po vrijednosti t obs i prije svega isključiti faktor za koji je koeficijent regresije beznačajan i t obs ima najmanju vrijednost on apsolutna vrijednost. Vrijednost jednačine regresije se ponovo izračunava bez isključenog faktora, a zatim se regresijski koeficijenti procjenjuju t-testom. Ovo se ponavlja sve dok regresijski koeficijenti u jednačini ne postanu značajni. Najjednostavniji sklop provjera značajnosti koeficijenata regresije svodi se na konstruiranje intervala povjerenja za svaki od njih i testiranje hipoteze da li je nula unutar konstruiranog intervala. Ako se hipoteza ne odbaci, onda se ovaj koeficijent regresije smatra beznačajnim ili se njegov značaj dovodi u pitanje i razjašnjava u narednim fazama analize. At ovu metodu na svakom koraku, osim na formalnom statistička provera značajnost koeficijenata regresije, takođe je ekonomske analize beznačajnih faktora i utvrđuje se postupak za njihovo isključenje. U nekim slučajevima, vrijednost t obs je blizu t cr, a sa stanovišta smislenosti modela, ovaj faktor se može ostaviti za naknadnu provjeru njegovog značaja u kombinaciji sa drugim skupovima faktora. Neznačajnost koeficijenta regresije prema t-testu nije uvijek osnova za izuzimanje varijable iz dalje analize. Stoga je u nekim slučajevima potrebno koristiti neke dodatne empirijske procedure za isključenje varijable iz jednadžbe regresije samo ako standardna greška koeficijenta regresije premašuje apsolutnu veličinu izračunatog koeficijenta, kada je t obs 1.5. 3. Izgradnja multivarijantnog regresijskog modela prihoda za cirkuse Ruska Federacija. 3.1 Izbor faktora za izgradnju multivarijantnog regresijskog modela prihoda cirkusa u Ruskoj Federaciji. Za izgradnju multivarijantnog regresijskog modela prihoda cirkusa u Ruskoj Federaciji, odabrani su cirkusi u 34 grada Ruske Federacije. Na osnovu statističkih podataka Ruskog državnog cirkusa i Državnog komiteta za statistiku Ruske Federacije, izvršena je preliminarna analiza početnih podataka. Kao faktori koji karakterišu delatnost cirkusa razmatrani su: stanovništvo grada, broj mesta u cirkusu, broj predstava, broj gledalaca koji su posetili cirkus, prihodi, rashodi, profit i posećenost. Da bi se dobila homogena statistička populacija, izvršena je klaster analiza, kao rezultat toga, dobijeni su klasteri koji imaju dovoljnu statističku homogenost za izgradnju multivarijantnog regresijskog modela. Klaster analiza je provedena na 8 indikatora, međutim, za izgradnju multivarijatnog regresijskog modela svi ovi indikatori se ne mogu koristiti, jer bi veličina uzorka trebala biti značajno više broja faktori uključeni u regresijski model n>>k .

Faktori kao što su broj gledatelja, broj mjesta i broj predstava uključeni su u formulu za izračunavanje brojčanih vrijednosti faktora posjećenosti, formula (3.1):

Broj gledalaca* 100% = % posjeta. (3.1)

Broj mjesta * broj nastupa

Ova formula se koristi za izračunavanje posjećenosti u računovodstvu Ruskog državnog cirkusa. Stoga je u regresijski model neprimjereno uključivati ​​faktor broj gledatelja i broj pregleda, jer postoji opasnost od multikolinearnosti i kao rezultat toga statističke nepouzdanosti modela. Odlučeno je da se faktor broja sjedišta uključi u model iz ekonomskih razloga. Konstrukcija regresione jednadžbe uključuje rješenje dva glavna problema. Prvi zadatak je da se odaberu nezavisne varijable, u našem primeru trošak, broj mesta, posećenost, koje imaju značajan uticaj na zavisnu varijablu (prihod), kao i da se odredi tip regresione jednačine. Drugi zadatak konstruisanja regresione jednadžbe je procjena parametara jednačine. Rješava se uz pomoć jedne ili druge matematičko-statističke metode obrade podataka. Za analizu statističkih podataka korišćen je paket primenjenih programa Statistika 5.0 – JPP „Statistica“. Varijable koje će se koristiti u multivarijantnoj statističkoj analizi imaju različite jedinice. Stoga, prije izvođenja Statistička analiza podaci su standardizovani, odnosno svedeni na jedinstvenu skalu merenja. U paketu aplikacije Statistics 5.0, naredba Standardize Rows Columns omogućava vam da standardizirate vrijednosti u svakom redu odabranog bloka. Vrijednosti varijabli u bloku se mijenjaju u standardizirane, koje se izračunavaju po sljedećoj formuli (3.2): nova vrijednost = (stara vrijednost - prosjek u odabranom redu) / standardna devijacija, t = xx. (3.2) Dalje, da bi se dobili homogeni statistički agregati, izvršena je klaster analiza. Klaster analiza je uobičajeno ime skup računskih postupaka koji se koriste za kreiranje klasifikacije. To je multivarijantna statistička procedura koja prikuplja podatke koji sadrže informacije o uzorku objekata, a zatim ih raspoređuje u relativno homogene grupe. Različite udaljenosti su uzete kao udaljenost između objekata, uobičajena euklidska udaljenost, ponderirana euklidska udaljenost. Kada su kombinovani u grupe u klaster analizi, razmatrani su dendogrami (Dodatak br. 4.) napravljeni pomoću dvije hijerarhijske metode: metodom udaljeni komšija(Potpuna veza) i Wardova metoda. Grafičko predstavljanje Rezultati klaster analize biće sprovedeni uz pomoć PPP „Statistica“. Klaster analiza se provodi u jednom od gore navedenih statističkih softverskih paketa. Svi dendogrami su prikazani u Dodatku br. 4. Stoga ćemo, koristeći nekoliko algoritama klaster analize, dati prednost razdvajanju u dva klastera koristeći Ward metod. U "Ward" metodi u ovom teza bit će primijenjena ponderirana Euklidska udaljenost. Na sl. 3.1 prikazuje dendogram klasifikacije gradova zasnovan na ponderisanoj Euklidskoj udaljenosti i Wardovom principu.

Rice. 3.1. Dendogram. Klasifikacija gradova zasnovana na ponderisanoj Euklidskoj udaljenosti i Wardovom principu.

Klasifikacija je izvršena prema različitim algoritmima klaster analize, ali su sadržajno najbolji rezultati dobijeni Ward metodom kada se podijeli u dva klastera, prvi se sastoji od 18 gradova, a drugi od 16 gradova. Tako su dobijene dvije statistički homogene grupe. U našem primjeru, trebali bismo se fokusirati na korištenje ove posebne metode kao najbolje opcije klasifikacije. Rezultati klaster analize prikazani su u tabeli 3.1. Tabela br. 3.1. Gradovi uključeni u prvi i drugi klaster.

br. p / str 1 klaster br. p / str 2 klaster
1 Vladivostok 1 Astrakhan
2 Volgograd 2 Bryansk
3

Voronjež

3

Ivanovo

4 Irkutsk 4 Kemerovo
5 Krasnodar 5 Kirov
6 Krasnojarsk 6 Kislovodsk
7 Tver 7 Kostroma
8 Jekaterinburg 8 Kursk
9

Samara

9 Sochi
10 Novosibirsk 10 Magnitogorsk
11 Omsk 11 Nizhny Tagil
12 permski 12 Novokuznetsk
13 Rostov Don 13 Orenburg
14 Ryazan 14 Penza
15 Saratov 15 Stavropol
16 Tula 16 Tyumen
17 Chelyabinsk
18 Yaroslavl
3.2. Izgradnja multidimenzionalnog regresijskog modela. Upotreba klaster analize omogućila je predstavljanje statističkih podataka u obliku dva statistička homogene grupe, za razumijevanje čega, preporučljivo je izgraditi regresijski model za klaster br. 1. Upotreba metoda korelacijske i regresione analize omogućila je istraživanje ovisnosti dohotka od sljedećih pokazatelja proizvodne i ekonomske aktivnosti:
    y - prihod; h1 – broj sedišta; x2 - potrošnja; x3 - posjeta.
Početni statistički podaci za analizu prikazani su u Prilogu br. 5. Analiza matrice parnih koeficijenata korelacije omogućila je da se proceni bliskost odnosa između faktora uključenih u model, kao i da se proceni mogućnost multikolinearnosti. Prisustvo multikolinearnosti u ovom modelu nije pronađeno. Na osnovu rezultata analize matrice parnih koeficijenata korelacije, zaključeno je da se koriste faktori kao što su: broj mjesta, potrošnja, posjećenost. Kao efektan znak - prihod. U tabeli br. 3.2 prikazani su rezultati izgradnje regresionog modela prihoda za klaster br. 1, u zavisnosti od faktora: broja mjesta, troškova, posjećenosti i prihoda. Tabela br. 3.2. Statistička procjena parametara multivarijantnog regresijskog modela cirkuskih prihoda za klaster br.
F(3.14)=32.512p<,00000 Std.Error of estimate: ,40801 RІ= ,87447834
Presretni
BROJ SJEDALA
TROŠKOVI
POSJETA
Durbin-Watson d=2,1974158
Primena aplikacionog paketa Statistika 5.0 - PPP „Statistica“ omogućila je izgradnju regresionog modela prihoda za klaster broj 1: Y = +0,04547-0,04079*X1+0,99053*X2+0,07429*X3. (3.3) Statistička pouzdanost modela procenjena je korišćenjem sledećih parametara adekvatnosti (tabela br. 3.2): višestruki koeficijent determinacije R 2 = 0,87447, što ukazuje da je 87,4% varijacije dohotka objedinjeno indikatorima uključenim u model (X1, X2, X3), relativna greška aproksimacije δ = 0,40801, izračunata vrijednost F - kriterija Fobs = 32,512. Jednačina regresije je značajna, budući da je F obl = 32,512 > F cr = 3,11, pronađeno iz tabele F - raspodjela na nivou značajnosti α = 0,05 i stupnjevima slobode ν 1 =4 i ν 1 =14. Za testiranje hipoteze o značaju pojedinačnih koeficijenata regresije H0: θ j = 0, gdje je j = 1,2,3, uporedimo kritičnu vrijednost tcr =2,145 pri α = 0,05 i broj stupnjeva slobode i ν 1 =14 . Iz jednačine proizlazi da je samo jedan koeficijent regresije t 2  statistički značajan, budući da je izračunata vrijednost t 2  = 8,69883 > tcr = 2,145. Izračunate vrijednosti t j  za preostale koeficijente regresije su manje od tcr =2,145 pri α = 0,05 i broju stupnjeva slobode ν 1 =14. Da bismo dobili regresiju sa značajnim koeficijentima, koristimo se korak po korak algoritam regresiona analiza. U početku koristimo korak po korak algoritam sa eliminacijom varijabli. Izuzmimo iz modela varijablu X1 - broj mjesta, koji odgovara minimalnoj apsolutnoj vrijednosti koeficijenta t 1  = 0,34465. Za preostale varijable, ponovo ćemo konstruisati regresionu jednačinu: Y = +0,03001+0,97113*X2+0,08843*X3. (3.4) U tabeli br. 3.3 prikazani su rezultati izgradnje regresionog modela prihoda za klaster br. 1 u zavisnosti od faktora: rashoda, pohađanja i prihoda. Tabela br. 3.3. Statistička procjena parametara multivarijantnog regresijskog modela cirkuskih prihoda za klaster br.
R= .93456584 RI= .87341332 Prilagođeno RI= .85653509

F(2.15)=51.748p<,00000 Std.Error of estimate: ,39585

Presretni
TROŠKOVI
POSJETA

Durbin-Watson d=2,1400127

Rezultirajuća jednačina je značajna, budući da je F obl = 51,748 > F cr =3,29 na nivou značajnosti α = 0,05 i brojevima stupnjeva slobode ν 1 =3 i ν 1 =15, pronađenim iz tabele F-distribucije. Međutim, samo jedan koeficijent regresije je značajan u jednačini t 2  = 10,11286 pri tcr (0,05;15)=1,753. Izračunata vrijednost t 3  = 0,95991 je manja od tcr (0,05; 15) = 1,753, pronađena iz tabele t - distribucija na tcr = 2,145 sa α = 0,05 i brojem slobode od 0. 1 \u003d 15. Isključimo iz modela varijablu X3 - posjeta, koja odgovara minimalnoj apsolutnoj vrijednosti koeficijenta t 3  = 0,95991. Za preostale varijable, ponovo ćemo konstruisati jednadžbu regresije:

Po pravilu, u linearna regresija obično se procjenjuje značaj ne samo jednačine u cjelini, već i njenih pojedinačnih parametara.Indikatori korelacije izračunati za ograničenu populaciju (za uzorak) su samo procjene jednog ili drugog statističkog obrasca, budući da bilo koji parametar zadržava element nepotpuno ugašena slučajnost svojstvena individualne vrednosti znakovi. Stoga je neophodna statistička procjena stepena tačnosti i pouzdanosti parametara korelacije. Pouzdanost se ovdje podrazumijeva kao vjerovatnoća da vrijednost provjerenog parametra nije jednaka nuli, ne uključuje vrijednosti suprotnih predznaka.

Procjena vjerovatnoće korelacijskih parametara je napravljena prema opšta pravila provjere statističke hipoteze, razvijen matematičke statistike, posebno poređenjem procijenjene vrijednosti sa prosjekom slučajna greška procjene. Za koeficijent regresije para b srednja greška procjene se izračunava kao:

gdje D stoprezidualna disperzija jedan stepen slobode.

Za naš primjer, vrijednost standardne greške koeficijenta regresije bila je:

.

Da bi se procijenilo koliko se tačne vrijednosti indikatora mogu razlikovati od izračunatih, provodi se konstrukcija intervala povjerenja. Oni definiraju granice unutar kojih leže tačne vrijednosti indikatora koji se određuju sa datim stepenom tačnosti koji odgovara datom nivou značajnosti. α (α - vjerovatnoća odbacivanja tačne hipoteze, pod uslovom da je tačna, obično se uzima jednakom 0,05 ili 0,01 ).

Za stopu statistički značaj koeficijent linearne regresije i linearni koeficijent korelaciju parova, kao i za izračunavanje intervala pouzdanosti b, primijenjeno t - Studentov kriterijum.

Da bi se procijenila značajnost koeficijenta regresije, njegova vrijednost se upoređuje sa njegovom standardnom greškom, tj. utvrđuje se stvarna vrijednost Studentovog t-testa: , koji se zatim upoređuje sa tabelarnom vrijednošću na određenom nivou značajnosti a i broj stepeni slobode ( n- 2).

U ovom primjeru, stvarna vrijednost t-testa za koeficijent regresije bila je:

.

Isti rezultat dobijamo ekstrakcijom Kvadratni korijen iz pronađenog F-kriterijuma, tj.

Zaista, jednakost je istinita.

At (za dvostrani kriterijum) i broj stepeni slobode je 13 vrijednost tabele t b = 2.16. Pošto stvarna vrijednost t-testa premašuje vrijednost u tabeli, onda se hipoteza da je koeficijent regresije beznačajan može odbaciti.

Za izračunavanje intervala pouzdanosti za parametre a i b jednadžbe linearne regresije definiraju marginalna greška za svaki indikator:

∆ a = t tab m a , ∆ b = t tab m b .

Formule za izračunavanje intervala povjerenja su:

γ a = a ± ∆ a γ amin = a - ∆ a γ amin = a + ∆ a

γ b = b ± ∆ b γ bmin = b - ∆ b γ bmin = b + ∆ b

Ako su granice intervala različiti znakovi, tj. nula pada unutar ovih granica, tada se procijenjeni parametar uzima kao nula.

Interval pouzdanosti za koeficijent regresije je definiran kao . Za koeficijent regresije b u primjeru, granice od 95% će biti:

0,022 ± 2,16 0,0026 = 0,022 ± 0,0057, tj.

0,016 ≤ b ≤ 0,027.

Budući da koeficijent regresije u ekonometrijskim studijama ima jasnu ekonomsku interpretaciju, granice pouzdanosti intervala za koeficijent regresije ne bi trebale sadržavati kontradiktorne rezultate, na primjer, -10 ≤ b ≤ 40. Ovakva evidencija to ukazuje istinska vrijednost koeficijent regresije istovremeno sadrži pozitivne i negativne vrijednosti pa čak i nula, što ne može biti.

Standardna greška parametra a određuje se formulom:

Postupak za procjenu značajnosti ovog parametra se ne razlikuje od prethodnog razmatranog za koeficijent regresije; t-kriterijum se izračunava: , njegova vrijednost se upoređuje sa vrijednošću u tabeli kada df= n- 2 stepena slobode. U našem primjeru m a iznosio 0,032.

Značaj koeficijenta linearne korelacije testira se na osnovu veličine greške koeficijenta korelacije gospodin:

Stvarna vrijednost Studentovog t-testa je definirana kao

Ova formula pokazuje da u parnoj linearnoj regresiji, jer, kao što je već spomenuto, Osim toga, dakle,

Dakle, testiranje hipoteza o značajnosti koeficijenata regresije i korelacije je ekvivalentno testiranju hipoteze o značaju linearna jednačina regresija.

U ovom primjeru t r se podudara tb. Vrijednost t r =8,37 znatno premašuje tabelu vrijednost 2,16 at a=0,05. Stoga se koeficijent korelacije značajno razlikuje od nule i zavisnost je značajna.

Poziva se prognoza dobijena zamjenom očekivane vrijednosti faktora u jednadžbu regresije tačka prognoza. Vjerovatnoća tačne implementacije takve prognoze je izuzetno mala. Mora biti popraćena vrijednošću prosečna greška prognoza ili interval pouzdanosti prognoze sa prilično velikom vjerovatnoćom.



Tačkasta prognoza se sastoji u dobijanju prognozirane vrijednosti y p , koja se utvrđuje zamjenom u regresionu jednadžbu

odgovarajuća prognozirana vrijednost xp:

y p = a + b x p .

Intervalna prognoza se sastoji u konstruisanju intervala pouzdanosti prognoze, tj. gornje i donje granice ypmin , ypmax interval koji sadrži tačnu vrijednost za predviđenu vrijednost
(ypmin< y p < y pmax ) . Interval pouzdanosti se uvijek određuje sa datom vjerovatnoćom koja odgovara prihvaćenoj vrijednosti nivoa značajnosti α.

Preračunato standardna greška prognoza .

I tada se gradi interval pouzdanosti prognoze, tj. utvrđuju se donja i gornja granica intervala prognoze

, ,

gdje .

Pretpostavimo da je u našem primjeru potrebno pronaći prediktivnu vrijednost rezultata, pod uslovom da je prediktivna vrijednost faktora Xće se povećati za 15% od njegovog prosječnog nivoa i odrediti interval povjerenja prognoze.

Povećanje predviđene vrijednosti faktora Xće dati vrijednost

Zamjenjujući ga u formulu, nalazimo

,

prediktivnu vrijednost rezultata pod datim uslovom

y p = a+b∙x p = 6,63+0,022∙149,99 = 9,95.

To. interval pouzdanosti prognoze će biti

9,73 < y p <10,18.

Kada nelinearna regresija vrši se procjena značajnosti indeksa korelacije, kao i procjena pouzdanosti koeficijenta korelacije. Indeks determinacije se koristi za provjeru značaja nelinearne regresijske jednadžbe općenito prema Fišerovom F-kriterijumu:

gdje R2– indeks determinacije;

n je broj zapažanja;

m je broj parametara za varijable X.

Vrijednost m karakterizira broj stupnjeva slobode za faktorijalni zbir kvadrata, i ( n–m- 1) je broj stepeni slobode za preostali zbir kvadrata.

Za funkciju snage i formula F - kriterijumi poprimiće isti oblik kao kod linearne zavisnosti:

Za parabolu drugog stepena y=a + b x + c x 2 + ε m=2 i .

Za procjenu kvaliteta izrađenog modela koristimo se i prosječna greška aproksimacije. Stvarne vrijednosti rezultirajućeg atributa razlikuju se od teoretskih vrijednosti izračunatih regresijskom jednadžbom, tj. u i . Što je ta razlika manja, to su teorijske vrijednosti bliže empirijskim podacima i bolji je kvalitet modela. Veličina odstupanja stvarne i izračunate vrijednosti efektivne karakteristike ( at- ) za svako zapažanje je greška aproksimacije. Njihov broj odgovara obimu populacije. U nekim slučajevima, greška aproksimacije može biti nula. Za poređenje, uzimaju se odstupanja, izražena kao procenat stvarnih vrijednosti. Dakle, za prvo zapažanje y=20, a za drugi y=50, greška aproksimacije će biti 25% za prvo posmatranje i 20% za drugo.

Ukoliko ( at- ) može biti i pozitivan i negativan, tada je uobičajeno da se greške aproksimacije za svako opažanje određuju kao postotak po modulu.

Da bismo imali opšti sud o kvaliteti modela na osnovu relativnih odstupanja za svako posmatranje, prosečna greška aproksimacije je definisana kao prosta aritmetička sredina:

.

Za naš primjer predstavljamo proračun prosječne greške aproksimacije u tabeli 4.

2.4. Provjera adekvatnosti regresijskog modela

2.4.1. Koeficijent determinacije

U klasičnoj regresijskoj analizi pretpostavlja se da je funkcija regresije poznata (specificirana) do parametara, odnosno definiran je skup regresora (nezavisnih varijabli). U empirijskim proučavanjima ekonomskih i društvenih procesa, od mnogih mogućih varijanti regresionih jednačina koje se razlikuju po skupu regresora, potrebno je izabrati najadekvatniji model (regresiona funkcija). Takav model najbolje objašnjava ponašanje stvarnog procesa. Za procjenu kvaliteta modela linearne regresije u klasičnoj regresionoj analizi koristi se indikator tzv koeficijent determinacijeR2(čitaj R- kvadrat). Koeficijent determinacije igra važnu ulogu u regresionoj analizi. Ispod su tri ekvivalentne definicije ovog indikatora, koje se razlikuju po obliku evidentiranja i načinu tumačenja.

Predstavimo devijaciju zavisne varijable od srednje vrijednosti uzorka kao

Razmotrimo posljednji pojam na desnoj strani ovog izraza. Imamo:

mi to shvatamo

Zove se zbroj na lijevoj strani ovog izraza puni zbir kvadrata, poziva se prvi zbir na desnoj strani (). zbir kvadrata objašnjen modelom, zove se drugi zbir desne strane rezidualni zbir kvadrata. Dalje, koristeći izraz (), možemo pisati

Ovdje smo koristili sljedeće omjere:

(ovo slijedi iz prve jednadžbe sistema normalnih jednačina (2.11), (2.12), (ovdje se koristi svojstvo (2.20) ostataka). Iz () slijedi da se ukupna varijacija varijable y može rastaviti na dvije komponente: - ovo je dio ukupne varijacije objašnjen regresijom, i - neobjašnjivi dio ukupne varijacije, koji je uzrokovan slučajnim komponenta modela. Proširenja () i () se koriste za određivanje koeficijenta determinacije.

Prvi prikaz koeficijenta determinacije

Definirajmo koeficijent determinacije sljedećom relacijom

Imenilac je ukupan zbir kvadrata, koristićemo skraćenicu TSS da ga označimo, tako da

Prilikom izgradnje modela uparene linearne regresije treba osigurati da vrijednost koeficijenta determinacije bude što bliža jedinici. Da biste ga izračunali, lakše je i praktičnije koristiti formulu ().

Primjer 2.4.

Proračun koeficijenta determinacije za model primjera 2.1. Proračuni pomoću formule () daju sljedeću vrijednost koeficijenta determinacije za model iz primjera 2.1: R2 = 0,9965. Dakle, koeficijent determinacije je blizak jedinici, što ukazuje na dobar kvalitet aproksimacije posmatranih podataka konstruisanim modelom.

Primjer 2.5.

Proračun koeficijenata determinacije za modele prometa grana primjera 2.2.. Za prvu regresiju primjera 2.2., koja opisuje ovisnost prometa od prodajne površine, koeficijent determinacije R 1 2 = 0,96886. Za drugu regresiju koja opisuje zavisnost prometa od prosječnog dnevnog intenziteta toka kupaca R 2 2 = 0,42433.

Dakle, dobijeni objektivni pokazatelji kvaliteta regresionih modela – koeficijenti determinacije, potvrđuju raniju pretpostavku (vidi primjer 2.2) da prva regresija bolje objašnjava ponašanje zavisne varijable.

2.4.2. Izgradnja intervala povjerenja za koeficijente regresije

Razmatran u prethodnom odeljku, indikator adekvatnosti – koeficijent determinacije koristi se za procenu kvaliteta regresionih modela uopšte, kada se porede alternativni modeli. U ovom dijelu razmatraju se postupci koji omogućavaju da se izvuče zaključak o kvaliteti procjena pravih vrijednosti pojedinačnih parametara jednadžbe.

Procjene varijansi procjena koeficijenta najmanjih kvadrata

Jedna od bitnih karakteristika kvaliteta procjene je njena varijansa, kao mjera odstupanja od očekivane vrijednosti. Jednadžbe (2.22 ), (2.23 ) (ili (2.24 )) dobijene ranije za varijanse procjena zavise od nepoznate varijanse slučajne komponente regresijskog modela u. Da bi se ove jednadžbe koristile u praktičnim proračunima, potrebno je odrediti procjenu količine . Ovo je još jedan parametar modela. Nepristrasna procjena varijanse slučajnog člana u je procjena forme

Izraz () se koristi za izračunavanje procjena varijansi procjena a i b koeficijenti regresije. Da bi se to postiglo, u jednačinama (2.22), (2.23), (2.24) teorijska varijansa se zamjenjuje njenom procjenom (). Dakle, procjene varijanse imaju oblik

Određivanje intervala povjerenja za procjene parametara modela

Rezultirajuće procjene parametara i modeli su tačka . Formule (2.13), (2.14) određuju procjene u obliku slučajnih brojeva u zavisnosti od specifičnog uzorka opservacija. Ovi brojevi mogu u nekim slučajevima značajno odstupati od pravih vrijednosti parametara. S tim u vezi postavlja se pitanje - da li je moguće sa dovoljnim stepenom pouzdanosti utvrditi koliko su dobijene procjene bliske pravim vrijednostima parametara, tačnije, odrediti intervale unutar kojih se prave vrijednosti parametara može ležati sa datom vjerovatnoćom. Ispostavilo se da se takvi intervali mogu konstruisati pomoću tzv t-testovi. Za gradnju t-testove, potrebno je pretpostaviti normalnost slučajne komponente, tj t- test se primjenjuje u okviru pretpostavki klasična normalna linearna regresija. Uz pomoć t-testova moguće je testirati hipoteze kako o pojedinačnim numeričkim vrijednostima koeficijenata regresije tako i o vrijednostima njihovih linearnih kombinacija. Ovo posljednje je posebno važno za procjenu adekvatnosti modela višestruke linearne regresije. t- testovi vam takođe omogućavaju da gradite intervali povjerenja za koeficijente regresije i prediktivne vrijednosti zavisne varijable.

t- testovi se zasnivaju na sledećoj važnoj izjavi: slučajne varijable

pridržavaju se centralne Studentove distribucije (t-distribucije, otuda naziv - t - testovi) sa (n-2) stepena slobode.

Napomena o stepenima slobode.

Broj stupnjeva slobode jednak je broju promjenjivih opažanja minus broj procijenjenih koeficijenata modela. Postoje samo dva takva koeficijenta u modelu parne linearne regresije. Povećanje broja koeficijenata u regresijskom modelu sa fiksnom veličinom uzorka u skladu s tim smanjuje broj stupnjeva slobode.

Očigledno je da su greške tačkastih procjena koeficijenata jednake , respektivno. Ovo su slučajne varijable jer su same procjene slučajne. Stoga se tačnost procjena (njihova greška) može ocijeniti samo u vjerovatnostnom smislu. Postavljamo širinu intervala greške (ne slučajnu varijablu) i definišemo pouzdanost procjene kao vjerovatnoću s kojom greška procjene tačke padne unutar ovog fiksnog intervala. Formalno, ovo se može napisati kao

gdje je vjerovatnoća da greška procjene tačke padne u zadati interval . Možemo reći da vjerovatnoća karakterizira stepen povjerenja u datom intervalu, pa se tako zove nivo samopouzdanja ili pouzdanost. Zove se veličina - vjerovatnoća da će greška prijeći zadati interval nivo značajnosti.

Relacije (), () se mogu prepisati u formu

Interpretacija intervala povjerenja.

Izrazi (), () se tumače na sljedeći način: vrijednost je vjerovatnoća da su procijenjeni neslučajni parametri pokriveni, respektivno, intervalima , sa slučajnim krajevima u zavisnosti od slučajnih varijabli - procjena a i b.

Ovi intervali se nazivaju intervali povjerenja. Intervali povjerenja se također nazivaju intervalne procjene i oni dopunjuju tačkaste procjene parametara. Intervalne procjene pružaju dodatne, vrijedne informacije o pouzdanosti bodovnih procjena i poboljšavaju pouzdanost prosudbi o bodovnim procjenama.

Određivanje intervala pouzdanosti.

Intervali povjerenja određuju se korištenjem t- Statistika učenika u obliku (), (). Za statistiku t(imati t-distribucija), možete odrediti vrijednost (iz tabele t-kriterijum) koji odgovara datom nivou značaja i datom broju stepeni slobode, (ovde str- broj stepena slobode, sa dva parametra p=2), takav da

pokriti s vjerovatnoćom nepoznate prave vrijednosti parametara regresije i . Lokacija i širina intervala pouzdanosti variraju od uzorka do uzorka. Zaista, njihova lokacija i širina zavise i od procjena koeficijenata, koji su varijable (slučajne varijable), i od slučajnih vrijednosti uzoraka procjena standardnih devijacija s a i sb. Kada se konstruišu ekonometrijski regresijski modeli, intervali poverenja se obično određuju za dva nivoa značajnosti - i . Shodno tome, razgovaraju o 5% nivoa značajnosti ili o 1% nivo značajnosti. Vjerovatnoće povjerenja (nivoi povjerenja) u ovom slučaju će biti jednake i . Shodno tome, razgovaraju o 95% ili oko 99% nivoa pouzdanosti (pouzdanosti). Naglašavamo da što je niži nivo značajnosti (što je veći nivo poverenja), to je širi odgovarajući interval poverenja (ceteris paribus).

Može se reći da na nivou pouzdanosti od 95% interval pouzdanosti u prosjeku pokriva pravu vrijednost parametra u 95 slučajeva od 100, a na 99% - u 99 slučajeva od sto.

Primjer 2.6.

Određivanje intervala povjerenja za primjer modela 2.1. Definirajmo granice intervala povjerenja za koeficijente modela primjera 2.1. Pretpostavićemo da je regresor x nije slučajna varijabla. Zatim se procjene varijansi reziduala i regresijskih koeficijenata izračunavaju po formulama (), (), (). Oni su jednaki redom: , , . Vrijednost tabele t- statistika za 13 stepeni slobode i nivo značajnosti je 2.160. Koristeći ove podatke, lako je izračunati granice intervala povjerenja za koeficijente i : ; . Dakle, može se tvrditi da su prave vrijednosti koeficijenata sa vjerovatnoćom od 0,95 unutar navedenih granica.

Primjer 2.7.

Intervali povjerenja za modele primjera 2.2. Slično kao u prethodnom primjeru, možete definirati granice intervala povjerenja za dvije regresije primjera 2.2. kritična vrijednost t- statistika na nivou značajnosti 0,05 i p=12 - 2=10 stepeni slobode je 2,228 . Procijenjene standardne devijacije procjena koeficijenata prve regresije su s a = 0,2887, s b = 0,2961. Intervali povjerenja za koeficijente: , . Za drugu regresiju s a = 2,7334, s b = 0,2516. Intervali pouzdanosti: , .

Grafički intervali povjerenja za modele primjera 2.1, 2.2. na nivou značaja.

2.4.3. Tačka i intervalna prognoza zavisne varijable

Predviđanje srednje vrijednosti zavisne varijable definiramo kao procjenu teorijske veze korištenjem empirijske (procijenjene) regresijske funkcije

gdje x- neka vrijednost nezavisne varijable, općenito govoreći, koja se ne poklapa sa vrijednostima varijabli iz uzorka, prema kojima se procjenjuju parametri regresije. Od procjena a i b su slučajne varijable, onda će prognoza biti slučajna varijabla.

Komentar. Predviđanje srednje vrijednosti i predviđanje pojedinačne vrijednosti zavisne varijable.

Potrebno je razlikovati prognozu srednje vrijednosti regresanda kao procjenu njegovog matematičkog očekivanja, uzimajući u obzir premisu M(u i) = 0(prvi uslov Gauss-Markov), a prognoza kao procena moguće pojedinačne vrednosti (implementacija) y i regressanda y. U ovom slučaju, predviđanje slučajne komponente modela trebalo je dodati jednačini (). Kao prediktivna vrijednost slučajne komponente uzima se njeno matematičko očekivanje koje je jednako nuli. Ova razlika u razumijevanju značenja prognoze je značajna, budući da će odgovarajuće varijanse greške prognoze i intervali povjerenja biti različiti.

Razmotrimo prvo predviđanje srednje zavisne varijable.

Varijanca prognoze srednje zavisne varijable i njena procjena

Prilikom izvođenja jednadžbi varijanse i njene procjene koristit ćemo pravila za transformaciju teorijskih varijacija (varijansi) i kovarijansi slučajnih varijabli. Ova pravila su ista kao i za odgovarajuće karakteristike uzorka, koje su utvrđene u odjeljku 2.3.2. Da bismo zapisali teorijske vrijednosti varijacija i kovarijansi, koristit ćemo notaciju var(,), cov(,).

Dobijamo izraz za varijansu prognoze. Imamo

Dakle, konačno imamo

Imajte na umu da je u izrazu () varijabla x je vrijednost regresora (nezavisne varijable), za koju se određuje prognoza srednje vrijednosti zavisne varijable (regresand). Budući da je u () teorijska vrijednost varijanse slučajne komponente modela nepoznata, da bismo dobili procjenu varijanse prognoze, zamijenit ćemo je procjenom po formuli (). Onda dobijamo

Određivanje intervala pouzdanosti za predviđanje srednje vrijednosti zavisne varijable

Odredimo interval pouzdanosti za prognozu () zavisne varijable. Ovaj interval vjerovatno pokriva srednju vrijednost zavisne varijable. Konstrukcija intervala povjerenja zasniva se na korištenju t-statistike oblika

gornja granica

Očigledno je da

Interval pouzdanosti za pojedinačne vrijednosti zavisne varijable

Interval pouzdanosti za pojedinačne vrijednosti se konstruiše pomoću t- pogledajte statistiku

gornja granica

gdje je broj stupnjeva slobode p=n-2.

Primjer 2.8. Granice povjerenja prognoza srednjih i pojedinačnih vrijednosti zavisne varijable u modelu primjera 2.1.

Hajde da odredimo prognozu profitabilnosti akcija kompanije za sada t=3, odnosno za vrijednost x = x 3 = 0,07 i konstruirati intervale povjerenja za predviđanja srednjih i pojedinačnih vrijednosti, uz pretpostavku da je regresor x nije slučajna varijabla.

Koristeći jednadžbu regresije sa procijenjenim koeficijentima (vidi primjer 1.1.), dobijamo

Za određivanje intervala povjerenja potrebno je preliminarno izračunati procjene varijansi prognoze srednje i pojedinačne vrijednosti zavisne varijable. Koristeći formule () i (), redom, dobijamo: , . Granice za srednju vrijednost su:

niže

gornji

Iscrtajte intervalne prognoze srednjih vrijednosti i pojedinačnih vrijednosti zavisne varijable za regresije iz primjera 2.2.

2.4.4. Testiranje statističkih hipoteza u vezi sa regresijskim koeficijentima

Dvostrani t-test
(t je test dvostranog para hipoteza)

Osim određivanja intervala povjerenja za koeficijente, prilikom izgradnje regresijskih modela važno je testirati hipoteze u vezi sa nekim specifičnim vrijednostima pojedinačnih regresijskih koeficijenata. Takvo pitanje se postavlja, na primjer, ako je potrebno provjeriti da li je učinak regresora (nezavisne varijable) na regresand (zavisna varijabla) statistički značajan. U ovom slučaju možemo formulirati i pokušati testirati dvije hipoteze:

Nulta hipoteza

U opštem slučaju, ako je, na osnovu analize objekta modeliranja, moguće unapred (tj. čak i pre posmatranja) pretpostaviti (postaviti hipotezu) da je koeficijent regresije jednak određenoj vrednosti, tada je testirajući ovu pretpostavku, hipoteze se formuliraju na sljedeći način:

Pravilo odluke zasnovano na statističkoj statistici () je sljedeće: hipoteza H 0 se odbacuje ako

(ekvivalentna notacija ovog uslova);

hipoteza H 0 je prihvaćena ako

(ekvivalentna notacija).

Raspon vrijednosti t-statistike date izrazom () naziva se područje odstupanja hipoteze H0, a područje () je područje za prihvaćanje hipoteze H0, na nivou značaja .

Greške tipa I i II.

Prilikom testiranja i prihvatanja hipoteza postoji rizik od grešaka I i II vrste. Greška tipa I javlja se kada je nulta hipoteza tačna, ali se odbacuje. Greška tipa II se javlja kada je nulta hipoteza netačna, ali se ne odbacuje. Ukoliko t- statistika je slučajna vrijednost, onda može slučajno uzeti vrijednost iz područja odbacivanja nulte hipoteze, čak i ako je ova hipoteza tačna. Budući da je vjerovatnoća udarca t-statistika u oblasti prihvatanja hipoteze jednaka je , a verovatnoća pada u oblast odstupanja jednaka , tada će nivo značajnosti biti verovatnoća greške prve vrste. Što je niži nivo značajnosti, više razloga (sa većom pouzdanošću) može se prihvatiti nulta hipoteza. Ovaj nivo značaja naziva se višim. Međutim, ako je nulta hipoteza zapravo netačna, tada se povećava vjerovatnoća greške tipa II. Ako se, međutim, odabere nizak nivo značajnosti (ovo odgovara većoj vrijednosti od ), tada će vjerovatnoća greške tipa I biti veća. U praksi se prave kompromisi i hipoteze se testiraju za dva nivoa značaja: nizak, tipično 5%, i visok, tipično 1%.