Selang keyakinan untuk parameter model linear. Selang Keyakinan untuk Parameter Model Regresi Berpasangan
Baca juga:
|
Semasa membina anggaran selang, statistik khas dengan pengedaran yang diketahui digunakan. Untuk membina selang keyakinan untuk parameter bilik stim model regresi a dan b, t-statistik terbentuk, termasuk tambahan pembolehubah rawak:
Marilah kita menambah kepada prasyarat model regresi klasik premis taburan normal gangguan rawak, maka statistik V mempunyai taburan , dan ahli statistik taburan normal.
Kenormalan taburan gangguan membayangkan kenormalan taburan bersama data sampel Y t , (t=1,…,n), dan sejak Anggaran kuasa dua terkecil bagi pekali regresi a^ dan b^ ialah fungsi linear Y t , maka taburan bersama mereka juga normal, dan a^ - N(a, σ a ^ ^2), b^ - N(b, σ b ^ ^2).
Pengagihan ralat anggaran parameter: b-b^ - N(0, σ b ^ ^2), a-a^ - N(0, σ a ^ ^2), sungguh
E(a-a^)=a-E(a^)=0, E(b-b^)=b-E(b^)=0, kerana LSM - anggaran b^ dan a^ tidak berat sebelah. Varians: Var(a-a^)=Var(a^)= σ a ^ ^2, Var(b-b^)=Var(b^)= σ b ^ ^2.
Oleh itu, pembolehubah rawak Z b =(b-b^)/ σ b ^ dan Z a =(a-a^)/ σ a ^ mempunyai taburan normal dengan tikar sifar. jangkaan dan varians unit Z a – N(0.1), Z b – N(0.1).
Statistik yang dibentuk mengikut peraturan t=Z/ √V/k, di mana Z ialah pembolehubah rawak normal piawai dan V ialah pembolehubah bebas daripada Z, diedarkan mengikut hukum khi kuasa dua dengan k darjah kebebasan, mempunyai ( Taburan-t pelajar) dengan parameter k. Oleh itu, pembolehubah rawak tb=Zb/√V/(n-2) = Zbσ/√Σet^2/(n-2) = Zbσ/√s^2 = ((b-b^)σ)/ σb^*s ,
ta= Za/√V/(n-2) = Zaσ/√Σet^2/(n-2) = Zaσ/√s^2 = ((b-b^)σ)/ σa^*s.
Ia adalah statistik-t dengan parameter n-2. Mari kita ubah ungkapan untuk statistik ini kepada bentuk yang mudah untuk pengiraan. Disebabkan fakta bahawa σb^/σ=sb^/s dan σa^/σ=sa^/s, adalah mudah untuk mengira nilai-t statistik menggunakan formula:
t b =(b-b^)/s b^ , t a =(b-b^)/s a^ , dengan s b^ ^2=s^2/Σx t ^2, s a^ ^2=s^2 * ΣX t ^2/nΣx t^2.
Ungkapan adalah ralat ternormal anggaran parameter dan dipanggil pecahan Pelajar. Pecahan Pelajar mempunyai taburan Pelajar dengan (n-2) darjah kebebasan. Memandangkan tahap keertian α tertentu, adalah mungkin untuk menentukan nilai kritikal statistik t cr daripada jadual taburan-t dan, menggunakan prosedur piawai, membina selang keyakinan, yang dengan tahap keyakinan 1-α meliputi nilai statistik t.
Laman Utama > AbstrakSelang keyakinan untuk parameter model linear.
Untuk pekali regresi yang ketara, selang keyakinan boleh dibina menggunakan formula: Anggaran Selang pada titik yang ditentukan oleh vektor keadaan awal x 0 , ditentukan oleh formula: , (2.21) dengan = (x 0) t b; x 0 =
- vektor lajur keadaan awal dimensi (k+1) t ditentukan oleh jadual taburan Pelajar untuk aras keertian dan bilangan darjah kebebasan =n -k -1.
Kaedah regresi berperingkat akan digunakan untuk membina model. Kerumitan hubungan faktor dalam pencirian model fenomena ekonomi, adalah perlu untuk memudahkan untuk menyerlahkan hubungan yang paling penting. Perlu mencari pilihan terbaik model yang mencerminkan corak utama fenomena yang dikaji dengan tahap kebolehpercayaan statistik yang mencukupi. Model harus merangkumi semua faktor yang, dari sudut pandangan ekonomi, mempunyai kesan ke atas pembolehubah bersandar, walau bagaimanapun, bilangan faktor yang dimasukkan dalam model tidak seharusnya terlalu besar. Kegagalan untuk mematuhi syarat ini akan membawa kepada beberapa kesukaran, termasuk penurunan ketepatan anggaran, kerumitan mentafsir model dan kesukaran penggunaan praktikalnya.
Dua boleh dibezakan pendekatan yang berbeza untuk menyelesaikan masalah mengurangkan bilangan pembolehubah awal. Salah satunya adalah berdasarkan fakta bahawa faktor yang kurang penting dihapuskan dalam proses membina model awal, dan yang kedua adalah berdasarkan penggantian set awal pembolehubah lebih sedikit faktor setara yang diperoleh hasil daripada penjelmaan set asal. Prosedur untuk menghapuskan faktor yang tidak penting dalam proses membina model regresi dipanggil multi-step. analisis regresi. Kaedah ini adalah berdasarkan pengiraan beberapa persamaan regresi perantaraan, hasil daripada analisis yang mana model akhir diperolehi, yang merangkumi hanya faktor yang mempunyai kesan ketara secara statistik terhadap pembolehubah bersandar yang dikaji. Dalam masalah ini, saya menggunakan analisis regresi berbilang langkah berdasarkan penilaian kepentingan pekali regresi menggunakan ujian-t Pelajar. Persamaan regresi dibina mengikut maksimum nombor yang mungkin pembolehubah penjelasan yang dijangka mempengaruhi pembolehubah yang dikaji. Selepas itu, menggunakan kriteria tertentu, pembolehubah yang mempunyai kesan tidak ketara secara statistik dikecualikan. Skim untuk memilih faktor penting dalam persamaan regresi menggunakan ujian-t kelihatan seperti ini: jika semua pekali regresi adalah signifikan, maka persamaan regresi diiktiraf sebagai muktamad dan diambil sebagai model sifat yang dikaji; jika terdapat tidak signifikan antara pekali regresi, maka pembolehubah penjelasan yang sepadan harus dikecualikan daripada persamaan. Walau bagaimanapun, seseorang harus terlebih dahulu menyusun pekali regresi mengikut nilai t obs dan, pertama sekali, mengecualikan faktor sedemikian yang mana pekali regresi adalah tidak penting dan t obs mempunyai nilai terkecil pada nilai mutlak. Nilai persamaan regresi dikira semula tanpa faktor yang dikecualikan, dan kemudian pekali regresi dinilai oleh ujian-t. Ini diulang sehingga pekali regresi dalam persamaan menjadi ketara. Litar paling mudah menyemak kepentingan pekali regresi adalah untuk membina selang keyakinan untuk setiap satu dan menguji hipotesis sama ada sifar berada dalam selang yang dibina. Sekiranya hipotesis tidak ditolak, maka pekali regresi ini dianggap tidak signifikan atau kepentingannya dipersoalkan dan diperjelaskan pada peringkat analisis seterusnya. Pada kaedah ini pada setiap langkah, kecuali untuk formal semakan statistik kepentingan pekali regresi, ia juga analisis ekonomi faktor yang tidak penting dan prosedur untuk pengecualiannya ditetapkan. Dalam sesetengah kes, nilai t obs adalah hampir kepada t cr, dan dari sudut pandangan kebermaknaan model, faktor ini boleh dibiarkan untuk pengesahan berikutnya tentang kepentingannya dalam kombinasi dengan set faktor lain. Ketidaksignifikan pekali regresi mengikut ujian-t tidak selalu menjadi asas untuk mengecualikan pembolehubah daripada analisis selanjutnya. Oleh itu, dalam beberapa kes, adalah perlu untuk menggunakan beberapa prosedur empirikal tambahan untuk mengecualikan pembolehubah daripada persamaan regresi hanya jika ralat piawai pekali regresi melebihi saiz mutlak pekali yang dikira, apabila t obs 1.5. 3. Pembinaan model regresi multivariate pendapatan untuk sarkas Persekutuan Russia. 3.1 Pemilihan faktor untuk membina model regresi multivariate pendapatan sarkas di Persekutuan Rusia. Untuk membina model regresi multivariate untuk pendapatan sarkas di Persekutuan Rusia, sarkas di 34 bandar di Persekutuan Rusia telah dipilih. Berdasarkan data statistik yang disediakan oleh Circus Negeri Rusia dan Jawatankuasa Statistik Negeri Persekutuan Rusia, analisis awal data awal telah dijalankan. Sebagai faktor yang mencirikan aktiviti sarkas, perkara berikut telah dipertimbangkan: penduduk bandar, bilangan tempat duduk dalam sarkas, bilangan persembahan, bilangan penonton yang melawat sarkas, pendapatan, perbelanjaan, keuntungan dan kehadiran. Untuk mendapatkan populasi statistik homogen, analisis kluster telah dijalankan, hasilnya kluster diperolehi yang mempunyai kehomogenan statistik yang mencukupi untuk membina model regresi multivariate. Analisis kluster telah dijalankan pada 8 penunjuk, bagaimanapun, untuk membina model regresi multivariate, semua penunjuk ini tidak boleh digunakan, kerana saiz sampel haruslah ketara. lebih banyak nombor faktor yang termasuk dalam model regresi n>>k .
Faktor-faktor seperti bilangan penonton, bilangan tempat duduk dan bilangan persembahan termasuk dalam formula untuk mengira nilai berangka faktor kehadiran, formula (3.1):
Bilangan penonton* 100% = % lawatan. (3.1)
Bilangan tempat duduk * bilangan persembahan
Formula ini digunakan untuk mengira kehadiran dalam perakaunan Circus Negeri Rusia. Oleh itu, adalah tidak sesuai untuk memasukkan faktor bilangan penonton dan bilangan persembahan dalam model regresi, kerana terdapat bahaya multikolineariti dan, akibatnya, ketidakbolehpercayaan statistik model. Ia diputuskan untuk memasukkan faktor bilangan kerusi dalam model atas sebab ekonomi. Pembinaan persamaan regresi melibatkan penyelesaian dua masalah utama. Tugas pertama adalah untuk memilih pembolehubah tidak bersandar, dalam contoh kami, perbelanjaan, bilangan tempat, kehadiran, yang mempunyai kesan yang ketara ke atas pembolehubah bersandar (pendapatan), dan juga untuk menentukan jenis persamaan regresi. Tugas kedua membina persamaan regresi ialah menganggarkan parameter persamaan. Ia diselesaikan dengan bantuan satu atau lain kaedah matematik-statistik pemprosesan data. Untuk analisis data statistik, pakej program gunaan Statistik 5.0 - PPP "Statistica" telah digunakan. Pembolehubah yang akan digunakan dalam analisis statistik multivariate mempunyai unit yang berbeza. Oleh itu, sebelum melaksanakan Analisis statistik data telah diseragamkan, iaitu, ia dikurangkan kepada satu skala ukuran. Dalam pakej aplikasi Statistik 5.0, perintah Standardize Rows Columns membolehkan anda menyeragamkan nilai dalam setiap baris blok yang dipilih. Nilai pembolehubah dalam blok ditukar kepada piawai, yang dikira menggunakan formula berikut (3.2): nilai baru = (nilai lama - purata dalam baris yang dipilih) / sisihan piawai, t = x – x. (3.2) s Selanjutnya, untuk mendapatkan agregat statistik homogen, analisis kelompok telah dijalankan. Analisis kluster ialah nama yang selalu digunakan satu set prosedur pengiraan yang digunakan untuk mencipta klasifikasi. Ia adalah prosedur statistik multivariate yang mengumpul data yang mengandungi maklumat tentang sampel objek dan kemudian menyusun objek ke dalam kumpulan yang agak homogen. Pelbagai jarak diambil sebagai jarak antara objek, jarak Euclidean biasa, jarak Euclidean berwajaran. Apabila digabungkan ke dalam kumpulan dalam analisis kelompok, dendogram (Lampiran No. 4.) dipertimbangkan, dibuat dengan dua kaedah hierarki: kaedah jiran jauh(Pautan Lengkap) dan kaedah Ward. Perwakilan grafik keputusan analisis kelompok akan dijalankan dengan bantuan PPP “Statistica”. Analisis kluster dijalankan dalam salah satu pakej perisian statistik yang dibincangkan di atas. Semua dendogram dibentangkan dalam Lampiran No. 4. Oleh itu, dengan menggunakan beberapa algoritma analisis kelompok, kami akan memberi keutamaan kepada pemisahan kepada dua kelompok menggunakan kaedah Ward. Dalam kaedah "Ward" dalam ini tesis jarak Euclidean berwajaran akan digunakan. Pada rajah. 3.1 menunjukkan dendogram pengelasan bandar berdasarkan jarak Euclidean berwajaran dan prinsip Ward.nasi. 3.1. Dendogram. Pengelasan bandar berdasarkan jarak Euclidean berwajaran dan prinsip Ward.
Pengelasan telah dijalankan mengikut pelbagai algoritma analisis kelompok, tetapi yang terbaik dari segi kandungan adalah hasil yang diperoleh melalui kaedah Ward apabila dibahagikan kepada dua kelompok, yang pertama: terdiri daripada 18 bandar, dan yang kedua: daripada 16 bandar. Oleh itu, dua kumpulan homogen secara statistik diperolehi. Dalam contoh kami, kami harus memberi tumpuan kepada penggunaan kaedah khusus ini sebagai pilihan pengelasan terbaik. Keputusan analisis kelompok dibentangkan dalam Jadual 3.1. Jadual No 3.1. Bandar termasuk dalam kelompok pertama dan kedua.
No p/p | 1 kelompok | No p/p | 2 kelompok |
1 | Vladivostok | 1 | Astrakhan |
2 | Volgograd | 2 | Bryansk |
3 | Voronezh | 3 | Ivanovo |
4 | Irkutsk | 4 | Kemerovo |
5 | Krasnodar | 5 | Kirov |
6 | Krasnoyarsk | 6 | Kislovodsk |
7 | Tver | 7 | Kostroma |
8 | Ekaterinburg | 8 | Kursk |
9 | Samara | 9 | Sochi |
10 | Novosibirsk | 10 | Magnitogorsk |
11 | Omsk | 11 | Nizhny Tagil |
12 | Permian | 12 | Novokuznetsk |
13 | Rostov Don | 13 | Orenburg |
14 | Ryazan | 14 | Penza |
15 | Saratov | 15 | Stavropol |
16 | Tula | 16 | Tyumen |
17 | Chelyabinsk | ||
18 | Yaroslavl |
- y - pendapatan; х1 – bilangan tempat duduk; x2 - penggunaan; x3 - melawat.
F(3.14)=32.512p<,00000 Std.Error of estimate: ,40801 RІ= ,87447834 | ||
memintas | ||
NOMBOR TEMPAT DUDUK | ||
KOS | ||
LAWATAN | ||
Durbin-Watson d=2.1974158 |
R= .93456584 RI= .87341332 RI Terlaras= .85653509 | |||
F(2.15)=51.748p<,00000 Std.Error of estimate: ,39585 | |||
memintas | |||
KOS | |||
LAWATAN | |||
Durbin-Watson d=2.1400127 |
Sebagai peraturan, dalam regresi linear kepentingan bukan sahaja persamaan secara keseluruhan, tetapi juga parameter individunya biasanya dinilai. Penunjuk korelasi yang dikira untuk populasi terhad (untuk sampel) hanya anggaran satu atau corak statistik yang lain, kerana mana-mana parameter mengekalkan unsur yang tidak lengkap. dipadamkan rawak yang wujud dalam nilai individu tanda-tanda. Oleh itu, penilaian statistik tahap ketepatan dan kebolehpercayaan parameter korelasi adalah perlu. Kebolehpercayaan di sini difahami sebagai kebarangkalian bahawa nilai parameter yang diperiksa tidak sama dengan sifar, tidak termasuk nilai tanda yang bertentangan.
Anggaran kebarangkalian parameter korelasi dibuat mengikut peraturan umum cek hipotesis statistik, dibangunkan statistik matematik, khususnya dengan membandingkan nilai anggaran dengan purata kesilapan rawak anggaran. Untuk pekali regresi pasangan b ralat anggaran min dikira sebagai:
di mana D berhenti – serakan sisa satu darjah kebebasan.
Untuk contoh kami, nilai ralat piawai pekali regresi ialah:
.
Untuk menilai seberapa tepat nilai penunjuk mungkin berbeza daripada yang dikira, pembinaan selang keyakinan dijalankan. Mereka mentakrifkan had di mana nilai tepat penunjuk yang ditentukan terletak dengan tahap ketepatan tertentu sepadan dengan tahap kepentingan tertentu. α (α - kebarangkalian untuk menolak hipotesis yang betul, dengan syarat ia benar, biasanya diambil sama dengan 0,05 atau 0,01 ).
Untuk kadar kepentingan statistik pekali regresi linear dan pekali linear korelasi pasangan, serta untuk mengira selang keyakinan b, digunakan t - Kriteria pelajar.
Untuk menilai kepentingan pekali regresi, nilainya dibandingkan dengan ralat piawainya, i.e. nilai sebenar ujian-t Pelajar ditentukan: , yang kemudiannya dibandingkan dengan nilai jadual pada tahap kepentingan tertentu a dan bilangan darjah kebebasan ( n- 2).
Dalam contoh ini, nilai sebenar ujian-t untuk pekali regresi ialah:
.
Kami mendapat hasil yang sama dengan mengekstrak Punca kuasa dua daripada kriteria F yang ditemui, i.e.
Sesungguhnya kesaksamaan adalah benar.
Pada (untuk kriteria dua belah) dan bilangan darjah kebebasan ialah 13 nilai jadual t b = 2.16. Oleh kerana nilai sebenar ujian-t melebihi nilai jadual, maka, oleh itu, hipotesis pekali regresi yang tidak signifikan boleh ditolak.
Untuk mengira selang keyakinan bagi parameter a dan b persamaan regresi linear mentakrifkan ralat marginal ∆ bagi setiap penunjuk:
∆ a = t tab m a , ∆ b = t tab m b .
Formula untuk mengira selang keyakinan ialah:
γ a = a ± ∆ a γ amin = a - ∆ a γ amin = a + ∆ a
γ b = b ± ∆ b γ bmin = b - ∆ b γ bmin = b + ∆ b
Jika sempadan selang adalah tanda yang berbeza, iaitu sifar jatuh dalam sempadan ini, maka parameter anggaran diambil sebagai sifar.
Selang keyakinan bagi pekali regresi ditakrifkan sebagai . Untuk pekali regresi b dalam contoh, sempadan 95% ialah:
0.022 ± 2.16 0.0026 = 0.022 ± 0.0057, iaitu
0.016 ≤ b ≤ 0.027.
Oleh kerana pekali regresi dalam kajian ekonometrik mempunyai tafsiran ekonomi yang jelas, had keyakinan selang untuk pekali regresi tidak seharusnya mengandungi keputusan yang bercanggah, contohnya, -10 ≤ b ≤ 40. Rekod seperti ini menunjukkan bahawa nilai sebenar pekali regresi serentak mengandungi positif dan nilai negatif dan bahkan sifar, yang tidak boleh.
Ralat Piawai Parameter a ditentukan oleh formula:
Prosedur untuk menilai kepentingan parameter ini tidak berbeza daripada yang dipertimbangkan di atas untuk pekali regresi; t-criterion dikira: , nilainya dibandingkan dengan nilai jadual apabila df= n- 2 darjah kebebasan. Dalam contoh kita m a berjumlah 0,032.
Kepentingan pekali korelasi linear diuji berdasarkan magnitud ralat pekali korelasi Encik:
Nilai sebenar ujian-t Pelajar ditakrifkan sebagai
Formula ini menunjukkan bahawa dalam regresi linear berpasangan , kerana, seperti yang telah disebutkan, Selain itu, oleh itu,
Oleh itu, menguji hipotesis tentang kepentingan regresi dan pekali korelasi adalah setara dengan menguji hipotesis tentang kepentingan persamaan linear regresi.
Dalam contoh ini t r dipadankan tb. Nilai t r =8.37 jauh melebihi nilai jadual 2,16 di a=0.05. Oleh itu, pekali korelasi adalah jauh berbeza daripada sifar dan pergantungan adalah signifikan.
Ramalan yang diperoleh dengan menggantikan nilai jangkaan faktor ke dalam persamaan regresi dipanggil ramalan mata. Kebarangkalian pelaksanaan tepat ramalan sedemikian adalah sangat kecil. Ia mesti disertakan dengan nilai ralat purata ramalan atau ramalan selang keyakinan dengan kebarangkalian yang agak tinggi.
Ramalan titik terdiri daripada mendapatkan nilai ramalan y p , yang ditentukan dengan menggantikan ke dalam persamaan regresi
nilai ramalan yang sepadan xp:
y p = a + b x p .
Ramalan selang terdiri dalam membina selang keyakinan ramalan, i.e. sempadan atas dan bawah ypmin , ypmax selang yang mengandungi nilai tepat untuk nilai ramalan
(ypmin< y p < y pmax )
. Selang keyakinan sentiasa ditentukan dengan kebarangkalian yang diberikan sepadan dengan nilai yang diterima bagi aras keertian α.
Diprakira kesalahan biasa ramalan .
Dan kemudian selang keyakinan ramalan dibina, i.e. sempadan bawah dan atas selang ramalan ditentukan
, ,
di mana .
Katakan, dalam contoh kita, adalah perlu untuk mencari nilai ramalan keputusan, dengan syarat nilai ramalan faktor X akan meningkat sebanyak 15% daripada tahap puratanya dan tentukan selang keyakinan ramalan.
Peningkatan dalam nilai ramalan faktor X akan memberikan nilai
Menggantikannya ke dalam formula, kami dapati
,
nilai ramalan keputusan di bawah keadaan tertentu
y p = a+b∙x p = 6.63+0.022∙149.99 = 9.95.
Itu. selang keyakinan ramalan akan menjadi
9,73 < y p <10,18.
Bila regresi bukan linear penilaian kepentingan indeks korelasi dijalankan, serta penilaian kebolehpercayaan pekali korelasi. Indeks penentuan digunakan untuk menyemak kepentingan persamaan regresi bukan linear secara umum mengikut kriteria F Fisher:
di mana R2– indeks penentuan;
n ialah bilangan pemerhatian;
m ialah bilangan parameter bagi pembolehubah X.
Nilai m mencirikan bilangan darjah kebebasan untuk jumlah faktorial bagi segi empat sama, dan ( n–m- 1) ialah bilangan darjah kebebasan untuk jumlah baki kuasa dua.
Untuk fungsi kuasa dan formula F - kriteria akan mengambil bentuk yang sama seperti pergantungan linear:
Untuk parabola darjah kedua y=a + b x + c x 2 + ε m=2 dan .
Untuk menilai kualiti model yang dibina, kami juga menggunakan ralat anggaran purata. Nilai sebenar atribut yang terhasil berbeza daripada nilai teori yang dikira oleh persamaan regresi, i.e. pada dan . Lebih kecil perbezaan ini, lebih dekat nilai teori sesuai dengan data empirikal, dan lebih baik kualiti model. Magnitud sisihan nilai sebenar dan dikira ciri berkesan ( di- ) bagi setiap pemerhatian ialah ralat anggaran. Bilangan mereka sepadan dengan jumlah penduduk. Dalam sesetengah kes, ralat anggaran mungkin sifar. Sebagai perbandingan, sisihan diambil, dinyatakan sebagai peratusan daripada nilai sebenar. Jadi, jika untuk pemerhatian pertama y=20, dan untuk yang kedua y=50, ralat anggaran akan menjadi 25% untuk pemerhatian pertama dan 20% untuk kedua.
Kerana ia ( di- ) boleh menjadi positif dan negatif, maka adalah lazim untuk menentukan ralat penghampiran bagi setiap pemerhatian sebagai modulo peratusan.
Untuk mempunyai pertimbangan umum tentang kualiti model daripada sisihan relatif bagi setiap cerapan, ralat anggaran purata ditakrifkan sebagai min aritmetik mudah:
.
Untuk contoh kami, kami membentangkan pengiraan ralat anggaran purata dalam Jadual 4.
2.4. Menyemak kecukupan model regresi
2.4.1. Pekali penentuan
Dalam analisis regresi klasik, diandaikan bahawa fungsi regresi diketahui (ditentukan) sehingga parameter, iaitu set regressor (pembolehubah bebas) ditakrifkan. Dalam kajian empirikal proses ekonomi dan sosial, adalah perlu untuk memilih model yang paling mencukupi (fungsi regresi) daripada banyak kemungkinan varian persamaan regresi yang berbeza dalam set regresi. Model sedemikian menerangkan dengan terbaik kelakuan proses sebenar. Untuk menilai kualiti model regresi linear dalam analisis regresi klasik, penunjuk digunakan dipanggil pekali penentuanR2(baca R- segi empat sama). Koefisien penentuan memainkan peranan penting dalam analisis regresi. Di bawah adalah tiga takrifan setara penunjuk ini, yang berbeza dalam bentuk rakaman dan cara tafsiran.
Mari kita nyatakan sisihan pembolehubah bersandar daripada min sampelnya sebagai
Pertimbangkan istilah terakhir di sebelah kanan ungkapan ini. Kami ada:
kita dapat itu
Jumlah di sebelah kiri ungkapan ini dipanggil jumlah penuh kuasa dua, jumlah pertama di sebelah kanan () dipanggil jumlah kuasa dua yang dijelaskan oleh model, jumlah kedua bahagian kanan dipanggil baki jumlah kuasa dua. Selanjutnya, menggunakan ungkapan (), kita boleh menulis
Di sini kami telah menggunakan nisbah berikut:
(ini berikut daripada persamaan pertama sistem persamaan normal (2.11 ), (2.12 ), (di sini sifat (2.20) sisa digunakan). Daripada () ia berikutan bahawa jumlah variasi pembolehubah y boleh diuraikan kepada dua komponen: - ini adalah bahagian daripada jumlah variasi yang dijelaskan oleh regresi, dan - bahagian yang tidak dapat dijelaskan daripada jumlah variasi, yang disebabkan oleh rawak komponen model. Pengembangan () dan () digunakan untuk menentukan pekali penentuan.
Perwakilan pertama bagi pekali penentuan
Mari kita takrifkan pekali penentuan dengan hubungan berikut
Penyebutnya ialah jumlah kuasa dua, kami akan menggunakan singkatan TSS untuk menandakannya, supaya
Apabila membina model regresi linear berpasangan, seseorang harus memastikan bahawa nilai pekali penentuan adalah sehampir mungkin dengan satu. Untuk mengiranya, lebih mudah dan lebih mudah untuk menggunakan formula ().
Contoh 2.4.
Pengiraan pekali penentuan bagi model contoh 2.1. Pengiraan menggunakan formula () memberikan nilai pekali penentuan berikut untuk model contoh 2.1: R2 = 0.9965. Oleh itu, pekali penentuan adalah hampir kepada perpaduan, yang menunjukkan kualiti penghampiran yang baik bagi data yang diperhatikan oleh model yang dibina.
Contoh 2.5.
Pengiraan pekali penentuan untuk model pusing ganti cawangan contoh 2.2. Untuk regresi pertama contoh 2.2., yang menerangkan pergantungan perolehan pada kawasan jualan, pekali penentuan R 1 2 \u003d 0.96886. Untuk regresi kedua menggambarkan pergantungan perolehan pada purata intensiti harian aliran pembeli R 2 2 \u003d 0.42433.
Oleh itu, penunjuk objektif kualiti model regresi yang diperolehi - pekali penentuan, mengesahkan andaian yang dibuat sebelum ini (lihat contoh 2.2) bahawa regresi pertama lebih menjelaskan kelakuan pembolehubah bersandar.
2.4.2. Membina selang keyakinan untuk pekali regresi
Dipertimbangkan dalam bahagian sebelumnya, penunjuk kecukupan - pekali penentuan digunakan untuk menilai kualiti model regresi secara umum, apabila membandingkan model alternatif. Dalam bahagian ini, prosedur dipertimbangkan yang membolehkan seseorang membuat kesimpulan tentang kualiti anggaran nilai sebenar parameter individu persamaan.
Anggaran varians anggaran pekali kuasa dua terkecil
Salah satu ciri penting kualiti anggaran ialah variansnya, sebagai ukuran sisihan daripada nilai jangkaan. Persamaan (2.22 ), (2.23 ) (atau (2.24 )) yang diperoleh lebih awal untuk varians anggaran bergantung pada varians yang tidak diketahui bagi komponen rawak model regresi u. Untuk membolehkan persamaan ini digunakan dalam pengiraan praktikal, adalah perlu untuk menentukan anggaran kuantiti . Ini adalah satu lagi parameter model. Anggaran tidak berat sebelah bagi varians istilah rawak u adalah anggaran borang
Ungkapan () digunakan untuk mengira anggaran varians anggaran a dan b pekali regresi. Untuk melakukan ini, dalam persamaan (2.22 ), (2.23), (2.24 ) varians teori digantikan dengan anggarannya (). Oleh itu, anggaran varians mempunyai bentuk
Penentuan selang keyakinan untuk anggaran parameter model
Anggaran parameter dan model yang terhasil ialah titik . Formula (2.13), (2.14 ) menentukan anggaran dalam bentuk nombor rawak bergantung kepada sampel tertentu pemerhatian. Nombor-nombor ini mungkin dalam beberapa kes menyimpang dengan ketara daripada nilai sebenar parameter. Dalam hal ini, persoalan timbul - adakah mungkin untuk menentukan dengan tahap kebolehpercayaan yang mencukupi seberapa dekat anggaran yang diperolehi dengan nilai sebenar parameter, atau lebih tepat lagi, untuk menentukan selang di mana nilai sebenar daripada parameter boleh terletak dengan kebarangkalian yang diberikan. Ternyata selang tersebut boleh dibina menggunakan apa yang dipanggil t-ujian. Untuk bangunan t-ujian, adalah perlu untuk menganggap kenormalan komponen rawak, iaitu t- ujian digunakan dalam andaian regresi linear normal klasik. Dengan bantuan ujian-t, adalah mungkin untuk menguji hipotesis mengenai nilai berangka individu bagi pekali regresi dan mengenai nilai gabungan linear mereka. Yang terakhir ini amat penting untuk menilai kecukupan model regresi linear berbilang. t- ujian juga membolehkan anda membina selang keyakinan untuk pekali regresi dan nilai ramalan pembolehubah bersandar.
t- ujian adalah berdasarkan pernyataan penting berikut: pembolehubah rawak
patuhi taburan Pelajar pusat (taburan-t, maka nama - ujian-t) dengan (n-2) darjah kebebasan.
Nota tentang darjah kebebasan.
Bilangan darjah kebebasan adalah sama dengan bilangan pemerhatian berubah-ubah tolak bilangan pekali model yang dianggarkan. Terdapat hanya dua pekali sedemikian dalam model regresi linear berpasangan. Menambah bilangan pekali dalam model regresi dengan saiz sampel tetap mengurangkan bilangan darjah kebebasan dengan sewajarnya.
Adalah jelas bahawa ralat anggaran titik bagi pekali adalah sama dengan , masing-masing. Ini adalah pembolehubah rawak kerana anggaran itu sendiri adalah rawak. Oleh itu, ketepatan anggaran (kesilapan mereka) hanya boleh dinilai dalam erti kata kebarangkalian. Kami menetapkan lebar selang ralat (bukan pembolehubah rawak), dan mentakrifkan kebolehpercayaan anggaran sebagai kebarangkalian ralat anggaran titik jatuh ke dalam selang tetap ini. Secara formal, ini boleh ditulis sebagai
di manakah kebarangkalian bahawa ralat anggaran titik jatuh dalam selang yang diberikan . Kita boleh mengatakan bahawa kebarangkalian mencirikan tahap keyakinan dalam selang tertentu, jadi ia dipanggil tahap keyakinan atau kebolehpercayaan. Magnitud - kebarangkalian bahawa ralat akan melampaui selang yang diberikan, dipanggil aras keertian.
Hubungan (), () boleh ditulis semula dalam bentuk
Tafsiran selang keyakinan.
Ungkapan (), () ditafsirkan seperti berikut: nilai ialah kebarangkalian bahawa anggaran parameter bukan rawak dan dilindungi, masing-masing, oleh selang , dengan hujung rawak bergantung kepada pembolehubah rawak - anggaran a dan b.
Selang ini dipanggil selang keyakinan. Selang keyakinan juga dipanggil anggaran selang dan ia melengkapkan anggaran titik parameter. Anggaran selang memberikan maklumat tambahan yang berharga tentang kebolehpercayaan anggaran mata dan meningkatkan kebolehpercayaan pertimbangan tentang anggaran mata.
Penentuan selang keyakinan.
Selang keyakinan ditentukan menggunakan t- Statistik pelajar bagi borang (), (). Untuk statistik t(mempunyai t-distribution), anda boleh menentukan nilai (daripada jadual t-kriteria) sepadan dengan tahap kepentingan tertentu dan bilangan darjah kebebasan tertentu, (di sini hlm- bilangan darjah kebebasan, dengan dua parameter p=2), seperti itu
tutup dengan kebarangkalian nilai sebenar yang tidak diketahui bagi parameter regresi dan . Lokasi dan lebar selang keyakinan berbeza dari sampel ke sampel. Sesungguhnya, lokasi dan lebarnya bergantung pada kedua-dua anggaran pekali, yang merupakan pembolehubah (pembolehubah rawak), dan pada nilai rawak anggaran sampel sisihan piawai. s a dan sb. Apabila membina model regresi ekonometrik, selang keyakinan biasanya ditentukan untuk dua tahap keertian - dan . Sehubungan itu, mereka bercakap tentang 5% tahap keertian atau kira-kira 1% tahap keertian. Kebarangkalian keyakinan (tahap keyakinan) dalam kes ini akan sama dengan dan . Sehubungan itu, mereka bercakap tentang 95% atau kira-kira 99% tahap keyakinan (kebolehpercayaan). Kami menekankan bahawa semakin rendah tahap keertian (semakin tinggi tahap keyakinan), semakin luas selang keyakinan yang sepadan (ceteris paribus).
Boleh dikatakan bahawa pada tahap keyakinan 95%, selang keyakinan, secara purata, meliputi nilai sebenar parameter dalam 95 kes daripada 100, dan pada 99% - dalam 99 kes daripada seratus.
Contoh 2.6.
Penentuan selang keyakinan bagi model contoh 2.1. Mari kita tentukan sempadan selang keyakinan untuk pekali model contoh 2.1. Kami akan menganggap bahawa regressor x bukan pembolehubah rawak. Kemudian anggaran varians baki dan pekali regresi dikira dengan formula (), (), (). Mereka adalah sama masing-masing: , , . Nilai jadual t- statistik untuk 13 darjah kebebasan dan tahap keertian ialah 2.160. Menggunakan data ini, adalah mudah untuk mengira sempadan selang keyakinan bagi pekali dan : ; . Oleh itu, boleh dikatakan bahawa nilai sebenar pekali dengan kebarangkalian 0.95 berada dalam had yang ditentukan.
Contoh 2.7.
Selang keyakinan untuk model contoh 2.2. Sama seperti contoh sebelumnya, anda boleh mentakrifkan sempadan selang keyakinan untuk dua regresi contoh 2.2. nilai kritikal t- statistik pada tahap keertian 0,05 dan p=12 - 2=10 darjah kebebasan ialah 2,228 . Anggaran sisihan piawai bagi anggaran pekali regresi pertama ialah s a = 0.2887, s b = 0.2961. Selang keyakinan untuk pekali: , . Untuk regresi kedua s a = 2.7334, s b = 0.2516. Selang keyakinan: , .
Plot selang keyakinan untuk model contoh 2.1, 2.2. pada tahap kepentingan.
2.4.3. Ramalan titik dan selang pembolehubah bersandar
Kami mentakrifkan ramalan nilai min pembolehubah bersandar sebagai anggaran hubungan teori menggunakan fungsi regresi empirikal (anggaran).
di mana x- beberapa nilai pembolehubah bebas, secara amnya, tidak bertepatan dengan nilai pembolehubah daripada sampel, mengikut mana parameter regresi dianggarkan. Sejak anggaran a dan b adalah pembolehubah rawak, maka ramalan akan menjadi pembolehubah rawak.
Komen. Ramalan nilai min dan ramalan nilai individu bagi pembolehubah bersandar.
Adalah perlu untuk membezakan antara ramalan nilai min regresi dan sebagai anggaran jangkaan matematiknya, dengan mengambil kira premis M(u i) = 0(keadaan pertama Gauss - Markov), dan ramalan sebagai penilaian kemungkinan nilai individu (pelaksanaan) y i regressanda y. Dalam kes ini, ramalan komponen rawak model sepatutnya ditambah kepada persamaan (). Sebagai nilai ramalan komponen rawak, jangkaan matematiknya diambil, yang sama dengan sifar. Perbezaan dalam memahami maksud ramalan ini adalah ketara, kerana varians ralat ramalan yang sepadan dan selang keyakinan akan berbeza.
Pertimbangkan dahulu ramalan bagi pembolehubah bersandar min.
Varians ramalan bagi pembolehubah bersandar min dan anggarannya
Apabila memperoleh persamaan untuk varians dan anggarannya, kita akan menggunakan peraturan untuk mengubah variasi teori (varians) dan kovarians pembolehubah rawak. Peraturan ini adalah sama seperti ciri sampel yang sepadan, yang telah ditetapkan dalam bahagian 2.3.2. Untuk menulis nilai teori variasi dan kovarians, kami akan menggunakan notasi var(,), cov(,).
Kami memperoleh ungkapan untuk varians ramalan. Kami ada
Oleh itu, kita akhirnya mempunyai
Perhatikan bahawa dalam ungkapan () pembolehubah x ialah nilai regressor (pembolehubah bebas), yang mana ramalan nilai min bagi pembolehubah bersandar (regressand) ditentukan. Oleh kerana dalam () nilai teori varians komponen rawak model tidak diketahui, untuk mendapatkan anggaran varians ramalan, kami akan menggantikannya dengan anggaran menggunakan formula (). Kemudian kita dapat
Menentukan Selang Keyakinan untuk Meramalkan Min Pembolehubah Bersandar
Mari kita tentukan selang keyakinan untuk ramalan () pembolehubah bersandar. Selang ini berkemungkinan meliputi min bagi pembolehubah bersandar. Pembinaan selang keyakinan adalah berdasarkan penggunaan t-statistik bentuk
batas atas
Jelas sekali
Selang keyakinan untuk nilai pembolehubah bersandar individu
Selang keyakinan untuk nilai individu dibina menggunakan t- lihat statistik
batas atas
di manakah bilangan darjah kebebasan p=n-2.
Contoh 2.8. Had keyakinan ramalan bagi nilai min dan individu bagi pembolehubah bersandar dalam model contoh 2.1.
Mari kita tentukan ramalan keuntungan saham syarikat buat masa ini t=3, iaitu untuk nilai x \u003d x 3 \u003d 0.07 dan bina selang keyakinan untuk ramalan nilai min dan individu, dengan mengandaikan bahawa regressor x bukan pembolehubah rawak.
Menggunakan persamaan regresi dengan pekali anggaran (lihat contoh 1.1.), kita dapat
Untuk menentukan selang keyakinan, adalah perlu untuk mengira awal anggaran varians ramalan bagi nilai min dan individu bagi pembolehubah bersandar. Dengan menggunakan formula () dan (), masing-masing, kita memperoleh: , . Batasan untuk nilai min ialah:
lebih rendah
atas
Plot ramalan selang bagi min dan nilai individu bagi pembolehubah bersandar untuk regresi Contoh 2.2.
2.4.4. Menguji hipotesis statistik mengenai pekali regresi
Ujian-t dua ekor
(t ialah ujian bagi pasangan hipotesis dua ekor)
Di samping menentukan selang keyakinan untuk pekali, apabila membina model regresi, adalah penting untuk menguji hipotesis mengenai beberapa nilai khusus bagi pekali regresi individu. Soalan sebegini timbul, sebagai contoh, jika perlu untuk menyemak sama ada kesan regressor (pembolehubah tidak bersandar) ke atas regresi dan (pembolehubah bersandar) adalah signifikan secara statistik. Dalam kes ini, kita boleh merumus dan cuba menguji dua hipotesis:
hipotesis nol
Dalam kes umum, jika, berdasarkan analisis objek pemodelan, adalah mungkin untuk menganggap (iaitu, walaupun sebelum menjalankan pemerhatian) (untuk menyatakan hipotesis) bahawa pekali regresi adalah sama dengan nilai tertentu, kemudian untuk menguji andaian ini, hipotesis dirumuskan seperti berikut:
Peraturan keputusan berdasarkan statistik statistik () adalah seperti berikut: hipotesis H 0 ditolak jika
(notasi setara bagi keadaan ini );
hipotesis H 0 diterima jika
(notasi setara).
Julat nilai statistik-t yang diberikan oleh ungkapan () dipanggil kawasan sisihan hipotesis H0, dan kawasan () ialah kawasan untuk menerima hipotesis H0, pada tahap keertian .
Ralat jenis I dan II.
Apabila menguji dan menerima hipotesis, terdapat risiko membuat kesilapan jenis I dan II. Ralat Jenis I berlaku apabila hipotesis nol adalah benar tetapi ia ditolak. Ralat Jenis II berlaku apabila hipotesis nol adalah palsu, tetapi ia tidak ditolak. Kerana ia t- statistik ialah nilai rawak, maka ia secara tidak sengaja boleh mengambil nilai dari kawasan penolakan hipotesis nol, walaupun jika hipotesis ini adalah benar. Sejak kebarangkalian memukul t-statistik dalam bidang penerimaan hipotesis adalah sama dengan , dan kebarangkalian untuk jatuh ke dalam kawasan sisihan adalah sama dengan , maka tahap keertian akan menjadi kebarangkalian ralat jenis pertama. Semakin rendah tahap keertian, semakin banyak sebab (dengan kebolehpercayaan yang lebih besar) hipotesis nol boleh diterima. Tahap kepentingan ini dipanggil lebih tinggi. Walau bagaimanapun, jika hipotesis nol sebenarnya palsu, maka kebarangkalian ralat Jenis II meningkat. Jika, walau bagaimanapun, tahap keertian yang rendah dipilih (ini sepadan dengan nilai yang lebih besar iaitu ), maka kebarangkalian ralat Jenis I akan lebih tinggi. Dalam amalan, kompromi dibuat dan hipotesis diuji untuk dua tahap kepentingan: rendah, biasanya 5%, dan tinggi, biasanya 1%.