Biografi Ciri-ciri Analisis

Contoh regresi berganda. Pengenalan Regresi Berganda

Bahan akan digambarkan dengan contoh melalui: ramalan jualan untuk OmniPower. Bayangkan anda adalah pengurus pemasaran untuk rangkaian runcit negara yang besar. AT tahun lepas Bar nutrien yang mengandungi sejumlah besar lemak, karbohidrat dan kalori. Ia membolehkan anda memulihkan rizab tenaga dengan cepat yang dibelanjakan oleh pelari, pendaki dan atlet lain dalam latihan dan pertandingan yang melelahkan. Dalam beberapa tahun kebelakangan ini, jualan bar makanan telah meletup, dan pengurusan OmniPower telah membuat kesimpulan bahawa segmen pasaran ini sangat menjanjikan. Sebelum memperkenalkan jenis bar baharu kepada pasaran negara, syarikat ingin menilai kesan kos dan kos pengiklanannya terhadap jualan. 34 kedai telah dipilih untuk penyelidikan pemasaran. Anda perlu mencipta model regresi yang membolehkan anda menganalisis data yang diperoleh semasa kajian. Adakah mungkin untuk menggunakan model regresi linear mudah yang dibincangkan dalam nota sebelumnya untuk ini? Bagaimana ia harus diubah?

Model regresi berbilang

Untuk penyelidikan pasaran, OmniPower mencipta sampel 34 kedai dengan jumlah jualan yang lebih kurang sama. Pertimbangkan dua pembolehubah tidak bersandar - harga bar OmniPower dalam sen ( X 1) dan belanjawan bulanan kempen pengiklanan disimpan di kedai, dinyatakan dalam dolar ( X 2). Belanjawan ini termasuk kos papan tanda dan tingkap kedai, serta pengedaran kupon dan sampel percuma. Pembolehubah bersandar Y mewakili bilangan bar OmniPower yang dijual setiap bulan (Rajah 1).

nasi. 1. Jumlah jualan bulanan bar OmniPower, harga dan kos pengiklanan

Muat turun nota dalam atau format, contoh dalam format

Tafsiran pekali regresi. Jika masalah sedang mengkaji berbilang pembolehubah penjelasan, model regresi linear mudah boleh dilanjutkan dengan mengandaikan bahawa terdapat jurang antara tindak balas dan setiap pembolehubah penjelasan. pergantungan linear. Sebagai contoh, jika ada k pembolehubah penjelasan, model regresi linear berganda mengambil bentuk:

(1) Y i = β 0 + β 1 X 1i + β 2 X 2i + … + β k X ki + ε i

di mana β 0 - peralihan, β 1 - cerun garis lurus Y, bergantung kepada pembolehubah X 1 jika pembolehubah X 2 , X 3 , … , X k adalah pemalar β 2 - cerun garis lurus Y, bergantung kepada pembolehubah X 2 jika pembolehubah X 1 , X 3 , … , X k adalah pemalar β k- cerun garis lurus Y, bergantung kepada pembolehubah X k jika pembolehubah X 1 , X 2 , … , X k-1 adalah pemalar ε i Y dalam i m pemerhatian.

Khususnya, model regresi berganda dengan dua pembolehubah penjelasan:

(2) Y i = β 0 + β 1 X 1 i + β 2 X 2 i + ε i

di mana β 0 - peralihan, β 1 - cerun garis lurus Y, bergantung kepada pembolehubah X 1 jika pembolehubah X 2 adalah tetap, β 2 - cerun garis lurus Y, bergantung kepada pembolehubah X 2 jika pembolehubah X 1 adalah tetap, ε i- ralat pembolehubah rawak Y dalam i m pemerhatian.

Mari kita bandingkan model regresi linear berbilang ini dan model regresi linear mudah: Y i = β 0 + β 1 X i + ε i. Dalam model regresi linear mudah, cerun β 1 Y apabila nilai pembolehubah X berubah satu dan tidak mengambil kira pengaruh faktor lain. Dalam model regresi berganda dengan dua pembolehubah tidak bersandar (2), kecerunan β 1 mewakili perubahan dalam nilai min pembolehubah Y apabila menukar nilai pembolehubah x1 seunit, dengan mengambil kira pengaruh pembolehubah X 2. Nilai ini dipanggil pekali regresi tulen (atau regresi separa).

Seperti dalam model regresi linear mudah, pekali regresi sampel b 0 , b 1 , dan b 2 adalah anggaran parameter populasi umum yang sepadan β 0 , β 1 dan β 2 .

Persamaan regresi berbilang dengan dua pembolehubah bebas:

(3) = b 0 + b 1 X 1 i + b 2 X 2 i

Untuk mengira pekali regresi, kaedah digunakan petak terkecil. Dalam Excel, anda boleh menggunakan Pakej analisis, pilihan Regresi. Tidak seperti membina regresi linear, tetapkan sebagai Selang input X kawasan termasuk semua pembolehubah bebas (Rajah 2). Dalam contoh kami, ini ialah $C$1:$D$35.

nasi. 2. Tetingkap Regresi Kelompok Analisis Excel

Keputusan Pakej Analisis ditunjukkan dalam rajah. 3. Seperti yang kita lihat, b 0 = 5 837,52, b 1 = -53.217 dan b 2 = 3.163. Akibatnya, = 5 837,52 –53,217 X 1 i + 3,163 X 2 i, di mana Ŷ i- ramalan jualan bar pemakanan OmniPower dalam i-m kedai (kepingan), X 1i- harga bar (dalam sen) dalam i-m kedai, X 2i- perbelanjaan iklan bulanan i kedai (dalam dolar).

nasi. 3. Kajian regresi berganda volum jualan bar OmniPower

Cerun terpilih b 0 ialah 5,837.52 dan merupakan anggaran purata bilangan Bar OmniPower yang dijual setiap bulan pada harga sifar dan tanpa kos pengiklanan. Oleh kerana keadaan ini tidak bermakna, dalam keadaan ini nilai cerun b 0 tidak mempunyai tafsiran yang munasabah.

Cerun terpilih b 1 ialah -53.217. Ini bermakna bahawa untuk jumlah perbelanjaan pengiklanan bulanan tertentu, kenaikan satu sen dalam harga bar akan menyebabkan penurunan dalam jualan yang dijangkakan sebanyak 53,217 unit. Begitu juga, cerun pensampelan b 2 , bersamaan dengan 3.613, bermakna apabila harga tetap peningkatan $1 dalam perbelanjaan pengiklanan bulanan disertai dengan peningkatan dalam jangkaan jualan bar sebanyak 3,613. Anggaran ini memberikan pemahaman yang lebih baik tentang kesan harga dan pengiklanan ke atas jualan. Sebagai contoh, dengan jumlah perbelanjaan pengiklanan yang tetap, penurunan 10 sen dalam harga bar akan meningkatkan jualan sebanyak 532,173 unit, dan dengan harga tetap bar, peningkatan $100 dalam kos pengiklanan akan meningkatkan jualan sebanyak 361.31 unit. .

Tafsiran cerun dalam model regresi berganda. Pekali dalam model regresi berbilang dipanggil pekali regresi tulen. Mereka menganggarkan purata perubahan dalam tindak balas Y apabila menukar nilai X seunit jika semua pembolehubah penjelasan lain adalah "beku". Sebagai contoh, dalam masalah bar OmniPower, kedai dengan jumlah perbelanjaan pengiklanan tetap setiap bulan akan menjual 53,217 bar yang lebih sedikit jika mereka menaikkan harganya sebanyak satu sen. Satu lagi tafsiran pekali ini adalah mungkin. Bayangkan kedai yang sama dengan jumlah perbelanjaan pengiklanan yang sama. Jika harga bar menurun sebanyak satu sen, jualan di kedai ini akan meningkat sebanyak 53,217 bar. Pertimbangkan sekarang dua kedai yang kos barnya sama, tetapi kos pengiklanan berbeza. Jika kos ini meningkat sebanyak satu dolar, jumlah jualan di kedai ini akan meningkat sebanyak 3,613 unit. Seperti yang dapat kita lihat, tafsiran yang munasabah bagi cerun hanya boleh dilakukan di bawah sekatan tertentu yang dikenakan ke atas pembolehubah penjelasan.

Meramalkan nilai pembolehubah bersandar Y. Sebaik sahaja kami mendapati bahawa data terkumpul membolehkan kami menggunakan model regresi berbilang, kami boleh meramalkan jualan bulanan Bar OmniPower dan membina selang keyakinan untuk jualan purata dan ramalan. Untuk meramalkan purata jualan bulanan sebanyak 79 sen OmniPower Bar di kedai yang membelanjakan $400 sebulan untuk pengiklanan, gunakan persamaan regresi berganda: Y = 5,837.53 – 53.2173*79 + 3.6131*400 = 3,079. Oleh itu, jumlah jualan yang dijangkakan untuk kedai menjual bar OmniPower berharga 79 sen dan membelanjakan $400 sebulan untuk pengiklanan ialah 3,079.

Mengira nilai Y dan dengan menilai baki, seseorang boleh membina selang keyakinan yang mengandungi nilai yang dijangkakan dan nilai tindak balas yang diramalkan. kami mempertimbangkan prosedur ini dalam rangka model regresi linear mudah. Walau bagaimanapun, pembinaan anggaran yang serupa untuk model regresi berganda dikaitkan dengan kesukaran pengiraan yang hebat dan tidak dibentangkan di sini.

Pekali korelasi bercampur berbilang. Ingat bahawa model regresi membolehkan anda mengira pekali korelasi bercampur r2. Oleh kerana terdapat sekurang-kurangnya dua pembolehubah penjelasan dalam model regresi berganda, pekali korelasi bercampur berganda ialah pecahan daripada varians pembolehubah. Y, dijelaskan oleh set pembolehubah penjelasan yang diberikan:

di mana SSR ialah jumlah kuasa dua regresi, SSTjumlah keseluruhan segi empat sama.

Contohnya, dalam masalah menjual bar OmniPower SSR = 39 472 731, SST= 52 093 677 dan k = 2. Oleh itu,

Ini bermakna 75.8% daripada variasi dalam volum jualan adalah disebabkan oleh perubahan harga dan turun naik dalam perbelanjaan pengiklanan.

Analisis sisa untuk model regresi berganda

Analisis sisa membolehkan anda menentukan sama ada model regresi berganda dengan dua (atau lebih) pembolehubah penjelasan boleh digunakan. Biasanya dijalankan jenis berikut analisis sisa:

Graf pertama (Rajah 4a) membolehkan kita menganalisis taburan sisa bergantung pada nilai ramalan . Jika nilai baki tidak bergantung pada nilai yang diramalkan dan mengambil kedua-dua positif dan nilai negatif(seperti dalam contoh kami), syarat untuk pergantungan linear pembolehubah Y pada kedua-dua pembolehubah penjelasan berpuas hati. Malangnya, dalam Pakej analisis Atas sebab tertentu graf ini tidak dibuat. Boleh di tingkap Regresi(lihat rajah 2) hidupkan Kekal. Ini akan membolehkan anda memaparkan jadual dengan bakinya, dan sudah membina di atasnya plot bersepah(Gamb. 4).

nasi. 4. Kebergantungan sisa pada nilai yang diramalkan

Graf kedua dan ketiga menunjukkan pergantungan sisa pada pembolehubah penjelasan. Plot ini boleh mendedahkan kesan kuadratik. Dalam keadaan ini, adalah perlu untuk menambah pembolehubah penjelasan kuasa dua kepada model regresi berganda. Plot ini dipaparkan oleh Pakej Analisis (lihat Rajah 2) jika anda mendayakan pilihan Graf Baki (Rajah 5).

nasi. 5. Pergantungan sisa pada harga dan kos pengiklanan

Menguji kepentingan model regresi berganda.

Selepas mengesahkan, menggunakan analisis baki, bahawa model regresi berbilang linear adalah mencukupi, ia boleh ditentukan sama ada terdapat hubungan yang signifikan secara statistik antara pembolehubah bersandar dan set pembolehubah penjelasan. Oleh kerana model tersebut merangkumi beberapa pembolehubah penjelasan, hipotesis nol dan alternatif dirumuskan seperti berikut: H 0: β 1 = β 2 = ... = β k = 0 (tiada hubungan linear antara tindak balas dan pembolehubah penjelasan), H 1: terdapat sekurang-kurangnya satu nilai β j ≠ 0 (terdapat pergantungan linear antara tindak balas dan sekurang-kurangnya satu pembolehubah penjelasan).

Untuk menguji hipotesis nol, kami menggunakan F-kriteria - ujian F-statistik sama dengan regresi min kuasa dua (MSR) dibahagikan dengan varians ralat (MSE):

di mana F F- pengedaran dengan k dan n–k–1 darjah kebebasan k- bilangan pembolehubah bebas dalam model regresi.

Peraturan keputusan kelihatan seperti ini: pada tahap keertian α, hipotesis nol H 0 ditolak jika F > F U(k,n – k – 1), jika tidak, hipotesis H 0 tidak ditolak (Rajah 6).

nasi. 6. Jadual rumusan analisis varians untuk menguji hipotesis tentang kepentingan statistik pekali regresi berganda

Jadual ringkasan ANOVA dilengkapkan menggunakan Pakej analisis Excel apabila menyelesaikan masalah menjual bar OmniPower ditunjukkan dalam rajah. 3 (lihat kawasan A10:F14). Jika aras keertian ialah 0.05, nilai kritikal F-taburan dengan dua dan 31 darjah kebebasan FU(2.31)\u003d F. OBR (1-0.05; 2; 31) \u003d bersamaan dengan 3.305 (Rajah 7).

nasi. 7. Menguji hipotesis tentang kepentingan pekali regresi pada aras keertian α = 0.05, dengan 2 dan 31 darjah kebebasan

Seperti yang ditunjukkan dalam rajah. 3, statistik F ialah 48.477 > FU(2.31)= 3.305, dan hlm-nilai hampir 0.000< 0,05. Следовательно, нулевая гипотеза Н 0 отклоняется, и объем продаж линейно связан хотя бы с одной из объясняющих переменных (ценой и/или затратами на рекламу).

Inferens statistik tentang populasi pekali regresi

Untuk mengenal pasti hubungan yang signifikan secara statistik antara pembolehubah X dan Y dalam model regresi linear mudah, ujian hipotesis cerun telah dilakukan. Di samping itu, untuk menganggarkan cerun penduduk umum, kami membina selang keyakinan(cm. ).

Ujian hipotesis. Untuk menguji hipotesis bahawa kecerunan populasi β 1 dalam model regresi linear mudah ialah sifar, formula t = (b 1 – β 1)/S b 1 digunakan. Ia boleh dilanjutkan kepada model regresi berganda:

di mana t adalah statistik ujian yang mempunyai t- pengedaran dengan n–k–1 darjah kebebasan bj- kecerunan pembolehubah Xj berkenaan dengan pembolehubah Y jika semua pembolehubah penjelasan lain adalah pemalar, Sbj ialah punca ralat purata kuasa dua bagi pekali regresi bj, k- bilangan pembolehubah penjelasan dalam persamaan regresi, β j - cerun hipotesis populasi respons j-th berkenaan dengan pembolehubah apabila semua pembolehubah lain ditetapkan.

Pada rajah. 3 (jadual bawah) menunjukkan keputusan permohonan t-kriteria (diperolehi menggunakan Pakej analisis) bagi setiap pembolehubah bebas yang termasuk dalam model regresi. Oleh itu, jika perlu untuk menentukan sama ada pembolehubah mempunyai X 2(kos pengiklanan) kesan yang ketara ke atas jualan pada harga tetap bar OmniPower, hipotesis nol dan alternatif dirumuskan: H 0: β2 = 0, H 1: β2 ≠ 0. Selaras dengan formula (6), kami memperoleh :

Jika aras keertian ialah 0.05, nilai kritikal t-taburan dengan 31 darjah kebebasan ialah t L = PELAJAR.OBR(0.025;31) = –2.0395 dan t U = PELAJAR.OBR(0.975;31) = 2.0395 (Rajah 8). R-nilai =1-STUDENT.DIST(5.27;31;TRUE) dan hampir kepada 0.0000. Berdasarkan salah satu ketaksamaan t= 5.27 > 2.0395 atau R = 0,0000 < 0,05 нулевая гипотеза H 0 ditolak. Oleh itu, pada harga tetap bar antara pembolehubah X 2(kos pengiklanan) dan volum jualan, terdapat hubungan yang signifikan secara statistik. Oleh itu, terdapat peluang yang sangat kecil untuk menolak hipotesis nol jika tiada hubungan linear antara kos pengiklanan dan volum jualan.

nasi. 8. Menguji hipotesis tentang kepentingan pekali regresi pada aras keertian α = 0.05, dengan 31 darjah kebebasan

Menguji kepentingan pekali regresi khusus sebenarnya menguji hipotesis tentang kepentingan pembolehubah tertentu yang termasuk dalam model regresi bersama-sama dengan yang lain. Akibatnya, t-kriteria untuk menguji hipotesis tentang kepentingan pekali regresi adalah setara dengan menguji hipotesis tentang pengaruh setiap pembolehubah penjelasan.

Selang keyakinan. Daripada menguji hipotesis tentang cerun populasi, anda boleh menganggarkan nilai cerun ini. Dalam model regresi berganda, formula berikut digunakan untuk membina selang keyakinan:

(7) bj ± t nk –1 Sbj

Kami menggunakan formula ini untuk membina selang keyakinan 95% yang mengandungi kecerunan populasi β 1 (kesan harga x1 pada volum jualan Y dengan jumlah kos pengiklanan yang tetap X 2). Menurut formula (7) kita dapat: b 1 ± t nk –1 Sb 1 . Kerana ia b 1 = –53.2173 (lihat Rajah 3), Sb 1 = 6.8522, nilai kritikal t-statistik pada 95% tahap keyakinan dan 31 darjah kebebasan t nk –1 \u003d PELAJAR.OBR (0.975; 31) \u003d 2.0395, kita dapat:

–53.2173 ± 2.0395*6.8522

–53.2173 ± 13.9752

–67.1925 ≤ β 1 ≤ –39.2421

Oleh itu, dengan mengambil kira kesan kos pengiklanan, boleh dikatakan bahawa dengan kenaikan harga bar sebanyak satu sen, volum jualan berkurangan dengan jumlah yang berkisar antara 39.2 hingga 67.2 unit. Terdapat 95% kemungkinan bahawa selang ini menganggarkan hubungan antara dua pembolehubah dengan betul. Oleh kerana selang keyakinan ini tidak mengandungi sifar, boleh dikatakan bahawa pekali regresi β 1 mempunyai kesan yang signifikan secara statistik ke atas jualan.

Menilai Kepentingan Pembolehubah Penjelasan dalam Model Regresi Berganda

Model regresi berganda hendaklah memasukkan hanya pembolehubah penjelasan yang meramalkan nilai pembolehubah bersandar dengan tepat. Jika mana-mana pembolehubah penjelasan tidak memenuhi keperluan ini, ia mesti dialih keluar daripada model. Sebagai kaedah alternatif untuk menganggarkan sumbangan pembolehubah penjelasan, sebagai peraturan, persendirian F-kriteria. Ia terdiri daripada menilai perubahan dalam jumlah kuasa dua regresi selepas kemasukan pembolehubah seterusnya dalam model. Pembolehubah baharu dimasukkan ke dalam model hanya apabila ia membawa kepada peningkatan ketara dalam ketepatan ramalan.

Untuk menggunakan ujian F separa kepada masalah jualan bar OmniPower, adalah perlu untuk menilai sumbangan pembolehubah X 2(kos pengiklanan) selepas memasukkan pembolehubah dalam model x1(harga bar). Jika model termasuk berbilang pembolehubah penjelasan, sumbangan pembolehubah penjelasan Xj boleh ditentukan dengan mengecualikannya daripada model dan menilai jumlah regresi kuasa dua (SSR) yang dikira ke atas pembolehubah yang tinggal. Jika model termasuk dua pembolehubah, sumbangan setiap daripada mereka ditentukan oleh formula:

Menganggar sumbangan pembolehubah X 1 X 2:

(8a) SSR(X 1 |X 2) = SSR(X 1 dan X 2) – SSR(X 2)

Menganggar sumbangan pembolehubah X 2 dengan syarat pembolehubah dimasukkan ke dalam model X 1:

(8b) SSR(X 2 |X 1) = SSR(X 1 dan X 2) – SSR(X 1)

Kuantiti SSR(X2) dan SSR(X 1) adalah, masing-masing, jumlah kuasa dua regresi yang dikira untuk hanya satu pembolehubah yang dijelaskan (Rajah 9).

nasi. 9. Pekali model regresi linear mudah, dengan mengambil kira: (a) volum jualan dan harga bar - SSR(X 1); (b) volum jualan dan kos pengiklanan - SSR(X2)(diperolehi menggunakan Excel Analysis ToolPack)

Hipotesis nol dan alternatif tentang sumbangan pembolehubah X 1 dirumuskan seperti berikut: H 0- dayakan pembolehubah X 1 tidak membawa kepada peningkatan ketara dalam ketepatan model, yang mengambil kira pembolehubah X 2; H 1- dayakan pembolehubah X 1 membawa kepada peningkatan ketara dalam ketepatan model, yang mengambil kira pembolehubah X 2. Statistik yang mendasari hasil bagi F-kriteria untuk dua pembolehubah, dikira dengan formula:

di mana MSE ialah varians ralat (baki) untuk dua faktor secara serentak. Mengikut takrifan F-statistik mempunyai F-agihan daripada satu dan n-k-1 darjah kebebasan.

Jadi, SSR(X2)= 14 915 814 (Gamb. 9), SSR(X 1 dan X 2)= 39 472 731 (Rajah 3, sel C12). Oleh itu, mengikut formula (8a), kita memperoleh: SSR (X 1 | X 2) \u003d SSR (X 1 dan X 2) - SSR (X 2) \u003d 39 472 731 - 14 915 814 = 24 556 917. Jadi, untuk SSR(X 1 |X 2) = 24 556 917 dan MSE (X 1 dan X 2) = 407 127 (Rajah 3, sel D13), menggunakan formula (9), kami memperoleh: F= 24,556,917 / 407,127 = 60.32. Jika aras keertian ialah 0.05, maka nilai kritikalnya F-taburan dengan satu dan 31 darjah kebebasan = F. OBR (0.95; 1; 31) = 4.16 (Rajah 10).

nasi. 10. Menguji hipotesis tentang kepentingan pekali regresi pada aras keertian 0.05, dengan satu dan 31 darjah kebebasan

Sejak nilai yang dikira F-statistik lebih daripada kritikal (60.32 > 4.17), hipotesis H 0 ditolak, oleh itu mengambil kira pembolehubah X 1(harga) menambah baik model regresi yang sudah termasuk pembolehubah X 2(kos pengiklanan).

Begitu juga, seseorang boleh menilai pengaruh pembolehubah X 2(kos pengiklanan) setiap model yang sudah termasuk pembolehubah X 1(harga). Buat pengiraan sendiri. Keadaan keputusan menyebabkan 27.8 > 4.17, dan oleh itu kemasukan pembolehubah X 2 juga membawa kepada peningkatan ketara dalam ketepatan model, yang mengambil kira pembolehubah X 1 . Jadi, termasuk setiap pembolehubah meningkatkan ketepatan model. Oleh itu, kedua-dua pembolehubah mesti dimasukkan dalam model regresi berganda: kos harga dan pengiklanan.

Anehnya, nilainya t-statistik dikira dengan formula (6), dan nilai persendirian F-statistik, formula yang diberikan(9) saling berkaitan secara unik:

di mana a ialah bilangan darjah kebebasan.

Model regresi pembolehubah tiruan dan kesan interaksi

Apabila membincangkan model regresi berbilang, kami telah mengandaikan bahawa setiap pembolehubah bebas ialah nombor. Walau bagaimanapun, dalam banyak situasi adalah perlu untuk memasukkan pembolehubah kategori dalam model. Contohnya, dalam masalah jualan bar OmniPower, harga dan kos pengiklanan digunakan untuk meramalkan purata jualan bulanan. Sebagai tambahan kepada pembolehubah berangka ini, anda boleh cuba mengambil kira dalam model lokasi barang di dalam kedai (contohnya, dalam tetingkap atau tidak). Untuk mengambil kira pembolehubah kategori dalam model regresi, pembolehubah tiruan mesti disertakan di dalamnya. Sebagai contoh, jika pembolehubah penjelasan kategori mempunyai dua kategori, satu pembolehubah palsu sudah cukup untuk mewakilinya Xd: X d= 0 jika pemerhatian tergolong dalam kategori pertama, X d= 1 jika pemerhatian tergolong dalam kategori kedua.

Untuk menggambarkan pembolehubah tiruan, pertimbangkan model untuk meramalkan nilai purata dinilai hartanah berdasarkan sampel 15 rumah. Sebagai pembolehubah penjelasan, kami memilih ruang tamu rumah (ribu kaki persegi) dan kehadiran perapian (Rajah 11). Pembolehubah tiruan X 2(kehadiran perapian) ditakrifkan seperti berikut: X 2= 0 jika tiada pendiangan di dalam rumah, X 2= 1 jika rumah itu mempunyai pendiangan.

nasi. 11. Anggaran nilai yang diramalkan oleh ruang kediaman dan kehadiran pendiangan

Mari kita andaikan bahawa cerun nilai anggaran, bergantung pada ruang tamu, adalah sama untuk rumah dengan dan tanpa pendiangan. Kemudian model regresi berganda kelihatan seperti ini:

Y i = β 0 + β 1 X 1i + β 2 X 2i + ε i

di mana Y i- nilai yang dinilai i-rumah ke-, diukur dalam ribu ringgit, β 0 - peralihan tindak balas, x1i,- ruang kediaman i-pergi rumah, diukur dalam ribu meter persegi. kaki, β 1 - cerun nilai anggaran, bergantung pada ruang tamu rumah dengan nilai tetap pembolehubah tiruan, x1i, ialah pembolehubah tiruan yang menunjukkan kehadiran atau ketiadaan perapian, β 1 - kecerunan nilai anggaran, bergantung pada ruang tamu rumah dengan nilai tetap pembolehubah dummy β 2 - kesan peningkatan nilai anggaran rumah, bergantung kepada kehadiran perapian apabila nilai tetap kawasan tempat tinggal, ε i– ralat rawak dalam nilai anggaran i rumah ke. Keputusan pengiraan model regresi ditunjukkan dalam rajah. 12.

nasi. 12. Keputusan pengiraan model regresi untuk nilai anggaran rumah; diperolehi dengan Pakej analisis dalam Excel; jadual yang serupa dengan Rajah 1 digunakan untuk pengiraan. 11, dengan satu-satunya perubahan: "Ya" digantikan dengan yang, dan "Tidak" dengan sifar

Dalam model ini, pekali regresi ditafsirkan seperti berikut:

  1. Jika pembolehubah tiruan adalah malar, peningkatan ruang hidup setiap 1,000 persegi. kaki menghasilkan peningkatan $16.2k dalam nilai purata yang diramalkan.
  2. Jika ruang kediaman adalah tetap, mempunyai pendiangan meningkatkan purata nilai rumah sebanyak $3,900.

Beri perhatian (Gamb. 12), t-statistik yang sepadan dengan ruang tamu ialah 6.29, dan R- nilai hampir sifar. Dalam masa yang sama t-statistik yang sepadan dengan pembolehubah dummy ialah 3.1, dan hlm-nilai - 0.009. Oleh itu, setiap dua pembolehubah ini menyumbang secara signifikan kepada model jika aras keertian ialah 0.01. Selain itu, pekali korelasi bercampur berganda bermakna 81.1% daripada variasi dalam nilai yang dinilai adalah disebabkan oleh kebolehubahan ruang kediaman rumah dan kehadiran pendiangan.

Kesan interaksi. Dalam semua model regresi yang dibincangkan di atas, kesan tindak balas ke atas pembolehubah penjelasan dianggap sebagai bebas dari segi statistik daripada kesan tindak balas ke atas pembolehubah penjelasan yang lain. Sekiranya syarat ini tidak dipenuhi, terdapat interaksi antara pembolehubah bersandar. Sebagai contoh, kemungkinan besar pengiklanan mempunyai kesan yang besar terhadap jualan produk berharga rendah. Walau bagaimanapun, jika harga produk terlalu tinggi, peningkatan dalam perbelanjaan pengiklanan tidak dapat meningkatkan jualan dengan ketara. Dalam kes ini, terdapat interaksi antara harga produk dan kos pengiklanannya. Dalam erti kata lain, seseorang tidak boleh membuat kenyataan umum tentang pergantungan jualan pada kos pengiklanan. Kesan kos pengiklanan ke atas jualan bergantung pada harga. Pengaruh ini diambil kira dalam model regresi berganda menggunakan kesan interaksi. Untuk menggambarkan konsep ini, mari kita kembali kepada masalah kos rumah.

Dalam model regresi yang kami bangunkan, diandaikan bahawa kesan saiz rumah pada nilainya tidak bergantung pada sama ada rumah itu mempunyai pendiangan. Dalam erti kata lain, dipercayai bahawa cerun nilai anggaran, bergantung pada ruang tamu rumah, adalah sama untuk rumah dengan dan tanpa perapian. Jika cerun ini berbeza antara satu sama lain, terdapat interaksi antara saiz rumah dan kehadiran perapian.

Menguji hipotesis cerun yang sama turun untuk menganggar sumbangan yang hasil darab pemboleh ubah penjelasan dibuat kepada model regresi x1 dan pembolehubah tiruan X 2. Jika sumbangan ini signifikan secara statistik, model regresi asal tidak boleh digunakan. Keputusan analisis regresi yang melibatkan pembolehubah X 1, X 2 dan X 3 \u003d X 1 * X 2 ditunjukkan dalam rajah. 13.

nasi. 13. Keputusan yang diperolehi dengan Pakej analisis Excel untuk model regresi yang mengambil kira ruang kediaman, kehadiran perapian dan interaksinya

Untuk menguji hipotesis nol H 0: β 3 = 0 dan hipotesis alternatif H 1: β 3 ≠ 0, menggunakan keputusan yang ditunjukkan dalam Rajah. 13, ambil perhatian bahawa t-statistik yang sepadan dengan kesan interaksi pembolehubah adalah sama dengan 1.48. Kerana ia R-nilai ialah 0.166 > 0.05, hipotesis nol tidak ditolak. Oleh itu, interaksi pembolehubah tidak mempunyai kesan yang signifikan terhadap model regresi, yang mengambil kira ruang hidup dan kehadiran perapian.

Ringkasan. Nota ini menunjukkan cara pengurus pemasaran boleh menggunakan analisis linear berbilang untuk meramalkan volum jualan berdasarkan harga dan perbelanjaan pengiklanan. Pelbagai model regresi berbilang dipertimbangkan, termasuk model kuadratik, model dengan pembolehubah tiruan dan model dengan kesan interaksi (Rajah 14).

nasi. empat belas. Skim struktur nota

Bahan daripada buku Levin et al. Perangkaan untuk pengurus digunakan. - M.: Williams, 2004. - hlm. 873–936

Katakan pemaju menilai sekumpulan bangunan pejabat kecil di daerah perniagaan tradisional.

Pemaju boleh menggunakan analisis regresi berbilang untuk menganggarkan harga bangunan pejabat di kawasan tertentu berdasarkan pembolehubah berikut.

y ialah anggaran harga bangunan pejabat;

x 1 - jumlah kawasan dalam meter persegi;

x 2 - bilangan pejabat;

x 3 - bilangan input (0.5 input bermakna input hanya untuk penghantaran surat-menyurat);

x 4 - masa operasi bangunan dalam tahun.

Contoh ini mengandaikan bahawa terdapat hubungan linear antara setiap pembolehubah tidak bersandar (x 1 , x 2 , x 3 dan x 4) dan pembolehubah bersandar (y), iaitu harga bangunan pejabat di kawasan tertentu. Data awal ditunjukkan dalam rajah.

Tetapan untuk menyelesaikan tugas ditunjukkan dalam rajah tetingkap " Regresi". Keputusan pengiraan diletakkan pada helaian berasingan dalam tiga jadual

Akibatnya, kami mendapat perkara berikut model matematik:

y = 52318 + 27.64*x1 + 12530*x2 + 2553*x3 - 234.24*x4.

Pemaju kini boleh menentukan nilai dinilai bangunan pejabat di kawasan yang sama. Jika bangunan ini mempunyai keluasan 2500 meter persegi, tiga pejabat, dua pintu masuk dan seumur hidup 25 tahun, anda boleh menganggarkan nilainya menggunakan formula berikut:

y \u003d 27.64 * 2500 + 12530 * 3 + 2553 * 2 - 234.24 * 25 + 52318 \u003d 158 261 c.u.

Dalam analisis regresi, keputusan yang paling penting ialah:

  • pekali untuk pembolehubah dan persilangan Y, yang merupakan parameter model yang dikehendaki;
  • berbilang R mencirikan ketepatan model untuk data input yang tersedia;
  • Ujian F Fisher(dalam contoh yang dipertimbangkan, ia jauh melebihi nilai kritikal bersamaan dengan 4.06);
  • t-statistik– nilai yang mencirikan tahap kepentingan pekali individu model.

Perhatian khusus harus diberikan kepada statistik-t. Selalunya, apabila membina model regresi, tidak diketahui sama ada faktor ini atau itu x mempengaruhi y. Kemasukan dalam model faktor-faktor yang tidak menjejaskan nilai keluaran merendahkan kualiti model. Pengiraan statistik-t membantu untuk mengesan faktor tersebut. Anggaran anggaran boleh dibuat seperti berikut: jika bagi n>>k nilai mutlak statistik-t adalah lebih besar daripada tiga, pekali yang sepadan harus dianggap penting, dan faktor itu harus dimasukkan ke dalam model, jika tidak dikecualikan daripada model itu. Oleh itu, adalah mungkin untuk mencadangkan teknologi untuk membina model regresi, yang terdiri daripada dua peringkat:

1) proses pakej " Regresi"semua data yang ada, analisis nilai statistik-t;

2) keluarkan dari jadual lajur data awal dengan faktor-faktor yang mana pekalinya tidak penting dan proses dengan pakej " Regresi"meja baru.

Dalam nota sebelumnya, tumpuan selalunya tertumpu pada pembolehubah berangka tunggal, seperti pulangan dana bersama, masa muat halaman web atau penggunaan minuman ringan. Dalam nota ini dan berikut, kami akan mempertimbangkan kaedah untuk meramalkan nilai pembolehubah berangka bergantung pada nilai satu atau lebih pembolehubah berangka lain.

Bahan akan digambarkan dengan contoh melalui. Meramalkan jumlah jualan di kedai pakaian. Rangkaian kedai pakaian diskaun Sunflowers sentiasa berkembang selama 25 tahun. Bagaimanapun, syarikat itu pada masa ini tidak mempunyai pendekatan sistematik untuk memilih cawangan baharu. Lokasi di mana syarikat berhasrat untuk membuka kedai baharu ditentukan berdasarkan pertimbangan subjektif. Kriteria pemilihan adalah keadaan sewa yang menggalakkan atau idea pengurus tentang lokasi kedai yang ideal. Bayangkan anda adalah ketua Jabatan Projek Khas dan Perancangan. Anda telah ditugaskan untuk membangunkan pelan Strategik membuka kedai baru. Pelan ini harus mengandungi ramalan jualan tahunan di kedai yang baru dibuka. Adakah anda berfikir bahawa kawasan perdagangan adalah berkaitan secara langsung dengan jumlah hasil, dan anda ingin mengambil kira fakta ini dalam proses membuat keputusan. Bagaimana untuk membangunkan model statistik untuk meramalkan jualan tahunan berdasarkan saiz kedai baharu?

Biasanya, analisis regresi digunakan untuk meramalkan nilai pembolehubah. Matlamatnya adalah untuk membangunkan model statistik yang meramalkan nilai pembolehubah bersandar, atau tindak balas, daripada nilai sekurang-kurangnya satu pembolehubah bebas, atau penjelasan. Dalam nota ini, kami akan mempertimbangkan regresi linear mudah - kaedah statistik, membolehkan untuk meramalkan nilai pembolehubah bersandar Y dengan nilai pembolehubah bebas X. Nota berikut akan menerangkan model regresi berganda yang direka untuk meramalkan nilai pembolehubah bebas Y dengan nilai beberapa pembolehubah bersandar ( X 1 , X 2 , …, X k).

Muat turun nota dalam atau format, contoh dalam format

Jenis model regresi

di mana ρ 1 ialah pekali autokorelasi; jika ρ 1 = 0 (tiada autokorelasi), D≈ 2; jika ρ 1 ≈ 1 (autokorelasi positif), D≈ 0; jika ρ 1 = -1 (autokorelasi negatif), D ≈ 4.

Dalam amalan, penggunaan kriteria Durbin-Watson adalah berdasarkan perbandingan nilai D dengan nilai teori kritikal d L dan d U untuk bilangan pemerhatian tertentu n, bilangan bebas pembolehubah model k(untuk regresi linear mudah k= 1) dan aras keertian α. Sekiranya D< d L , hipotesis kemerdekaan sisihan rawak ditolak (oleh itu terdapat autokorelasi positif); jika D > dU, hipotesis tidak ditolak (iaitu, tiada autokorelasi); jika d L< D < d U tidak ada alasan yang cukup untuk membuat keputusan. Apabila nilai yang dikira D melebihi 2, maka d L dan d U ia bukan pekali itu sendiri yang dibandingkan D, dan ungkapan (4 – D).

Untuk mengira statistik Durbin-Watson dalam Excel, kita beralih ke jadual bawah dalam Rajah. empat belas Pengeluaran baki. Pengangka dalam ungkapan (10) dikira menggunakan fungsi = SUMMQDIFF(array1, array2), dan penyebut = SUMMQ(array) (Rajah 16).

nasi. 16. Formula untuk mengira statistik Durbin-Watson

Dalam contoh kita D= 0.883. Persoalan utama ialah: apakah nilai statistik Durbin-Watson yang harus dianggap cukup kecil untuk membuat kesimpulan bahawa terdapat autokorelasi positif? Adalah perlu untuk mengaitkan nilai D dengan nilai kritikal ( d L dan d U) bergantung kepada bilangan pemerhatian n dan aras keertian α (Rajah 17).

nasi. 17. Nilai kritikal statistik Durbin-Watson (serpihan jadual)

Oleh itu, dalam masalah jumlah jualan di kedai yang menghantar barang ke rumah anda, terdapat satu pembolehubah tidak bersandar ( k= 1), 15 pemerhatian ( n= 15) dan aras keertian α = 0.05. Akibatnya, d L= 1.08 dan dU= 1.36. Kerana ia D = 0,883 < d L= 1.08, terdapat autokorelasi positif antara baki, kaedah kuasa dua terkecil tidak boleh digunakan.

Menguji Hipotesis tentang Kecerunan dan Pekali Korelasi

Regresi di atas digunakan semata-mata untuk peramalan. Untuk menentukan pekali regresi dan meramalkan nilai pembolehubah Y di nilai yang diberi pembolehubah X kaedah kuasa dua terkecil digunakan. Di samping itu, kami mempertimbangkan ralat piawai anggaran dan pekali korelasi bercampur. Jika analisis sisa mengesahkan bahawa syarat kebolehgunaan kaedah kuasa dua terkecil tidak dilanggar, dan model regresi linear mudah adalah mencukupi, berdasarkan data sampel, boleh dikatakan bahawa terdapat hubungan linear antara pembolehubah dalam populasi.

Permohonant -kriteria untuk cerun. Dengan menyemak sama ada cerun populasi β 1 sama dengan sifar, seseorang boleh menentukan sama ada terdapat hubungan yang signifikan secara statistik antara pembolehubah X dan Y. Jika hipotesis ini ditolak, boleh dikatakan bahawa antara pembolehubah X dan Y terdapat hubungan linear. Hipotesis nol dan alternatif dirumus seperti berikut: H 0: β 1 = 0 (tiada hubungan linear), H1: β 1 ≠ 0 (ada hubungan linear). Mengikut takrifan t-statistik adalah sama dengan perbezaan antara cerun sampel dan cerun populasi hipotesis, dibahagikan dengan ralat piawai anggaran cerun:

(11) t = (b 1 β 1 ) / Sb 1

di mana b 1 ialah cerun regresi langsung berdasarkan data sampel, β1 ialah cerun hipotesis populasi umum langsung, , dan statistik ujian t Ia ada t- pengedaran dengan n - 2 darjah kebebasan.

Mari kita semak sama ada terdapat hubungan yang signifikan secara statistik antara saiz kedai dan jualan tahunan pada α = 0.05. t-kriteria dipaparkan bersama parameter lain apabila menggunakan Pakej analisis(pilihan Regresi). Keputusan penuh Pakej Analisis ditunjukkan dalam Rajah. 4, serpihan yang berkaitan dengan t-statistik - dalam rajah. lapan belas.

nasi. 18. Keputusan permohonan t

Kerana bilangan kedai n= 14 (lihat Rajah 3), nilai kritikal t-statistik pada aras keertian α = 0.05 boleh didapati dengan formula: t L=STUDENT.INV(0.025;12) = -2.1788 di mana 0.025 ialah separuh daripada aras keertian dan 12 = n – 2; t U\u003d STUDENT.INV (0.975, 12) \u003d +2.1788.

Kerana ia t-statistik = 10.64 > t U= 2.1788 (Rajah 19), hipotesis nol H 0 ditolak. Selain itu, R-nilai untuk X\u003d 10.6411, dikira dengan formula \u003d 1-STUDENT.DIST (D3, 12, TRUE), adalah lebih kurang sama dengan sifar, jadi hipotesis H 0 ditolak lagi. Hakikat bahawa R-nilai hampir sifar, bermakna jika tiada hubungan linear sebenar antara saiz kedai dan jualan tahunan, hampir mustahil untuk mencarinya menggunakan regresi linear. Oleh itu, terdapat hubungan linear yang signifikan secara statistik antara purata jualan kedai tahunan dan saiz kedai.

nasi. 19. Menguji hipotesis tentang kecerunan populasi umum pada aras keertian 0.05 dan 12 darjah kebebasan

PermohonanF -kriteria untuk cerun. Pendekatan alternatif untuk menguji hipotesis tentang kecerunan regresi linear mudah adalah dengan menggunakan F-kriteria. Ingat itu F-kriteria digunakan untuk menguji hubungan antara dua varians (lihat butiran). Apabila menguji hipotesis cerun dengan ukuran ralat rawak ialah varians ralat (jumlah ralat kuasa dua dibahagikan dengan bilangan darjah kebebasan), jadi F-ujian menggunakan nisbah varians yang dijelaskan oleh regresi (iaitu, nilai SSR dibahagikan dengan bilangan pembolehubah bebas k), kepada varians ralat ( MSE=S YX 2 ).

Mengikut takrifan F-statistik adalah sama dengan min sisihan kuasa dua disebabkan oleh regresi (MSR) dibahagikan dengan varians ralat (MSE): F = MSR/ MSE, di mana MSR=SSR / k, MSE =SSE/(n– k – 1), k ialah bilangan pembolehubah bebas dalam model regresi. Statistik ujian F Ia ada F- pengedaran dengan k dan n– k – 1 darjah kebebasan.

Untuk tahap keertian tertentu α peraturan keputusan dirumuskan seperti berikut: jika F > FU, hipotesis nol ditolak; jika tidak, ia tidak ditolak. Keputusan, yang dibentangkan dalam bentuk jadual ringkasan analisis varians, ditunjukkan dalam rajah. dua puluh.

nasi. 20. Jadual analisis varians untuk menguji hipotesis kepentingan statistik bagi pekali regresi

Begitu juga t-kriteria F-kriteria dipaparkan dalam jadual apabila menggunakan Pakej analisis(pilihan Regresi). Hasil kerja penuh Pakej analisis ditunjukkan dalam rajah. 4, serpihan yang berkaitan dengan F-statistik - dalam rajah. 21.

nasi. 21. Keputusan permohonan F- Kriteria yang diperoleh menggunakan Excel Analysis ToolPack

F-statistik ialah 113.23 dan R-nilai hampir sifar (sel KepentinganF). Jika aras keertian α ialah 0.05, tentukan nilai kritikal F-taburan dengan satu dan 12 darjah kebebasan boleh didapati daripada formula F U\u003d F. OBR (1-0.05; 1; 12) \u003d 4.7472 (Gamb. 22). Kerana ia F = 113,23 > F U= 4.7472, dan R-nilai hampir 0< 0,05, нулевая гипотеза H 0 menyimpang, i.e. Saiz kedai berkait rapat dengan jumlah jualan tahunannya.

nasi. 22. Menguji hipotesis tentang kecerunan populasi umum pada tahap keertian 0.05, dengan satu dan 12 darjah kebebasan

Selang keyakinan yang mengandungi cerun β 1 . Untuk menguji hipotesis kewujudan hubungan linear antara pembolehubah, anda boleh membina selang keyakinan yang mengandungi cerun β 1 dan pastikan nilai hipotesis β 1 = 0 tergolong dalam selang ini. Pusat selang keyakinan yang mengandungi cerun β 1 ialah cerun sampel b 1 , dan sempadannya ialah kuantiti b 1 ±t n –2 Sb 1

Seperti yang ditunjukkan dalam rajah. lapan belas, b 1 = +1,670, n = 14, Sb 1 = 0,157. t 12 \u003d PELAJAR.OBR (0.975, 12) \u003d 2.1788. Akibatnya, b 1 ±t n –2 Sb 1 = +1.670 ± 2.1788 * 0.157 = +1.670 ± 0.342, atau + 1.328 ≤ β 1 ≤ +2.012. Oleh itu, kecerunan populasi dengan kebarangkalian 0.95 terletak dalam julat dari +1.328 hingga +2.012 (iaitu, daripada $1,328,000 hingga $2,012,000). Oleh kerana nilai ini lebih besar daripada sifar, terdapat hubungan linear yang signifikan secara statistik antara jualan tahunan dan kawasan kedai. Jika selang keyakinan mengandungi sifar, tidak akan ada hubungan antara pembolehubah. Di samping itu, selang keyakinan bermakna setiap 1,000 persegi. kaki menghasilkan peningkatan dalam jualan purata $1,328,000 kepada $2,012,000.

Penggunaant -kriteria untuk pekali korelasi. pekali korelasi diperkenalkan r, yang merupakan ukuran hubungan antara dua pembolehubah berangka. Ia boleh digunakan untuk menentukan sama ada terdapat hubungan yang signifikan secara statistik antara dua pembolehubah. Mari kita nyatakan pekali korelasi antara populasi kedua-dua pembolehubah dengan simbol ρ. Hipotesis nol dan alternatif dirumuskan seperti berikut: H 0: ρ = 0 (tiada korelasi), H 1: ρ ≠ 0 (ada korelasi). Menyemak kewujudan korelasi:

di mana r = + , jika b 1 > 0, r = – , jika b 1 < 0. Тестовая статистика t Ia ada t- pengedaran dengan n - 2 darjah kebebasan.

Dalam masalah rangkaian kedai Bunga Matahari r2= 0.904, dan b 1- +1.670 (lihat Rajah 4). Kerana ia b 1> 0, pekali korelasi antara jualan tahunan dan saiz kedai ialah r= +√0.904 = +0.951. Mari kita uji hipotesis nol bahawa tiada korelasi antara pembolehubah ini menggunakan t- statistik:

Pada aras keertian α = 0.05, hipotesis nol harus ditolak kerana t= 10.64 > 2.1788. Oleh itu, boleh dikatakan bahawa terdapat hubungan yang signifikan secara statistik antara jualan tahunan dan saiz kedai.

Apabila membincangkan inferens tentang cerun populasi, selang keyakinan dan kriteria untuk menguji hipotesis ialah alat yang boleh ditukar ganti. Walau bagaimanapun, pengiraan selang keyakinan yang mengandungi pekali korelasi ternyata lebih sukar, kerana bentuk taburan persampelan statistik r bergantung kepada pekali korelasi sebenar.

Anggaran dan Ramalan Jangkaan nilai individu

Bahagian ini membincangkan kaedah untuk menganggar tindak balas yang dijangkakan Y dan ramalan nilai individu Y untuk nilai pembolehubah yang diberikan X.

Pembinaan selang keyakinan. Dalam contoh 2 (lihat bahagian di atas Kaedah kuasa dua terkecil) persamaan regresi memungkinkan untuk meramalkan nilai pembolehubah Y X. Dalam masalah memilih lokasi untuk kedai runcit, purata jualan tahunan di kedai dengan keluasan 4000 sq. kaki adalah sama dengan 7.644 juta dolar. Walau bagaimanapun, anggaran jangkaan matematik penduduk umum ini adalah satu titik. untuk menganggar jangkaan matematik populasi umum, konsep selang keyakinan telah dicadangkan. Begitu juga, seseorang boleh memperkenalkan konsep selang keyakinan untuk jangkaan matematik bagi tindak balas di tetapkan nilai pembolehubah X:

di mana , = b 0 + b 1 X i– pembolehubah nilai ramalan Y di X = X i, S YX ialah min ralat kuasa dua, n ialah saiz sampel, Xi- nilai pembolehubah yang diberi X, µ Y|X = Xi– jangkaan matematik pembolehubah Y di X = Х i,SSX=

Analisis formula (13) menunjukkan bahawa lebar selang keyakinan bergantung kepada beberapa faktor. Pada tahap kepentingan tertentu, peningkatan dalam amplitud turun naik di sekitar garis regresi, diukur menggunakan ralat min kuasa dua, membawa kepada peningkatan lebar selang. Sebaliknya, seperti yang dijangkakan, peningkatan dalam saiz sampel disertai dengan penyempitan selang. Di samping itu, lebar selang berubah bergantung pada nilai Xi. Jika nilai pembolehubah Y diramalkan untuk kuantiti X, hampir dengan nilai purata , selang keyakinan ternyata lebih sempit berbanding semasa meramalkan tindak balas untuk nilai jauh daripada min.

Katakan apabila memilih lokasi untuk kedai, kami ingin membina selang keyakinan 95% untuk purata jualan tahunan di semua kedai dengan keluasan 4000 meter persegi. kaki:

Oleh itu, purata volum jualan tahunan di semua kedai dengan keluasan 4,000 meter persegi. kaki, dengan kebarangkalian 95% terletak dalam julat dari 6.971 hingga 8.317 juta dolar.

Kira selang keyakinan untuk nilai yang diramalkan. Sebagai tambahan kepada selang keyakinan untuk jangkaan matematik tindak balas untuk nilai tertentu pembolehubah X, selalunya perlu mengetahui selang keyakinan untuk nilai yang diramalkan. Walaupun formula untuk mengira selang keyakinan sedemikian hampir sama dengan formula (13), selang ini mengandungi nilai ramalan dan bukan anggaran parameter. Selang untuk tindak balas yang diramalkan YX = Xi untuk nilai tertentu pembolehubah Xi ditentukan oleh formula:

Katakan apabila memilih lokasi untuk kedai runcit, kami ingin membina selang keyakinan 95% untuk jumlah jualan tahunan yang diramalkan di kedai dengan keluasan 4000 meter persegi. kaki:

Oleh itu, ramalan volum jualan tahunan untuk 4,000 kaki persegi. kaki, dengan kebarangkalian 95% terletak dalam julat dari 5.433 hingga 9.854 juta dolar. Seperti yang anda lihat, selang keyakinan untuk nilai tindak balas yang diramalkan adalah jauh lebih luas daripada selang keyakinan untuk jangkaan matematiknya. Ini kerana kebolehubahan dalam meramalkan nilai individu adalah lebih besar daripada menganggarkan nilai yang dijangkakan.

Perangkap dan isu etika yang berkaitan dengan penggunaan regresi

Kesukaran yang berkaitan dengan analisis regresi:

  • Mengabaikan syarat kebolehgunaan kaedah kuasa dua terkecil.
  • Anggaran yang salah tentang syarat-syarat kebolehgunaan kaedah kuasa dua terkecil.
  • Pilihan kaedah alternatif yang salah yang melanggar syarat kebolehgunaan kaedah kuasa dua terkecil.
  • Aplikasi analisis regresi tanpa pengetahuan mendalam tentang subjek kajian.
  • Ekstrapolasi regresi di luar julat pembolehubah penjelasan.
  • Kekeliruan antara hubungan statistik dan sebab.

Penyebaran hamparan dan perisian untuk pengiraan statistik menghapuskan masalah pengiraan yang menghalang penggunaan analisis regresi. Walau bagaimanapun, ini membawa kepada fakta bahawa analisis regresi mula digunakan oleh pengguna yang tidak mempunyai kelayakan dan pengetahuan yang mencukupi. Bagaimanakah pengguna tahu tentang kaedah alternatif jika ramai daripada mereka tidak tahu sama sekali tentang syarat-syarat penggunaan kaedah kuasa dua terkecil dan tidak tahu cara menyemak pelaksanaannya?

Pengkaji tidak boleh terbawa-bawa dengan mengisar nombor - mengira anjakan, cerun dan pekali korelasi bercampur. Dia perlukan ilmu yang lebih mendalam. Mari kita gambarkan ini contoh klasik diambil daripada buku teks. Anscombe menunjukkan bahawa keempat-empat set data ditunjukkan dalam Rajah. 23 mempunyai parameter regresi yang sama (Rajah 24).

nasi. 23. Empat set data buatan

nasi. 24. Analisis regresi empat set data buatan; selesai dengan Pakej analisis(klik pada gambar untuk besarkan gambar)

Jadi, dari sudut pandangan analisis regresi, semua set data ini adalah sama sepenuhnya. Jika analisis telah tamat mengenai perkara ini, kita akan kehilangan banyak informasi berguna. Ini dibuktikan oleh plot serakan (Rajah 25) dan plot baki (Rajah 26) yang dibina untuk set data ini.

nasi. 25. Plot taburan untuk empat set data

Plot serakan dan plot baki menunjukkan bahawa data ini berbeza antara satu sama lain. Satu-satunya set yang diedarkan sepanjang garis lurus ialah set A. Plot bagi baki yang dikira daripada set A tidak mempunyai corak. Perkara yang sama tidak boleh dikatakan untuk set B, C dan D. Plot serakan yang diplot untuk set B menunjukkan corak kuadratik yang jelas. Kesimpulan ini disahkan oleh plot sisa, yang mempunyai bentuk parabola. Plot serakan dan plot baki menunjukkan bahawa set data B mengandungi outlier. Dalam keadaan ini, adalah perlu untuk mengecualikan outlier daripada set data dan mengulangi analisis. Teknik untuk mengesan dan menghapuskan outlier daripada pemerhatian dipanggil analisis pengaruh. Selepas menghapuskan outlier, hasil penilaian semula model mungkin berbeza sama sekali. Petak serakan yang dibina menggunakan data daripada set D menggambarkan keadaan luar biasa, di mana model empirikal bergantung dengan ketara pada tindak balas individu ( X 8 = 19, Y 8 = 12.5). Model regresi sedemikian perlu dikira terutamanya dengan teliti. Jadi, plot taburan dan baki adalah alat penting untuk analisis regresi dan harus menjadi sebahagian daripadanya. Tanpa mereka, analisis regresi tidak boleh dipercayai.

nasi. 26. Plot baki untuk empat set data

Bagaimana untuk mengelakkan perangkap dalam analisis regresi:

  • Analisis kemungkinan hubungan antara pembolehubah X dan Y sentiasa bermula dengan scatterplot.
  • Sebelum mentafsir keputusan analisis regresi, semak syarat untuk kebolehgunaannya.
  • Plotkan baki berbanding pembolehubah bebas. Ini akan membolehkan untuk menentukan bagaimana model empirikal sepadan dengan hasil pemerhatian, dan untuk mengesan pelanggaran kestabilan varians.
  • Gunakan histogram, plot batang dan daun, plot kotak, dan plot taburan normal untuk menguji andaian taburan ralat normal.
  • Jika syarat kebolehgunaan kaedah kuasa dua terkecil tidak dipenuhi, gunakan kaedah alternatif (contohnya, model regresi kuadratik atau berbilang).
  • Jika syarat kebolehgunaan kaedah kuasa dua terkecil dipenuhi, adalah perlu untuk menguji hipotesis tentang kepentingan statistik bagi pekali regresi dan membina selang keyakinan yang mengandungi jangkaan matematik dan nilai tindak balas yang diramalkan.
  • Elakkan meramalkan nilai pembolehubah bersandar di luar julat pembolehubah tidak bersandar.
  • Perlu diingat bahawa kebergantungan statistik tidak selalu bersebab. Ingat bahawa korelasi antara pembolehubah tidak bermakna terdapat hubungan sebab akibat di antara mereka.

Ringkasan. Seperti yang ditunjukkan dalam rajah blok (Gamb. 27), nota itu menerangkan model regresi linear mudah, syarat untuk kebolehgunaannya dan cara untuk menguji keadaan ini. Dipertimbangkan t-kriteria untuk menguji kepentingan statistik cerun regresi. Untuk meramalkan nilai pembolehubah bersandar, kami menggunakan model regresi. Satu contoh dianggap berkaitan dengan pilihan tempat untuk kedai runcit, di mana pergantungan volum jualan tahunan pada kawasan kedai dikaji. Maklumat yang diperoleh membolehkan anda memilih lokasi untuk kedai dengan lebih tepat dan meramalkan jualan tahunannya. Dalam nota berikut, perbincangan analisis regresi akan diteruskan, serta model regresi berbilang.

nasi. 27. Gambar rajah blok nota

Bahan daripada buku Levin et al. Perangkaan untuk pengurus digunakan. - M.: Williams, 2004. - hlm. 792–872

Jika pembolehubah bersandar adalah kategori, regresi logistik harus digunakan.

Tujuan regresi berganda adalah untuk menganalisis hubungan antara satu pembolehubah bersandar dan beberapa pembolehubah tidak bersandar.

Contoh: Terdapat data mengenai kos satu tempat duduk (apabila membeli 50 tempat duduk) untuk pelbagai sistem PDM. Diperlukan: untuk menilai hubungan antara harga tempat kerja sistem PDM dan bilangan ciri yang dilaksanakan di dalamnya, ditunjukkan dalam Jadual 2.

Jadual 2 - Ciri-ciri sistem PDM

Nombor item sistem PDM harga Pengurusan konfigurasi produk Model Produk Kerja berpasukan Pengurusan perubahan produk Aliran dokumen Arkib Carian dokumen Perancangan projek Pengurusan Pembuatan Produk
iMAN ya ya
PartyY Plus ya ya
Suite LANGKAH PDM ya ya
Cari ya ya
Sejuk angin ya ya
Pengurus Kompas ya ya
T-Flex Docs ya ya
TechnoPro Tidak Tidak

Nilai berangka bagi ciri (kecuali "Kos", "Model produk" dan "Kerja Berpasukan") bermaksud bilangan keperluan yang dilaksanakan bagi setiap ciri.

Mari buat dan isi hamparan dengan data awal (Rajah 27).

Nilai "1" pembolehubah "Mod. ed." dan "Kumpul. r-ta.” sepadan dengan nilai "Ya" data sumber dan nilai "0" kepada nilai "Tidak" data sumber.

Mari kita bina regresi antara pembolehubah bersandar "Kos" dan pembolehubah bebas "Cth. conf., Mod. ed., Kumpul. r-ta", "Cth. rev.", "Doc.", "Arkib", "Cari", "Plan-e", "Ex. dibuat.

Untuk memulakan analisis statistik data awal, panggil modul "Multiple Regression" (Rajah 22).

Dalam kotak dialog yang muncul (Rajah 23), nyatakan pembolehubah yang mana analisis statistik akan dilakukan.

Rajah 27 - Data awal

Untuk melakukan ini, tekan butang Pembolehubah dan dalam kotak dialog yang muncul (Rajah 28) dalam bahagian yang sepadan dengan pembolehubah bersandar (var. Bergantung) pilih "1-Kos", dan dalam bahagian yang sepadan dengan pembolehubah bebas (Senarai pembolehubah bebas ) pilih semua pembolehubah lain. Pemilihan beberapa pembolehubah daripada senarai dijalankan menggunakan kekunci "Ctrl" atau "Shift", atau dengan menentukan nombor (julat nombor) pembolehubah dalam medan yang sepadan.



Rajah 28 - Kotak dialog untuk menetapkan pembolehubah untuk analisis statistik

Selepas pembolehubah dipilih, klik butang "OK" dalam kotak dialog untuk menetapkan parameter modul "Regression Berbilang". Dalam tetingkap yang muncul dengan tulisan "No of indep. vars. >=(N-1); tidak boleh terbalikkan corr. matriks." (Rajah 29) tekan butang "OK".

Mesej ini muncul apabila sistem tidak dapat membina regresi untuk semua pembolehubah bebas yang diisytiharkan, kerana bilangan pembolehubah adalah lebih besar daripada atau sama dengan bilangan kejadian tolak 1.

Dalam tetingkap yang muncul (Rajah 30), pada tab "Lanjutan", anda boleh menukar kaedah untuk membina persamaan regresi.

Rajah 29 - Mesej ralat

Untuk melakukan ini, dalam medan "Kaedah" (kaedah), pilih "Majukan langkah demi langkah" (langkah demi langkah dengan kemasukan).

Rajah 30 - Tetingkap untuk memilih kaedah dan menetapkan parameter untuk membina persamaan regresi

Kaedah regresi berperingkat terdiri daripada fakta bahawa pada setiap langkah beberapa pembolehubah bebas dimasukkan atau dikecualikan dalam model. Oleh itu, satu set pembolehubah yang paling "signifikan" dikhususkan. Ini mengurangkan bilangan pembolehubah yang menerangkan pergantungan.

Analisis langkah demi langkah dengan pengecualian ("Beri langkah ke belakang"). Dalam kes ini, semua pembolehubah akan dimasukkan ke dalam model dahulu, dan kemudian pada setiap langkah, pembolehubah yang menyumbang sedikit kepada ramalan akan dihapuskan. Kemudian, hasil daripada analisis yang berjaya, hanya pembolehubah "penting" dalam model boleh disimpan, iaitu pembolehubah yang sumbangannya kepada diskriminasi lebih besar daripada yang lain.

Analisis langkah demi langkah dengan kemasukan ("Maju secara berperingkat"). Apabila menggunakan kaedah ini, pembolehubah bebas dimasukkan secara berurutan dalam persamaan regresi sehingga persamaan menerangkan data asal dengan memuaskan. Kemasukan pembolehubah ditentukan menggunakan kriteria F. Pada setiap langkah, semua pembolehubah dilihat dan pembolehubah yang memberikan sumbangan terbesar kepada perbezaan antara set ditemui. Pembolehubah ini mesti disertakan dalam model untuk langkah ini, dan teruskan ke langkah seterusnya.

Dalam medan "Memintas" (istilah regresi percuma), anda boleh memilih sama ada untuk memasukkannya ke dalam persamaan ("Sertakan dalam model") atau mengabaikannya dan menganggapnya sama dengan sifar ("Tetapkan kepada sifar").

Parameter "Toleransi" ialah toleransi pembolehubah. Ditakrifkan sebagai 1 tolak kuasa dua pekali pelbagai korelasi pembolehubah ini dengan semua pembolehubah bebas lain dalam persamaan regresi. Oleh itu, lebih kecil toleransi pembolehubah, lebih berlebihan sumbangannya kepada persamaan regresi. Jika toleransi mana-mana pembolehubah dalam persamaan regresi adalah sama atau hampir dengan sifar, maka persamaan regresi tidak boleh dinilai. Oleh itu, adalah wajar untuk menetapkan parameter toleransi kepada 0.05 atau 0.1.

Parameter "Regression rabung; lambda:" digunakan apabila pembolehubah bebas sangat saling berkorelasi dan anggaran teguh untuk pekali persamaan regresi tidak boleh diperoleh melalui kuasa dua terkecil. Pemalar yang ditentukan (lambda) akan ditambah pada pepenjuru matriks korelasi, yang kemudiannya akan dinormalisasi semula (supaya semua unsur pepenjuru adalah sama dengan 1.0). Dalam erti kata lain, parameter ini secara buatan mengurangkan pekali korelasi supaya anggaran parameter regresi yang lebih teguh (namun berat sebelah) boleh dikira. Dalam kes kami, parameter ini tidak digunakan.

Pilihan "Pemprosesan/pencetakan kelompok" digunakan apabila perlu menyediakan beberapa jadual untuk laporan dengan segera, mencerminkan keputusan dan proses analisis regresi. Pilihan ini sangat berguna apabila anda ingin mencetak atau menganalisis keputusan analisis regresi berperingkat pada setiap langkah.

Pada tab "Stepwise" (Rajah 31), anda boleh menetapkan parameter syarat kemasukan (“F untuk masuk”) atau pengecualian (“F untuk dialih keluar”) untuk pembolehubah semasa membina persamaan regresi, serta bilangan langkah untuk membina persamaan (“Bilangan langkah”).

Rajah 31 - Tab "Stepwise" tetingkap untuk memilih kaedah dan menetapkan parameter untuk membina persamaan regresi

F ialah nilai bagi kriteria F.

Jika semasa analisis langkah demi langkah dengan kemasukan adalah perlu bahawa semua atau hampir semua pembolehubah dimasukkan ke dalam persamaan regresi, maka adalah perlu untuk menetapkan nilai "F untuk memasukkan" kepada minimum (0.0001), dan menetapkan "F untuk membuang" nilai minimum juga.

Jika, semasa analisis langkah demi langkah dengan pengecualian, adalah perlu untuk mengalih keluar semua pembolehubah (satu demi satu) daripada persamaan regresi, maka perlu untuk menetapkan nilai "F untuk masuk" sangat besar, contohnya 999, dan tetapkan nilai "F untuk dialih keluar" dekat dengan "F untuk masuk".

Perlu diingat bahawa nilai parameter "F untuk dialih keluar" mestilah sentiasa kurang daripada "F untuk masuk".

Pilihan "Hasil paparan" mempunyai dua pilihan:

2) Pada setiap langkah - paparkan hasil analisis pada setiap langkah.

Selepas mengklik butang "OK" dalam tetingkap untuk memilih kaedah analisis regresi, tetingkap keputusan analisis akan muncul (Rajah 32).

Rajah 32 - Tetingkap keputusan analisis

Rajah 33 - Ringkasan keputusan analisis regresi

Mengikut keputusan analisis, pekali penentuan . Ini bermakna regresi yang dibina menerangkan 99.987% sebaran nilai berbanding min, i.e. menerangkan hampir semua kebolehubahan pembolehubah.

sangat penting dan tahap keertiannya menunjukkan regresi yang dibina adalah sangat signifikan.

Untuk melihat keputusan regresi ringkasan, klik butang "Ringkasan: Hasil regresi". Skrin akan dipaparkan hamparan dengan hasil analisis (Rajah 33).

Lajur ketiga ("B") memaparkan anggaran parameter model yang tidak diketahui, i.e. pekali persamaan regresi.

Oleh itu, regresi yang diperlukan kelihatan seperti:

Persamaan regresi yang dibina secara kualitatif boleh ditafsirkan seperti berikut:

1) Kos sistem PDM meningkat dengan peningkatan dalam bilangan fungsi yang dilaksanakan untuk pengurusan perubahan, aliran kerja dan perancangan, dan juga jika fungsi sokongan model produk dimasukkan ke dalam sistem;

2) Kos sistem PDM berkurangan dengan peningkatan dalam fungsi pengurusan konfigurasi yang dilaksanakan dan dengan peningkatan dalam keupayaan carian.

Tugas regresi linear berganda adalah untuk membina model linear hubungan antara set peramal berterusan dan pembolehubah bersandar berterusan. Persamaan regresi berikut sering digunakan:

Di sini a i- pekali regresi, b 0- ahli percuma (jika digunakan), e- ahli yang mengandungi ralat - pelbagai andaian dibuat mengenainya, yang, bagaimanapun, lebih kerap dikurangkan kepada kenormalan taburan dengan tikar vektor sifar. jangkaan dan matriks korelasi .

begitu model linear banyak tugas diterangkan dengan baik dalam pelbagai bidang mata pelajaran cth ekonomi, industri, perubatan. Ini kerana sesetengah tugasan bersifat linear.

Mari kita ambil contoh mudah. Biarkan ia dikehendaki untuk meramalkan kos pemasangan jalan mengikut parameter yang diketahui. Pada masa yang sama, kami mempunyai data mengenai jalan yang telah disediakan, menunjukkan panjang, kedalaman percikan, jumlah bahan kerja, bilangan pekerja, dan sebagainya.

Jelas bahawa kos jalan raya akhirnya akan menjadi sama dengan jumlah nilai semua faktor ini secara berasingan. Ia akan mengambil jumlah tertentu, contohnya, batu hancur, dengan kos yang diketahui setiap tan, jumlah asfalt tertentu, juga dengan kos yang diketahui.

Ada kemungkinan bahawa perhutanan perlu ditebang untuk meletakkan, yang juga akan membawa kepada kos tambahan. Semua ini bersama-sama akan memberikan kos untuk mencipta jalan.

Dalam kes ini, model akan termasuk ahli percuma, yang, sebagai contoh, akan bertanggungjawab untuk kos organisasi (yang hampir sama untuk semua kerja pembinaan dan pemasangan tahap yang diberikan) atau cukai.

Ralat itu akan merangkumi faktor yang kami tidak ambil kira semasa membina model (contohnya, cuaca semasa pembinaan - ia tidak boleh diambil kira sama sekali).

Contoh: Analisis Regresi Berganda

Untuk contoh ini, beberapa kemungkinan korelasi kadar kemiskinan dan kuasa yang meramalkan peratusan keluarga di bawah garis kemiskinan akan dianalisis. Oleh itu, kami akan mempertimbangkan pembolehubah yang mencirikan peratusan keluarga di bawah garis kemiskinan sebagai pembolehubah bersandar, dan pembolehubah selebihnya sebagai peramal berterusan.

Pekali regresi

Untuk mengetahui pemboleh ubah penjelasan yang mana lebih menyumbang kepada meramalkan kemiskinan, kami meneliti pekali piawai (atau Beta) regresi.

nasi. 1. Anggaran parameter pekali regresi.

Pekali Beta ialah pekali yang anda akan dapat jika anda melaraskan semua pembolehubah kepada min 0 dan sisihan piawai 1. Oleh itu, magnitud pekali Beta ini membolehkan anda membandingkan sumbangan relatif setiap pembolehubah bebas kepada pembolehubah bersandar . Seperti yang dapat dilihat daripada jadual yang ditunjukkan di atas, populasi berubah sejak tahun 1960 (POP_CHING), peratusan penduduk yang tinggal di kampung (PT_RURAL) dan bilangan orang yang bekerja di pertanian(N_Empld) ialah peramal yang paling penting bagi kadar kemiskinan, sebagai hanya mereka yang signifikan secara statistik (selang keyakinan 95% mereka tidak termasuk 0). Pekali regresi perubahan populasi sejak 1960 (Pop_Chng) adalah negatif, jadi semakin kecil pertumbuhan penduduk, semakin lebih ramai keluarga yang hidup di bawah paras kemiskinan di daerah masing-masing. Pekali regresi bagi penduduk (%) yang tinggal di kampung (Pt_Rural) adalah positif, iaitu semakin besar peratusan orang kampung, topik lebih tahap kemiskinan.

Kepentingan kesan peramal

Mari kita lihat Jadual dengan kriteria kepentingan.

nasi. 2. Keputusan serentak bagi setiap pembolehubah yang diberi.

Seperti yang ditunjukkan oleh jadual ini, hanya kesan 2 pembolehubah yang signifikan secara statistik: perubahan populasi sejak 1960 (Pop_Chng) dan peratusan penduduk yang tinggal di kampung (Pt_Rural), p< .05.

Analisis sisa. Selepas memasang persamaan regresi, hampir selalu diperlukan untuk menyemak nilai ramalan dan sisa. Contohnya, outlier besar boleh memesongkan keputusan dan membawa kepada kesimpulan yang salah.

Graf garisan pelepasan

Ia biasanya perlu menyemak sisa asal atau piawai untuk outlier besar.

nasi. 3. Bilangan cerapan dan baki.

Skala paksi menegak graf ini diplotkan dari segi sigma, iaitu, sisihan piawai lebihan makanan. Jika satu atau lebih pemerhatian tidak berada dalam ±3 kali sigma, maka ia mungkin berbaloi untuk mengecualikan pemerhatian tersebut (ini boleh dilakukan dengan mudah melalui syarat pemilihan untuk pemerhatian) dan menjalankan analisis sekali lagi untuk memastikan bahawa keputusan tidak diubah oleh luar ini.

Jarak Mahalanobis

Kebanyakan buku teks statistik menghabiskan banyak masa pada outlier dan residual pada pembolehubah bersandar. Walau bagaimanapun, peranan outlier dalam peramal selalunya tidak dikenalpasti. Di sebelah pembolehubah peramal, terdapat senarai pembolehubah yang mengambil bahagian dengan pemberat yang berbeza (pekali regresi) dalam meramal pembolehubah bersandar. Anda boleh menganggap pembolehubah bebas sebagai ruang berbilang dimensi di mana sebarang pemerhatian boleh ditangguhkan. Sebagai contoh, jika anda mempunyai dua pembolehubah bebas dengan peluang yang sama regresi, adalah mungkin untuk membina plot serakan kedua-dua pembolehubah ini dan meletakkan setiap pemerhatian pada plot ini. Kemudian seseorang boleh menandakan nilai purata pada graf ini dan mengira jarak dari setiap cerapan ke purata ini (yang dipanggil pusat graviti) dalam ruang dua dimensi. Ini adalah idea utama di sebalik pengiraan jarak Mahalanobis. Sekarang lihat histogram pembolehubah perubahan populasi sejak 1960.

nasi. 4. Histogram taburan jarak Mahalanobis.

Ia berikutan daripada graf bahawa terdapat satu outlier pada jarak Mahalanobis.

nasi. 5. Nilai yang diperhatikan, diramal dan baki.

Perhatikan bagaimana Shelby County (di baris pertama) menonjol daripada seluruh daerah. Jika anda melihat data asal, anda akan mendapati bahawa sebenarnya Shelby County mempunyai yang paling banyak nombor besar orang yang bekerja dalam bidang pertanian (pembolehubah N_Empld). Mungkin lebih bijak untuk menyatakannya sebagai peratusan daripada nombor mutlak, dalam hal ini jarak Mahalanobis Shelby County mungkin tidak begitu besar berbanding dengan daerah lain. Jelas sekali, Shelby County adalah luar biasa.

Sisa-sisa yang dikeluarkan

Satu lagi statistik yang sangat penting yang membolehkan seseorang untuk mengukur keterukan masalah terpencil ialah sisa yang dikeluarkan. Ini ialah baki piawai untuk kes masing-masing, yang diperoleh dengan mengalih keluar kes tersebut daripada analisis. Ingat bahawa prosedur regresi berganda melaraskan permukaan regresi untuk menunjukkan hubungan antara pembolehubah bersandar dan peramal. Jika satu pemerhatian adalah outlier (seperti Shelby County), maka terdapat kecenderungan untuk "menarik" permukaan regresi ke arah outlier itu. Akibatnya, jika pemerhatian yang sepadan dialihkan, permukaan lain (dan pekali Beta) akan diperolehi. Oleh itu, jika sisa yang dikeluarkan adalah sangat berbeza daripada sisa piawai, maka anda akan mempunyai sebab untuk menganggapnya analisis regresi sangat diputarbelitkan oleh pemerhatian yang berkaitan. Dalam contoh ini, sisa yang dialih keluar untuk Shelby County menunjukkan bahawa ini adalah outlier yang sangat memesongkan analisis. Petak serakan jelas menunjukkan yang terpencil.

nasi. 6. Pembolehubah Sisa Awal dan Sisa Terlantar menunjukkan peratusan keluarga yang hidup di bawah garis kemiskinan.

Kebanyakannya mempunyai tafsiran yang lebih atau kurang jelas, walau bagaimanapun, mari kita beralih kepada graf kebarangkalian biasa.

Seperti yang telah disebutkan, regresi berganda mengandaikan bahawa terdapat hubungan linear antara pembolehubah dalam persamaan dan taburan normal baki. Sekiranya andaian ini dilanggar, maka kesimpulannya mungkin tidak tepat. Plot kebarangkalian biasa sisa akan memberitahu anda jika terdapat pelanggaran serius terhadap andaian ini atau tidak.

nasi. 7. Graf kebarangkalian normal; sisa asli.

Carta ini dibina dengan cara berikut. Pertama, sisa piawai disusun mengikut urutan. Daripada kedudukan ini, anda boleh mengira nilai-z (iaitu, nilai standard taburan normal) berdasarkan andaian bahawa data mengikut taburan normal. Nilai z ini diplot sepanjang paksi-y pada graf.

Jika sisa yang diperhatikan (diplot sepanjang paksi-x) diedarkan secara normal, maka semua nilai akan terletak pada garis lurus pada graf. Pada graf kami, semua titik adalah sangat dekat berbanding dengan lengkung. Jika sisa tidak diedarkan secara normal, maka ia menyimpang dari garisan ini. Outlier juga menjadi ketara dalam graf ini.

Jika terdapat kehilangan persetujuan dan data kelihatan membentuk lengkung yang jelas (cth., dalam bentuk S) tentang garis, maka pembolehubah bersandar boleh diubah dalam beberapa cara (cth., penjelmaan logaritma untuk "mengurangkan" ekor pengedaran, dll.). Perbincangan tentang kaedah ini adalah di luar skop contoh ini (Neter, Wasserman, dan Kutner, 1985, ms. 134-141, perbincangan tentang transformasi yang menghilangkan ketidaknormalan dan ketidaklinearan data dibentangkan). Walau bagaimanapun, penyelidik selalunya hanya menjalankan analisis secara langsung tanpa menguji andaian yang berkaitan, yang membawa kepada kesimpulan yang salah.