Biografi Ciri-ciri Analisis

Kaedah analisis regresi. Analisis regresi - kaedah statistik untuk mengkaji pergantungan pembolehubah rawak pada pembolehubah

Dengan adanya korelasi antara faktor dan tanda yang terhasil, doktor selalunya perlu menentukan dengan berapa banyak nilai satu tanda boleh berubah apabila yang lain diubah oleh unit ukuran yang diterima umum atau ditetapkan oleh penyelidik sendiri.

Sebagai contoh, bagaimanakah berat badan murid-murid sekolah darjah 1 (perempuan atau lelaki) akan berubah jika ketinggian mereka meningkat sebanyak 1 cm.Untuk tujuan ini, kaedah analisis regresi digunakan.

Selalunya, kaedah analisis regresi digunakan untuk membangunkan skala dan piawaian normatif untuk pembangunan fizikal.

  1. Definisi regresi. Regresi ialah fungsi yang membolehkan, berdasarkan nilai purata satu atribut, untuk menentukan nilai purata atribut lain yang berkorelasi dengan yang pertama.

    Untuk tujuan ini, pekali regresi dan beberapa parameter lain digunakan. Sebagai contoh, anda boleh mengira bilangan selsema secara purata pada nilai tertentu purata suhu udara bulanan dalam tempoh musim luruh-musim sejuk.

  2. Definisi pekali regresi. Pekali regresi ialah nilai mutlak yang mana nilai satu atribut berubah secara purata apabila atribut lain yang dikaitkan dengannya berubah mengikut unit ukuran yang ditetapkan.
  3. Formula pekali regresi. R y / x \u003d r xy x (σ y / σ x)
    di mana R y / x - pekali regresi;
    r xy - pekali korelasi antara ciri x dan y;
    (σ y dan σ x) - sisihan piawai bagi ciri x dan y.

    Dalam contoh kami;
    σ x = 4.6 (sisihan piawai suhu udara dalam tempoh musim luruh-musim sejuk;
    σ y = 8.65 (sisihan piawai bilangan selsema berjangkit).
    Oleh itu, R y/x ialah pekali regresi.
    R y / x \u003d -0.96 x (4.6 / 8.65) \u003d 1.8, i.e. dengan penurunan purata suhu udara bulanan (x) sebanyak 1 darjah, purata bilangan selesema berjangkit (y) dalam tempoh musim luruh-musim sejuk akan berubah sebanyak 1.8 kes.

  4. Persamaan Regresi. y \u003d M y + R y / x (x - M x)
    dengan y ialah nilai purata atribut, yang harus ditentukan apabila nilai purata atribut lain (x) berubah;
    x - nilai purata diketahui ciri lain;
    R y/x - pekali regresi;
    M x, M y - nilai purata ciri x dan y yang diketahui.

    Sebagai contoh, purata bilangan selesema berjangkit (y) boleh ditentukan tanpa pengukuran khas pada sebarang nilai purata suhu udara bulanan purata (x). Jadi, jika x \u003d - 9 °, R y / x \u003d 1.8 penyakit, M x \u003d -7 °, M y \u003d 20 penyakit, maka y \u003d 20 + 1.8 x (9-7) \u003d 20 + 3 .6 = 23.6 penyakit.
    Persamaan ini digunakan dalam kes hubungan garis lurus antara dua ciri (x dan y).

  5. Tujuan persamaan regresi. Persamaan regresi digunakan untuk memplot garis regresi. Yang terakhir membenarkan, tanpa ukuran khas, untuk menentukan sebarang nilai purata (y) bagi satu atribut, jika nilai (x) atribut lain berubah. Berdasarkan data ini, graf dibina - garis regresi, yang boleh digunakan untuk menentukan purata bilangan selsema pada sebarang nilai purata suhu bulanan dalam julat antara nilai pengiraan bilangan selsema.
  6. Sigma regresi (formula).
    di mana σ Ru/x - sigma (sisihan piawai) regresi;
    σ y ialah sisihan piawai bagi ciri y;
    r xy - pekali korelasi antara ciri x dan y.

    Jadi, jika σ y ialah sisihan piawai bilangan selsema = 8.65; r xy - pekali korelasi antara bilangan selsema (y) dan purata suhu udara bulanan dalam tempoh musim luruh-musim sejuk (x) ialah - 0.96, maka

  7. Tujuan regresi sigma. Memberi ciri ukuran kepelbagaian ciri yang terhasil (y).

    Sebagai contoh, ia mencirikan kepelbagaian bilangan selsema pada nilai tertentu purata suhu udara bulanan dalam tempoh musim luruh-musim sejuk. Jadi, purata bilangan selsema pada suhu udara x 1 \u003d -6 ° boleh berkisar antara 15.78 penyakit hingga 20.62 penyakit.
    Pada x 2 = -9°, purata bilangan selsema boleh berkisar antara 21.18 penyakit hingga 26.02 penyakit, dsb.

    Sigma regresi digunakan dalam pembinaan skala regresi, yang mencerminkan sisihan nilai atribut berkesan daripada nilai purata yang diplot pada garis regresi.

  8. Data yang diperlukan untuk mengira dan memplot skala regresi
    • pekali regresi - Ry/x;
    • persamaan regresi - y \u003d M y + R y / x (x-M x);
    • sigma regresi - σ Rx/y
  9. Urutan pengiraan dan perwakilan grafik skala regresi.
    • tentukan pekali regresi dengan formula (lihat perenggan 3). Sebagai contoh, seseorang harus menentukan berapa banyak berat badan akan berubah secara purata (pada umur tertentu bergantung kepada jantina) jika purata ketinggian berubah sebanyak 1 cm.
    • mengikut formula persamaan regresi (lihat perenggan 4), tentukan apa yang akan menjadi purata, sebagai contoh, berat badan (y, y 2, y 3 ...) * untuk nilai pertumbuhan tertentu (x, x 2, x 3 ...).
      ________________
      * Nilai "y" hendaklah dikira untuk sekurang-kurangnya tiga nilai "x" yang diketahui.

      Pada masa yang sama, nilai purata berat badan dan ketinggian (M x, dan M y) untuk umur dan jantina tertentu diketahui

    • hitung sigma regresi, mengetahui nilai sepadan σ y dan r xy dan menggantikan nilainya ke dalam formula (lihat perenggan 6).
    • berdasarkan nilai yang diketahui x 1, x 2, x 3 dan nilai purata sepadannya y 1, y 2 y 3, serta yang terkecil (y - σ ru / x) dan terbesar (y + σ ru / x) nilai \u200b\u200b(y) membina skala regresi.

      Untuk perwakilan grafik skala regresi, nilai x, x 2 , x 3 (paksi-y) mula-mula ditanda pada graf, i.e. garis regresi dibina, sebagai contoh, pergantungan berat badan (y) pada ketinggian (x).

      Kemudian, pada titik yang sepadan y 1 , y 2 , y 3 nilai berangka sigma regresi ditandakan, i.e. pada graf cari nilai terkecil dan terbesar bagi y 1 , y 2 , y 3 .

  10. Penggunaan praktikal skala regresi. Skala dan piawaian normatif sedang dibangunkan, khususnya untuk pembangunan fizikal. Mengikut skala standard, adalah mungkin untuk memberikan penilaian individu terhadap perkembangan kanak-kanak. Pada masa yang sama, perkembangan fizikal dinilai sebagai harmoni jika, sebagai contoh, pada ketinggian tertentu, berat badan kanak-kanak berada dalam satu sigma regresi kepada purata unit berat badan yang dikira - (y) untuk ketinggian tertentu (x) ( y ± 1 σ Ry / x).

    Perkembangan fizikal dianggap tidak harmoni dari segi berat badan jika berat badan kanak-kanak untuk ketinggian tertentu berada dalam sigma regresi kedua: (y ± 2 σ Ry/x)

    Perkembangan fizikal akan menjadi tidak harmoni dengan ketara kedua-duanya disebabkan oleh berat badan berlebihan dan tidak mencukupi jika berat badan untuk ketinggian tertentu berada dalam sigma ketiga regresi (y ± 3 σ Ry/x).

Menurut hasil kajian statistik perkembangan fizikal kanak-kanak lelaki berumur 5 tahun, diketahui bahawa purata ketinggian (x) mereka ialah 109 cm, dan purata berat badan mereka (y) ialah 19 kg. Pekali korelasi antara ketinggian dan berat badan ialah +0.9, sisihan piawai dibentangkan dalam jadual.

Diperlukan:

  • hitung pekali regresi;
  • menggunakan persamaan regresi, tentukan jangkaan berat badan kanak-kanak lelaki berumur 5 tahun dengan ketinggian bersamaan dengan x1 = 100 cm, x2 = 110 cm, x3 = 120 cm;
  • mengira sigma regresi, membina skala regresi, mempersembahkan keputusan penyelesaiannya secara grafik;
  • membuat kesimpulan yang sesuai.

Keadaan masalah dan keputusan penyelesaiannya dibentangkan dalam jadual ringkasan.

Jadual 1

Keadaan masalah Hasil penyelesaian masalah
persamaan regresi regresi sigma skala regresi (berat badan yang dijangkakan (dalam kg))
M σ r xy R y/x X Pada σRx/y y - σ Rу/х y + σ Rу/х
1 2 3 4 5 6 7 8 9 10
Tinggi (x) 109 sm ± 4.4cm +0,9 0,16 100cm 17.56 kg ± 0.35 kg 17.21 kg 17.91 kg
Berat badan (y) 19 kg ± 0.8 kg 110 sm 19.16 kg 18.81 kg 19.51 kg
120 sm 20.76 kg 20.41 kg 21.11 kg

Penyelesaian.

Kesimpulan. Oleh itu, skala regresi dalam nilai yang dikira berat badan membolehkan anda menentukannya untuk sebarang nilai pertumbuhan lain atau untuk menilai perkembangan individu kanak-kanak itu. Untuk melakukan ini, pulihkan serenjang dengan garis regresi.

  1. Vlasov V.V. Epidemiologi. - M.: GEOTAR-MED, 2004. - 464 hlm.
  2. Lisitsyn Yu.P. Kesihatan awam dan penjagaan kesihatan. Buku teks untuk sekolah menengah. - M.: GEOTAR-MED, 2007. - 512 hlm.
  3. Medik V.A., Yuriev V.K. Kursus kuliah mengenai kesihatan awam dan penjagaan kesihatan: Bahagian 1. Kesihatan awam. - M.: Perubatan, 2003. - 368 p.
  4. Minyaev V.A., Vishnyakov N.I. dan lain-lain.Perubatan sosial dan organisasi penjagaan kesihatan (Panduan dalam 2 jilid). - St. Petersburg, 1998. -528 hlm.
  5. Kucherenko V.Z., Agarkov N.M. dan lain-lain Kebersihan sosial dan organisasi penjagaan kesihatan (Tutorial) - Moscow, 2000. - 432 p.
  6. S. Glantz. Statistik perubatan-biologi. Per daripada bahasa Inggeris. - M., Amalan, 1998. - 459 p.

A) Analisis grafik regresi linear mudah.

Persamaan regresi linear mudah y=a+bx. Jika terdapat korelasi antara pembolehubah rawak Y dan X, maka nilai y = ý + ,

di mana ý ialah nilai teori y yang diperoleh daripada persamaan ý = f(x),

 ialah ralat sisihan persamaan teori ý daripada data sebenar (eksperimen).

Persamaan bagi pergantungan nilai purata ý pada x, iaitu ý = f (x) dipanggil persamaan regresi. Analisis regresi terdiri daripada empat langkah:

1) menetapkan tugas dan mewujudkan sebab sambungan.

2) had objek penyelidikan, pengumpulan maklumat statistik.

3) pemilihan persamaan pautan berdasarkan analisis dan sifat data yang dikumpul.

4) pengiraan nilai berangka, ciri-ciri korelasi.

Jika dua pembolehubah dikaitkan sedemikian rupa sehingga perubahan dalam satu pembolehubah sepadan dengan perubahan sistematik dalam pembolehubah yang lain, maka analisis regresi digunakan untuk menganggar dan memilih persamaan hubungan antara mereka jika pembolehubah ini diketahui. Tidak seperti analisis regresi, analisis korelasi digunakan untuk menganalisis ketepatan hubungan antara X dan Y.

Pertimbangkan untuk mencari garis lurus dalam analisis regresi:

Persamaan regresi teori.

Istilah "regresi mudah" menunjukkan bahawa magnitud satu pembolehubah dianggarkan berdasarkan pengetahuan pembolehubah yang lain. Tidak seperti regresi multivariate mudah, ia digunakan untuk menganggar pembolehubah berdasarkan pengetahuan tentang dua, tiga atau lebih pembolehubah. Pertimbangkan analisis grafik regresi linear mudah.

Andaikan kita mempunyai keputusan ujian saringan pra-pekerjaan dan produktiviti buruh.

Keputusan pemilihan (100 mata), x

Prestasi (20 mata), y

Meletakkan titik pada graf, kita mendapat gambar rajah serakan (medan). Kami menggunakannya untuk menganalisis keputusan ujian pemilihan dan produktiviti buruh.

Mari analisa garis regresi menggunakan scatterplot. Dalam analisis regresi, sekurang-kurangnya dua pembolehubah sentiasa ditentukan. Perubahan sistematik dalam satu pembolehubah dikaitkan dengan perubahan yang lain. tujuan utama analisis regresi adalah untuk menganggar nilai satu pembolehubah jika nilai pembolehubah yang lain diketahui. Untuk tugas yang lengkap, penilaian produktiviti buruh adalah penting.

Pembolehubah bebas dalam analisis regresi, kuantiti digunakan sebagai asas untuk analisis pembolehubah lain. Dalam kes ini, ini adalah keputusan ujian pemilihan (di sepanjang paksi X).

pembolehubah bersandar dipanggil nilai anggaran (di sepanjang paksi Y). Dalam analisis regresi, hanya boleh ada satu pembolehubah bersandar dan berbilang pembolehubah tidak bersandar.

Untuk analisis regresi mudah, pergantungan boleh diwakili dalam sistem dua koordinat (x dan y), sepanjang paksi-x - pembolehubah bebas, sepanjang paksi-y - bersandar. Kami memplot titik persilangan sedemikian rupa sehingga sepasang kuantiti dibentangkan pada graf. Graf dipanggil plot bersepah. Pembinaannya adalah peringkat kedua analisis regresi, kerana yang pertama ialah pilihan nilai yang dianalisis dan pengumpulan data sampel. Oleh itu, analisis regresi digunakan untuk analisis statistik. Hubungan antara data sampel carta adalah linear.

Untuk menganggar nilai pembolehubah y berdasarkan pembolehubah x, adalah perlu untuk menentukan kedudukan garisan yang paling mewakili hubungan antara x dan y berdasarkan lokasi titik serakan. Dalam contoh kami, ini adalah analisis prestasi. Garisan yang dilukis melalui titik serakan - garis regresi. Satu cara untuk membina garis regresi berdasarkan pengalaman visual ialah kaedah tangan bebas. Garis regresi kami boleh digunakan untuk menentukan produktiviti buruh. Apabila mencari persamaan garis regresi

Selalunya ujian kuasa dua terkecil digunakan. Garis yang paling sesuai ialah garis yang jumlah sisihan kuasa dua adalah minimum.

Persamaan matematik garis pertumbuhan mewakili hukum pertumbuhan dalam janjang aritmetik:

di = abX.

Y = a + bX– persamaan terkurang dengan satu parameter ialah bentuk termudah bagi persamaan kekangan. Ia boleh diterima untuk nilai purata. Untuk lebih menyatakan hubungan antara X dan di, faktor perkadaran tambahan diperkenalkan b, yang menunjukkan kecerunan garis regresi.

B) Pembinaan garis regresi teori.

Proses mencarinya terdiri daripada memilih dan mewajarkan jenis lengkung dan mengira parameter a, b, Dengan dan lain-lain. Proses pembinaan dipanggil meratakan, dan stok lengkung yang ditawarkan oleh tikar. analisis, pelbagai. Selalunya, dalam masalah ekonomi, keluarga lengkung digunakan, persamaan yang dinyatakan oleh polinomial darjah positif integer.

1)
- persamaan garis lurus,

2)
ialah persamaan hiperbola,

3)
ialah persamaan parabola,

di mana ý ialah ordinat bagi garis regresi teori.

Setelah memilih jenis persamaan, adalah perlu untuk mencari parameter yang bergantung kepada persamaan ini. Sebagai contoh, sifat lokasi titik dalam medan serakan menunjukkan bahawa garis regresi teori adalah lurus.

Plot serakan membolehkan anda mewakili produktiviti buruh menggunakan analisis regresi. Dalam ekonomi, analisis regresi meramalkan banyak ciri yang mempengaruhi produk akhir (dengan mengambil kira harga).

C) Kriteria bingkai terkecil untuk mencari garis lurus.

Salah satu kriteria yang boleh kami gunakan untuk garis regresi yang sesuai dalam plot serakan adalah berdasarkan pemilihan garis yang jumlah ralat kuasa duanya adalah minimum.

Kehampiran titik hamburan ke garis lurus diukur dengan ordinat segmen. Sisihan titik ini boleh menjadi positif atau negatif, tetapi jumlah sisihan kuasa dua garis teori dari garis eksperimen sentiasa positif dan harus minimum. Fakta bahawa semua titik serakan tidak bertepatan dengan kedudukan garis regresi menunjukkan wujudnya percanggahan antara data eksperimen dan teori. Oleh itu, boleh dikatakan bahawa tiada garis regresi lain, kecuali yang dijumpai, boleh memberikan jumlah sisihan yang lebih kecil antara data eksperimen dan eksperimen. Oleh itu, setelah menemui persamaan teori ý dan garis regresi, kami memenuhi keperluan kuasa dua terkecil.

Ini dilakukan dengan menggunakan persamaan kekangan
, menggunakan formula untuk mencari parameter a dan b. Mengambil nilai teori
dan menandakan sebelah kiri persamaan melalui f, kita mendapat fungsi
daripada parameter yang tidak diketahui a dan b. Nilai a dan b akan memenuhi minimum fungsi f dan didapati daripada persamaan pembezaan separa
dan
. ia syarat yang perlu, walau bagaimanapun, untuk fungsi kuadratik positif, ini juga merupakan syarat yang mencukupi untuk mencari a dan b.

Mari kita terbitkan daripada persamaan derivatif separa formula untuk parameter a dan b:



kita mendapat sistem persamaan:

di mana
– ralat min aritmetik.

Menggantikan nilai berangka, kami dapati parameter a dan b.

Ada konsep
. Ini adalah faktor penghampiran.

Sekiranya e < 33%, то модель приемлема для дальнейшего анализа;

Sekiranya e> 33%, kemudian kita ambil hiperbola, parabola, dsb. Ini memberi hak untuk menganalisis dalam pelbagai situasi.

Kesimpulan: mengikut kriteria pekali penghampiran, garis yang paling sesuai ialah garis yang

, dan tiada garis regresi lain untuk masalah kami memberikan sisihan minimum.

D) Ralat kuadratik anggaran, pengesahan tipikalnya.

Bagi populasi yang kurang daripada 30 parameter kajian ( n < 30), для проверки типичности параметров уравнения регрессии используется t-Kriteria pelajar. Ini mengira nilai sebenar t-kriteria:

Dari sini

di mana ialah punca baki min ralat kuasa dua. Menerima t a dan t b berbanding dengan kritikal t k daripada jadual Pelajar, dengan mengambil kira tahap keertian yang diterima ( = 0.01 = 99% atau  = 0.05 = 95%). P = f = k 1 = m ialah bilangan parameter persamaan yang dikaji (darjah kebebasan). Sebagai contoh, jika y = a + bx; m = 2, k 2 = f 2 = hlm 2 = n – (m+ 1), di mana n- bilangan ciri yang dikaji.

t a < t k < t b .

Kesimpulan: mengikut parameter persamaan regresi yang diperiksa untuk tipikal, model matematik sambungan dibina
. Dalam kes ini, parameter fungsi matematik yang digunakan dalam analisis (linear, hiperbola, parabola) menerima nilai kuantitatif yang sepadan. Kandungan semantik model yang diperoleh dengan cara ini ialah mereka mencirikan nilai purata ciri berkesan
daripada sifat faktor X.

E) Regresi lengkung.

Selalunya terdapat hubungan curvilinear, apabila hubungan yang berubah-ubah diwujudkan antara pembolehubah. Keamatan peningkatan (penurunan) bergantung pada tahap mencari X. Pergantungan lengkung boleh terdiri daripada pelbagai jenis. Sebagai contoh, pertimbangkan hubungan antara hasil dan hujan. Dengan peningkatan kerpasan di bawah keadaan semula jadi yang sama, peningkatan intensif dalam hasil, tetapi sehingga had tertentu. Selepas titik kritikal, hujan adalah berlebihan, dan hasil menurun dengan teruk. Contoh menunjukkan bahawa pada mulanya hubungan itu positif, dan kemudian negatif. Titik kritikal - tahap optimum ciri X, yang sepadan dengan nilai maksimum atau minimum ciri Y.

Dalam ekonomi, hubungan sedemikian diperhatikan antara harga dan penggunaan, produktiviti dan tempoh perkhidmatan.

pergantungan parabola.

Jika data menunjukkan bahawa peningkatan dalam atribut faktor membawa kepada peningkatan dalam atribut terhasil, maka persamaan tertib kedua (parabola) diambil sebagai persamaan regresi.

. Pekali a,b,c didapati daripada persamaan pembezaan separa:

Kami mendapat sistem persamaan:

Jenis persamaan lengkung:

,

,

Adalah munasabah untuk mengandaikan bahawa terdapat hubungan curvilinear antara produktiviti buruh dan markah ujian pemilihan. Ini bermakna dengan pertumbuhan sistem pemarkahan, prestasi akan mula menurun pada tahap tertentu, jadi model langsung mungkin berubah menjadi lengkung.

Model ketiga akan menjadi hiperbola, dan dalam semua persamaan, bukannya pembolehubah x, akan ada ungkapan.

Dalam nota sebelumnya, tumpuan selalunya tertumpu pada pembolehubah berangka tunggal, seperti pulangan dana bersama, masa muat halaman web atau penggunaan minuman ringan. Dalam nota ini dan berikut, kami akan mempertimbangkan kaedah untuk meramalkan nilai pembolehubah berangka bergantung pada nilai satu atau lebih pembolehubah berangka lain.

Bahan akan digambarkan dengan contoh melalui. Meramalkan jumlah jualan di kedai pakaian. Rangkaian kedai pakaian diskaun Sunflowers sentiasa berkembang selama 25 tahun. Bagaimanapun, syarikat itu pada masa ini tidak mempunyai pendekatan sistematik untuk memilih cawangan baharu. Lokasi di mana syarikat berhasrat untuk membuka kedai baharu ditentukan berdasarkan pertimbangan subjektif. Kriteria pemilihan adalah keadaan sewa yang menggalakkan atau idea pengurus tentang lokasi kedai yang ideal. Bayangkan anda adalah ketua Jabatan Projek Khas dan Perancangan. Anda telah ditugaskan untuk membangunkan pelan strategik untuk membuka kedai baharu. Pelan ini harus mengandungi ramalan jualan tahunan di kedai yang baru dibuka. Anda percaya bahawa penjualan ruang berkaitan secara langsung dengan hasil dan ingin memasukkan fakta itu ke dalam proses membuat keputusan anda. Bagaimanakah anda membangunkan model statistik yang meramalkan jualan tahunan berdasarkan saiz kedai baharu?

Biasanya, analisis regresi digunakan untuk meramalkan nilai pembolehubah. Matlamatnya adalah untuk membangunkan model statistik yang meramalkan nilai pembolehubah bersandar, atau tindak balas, daripada nilai sekurang-kurangnya satu pembolehubah bebas, atau penjelasan. Dalam nota ini, kami akan mempertimbangkan regresi linear mudah - kaedah statistik yang membolehkan anda meramalkan nilai pembolehubah bersandar Y dengan nilai pembolehubah bebas X. Nota berikut akan menerangkan model regresi berganda yang direka untuk meramalkan nilai pembolehubah bebas Y dengan nilai beberapa pembolehubah bersandar ( X 1 , X 2 , …, X k).

Muat turun nota dalam atau format, contoh dalam format

Jenis model regresi

di mana ρ 1 ialah pekali autokorelasi; jika ρ 1 = 0 (tiada autokorelasi), D≈ 2; jika ρ 1 ≈ 1 (autokorelasi positif), D≈ 0; jika ρ 1 = -1 (autokorelasi negatif), D ≈ 4.

Dalam amalan, penggunaan kriteria Durbin-Watson adalah berdasarkan perbandingan nilai D dengan nilai teori kritikal d L dan d U untuk bilangan pemerhatian tertentu n, bilangan pembolehubah bebas model k(untuk regresi linear mudah k= 1) dan aras keertian α. Sekiranya D< d L , hipotesis kebebasan sisihan rawak ditolak (oleh itu, terdapat autokorelasi positif); jika D > d U, hipotesis tidak ditolak (iaitu, tiada autokorelasi); jika dL< D < d U tidak ada alasan yang cukup untuk membuat keputusan. Apabila nilai yang dikira D melebihi 2, maka d L dan d U ia bukan pekali itu sendiri yang dibandingkan D, dan ungkapan (4 – D).

Untuk mengira statistik Durbin-Watson dalam Excel, kita beralih ke jadual bawah dalam Rajah. empat belas Pengeluaran baki. Pengangka dalam ungkapan (10) dikira menggunakan fungsi = SUMMQDIFF(array1, array2), dan penyebut = SUMMQ(array) (Rajah 16).

nasi. 16. Formula untuk mengira statistik Durbin-Watson

Dalam contoh kita D= 0.883. Persoalan utama ialah: apakah nilai statistik Durbin-Watson yang harus dianggap cukup kecil untuk membuat kesimpulan bahawa terdapat autokorelasi positif? Adalah perlu untuk mengaitkan nilai D dengan nilai kritikal ( d L dan d U) bergantung kepada bilangan pemerhatian n dan aras keertian α (Rajah 17).

nasi. 17. Nilai kritikal statistik Durbin-Watson (serpihan jadual)

Oleh itu, dalam masalah jumlah jualan di kedai yang menghantar barang ke rumah anda, terdapat satu pembolehubah tidak bersandar ( k= 1), 15 pemerhatian ( n= 15) dan aras keertian α = 0.05. Akibatnya, d L= 1.08 dan dU= 1.36. Kerana ia D = 0,883 < d L= 1.08, terdapat autokorelasi positif antara baki, kaedah kuasa dua terkecil tidak boleh digunakan.

Menguji Hipotesis tentang Kecerunan dan Pekali Korelasi

Regresi di atas digunakan semata-mata untuk peramalan. Untuk menentukan pekali regresi dan meramalkan nilai pembolehubah Y untuk nilai pembolehubah yang diberikan X kaedah kuasa dua terkecil digunakan. Di samping itu, kami mempertimbangkan ralat piawai anggaran dan pekali korelasi bercampur. Jika analisis sisa mengesahkan bahawa syarat kebolehgunaan kaedah kuasa dua terkecil tidak dilanggar, dan model regresi linear mudah adalah mencukupi, berdasarkan data sampel, boleh dikatakan bahawa terdapat hubungan linear antara pembolehubah dalam populasi.

Permohonant -kriteria untuk cerun. Dengan menyemak sama ada cerun populasi β 1 sama dengan sifar, seseorang boleh menentukan sama ada terdapat hubungan yang signifikan secara statistik antara pembolehubah X dan Y. Jika hipotesis ini ditolak, boleh dikatakan bahawa antara pembolehubah X dan Y terdapat hubungan linear. Hipotesis nol dan alternatif dirumus seperti berikut: H 0: β 1 = 0 (tiada hubungan linear), H1: β 1 ≠ 0 (ada hubungan linear). Mengikut takrifan t-statistik adalah sama dengan perbezaan antara cerun sampel dan cerun populasi hipotesis, dibahagikan dengan ralat piawai anggaran cerun:

(11) t = (b 1 β 1 ) / Sb 1

di mana b 1 ialah cerun regresi langsung berdasarkan data sampel, β1 ialah cerun hipotesis populasi umum langsung, , dan statistik ujian t Ia ada t- pengedaran dengan n - 2 darjah kebebasan.

Mari kita semak sama ada terdapat hubungan yang signifikan secara statistik antara saiz kedai dan jualan tahunan pada α = 0.05. t-kriteria dipaparkan bersama parameter lain apabila menggunakan Pakej analisis(pilihan Regresi). Keputusan penuh Pakej Analisis ditunjukkan dalam Rajah. 4, serpihan yang berkaitan dengan t-statistik - dalam rajah. lapan belas.

nasi. 18. Keputusan permohonan t

Kerana bilangan kedai n= 14 (lihat Rajah 3), nilai kritikal t-statistik pada aras keertian α = 0.05 boleh didapati dengan formula: t L=STUDENT.INV(0.025;12) = -2.1788 di mana 0.025 ialah separuh daripada aras keertian dan 12 = n – 2; t U\u003d STUDENT.INV (0.975, 12) \u003d +2.1788.

Kerana ia t-statistik = 10.64 > t U= 2.1788 (Rajah 19), hipotesis nol H 0 ditolak. Selain itu, R-nilai untuk X\u003d 10.6411, dikira dengan formula \u003d 1-STUDENT.DIST (D3, 12, TRUE), adalah lebih kurang sama dengan sifar, jadi hipotesis H 0 ditolak lagi. Hakikat bahawa R-nilai hampir sifar, bermakna jika tiada hubungan linear sebenar antara saiz kedai dan jualan tahunan, hampir mustahil untuk mencarinya menggunakan regresi linear. Oleh itu, terdapat hubungan linear yang signifikan secara statistik antara purata jualan kedai tahunan dan saiz kedai.

nasi. 19. Menguji hipotesis tentang kecerunan populasi umum pada aras keertian 0.05 dan 12 darjah kebebasan

PermohonanF -kriteria untuk cerun. Pendekatan alternatif untuk menguji hipotesis tentang kecerunan regresi linear mudah adalah dengan menggunakan F-kriteria. Ingat itu F-kriteria digunakan untuk menguji hubungan antara dua varians (lihat butiran). Apabila menguji hipotesis cerun, ukuran ralat rawak ialah varians ralat (jumlah ralat kuasa dua dibahagikan dengan bilangan darjah kebebasan), jadi F-ujian menggunakan nisbah varians yang dijelaskan oleh regresi (iaitu, nilai SSR dibahagikan dengan bilangan pembolehubah bebas k), kepada varians ralat ( MSE=SYX 2 ).

Mengikut takrifan F-statistik adalah sama dengan min sisihan kuasa dua disebabkan oleh regresi (MSR) dibahagikan dengan varians ralat (MSE): F = MSR/ MSE, di mana MSR=SSR / k, MSE =SSE/(n– k – 1), k ialah bilangan pembolehubah bebas dalam model regresi. Statistik ujian F Ia ada F- pengedaran dengan k dan n– k – 1 darjah kebebasan.

Untuk tahap keertian α tertentu, peraturan keputusan dirumuskan seperti berikut: jika F > FU, hipotesis nol ditolak; jika tidak, ia tidak ditolak. Keputusan, yang dibentangkan dalam bentuk jadual ringkasan analisis varians, ditunjukkan dalam rajah. dua puluh.

nasi. 20. Jadual analisis varians untuk menguji hipotesis kepentingan statistik bagi pekali regresi

Begitu juga t-kriteria F-kriteria dipaparkan dalam jadual apabila menggunakan Pakej analisis(pilihan Regresi). Hasil kerja penuh Pakej analisis ditunjukkan dalam rajah. 4, serpihan yang berkaitan dengan F-statistik - dalam rajah. 21.

nasi. 21. Keputusan permohonan F- Kriteria yang diperoleh menggunakan Excel Analysis ToolPack

F-statistik ialah 113.23 dan R-nilai hampir sifar (sel KepentinganF). Jika aras keertian α ialah 0.05, tentukan nilai kritikal F-taburan dengan satu dan 12 darjah kebebasan boleh didapati daripada formula F U\u003d F. OBR (1-0.05; 1; 12) \u003d 4.7472 (Gamb. 22). Kerana ia F = 113,23 > F U= 4.7472, dan R-nilai hampir 0< 0,05, нулевая гипотеза H 0 menyimpang, i.e. Saiz kedai berkait rapat dengan jumlah jualan tahunannya.

nasi. 22. Menguji hipotesis tentang kecerunan populasi umum pada tahap keertian 0.05, dengan satu dan 12 darjah kebebasan

Selang keyakinan yang mengandungi cerun β 1 . Untuk menguji hipotesis kewujudan hubungan linear antara pembolehubah, anda boleh membina selang keyakinan yang mengandungi cerun β 1 dan pastikan nilai hipotesis β 1 = 0 tergolong dalam selang ini. Pusat selang keyakinan yang mengandungi cerun β 1 ialah cerun sampel b 1 , dan sempadannya ialah kuantiti b 1 ±t n –2 Sb 1

Seperti yang ditunjukkan dalam rajah. lapan belas, b 1 = +1,670, n = 14, Sb 1 = 0,157. t 12 \u003d PELAJAR.OBR (0.975, 12) \u003d 2.1788. Akibatnya, b 1 ±t n –2 Sb 1 = +1.670 ± 2.1788 * 0.157 = +1.670 ± 0.342, atau + 1.328 ≤ β 1 ≤ +2.012. Oleh itu, kecerunan populasi dengan kebarangkalian 0.95 terletak dalam julat dari +1.328 hingga +2.012 (iaitu, daripada $1,328,000 hingga $2,012,000). Oleh kerana nilai ini lebih besar daripada sifar, terdapat hubungan linear yang signifikan secara statistik antara jualan tahunan dan kawasan kedai. Jika selang keyakinan mengandungi sifar, tidak akan ada hubungan antara pembolehubah. Di samping itu, selang keyakinan bermakna setiap 1,000 persegi. kaki menghasilkan peningkatan dalam jualan purata $1,328,000 kepada $2,012,000.

Penggunaant -kriteria untuk pekali korelasi. pekali korelasi diperkenalkan r, yang merupakan ukuran hubungan antara dua pembolehubah berangka. Ia boleh digunakan untuk menentukan sama ada terdapat hubungan yang signifikan secara statistik antara dua pembolehubah. Mari kita nyatakan pekali korelasi antara populasi kedua-dua pembolehubah dengan simbol ρ. Hipotesis nol dan alternatif dirumuskan seperti berikut: H 0: ρ = 0 (tiada korelasi), H 1: ρ ≠ 0 (ada korelasi). Menyemak kewujudan korelasi:

di mana r = + , jika b 1 > 0, r = – , jika b 1 < 0. Тестовая статистика t Ia ada t- pengedaran dengan n - 2 darjah kebebasan.

Dalam masalah rangkaian kedai Bunga Matahari r2= 0.904, dan b 1- +1.670 (lihat Rajah 4). Kerana ia b 1> 0, pekali korelasi antara jualan tahunan dan saiz kedai ialah r= +√0.904 = +0.951. Mari kita uji hipotesis nol bahawa tiada korelasi antara pembolehubah ini menggunakan t- statistik:

Pada aras keertian α = 0.05, hipotesis nol harus ditolak kerana t= 10.64 > 2.1788. Oleh itu, boleh dikatakan bahawa terdapat hubungan yang signifikan secara statistik antara jualan tahunan dan saiz kedai.

Apabila membincangkan inferens tentang cerun populasi, selang keyakinan dan kriteria untuk menguji hipotesis ialah alat yang boleh ditukar ganti. Walau bagaimanapun, pengiraan selang keyakinan yang mengandungi pekali korelasi ternyata lebih sukar, kerana bentuk taburan persampelan statistik r bergantung kepada pekali korelasi sebenar.

Anggaran jangkaan matematik dan ramalan nilai individu

Bahagian ini membincangkan kaedah untuk menganggar tindak balas yang dijangkakan Y dan ramalan nilai individu Y untuk nilai pembolehubah yang diberikan X.

Pembinaan selang keyakinan. Dalam contoh 2 (lihat bahagian di atas Kaedah kuasa dua terkecil) persamaan regresi memungkinkan untuk meramalkan nilai pembolehubah Y X. Dalam masalah memilih lokasi untuk kedai runcit, purata jualan tahunan di kedai dengan keluasan 4000 sq. kaki adalah sama dengan 7.644 juta dolar. Walau bagaimanapun, anggaran jangkaan matematik penduduk umum ini adalah satu titik. untuk menganggar jangkaan matematik populasi umum, konsep selang keyakinan telah dicadangkan. Begitu juga, seseorang boleh memperkenalkan konsep selang keyakinan untuk jangkaan matematik bagi tindak balas untuk nilai tertentu pembolehubah X:

di mana , = b 0 + b 1 X i– pembolehubah nilai ramalan Y di X = X i, S YX ialah min ralat kuasa dua, n ialah saiz sampel, Xi- nilai pembolehubah yang diberi X, µ Y|X = Xi– jangkaan matematik pembolehubah Y di X = Х i,SSX=

Analisis formula (13) menunjukkan bahawa lebar selang keyakinan bergantung kepada beberapa faktor. Pada tahap kepentingan tertentu, peningkatan dalam amplitud turun naik di sekitar garis regresi, diukur menggunakan ralat min kuasa dua, membawa kepada peningkatan lebar selang. Sebaliknya, seperti yang dijangkakan, peningkatan dalam saiz sampel disertai dengan penyempitan selang. Di samping itu, lebar selang berubah bergantung pada nilai Xi. Jika nilai pembolehubah Y diramalkan untuk kuantiti X, hampir dengan nilai purata , selang keyakinan ternyata lebih sempit berbanding semasa meramalkan tindak balas untuk nilai jauh daripada min.

Katakan apabila memilih lokasi untuk kedai, kami ingin membina selang keyakinan 95% untuk purata jualan tahunan di semua kedai dengan keluasan 4000 meter persegi. kaki:

Oleh itu, purata volum jualan tahunan di semua kedai dengan keluasan 4,000 meter persegi. kaki, dengan kebarangkalian 95% terletak dalam julat dari 6.971 hingga 8.317 juta dolar.

Kira selang keyakinan untuk nilai yang diramalkan. Sebagai tambahan kepada selang keyakinan untuk jangkaan matematik tindak balas untuk nilai tertentu pembolehubah X, selalunya perlu mengetahui selang keyakinan untuk nilai yang diramalkan. Walaupun formula untuk mengira selang keyakinan sedemikian hampir sama dengan formula (13), selang ini mengandungi nilai ramalan dan bukan anggaran parameter. Selang untuk tindak balas yang diramalkan YX = Xi untuk nilai tertentu pembolehubah Xi ditentukan oleh formula:

Katakan apabila memilih lokasi untuk kedai runcit, kami ingin membina selang keyakinan 95% untuk jumlah jualan tahunan yang diramalkan di kedai dengan keluasan 4000 meter persegi. kaki:

Oleh itu, ramalan volum jualan tahunan untuk 4,000 kaki persegi. kaki, dengan kebarangkalian 95% terletak dalam julat dari 5.433 hingga 9.854 juta dolar. Seperti yang anda lihat, selang keyakinan untuk nilai tindak balas yang diramalkan adalah jauh lebih luas daripada selang keyakinan untuk jangkaan matematiknya. Ini kerana kebolehubahan dalam meramalkan nilai individu adalah lebih besar daripada menganggarkan nilai yang dijangkakan.

Perangkap dan isu etika yang berkaitan dengan penggunaan regresi

Kesukaran yang berkaitan dengan analisis regresi:

  • Mengabaikan syarat kebolehgunaan kaedah kuasa dua terkecil.
  • Anggaran yang salah tentang syarat-syarat kebolehgunaan kaedah kuasa dua terkecil.
  • Pilihan kaedah alternatif yang salah yang melanggar syarat kebolehgunaan kaedah kuasa dua terkecil.
  • Aplikasi analisis regresi tanpa pengetahuan mendalam tentang subjek kajian.
  • Ekstrapolasi regresi di luar julat pembolehubah penjelasan.
  • Kekeliruan antara hubungan statistik dan sebab.

Penggunaan meluas hamparan dan perisian statistik telah menghapuskan masalah pengiraan yang menghalang penggunaan analisis regresi. Walau bagaimanapun, ini membawa kepada fakta bahawa analisis regresi mula digunakan oleh pengguna yang tidak mempunyai kelayakan dan pengetahuan yang mencukupi. Bagaimanakah pengguna tahu tentang kaedah alternatif jika ramai daripada mereka tidak tahu sama sekali tentang syarat-syarat penggunaan kaedah kuasa dua terkecil dan tidak tahu cara menyemak pelaksanaannya?

Pengkaji tidak boleh terbawa-bawa dengan mengisar nombor - mengira anjakan, cerun dan pekali korelasi bercampur. Dia perlukan ilmu yang lebih mendalam. Mari kita gambarkan ini dengan contoh klasik yang diambil dari buku teks. Anscombe menunjukkan bahawa keempat-empat set data ditunjukkan dalam Rajah. 23 mempunyai parameter regresi yang sama (Rajah 24).

nasi. 23. Empat set data buatan

nasi. 24. Analisis regresi empat set data buatan; selesai dengan Pakej analisis(klik pada gambar untuk besarkan gambar)

Jadi, dari sudut pandangan analisis regresi, semua set data ini adalah sama sepenuhnya. Jika analisis berakhir di sana, kita akan kehilangan banyak maklumat berguna. Ini dibuktikan oleh plot serakan (Rajah 25) dan plot baki (Rajah 26) yang dibina untuk set data ini.

nasi. 25. Plot taburan untuk empat set data

Plot serakan dan plot baki menunjukkan bahawa data ini berbeza antara satu sama lain. Satu-satunya set yang diedarkan sepanjang garis lurus ialah set A. Plot bagi baki yang dikira daripada set A tidak mempunyai corak. Perkara yang sama tidak boleh dikatakan untuk set B, C dan D. Plot serakan yang diplot untuk set B menunjukkan corak kuadratik yang jelas. Kesimpulan ini disahkan oleh plot sisa, yang mempunyai bentuk parabola. Plot serakan dan plot baki menunjukkan bahawa set data B mengandungi outlier. Dalam keadaan ini, adalah perlu untuk mengecualikan outlier daripada set data dan mengulangi analisis. Teknik untuk mengesan dan menghapuskan outlier daripada pemerhatian dipanggil analisis pengaruh. Selepas menghapuskan outlier, hasil penilaian semula model mungkin berbeza sama sekali. Plot serakan yang diplot daripada set data D menggambarkan situasi luar biasa di mana model empirikal sangat bergantung pada satu tindak balas ( X 8 = 19, Y 8 = 12.5). Model regresi sedemikian perlu dikira terutamanya dengan teliti. Jadi, plot taburan dan baki adalah alat penting untuk analisis regresi dan harus menjadi sebahagian daripadanya. Tanpa mereka, analisis regresi tidak boleh dipercayai.

nasi. 26. Plot baki untuk empat set data

Bagaimana untuk mengelakkan perangkap dalam analisis regresi:

  • Analisis kemungkinan hubungan antara pembolehubah X dan Y sentiasa bermula dengan scatterplot.
  • Sebelum mentafsir keputusan analisis regresi, semak syarat untuk kebolehgunaannya.
  • Plotkan baki berbanding pembolehubah bebas. Ini akan membolehkan untuk menentukan bagaimana model empirikal sepadan dengan hasil pemerhatian, dan untuk mengesan pelanggaran kestabilan varians.
  • Gunakan histogram, plot batang dan daun, plot kotak, dan plot taburan normal untuk menguji andaian taburan ralat normal.
  • Jika syarat kebolehgunaan kaedah kuasa dua terkecil tidak dipenuhi, gunakan kaedah alternatif (contohnya, model regresi kuadratik atau berbilang).
  • Jika syarat kebolehgunaan kaedah kuasa dua terkecil dipenuhi, adalah perlu untuk menguji hipotesis tentang kepentingan statistik bagi pekali regresi dan membina selang keyakinan yang mengandungi jangkaan matematik dan nilai tindak balas yang diramalkan.
  • Elakkan meramalkan nilai pembolehubah bersandar di luar julat pembolehubah tidak bersandar.
  • Perlu diingat bahawa kebergantungan statistik tidak selalu bersebab. Ingat bahawa korelasi antara pembolehubah tidak bermakna terdapat hubungan sebab akibat di antara mereka.

Ringkasan. Seperti yang ditunjukkan dalam rajah blok (Gamb. 27), nota itu menerangkan model regresi linear mudah, syarat untuk kebolehgunaannya dan cara untuk menguji keadaan ini. Dipertimbangkan t-kriteria untuk menguji kepentingan statistik cerun regresi. Model regresi digunakan untuk meramalkan nilai pembolehubah bersandar. Satu contoh dianggap berkaitan dengan pilihan tempat untuk kedai runcit, di mana pergantungan volum jualan tahunan pada kawasan kedai dikaji. Maklumat yang diperoleh membolehkan anda memilih lokasi untuk kedai dengan lebih tepat dan meramalkan jualan tahunannya. Dalam nota berikut, perbincangan analisis regresi akan diteruskan, serta model regresi berbilang.

nasi. 27. Gambar rajah blok nota

Bahan daripada buku Levin et al. Perangkaan untuk pengurus digunakan. - M.: Williams, 2004. - hlm. 792–872

Jika pembolehubah bersandar adalah kategori, regresi logistik harus digunakan.

Analisis regresi adalah salah satu kaedah penyelidikan statistik yang paling popular. Ia boleh digunakan untuk menentukan tahap pengaruh pembolehubah bebas terhadap pembolehubah bersandar. Kefungsian Microsoft Excel mempunyai alat yang direka untuk menjalankan analisis jenis ini. Mari kita lihat apa itu dan cara menggunakannya.

Tetapi, untuk menggunakan fungsi yang membolehkan anda menjalankan analisis regresi, pertama sekali, anda perlu mengaktifkan Pakej Analisis. Hanya kemudian alat yang diperlukan untuk prosedur ini akan muncul pada reben Excel.


Sekarang apabila kita pergi ke tab "Data", pada reben dalam kotak alat "Analisis" kita akan melihat butang baharu - "Analisis data".

Jenis analisis regresi

Terdapat beberapa jenis regresi:

  • parabola;
  • kuasa;
  • logaritma;
  • eksponen;
  • demonstrasi;
  • hiperbola;
  • regresi linear.

Kami akan bercakap dengan lebih terperinci tentang pelaksanaan jenis analisis regresi terakhir dalam Excel nanti.

Regresi Linear dalam Excel

Di bawah, sebagai contoh, ialah jadual yang menunjukkan purata suhu udara harian di jalan dan bilangan pelanggan kedai untuk hari bekerja yang sepadan. Mari kita ketahui dengan bantuan analisis regresi dengan tepat bagaimana keadaan cuaca dalam bentuk suhu udara boleh menjejaskan kehadiran pertubuhan runcit.

Persamaan regresi linear am kelihatan seperti ini: Y = a0 + a1x1 + ... + axk. Dalam formula ini Y bermaksud pembolehubah yang pengaruhnya kita cuba kaji. Dalam kes kami, ini ialah bilangan pembeli. Maknanya x ialah pelbagai faktor yang mempengaruhi pembolehubah. Pilihan a ialah pekali regresi. Iaitu, mereka menentukan kepentingan faktor tertentu. Indeks k menunjukkan jumlah bilangan faktor yang sama ini.


Analisis keputusan analisis

Hasil analisis regresi dipaparkan dalam bentuk jadual di tempat yang ditentukan dalam tetapan.

Salah satu petunjuk utama ialah R-segi empat. Ia menunjukkan kualiti model. Dalam kes kami, pekali ini ialah 0.705 atau kira-kira 70.5%. Ini adalah tahap kualiti yang boleh diterima. Hubungan kurang daripada 0.5 adalah buruk.

Satu lagi penunjuk penting terletak di dalam sel di persimpangan garisan "persimpangan-Y" dan lajur "Pekali". Di sini ditunjukkan nilai Y yang akan ada, dan dalam kes kami, ini ialah bilangan pembeli, dengan semua faktor lain bersamaan dengan sifar. Dalam jadual ini, nilai ini ialah 58.04.

Nilai pada persilangan graf "Pembolehubah X1" dan "Pekali" menunjukkan tahap pergantungan Y pada X. Dalam kes kami, ini ialah tahap pergantungan bilangan pelanggan kedai pada suhu. Pekali 1.31 dianggap sebagai penunjuk pengaruh yang agak tinggi.

Seperti yang anda lihat, agak mudah untuk membuat jadual analisis regresi menggunakan Microsoft Excel. Tetapi, hanya orang yang terlatih boleh bekerja dengan data yang diperoleh pada output, dan memahami intipatinya.

Kuliah 3

Analisis regresi.

1) Ciri berangka regresi

2) Regresi linear

3) Regresi bukan linear

4) Regresi Berganda

5) Menggunakan MS EXCEL untuk melakukan analisis regresi

Alat kawalan dan penilaian - tugasan ujian

1. Ciri berangka regresi

Analisis regresi ialah kaedah statistik untuk mengkaji pengaruh satu atau lebih pembolehubah tidak bersandar ke atas pembolehubah bersandar. Pembolehubah bebas dipanggil regressor atau peramal, dan pembolehubah bersandar dipanggil kriteria. Terminologi pembolehubah bersandar dan tidak bersandar hanya mencerminkan pergantungan matematik pembolehubah, dan bukan hubungan sebab dan akibat.

Matlamat analisis regresi

  • Penentuan darjah determinisme variasi kriteria (bersandar) pembolehubah oleh peramal (pembolehubah bebas).
  • Meramalkan nilai pembolehubah bersandar menggunakan pembolehubah tidak bersandar.
  • Penentuan sumbangan pembolehubah bebas individu kepada variasi pembolehubah bersandar.

Analisis regresi tidak boleh digunakan untuk menentukan sama ada terdapat hubungan antara pembolehubah, kerana kewujudan hubungan tersebut adalah prasyarat untuk mengaplikasikan analisis.

Untuk menjalankan analisis regresi, anda perlu membiasakan diri dengan konsep asas statistik dan teori kebarangkalian.

Ciri berangka asas pembolehubah rawak diskret dan selanjar: jangkaan matematik, varians dan sisihan piawai.

Pembolehubah rawak dibahagikan kepada dua jenis:

  • Diskret, yang hanya boleh mengambil nilai tertentu yang telah ditetapkan (contohnya, nilai nombor pada muka atas dadu yang dilemparkan atau nilai ordinal bulan semasa);
  • · berterusan (paling kerap - nilai beberapa kuantiti fizikal: berat, jarak, suhu, dll.), yang, menurut undang-undang alam, boleh mengambil sebarang nilai, sekurang-kurangnya dalam selang waktu tertentu.

Hukum taburan pembolehubah rawak ialah korespondensi antara nilai yang mungkin bagi pembolehubah rawak diskret dan kebarangkaliannya, biasanya ditulis dalam jadual:

Takrifan statistik kebarangkalian dinyatakan dalam sebutan kekerapan relatif sesuatu peristiwa rawak, iaitu didapati sebagai nisbah bilangan pembolehubah rawak kepada jumlah bilangan pembolehubah rawak.

Jangkaan matematik bagi pembolehubah rawak diskretX dipanggil jumlah produk nilai kuantiti X pada kebarangkalian nilai-nilai ini. Jangkaan matematik dilambangkan dengan atau M(X) .

n

= M(X) = x 1 hlm 1 + x 2 hlm 2 +… + x n p n = S x i pi

i=1

Serakan pembolehubah rawak berkenaan dengan jangkaan matematiknya ditentukan menggunakan ciri berangka yang dipanggil serakan. Ringkasnya, varians ialah sebaran pembolehubah rawak di sekeliling min. Untuk memahami intipati penyebaran, pertimbangkan satu contoh. Gaji purata di negara ini adalah kira-kira 25 ribu rubel. Dari mana datangnya nombor ini? Kemungkinan besar, semua gaji ditambah dan dibahagikan dengan bilangan pekerja. Dalam kes ini, terdapat penyebaran yang sangat besar (gaji minimum adalah kira-kira 4 ribu rubel, dan maksimum adalah kira-kira 100 ribu rubel). Jika semua orang mempunyai gaji yang sama, maka serakan akan menjadi sifar, dan tidak akan ada sebaran.

Serakan pembolehubah rawak diskretX dipanggil jangkaan matematik kuasa dua perbezaan pembolehubah rawak dan jangkaan matematiknya:

D = M [ ((X - M (X)) 2 ]

Menggunakan takrif jangkaan matematik untuk mengira varians, kami memperoleh formula:

D \u003d S (x i - M (X)) 2 p i

Varians mempunyai dimensi kuasa dua pembolehubah rawak. Dalam kes di mana perlu mempunyai ciri berangka bagi serakan nilai yang mungkin dalam dimensi yang sama dengan pembolehubah rawak itu sendiri, sisihan piawai digunakan.

Sisihan piawai pembolehubah rawak dipanggil punca kuasa dua variansnya.

Sisihan kuasa dua min ialah ukuran serakan nilai pembolehubah rawak di sekeliling jangkaan matematiknya.

Contoh.

Hukum taburan pembolehubah rawak X diberikan oleh jadual berikut:

Cari jangkaan matematiknya, varians dan sisihan piawai .

Kami menggunakan formula di atas:

M (X) \u003d 1 0.1 + 2 0.4 + 4 0.4 + 5 0.1 \u003d 3

D \u003d (1-3) 2 0.1 + (2 - 3) 2 0.4 + (4 - 3) 2 0.4 + (5 - 3) 2 0.1 \u003d 1.6

Contoh.

Dalam loteri tunai, 1 kemenangan 1000 rubel, 10 kemenangan 100 rubel dan 100 kemenangan 1 rubel setiap satu dengan jumlah tiket 10,000 dimainkan. Buat undang-undang pengedaran untuk kemenangan rawak X untuk pemilik satu tiket loteri dan tentukan jangkaan matematik, varians dan sisihan piawai bagi pembolehubah rawak .

X 1 \u003d 1000, X 2 \u003d 100, X 3 \u003d 1, X 4 \u003d 0,

P 1 = 1/10000 = 0.0001, P 2 = 10/10000 = 0.001, P 3 = 100/10000 = 0.01, P 4 = 1 - (P 1 + P 2 + P 3) = 0.9889 .

Kami meletakkan keputusan dalam jadual:

Jangkaan matematik - jumlah hasil berpasangan bagi nilai pembolehubah rawak mengikut kebarangkalian mereka. Untuk masalah ini, adalah dinasihatkan untuk mengiranya dengan formula

1000 0.0001 + 100 0.001 + 1 0.01 + 0 0.9889 = 0.21 rubel.

Kami mendapat harga tiket yang "adil".

D \u003d S (x i - M (X)) 2 p i \u003d (1000 - 0.21) 2 0.0001 + (100 - 0.21) 2 0.001 +

+ (1 - 0,21) 2 0,01 + (0 - 0,21) 2 0,9889 ≈ 109,97

Fungsi taburan pembolehubah rawak selanjar

Nilai, yang hasil daripada ujian akan mengambil satu nilai yang mungkin (tidak diketahui terlebih dahulu yang mana satu), dipanggil pembolehubah rawak. Seperti yang dinyatakan di atas, pembolehubah rawak adalah diskret (tak selanjar) dan berterusan.

Pembolehubah diskret ialah pembolehubah rawak yang mengambil nilai yang mungkin berasingan dengan kebarangkalian tertentu yang boleh dinomborkan.

Pembolehubah berterusan ialah pembolehubah rawak yang boleh mengambil semua nilai dari beberapa selang terhingga atau tak terhingga.

Sehingga tahap ini, kami telah mengehadkan diri kami kepada hanya satu "pelbagai" pembolehubah rawak - diskret, i.e. mengambil nilai terhingga.

Tetapi teori dan amalan statistik memerlukan penggunaan konsep pembolehubah rawak berterusan - membenarkan sebarang nilai berangka dari sebarang selang.

Hukum taburan pembolehubah rawak selanjar ditentukan dengan mudah menggunakan fungsi ketumpatan kebarangkalian yang dipanggil. f(x). Kebarangkalian P(a< X < b) того, что значение, принятое случайной величиной Х, попадет в промежуток (a; b), определяется равенством

P (a< X < b) = ∫ f(x) dx

Graf bagi fungsi f (x) dipanggil lengkung taburan. Secara geometri, kebarangkalian pembolehubah rawak jatuh ke dalam selang (a; b) adalah sama dengan luas trapezium lengkung yang sepadan, dibatasi oleh lengkung taburan, paksi Ox dan garis lurus x = a, x = b .

P(a£X

Jika set terhingga atau boleh dikira ditolak daripada peristiwa kompleks, kebarangkalian peristiwa baharu akan kekal tidak berubah.

Fungsi f(x) - fungsi skalar berangka bagi argumen sebenar x dipanggil ketumpatan kebarangkalian, dan wujud pada titik x jika terdapat had pada titik ini:

Sifat Ketumpatan Kebarangkalian:

  1. Ketumpatan kebarangkalian ialah fungsi bukan negatif, iaitu f(x) ≥ 0

(jika semua nilai pembolehubah rawak X berada dalam selang (a;b), maka yang terakhir

kesamaan boleh ditulis sebagai ∫ f (x) dx = 1).

Pertimbangkan sekarang fungsi F(x) = P(X< х). Эта функция называется функцией распределения вероятности случайной величины Х. Функция F(х) существует как для дискретных, так и для непрерывных случайных величин. Если f (x) - функция плотности распределения вероятности

pembolehubah rawak selanjar X, maka F (x) = ∫ f(x) dx = 1).

Ia mengikuti daripada kesamaan terakhir bahawa f (x) = F" (x)

Kadangkala fungsi f(x) dipanggil fungsi taburan kebarangkalian pembezaan, dan fungsi F(x) dipanggil fungsi taburan kebarangkalian kumulatif.

Kami perhatikan sifat terpenting bagi fungsi taburan kebarangkalian:

  1. F(x) ialah fungsi tidak menurun.
  2. F(-∞)=0.
  3. F (+∞) = 1.

Konsep fungsi taburan adalah penting kepada teori kebarangkalian. Menggunakan konsep ini, seseorang boleh memberikan definisi lain bagi pembolehubah rawak berterusan. Pembolehubah rawak dipanggil selanjar jika fungsi taburan kamiran F(x) adalah selanjar.

Ciri berangka pembolehubah rawak selanjar

Jangkaan matematik, varians dan parameter lain bagi mana-mana pembolehubah rawak hampir selalu dikira menggunakan formula yang mengikuti daripada undang-undang taburan.

Untuk pembolehubah rawak berterusan, jangkaan matematik dikira dengan formula:

M(X) = ∫ x f(x) dx

Penyerakan:

D(X) = ∫ ( x- M (X)) 2 f(x) dx atau D(X) = ∫ x 2 f(x) dx - (M (X)) 2

2. Regresi linear

Biarkan komponen X dan Y pembolehubah rawak dua dimensi (X, Y) bersandar. Kami akan menganggap bahawa salah satu daripada mereka boleh diwakili lebih kurang sebagai fungsi linear yang lain, sebagai contoh

Y ≈ g(X) = α + βX, dan tentukan parameter α dan β menggunakan kaedah kuasa dua terkecil.

Definisi. Fungsi g(X) = α + βX dipanggil anggaran terbaik Y dalam erti kata kaedah kuasa dua terkecil, jika jangkaan matematik M(Y - g(X)) 2 mengambil nilai terkecil yang mungkin; fungsi g(X) dipanggil min regresi kuasa dua Y kepada X.

Teorem Regresi kuasa dua linear bagi Y pada X ialah:

di manakah pekali korelasi X dan Y.

Pekali persamaan.

Seseorang boleh menyemak bahawa untuk nilai ini fungsi fungsi F(α, β)

F(α, β ) = M(Y - α - βX)² mempunyai minimum, yang membuktikan penegasan teorem.

Definisi. Pekali dipanggil pekali regresi Y pada X, dan garis lurus - - regresi kuasa dua langsung bagi Y pada X.

Menggantikan koordinat titik pegun ke dalam kesamaan, kita boleh mencari nilai minimum bagi fungsi F(α, β) sama dengan Nilai ini dipanggil serakan sisa Y relatif kepada X dan mencirikan jumlah ralat yang dibenarkan apabila menggantikan Y dengan

g(X) = α + βX. Pada , varians baki ialah 0, iaitu, kesamaan bukan anggaran, tetapi tepat. Oleh itu, apabila Y dan X disambungkan oleh kebergantungan fungsi linear. Begitu juga, anda boleh mendapatkan garis lurus regresi akar-min-kuasa dua bagi X pada Y:

dan varians baki X berkenaan dengan Y. Bagi kedua-dua regresi langsung bertepatan. Membandingkan persamaan regresi Y pada X dan X pada Y dan menyelesaikan sistem persamaan, anda boleh mencari titik persilangan garis regresi - titik dengan koordinat (t x, t y), dipanggil pusat taburan bersama nilai X dan Y.

Kami akan mempertimbangkan algoritma untuk menyusun persamaan regresi daripada buku teks oleh V. E. Gmurman "Teori Kebarangkalian dan Statistik Matematik" ms 256.

1) Susun jadual pengiraan di mana bilangan elemen sampel, pilihan sampel, kuasa dua dan hasil darabnya akan direkodkan.

2) Kira jumlah ke atas semua lajur kecuali nombor.

3) Kira nilai purata bagi setiap kuantiti, serakan dan sisihan piawai.

5) Uji hipotesis tentang wujudnya hubungan antara X dan Y.

6) Susun persamaan kedua-dua garis regresi dan plotkan graf bagi persamaan ini.

Kecerunan regresi garis lurus Y pada X ialah pekali regresi sampel

Pekali b=

Kami memperoleh persamaan yang dikehendaki bagi garis regresi Y pada X:

Y \u003d 0.202 X + 1.024

Begitu juga, persamaan regresi X pada Y:

Kecerunan regresi garis lurus Y pada X ialah pekali regresi sampel pxy:

Pekali b=

X \u003d 4.119 Y - 3.714

3. Regresi bukan linear

Sekiranya terdapat hubungan bukan linear antara fenomena ekonomi, maka ia dinyatakan menggunakan fungsi bukan linear yang sepadan.

Terdapat dua kelas regresi bukan linear:

1. Regresi yang tidak linear berkenaan dengan pembolehubah penjelasan yang disertakan dalam analisis, tetapi linear berkenaan dengan parameter anggaran, contohnya:

Polinomial pelbagai darjah

Hiperbola sama sisi - ;

Fungsi semilogaritma - .

2. Regresi yang tidak linear dari segi parameter anggaran, contohnya:

Kuasa - ;

Demonstratif -;

Eksponen - .

Regresi bukan linear pada pembolehubah yang disertakan dikurangkan kepada bentuk linear dengan perubahan mudah pembolehubah, dan anggaran selanjutnya parameter dilakukan menggunakan kaedah kuasa dua terkecil. Mari kita pertimbangkan beberapa fungsi.

Parabola darjah kedua dikurangkan kepada bentuk linear menggunakan penggantian: . Akibatnya, kita sampai pada persamaan dua faktor, anggaran parameter yang menggunakan kaedah kuasa dua terkecil membawa kepada sistem persamaan:

Parabola darjah kedua biasanya digunakan dalam kes di mana, untuk selang nilai faktor tertentu, sifat perhubungan ciri yang sedang dipertimbangkan berubah: perhubungan langsung berubah kepada satu songsang atau satu songsang kepada satu langsung.

Hiperbola sama sisi boleh digunakan untuk mencirikan hubungan antara kos khusus bahan mentah, bahan, bahan api dan jumlah keluaran, masa peredaran barang dan nilai perolehan. Contoh klasiknya ialah keluk Phillips, yang mencirikan hubungan tidak linear antara kadar pengangguran x dan peratus kenaikan gaji y.

Hiperbola dikurangkan kepada persamaan linear dengan penggantian mudah: . Anda juga boleh menggunakan kaedah Kuasa Dua Terkecil untuk membina sistem persamaan linear.

Dengan cara yang sama, kebergantungan dikurangkan kepada bentuk linear: , dan lain-lain.

Hiperbola sama sisi dan lengkung separa logaritma digunakan untuk menerangkan keluk Engel (huraian matematik tentang hubungan antara bahagian perbelanjaan untuk barangan tahan lama dan jumlah perbelanjaan (atau pendapatan)). Persamaan di mana ia dimasukkan digunakan dalam kajian produktiviti, intensiti buruh pengeluaran pertanian.

4. Regresi Berganda

Regresi berbilang - persamaan pautan dengan berbilang pembolehubah bebas:

di mana pembolehubah bersandar (tanda hasil);

Pembolehubah bebas (faktor).

Untuk membina persamaan regresi berganda, fungsi berikut paling kerap digunakan:

linear -

kuasa -

pempamer -

hiperbola - .

Anda boleh menggunakan fungsi lain yang boleh dikurangkan kepada bentuk linear.

Untuk menganggar parameter persamaan regresi berganda, kaedah kuasa dua terkecil (LSM) digunakan. Untuk persamaan linear dan persamaan bukan linear boleh dikurangkan kepada yang linear, sistem persamaan normal berikut dibina, penyelesaiannya memungkinkan untuk mendapatkan anggaran parameter regresi:

Untuk menyelesaikannya, kaedah penentu boleh digunakan:

di manakah penentu sistem;

Penentu persendirian; yang diperoleh dengan menggantikan lajur sepadan matriks penentu sistem dengan data sebelah kiri sistem.

Satu lagi jenis persamaan regresi berbilang ialah persamaan regresi skala piawai, LSM boleh digunakan untuk persamaan regresi berbilang pada skala piawai.

5. PenggunaanCIKEXCELuntuk melakukan analisis regresi

Analisis regresi menetapkan bentuk hubungan antara pembolehubah rawak Y (bergantung) dan nilai-nilai satu atau lebih pembolehubah (bebas), dan nilai-nilai yang terakhir dianggap tepat diberikan. Kebergantungan sedemikian biasanya ditentukan oleh beberapa model matematik (persamaan regresi) yang mengandungi beberapa parameter yang tidak diketahui. Dalam perjalanan analisis regresi, berdasarkan data sampel, anggaran parameter ini ditemui, ralat statistik anggaran atau sempadan selang keyakinan ditentukan, dan pematuhan (kecukupan) model matematik yang diterima dengan data eksperimen diperiksa.

Dalam analisis regresi linear, hubungan antara pembolehubah rawak diandaikan sebagai linear. Dalam kes paling mudah, dalam model regresi linear berpasangan, terdapat dua pembolehubah X dan Y. Dan ia diperlukan untuk n pasangan pemerhatian (X1, Y1), (X2, Y2), ..., (Xn, Yn) untuk membina (memilih) garis lurus, dipanggil garis regresi, yang "terbaik" menghampiri nilai yang diperhatikan. Persamaan garis ini y=ax+b ialah persamaan regresi. Dengan menggunakan persamaan regresi, anda boleh meramalkan nilai jangkaan bagi pembolehubah bersandar y sepadan dengan nilai tertentu bagi pembolehubah bebas x. Dalam kes apabila pergantungan antara satu pembolehubah bersandar Y dan beberapa pembolehubah tidak bersandar X1, X2, ..., Xm dipertimbangkan, seseorang bercakap tentang regresi linear berganda.

Dalam kes ini, persamaan regresi mempunyai bentuk

y = a 0 +a 1 x 1 +a 2 x 2 +…+a m x m ,

di mana a0, a1, a2, …, am ialah pekali regresi yang akan ditentukan.

Pekali persamaan regresi ditentukan menggunakan kaedah kuasa dua terkecil, mencapai jumlah minimum perbezaan kuasa dua yang mungkin antara nilai sebenar pembolehubah Y dan yang dikira menggunakan persamaan regresi. Oleh itu, sebagai contoh, persamaan regresi linear boleh dibina walaupun tiada korelasi linear.

Ukuran keberkesanan model regresi ialah pekali penentuan R2 (R-square). Pekali penentuan boleh mengambil nilai antara 0 dan 1 menentukan dengan tahap ketepatan persamaan regresi yang terhasil menerangkan (menghampirkan) data asal. Kepentingan model regresi juga disiasat menggunakan kriteria F (Fisher) dan kebolehpercayaan perbezaan antara pekali a0, a1, a2, ..., am dari sifar disemak menggunakan ujian-t Pelajar.

Dalam Excel, data percubaan dianggarkan dengan persamaan linear sehingga tertib ke-16:

y = a0+a1x1+a2x2+…+a16x16

Untuk mendapatkan pekali regresi linear, prosedur "Regression" daripada pakej analisis boleh digunakan. Juga, fungsi LINEST menyediakan maklumat lengkap tentang persamaan regresi linear. Selain itu, fungsi SLOPE dan INTERCEPT boleh digunakan untuk mendapatkan parameter persamaan regresi, dan fungsi TREND dan FORECAST boleh digunakan untuk mendapatkan nilai Y yang diramalkan pada titik yang diperlukan (untuk regresi berpasangan).

Mari kita pertimbangkan secara terperinci penggunaan fungsi LINEST (known_y, [known_x], [constant], [statistik]): known_y - julat nilai diketahui parameter bergantung Y. Dalam analisis regresi berpasangan, ia boleh mempunyai sebarang bentuk; dalam bentuk jamak, ia mestilah sama ada baris atau lajur; known_x ialah julat nilai yang diketahui bagi satu atau lebih parameter bebas. Mesti mempunyai bentuk yang sama seperti julat Y (untuk berbilang parameter, berbilang lajur atau baris, masing-masing); malar - hujah boolean. Jika, berdasarkan makna praktikal tugas analisis regresi, adalah perlu bahawa garis regresi melalui asal, iaitu, pekali bebas adalah sama dengan 0, nilai hujah ini harus ditetapkan sama dengan 0 (atau " salah"). Jika nilai ditetapkan kepada 1 (atau "benar") atau ditinggalkan, maka pekali bebas dikira dengan cara biasa; statistik ialah hujah boolean. Jika nilai ditetapkan kepada 1 (atau "benar"), maka statistik regresi tambahan (lihat jadual) dikembalikan, digunakan untuk menilai keberkesanan dan kepentingan model. Dalam kes umum, untuk regresi berpasangan y=ax+b, hasil penggunaan fungsi LINEST kelihatan seperti ini:

Jadual. Julat Output LINEST untuk Analisis Regresi Berpasangan

Dalam kes analisis regresi berbilang untuk persamaan y=a0+a1x1+a2x2+…+amxm, pekali am,…,a1,a0 dipaparkan dalam baris pertama, dan ralat piawai untuk pekali ini dipaparkan dalam baris kedua . Baris 3-5, kecuali untuk dua lajur pertama yang diisi dengan statistik regresi, akan menghasilkan #N/A.

Fungsi LINEST hendaklah dimasukkan sebagai formula tatasusunan, mula-mula memilih tatasusunan saiz yang dikehendaki untuk hasilnya (m+1 lajur dan 5 baris jika statistik regresi diperlukan) dan melengkapkan kemasukan formula dengan menekan CTRL+SHIFT+ENTER.

Hasil untuk contoh kami:

Di samping itu, program ini mempunyai fungsi terbina dalam - Analisis Data pada tab Data.

Ia juga boleh digunakan untuk melakukan analisis regresi:

Pada slaid - hasil analisis regresi yang dilakukan menggunakan Analisis Data.

KEPUTUSAN

Statistik regresi

Berbilang R

R-segi empat

Petak-R ternormal

kesalahan biasa

Pemerhatian

Analisis varians

Kepentingan F

Regresi

Kemungkinan

kesalahan biasa

t-statistik

P-nilai

bawah 95%

95% teratas

Rendah 95.0%

95.0% teratas

persimpangan Y

Pembolehubah X 1

Persamaan regresi yang kita lihat sebelum ini juga dibina dalam MS Excel. Untuk melaksanakannya, mula-mula plot taburan dibina, kemudian melalui menu konteks, pilih - Tambah garis arah aliran. Dalam tetingkap baharu, tandakan kotak - Tunjukkan persamaan pada rajah dan letakkan nilai kebolehpercayaan anggaran (R ^ 2) pada rajah.

kesusasteraan:

  1. Teori Kebarangkalian dan Statistik Matematik. Gmurman V. E. Buku teks untuk universiti. - Ed. ke-10, sr. - M.: Lebih tinggi. sekolah, 2010. - 479s.
  2. Matematik yang lebih tinggi dalam latihan dan tugasan. Buku teks untuk universiti / Danko P. E., Popov A. G., Kozhevnikova T. Ya., Danko S. P. Dalam 2 jam - Ed. ke-6, sr. - M .: Oniks Publishing House LLC: Mir and Education Publishing House LLC, 2007. - 416 p.
    1. 3. http://www.machinelearning.ru/wiki/index.php?title=%D0%A0%D0%B5%D0%B3%D1%80%D0%B5%D1%81%D1%81%D0%B8 %D1%8F - beberapa maklumat tentang analisis regresi