Biografi Ciri-ciri Analisis

Contoh regresi linear berganda. Penyelesaian menggunakan hamparan Excel

Saya mempunyai rak buku yang besar termasuk banyak buku yang dibahagikan dalam pelbagai jenis. Di rak atas terdapat buku-buku agama seperti kitab Fiqh, kitab Tauhid, kitab Tasawuf, kitab Nahwu, dll. Mereka berbaris rapi dalam banyak baris dan ada di antaranya berbaris rapi mengikut kata penulis. Di peringkat kedua ialah buku-buku saya yang rajin seperti buku Tatabahasa, buku Penulisan, buku TOEFL, dll. Ini disusun berdasarkan saiz. Di rak sebelah ada pelbagai jenis saintifik dan buku berpengetahuan; contohnya, Falsafah, Politik, Sejarah, dll. Terdapat tiga peringkat untuk ini. Akhirnya, di bahagian bawah rak buku saya terdapat kamus, ia adalah kamus Arab dan kamus Inggeris serta kamus bahasa Indonesia. Sememangnya, terdapat enam tingkat dalam rak buku besar saya dan ia berbaris dalam banyak baris. Tahap pertama merangkumi buku agama, tahap kedua termasuk buku saya yang rajin belajar, tahap yang mempunyai tiga peringkat merangkumi pelbagai jenis buku ilmiah dan berilmu dan peringkat terakhir termasuk kamus. Pendek kata, saya suka rak buku saya.

Perintah khusus-ke-umum

Kemahiran yang diperlukan untuk menulis terdiri daripada membuat tanda grafik yang sesuai, melalui penggunaan sumber bahasa yang dipilih, kepada menjangka reaksi pembaca yang dimaksudkan. Bidang kemahiran pertama melibatkan memperoleh sistem tulisan, yang mungkin mengikut abjad (seperti dalam bahasa Eropah) atau bukan abjad (seperti dalam kebanyakan bahasa Asia). Bidang kemahiran kedua memerlukan pemilihan tatabahasa dan kosa kata yang sesuai untuk membentuk ayat yang boleh diterima dan kemudian menyusunnya dalam perenggan. Ketiga, penulisan melibatkan pemikiran tentang tujuan teks dikarang dan kemungkinan kesannya terhadap pembaca yang dimaksudkan. Satu aspek penting ciri terakhir ini ialah pilihan gaya yang sesuai. Tidak seperti bercakap, menulis adalah proses sosiokognitif yang kompleks yang perlu diperolehi melalui latihan atau persekolahan selama bertahun-tahun. (Swales and Feak, 1994, hlm. 34)

Perintah umum-ke-khusus

"Bekerja sambilan sebagai juruwang di Piggly Wiggly telah memberi saya peluang yang baik untuk memerhati tingkah laku manusia. Kadang-kadang saya menganggap pembeli sebagai tikus putih dalam eksperimen makmal, dan lorong sebagai labirin yang direka oleh ahli psikologi. Kebanyakan tikus--pelanggan, maksud saya--ikut corak rutin, bersiar-siar di atas dan ke bawah lorong, memeriksa melalui pelongsor saya, dan kemudian melarikan diri melalui pintu keluar. pelanggan yang tidak normal: penghidap amnesia, pembeli super dan pelangsing. . ."

Terdapat banyak faktor yang menyumbang kepada kejayaan pelajar di kolej. Faktor pertama ialah mempunyai matlamat dalam fikiran sebelum menubuhkan kursus pengajian. Matlamatnya mungkin sama umum seperti ingin mendidik diri dengan lebih baik untuk masa depan. Matlamat yang lebih khusus adalah untuk mendapatkan kelayakan mengajar. Faktor kedua yang berkaitan dengan kejayaan pelajar ialah motivasi diri dan komitmen. Seorang pelajar yang ingin berjaya dan berusaha ke arah keinginan ini akan mendapat kejayaan dengan mudah sebagai pelajar kolej. Faktor ketiga yang dikaitkan dengan kejayaan pelajar ialah menggunakan perkhidmatan kolej. Kebanyakan pelajar kolej permulaan gagal menyedari betapa pentingnya berjumpa kaunselor atau berunding dengan pustakawan atau pegawai bantuan kewangan.

Terdapat tiga sebab mengapa Kanada adalah salah satu daripadanya yang terbaik negara di dunia. Pertama, Kanada mempunyai perkhidmatan penjagaan kesihatan yang sangat baik. Semua warga Kanada mempunyai akses kepada perkhidmatan perubatan pada harga yang berpatutan. Kedua, Kanada mempunyai taraf pendidikan yang tinggi. Pelajar diajar menjadi guru yang terlatih dan digalakkan untuk terus belajar di universiti. Akhirnya, bandar-bandar di Kanada bersih dan teratur dengan cekap. Bandar Kanada mempunyai banyak taman dan banyak ruang untuk orang ramai tinggal. Akibatnya, Kanada adalah tempat yang diingini untuk didiami.

York didakwa oleh enam askar Jerman yang datang kepadanya dengan bayonet tetap. Dia melukis manik pada lelaki keenam, menembak, dan kemudian pada lelaki kelima. Dia berusaha menyusuri barisan, dan sebelum dia sedar, lelaki pertama itu bersendirian. York membunuhnya dengan satu tembakan.

Sambil dia melihat sekeliling kampus yang hampir tidak berubah, dia berasa lega saat-saat dia bersama Nancy. Dia teringat bagaimana mereka berdua akan duduk di tepi kolam, berbual tanpa henti sambil memberi makan ikan dan juga bagaimana mereka akan berjalan-jalan bersama, hilang dalam dunia mereka sendiri. Ya, Nancy adalah salah seorang daripada beberapa kawan yang pernah dia ada. ….Dia tiba-tiba dipenuhi dengan nostalgia apabila dia teringat petang itu dia telah mengucapkan selamat tinggal kepada Nancy. Dia mendengus kuat sambil matanya bergenang air mata.

Contoh penyelesaian masalah pada regresi berganda

Contoh 1 Persamaan regresi, dibina berdasarkan 17 pemerhatian, mempunyai bentuk:

Susun nilai yang hilang, serta bina selang keyakinan untuk b 2 dengan kebarangkalian 0.99.

Penyelesaian. Nilai yang hilang ditentukan menggunakan formula:

Oleh itu, persamaan regresi dengan ciri statistik kelihatan seperti ini:

Selang keyakinan untuk b 2 bina mengikut formula yang sepadan. Di sini tahap keertian ialah 0.01, dan bilangan darjah kebebasan ialah nhlm– 1 = 17 – 3 – 1 = 13, di mana n= 17 – saiz sampel, hlm= 3 ialah bilangan faktor dalam persamaan regresi. Dari sini

atau . Selang keyakinan ini meliputi nilai sebenar parameter dengan kebarangkalian 0.99.

Contoh 2 Persamaan regresi dalam pembolehubah piawai kelihatan seperti ini:

Dalam kes ini, variasi semua pembolehubah adalah sama dengan nilai berikut:

Bandingkan faktor mengikut tahap pengaruh pada ciri yang terhasil dan tentukan nilai pekali keanjalan separa.

Penyelesaian. Persamaan regresi piawai membolehkan anda membandingkan faktor dengan kekuatan pengaruhnya terhadap keputusan. Pada masa yang sama, lebih besar nilai mutlak pekali pembolehubah piawai, lebih kuat faktor ini mempengaruhi sifat yang terhasil. Dalam persamaan yang dipertimbangkan, faktor yang mempunyai pengaruh paling kuat ke atas keputusan ialah x 1, yang mempunyai pekali 0.82, yang paling lemah ialah faktor x 3 dengan pekali sama dengan - 0.43.

Dalam model regresi berbilang linear, pekali umum (purata) keanjalan separa ditentukan oleh ungkapan yang merangkumi nilai purata pembolehubah dan pekali pada faktor sepadan persamaan regresi skala semula jadi. Dalam keadaan masalah, kuantiti ini tidak dinyatakan. Oleh itu, kami menggunakan ungkapan untuk variasi berkenaan dengan pembolehubah:

Kemungkinan bj dikaitkan dengan pekali piawai β j nisbah yang sepadan, yang kita gantikan ke dalam formula untuk pekali keanjalan purata:

.

Dalam kes ini, tanda pekali keanjalan akan bertepatan dengan tanda β j:

Contoh 3 Berdasarkan 32 pemerhatian, data berikut diperolehi:

Tentukan nilai pekali penentuan terlaras, pekali keanjalan separa dan parameter a.

Penyelesaian. Nilai pekali penentuan terlaras ditentukan oleh salah satu formula untuk pengiraannya:

Pekali keanjalan separa (purata berbanding populasi) dikira menggunakan formula yang sesuai:

Oleh kerana persamaan linear regresi berganda dilakukan dengan menggantikan nilai purata semua pembolehubah ke dalamnya, kami menentukan parameter a:

Contoh 4 Untuk beberapa pembolehubah, statistik berikut tersedia:

Bina persamaan regresi dalam skala piawai dan semula jadi.

Penyelesaian. Oleh kerana pekali korelasi pasangan antara pembolehubah pada mulanya diketahui, seseorang harus bermula dengan membina persamaan regresi pada skala piawai. Untuk melakukan ini, adalah perlu untuk menyelesaikan sistem persamaan normal yang sepadan, yang dalam kes dua faktor mempunyai bentuk:

atau, selepas menggantikan data awal:

Kami menyelesaikan sistem ini dalam apa jua cara, kami mendapat: β1 = 0,3076, β2 = 0,62.

Mari kita tulis persamaan regresi pada skala piawai:

Sekarang mari kita beralih kepada persamaan regresi skala semula jadi, yang mana kita menggunakan formula untuk mengira pekali regresi melalui pekali beta dan sifat kesaksamaan persamaan regresi untuk pembolehubah purata:

Persamaan regresi skala semula jadi ialah:

Contoh 5 Apabila membina regresi berbilang linear untuk 48 ukuran, pekali penentuan ialah 0.578. Selepas menghapuskan faktor x 3, x 7 dan x 8 pekali penentuan menurun kepada 0.495. Adakah keputusan untuk menukar komposisi pembolehubah yang mempengaruhi pada tahap keertian 0.1, 0.05 dan 0.01 wajar?

Penyelesaian. Biarkan - pekali penentuan persamaan regresi dengan set awal faktor, - pekali penentuan selepas pengecualian tiga faktor. Kami mengemukakan hipotesis:

;

Hipotesis utama menunjukkan bahawa penurunan dalam magnitud adalah tidak ketara, dan keputusan untuk mengecualikan sekumpulan faktor adalah betul. Hipotesis alternatif menunjukkan ketepatan keputusan untuk mengecualikan.

Untuk menguji hipotesis nol, kami menggunakan statistik berikut:

,

di mana n = 48, hlm= 10 - bilangan awal faktor, k= 3 - bilangan faktor yang dikecualikan. Kemudian

Mari kita bandingkan nilai yang diperolehi dengan nilai kritikal F(α ; 3; 39) pada tahap 0.1; 0.05 dan 0.01:

F(0,1; 3; 37) = 2,238;

F(0,05; 3; 37) = 2,86;

F(0,01; 3; 37) = 4,36.

Di peringkat α = 0,1 F obl > F cr, sifar - hipotesis ditolak, pengecualian kumpulan faktor ini tidak wajar, pada tahap 0.05 0.01 sifar - hipotesis tidak boleh ditolak, dan pengecualian faktor boleh dianggap wajar.

Contoh 6. Berdasarkan data suku tahunan dari 2000 hingga 2004, persamaan telah diperolehi. Pada masa yang sama, ESS=110.3, RSS=21.4 (ESS – menjelaskan RMSE, RSS – baki RMSE). Tiga pembolehubah palsu telah ditambahkan pada persamaan, sepadan dengan tiga suku pertama tahun itu, dan nilai ESS meningkat kepada 120.2. Adakah terdapat kemusim dalam persamaan ini?

Penyelesaian. Ini adalah tugas untuk menyemak kesahihan memasukkan sekumpulan faktor dalam persamaan regresi berganda. Tiga pembolehubah telah ditambahkan pada persamaan tiga faktor asal untuk mewakili tiga suku pertama tahun itu.

Mari kita tentukan pekali penentuan persamaan. Jumlah sisihan piawai ditakrifkan sebagai jumlah sisihan piawai faktorial dan sisa:

TSS = ESS 1 + RSS 1 = 110.3 + 21.4 = 131.7

Kami menguji hipotesis. Untuk menguji hipotesis nol, kami menggunakan statistik

Di sini n= 20 (20 suku dalam tempoh lima tahun - dari 2000 hingga 2004), hlm = 6 (jumlah faktor dalam persamaan regresi selepas memasukkan faktor baru), k= 3 (bilangan faktor yang disertakan). Dengan cara ini:

Mari kita tentukan nilai kritikal statistik Fisher pada pelbagai tahap kepentingan:

Pada tahap keertian 0.1 dan 0.05 F obl> F cr, sifar - hipotesis ditolak memihak kepada alternatif, dan bermusim dalam regresi adalah wajar (penambahan tiga faktor baru adalah wajar), dan pada tahap 0.01 F obl< F cr, dan sifar – hipotesis tidak boleh ditolak; penambahan faktor baru tidak wajar, kemusim dalam regresi tidak ketara.

Contoh 7 Apabila menganalisis data untuk heteroskedastisitas, keseluruhan sampel dibahagikan kepada tiga subsampel selepas dipesan oleh salah satu faktor. Kemudian, berdasarkan keputusan analisis regresi tiga hala, ditentukan bahawa baki SD dalam subsampel pertama ialah 180, dan dalam ketiga - 63. Adakah kehadiran heteroskedastisitas disahkan jika volum data dalam setiap subsampel ialah 20 ?

Penyelesaian. Kira statistik untuk menguji hipotesis nol homoskedastisitas menggunakan ujian Goldfeld–Quandt:

.

Cari nilai kritikal statistik Fisher:

Oleh itu, pada aras keertian 0.1 dan 0.05 F obl> F cr, dan heteroskedastisitas berlaku, dan pada tahap 0.01 F obl< F cr, dan hipotesis homoskedastisitas tidak boleh ditolak.

Contoh 8. Berdasarkan data suku tahunan, persamaan regresi berganda telah diperolehi iaitu ESS = 120.32 dan RSS = 41.4. Untuk model yang sama, regresi telah dijalankan secara berasingan berdasarkan data berikut: 1991 suku 1 - 1995 suku 1 dan 1995 suku 2 - 1996 suku 4. Dalam regresi ini, baki RMSE, masing-masing, adalah 22.25 dan 12.32 . Uji hipotesis tentang kehadiran perubahan struktur dalam sampel.

Penyelesaian. Masalah kehadiran perubahan struktur dalam sampel diselesaikan menggunakan ujian Chow.

Hipotesis mempunyai bentuk: , di mana s0, s 1 dan s2 adalah sisa sisihan piawai bagi persamaan tunggal untuk keseluruhan sampel dan persamaan regresi untuk dua subsampel daripada jumlah sampel, masing-masing. Hipotesis utama menafikan kehadiran perubahan struktur dalam sampel. Untuk menguji hipotesis nol, statistik dikira ( n = 24; hlm = 3):

Oleh kerana F ialah statistik kurang daripada satu, nol bermakna bahawa hipotesis tidak boleh ditolak untuk sebarang tahap kepentingan. Sebagai contoh, untuk tahap keertian 0.05.

Analisis regresi ialah kaedah penyelidikan statistik yang membolehkan anda menunjukkan pergantungan parameter pada satu atau lebih pembolehubah tidak bersandar. Pada era pra-komputer, penggunaannya agak sukar, terutamanya apabila ia melibatkan jumlah data yang besar. Hari ini, setelah mempelajari cara membina regresi dalam Excel, anda boleh menyelesaikan masalah statistik yang kompleks dalam beberapa minit sahaja. Di bawah adalah contoh konkrit daripada bidang ekonomi.

Jenis regresi

Konsep itu sendiri telah diperkenalkan ke dalam matematik pada tahun 1886. Regresi berlaku:

  • linear;
  • parabola;
  • kuasa;
  • eksponen;
  • hiperbola;
  • demonstratif;
  • logaritma.

Contoh 1

Pertimbangkan masalah menentukan pergantungan bilangan ahli pasukan bersara pada gaji purata di 6 perusahaan perindustrian.

Satu tugas. Di enam perusahaan, kami menganalisis purata gaji bulanan dan bilangan pekerja yang keluar kerana kehendak sendiri. Dalam bentuk jadual kami mempunyai:

Bilangan orang yang pergi

Gaji

30000 rubel

35000 rubel

40000 rubel

45000 rubel

50000 rubel

55000 rubel

60000 rubel

Untuk masalah menentukan pergantungan bilangan pekerja bersara pada purata gaji di 6 perusahaan, model regresi mempunyai bentuk persamaan Y = a 0 + a 1 x 1 +…+a k x k , di mana x i adalah pembolehubah yang mempengaruhi , a i ialah pekali regresi, a k ialah bilangan faktor.

Untuk tugas ini, Y ialah penunjuk pekerja yang keluar, dan faktor yang mempengaruhi ialah gaji, yang kami nyatakan dengan X.

Menggunakan keupayaan hamparan "Excel"

Analisis regresi dalam Excel mesti didahului dengan aplikasi fungsi terbina dalam kepada data jadual yang tersedia. Walau bagaimanapun, untuk tujuan ini, adalah lebih baik untuk menggunakan "kit Alat Analisis" tambahan yang sangat berguna. Untuk mengaktifkannya anda perlu:

  • dari tab "Fail", pergi ke bahagian "Pilihan";
  • dalam tetingkap yang terbuka, pilih baris "Add-ons";
  • klik pada butang "Pergi" yang terletak di bahagian bawah, di sebelah kanan baris "Pengurusan";
  • tandai kotak di sebelah nama "Pakej Analisis" dan sahkan tindakan anda dengan mengklik "OK".

Jika semuanya dilakukan dengan betul, butang yang dikehendaki akan muncul di sebelah kanan tab Data, yang terletak di atas lembaran kerja Excel.

dalam Excel

Kini setelah kami mempunyai semua alat maya yang diperlukan untuk melakukan pengiraan ekonometrik, kami boleh mula menyelesaikan masalah kami. Untuk ini:

  • klik pada butang "Analisis Data";
  • dalam tetingkap yang terbuka, klik pada butang "Regression";
  • dalam tab yang muncul, masukkan julat nilai untuk Y (bilangan pekerja yang berhenti) dan untuk X (gaji mereka);
  • Kami mengesahkan tindakan kami dengan menekan butang "Ok".

Akibatnya, program akan mengisi helaian hamparan baharu secara automatik dengan data analisis regresi. Catatan! Excel mempunyai keupayaan untuk menetapkan lokasi yang anda sukai secara manual untuk tujuan ini. Sebagai contoh, ia boleh menjadi helaian yang sama dengan nilai Y dan X, atau malah sebuah buku baru, direka khas untuk menyimpan data sedemikian.

Analisis keputusan regresi untuk R-square

Dalam Excel, data yang diperoleh semasa pemprosesan data contoh yang dipertimbangkan kelihatan seperti ini:

Pertama sekali, anda harus memberi perhatian kepada nilai R-square. Ia adalah pekali penentuan. Dalam contoh ini, R-square = 0.755 (75.5%), iaitu, parameter yang dikira model menerangkan hubungan antara parameter yang dipertimbangkan sebanyak 75.5%. Semakin tinggi nilai pekali penentuan, lebih sesuai model yang dipilih untuk tugas tertentu. Adalah dipercayai bahawa ia menggambarkan situasi sebenar dengan betul dengan nilai kuasa dua R melebihi 0.8. Jika R-kuasa dua<0,5, то такой анализа регрессии в Excel нельзя считать резонным.

Analisis nisbah

Nombor 64.1428 menunjukkan nilai Y jika semua pembolehubah xi dalam model yang kita pertimbangkan ditetapkan kepada sifar. Dengan kata lain, boleh dikatakan bahawa nilai parameter yang dianalisis juga dipengaruhi oleh faktor lain yang tidak diterangkan dalam model tertentu.

Pekali seterusnya -0.16285, terletak dalam sel B18, menunjukkan berat pengaruh pembolehubah X pada Y. Ini bermakna purata gaji bulanan pekerja dalam model yang dipertimbangkan mempengaruhi bilangan berhenti dengan berat -0.16285, i.e. tahap pengaruhnya sama sekali kecil. Tanda "-" menunjukkan bahawa pekali mempunyai nilai negatif. Ini jelas, kerana semua orang tahu bahawa semakin tinggi gaji di perusahaan, semakin kurang orang yang menyatakan keinginan untuk menamatkan kontrak pekerjaan atau berhenti.

Regresi berganda

Istilah ini merujuk kepada persamaan sambungan dengan beberapa pembolehubah bebas dalam bentuk:

y \u003d f (x 1 + x 2 + ... x m) + ε, dengan y ialah ciri berkesan (pembolehubah bersandar), dan x 1 , x 2 , ... x m ialah faktor faktor (pembolehubah bebas).

Anggaran Parameter

Bagi regresi berganda (MR) ia dijalankan menggunakan kaedah kuasa dua terkecil (OLS). Untuk persamaan linear dalam bentuk Y = a + b 1 x 1 +…+b m x m + ε, kami membina sistem persamaan normal (lihat di bawah)

Untuk memahami prinsip kaedah, pertimbangkan kes dua faktor. Kemudian kita mempunyai situasi yang diterangkan oleh formula

Dari sini kita dapat:

di mana σ ialah varians ciri sepadan yang ditunjukkan dalam indeks.

LSM boleh digunakan pada persamaan MP pada skala yang boleh dipiawaikan. Dalam kes ini, kita mendapat persamaan:

di mana t y , t x 1, … t xm ialah pembolehubah piawai yang mana nilai min ialah 0; β i ialah pekali regresi piawai, dan sisihan piawai ialah 1.

Sila ambil perhatian bahawa semua β i dalam kes ini ditetapkan sebagai normal dan berpusat, jadi perbandingan mereka antara satu sama lain dianggap betul dan boleh diterima. Di samping itu, adalah kebiasaan untuk menapis faktor, membuang faktor yang mempunyai nilai terkecil βi.

Masalah menggunakan persamaan regresi linear

Katakan terdapat jadual dinamik harga produk N tertentu dalam tempoh 8 bulan yang lalu. Adalah perlu untuk membuat keputusan mengenai kesesuaian untuk membeli kumpulannya pada harga 1850 rubel/t.

nombor bulan

nama bulan

harga barang N

1750 rubel setiap tan

1755 rubel setiap tan

1767 rubel setiap tan

1760 rubel setiap tan

1770 rubel setiap tan

1790 rubel setiap tan

1810 rubel setiap tan

1840 rubel setiap tan

Untuk menyelesaikan masalah ini dalam hamparan Excel, anda perlu menggunakan alat Analisis Data yang telah diketahui daripada contoh di atas. Seterusnya, pilih bahagian "Regression" dan tetapkan parameter. Perlu diingat bahawa dalam medan "Input interval Y", julat nilai untuk pembolehubah bersandar (dalam kes ini, harga produk dalam bulan tertentu dalam tahun) mesti dimasukkan, dan dalam "Input selang X" - untuk pembolehubah bebas (nombor bulan). Sahkan tindakan dengan mengklik "Ok". Pada helaian baharu (jika dinyatakan demikian), kami mendapat data untuk regresi.

Berdasarkan mereka, kami membina persamaan linear dalam bentuk y=ax+b, di mana parameter a dan b ialah pekali bagi baris dengan nama nombor bulan dan pekali serta baris "persilangan-Y" daripada lembaran dengan keputusan analisis regresi. Oleh itu, persamaan regresi linear (LE) untuk masalah 3 ditulis sebagai:

Harga produk N = 11.714* nombor bulan + 1727.54.

atau dalam tatatanda algebra

y = 11.714 x + 1727.54

Analisis keputusan

Untuk memutuskan sama ada persamaan yang terhasil adalah mencukupi regresi linear, pekali korelasi berganda (MCC) dan pekali penentuan digunakan, serta ujian Fisher dan ujian Pelajar. Dalam jadual Excel dengan keputusan regresi, mereka muncul di bawah nama berbilang R, R-square, F-statistic dan t-statistic, masing-masing.

KMC R memungkinkan untuk menilai ketepatan hubungan kebarangkalian antara pembolehubah bebas dan bersandar. Nilainya yang tinggi menunjukkan hubungan yang agak kuat antara pembolehubah "Bilangan bulan" dan "Harga barang N dalam rubel setiap 1 tan". Walau bagaimanapun, sifat hubungan ini masih tidak diketahui.

Kuasa dua pekali penentuan R 2 (RI) ialah ciri berangka bagi bahagian jumlah serakan dan menunjukkan serakan bahagian mana data eksperimen, i.e. nilai pembolehubah bersandar sepadan dengan persamaan regresi linear. Dalam masalah yang sedang dipertimbangkan, nilai ini bersamaan dengan 84.8%, iaitu, data statistik diterangkan dengan tahap ketepatan yang tinggi oleh SD yang diperolehi.

F-statistik, juga dipanggil ujian Fisher, digunakan untuk menilai kepentingan hubungan linear, menyangkal atau mengesahkan hipotesis kewujudannya.

(Kriteria pelajar) membantu menilai kepentingan pekali dengan istilah yang tidak diketahui atau bebas bagi hubungan linear. Jika nilai t-kriteria > t cr, maka hipotesis ketidaksignifikan istilah bebas persamaan linear ditolak.

Dalam masalah yang sedang dipertimbangkan untuk ahli bebas, menggunakan alat Excel, didapati bahawa t = 169.20903, dan p = 2.89E-12, iaitu kita mempunyai kebarangkalian sifar bahawa hipotesis yang betul tentang tidak signifikan ahli bebas akan ditolak. Untuk pekali pada t=5.79405 tidak diketahui, dan p=0.001158. Dalam erti kata lain, kebarangkalian bahawa hipotesis yang betul tentang tidak signifikan pekali untuk yang tidak diketahui akan ditolak ialah 0.12%.

Oleh itu, boleh dikatakan bahawa persamaan regresi linear yang terhasil adalah memadai.

Masalah kesesuaian membeli satu blok saham

Regresi berbilang dalam Excel dilakukan menggunakan alat Analisis Data yang sama. Pertimbangkan masalah yang digunakan khusus.

Pengurusan NNN mesti membuat keputusan mengenai kesesuaian untuk membeli 20% kepentingan dalam MMM SA. Kos pakej (JV) ialah 70 juta dolar AS. Pakar NNN mengumpul data mengenai transaksi yang serupa. Ia telah memutuskan untuk menilai nilai blok saham mengikut parameter tersebut, dinyatakan dalam berjuta-juta dolar AS, seperti:

  • akaun belum bayar (VK);
  • isipadu perolehan tahunan(VO);
  • akaun belum terima (VD);
  • kos aset tetap (SOF).

Di samping itu, parameter tunggakan gaji perusahaan (V3 P) dalam ribuan dolar AS digunakan.

Penyelesaian menggunakan hamparan Excel

Pertama sekali, anda perlu membuat jadual data awal. Ia kelihatan seperti ini:

  • panggil tetingkap "Analisis Data";
  • pilih bahagian "Regression";
  • dalam kotak "Selang input Y" masukkan julat nilai pembolehubah bersandar dari lajur G;
  • klik pada ikon dengan anak panah merah di sebelah kanan tetingkap "Input interval X" dan pilih julat semua nilai dari lajur B, C, D, F pada helaian.

Pilih "Lembaran Kerja Baharu" dan klik "Ok".

Dapatkan analisis regresi untuk masalah yang diberikan.

Pemeriksaan keputusan dan kesimpulan

"Kami mengumpul" daripada data bulat yang dibentangkan di atas pada helaian hamparan Excel, persamaan regresi:

SP \u003d 0.103 * SOF + 0.541 * VO - 0.031 * VK + 0.405 * VD + 0.691 * VZP - 265.844.

Dalam yang lebih dikenali bentuk matematik ia boleh ditulis sebagai:

y = 0.103*x1 + 0.541*x2 - 0.031*x3 +0.405*x4 +0.691*x5 - 265.844

Data untuk JSC "MMM" dibentangkan dalam jadual:

Menggantikannya ke dalam persamaan regresi, mereka mendapat angka 64.72 juta dolar AS. Ini bermakna bahawa saham JSC MMM tidak boleh dibeli, kerana nilainya sebanyak 70 juta dolar AS agak berlebihan.

Seperti yang anda lihat, penggunaan hamparan Excel dan persamaan regresi memungkinkan untuk membuat keputusan termaklum mengenai kebolehlaksanaan transaksi yang sangat spesifik.

Sekarang anda tahu apa itu regresi. Contoh-contoh dalam Excel yang dibincangkan di atas akan membantu anda menyelesaikan masalah praktikal dari bidang ekonometrik.

Soalan:

4. Anggaran parameter model linear regresi berganda.

5. Penilaian kualiti regresi linear berganda.

6. Analisis dan ramalan berdasarkan model multifaktorial.

Regresi berganda ialah generalisasi regresi berpasangan. Ia digunakan untuk menerangkan hubungan antara pembolehubah yang dijelaskan (bersandar) Y dan pembolehubah penerang (tidak bersandar) X 1 ,X 2 ,…,X k . Regresi berbilang boleh sama ada linear atau bukan linear, tetapi regresi berbilang linear adalah yang paling banyak digunakan dalam ekonomi.

secara teori model linear regresi berganda kelihatan seperti:

regresi sampel yang sepadan dilambangkan dengan:

Seperti dalam regresi berpasangan, istilah rawak ε mesti memenuhi andaian asas analisis regresi. Kemudian, dengan bantuan LSM, anggaran terbaik yang tidak berat sebelah dan cekap bagi parameter regresi teori diperolehi. Di samping itu, pembolehubah Х 1 ,Х 2 ,…,Х k mestilah tidak berkorelasi (bersandar secara linear) antara satu sama lain. Untuk menulis formula untuk menganggar pekali regresi (2), yang diperoleh berdasarkan LSM, kami memperkenalkan tatatanda berikut:

Kemudian kita boleh menulis dalam bentuk vektor-matriks model teori:

dan regresi terpilih

OLS membawa kepada formula berikut untuk menganggar vektor pekali regresi sampel:

(3)

Untuk menganggarkan pekali regresi linear berganda dengan dua pembolehubah bebas , kita boleh menyelesaikan sistem persamaan:

(4)

Seperti dalam regresi linear berpasangan, untuk regresi berganda, ralat standard regresi S dikira:

(5)

dan ralat piawai bagi pekali regresi:

(6)

kepentingan pekali disemak menggunakan ujian-t.

mempunyai taburan Pelajar dengan bilangan darjah kebebasan v= n-k-1.

Untuk menilai kualiti regresi, pekali (indeks) penentuan digunakan:

, (8)

semakin hampir kepada 1, semakin tinggi kualiti regresi.

Untuk menyemak kepentingan pekali penentuan, kriteria Fisher atau F-statistik digunakan.



(9)

Dengan v1=k, v2=n-k-1 darjah kebebasan.

Dalam regresi multivariate, menambah pembolehubah penjelasan tambahan meningkatkan pekali penentuan. Untuk mengimbangi peningkatan tersebut, pekali penentuan yang diselaraskan (atau dinormalkan) diperkenalkan:

(10)

Jika peningkatan bahagian regresi yang dijelaskan dengan menambah pembolehubah baru adalah kecil, maka ia mungkin berkurangan. Jadi, menambah pembolehubah baharu adalah tidak sesuai.

Contoh 4:

Biarkan pergantungan keuntungan perusahaan pada kos peralatan dan mesin baru dan pada kos meningkatkan kemahiran pekerja dipertimbangkan. Mengumpul data statistik pada 6 perusahaan daripada jenis yang sama. Data dalam juta den. unit diberikan dalam jadual 1.

Jadual 1

Plot regresi linear dua hala dan menilai kepentingannya. Mari kita perkenalkan notasi:

Kami menukar matriks X:

Penyongsangan matriks ini:

Oleh itu, pergantungan keuntungan ke atas kos peralatan dan mesin baru dan pada kos meningkatkan kemahiran pekerja boleh digambarkan dengan regresi berikut:

Menggunakan formula (5), di mana k=2, kita mengira ralat piawai regresi S=0.636.

Kami mengira ralat piawai pekali regresi menggunakan formula (6):

Begitu juga:

Mari kita semak kepentingan pekali regresi a 1 , a 2 . kira t calc.

Kami memilih tahap kepentingan , bilangan darjah kebebasan

bermakna pekali a 1 ketara.

Mari kita anggarkan kepentingan pekali a 2:

Pekali a 2 tidak penting.

Mari kita hitung pekali penentuan mengikut formula (7) . Keuntungan perusahaan sebanyak 96% bergantung pada kos peralatan dan mesin baru dan latihan lanjutan sebanyak 4% daripada faktor lain dan rawak. Mari kita semak kepentingan pekali penentuan. Kira F pengiraan.:

kemudian. pekali penentuan adalah signifikan, persamaan regresi adalah signifikan.

Amat penting dalam analisis berdasarkan regresi multivariate ialah perbandingan pengaruh faktor ke atas penunjuk bersandar y. Pekali regresi tidak digunakan untuk tujuan ini, disebabkan oleh perbezaan dalam unit ukuran dan darjah yang berbeza-beza turun naik. Daripada kekurangan ini, pekali keanjalan bebas adalah:

Keanjalan menunjukkan berapa peratus penunjuk bergantung y berubah secara purata apabila pembolehubah berubah sebanyak 1%, dengan syarat nilai pembolehubah lain kekal tidak berubah. Lebih besar, lebih besar pengaruh pembolehubah sepadan. Seperti dalam regresi berpasangan, untuk regresi berganda, perbezaan dibuat antara ramalan titik dan ramalan selang. Ramalan titik (nombor) diperoleh dengan menggantikan nilai ramalan pembolehubah bebas ke dalam persamaan regresi berganda. Nyatakan dengan:

(12)

vektor nilai ramalan pembolehubah bebas, kemudian ramalan titik

kesalahan biasa ramalan dalam kes regresi berganda ditakrifkan seperti berikut:

(15)

Kami memilih aras keertian α mengikut jadual taburan Pelajar. Untuk aras keertian α dan bilangan darjah kebebasan ν = n-k-1, kita dapati t cr. Kemudian nilai sebenar y p dengan kebarangkalian 1- α jatuh ke dalam selang:


Topik 5:

Siri masa.

Soalan:

4. Konsep asas siri masa.

5. Trend pembangunan utama ialah trend.

6. Membina model aditif.

Siri masa mewakili satu set nilai mana-mana penunjuk untuk beberapa saat atau tempoh masa berturut-turut.

Momen (atau tempoh) masa dilambangkan dengan t, dan nilai penunjuk pada saat masa dilambangkan dengan y (t) dan dipanggil peringkat baris .

Setiap peringkat siri masa dibentuk di bawah pengaruh sejumlah besar faktor yang boleh dibahagikan kepada 3 kumpulan:

Faktor kekal jangka panjang yang mempunyai pengaruh yang menentukan terhadap fenomena yang dikaji dan membentuk arah aliran utama siri - arah aliran T(t).

Faktor berkala jangka pendek yang membentuk turun naik bermusim bagi siri S(t).

Faktor rawak yang membentuk perubahan rawak dalam tahap siri ε(t).

Model aditif siri masa ialah model di mana setiap peringkat siri diwakili oleh jumlah aliran, bermusim dan komponen rawak:

Model berganda ialah model di mana setiap peringkat siri adalah hasil daripada komponen yang disenaraikan:

Pilihan salah satu model adalah berdasarkan analisis struktur turun naik bermusim. Jika amplitud ayunan adalah lebih kurang malar, maka model aditif dibina. Jika amplitud bertambah, maka model pendaraban.

Tugas utama analisis ekonometrik adalah untuk mengenal pasti setiap komponen yang disenaraikan.

Aliran pembangunan utama (trend) dipanggil perubahan lancar dan stabil dalam tahap siri dari semasa ke semasa, bebas daripada turun naik rawak dan bermusim.

Tugas mengenal pasti trend pembangunan utama dipanggil penjajaran siri masa .

Kaedah penjajaran siri masa termasuk:

1) kaedah pembesaran selang,

2) kaedah purata bergerak,

3) penjajaran analitikal.

1) Tempoh masa yang dirujuk tahap siri diperbesarkan. Kemudian, tahap siri itu dijumlahkan pada selang yang diperbesarkan. Turun naik dalam tahap disebabkan sebab rawak membatalkan satu sama lain. Trend umum lebih jelas didedahkan.

2) Untuk menentukan bilangan tahap pertama siri itu, yang nilai purata. Kemudian purata dikira daripada bilangan tahap yang sama dalam siri, bermula dari tahap kedua, dan seterusnya. nilai purata meluncur sepanjang siri dinamik, meningkat sebanyak 1 tempoh (titik dalam masa). Bilangan tahap siri di mana purata dikira boleh genap atau ganjil. Untuk purata bergerak ganjil, rujuk pada pertengahan tempoh gelongsor. Untuk tempoh genap, mencari nilai purata tidak dibandingkan dengan takrifan t, tetapi prosedur pemusatan digunakan, i.e. hitung purata dua purata bergerak berturut-turut.

3) Pembinaan fungsi analitik mencirikan pergantungan tahap siri pada masa. Fungsi berikut digunakan untuk membina trend:

Parameter arah aliran ditentukan menggunakan kaedah kuasa dua terkecil. Pemilihan fungsi terbaik dijalankan berdasarkan pekali R 2 .

Kami akan membina model aditif menggunakan contoh.

Contoh 7:

Terdapat data suku tahunan mengenai jumlah penggunaan elektrik di kawasan tertentu selama 4 tahun. Data dalam juta kW dalam jadual 1.

Jadual 1

Bina model siri masa.

Dalam contoh ini, kami menganggap nombor suku sebagai pembolehubah bebas, dan penggunaan elektrik suku tahunan sebagai pembolehubah bersandar y(t).

Daripada scatterplot, anda boleh lihat trend (trend) adalah linear. Anda juga boleh melihat kehadiran turun naik bermusim (tempoh = 4) amplitud yang sama, jadi kami akan membina model aditif.

Pembinaan model termasuk langkah-langkah berikut:

1. Kami akan menjajarkan siri asal menggunakan purata bergerak selama 4 suku dan melaksanakan pemusatan:

1.1. Mari kita jumlahkan tahap siri secara berurutan untuk setiap 4 suku dengan anjakan 1 mata dalam masa.

1.2. Dengan membahagikan jumlah yang terhasil dengan 4 kita dapati purata bergerak.

1.3. Kami membawa nilai ini sejajar dengan titik masa sebenar, yang mana kami dapati nilai purata dua purata bergerak berturut-turut - purata bergerak berpusat.

2. Kira variasi bermusim. Variasi bermusim (t) = y(t) - purata bergerak berpusat. Mari bina jadual 2.

jadual 2

Melalui nombor blok t Penggunaan elektrik Y(t) Purata pergerakan 4 suku Purata bergerak berpusat Anggaran Variasi Bermusim
6,0 - - -
4,4 6,1 - -
5,0 6,4 6,25 -1,25
9,0 6,5 6,45 2,55
7,2 6,75 6,625 0,575
: : : : :
6,6 8,35 8,375 -1,775
7,0 - - -
10,8 - - -

3. Berdasarkan variasi bermusim dalam Jadual 3, komponen bermusim dikira.

Penunjuk tahun Nombor suku tahun I II III IV
- - -1,250 2,550
0,575 -2,075 -1,100 2,700
0,550 -2,025 -1,475 2,875
0,675 -1,775 - -
Jumlah 1,8 -5,875 -3,825 8,125 Jumlah
Purata 0,6 -1,958 -1,275 2,708 0,075
Komponen bermusim 0,581 -1,977 -1,294 2,690

4. Menghapuskan komponen bermusim dari peringkat awal siri ini:

Kesimpulan:

Model aditif menerangkan 98.4% variasi umum peringkat siri masa asal.

Dengan mengklik pada butang "Muat turun arkib", anda akan memuat turun fail yang anda perlukan secara percuma.
Sebelum muat turun fail yang diberikan ingat esei yang bagus, kawalan, kertas penggal, tesis, artikel dan dokumen lain yang tidak dituntut pada komputer anda. Ini adalah kerja anda, ia harus mengambil bahagian dalam pembangunan masyarakat dan memberi manfaat kepada orang ramai. Cari karya ini dan hantar ke pangkalan pengetahuan.
Kami dan semua pelajar, pelajar siswazah, saintis muda yang menggunakan asas pengetahuan dalam pengajian dan kerja mereka akan sangat berterima kasih kepada anda.

Untuk memuat turun arkib dengan dokumen, masukkan nombor lima digit dalam medan di bawah dan klik butang "Muat turun arkib"

###### ## ## ###### ######
## ### ### ## ##
## #### ## ##### ##
## ## ## ## ## ##
## ## ###### ## ## ## ## ##
#### ## ###### #### ####

Masukkan nombor yang ditunjukkan di atas:

Dokumen Serupa

    Asas membina dan menguji kecukupan model ekonomi regresi berganda, masalah spesifikasinya dan akibat daripada ralat. Sokongan kaedah dan maklumat bagi regresi berganda. Contoh berangka model regresi berganda.

    kertas penggal, ditambah 02/10/2014

    Konsep model regresi berganda. Intipati kaedah kuasa dua terkecil, yang digunakan untuk menentukan parameter persamaan regresi linear berganda. Penilaian kualiti kesesuaian persamaan regresi kepada data. Pekali penentuan.

    kertas penggal, ditambah 01/22/2015

    Membina model regresi linear berbilang mengikut parameter yang ditentukan. Penilaian kualiti model dengan pekali penentuan dan pelbagai korelasi. Menentukan kepentingan persamaan regresi berdasarkan ujian F Fisher dan ujian-t Pelajar.

    ujian, ditambah 12/01/2013

    Membina persamaan regresi berganda dalam bentuk linear dengan set penuh faktor, pemilihan faktor bermaklumat. Menyemak kepentingan persamaan regresi oleh ujian Fisher dan kepentingan statistik parameter regresi oleh ujian Pelajar.

    kerja makmal, ditambah 10/17/2009

    Perihalan model linear klasik regresi berbilang. Analisis matriks pekali korelasi berpasangan untuk kehadiran multikolineariti. Penilaian model regresi berpasangan dengan faktor yang paling signifikan. Pembinaan grafik selang ramalan.

    kertas penggal, ditambah 17/01/2016

    Faktor yang membentuk harga pangsapuri di rumah dalam pembinaan di St Petersburg. Penyusunan matriks pekali korelasi berpasangan bagi pembolehubah awal. Menguji ralat persamaan regresi berganda untuk heteroskedastisitas. Ujian Gelfeld-Quandt.

    ujian, ditambah 05/14/2015

    Anggaran taburan pembolehubah X1. Memodelkan hubungan antara pembolehubah Y dan X1 menggunakan fungsi linear dan kaedah regresi linear berganda. Perbandingan kualiti model yang dibina. Merangka ramalan mata untuk nilai yang diberikan.

    kertas penggal, ditambah 24/06/2015

Selamat petang, pembaca yang budiman.
Dalam artikel sebelum ini, menggunakan contoh praktikal, saya menunjukkan cara menyelesaikan masalah klasifikasi (masalah pemarkahan kredit) dan asas analisis maklumat teks (masalah pasport). Hari ini saya ingin menyentuh satu lagi kelas masalah iaitu pemulihan regresi. Tugasan kelas ini biasanya digunakan dalam peramalan.
Untuk contoh menyelesaikan masalah ramalan, saya mengambil set data kecekapan Tenaga daripada repositori UCI terbesar. Secara tradisinya, kami akan menggunakan Python dengan pakej analitik panda dan pembelajaran scikit sebagai alat.

Penerangan set data dan pernyataan masalah

Set data diberikan yang menerangkan sifat-sifat bilik berikut:

Ia mengandungi ciri-ciri bilik berdasarkan analisis yang akan dijalankan, dan - nilai beban yang perlu diramalkan.

Analisis data awal

Mula-mula, mari muatkan data kami dan lihat:

Daripada import panda read_csv, DataFrame daripada sklearn.neighbors import KNeighborsRegressor daripada import sklearn.linear_model LinearRegression, LogisticRegression daripada sklearn.svm import SVR daripada sklearn.ensemble import RandomForestRegressor daripada sklearn.linear_model import LinearRegression, LogisticRegression daripada sklearn.svm import SVR daripada sklearn.ensemble import RandomForestRegressor from sklearn. /ENB2012_data.csv",";") dataset.head()

X1 X2 X3 X4 X5 X6 X7 X8 Y1 Y2
0 0.98 514.5 294.0 110.25 7 2 0 0 15.55 21.33
1 0.98 514.5 294.0 110.25 7 3 0 0 15.55 21.33
2 0.98 514.5 294.0 110.25 7 4 0 0 15.55 21.33
3 0.98 514.5 294.0 110.25 7 5 0 0 15.55 21.33
4 0.90 563.5 318.5 122.50 7 2 0 0 20.84 28.28

Sekarang mari kita lihat sama ada sebarang atribut berkaitan. Ini boleh dilakukan dengan mengira pekali korelasi untuk semua lajur. Bagaimana untuk melakukan ini telah diterangkan dalam artikel sebelumnya:

dataset.corr()

X1 X2 X3 X4 X5 X6 X7 X8 Y1 Y2
X1 1.000000e+00 -9.919015e-01 -2.037817e-01 -8.688234e-01 8.277473e-01 0.000000 1.283986e-17 1.764620e-17 0.622272 0.634339
X2 -9.919015e-01 1.000000e+00 1.955016e-01 8.807195e-01 -8.581477e-01 0.000000 1.318356e-16 -3.558613e-16 -0.658120 -0.672999
X3 -2.037817e-01 1.955016e-01 1.000000e+00 -2.923165e-01 2.809757e-01 0.000000 -7.969726e-19 0.000000e+00 0.455671 0.427117
X4 -8.688234e-01 8.807195e-01 -2.923165e-01 1.000000e+00 -9.725122e-01 0.000000 -1.381805e-16 -1.079129e-16 -0.861828 -0.862547
X5 8.277473e-01 -8.581477e-01 2.809757e-01 -9.725122e-01 1.000000e+00 0.000000 1.861418e-18 0.000000e+00 0.889431 0.895785
X6 0.000000e+00 0.000000e+00 0.000000e+00 0.000000e+00 0.000000e+00 1.000000 0.000000e+00 0.000000e+00 -0.002587 0.014290
X7 1.283986e-17 1.318356e-16 -7.969726e-19 -1.381805e-16 1.861418e-18 0.000000 1.000000e+00 2.129642e-01 0.269841 0.207505
X8 1.764620e-17 -3.558613e-16 0.000000e+00 -1.079129e-16 0.000000e+00 0.000000 2.129642e-01 1.000000e+00 0.087368 0.050525
Y1 6.222722e-01 -6.581202e-01 4.556712e-01 -8.618283e-01 8.894307e-01 -0.002587 2.698410e-01 8.736759e-02 1.000000 0.975862
Y2 6.343391e-01 -6.729989e-01 4.271170e-01 -8.625466e-01 8.957852e-01 0.014290 2.075050e-01 5.052512e-02 0.975862 1.000000

Seperti yang anda boleh lihat daripada matriks kami, lajur berikut berkorelasi antara satu sama lain (nilai pekali korelasi lebih besar daripada 95%):
  • y1 --> y2
  • x1 --> x2
  • x4 --> x5
Sekarang mari kita pilih lajur pasangan kami yang boleh kami alih keluar daripada pilihan kami. Untuk melakukan ini, dalam setiap pasangan, kami memilih lajur yang mempunyai kesan yang lebih besar pada nilai yang diramalkan Y1 dan Y2 dan biarkan mereka, dan padamkan yang lain.
Seperti yang anda boleh lihat, matriks dengan pekali korelasi dihidupkan y1 ,y2 lebih nilai render X2 dan X5 daripada X1 dan X4, jadi kami boleh mengalih keluar lajur terakhir yang kami boleh.

Set data = dataset.drop(["X1","X4"], axis=1) dataset.head()
Di samping itu, dapat dilihat bahawa bidang Y1 dan Y2 sangat berkait rapat antara satu sama lain. Tetapi, oleh kerana kita perlu meramalkan kedua-dua nilai, kita biarkan mereka "seadanya".

Pemilihan model

Asingkan nilai ramalan daripada sampel kami:

Trg = set data[["Y1","Y2"]] trn = dataset.drop(["Y1","Y2"], paksi=1)
Selepas memproses data, anda boleh meneruskan untuk membina model. Untuk membina model, kami akan menggunakan kaedah berikut:

Teori tentang kaedah ini boleh dibaca dalam kursus kuliah oleh K.V. Vorontsov mengenai pembelajaran mesin.
Kami akan menilai menggunakan pekali penentuan ( R-segi empat). Pekali ini ditakrifkan seperti berikut:

Di manakah varians bersyarat bagi pembolehubah bersandar di mengikut faktor X.
Pekali mengambil nilai pada selang dan semakin hampir kepada 1, semakin kuat pergantungan.
Nah, kini anda boleh pergi terus ke membina model dan memilih model. Mari letakkan semua model kami dalam satu senarai untuk kemudahan analisis lanjut:

Model=
Jadi model sudah sedia, kini kami akan membahagikan data asal kami kepada 2 subsampel: ujian dan pendidikan. Mereka yang telah membaca artikel saya sebelum ini tahu bahawa ini boleh dilakukan menggunakan fungsi train_test_split() daripada pakej scikit-learn:

Xtrn, Xtest, Ytrn, Ytest = train_test_split(trn, trg, test_size=0.4)
Sekarang, kerana kita perlu meramalkan 2 parameter, kita perlu membina regresi untuk setiap parameter tersebut. Di samping itu, untuk analisis lanjut, anda boleh merekodkan keputusan yang diperolehi secara sementara DataFrame. Anda boleh melakukannya seperti ini:

#buat struktur sementara TestModels = DataFrame() tmp = () #untuk setiap model daripada senarai untuk model dalam model: #dapatkan nama model m = str(model) tmp["Model"] = m[:m.index( "( ")] #untuk setiap lajur keputusan yang ditetapkan untuk i dalam xrange(Ytrn.shape): #latih model model.fit(Xtrn, Ytrn[:,i]) #kira pekali penentuan tmp["R2_Y %s"%str(i +1)] = r2_score(Ytest[:,0], model.predict(Xtest)) #write data and final DataFrame TestModels = TestModels.append() #buat indeks mengikut nama model TestModels.set_index ("Model", inplace= true)
Seperti yang anda lihat daripada kod di atas, fungsi r2_score() digunakan untuk mengira pekali.
Jadi, data untuk analisis diterima. Sekarang mari kita bina graf dan lihat model yang menunjukkan hasil terbaik:

Rajah, paksi = plt.subplots(ncols=2, figsize=(10,4)) TestModels.R2_Y1.plot(ax=axes, kind="bar", title="(!LANG:R2_Y1") TestModels.R2_Y2.plot(ax=axes, kind="bar", color="green", title="R2_Y2") !}

Analisis keputusan dan kesimpulan

Daripada graf di atas, kita boleh membuat kesimpulan bahawa kaedah mengatasi tugas lebih baik daripada yang lain. Hutan Rawak(hutan rawak). Pekali penentuannya adalah lebih tinggi daripada yang lain dalam kedua-dua pembolehubah:
Untuk analisis lanjut, mari kita latih semula model kami:

Model = modelsmodel.fit(Xtrn, Ytrn)
Pada pemeriksaan yang lebih dekat, persoalan mungkin timbul mengapa sampel bergantung dibahagi kali terakhir Ytrn kepada pembolehubah (mengikut lajur), dan kini kami tidak melakukannya.
Hakikatnya ialah beberapa kaedah, seperti RandomForestRegressor, boleh berfungsi dengan beberapa pembolehubah ramalan, manakala yang lain (contohnya SVR) boleh berfungsi dengan hanya satu pembolehubah. Oleh itu, dalam latihan sebelumnya, kami menggunakan partition mengikut lajur untuk mengelakkan ralat dalam proses membina beberapa model.
Memilih model, sudah tentu, bagus, tetapi juga bagus untuk mempunyai maklumat tentang cara setiap faktor akan mempengaruhi nilai yang diramalkan. Untuk melakukan ini, model mempunyai sifat ciri_kepentingan_.
Dengan itu, anda boleh melihat berat setiap faktor dalam model akhir:

Model.feature_importances_
tatasusunan([ 0.40717901, 0.11394948, 0.34984766, 0.00751686, 0.09158358,
0.02992342])

Dalam kes kami, dapat dilihat bahawa jumlah ketinggian dan kawasan paling banyak mempengaruhi beban pemanasan dan penyejukan. Jumlah sumbangan mereka kepada model ramalan adalah kira-kira 72%.
Perlu juga diperhatikan bahawa mengikut skema di atas, anda boleh melihat pengaruh setiap faktor secara berasingan pada pemanasan dan secara berasingan pada penyejukan, tetapi oleh kerana faktor-faktor ini sangat berkait rapat antara satu sama lain (), kami membuat kesimpulan umum mengenai kedua-dua mereka, yang ditulis di atas.

Kesimpulan

Dalam artikel itu, saya cuba menunjukkan peringkat utama dalam analisis regresi data dengan Python dan pakej analitik panda dan scikit-belajar.
Perlu diingatkan bahawa set data telah dipilih secara khusus sedemikian rupa untuk menjadi seperti yang diformalkan dan pemprosesan utama data input akan menjadi minimum. Pada pendapat saya, artikel itu akan berguna kepada mereka yang baru memulakan perjalanan mereka dalam analisis data, serta kepada mereka yang mempunyai asas teori yang baik, tetapi memilih alat untuk bekerja.