Biografi Ciri-ciri Analisis

Analisis regresi linear. Kaedah statistik matematik

KEPUTUSAN

Jadual 8.3a. Statistik regresi
Statistik regresi
Berbilang R 0,998364
R-segi empat 0,99673
Petak-R ternormal 0,996321
kesalahan biasa 0,42405
Pemerhatian 10

Mari kita lihat dahulu bahagian atas pengiraan yang dibentangkan dalam Jadual 8.3a, statistik regresi.

Nilai R-square, juga dipanggil ukuran kepastian, mencirikan kualiti garis regresi yang terhasil. Kualiti ini dinyatakan dengan tahap korespondensi antara data asal dan model regresi (data yang dikira). Ukuran kepastian sentiasa dalam selang waktu.

Dalam kebanyakan kes, nilai R-kuadrat berada di antara nilai ini, dipanggil ekstrem, i.e. antara sifar dan satu.

Jika nilai kuasa dua R adalah hampir dengan satu, ini bermakna model yang dibina menerangkan hampir semua kebolehubahan pembolehubah yang sepadan. Sebaliknya, nilai R-kuadrat hampir kepada sifar bermakna kualiti model yang dibina tidak baik.

Dalam contoh kami, ukuran kepastian ialah 0.99673, yang menunjukkan kesesuaian garis regresi yang sangat baik dengan data asal.

Berbilang R- pekali korelasi berbilang R - menyatakan tahap pergantungan pembolehubah tidak bersandar (X) dan pembolehubah bersandar (Y).

Berbilang R adalah sama dengan punca kuasa dua pekali penentuan, nilai ini mengambil nilai dalam julat dari sifar hingga satu.

Dalam analisis regresi linear mudah, berbilang R adalah sama dengan pekali korelasi Pearson. Malah, berbilang R dalam kes kami adalah sama dengan pekali korelasi Pearson daripada contoh sebelumnya (0.998364).

Jadual 8.3b. Pekali regresi
Kemungkinan kesalahan biasa t-statistik
persimpangan Y 2,694545455 0,33176878 8,121757129
Pembolehubah X 1 2,305454545 0,04668634 49,38177965
* Versi pengiraan yang dipotong diberikan

Sekarang pertimbangkan bahagian tengah pengiraan yang dibentangkan dalam jadual 8.3b. Di sini, pekali regresi b (2.305454545) dan offset di sepanjang paksi-y diberikan, i.e. pemalar a (2.694545455).

Berdasarkan pengiraan, kita boleh menulis persamaan regresi seperti berikut:

Y= x*2.305454545+2.694545455

Arah hubungan antara pembolehubah ditentukan berdasarkan tanda (negatif atau positif) pekali regresi(pekali b).

Jika tanda di pekali regresi- positif, hubungan pembolehubah bersandar dengan bebas akan menjadi positif. Dalam kes kami, tanda pekali regresi adalah positif, oleh itu, hubungannya juga positif.

Jika tanda di pekali regresi- negatif, hubungan antara pembolehubah bersandar dan pembolehubah bebas adalah negatif ( songsang).

Dalam jadual 8.3c. keputusan keluaran sisa dibentangkan. Untuk membolehkan hasil ini muncul dalam laporan, anda perlu mengaktifkan kotak semak "Residual" semasa melancarkan alat "Regression".

KEKAL PENARIKAN

Jadual 8.3c. Kekal
Pemerhatian Diramalkan Y Kekal Baki piawai
1 9,610909091 -0,610909091 -1,528044662
2 7,305454545 -0,305454545 -0,764022331
3 11,91636364 0,083636364 0,209196591
4 14,22181818 0,778181818 1,946437843
5 16,52727273 0,472727273 1,182415512
6 18,83272727 0,167272727 0,418393181
7 21,13818182 -0,138181818 -0,34562915
8 23,44363636 -0,043636364 -0,109146047
9 25,74909091 -0,149090909 -0,372915662
10 28,05454545 -0,254545455 -0,636685276

Menggunakan bahagian laporan ini, kita boleh melihat sisihan setiap titik daripada garis regresi yang dibina. Nilai mutlak terhebat

Kuliah 3

Analisis regresi.

1) Ciri berangka regresi

2) Regresi Linear

3) Regresi bukan linear

4) Regresi Berganda

5) Menggunakan MS EXCEL untuk melakukan analisis regresi

Alat kawalan dan penilaian - tugasan ujian

1. Ciri berangka regresi

Analisis regresi ialah kaedah statistik untuk mengkaji pengaruh satu atau lebih pembolehubah tidak bersandar ke atas pembolehubah bersandar. Pembolehubah bebas dipanggil regressor atau peramal, dan pembolehubah bersandar dipanggil kriteria. Terminologi pembolehubah bersandar dan tidak bersandar hanya mencerminkan pergantungan matematik pembolehubah, dan bukan hubungan sebab dan akibat.

Matlamat analisis regresi

  • Penentuan darjah determinisme variasi kriteria (bersandar) pembolehubah oleh peramal (pembolehubah bebas).
  • Meramalkan nilai pembolehubah bersandar menggunakan pembolehubah tidak bersandar.
  • Penentuan sumbangan pembolehubah bebas individu kepada variasi pembolehubah bersandar.

Analisis regresi tidak boleh digunakan untuk menentukan sama ada terdapat hubungan antara pembolehubah, kerana kewujudan hubungan tersebut adalah prasyarat untuk mengaplikasikan analisis.

Untuk menjalankan analisis regresi, anda perlu membiasakan diri dengan konsep asas statistik dan teori kebarangkalian.

Ciri berangka asas pembolehubah rawak diskret dan selanjar: jangkaan matematik, varians dan sisihan piawai.

Pembolehubah rawak dibahagikan kepada dua jenis:

  • Diskret, yang hanya boleh mengambil nilai tertentu yang telah ditetapkan (contohnya, nilai nombor pada muka atas dadu yang dilemparkan atau nilai ordinal bulan semasa);
  • · berterusan (paling kerap - nilai beberapa kuantiti fizikal: berat, jarak, suhu, dll.), yang, menurut undang-undang alam, boleh mengambil sebarang nilai, sekurang-kurangnya dalam selang waktu tertentu.

Hukum taburan pembolehubah rawak ialah korespondensi antara nilai yang mungkin bagi pembolehubah rawak diskret dan kebarangkaliannya, biasanya ditulis dalam jadual:

Takrifan statistik kebarangkalian dinyatakan dalam sebutan kekerapan relatif sesuatu peristiwa rawak, iaitu didapati sebagai nisbah bilangan pembolehubah rawak kepada jumlah bilangan pembolehubah rawak.

Jangkaan matematik bagi pembolehubah rawak diskretX dipanggil jumlah produk nilai kuantiti X pada kebarangkalian nilai-nilai ini. Jangkaan matematik dilambangkan dengan atau M(X) .

n

= M(X) = x 1 hlm 1 + x 2 hlm 2 +… + x n p n = S x i pi

i=1

Serakan pembolehubah rawak berkenaan dengan jangkaan matematiknya ditentukan menggunakan ciri berangka yang dipanggil serakan. Ringkasnya, varians ialah sebaran pembolehubah rawak di sekeliling min. Untuk memahami intipati penyebaran, pertimbangkan satu contoh. Gaji purata di negara ini adalah kira-kira 25 ribu rubel. Dari mana datangnya nombor ini? Kemungkinan besar, semua gaji ditambah dan dibahagikan dengan bilangan pekerja. Dalam kes ini, terdapat penyebaran yang sangat besar (gaji minimum adalah kira-kira 4 ribu rubel, dan maksimum adalah kira-kira 100 ribu rubel). Jika semua orang mempunyai gaji yang sama, maka serakan akan menjadi sifar, dan tidak akan ada sebaran.

Serakan pembolehubah rawak diskretX dipanggil jangkaan matematik kuasa dua perbezaan pembolehubah rawak dan jangkaan matematiknya:

D = M [ ((X - M (X)) 2 ]

Menggunakan takrif jangkaan matematik untuk mengira varians, kami memperoleh formula:

D \u003d S (x i - M (X)) 2 p i

Varians mempunyai dimensi kuasa dua pembolehubah rawak. Dalam kes di mana perlu mempunyai ciri berangka bagi serakan nilai yang mungkin dalam dimensi yang sama dengan pembolehubah rawak itu sendiri, sisihan piawai digunakan.

Sisihan piawai pembolehubah rawak dipanggil punca kuasa dua variansnya.

Sisihan kuasa dua min ialah ukuran serakan nilai pembolehubah rawak di sekeliling jangkaan matematiknya.

Contoh.

Hukum taburan pembolehubah rawak X diberikan oleh jadual berikut:

Cari jangkaan matematiknya, varians dan sisihan piawai .

Kami menggunakan formula di atas:

M (X) \u003d 1 0.1 + 2 0.4 + 4 0.4 + 5 0.1 \u003d 3

D \u003d (1-3) 2 0.1 + (2 - 3) 2 0.4 + (4 - 3) 2 0.4 + (5 - 3) 2 0.1 \u003d 1.6

Contoh.

Dalam loteri tunai, 1 kemenangan 1000 rubel, 10 kemenangan 100 rubel dan 100 kemenangan 1 rubel setiap satu dengan jumlah tiket 10,000 dimainkan. Buat undang-undang pengedaran untuk kemenangan rawak X untuk pemilik satu tiket loteri dan tentukan jangkaan matematik, varians dan sisihan piawai bagi pembolehubah rawak .

X 1 \u003d 1000, X 2 \u003d 100, X 3 \u003d 1, X 4 \u003d 0,

P 1 = 1/10000 = 0.0001, P 2 = 10/10000 = 0.001, P 3 = 100/10000 = 0.01, P 4 = 1 - (P 1 + P 2 + P 3) = 0.9889 .

Kami meletakkan keputusan dalam jadual:

Jangkaan matematik - jumlah hasil berpasangan bagi nilai pembolehubah rawak mengikut kebarangkalian mereka. Untuk masalah ini, adalah dinasihatkan untuk mengiranya dengan formula

1000 0.0001 + 100 0.001 + 1 0.01 + 0 0.9889 = 0.21 rubel.

Kami mendapat harga tiket yang "adil".

D \u003d S (x i - M (X)) 2 p i \u003d (1000 - 0.21) 2 0.0001 + (100 - 0.21) 2 0.001 +

+ (1 - 0,21) 2 0,01 + (0 - 0,21) 2 0,9889 ≈ 109,97

Fungsi taburan pembolehubah rawak selanjar

Nilai, yang hasil daripada ujian akan mengambil satu nilai yang mungkin (tidak diketahui terlebih dahulu yang mana satu), dipanggil pembolehubah rawak. Seperti yang dinyatakan di atas, pembolehubah rawak adalah diskret (tak selanjar) dan berterusan.

Pembolehubah diskret ialah pembolehubah rawak yang mengambil nilai yang mungkin berasingan dengan kebarangkalian tertentu yang boleh dinomborkan.

Pembolehubah berterusan ialah pembolehubah rawak yang boleh mengambil semua nilai dari beberapa selang terhingga atau tak terhingga.

Sehingga tahap ini, kami telah mengehadkan diri kami kepada hanya satu "pelbagai" pembolehubah rawak - diskret, i.e. mengambil nilai terhingga.

Tetapi teori dan amalan statistik memerlukan penggunaan konsep pembolehubah rawak berterusan - membenarkan sebarang nilai berangka dari sebarang selang.

Hukum taburan pembolehubah rawak selanjar ditentukan dengan mudah menggunakan fungsi ketumpatan kebarangkalian yang dipanggil. f(x). Kebarangkalian P(a< X < b) того, что значение, принятое случайной величиной Х, попадет в промежуток (a; b), определяется равенством

P (a< X < b) = ∫ f(x) dx

Graf bagi fungsi f (x) dipanggil lengkung taburan. Secara geometri, kebarangkalian pembolehubah rawak jatuh ke dalam selang (a; b) adalah sama dengan luas trapezium lengkung yang sepadan, dibatasi oleh lengkung taburan, paksi Ox dan garis lurus x = a, x = b .

P(a£X

Jika set terhingga atau boleh dikira ditolak daripada peristiwa kompleks, kebarangkalian peristiwa baharu akan kekal tidak berubah.

Fungsi f(x) - fungsi skalar berangka bagi argumen sebenar x dipanggil ketumpatan kebarangkalian, dan wujud pada titik x jika terdapat had pada titik ini:

Sifat Ketumpatan Kebarangkalian:

  1. Ketumpatan kebarangkalian ialah fungsi bukan negatif, iaitu f(x) ≥ 0

(jika semua nilai pembolehubah rawak X berada dalam selang (a;b), maka yang terakhir

kesamaan boleh ditulis sebagai ∫ f (x) dx = 1).

Pertimbangkan sekarang fungsi F(x) = P(X< х). Эта функция называется функцией распределения вероятности случайной величины Х. Функция F(х) существует как для дискретных, так и для непрерывных случайных величин. Если f (x) - функция плотности распределения вероятности

pembolehubah rawak selanjar X, maka F (x) = ∫ f(x) dx = 1).

Ia mengikuti daripada kesamaan terakhir bahawa f (x) = F" (x)

Kadangkala fungsi f(x) dipanggil fungsi taburan kebarangkalian pembezaan, dan fungsi F(x) dipanggil fungsi taburan kebarangkalian kumulatif.

Kami perhatikan sifat terpenting bagi fungsi taburan kebarangkalian:

  1. F(x) ialah fungsi tidak menurun.
  2. F(-∞)=0.
  3. F (+∞) = 1.

Konsep fungsi taburan adalah penting kepada teori kebarangkalian. Menggunakan konsep ini, seseorang boleh memberikan definisi lain bagi pembolehubah rawak berterusan. Pembolehubah rawak dipanggil selanjar jika fungsi taburan kamiran F(x) adalah selanjar.

Ciri berangka pembolehubah rawak selanjar

Jangkaan matematik, varians dan parameter lain bagi mana-mana pembolehubah rawak hampir selalu dikira menggunakan formula yang mengikuti daripada undang-undang taburan.

Untuk pembolehubah rawak berterusan, jangkaan matematik dikira dengan formula:

M(X) = ∫ x f(x) dx

Penyerakan:

D(X) = ∫ ( x- M (X)) 2 f(x) dx atau D(X) = ∫ x 2 f(x) dx - (M (X)) 2

2. Regresi linear

Biarkan komponen X dan Y pembolehubah rawak dua dimensi (X, Y) bersandar. Kami akan menganggap bahawa salah satu daripada mereka boleh diwakili lebih kurang sebagai fungsi linear yang lain, sebagai contoh

Y ≈ g(X) = α + βX, dan tentukan parameter α dan β menggunakan kaedah kuasa dua terkecil.

Definisi. Fungsi g(X) = α + βX dipanggil anggaran terbaik Y dalam erti kata kaedah kuasa dua terkecil, jika jangkaan matematik M(Y - g(X)) 2 mengambil nilai terkecil yang mungkin; fungsi g(X) dipanggil min regresi kuasa dua Y kepada X.

Teorem Regresi kuasa dua linear bagi Y pada X ialah:

di manakah pekali korelasi X dan Y.

Pekali persamaan.

Seseorang boleh menyemak bahawa untuk nilai ini fungsi fungsi F(α, β)

F(α, β ) = M(Y - α - βX)² mempunyai minimum, yang membuktikan penegasan teorem.

Definisi. Pekali dipanggil pekali regresi Y pada X, dan garis lurus - - regresi kuasa dua min langsung Y pada X.

Menggantikan koordinat titik pegun ke dalam kesamaan, kita boleh mencari nilai minimum bagi fungsi F(α, β) sama dengan Nilai ini dipanggil serakan sisa Y relatif kepada X dan mencirikan jumlah ralat yang dibenarkan apabila menggantikan Y dengan

g(X) = α + βX. Pada , varians baki ialah 0, iaitu, kesamaan bukan anggaran, tetapi tepat. Oleh itu, apabila Y dan X disambungkan oleh kebergantungan fungsi linear. Begitu juga, anda boleh mendapatkan garis lurus regresi akar-min-kuasa dua bagi X pada Y:

dan varians baki X berkenaan dengan Y. Bagi kedua-dua regresi langsung bertepatan. Membandingkan persamaan regresi Y pada X dan X pada Y dan menyelesaikan sistem persamaan, anda boleh mencari titik persilangan garis regresi - titik dengan koordinat (t x, t y), dipanggil pusat taburan bersama nilai X dan Y.

Kami akan mempertimbangkan algoritma untuk menyusun persamaan regresi daripada buku teks oleh V. E. Gmurman "Teori Kebarangkalian dan Statistik Matematik" ms 256.

1) Susun jadual pengiraan di mana bilangan elemen sampel, pilihan sampel, kuasa dua dan hasil darabnya akan direkodkan.

2) Kira jumlah ke atas semua lajur kecuali nombor.

3) Kira nilai purata bagi setiap kuantiti, serakan dan sisihan piawai.

5) Uji hipotesis tentang wujudnya hubungan antara X dan Y.

6) Susun persamaan kedua-dua garis regresi dan plotkan graf bagi persamaan ini.

Kecerunan regresi garis lurus Y pada X ialah pekali regresi sampel

Pekali b=

Kami memperoleh persamaan yang dikehendaki bagi garis regresi Y pada X:

Y \u003d 0.202 X + 1.024

Begitu juga, persamaan regresi X pada Y:

Kecerunan regresi garis lurus Y pada X ialah pekali regresi sampel pxy:

Pekali b=

X \u003d 4.119 Y - 3.714

3. Regresi bukan linear

Sekiranya terdapat hubungan bukan linear antara fenomena ekonomi, maka ia dinyatakan menggunakan fungsi bukan linear yang sepadan.

Terdapat dua kelas regresi bukan linear:

1. Regresi yang tidak linear berkenaan dengan pembolehubah penjelasan yang disertakan dalam analisis, tetapi linear berkenaan dengan parameter anggaran, contohnya:

Polinomial pelbagai darjah

Hiperbola sama sisi - ;

Fungsi semilogaritma - .

2. Regresi yang tidak linear dari segi parameter anggaran, contohnya:

Kuasa - ;

Demonstratif -;

Eksponen - .

Regresi bukan linear pada pembolehubah yang disertakan dikurangkan kepada bentuk linear dengan perubahan mudah pembolehubah, dan anggaran selanjutnya parameter dilakukan menggunakan kaedah kuasa dua terkecil. Mari kita pertimbangkan beberapa fungsi.

Parabola darjah kedua dikurangkan kepada bentuk linear menggunakan penggantian: . Akibatnya, kita sampai pada persamaan dua faktor, anggaran parameter yang menggunakan kaedah kuasa dua terkecil membawa kepada sistem persamaan:

Parabola darjah kedua biasanya digunakan dalam kes di mana, untuk selang nilai faktor tertentu, sifat perhubungan ciri yang sedang dipertimbangkan berubah: perhubungan langsung berubah kepada satu songsang atau satu songsang kepada satu langsung.

Hiperbola sama sisi boleh digunakan untuk mencirikan hubungan antara kos khusus bahan mentah, bahan, bahan api dan jumlah keluaran, masa peredaran barang dan nilai perolehan. Contoh klasiknya ialah keluk Phillips, yang mencirikan hubungan tidak linear antara kadar pengangguran x dan peratus kenaikan gaji y.

Hiperbola dikurangkan kepada persamaan linear dengan penggantian mudah: . Anda juga boleh menggunakan kaedah Kuasa Dua Terkecil untuk membina sistem persamaan linear.

Dengan cara yang sama, kebergantungan dikurangkan kepada bentuk linear: , dan lain-lain.

Hiperbola sama sisi dan lengkung separa logaritma digunakan untuk menerangkan keluk Engel (huraian matematik tentang hubungan antara bahagian perbelanjaan untuk barangan tahan lama dan jumlah perbelanjaan (atau pendapatan)). Persamaan di mana ia dimasukkan digunakan dalam kajian produktiviti, intensiti buruh pengeluaran pertanian.

4. Regresi Berganda

Regresi berbilang - persamaan pautan dengan berbilang pembolehubah bebas:

di mana pembolehubah bersandar (tanda hasil);

Pembolehubah bebas (faktor).

Untuk membina persamaan regresi berganda, fungsi berikut paling kerap digunakan:

linear -

kuasa -

pempamer -

hiperbola - .

Anda boleh menggunakan fungsi lain yang boleh dikurangkan kepada bentuk linear.

Untuk menganggar parameter persamaan regresi berganda, kaedah kuasa dua terkecil (LSM) digunakan. Untuk persamaan linear dan persamaan bukan linear boleh dikurangkan kepada yang linear, sistem persamaan normal berikut dibina, penyelesaiannya memungkinkan untuk mendapatkan anggaran parameter regresi:

Untuk menyelesaikannya, kaedah penentu boleh digunakan:

di manakah penentu sistem;

Penentu persendirian; yang diperoleh dengan menggantikan lajur sepadan matriks penentu sistem dengan data sebelah kiri sistem.

Satu lagi jenis persamaan regresi berbilang ialah persamaan regresi skala piawai, LSM boleh digunakan untuk persamaan regresi berbilang pada skala piawai.

5. PenggunaanCIKEXCELuntuk melakukan analisis regresi

Analisis regresi menetapkan bentuk hubungan antara pembolehubah rawak Y (bergantung) dan nilai-nilai satu atau lebih pembolehubah (bebas), dan nilai-nilai yang terakhir dianggap tepat diberikan. Kebergantungan sedemikian biasanya ditentukan oleh beberapa model matematik (persamaan regresi) yang mengandungi beberapa parameter yang tidak diketahui. Dalam perjalanan analisis regresi, berdasarkan data sampel, anggaran parameter ini ditemui, ralat statistik anggaran atau sempadan selang keyakinan ditentukan, dan pematuhan (kecukupan) model matematik yang diterima dengan data eksperimen diperiksa.

Dalam analisis regresi linear, hubungan antara pembolehubah rawak diandaikan sebagai linear. Dalam kes paling mudah, dalam model regresi linear berpasangan, terdapat dua pembolehubah X dan Y. Dan ia diperlukan untuk n pasangan pemerhatian (X1, Y1), (X2, Y2), ..., (Xn, Yn) untuk membina (memilih) garis lurus, dipanggil garis regresi, yang "terbaik" menghampiri nilai yang diperhatikan. Persamaan garis ini y=ax+b ialah persamaan regresi. Dengan menggunakan persamaan regresi, anda boleh meramalkan nilai jangkaan bagi pembolehubah bersandar y sepadan dengan nilai tertentu bagi pembolehubah bebas x. Dalam kes apabila pergantungan antara satu pembolehubah bersandar Y dan beberapa pembolehubah tidak bersandar X1, X2, ..., Xm dipertimbangkan, seseorang bercakap tentang regresi linear berganda.

Dalam kes ini, persamaan regresi mempunyai bentuk

y = a 0 +a 1 x 1 +a 2 x 2 +…+a m x m ,

di mana a0, a1, a2, …, am ialah pekali regresi yang akan ditentukan.

Pekali persamaan regresi ditentukan menggunakan kaedah kuasa dua terkecil, mencapai jumlah minimum perbezaan kuasa dua yang mungkin antara nilai sebenar pembolehubah Y dan yang dikira menggunakan persamaan regresi. Oleh itu, sebagai contoh, persamaan regresi linear boleh dibina walaupun tiada korelasi linear.

Ukuran keberkesanan model regresi ialah pekali penentuan R2 (R-square). Pekali penentuan boleh mengambil nilai antara 0 dan 1 menentukan dengan tahap ketepatan persamaan regresi yang terhasil menerangkan (menghampirkan) data asal. Kepentingan model regresi juga disiasat menggunakan kriteria F (Fisher) dan kebolehpercayaan perbezaan antara pekali a0, a1, a2, ..., am dari sifar disemak menggunakan ujian-t Pelajar.

Dalam Excel, data percubaan dianggarkan dengan persamaan linear sehingga tertib ke-16:

y = a0+a1x1+a2x2+…+a16x16

Untuk mendapatkan pekali regresi linear, prosedur "Regression" daripada pakej analisis boleh digunakan. Juga, fungsi LINEST menyediakan maklumat lengkap tentang persamaan regresi linear. Selain itu, fungsi SLOPE dan INTERCEPT boleh digunakan untuk mendapatkan parameter persamaan regresi, dan fungsi TREND dan FORECAST boleh digunakan untuk mendapatkan nilai Y yang diramalkan pada titik yang diperlukan (untuk regresi berpasangan).

Mari kita pertimbangkan secara terperinci penggunaan fungsi LINEST (known_y, [known_x], [constant], [statistik]): known_y - julat nilai diketahui parameter bergantung Y. Dalam analisis regresi berpasangan, ia boleh mempunyai sebarang bentuk; dalam bentuk jamak, ia mestilah sama ada baris atau lajur; known_x ialah julat nilai yang diketahui bagi satu atau lebih parameter bebas. Mesti mempunyai bentuk yang sama seperti julat Y (untuk berbilang parameter, berbilang lajur atau baris, masing-masing); malar - hujah boolean. Jika, berdasarkan makna praktikal tugas analisis regresi, adalah perlu bahawa garis regresi melalui asal, iaitu, pekali bebas adalah sama dengan 0, nilai hujah ini harus ditetapkan sama dengan 0 (atau “ salah"). Jika nilai ditetapkan kepada 1 (atau "benar") atau ditinggalkan, maka pekali bebas dikira dengan cara biasa; statistik ialah hujah boolean. Jika nilai ditetapkan kepada 1 (atau "benar"), maka statistik regresi tambahan (lihat jadual) dikembalikan, digunakan untuk menilai keberkesanan dan kepentingan model. Dalam kes umum, untuk regresi berpasangan y=ax+b, hasil penggunaan fungsi LINEST kelihatan seperti ini:

Jadual. Julat Output LINEST untuk Analisis Regresi Berpasangan

Dalam kes analisis regresi berbilang untuk persamaan y=a0+a1x1+a2x2+…+amxm, pekali am,…,a1,a0 dipaparkan dalam baris pertama, dan ralat piawai untuk pekali ini dipaparkan dalam baris kedua . Baris 3-5, kecuali untuk dua lajur pertama yang diisi dengan statistik regresi, akan menghasilkan #N/A.

Fungsi LINEST hendaklah dimasukkan sebagai formula tatasusunan, mula-mula memilih tatasusunan saiz yang diingini untuk hasilnya (m+1 lajur dan 5 baris jika statistik regresi diperlukan) dan melengkapkan kemasukan formula dengan menekan CTRL+SHIFT+ENTER.

Hasil untuk contoh kami:

Di samping itu, program ini mempunyai fungsi terbina dalam - Analisis Data pada tab Data.

Ia juga boleh digunakan untuk melakukan analisis regresi:

Pada slaid - hasil analisis regresi yang dilakukan menggunakan Analisis Data.

KEPUTUSAN

Statistik regresi

Berbilang R

R-segi empat

Petak-R ternormal

kesalahan biasa

Pemerhatian

Analisis varians

Kepentingan F

Regresi

Kemungkinan

kesalahan biasa

t-statistik

P-nilai

bawah 95%

95% teratas

Rendah 95.0%

95.0% teratas

persimpangan Y

Pembolehubah X 1

Persamaan regresi yang kita lihat sebelum ini juga dibina dalam MS Excel. Untuk melaksanakannya, mula-mula plot taburan dibina, kemudian melalui menu konteks, pilih - Tambah garis arah aliran. Dalam tetingkap baharu, tandakan kotak - Tunjukkan persamaan pada rajah dan letakkan nilai kebolehpercayaan anggaran (R ^ 2) pada rajah.

kesusasteraan:

  1. Teori Kebarangkalian dan Statistik Matematik. Gmurman V. E. Buku teks untuk universiti. - Ed. ke-10, sr. - M.: Lebih tinggi. sekolah, 2010. - 479s.
  2. Matematik yang lebih tinggi dalam latihan dan tugasan. Buku teks untuk universiti / Danko P. E., Popov A. G., Kozhevnikova T. Ya., Danko S. P. Dalam 2 jam - Ed. ke-6, sr. - M .: Oniks Publishing House LLC: Mir and Education Publishing House LLC, 2007. - 416 p.
    1. 3. http://www.machinelearning.ru/wiki/index.php?title=%D0%A0%D0%B5%D0%B3%D1%80%D0%B5%D1%81%D1%81%D0%B8 %D1%8F - beberapa maklumat tentang analisis regresi

Konsep regresi. Hubungan antara pembolehubah x dan y boleh digambarkan dengan cara yang berbeza. Khususnya, sebarang bentuk sambungan boleh dinyatakan dengan persamaan am , di mana y dianggap sebagai pembolehubah bersandar, atau fungsi daripada yang lain - pembolehubah bebas x, dipanggil hujah. Korespondensi antara hujah dan fungsi boleh diberikan oleh jadual, formula, graf, dan sebagainya. Menukar fungsi bergantung pada perubahan dalam satu atau lebih argumen dipanggil regresi. Semua cara yang digunakan untuk menerangkan korelasi adalah kandungan analisis regresi.

Persamaan korelasi, atau persamaan regresi, siri regresi yang dikira secara empirikal dan secara teori, grafnya, dipanggil garis regresi, serta pekali regresi linear dan bukan linear, berfungsi untuk menyatakan regresi.

Penunjuk regresi menyatakan korelasi dua hala, dengan mengambil kira perubahan dalam nilai purata atribut Y apabila menukar nilai x i tanda X, dan sebaliknya, tunjukkan perubahan dalam nilai min ciri tersebut X dengan nilai yang diubah y i tanda Y. Pengecualian ialah siri masa, atau siri dinamik, yang menunjukkan perubahan dalam tanda dari semasa ke semasa. Regresi siri sedemikian adalah berat sebelah.

Terdapat pelbagai bentuk dan jenis korelasi. Tugas dikurangkan kepada mengenal pasti bentuk sambungan dalam setiap kes tertentu dan menyatakannya dengan persamaan korelasi yang sepadan, yang membolehkan kita meramalkan kemungkinan perubahan dalam satu tanda Y berdasarkan perubahan yang diketahui X, dikaitkan dengan korelasi pertama.

12.1 Regresi linear

Persamaan regresi. Hasil pemerhatian yang dijalankan ke atas objek biologi tertentu mengikut ciri-ciri berkorelasi x dan y, boleh diwakili oleh titik pada satah dengan membina sistem koordinat segi empat tepat. Akibatnya, gambar rajah serakan tertentu diperolehi, yang memungkinkan untuk menilai bentuk dan ketat hubungan antara ciri yang berbeza-beza. Selalunya hubungan ini kelihatan seperti garis lurus atau boleh dianggarkan dengan garis lurus.

Hubungan linear antara pembolehubah x dan y diterangkan oleh persamaan am , di mana a, b, c, d,… ialah parameter persamaan yang menentukan hubungan antara hujah x 1 , x 2 , x 3 , …, x m dan fungsi.

Dalam amalan, tidak semua hujah yang mungkin diambil kira, tetapi hanya beberapa hujah, dalam kes paling mudah, hanya satu:

Dalam persamaan regresi linear (1) a ialah istilah bebas, dan parameter b menentukan kecerunan garis regresi berkenaan dengan paksi koordinat segi empat tepat. Dalam geometri analitik, parameter ini dipanggil faktor cerun, dan dalam biometrik - pekali regresi. Perwakilan visual parameter ini dan kedudukan garis regresi Y pada X dan X pada Y dalam sistem koordinat segi empat tepat memberikan Rajah.1.

nasi. 1 Y oleh X dan X oleh Y garis regresi dalam sistem

koordinat segi empat tepat

Garis regresi, seperti yang ditunjukkan dalam Rajah 1, bersilang pada titik O (,), sepadan dengan nilai min aritmetik tanda yang berkorelasi antara satu sama lain Y dan X. Apabila memplot graf regresi, nilai pembolehubah bebas X diplot di sepanjang absis, dan nilai pembolehubah bersandar, atau fungsi Y, diplot di sepanjang ordinat. Garis AB yang melalui titik O (, ) sepadan dengan hubungan lengkap (fungsional) antara pembolehubah Y dan X apabila pekali korelasi . Semakin kuat hubungan antara Y dan X, semakin hampir garis regresi dengan AB, dan, sebaliknya, semakin lemah hubungan antara nilai ini, semakin jauh garis regresi dari AB. Sekiranya tiada sambungan antara ciri, garis regresi berada pada sudut tepat antara satu sama lain dan .

Oleh kerana penunjuk regresi menyatakan korelasi dua hala, persamaan regresi (1) hendaklah ditulis seperti berikut:

Menurut formula pertama, nilai purata ditentukan apabila tanda berubah X setiap unit ukuran, pada nilai purata kedua apabila ciri diubah setiap unit ukuran Y.

Pekali regresi. Pekali regresi menunjukkan bagaimana, secara purata, nilai satu ciri y berubah apabila unit ukuran lain, dikaitkan dengan Y tanda X. Penunjuk ini ditentukan oleh formula

Di sini nilai s darab dengan saiz selang kelas λ jika ia ditemui oleh siri variasi atau jadual korelasi.

Pekali regresi boleh dikira dengan memintas pengiraan sisihan piawai s y dan s x mengikut formula

Jika pekali korelasi tidak diketahui, pekali regresi ditentukan seperti berikut:

Hubungan antara regresi dan pekali korelasi. Membandingkan formula (11.1) (topik 11) dan (12.5), kita melihat bahawa pengangkanya mengandungi nilai yang sama , yang menunjukkan hubungan antara penunjuk ini. Hubungan ini dinyatakan oleh persamaan

Oleh itu, pekali korelasi adalah sama dengan min geometri bagi pekali b yx dan b xy. Formula (6) membenarkan, pertama, daripada nilai yang diketahui bagi pekali regresi b yx dan b xy tentukan pekali regresi R xy, dan kedua, untuk menyemak ketepatan pengiraan penunjuk korelasi ini R xy antara sifat yang berbeza-beza X dan Y.

Seperti pekali korelasi, pekali regresi hanya mencirikan hubungan linear dan disertakan dengan tanda tambah untuk hubungan positif dan tanda tolak untuk hubungan negatif.

Penentuan parameter regresi linear. Adalah diketahui bahawa jumlah sisihan kuasa dua bagi varian x i daripada purata terdapat nilai terkecil, iaitu teorem ini menjadi asas kepada kaedah kuasa dua terkecil. Berkenaan dengan regresi linear [lihat formula (1)], keperluan teorem ini dipenuhi oleh sistem persamaan tertentu yang dipanggil biasa:

Penyelesaian bersama persamaan ini berkenaan dengan parameter a dan b membawa kepada keputusan berikut:

;

;

, dari mana i.

Memandangkan sifat dua hala hubungan antara pembolehubah Y dan X, formula untuk menentukan parameter a harus dinyatakan seperti ini:

dan . (7)

Parameter b, atau pekali regresi, ditentukan oleh formula berikut:

Pembinaan siri regresi empirikal. Dengan kehadiran sejumlah besar pemerhatian, analisis regresi bermula dengan pembinaan siri regresi empirikal. Siri regresi empirikal dibentuk dengan mengira nilai satu atribut pembolehubah X nilai purata yang lain, berkorelasi dengan X tanda Y. Dalam erti kata lain, pembinaan siri regresi empirikal datang ke mencari kumpulan bermakna u daripada nilai sepadan tanda Y dan X.

Siri regresi empirikal ialah siri berganda nombor yang boleh diwakili oleh titik pada satah, dan kemudian, dengan menghubungkan titik-titik ini dengan segmen garis lurus, garis regresi empirikal boleh diperolehi. Siri regresi empirikal, terutamanya plot mereka, dipanggil garis regresi, berikan gambaran visual tentang bentuk dan ketat pergantungan korelasi antara ciri yang berbeza-beza.

Penyamaan siri regresi empirikal. Graf siri regresi empirikal adalah, sebagai peraturan, garis putus dan bukannya licin. Ini dijelaskan oleh fakta bahawa, bersama-sama dengan sebab-sebab utama yang menentukan corak umum dalam kebolehubahan sifat berkorelasi, nilainya dipengaruhi oleh pengaruh pelbagai punca sekunder yang menyebabkan turun naik rawak pada titik nod regresi. Untuk mengenal pasti arah aliran utama (trend) variasi konjugat ciri berkorelasi, anda perlu menggantikan garis putus dengan garis regresi yang lancar dan lancar. Proses menggantikan garis putus dengan yang licin dipanggil penjajaran siri empirikal dan garis regresi.

Kaedah penjajaran grafik. Ini adalah kaedah paling mudah yang tidak memerlukan kerja pengiraan. Intipatinya adalah seperti berikut. Siri regresi empirikal diplot sebagai graf dalam sistem koordinat segi empat tepat. Kemudian, titik tengah regresi digariskan secara visual, di mana garis pepejal dilukis menggunakan pembaris atau corak. Kelemahan kaedah ini adalah jelas: ia tidak mengecualikan pengaruh ciri individu penyelidik terhadap hasil penjajaran garis regresi empirikal. Oleh itu, dalam kes di mana ketepatan yang lebih tinggi diperlukan apabila menggantikan garis regresi yang rosak dengan yang licin, kaedah lain untuk menjajarkan siri empirikal digunakan.

Kaedah purata bergerak. Intipati kaedah ini dikurangkan kepada pengiraan urutan min aritmetik bagi dua atau tiga ahli jiran siri empirikal. Kaedah ini amat sesuai dalam kes di mana siri empirikal diwakili oleh sejumlah besar istilah, supaya kehilangan dua daripadanya - yang melampau, yang tidak dapat dielakkan dengan kaedah penyamaan ini, tidak akan menjejaskan strukturnya dengan ketara.

Kaedah kuasa dua terkecil. Kaedah ini dicadangkan pada awal abad ke-19 oleh A.M. Legendre dan, secara bebas daripadanya, K. Gauss. Ia membolehkan anda menjajarkan siri empirikal dengan paling tepat. Kaedah ini, seperti yang ditunjukkan di atas, adalah berdasarkan andaian bahawa jumlah sisihan kuasa dua varian x i dari purata mereka terdapat nilai minimum, iaitu Oleh itu nama kaedah, yang digunakan bukan sahaja dalam ekologi, tetapi juga dalam teknologi. Kaedah kuasa dua terkecil adalah objektif dan universal, ia digunakan dalam pelbagai kes apabila mencari persamaan empirikal siri regresi dan menentukan parameternya.

Keperluan kaedah kuasa dua terkecil ialah titik teoretikal garis regresi mesti diperolehi sedemikian rupa sehingga jumlah sisihan kuasa dua daripada titik ini untuk pemerhatian empirikal y i adalah minimum, iaitu

Mengira minimum ungkapan ini mengikut prinsip analisis matematik dan mengubahnya dengan cara tertentu, seseorang boleh mendapatkan sistem yang dipanggil persamaan biasa, di mana nilai yang tidak diketahui adalah parameter yang dikehendaki bagi persamaan regresi, dan pekali yang diketahui ditentukan oleh nilai empirikal ciri, biasanya jumlah nilainya dan hasil silangnya.

Regresi linear berganda. Hubungan antara beberapa pembolehubah biasanya dinyatakan oleh persamaan regresi berganda, yang boleh linear dan bukan linear. Dalam bentuk yang paling mudah, regresi berganda dinyatakan oleh persamaan dengan dua pembolehubah bebas ( x, z):

di mana a ialah sebutan bebas bagi persamaan; b dan c ialah parameter persamaan. Untuk mencari parameter persamaan (10) (dengan kaedah kuasa dua terkecil), sistem persamaan normal berikut digunakan:

Barisan dinamik. Penjajaran baris. Perubahan dalam tanda-tanda dari masa ke masa membentuk apa yang dipanggil siri masa atau deretan dinamik. Ciri ciri siri sedemikian ialah faktor masa sentiasa bertindak di sini sebagai pembolehubah bebas X, dan tanda yang berubah ialah pembolehubah bersandar Y. Bergantung pada siri regresi, hubungan antara pembolehubah X dan Y adalah sebelah pihak, kerana faktor masa tidak bergantung pada kebolehubahan ciri. Walaupun ciri-ciri ini, siri masa boleh disamakan dengan siri regresi dan diproses dengan kaedah yang sama.

Seperti siri regresi, siri masa empirikal dipengaruhi bukan sahaja oleh utama, tetapi juga oleh banyak faktor sekunder (rawak) yang mengaburkan trend utama dalam kebolehubahan ciri, yang dalam bahasa statistik dipanggil trend.

Analisis siri masa bermula dengan mengenal pasti bentuk arah aliran. Untuk melakukan ini, siri masa digambarkan sebagai graf garis dalam sistem koordinat segi empat tepat. Pada masa yang sama, titik masa (tahun, bulan, dan unit masa lain) diplot di sepanjang paksi absis, dan nilai pembolehubah bersandar Y diplot di sepanjang paksi ordinat. ialah persamaan regresi dalam bentuk sisihan sebutan bagi siri pembolehubah bersandar Y daripada min aritmetik bagi siri pembolehubah bebas X:

Di sini, ialah parameter regresi linear.

Ciri berangka siri dinamik. Ciri-ciri generalisasi berangka siri dinamik termasuk min geometri dan min aritmetik yang hampir dengannya. Mereka mencirikan kadar purata di mana nilai pembolehubah bersandar berubah dalam tempoh masa tertentu:

Anggaran kebolehubahan sebutan bagi siri dinamik ialah sisihan piawai. Apabila memilih persamaan regresi untuk menerangkan siri masa, bentuk arah aliran diambil kira, yang boleh menjadi linear (atau dikurangkan kepada linear) dan bukan linear. Ketepatan pilihan persamaan regresi biasanya dinilai oleh kesamaan nilai pembolehubah bersandar yang diperhatikan dan dikira secara empirik. Lebih tepat dalam menyelesaikan masalah ini ialah kaedah analisis regresi varians (topik 12 p.4).

Korelasi siri dinamik. Selalunya perlu untuk membandingkan dinamik siri masa selari yang berkaitan antara satu sama lain oleh beberapa keadaan umum, sebagai contoh, untuk mengetahui hubungan antara pengeluaran pertanian dan pertumbuhan ternakan dalam tempoh masa tertentu. Dalam kes sedemikian, hubungan antara pembolehubah X dan Y dicirikan oleh pekali korelasi R xy (dengan kehadiran arah aliran linear).

Adalah diketahui bahawa arah aliran siri dinamik, sebagai peraturan, dikaburkan oleh turun naik dalam terma siri pembolehubah bersandar Y. Oleh itu, masalah dua kali ganda timbul: mengukur pergantungan antara siri yang dibandingkan, tanpa mengecualikan arah aliran, dan mengukur pergantungan antara ahli bersebelahan siri yang sama, tidak termasuk arah aliran. Dalam kes pertama, penunjuk keakraban sambungan antara siri dinamik yang dibandingkan ialah pekali korelasi(jika perhubungan adalah linear), dalam kedua - pekali autokorelasi. Penunjuk ini mempunyai nilai yang berbeza, walaupun ia dikira menggunakan formula yang sama (lihat topik 11).

Adalah mudah untuk melihat bahawa nilai pekali autokorelasi dipengaruhi oleh kebolehubahan ahli siri pembolehubah bersandar: semakin kurang ahli siri menyimpang daripada arah aliran, semakin tinggi pekali autokorelasi, dan sebaliknya.

Dengan adanya korelasi antara faktor dan tanda yang terhasil, doktor selalunya perlu menentukan dengan berapa banyak nilai satu tanda boleh berubah apabila yang lain diubah oleh unit ukuran yang diterima umum atau ditetapkan oleh penyelidik sendiri.

Sebagai contoh, bagaimanakah berat badan murid-murid sekolah darjah 1 (perempuan atau lelaki) akan berubah jika ketinggian mereka meningkat sebanyak 1 cm.Untuk tujuan ini, kaedah analisis regresi digunakan.

Selalunya, kaedah analisis regresi digunakan untuk membangunkan skala dan piawaian normatif untuk pembangunan fizikal.

  1. Definisi regresi. Regresi ialah fungsi yang membolehkan, berdasarkan nilai purata satu atribut, untuk menentukan nilai purata atribut lain yang berkorelasi dengan yang pertama.

    Untuk tujuan ini, pekali regresi dan beberapa parameter lain digunakan. Sebagai contoh, anda boleh mengira bilangan selsema secara purata pada nilai tertentu purata suhu udara bulanan dalam tempoh musim luruh-musim sejuk.

  2. Definisi pekali regresi. Pekali regresi ialah nilai mutlak yang mana nilai satu atribut berubah secara purata apabila atribut lain yang dikaitkan dengannya berubah mengikut unit ukuran yang ditetapkan.
  3. Formula pekali regresi. R y / x \u003d r xy x (σ y / σ x)
    di mana R y / x - pekali regresi;
    r xy - pekali korelasi antara ciri x dan y;
    (σ y dan σ x) - sisihan piawai bagi ciri x dan y.

    Dalam contoh kami;
    σ x = 4.6 (sisihan piawai suhu udara dalam tempoh musim luruh-musim sejuk;
    σ y = 8.65 (sisihan piawai bilangan selsema berjangkit).
    Oleh itu, R y/x ialah pekali regresi.
    R y / x \u003d -0.96 x (4.6 / 8.65) \u003d 1.8, i.e. dengan penurunan purata suhu udara bulanan (x) sebanyak 1 darjah, purata bilangan selesema berjangkit (y) dalam tempoh musim luruh-musim sejuk akan berubah sebanyak 1.8 kes.

  4. Persamaan Regresi. y \u003d M y + R y / x (x - M x)
    dengan y ialah nilai purata atribut, yang harus ditentukan apabila nilai purata atribut lain (x) berubah;
    x - nilai purata diketahui ciri lain;
    R y/x - pekali regresi;
    M x, M y - nilai purata ciri x dan y yang diketahui.

    Sebagai contoh, purata bilangan selesema berjangkit (y) boleh ditentukan tanpa pengukuran khas pada sebarang nilai purata suhu udara bulanan purata (x). Jadi, jika x \u003d - 9 °, R y / x \u003d 1.8 penyakit, M x \u003d -7 °, M y \u003d 20 penyakit, maka y \u003d 20 + 1.8 x (9-7) \u003d 20 + 3 .6 = 23.6 penyakit.
    Persamaan ini digunakan dalam kes hubungan garis lurus antara dua ciri (x dan y).

  5. Tujuan persamaan regresi. Persamaan regresi digunakan untuk memplot garis regresi. Yang terakhir membenarkan, tanpa ukuran khas, untuk menentukan sebarang nilai purata (y) bagi satu atribut, jika nilai (x) atribut lain berubah. Berdasarkan data ini, graf dibina - garis regresi, yang boleh digunakan untuk menentukan purata bilangan selsema pada sebarang nilai purata suhu bulanan dalam julat antara nilai pengiraan bilangan selsema.
  6. Sigma regresi (formula).
    di mana σ Ru/x - sigma (sisihan piawai) regresi;
    σ y ialah sisihan piawai bagi ciri y;
    r xy - pekali korelasi antara ciri x dan y.

    Jadi, jika σ y ialah sisihan piawai bilangan selsema = 8.65; r xy - pekali korelasi antara bilangan selsema (y) dan purata suhu udara bulanan dalam tempoh musim luruh-musim sejuk (x) ialah - 0.96, maka

  7. Tujuan regresi sigma. Memberi ciri ukuran kepelbagaian ciri yang terhasil (y).

    Sebagai contoh, ia mencirikan kepelbagaian bilangan selsema pada nilai tertentu purata suhu udara bulanan dalam tempoh musim luruh-musim sejuk. Jadi, purata bilangan selsema pada suhu udara x 1 \u003d -6 ° boleh berkisar antara 15.78 penyakit hingga 20.62 penyakit.
    Pada x 2 = -9°, purata bilangan selsema boleh berkisar antara 21.18 penyakit hingga 26.02 penyakit, dsb.

    Sigma regresi digunakan dalam pembinaan skala regresi, yang mencerminkan sisihan nilai atribut berkesan daripada nilai purata yang diplot pada garis regresi.

  8. Data yang diperlukan untuk mengira dan memplot skala regresi
    • pekali regresi - Ry/x;
    • persamaan regresi - y \u003d M y + R y / x (x-M x);
    • sigma regresi - σ Rx/y
  9. Urutan pengiraan dan perwakilan grafik skala regresi.
    • tentukan pekali regresi dengan formula (lihat perenggan 3). Sebagai contoh, seseorang harus menentukan berapa banyak berat badan akan berubah secara purata (pada umur tertentu bergantung kepada jantina) jika purata ketinggian berubah sebanyak 1 cm.
    • mengikut formula persamaan regresi (lihat perenggan 4), tentukan apa yang akan menjadi purata, sebagai contoh, berat badan (y, y 2, y 3 ...) * untuk nilai pertumbuhan tertentu (x, x 2, x 3 ...).
      ________________
      * Nilai "y" hendaklah dikira untuk sekurang-kurangnya tiga nilai "x" yang diketahui.

      Pada masa yang sama, nilai purata berat badan dan ketinggian (M x, dan M y) untuk umur dan jantina tertentu diketahui

    • hitung sigma regresi, mengetahui nilai sepadan σ y dan r xy dan menggantikan nilainya ke dalam formula (lihat perenggan 6).
    • berdasarkan nilai yang diketahui x 1, x 2, x 3 dan nilai purata sepadannya y 1, y 2 y 3, serta yang terkecil (y - σ ru / x) dan terbesar (y + σ ru / x) nilai \u200b\u200b(y) membina skala regresi.

      Untuk perwakilan grafik skala regresi, nilai x, x 2 , x 3 (paksi-y) mula-mula ditanda pada graf, i.e. garis regresi dibina, sebagai contoh, pergantungan berat badan (y) pada ketinggian (x).

      Kemudian, pada titik yang sepadan y 1 , y 2 , y 3 nilai berangka sigma regresi ditandakan, i.e. pada graf cari nilai terkecil dan terbesar bagi y 1 , y 2 , y 3 .

  10. Penggunaan praktikal skala regresi. Skala dan piawaian normatif sedang dibangunkan, khususnya untuk pembangunan fizikal. Mengikut skala standard, adalah mungkin untuk memberikan penilaian individu terhadap perkembangan kanak-kanak. Pada masa yang sama, perkembangan fizikal dinilai sebagai harmoni jika, sebagai contoh, pada ketinggian tertentu, berat badan kanak-kanak berada dalam satu sigma regresi kepada purata unit berat badan yang dikira - (y) untuk ketinggian tertentu (x) ( y ± 1 σ Ry / x).

    Perkembangan fizikal dianggap tidak harmoni dari segi berat badan jika berat badan kanak-kanak untuk ketinggian tertentu berada dalam sigma regresi kedua: (y ± 2 σ Ry/x)

    Perkembangan fizikal akan menjadi tidak harmoni dengan ketara kedua-duanya disebabkan oleh berat badan berlebihan dan tidak mencukupi jika berat badan untuk ketinggian tertentu berada dalam sigma ketiga regresi (y ± 3 σ Ry/x).

Menurut hasil kajian statistik perkembangan fizikal kanak-kanak lelaki berumur 5 tahun, diketahui bahawa purata ketinggian (x) mereka ialah 109 cm, dan purata berat badan mereka (y) ialah 19 kg. Pekali korelasi antara ketinggian dan berat badan ialah +0.9, sisihan piawai dibentangkan dalam jadual.

Diperlukan:

  • hitung pekali regresi;
  • menggunakan persamaan regresi, tentukan jangkaan berat badan kanak-kanak lelaki berumur 5 tahun dengan ketinggian bersamaan dengan x1 = 100 cm, x2 = 110 cm, x3 = 120 cm;
  • mengira sigma regresi, membina skala regresi, mempersembahkan keputusan penyelesaiannya secara grafik;
  • membuat kesimpulan yang sesuai.

Keadaan masalah dan keputusan penyelesaiannya dibentangkan dalam jadual ringkasan.

Jadual 1

Keadaan masalah Hasil penyelesaian masalah
persamaan regresi regresi sigma skala regresi (berat badan yang dijangkakan (dalam kg))
M σ r xy R y/x X Pada σRx/y y - σ Rу/х y + σ Rу/х
1 2 3 4 5 6 7 8 9 10
Tinggi (x) 109 sm ± 4.4cm +0,9 0,16 100cm 17.56 kg ± 0.35 kg 17.21 kg 17.91 kg
Berat badan (y) 19 kg ± 0.8 kg 110 sm 19.16 kg 18.81 kg 19.51 kg
120 sm 20.76 kg 20.41 kg 21.11 kg

Penyelesaian.

Kesimpulan. Oleh itu, skala regresi dalam nilai yang dikira berat badan membolehkan anda menentukannya untuk sebarang nilai pertumbuhan lain atau untuk menilai perkembangan individu kanak-kanak itu. Untuk melakukan ini, pulihkan serenjang ke garis regresi.

  1. Vlasov V.V. Epidemiologi. - M.: GEOTAR-MED, 2004. - 464 hlm.
  2. Lisitsyn Yu.P. Kesihatan awam dan penjagaan kesihatan. Buku teks untuk sekolah menengah. - M.: GEOTAR-MED, 2007. - 512 hlm.
  3. Medik V.A., Yuriev V.K. Kursus kuliah mengenai kesihatan awam dan penjagaan kesihatan: Bahagian 1. Kesihatan awam. - M.: Perubatan, 2003. - 368 p.
  4. Minyaev V.A., Vishnyakov N.I. dan lain-lain.Perubatan sosial dan organisasi penjagaan kesihatan (Panduan dalam 2 jilid). - St. Petersburg, 1998. -528 hlm.
  5. Kucherenko V.Z., Agarkov N.M. dan lain-lain Kebersihan sosial dan organisasi penjagaan kesihatan (Tutorial) - Moscow, 2000. - 432 p.
  6. S. Glantz. Statistik perubatan-biologi. Per daripada bahasa Inggeris. - M., Amalan, 1998. - 459 p.

Dalam pemodelan statistik, analisis regresi adalah kajian yang digunakan untuk menilai hubungan antara pembolehubah. Kaedah matematik ini merangkumi banyak kaedah lain untuk memodelkan dan menganalisis berbilang pembolehubah apabila tumpuan adalah pada hubungan antara pembolehubah bersandar dan satu atau lebih pembolehubah tidak bersandar. Secara lebih khusus, analisis regresi membantu anda memahami cara nilai tipikal pembolehubah bersandar berubah jika salah satu pembolehubah bebas berubah manakala pembolehubah bebas yang lain kekal tetap.

Dalam semua kes, skor sasaran adalah fungsi pembolehubah bebas dan dipanggil fungsi regresi. Dalam analisis regresi, adalah juga menarik untuk mencirikan perubahan dalam pembolehubah bersandar sebagai fungsi regresi, yang boleh diterangkan menggunakan taburan kebarangkalian.

Tugas analisis regresi

Kaedah penyelidikan statistik ini digunakan secara meluas untuk peramalan, di mana penggunaannya mempunyai kelebihan yang ketara, tetapi kadangkala ia boleh membawa kepada ilusi atau hubungan palsu, jadi disyorkan untuk menggunakannya dengan berhati-hati dalam soalan ini, kerana, sebagai contoh, korelasi tidak bermakna sebab musabab.

Sebilangan besar kaedah telah dibangunkan untuk melaksanakan analisis regresi, seperti regresi kuasa dua terkecil linear dan biasa, yang berparametrik. Intipatinya ialah fungsi regresi ditakrifkan dari segi bilangan terhingga parameter yang tidak diketahui yang dianggarkan daripada data. Regresi bukan parametrik membenarkan fungsinya terletak pada set fungsi tertentu, yang boleh menjadi dimensi tak terhingga.

Sebagai kaedah penyelidikan statistik, analisis regresi dalam amalan bergantung kepada bentuk proses penjanaan data dan bagaimana ia berkaitan dengan pendekatan regresi. Memandangkan bentuk sebenar penjanaan proses data lazimnya adalah nombor yang tidak diketahui, analisis regresi data sering bergantung sedikit sebanyak pada andaian tentang proses tersebut. Andaian ini kadangkala boleh diuji jika terdapat data yang mencukupi. Model regresi selalunya berguna walaupun andaian dilanggar secara sederhana, walaupun ia mungkin tidak menunjukkan prestasi terbaik.

Dalam erti kata yang lebih sempit, regresi boleh merujuk secara khusus kepada anggaran pembolehubah tindak balas berterusan, berbanding dengan pembolehubah tindak balas diskret yang digunakan dalam pengelasan. Kes pembolehubah keluaran berterusan juga dipanggil regresi metrik untuk membezakannya daripada masalah yang berkaitan.

cerita

Bentuk regresi terawal ialah kaedah kuasa dua terkecil yang terkenal. Ia telah diterbitkan oleh Legendre pada tahun 1805 dan Gauss pada tahun 1809. Legendre dan Gauss menggunakan kaedah tersebut untuk masalah menentukan daripada pemerhatian astronomi orbit badan mengelilingi Matahari (terutamanya komet, tetapi kemudiannya juga planet kecil yang baru ditemui). Gauss menerbitkan perkembangan lanjut teori kuasa dua terkecil pada tahun 1821, termasuk varian teorem Gauss-Markov.

Istilah "regresi" dicipta oleh Francis Galton pada abad ke-19 untuk menggambarkan fenomena biologi. Intinya ialah pertumbuhan keturunan daripada pertumbuhan nenek moyang, sebagai peraturan, turun ke purata biasa. Bagi Galton, regresi hanya mempunyai makna biologi ini, tetapi kemudian karyanya diambil oleh Udni Yoley dan Karl Pearson dan dibawa ke konteks statistik yang lebih umum. Dalam karya Yule dan Pearson, taburan bersama pembolehubah tindak balas dan penjelasan dianggap sebagai Gaussian. Andaian ini telah ditolak oleh Fischer dalam kertas tahun 1922 dan 1925. Fisher mencadangkan bahawa taburan bersyarat bagi pembolehubah tindak balas adalah Gaussian, tetapi taburan bersama tidak semestinya. Dalam hal ini, cadangan Fisher lebih dekat dengan rumusan Gauss 1821. Sebelum tahun 1970, kadangkala mengambil masa sehingga 24 jam untuk mendapatkan hasil analisis regresi.

Kaedah analisis regresi terus menjadi bidang penyelidikan aktif. Dalam dekad kebelakangan ini, kaedah baru telah dibangunkan untuk regresi yang teguh; regresi yang melibatkan tindak balas berkorelasi; kaedah regresi yang menampung pelbagai jenis data yang hilang; regresi bukan parametrik; Kaedah regresi Bayesian; regresi di mana pembolehubah peramal diukur dengan ralat; regresi dengan lebih banyak peramal daripada pemerhatian; dan inferens kausal dengan regresi.

Model Regresi

Model analisis regresi termasuk pembolehubah berikut:

  • Parameter tidak diketahui, dilambangkan sebagai beta, yang boleh menjadi skalar atau vektor.
  • Pembolehubah tidak bersandar, X.
  • Pembolehubah bersandar, Y.

Dalam pelbagai bidang sains di mana analisis regresi digunakan, istilah berbeza digunakan dan bukannya pembolehubah bersandar dan tidak bersandar, tetapi dalam semua kes model regresi mengaitkan Y dengan fungsi X dan β.

Anggaran biasanya dirumuskan sebagai E (Y | X) = F (X, β). Untuk melakukan analisis regresi, bentuk fungsi f mesti ditentukan. Lebih jarang, ia berdasarkan pengetahuan tentang hubungan antara Y dan X yang tidak bergantung pada data. Jika pengetahuan sedemikian tidak tersedia, maka bentuk F yang fleksibel atau mudah dipilih.

Pembolehubah bersandar Y

Sekarang mari kita anggap bahawa vektor parameter yang tidak diketahui β mempunyai panjang k. Untuk melakukan analisis regresi, pengguna mesti memberikan maklumat tentang pembolehubah bersandar Y:

  • Jika N titik data dalam bentuk (Y, X) diperhatikan, di mana N< k, большинство классических подходов к регрессионному анализу не могут быть выполнены, так как система уравнений, определяющих модель регрессии в качестве недоопределенной, не имеет достаточного количества данных, чтобы восстановить β.
  • Jika betul-betul N = K diperhatikan, dan fungsi F adalah linear, maka persamaan Y = F(X, β) boleh diselesaikan dengan tepat, bukan lebih kurang. Ini bermuara kepada menyelesaikan satu set persamaan N dengan N-tidak diketahui (elemen β) yang mempunyai penyelesaian unik selagi X bebas linear. Jika F bukan linear, penyelesaian mungkin tidak wujud, atau mungkin terdapat banyak penyelesaian.
  • Situasi yang paling biasa ialah di mana terdapat N > mata kepada data. Dalam kes ini, terdapat maklumat yang mencukupi dalam data untuk menganggarkan nilai unik untuk β yang paling sesuai dengan data, dan model regresi apabila digunakan pada data boleh dilihat sebagai sistem yang diganti dalam β.

Dalam kes kedua, analisis regresi menyediakan alat untuk:

  • Mencari penyelesaian untuk parameter β yang tidak diketahui, yang akan, sebagai contoh, meminimumkan jarak antara nilai yang diukur dan diramalkan bagi Y.
  • Di bawah andaian statistik tertentu, analisis regresi menggunakan lebihan maklumat untuk menyediakan maklumat statistik tentang parameter yang tidak diketahui β dan nilai ramalan pembolehubah bersandar Y.

Bilangan ukuran bebas yang diperlukan

Pertimbangkan model regresi yang mempunyai tiga parameter yang tidak diketahui: β 0 , β 1 dan β 2 . Mari kita andaikan bahawa penguji membuat 10 ukuran dalam nilai yang sama bagi pembolehubah bebas bagi vektor X. Dalam kes ini, analisis regresi tidak memberikan set nilai yang unik. Perkara terbaik yang boleh anda lakukan ialah menganggarkan min dan sisihan piawai pembolehubah bersandar Y. Begitu juga, dengan mengukur dua nilai X yang berbeza, anda boleh mendapatkan data yang mencukupi untuk regresi dengan dua yang tidak diketahui, tetapi bukan untuk tiga atau lebih yang tidak diketahui.

Jika ukuran penguji diambil pada tiga nilai berbeza bagi pembolehubah vektor bebas X, maka analisis regresi akan menyediakan satu set anggaran yang unik untuk tiga parameter yang tidak diketahui dalam β.

Dalam kes regresi linear am, pernyataan di atas adalah bersamaan dengan keperluan bahawa matriks X T X boleh terbalik.

Andaian Statistik

Apabila bilangan ukuran N lebih besar daripada bilangan parameter yang tidak diketahui k dan ralat pengukuran ε i , maka, sebagai peraturan, maka lebihan maklumat yang terkandung dalam ukuran diedarkan dan digunakan untuk ramalan statistik mengenai parameter yang tidak diketahui. Lebihan maklumat ini dipanggil darjah kebebasan regresi.

Andaian Asas

Andaian klasik untuk analisis regresi termasuk:

  • Persampelan mewakili ramalan inferens.
  • Ralat adalah pembolehubah rawak dengan nilai min sifar, yang bersyarat pada pembolehubah penjelasan.
  • Pembolehubah bebas diukur tanpa ralat.
  • Sebagai pembolehubah tidak bersandar (peramal), ia adalah bebas secara linear, iaitu, tidak mungkin untuk menyatakan sebarang peramal sebagai gabungan linear yang lain.
  • Ralat tidak berkorelasi, iaitu matriks kovarians ralat pepenjuru dan setiap unsur bukan sifar ialah varians ralat.
  • Varians ralat adalah malar merentasi pemerhatian (homoskedastisitas). Jika tidak, maka kuasa dua terkecil berwajaran atau kaedah lain boleh digunakan.

Syarat yang mencukupi untuk anggaran kuasa dua terkecil ini mempunyai sifat yang diperlukan, khususnya andaian ini bermakna anggaran parameter akan objektif, konsisten dan cekap, terutamanya apabila diambil kira dalam kelas anggaran linear. Adalah penting untuk ambil perhatian bahawa data sebenar jarang memenuhi syarat. Maksudnya, kaedah itu digunakan walaupun andaian itu tidak betul. Variasi daripada andaian kadangkala boleh digunakan sebagai ukuran sejauh mana model itu berguna. Banyak andaian ini boleh dilonggarkan dalam kaedah yang lebih maju. Laporan analisis statistik biasanya termasuk analisis ujian terhadap data sampel dan metodologi untuk kegunaan model.

Di samping itu, pembolehubah dalam beberapa kes merujuk kepada nilai yang diukur pada lokasi titik. Mungkin terdapat trend spatial dan autokorelasi spatial dalam pembolehubah yang melanggar andaian statistik. Regresi berwajaran geografi adalah satu-satunya kaedah yang menangani data sedemikian.

Dalam regresi linear, cirinya ialah pembolehubah bersandar, iaitu Y i , ialah gabungan linear parameter. Contohnya, dalam regresi linear mudah, pemodelan n-titik menggunakan satu pembolehubah tidak bersandar, x i , dan dua parameter, β 0 dan β 1 .

Dalam regresi linear berbilang, terdapat beberapa pembolehubah bebas atau fungsinya.

Apabila sampel rawak daripada populasi, parameternya memungkinkan untuk mendapatkan sampel model regresi linear.

Dalam aspek ini, kaedah kuasa dua terkecil adalah yang paling popular. Ia menyediakan anggaran parameter yang meminimumkan jumlah kuasa dua baki. Pengecilan jenis ini (yang tipikal regresi linear) fungsi ini membawa kepada satu set persamaan normal dan satu set persamaan linear dengan parameter, yang diselesaikan untuk mendapatkan anggaran parameter.

Dengan mengandaikan lagi bahawa ralat populasi secara amnya merambat, penyelidik boleh menggunakan anggaran ralat piawai ini untuk mencipta selang keyakinan dan melakukan ujian hipotesis tentang parameternya.

Analisis Regresi Tak Linear

Contoh di mana fungsi tidak linear berkenaan dengan parameter menunjukkan bahawa jumlah kuasa dua harus diminimumkan dengan prosedur berulang. Ini memperkenalkan banyak komplikasi yang mentakrifkan perbezaan antara kaedah kuasa dua terkecil linear dan bukan linear. Akibatnya, keputusan analisis regresi apabila menggunakan kaedah bukan linear kadangkala tidak dapat diramalkan.

Pengiraan kuasa dan saiz sampel

Di sini, sebagai peraturan, tidak ada kaedah yang konsisten mengenai bilangan pemerhatian berbanding dengan bilangan pembolehubah bebas dalam model. Peraturan pertama telah dicadangkan oleh Dobra dan Hardin dan kelihatan seperti N = t^n, di mana N ialah saiz sampel, n ialah bilangan pembolehubah penjelasan, dan t ialah bilangan pemerhatian yang diperlukan untuk mencapai ketepatan yang diingini jika model mempunyai hanya satu pembolehubah penjelasan. Sebagai contoh, seorang penyelidik membina model regresi linear menggunakan set data yang mengandungi 1000 pesakit (N). Jika penyelidik memutuskan bahawa lima pemerhatian diperlukan untuk menentukan garis (m) dengan tepat, maka bilangan maksimum pembolehubah penjelasan yang boleh disokong oleh model ialah 4.

Kaedah Lain

Walaupun parameter model regresi biasanya dianggarkan menggunakan kaedah kuasa dua terkecil, terdapat kaedah lain yang digunakan lebih kurang kerap. Sebagai contoh, ini adalah kaedah berikut:

  • Kaedah Bayesian (contohnya, kaedah regresi linear Bayesian).
  • Regresi peratusan digunakan untuk situasi di mana mengurangkan peratusan ralat dianggap lebih sesuai.
  • Sisihan mutlak terkecil, yang lebih teguh dengan kehadiran outlier yang membawa kepada regresi kuantil.
  • Regresi bukan parametrik yang memerlukan sejumlah besar pemerhatian dan pengiraan.
  • Jarak metrik pembelajaran yang dipelajari untuk mencari metrik jarak yang bermakna dalam ruang input yang diberikan.

Perisian

Semua pakej perisian statistik utama dilakukan menggunakan analisis regresi kuasa dua terkecil. Regresi linear mudah dan analisis regresi berbilang boleh digunakan dalam beberapa aplikasi hamparan serta beberapa kalkulator. Walaupun banyak pakej perisian statistik boleh melakukan pelbagai jenis regresi bukan parametrik dan teguh, kaedah ini kurang piawai; pakej perisian yang berbeza melaksanakan kaedah yang berbeza. Perisian regresi khusus telah dibangunkan untuk digunakan dalam bidang seperti analisis tinjauan dan pengimejan neuro.