Biografi Ciri-ciri Analisis

Variasi dipanggil dalam statistik. Siri variasi dan variasi, julat variasi

Konsep variasi dan maksudnya

Variasi ini ialah perbezaan dalam nilai mana-mana atribut dalam unit berbeza populasi tertentu dalam tempoh atau titik masa yang sama.

Sebagai contoh, pekerja firma berbeza dalam pendapatan, masa yang dihabiskan untuk bekerja, ketinggian, berat badan, dan sebagainya.

Variasi berlaku akibat fakta bahawa nilai individu atribut terbentuk di bawah pengaruh gabungan pelbagai faktor (keadaan), yang digabungkan dengan cara yang berbeza dalam setiap kes berasingan. Oleh itu, nilai setiap pilihan adalah objektif.

Kajian variasi dalam statistik telah sangat penting, kerana membantu memahami intipati fenomena yang dikaji. Mengukur variasi, mengetahui puncanya, mengenal pasti pengaruh faktor individu memberi maklumat penting(contohnya, tentang jangka hayat orang, pendapatan dan perbelanjaan penduduk, keadaan kewangan perusahaan, dll.) untuk membuat keputusan pengurusan berasaskan saintifik.

Nilai purata memberikan ciri umum sifat populasi yang dikaji, tetapi ia tidak mendedahkan struktur populasi, yang sangat penting untuk pengetahuannya. Purata tidak menunjukkan cara varian ciri purata terletak berdekatan dengannya, sama ada ia tertumpu berhampiran purata atau menyimpang dengan ketara daripadanya. Oleh itu, untuk mencirikan turun naik sesuatu tanda, penunjuk variasi digunakan.

Penunjuk variasi dan kepentingannya dalam statistik

Untuk mengukur variasi sesuatu sifat dalam populasi, petunjuk umum variasi berikut digunakan: julat variasi, sisihan linear min, varians dan min sisihan piawai .

1. Penunjuk mutlak yang paling biasa ialah julat variasi(), ditakrifkan sebagai perbezaan antara nilai terbesar () dan terkecil () bagi pilihan.

. (5.1)

Penunjuk ini mudah dikira, yang menyebabkannya. penggunaan yang meluas. Walau bagaimanapun, ia hanya menangkap sisihan melampau dan tidak menggambarkan sisihan semua varian dalam siri ini.

2. Untuk ciri umum bagi taburan sisihan, kami mengira min sisihan linear , ditakrifkan sebagai min aritmetik bagi sisihan nilai individu daripada min, tanpa mengambil kira tanda penyelewengan ini:

Sisihan linear min tidak berwajaran:

, (5.2)

Sisihan linear min berwajaran:

. (5.3)

Dalam formula ini, perbezaan dalam pengangka diambil sebagai modulo, jika tidak pengangka akan sentiasa sifar. Oleh itu, sisihan linear purata sebagai ukuran variasi ciri jarang digunakan dalam amalan statistik, hanya dalam kes di mana penjumlahan penunjuk tanpa mengambil kira tanda telah pengertian ekonomi. Dengan bantuannya, sebagai contoh, komposisi pekerja, irama pengeluaran, dan pusing ganti perdagangan asing dianalisis.

3. Ukuran variasi lebih objektif dicerminkan oleh penunjuk penyebaran ( - persegi tengah sisihan), ditakrifkan sebagai purata sisihan kuasa dua:

Tidak bertimbang:

, (5.4)

Ditimbang:

. (5.5)

Penyerakan amat penting dalam analisis ekonomi. AT statistik matematik peranan penting untuk mencirikan kualiti anggaran statistik, varians mereka bermain.

4. Punca kuasa dua varians "sisihan kuasa dua min" ialah sisihan piawai:

Sisihan piawai ialah ciri umum saiz variasi ciri dalam agregat. Ia menunjukkan bagaimana, secara purata, pilihan tertentu menyimpang daripada nilai puratanya; ialah ukuran mutlak turun naik atribut dan dinyatakan dalam unit yang sama dengan varian, oleh itu ia ditafsirkan dengan baik dari segi ekonomi.

Bagaimana kurang nilai serakan dan sisihan piawai, semakin homogen (secara kuantitatif) populasi dan semakin tipikal nilai puratanya.

Dalam amalan statistik, selalunya menjadi perlu untuk membandingkan variasi pelbagai ciri (contohnya, membandingkan variasi dalam umur pekerja dan kelayakan mereka, tempoh perkhidmatan dan saiz upah).

Untuk membuat perbandingan ini, gunakan yang berikut prestasi relatif:

Pekali ayunan- mencerminkan turun naik relatif nilai yang melampau ciri sekitar min:

. (5.7)

Sisihan linear relatif mencirikan bahagian nilai purata sisihan mutlak daripada nilai purata:

. (5.8)

Pekali variasi ialah ukuran turun naik yang paling biasa digunakan untuk menilai tipikal min:

. (5.9)

Jika , maka ini menunjukkan turun naik yang besar bagi sifat dalam populasi yang dikaji.

5.3 Varians: sifat dan kaedah pengiraan

Penyerakan mempunyai beberapa sifat yang memungkinkan untuk memudahkan pengiraannya.

1) Jika daripada semua nilai pilihan diambil beberapa nombor tetap, maka sisihan kuasa dua min daripada ini tidak akan berubah:

. (5.10)

2) Jika semua nilai pilihan dibahagikan dengan beberapa nombor tetap, maka purata kuasa dua sisihan akan berkurangan daripada ini dengan faktor, dan sisihan piawai dengan faktor.

. (5.11)

3) Jika anda mengira purata kuasa dua sisihan daripada sebarang nilai, yang sedikit sebanyak berbeza daripada min aritmetik, maka ia akan sentiasa lebih besar daripada purata kuasa dua sisihan, dikira daripada min aritmetik:

Iaitu, kuasa dua purata sisihan akan lebih besar dengan kuasa dua perbezaan antara purata dan nilai yang diambil secara bersyarat ini, i.e. pada :

Varians daripada min mempunyai harta minima, iaitu ia sentiasa kurang daripada varians yang dikira daripada sebarang kuantiti lain. Dalam kes ini, apabila disamakan dengan sifar, formulanya menjadi:

. (5.14)

Menggunakan sifat kedua varians, membahagikan semua pilihan dengan nilai selang, kami memperoleh formula berikut untuk mengira varians dalam siri variasi dengan pada selang waktu yang sama mengikut kaedah momen:

, (5.15)

di manakah serakan dikira dengan kaedah momen;

5.3. Penunjuk variasi

matlamat kajian statistik sedang mendedahkan sifat asas dan corak populasi statistik yang dikaji. Dalam proses pemprosesan data yang disatukan pemerhatian statistik sedang membina talian pengedaran. Terdapat dua jenis siri pengedaran - atribut dan variasi, bergantung pada sama ada atribut yang diambil sebagai asas pengelompokan adalah kualitatif atau kuantitatif.

variasi dipanggil siri pengedaran yang dibina secara kuantitatif. Nilai sifat kuantitatif untuk unit individu, agregat tidak tetap, ia berbeza lebih kurang antara satu sama lain. Perbezaan dalam nilai sifat ini dipanggil variasi. Berpisah nilai berangka sifat yang berlaku dalam populasi yang dikaji dipanggil pilihan nilai. Kehadiran variasi dalam unit individu populasi adalah disebabkan oleh pengaruh sejumlah besar faktor pada pembentukan tahap sifat. Kajian tentang sifat dan darjah variasi tanda dalam unit individu populasi adalah isu kritikal sebarang kajian statistik. Penunjuk variasi digunakan untuk menerangkan ukuran kebolehubahan sifat.

Satu lagi tugas penting penyelidikan statistik adalah untuk menentukan peranan faktor individu atau kumpulan mereka dalam variasi tanda-tanda tertentu populasi. Untuk menyelesaikan masalah ini dalam statistik, kaedah khas kajian variasi berdasarkan penggunaan kad skor yang mengukur variasi. Dalam amalan, pengkaji berhadapan dengan cukup Kuantiti yang besar pilihan untuk nilai atribut, yang tidak memberikan gambaran tentang pengagihan unit dengan nilai atribut dalam agregat. Untuk melakukan ini, semua varian nilai atribut disusun dalam susunan menaik atau menurun. Proses ini dipanggil kedudukan baris. Siri berperingkat segera memberi idea umum tentang nilai yang diambil oleh ciri dalam agregat.

Ketidakcukupan nilai purata untuk pencirian menyeluruh populasi menjadikannya perlu untuk menambah nilai purata dengan penunjuk yang memungkinkan untuk menilai tipikal purata ini dengan mengukur turun naik (variasi) sifat yang dikaji. Menggunakan penunjuk variasi ini memungkinkan untuk membuat Analisis statistik lebih lengkap dan bermakna, dan dengan itu pemahaman yang lebih mendalam tentang intipati fenomena sosial yang dikaji.

paling banyak tanda-tanda mudah variasi adalah minimum dan maksimum - adalah yang terkecil dan nilai tertinggi sifat dalam agregat. Bilangan pengulangan varian individu nilai ciri dipanggil kadar pengulangan. Mari kita nyatakan kekerapan pengulangan nilai ciri fi, jumlah frekuensi yang sama dengan isipadu populasi yang dikaji ialah:

di mana k– bilangan varian nilai atribut. Ia adalah mudah untuk menggantikan frekuensi dengan frekuensi - w.i. Kekerapan- penunjuk kekerapan relatif - boleh dinyatakan dalam pecahan unit atau peratusan dan membolehkan anda membandingkan siri variasi dengan nombor yang berbeza pemerhatian. Secara rasmi kami mempunyai:

Untuk mengukur variasi sesuatu sifat, pelbagai penunjuk mutlak dan relatif digunakan. Penunjuk mutlak variasi termasuk sisihan linear min, julat variasi, varians, sisihan piawai.

Variasi rentang(R) ialah perbezaan antara nilai maksimum dan minimum sifat dalam populasi yang dikaji: R= Xmax – Xmin. Penunjuk ini hanya memberikan idea paling umum tentang turun naik sifat yang dikaji, kerana ia hanya menunjukkan perbezaan antara nilai mengehadkan varian. Ia sama sekali tidak berkaitan dengan frekuensi dalam siri variasi, iaitu, dengan sifat pengedaran, dan pergantungannya boleh menjadikannya tidak stabil, watak rawak hanya dari nilai melampau atribut. Julat variasi tidak memberikan sebarang maklumat tentang ciri populasi yang dikaji dan tidak membenarkan kami menilai tahap tipikal nilai purata yang diperolehi. Skop penunjuk ini terhad kepada populasi yang agak homogen, lebih tepat lagi, ia mencirikan variasi sifat, penunjuk berdasarkan mengambil kira kebolehubahan semua nilai sifat.

Untuk mencirikan variasi ciri, adalah perlu untuk menyamaratakan sisihan semua nilai daripada sebarang nilai biasa untuk populasi yang dikaji. Penunjuk sedemikian

variasi, seperti min sisihan linear, varians dan sisihan piawai, adalah berdasarkan pertimbangan sisihan nilai atribut unit individu populasi daripada min aritmetik.

Sisihan linear purata ialah min aritmetik bagi nilai mutlak sisihan pilihan individu daripada min aritmetik mereka:


nilai mutlak(modul) sisihan varian daripada min aritmetik; f– kekerapan.

Formula pertama digunakan jika setiap pilihan berlaku dalam agregat sekali sahaja, dan yang kedua - dalam siri dengan frekuensi yang tidak sama rata.

Terdapat satu lagi cara untuk purata sisihan pilihan daripada min aritmetik. Kaedah ini, yang sangat biasa dalam statistik, dikurangkan untuk mengira sisihan kuasa dua pilihan daripada nilai min dan kemudian puratanya. Dalam kes ini, kita mendapat penunjuk variasi baharu - varians.

Penyerakan(?2) - purata sisihan kuasa dua bagi varian nilai sifat daripada nilai puratanya:

Formula kedua digunakan jika varian mempunyai beratnya sendiri (atau frekuensi siri variasi).

Dalam analisis ekonomi dan statistik, adalah kebiasaan untuk menilai variasi atribut paling kerap menggunakan sisihan piawai. Sisihan piawai(?) ialah punca kuasa dua varians:

Purata sisihan linear dan min kuasa dua menunjukkan berapa banyak nilai atribut berubah-ubah secara purata untuk unit populasi yang dikaji, dan dinyatakan dalam unit yang sama seperti varian.

Dalam amalan statistik, sering menjadi perlu untuk membandingkan variasi pelbagai ciri. Sebagai contoh, minat besar membentangkan perbandingan variasi dalam umur kakitangan dan kelayakan mereka, tempoh perkhidmatan dan gaji, dsb. Untuk perbandingan sedemikian penunjuk kebolehubahan mutlak tanda - purata sisihan linear dan piawai - tidak sesuai. Adalah mustahil, sebenarnya, untuk membandingkan turun naik pengalaman kerja, dinyatakan dalam tahun, dengan turun naik gaji, dinyatakan dalam rubel dan kopecks.

Apabila membandingkan kebolehubahan pelbagai ciri dalam agregat, adalah mudah untuk menggunakan penunjuk relatif variasi. Penunjuk ini dikira sebagai nisbah penunjuk mutlak kepada min aritmetik (atau median). Menggunakan sebagai penunjuk mutlak variasi julat variasi, sisihan linear purata, sisihan piawai, seseorang memperoleh penunjuk relatif turun naik:


- penunjuk turun naik relatif yang paling biasa digunakan, mencirikan kehomogenan populasi. Set dianggap homogen jika pekali variasi tidak melebihi 33% untuk taburan hampir normal.

Variasi- ini adalah perubahan (turun naik) nilai atribut dalam populasi yang dikaji semasa peralihan dari satu objek (kumpulan objek), atau dari satu kes ke yang lain. Penunjuk variasi mutlak dan relatif, mencirikan turun naik nilai atribut yang berbeza-beza, memungkinkan, khususnya, untuk mengukur tahap sambungan dan saling bergantung antara ciri, menentukan tahap homogeniti populasi, tipikal. dan kestabilan purata, tentukan magnitud ralat pensampelan, menilai secara statistik undang-undang taburan populasi, dsb.

Dalam topik ini, adalah perlu untuk memahami intipati (makna), tujuan dan kaedah mengira setiap penunjuk variasi yang dipertimbangkan dalam perjalanan teori statistik: julat variasi, sisihan linear purata, purata kuasa dua sisihan ( varians), sisihan piawai, pekali relatif variasi (pekali ayunan, sisihan linear purata pekali, pekali variasi).

Julat variasi (R) ialah perbezaan antara nilai maksimum (x maks) dan minimum (x min) bagi sifat dalam agregat (dalam siri pengedaran):

R = x maks - x min. (5.1)

Ukuran penunjuk variasi lain ialah perbezaan bukan antara nilai ekstrem sifat, tetapi perbezaan purata antara setiap nilai sifat dan purata tanda-tanda ini. Perbezaan antara nilai ciri tunggal dan purata dipanggil penyelewengan.

Sisihan linear purata dikira mengikut formula berikut:

mengikut data individu (tidak berkumpulan).

; (5.2)

mengikut siri variasi (data terkumpul)

. (5.3)

Oleh kerana jumlah algebra sisihan nilai individu ciri daripada min (mengikut sifat sifar) sentiasa sama dengan sifar, jumlah aritmetik sisihan, diambil modulo, digunakan apabila mengira sisihan linear purata, i.e.
.

Sisihan linear purata mempunyai dimensi yang sama dengan atribut yang dikira.

Serakan dan sisihan piawai. Sisihan linear min agak jarang digunakan untuk menganggar variasi sesuatu sifat. Oleh itu, serakan ( 2) dan sisihan piawai () biasanya dikira. Penunjuk ini digunakan bukan sahaja untuk menilai variasi ciri, tetapi juga untuk mengukur hubungan antara mereka, untuk menilai magnitud ralat pensampelan, dan untuk tujuan lain.

Varian ciri dikira dengan formula:

mengikut data primer

; (5.4)

mengikut siri variasi

. (5.5)

Sisihan piawai ialah punca kuasa dua varians:

mengikut data primer

; (5.6)

mengikut siri variasi

. (5.7)

Sisihan piawai, serta sisihan linear purata, mempunyai dimensi yang sama dengan ciri asal itu sendiri.

Varians juga boleh ditakrifkan sebagai perbezaan antara min kuasa dua pilihan dan kuasa dua min mereka, i.e.
. (5.8)

Dalam kes ini, mengikut data primer, variansnya ialah:

(5.9)

Berkenaan dengan data terkumpul, pengiraan varians dengan kaedah ini dalam bentuk yang diperluaskan boleh diwakili seperti berikut:

. (5.10)

Untuk siri pengedaran dengan selang yang sama, nilai varians boleh dikira menggunakan kaedah momen bersyarat, i.e.

, (5.11)

di mana
- momen bersyarat pertama; (5.12)

- momen bersyarat kedua. (5.13)

Sisihan piawai mengikut kaedah momen bersyarat ditentukan oleh formula:

(5.14)

Mengubah ungkapan untuk mengira varians mengikut kaedah momen bersyarat, kami memperoleh formula bentuk:
(5.15)

Berdasarkan data awal yang sama, kami memperoleh nilai serakan yang sama.

Penunjuk variasi relatif dikira sebagai nisbah beberapa penunjuk variasi mutlak kepada min aritmetiknya dan dinyatakan sebagai peratusan:

pekali ayunan -
; (5.16)

pekali sisihan linear relatif -
; (5.17)

pekali variasi -
. (5.18)

Tugasan 1. Pertimbangkan kaedah untuk mengira penunjuk variasi berdasarkan data dalam Jadual. 5.1.

Jadual 5.1. Data awal untuk mengira penunjuk variasi

Kos masa untuk pengeluaran bahagian min

Bilangan bahagian, pcs. (f)

Titik tengah selang (x)

; k = 2

Siri pengedaran yang diberikan disenaraikan, jadi mudah untuk mencari nilai minimum ciri di sini, ia bersamaan dengan 8 min. (10 - 2), dan maksimum, bersamaan dengan 18 min. (16 + 2). Ini bermakna julat variasi ciri dalam siri ini ialah 10 minit, i.e.

R \u003d x maks - x min \u003d 18 - 8 \u003d 10 min.

Mari kita hitung sisihan linear purata. Pertama sekali, anda perlu mengira nilai purata . Semua pengiraan akan dijalankan dalam bentuk jadual (Jadual 5.1.), Memperuntukkan lajur dalam jadual untuk setiap operasi pengiraan.

Oleh kerana data awal dibentangkan oleh satu siri pengedaran, maka

min.

min.

Mari tunjukkan cara mengira varians:

a) dengan cara biasa (mengikut takrifan):

;

b) sebagai perbezaan antara kuasa dua min dan kuasa dua min:

Untuk menentukan nilai serakan menggunakan formula ini, adalah perlu untuk mengira kuasa dua min bagi pilihan sifat menggunakan formula:

;

 2 \u003d 178.6 - (13.2) 2 \u003d 4.36;

c) mengikut kaedah momen bersyarat:

;

;

d) berdasarkan transformasi formula untuk mengira varians mengikut kaedah momen bersyarat, kita mempunyai:

Serakan ialah nombor abstrak yang tidak mempunyai unit ukuran.

Kami mengira sisihan piawai dengan mengambil punca kuasa dua varians:

min.

Mengikut kaedah momen bersyarat, nilai sisihan piawai ditentukan seperti berikut:

Mari kita hitung penunjuk relatif variasi:

%;

%;

%.

Penunjuk relatif utama bagi variasi ialah pekali variasi (V). Ia digunakan untuk penilaian perbandingan ukuran turun naik tanda yang dinyatakan dalam pelbagai unit ukuran.

Bersama-sama dengan variasi sifat kuantitatif, variasi sifat kualitatif (khususnya, kebolehubahan alternatif sifat kualitatif) juga boleh diperhatikan. Dalam kes ini, setiap unit populasi yang dikaji sama ada mempunyai beberapa harta atau tidak (contohnya, setiap orang dewasa sama ada bekerja atau tidak). Kehadiran ciri dalam unit populasi dilambangkan dengan 1, dan ketiadaan -0; bahagian unit populasi yang mempunyai ciri yang dikaji dilambangkan dengan p, dan yang tidak memilikinya - q. Varians atribut alternatif ditentukan oleh formula:

; (5.19)

p + q = 1 (5.20)

Jika, sebagai contoh, bahagian mereka yang memasuki universiti ialah 30%, dan mereka yang tidak memasuki universiti ialah 70%, maka variansnya ialah 0.21(0.3 0.7). nilai maksimum produk pq ialah 0.25 (dengan syarat separuh daripada unit mempunyai ciri ini, dan separuh lagi tidak: (0.5 0.5 = 0.25).

Kaedah penguraian jumlah varians. Untuk menilai pengaruh pelbagai faktor yang menentukan turun naik nilai individu sesuatu sifat, kami akan menggunakan penguraian jumlah varians kepada komponen: varians kumpulan yang dipanggil dan purata varians intrakumpulan:

, (5.21)

di mana
jumlah varians, yang mencirikan variasi sesuatu sifat hasil daripada pengaruh semua faktor yang menentukan perbezaan individu dalam unit populasi.

Variasi atribut, disebabkan oleh pengaruh faktor yang mendasari pengelompokan, dicirikan oleh serakan antara kumpulan  2, yang merupakan ukuran turun naik purata persendirian untuk kumpulan
sekitar purata keseluruhan dan dikira dengan formula:

, (5.22)

di mana n j ialah bilangan unit populasi dalam setiap kumpulan;

j- nombor siri kumpulan.

Variasi tanda, disebabkan oleh pengaruh semua faktor lain, kecuali pengelompokan (faktorial), dicirikan dalam setiap kumpulan oleh varians intrakumpulan:

, (5.23)

di mana i ialah nombor siri x dan f dalam setiap kumpulan.

Bagi populasi secara keseluruhan, purata penyebaran intrakumpulan ditentukan oleh formula:

(5.24)

Nisbah serakan antara kumpulan  2 kepada jumlah
akan memberikan pekali penentuan:

(5.25)

yang mencirikan perkadaran variasi atribut yang terhasil, disebabkan oleh variasi atribut faktor, yang merupakan asas pengelompokan.

Penunjuk yang diperoleh sebagai punca kuasa dua pekali penentuan dipanggil pekali korelasi empirikal, iaitu:

(5.26)

Ia mencirikan ketatnya hubungan antara ciri terhasil dan faktorial (yang merupakan asas pengelompokan). Nilai berangka pekali korelasi empirikal mempunyai dua tanda: . Apabila memutuskan tanda mana yang harus diambil, ia mesti diingat: jika variasi faktor dan tanda terhasil berjalan serentak dalam arah yang sama (bertambah atau berkurang), maka hubungan korelasi diambil dengan tanda tambah; jika perubahan tanda-tanda ini pergi ke arah yang bertentangan, maka ia diambil dengan tanda tolak.

Untuk mengira kumpulan dan antara serakan kumpulan, mana-mana kaedah yang diterangkan di atas untuk mengira sisihan kuasa dua min boleh digunakan.

Tugasan 2. Mari kita hitung semua serakan yang dinamakan mengikut data awal tab. 5.2.

Jadual 5.2. Pengagihan kawasan gandum musim sejuk yang disemai mengikut hasil

Nombor lot

Produktiviti, c/ha

kawasan yang disemai, ha

Kira purata hasil gandum musim sejuk untuk semua plot (purata keseluruhan):

c/ha.

Kami mencari jumlah varians dengan formula:

Dalam gr. 6 tab. 5.2. hitung nilai untuk mengira kuadrat min bagi pilihan ciri:

.

Mencari jumlah varians:

Hasil bergantung kepada banyak faktor (kualiti tanah, jumlah baja organik dan mineral, kualiti benih, masa menyemai, penjagaan tanaman, dll.). kes ini mengukur kebolehubahan hasil disebabkan semua faktor.

Tugasan 3. Mari bahagikan keseluruhan plot kepada dua kumpulan: Kumpulan I - kawasan yang disemai di mana baja organik tidak digunakan; II - kawasan di mana ia diperkenalkan. Kumpulan pertama akan merangkumi bahagian 1-4, dan yang kedua - 4-8. Berdasarkan data kumpulan ini, kami mengira baki serakan yang kami perlukan, menggunakan yang telah dihasilkan dalam Jadual. 5.2. pengiraan.

Jadual 5.3. Data anggaran untuk mengira varians antara kumpulan dan kumpulan

Nombor lot

Produktiviti, tengah/ha (x)

Kawasan tabur, ha (f)

Nombor lot

Produktiviti, tengah/ha (x)

Kawasan tabur, ha (f)

Kami mentakrifkan:

untuk kumpulan I:

untuk kumpulan II:

a) purata kumpulan

a) purata kumpulan

q/ha;

q/ha;

b) min kuasa dua pilihan ciri

;

;

c) varians kumpulan

c) varians kumpulan

Kami menentukan purata varians kumpulan:

.

Mencari varians antara kumpulan:

Purata varians kumpulan mengukur turun naik sifat disebabkan oleh semua faktor lain, kecuali pengelompokan yang menjadi asas (persempadanan ke dalam kumpulan), dan antara kumpulan satu - disebabkan faktor tertentu ini. Jumlah varians ini harus memberikan jumlah varians, iaitu:

Nisbah serakan antara kumpulan kepada jumlah satu dalam contoh kami akan memberikan nilai pekali penentuan berikut:

, atau 71.8%,

iaitu, variasi dalam hasil gandum musim sejuk sebanyak 71.8% bergantung kepada variasi dalam saiz penggunaan baja organik. Baki 28.2% daripada variasi hasil bergantung kepada pengaruh semua faktor lain, kecuali jumlah penggunaan baja organik.

Pekali korelasi empirikal ialah:

.

Ini menunjukkan bahawa penggunaan baja organik mempunyai kesan yang sangat ketara terhadap hasil.

Bagaimana untuk membuktikan bahawa corak yang diperoleh dengan mengkaji data eksperimen bukanlah hasil kebetulan atau kesilapan penguji, bahawa ia boleh dipercayai? Penyelidik permulaan menghadapi soalan sedemikian. Statistik deskriptif menyediakan alat untuk menyelesaikan masalah ini. Ia mempunyai dua bahagian besar - perihalan data dan perbandingannya dalam kumpulan atau berturut-turut antara satu sama lain.

Ukuran statistik deskriptif

Terdapat beberapa petunjuk yang digunakan oleh statistik deskriptif.

Jadi, bayangkan kita berhadapan dengan tugas untuk menggambarkan ketinggian semua pelajar dalam kumpulan sepuluh orang. Berbekalkan pembaris dan mengambil ukuran, kami mendapat satu siri kecil sepuluh nombor (ketinggian dalam sentimeter):

168, 171, 175, 177, 179, 187, 174, 176, 179, 169.

Jika anda melihat dengan teliti pada siri linear ini, anda boleh menemui beberapa corak:

  • Lebar selang di mana ketinggian semua pelajar jatuh ialah 18 cm.
  • Dalam pengedaran, pertumbuhan paling hampir dengan pertengahan selang ini.
  • Terdapat juga pengecualian yang paling hampir dengan sempadan atas atau bawah selang.

Agak jelas bahawa untuk memenuhi tugas menggambarkan pertumbuhan pelajar dalam kumpulan, tidak perlu memberikan semua nilai yang akan diukur. Untuk tujuan ini, cukup untuk memberikan hanya dua, yang dalam statistik dipanggil parameter pengedaran. Ini ialah min aritmetik dan sisihan piawai daripada min aritmetik. Jika kita beralih kepada pertumbuhan pelajar, formulanya akan kelihatan seperti ini:

Min aritmetik ketinggian pelajar = (Jumlah semua ketinggian pelajar) / (Bilangan pelajar yang mengambil bahagian dalam pengukuran)

Jika kita mengurangkan segala-galanya kepada istilah matematik yang ketat, maka takrifan min aritmetik (dilambangkan dengan huruf Yunani - μ ("mu")) akan berbunyi seperti ini:

Purata aritmetik ialah nisbah jumlah semua nilai satu atribut untuk semua ahli populasi (X) kepada bilangan semua ahli populasi (N).

Jika kita menggunakan formula ini pada ukuran kita, kita mendapat bahawa μ untuk ketinggian pelajar dalam kumpulan ialah 175.5 cm.

Jika anda melihat dengan teliti pertumbuhan pelajar, yang kita ukur dalam contoh sebelum ini, jelaslah bahawa pertumbuhan setiap satu oleh beberapa berbeza daripada purata yang dikira(175.5 cm). Untuk melengkapkan huraian, adalah perlu untuk memahami apakah perbezaan antara ketinggian purata setiap pelajar dan nilai purata.

Pada peringkat pertama, kami mengira parameter penyebaran. Serakan dalam statistik (ditandakan σ 2 (sigma kuasa dua)) ialah nisbah jumlah kuasa dua perbezaan antara min aritmetik (μ) dan nilai ahli siri (X) kepada bilangan semua ahli populasi (N). Dalam bentuk formula, ini dikira dengan lebih jelas:

Nilai yang kami dapat hasil pengiraan menggunakan formula ini, kami akan mewakili sebagai kuasa dua nilai (dalam kes kami, sentimeter persegi). Untuk mencirikan pertumbuhan dalam sentimeter dengan sentimeter persegi, anda lihat, adalah tidak masuk akal. Oleh itu, kita boleh membetulkan, dengan lebih tepat, memudahkan ungkapan ini dan mendapatkan purata sisihan piawai formula dan pengiraan, contoh:

Oleh itu, kami mendapat nilai sisihan piawai (atau purata sisihan kuasa dua akar) - Punca kuasa dua daripada penyebaran. Dengan unit ukuran juga, kini semuanya teratur, kita boleh mengira sisihan piawai untuk kumpulan:

Ternyata kumpulan pelajar kami dikira dengan ketinggian dengan cara ini: 175.50 ± 5.25 cm.

Sisihan piawai berfungsi dengan baik dengan siri di mana sebaran nilai tidak terlalu besar (ini jelas dilihat dalam contoh pertumbuhan, di mana selang hanya 18 cm). Jika julat ukuran kami lebih besar, dan variasi ketinggian lebih besar, maka sisihan piawai akan menjadi petunjuk dan kami memerlukan kriteria yang boleh mencerminkan sebaran dalam unit relatif (iaitu, dalam peratus, berbanding dengan nilai purata).

Untuk tujuan ini, penunjuk mutlak dan relatif variasi dalam statistik disediakan, mencirikan skala variasi:

  • Julat variasi.

Pekali variasi kuasa dua (ditandakan sebagai Vσ) ialah nisbah sisihan piawai kepada min aritmetik, dinyatakan sebagai peratusan.

Untuk contoh kami dengan pelajar, menentukan Vσ tidak sukar - ia akan bersamaan dengan 3.18%. Corak utama ialah semakin banyak nilai pekali berubah, semakin besar sebaran di sekeliling nilai min dan semakin kurang homogen sampel.

Kelebihan pekali variasi ialah ia menunjukkan kehomogenan nilai (skewness) dalam satu siri pengukuran kami, di samping itu, ia tidak dipengaruhi oleh skala dan unit pengukuran. Faktor-faktor ini menjadikan pekali variasi sangat popular dalam penyelidikan bioperubatan. akan dipertimbangkan bahawa kurtosis bagi nilai Vσ =33% memisahkan sampel homogen daripada heterogen.

Jika kita mendapati nilai maksimum dan minimum dalam siri nilai pertumbuhan (contoh pertama), maka kita mendapat julat variasi (ditandakan sebagai R, kadang-kadang juga dipanggil turun naik). Dalam contoh kami, nilai ini akan bersamaan dengan 18 cm. Ciri ini digunakan untuk mengira pekali ayunan:

Pekali ayunan - menunjukkan bagaimana julat variasi akan dikaitkan dengan min siri aritmetik dalam segi peratusan.

Pengiraan dalam Microsoft Excel 2016

* - jadual menunjukkan julat A1:A10 sebagai contoh, semasa mengira, anda perlu menentukan julat yang diperlukan.

Jadi mari kita ringkaskan:

  1. Min aritmetik ialah nilai yang membolehkan anda mencari nilai purata penunjuk dalam siri data.
  2. Varians ialah nilai purata sisihan kuasa dua.
  3. Sisihan piawai ( sisihan piawai) ialah punca kuasa dua varians, untuk membawa unit ukuran sama dengan min aritmetik.
  4. Pekali variasi - nilai sisihan daripada min, dinyatakan dalam nilai relatif (%).

Secara berasingan, perlu diperhatikan bahawa semua penunjuk yang diberikan dalam artikel, sebagai peraturan, tidak mempunyai makna sendiri dan digunakan untuk menyusun skema analisis data yang lebih kompleks. Pengecualian kepada peraturan ini ialah pekali variasi, yang merupakan ukuran kehomogenan data.

Penunjuk variasi

Nilai purata tidak membenarkan seseorang menilai turun naik (variasi) yang mana sifat yang dikaji tertakluk dalam populasi ini. Nilai min sahaja tidak mencukupi untuk analisis. Berbeza sepenuhnya dalam sebarannya di sekitar min populasi boleh mempunyai min aritmetik yang sama. Untuk mencari nilai variasi dalam statistik, penunjuk khas digunakan, yang dipanggil penunjuk variasi. Kajian tentang variasi dalam statistik adalah sangat penting, kerana ia membantu untuk memahami intipati fenomena yang dikaji.

Kami menyenaraikan penunjuk utama variasi dan memberikan formula untuk pengiraannya.

Untuk mencirikan saiz variasi dalam statistik, mereka menggunakan penunjuk mutlak variasi: julat variasi, sisihan linear min, sisihan piawai, varians.

Julat variasi ialah perbezaan antara maksimum dan nilai minimum sifat dalam populasi yang dikaji, i.e.

Julat variasi mudah ditemui oleh pangkat siri pengedaran berperingkat.

Variasi lebih tepat dicirikan oleh sisihan linear min, yang didapati sebagai min aritmetik bagi sisihan nilai individu daripada min tanpa mengambil kira tanda sisihan ini, i.e.

Jika data asal dikumpulkan, maka kita boleh mencari sisihan linear purata wajaran, dan kedua-dua frekuensi (p) dan frekuensi relatif (/) boleh digunakan sebagai pemberat.

Secara lebih objektif dalam amalan, ukuran variasi mencerminkan serakan (min sisihan kuasa dua). Ia telah dibincangkan dalam Bab 2. Dalam kes ini, kita bercakap tentang menganggar varians, kerana kebarangkalian tidak diketahui.

Jika kita mempunyai siri taburan tidak berkumpulan, maka varians diberikan oleh

Ambil perhatian bahawa anggaran varians yang diperolehi oleh formula (6.28) adalah berat sebelah. Menggunakannya, kami akan membuat beberapa ralat sistematik ke bahagian yang lebih kecil. Anggaran tidak berat sebelah untuk varians ditemui oleh formula

Sebagai peraturan, formula (6.30) digunakan dalam kes di mana populasi yang dikaji adalah kecil, tidak lebih daripada 40 unit. Dalam kes di mana n> 40 menggunakan formula (6.29).

Apabila data asal dikumpulkan, hitung anggaran wajaran varians

Mengekstrak punca kuasa dua aritmetik daripada varians, kita memperoleh satu lagi ciri (ia juga dibincangkan dalam Bab 2) - sisihan piawai, atau piawai (lebih tepat, anggarannya).

Sekiranya populasi yang dikaji adalah cukup besar, maka ia biasanya dibahagikan kepada kumpulan mengikut beberapa kriteria. Oleh itu, bersama-sama dengan kajian variasi sifat ke atas keseluruhan populasi secara keseluruhan, adalah mungkin untuk mengkaji variasi bagi setiap kumpulan konstituennya, dan juga antara kumpulan itu sendiri. Jika populasi dibahagikan mengikut mana-mana satu faktor, maka kajian variasi dicapai dengan mencari dan menganalisis tiga jenis serakan: umum, antara kumpulan, intrakumpulan.

Jumlah varians (D x) menentukan variasi merentas keseluruhan populasi di bawah pengaruh semua faktor yang menyebabkan variasi ini. Ia sama dengan sisihan kuasa dua min nilai individu tanda X (x ar) dan dikira dengan formula (6.29), (6.31), (6.32).

Varians antara kumpulan F Hmg) mencirikan variasi sistematik susunan yang terhasil, yang disebabkan oleh pengaruh ciri yang mendasari pengelompokan. Ia sama dengan kuasa dua min bagi sisihan min kumpulan x argr daripada jumlah min aritmetik x ar, i.e.

di mana, kepada- bilangan kumpulan;

c. - kekerapan (bilangan unit) dalam kumpulan r;

/. - kekerapan relatif kumpulan G.

Varians dalam kumpulan D Xez mencerminkan variasi rawak (sebahagian daripada variasi) disebabkan oleh pengaruh faktor yang tidak diambil kira dan bebas daripada atribut yang mendasari pengelompokan. Ia sama dengan kuasa dua min bagi sisihan nilai individu bagi sifat dalam kumpulan X. daripada min aritmetik kumpulan ini x argr dan didapati oleh formula:

jika kumpulan itu mengandungi tidak lebih daripada 40 pemerhatian;

jika kumpulan itu mengandungi lebih daripada 40 pemerhatian (t- bilangan unit dalam kumpulan tertentu).

Formula untuk varians berwajaran juga digunakan:

Setelah menemui varians intrakumpulan bagi setiap kumpulan, kita boleh mengira purata bagi varians dalam kumpulan mengikut formula:

atau menggunakan hubungan (6.13).

Mengikut peraturan untuk menambah varians, jumlah varians hendaklah sama dengan jumlah antara kumpulan dan purata varians dalam kumpulan, i.e.

Variasi ciri kualitatif (alternatif) (ciri yang setiap unit populasi mungkin atau mungkin tidak ada) didapati menggunakan serakan:

di mana S- perkadaran unit populasi yang mempunyai atribut kualitatif;

v- perkadaran unit penduduk yang tidak mempunyai atribut kualitatif.

perasan, itu S + v = 1.

Sisihan piawai sifat kualiti didapati mengikut formula

Sebagai contoh, jika setiap 10,000 penduduk pusat daerah 3,500 mempunyai pendidikan tinggi, tetapi 6500 tidak mempunyai, kemudian

Varians sifat kualitatif adalah sama dengan

Nilai maksimum varians sifat kualitatif diperoleh jika S = v= 0.5. Ia akan bersamaan dengan 0.25.

Untuk mencirikan ukuran taburan sifat yang dikaji, penunjuk variasi ditemui dalam unit relatif. Kami akan membentangkan sebahagian daripadanya.

Pekali ayunan mencerminkan penyebaran relatif nilai ekstrem di sekitar min aritmetik

Sisihan linear relatif mencirikan bahagian nilai purata sisihan mutlak daripada min aritmetik, i.e.

Pekali variasi, iaitu sisihan piawai relatif, i.e.

Dengan nilai pekali variasi, seseorang boleh menilai keamatan variasi sifat, dan oleh itu kehomogenan komposisi populasi yang dikaji. Semakin besar nilai pekali variasi, semakin besar penyebaran nilai trait di sekitar min aritmetik, dan, dengan itu, semakin besar heterogenitas populasi. Terdapat skala untuk menentukan tahap homogeniti populasi, bergantung pada nilai pekali variasi:

  • - jika Vx
  • - jika 30%
  • - jika V x > 60%, maka populasi dianggap heterogen.

Ambil perhatian bahawa skala yang diberikan agak bersyarat.

Ciri-ciri utama bentuk taburan ialah pencongan dan kurtosis. Ia telah dibincangkan dengan cukup terperinci dalam Bab 2. Di sini kita akan bercakap tentang anggaran mereka, kerana bilangan ukuran adalah terhingga dan kebarangkalian tidak diketahui. Kami akan menandakan kecondongan (serong) dan kurtosis dengan huruf yang sama seperti dalam Bab 2, tetapi kami akan menambah tilde (~) di bahagian atas.

Untuk menilai tahap asimetri taburan, pekali momen asimetri biasanya digunakan, yang ditemui oleh formula

di mana Dz ialah anggaran ketiga detik tengah, yang boleh ditentukan oleh formula:

Darjah keertian pekali asimetri dianggarkan menggunakan ralat min kuasa dua punca bagi pekali asimetri, yang bergantung kepada isipadu populasi yang dikaji (n) dan didapati dengan formula berikut:

Jika nisbahnya ialah , maka asimetri dianggap penting, dan jika , maka asimetri boleh dianggap tidak penting, disebabkan oleh pengaruh sebab rawak.

Kelemahan utama pekali momen asimetri A x ialah nilainya bergantung pada kehadiran varian yang dibezakan dengan ketara dalam agregat. Bagi populasi sedemikian, pekali ini tidak banyak digunakan, kerana nilainya yang besar (mutlak) dijelaskan oleh sumbangan utama nilai atipikal kepada anggaran momen tengah ketiga, dan bukan oleh asimetri taburan bahagian utama. daripada varian.

Pekali asimetri struktur mencirikan asimetri hanya di bahagian tengah taburan, iaitu, sebahagian besar varian dan, berbeza dengan pekali asimetri momen, tidak bergantung pada nilai ekstrem sifat itu.

Sebagai peraturan, pekali asimetri struktur yang dicadangkan oleh K. Pearson digunakan:

Satu lagi ciri bentuk pengedaran ialah kurtosis. Anggarannya dalam statistik boleh diperolehi dengan formula

di mana D 4 - anggaran momen pusat keempat, yang boleh didapati dengan formula

Untuk menilai kepentingan kurtosis taburan, cari purata ralat kuadratik kurtosis:

Jika sisihan maka sisihan daripada biasa

pengedaran dianggap penting, jika tidak ia diiktiraf sebagai tidak penting dan dijelaskan oleh sebab rawak.

Sekarang mari kita berikan contoh pengiraan khusus, di mana kita mentakrifkan beberapa ciri yang diberikan di atas, dan juga menyentuh isu yang tidak dibincangkan dalam bab ini. Dalam kes ini, bersama-sama dengan pengiraan, kami mempertimbangkan secara ringkas beberapa soalan teori yang diperlukan.

Perhatikan bahawa contoh yang diberikan adalah semata-mata pendidikan, data untuknya diambil, seperti yang mereka katakan, "dari siling". Selain itu, siri pemerhatian yang sedang dipertimbangkan mengandungi hanya 20 pemerhatian untuk memudahkan pengiraan, kerana ramai pelajar mengalami kesukaran walaupun mengira nilai purata. Terdapat pada masa ini sejumlah besar pakej perisian untuk menentukan ciri statistik, jadi tiada siapa mengira dengan tangan lagi. Perlu diingat bahawa kualiti data awal adalah sangat penting: jika mereka tidak berkualiti, maka hasilnya akan sama, statistik dan matematik tidak akan membantu dalam kes ini.

Contoh 6.2

Mari kita anggap bahawa kita telah menerima bahan statistik mengenai bilangan kemalangan jalan raya berdaftar di pusat daerah N. Ia dibentangkan dalam bentuk jadual (Jadual 6.3), data di dalamnya diberikan untuk tarikh tahun semasa.

Jadual 6.3

Bilangan kemalangan (x,)

Bilangan kemalangan (x.)

Dalam kes ini, bilangan kemalangan adalah pembolehubah rawak X, dan keputusan pemerhatian diberikan dalam Jadual. 6.3 - set nilai yang diambil oleh pembolehubah rawak ini, iaitu X \u003d (Xj, x 2 ..., x 20). Data yang diberikan dalam jadual. 6.3, adalah perlu untuk menyelaraskan, sebagai contoh, lokasi hidupkan semula mereka dalam tertib menaik nilai-nilai ciri x yang dikaji. (r = 1.20). Jika nilai yang sama diulang beberapa kali, kemudian ulanginya. Hasilnya, kita dapat siri statistik pengagihan (lihat Jadual 6.4).

Berdasarkan siri kedudukan (lihat Jadual 6.4), anda boleh membina, sebagai contoh, fungsi taburan statistik F (x), yang kami pertimbangkan dalam Bab 2.

F(x) ialah fungsi langkah tak selanjar, selanjar di sebelah kiri dan mempunyai n lompatan, (n ialah bilangan cerapan), dan nilai setiap lompatan ialah 1 /P. Oleh kerana beberapa pemerhatian bertepatan, lompatan bergabung dan bilangannya akan sama dengan bilangan nilai yang diperhatikan pembolehubah rawak X. Dalam kes kami F(x) akan mempunyai 15 lompatan, dan berikutan bahawa adalah tidak rasional untuk membinanya mengikut siri kedudukan, tetapi ia mesti dilakukan mengikut siri berkumpulan, yang akan dipertimbangkan sedikit kemudian.

Jadual 6.4

Mengikut siri kedudukan (Jadual 6.4), adalah mungkin untuk menentukan anggaran ciri berangka pembolehubah rawak yang diperhatikan X (bilangan kemalangan), contohnya, min aritmetik, varians, sisihan piawai, julat variasi, dsb. .

Mari kita hitung, sebagai contoh, julat variasi dan min aritmetik:

Semua ciri berangka kami akan menentukan sehingga integer, kerana tiada persepuluh dan perseratus kemalangan. Anda boleh mengira ciri berangka lain mengikut Jadual. 6.4, tetapi kami akan melakukan ini mengikut baris berkumpulan.

Berdasarkan siri taburan statistik, kami membina siri berkumpulan, yang telah dibincangkan dalam Bab 4. Ambil perhatian bahawa panjang selang di dalamnya tidak semestinya sama, tetapi setiap satu daripadanya mesti mengandungi pemerhatian, iaitu, mesti tidak ada. menjadi selang kosong. Sekiranya nilai pembolehubah rawak X jatuh pada sempadan antara digit, kami akan membahagikannya sama rata antara digit bersebelahan, iaitu menambah 1/2 kepada nilai setiap digit.

Kira-kira cari bilangan kumpulan (digit) optimum dengan selang yang sama menggunakan formula Sturgess:

di mana kepada- bilangan digit;

P- bilangan pemerhatian.

Tetapi formula yang diberikan terpakai jika taburan pembolehubah rawak X di bawah kajian menghampiri normal, tetapi kita tidak tahu ini. Oleh itu, kami tidak akan menggunakan formula Sturgess (dalam kes kami, ia memberikan hasil berikut kepada"5.3" 5).

Siri berkumpulan yang terhasil ditunjukkan dalam jadual. 6.5. Sebagai tambahan kepada nyahcas, frekuensi, frekuensi relatif, ia mengandungi ketumpatan frekuensi dan kebarangkalian teori yang akan diperlukan pada masa hadapan.

Jadual 6.5

perasan, itu

di mana f*- ketumpatan frekuensi relatif, iaitu nisbah kekerapan relatif kepada panjang selang (dalam per

Dalam kes kami, ia adalah sama untuk semua digit).

Mempunyai siri berkumpulan (lihat Jadual 6.5), kita boleh membina lebih kurang fungsi taburan statistik F (x) Oleh kerana nilai X yang mana F (x) ditentukan, kita mengambil sempadan nyahcas. Fungsi taburan statistik untuk contoh kami ditunjukkan dalam rajah. 6.1.


Sekarang, menggunakan siri terkumpul (lihat Jadual 6.5), kami membina histogram, memplotkan nyahcas sepanjang paksi absis, dan ketumpatan frekuensi relatif yang sepadan sepanjang paksi ordinat fv Akibatnya, kami memperoleh satu set segi empat tepat, luas setiap satunya adalah sama dengan frekuensi relatif yang sepadan (Rajah 6.2.).

Ambil perhatian bahawa histogram boleh dibina menggunakan frekuensi ..

Sekarang, dengan menggunakan siri statistik terkumpul, kami memperoleh ciri berangka yang dikehendaki bagi pembolehubah rawak X yang dikaji (bilangan kemalangan), iaitu, min aritmetik dan beberapa penunjuk variasi. Kami akan menggunakan kekerapan relatif / (frekuensi) sebagai berat (anda boleh menggunakan, seperti yang telah kami katakan, kekerapan relatif (a.) sebagai berat).

Kirakan berat purata aritmetik:

Sebagai X. ambil pertengahan selang yang sepadan. perasan, itu x ar ternyata sama seperti dalam siri ranking.

Mencari varians:

Kami menentukan sisihan piawai:

Sisihan piawai dibundarkan kepada persepuluh.

Kami mencari sisihan linear purata:

Kami mengira pekali variasi: iaitu, keseluruhan kita boleh dianggap homogen.

Tentukan pekali ayunan:

Menggunakan formula (6.21) dan (6.23), kami mengira mod dan median. Apabila mengira ciri ini, kami menggunakan frekuensi..

Kami mencari pekali momen asimetri:

Untuk melakukan ini, kami mula-mula menentukan anggaran momen tengah ketiga:

sebab tu, A x~ -0.031, iaitu kita mempunyai asimetri negatif yang sangat kecil.

Tahap kepentingan asimetri boleh dianggarkan menggunakan ralat min kuasa dua bagi pekali asimetri mengikut formula

Kerana , maka asimetri adalah tidak ketara dan disebabkan oleh pengaruh faktor rawak.

Sekarang kita mengira kurtosis dengan formula Untuk ia

Pertama, kami mencari anggaran untuk momen tengah keempat:

Jadi kurtosis adalah sama. e. pengedaran kami

ditekan sedikit pada paksi absis.

Untuk menentukan sama ada kurtosis bagi taburan adalah signifikan, kita mengira ralat purata kuasa dua puncanya menggunakan formula (6.55). Dapatkan

Sejak sikap kurang daripada 3, maka sisihan daripada

Ambil perhatian bahawa sisihan piawai dalam magnitud sentiasa lebih besar daripada sisihan linear purata. Dalam kes kita

Nisbah bergantung pada kehadiran sisihan tajam dalam agregat dan mungkin penunjuk "pencemarannya" dengan unit atipikal yang menonjol daripada pukal. Untuk taburan normal, nisbah

Sebagai contoh kita, kita ada

Menggantikan ciri berangka pembolehubah rawak dengan anggarannya, kami membuat beberapa kesilapan. Adalah wajar untuk menganggarkan ralat ini dan mencari kebarangkalian (kebolehpercayaan) bahawa ia tidak melebihi beberapa s positif kecil (ketepatan).

Dalam contoh kami, kami telah menggantikan M[X] pada os ar, a D[X] pada D x . Marilah kita menilai ketepatan dan kebolehpercayaan anggaran ini berdasarkan keputusan contoh kita.

Untuk menilai ketepatan dan kebolehpercayaan anggaran, seseorang mesti mengetahui undang-undang pengedarannya. Dalam banyak kes, undang-undang ini ternyata hampir normal. Sejak purata kepentingan statistik pembolehubah rawak X ialah jumlah bilangan pembolehubah rawak bebas yang cukup besar, kemudian mengikut pusat teorem had taburan adalah hampir normal dengan jangkaan matematik

dan penyebaran dan dengan itu dengan piawai

Untuk menentukan parameter taburan normal yang anggarannya ditemui x ar, kita gantikan dalam formula (6.57) - (6.59) parameter sebenar M[X], D dan a(x) mengikut anggaran mereka x ap , D x , d x dan kita dapat

Dengan mengandaikan bahawa pembolehubah rawak x ar mempunyai taburan normal dengan parameter M[x ar] dan D, cari lebih kurang kebarangkalian bahawa anggaran itu x ar menyimpang dari dia jangkaan matematik kurang daripada s.

dengan Ф 0 (x) ialah fungsi Laplace ternormal, yang telah dibincangkan dalam Bab 2. Jadual telah disusun untuknya (lihat Lampiran 5).

Kami menggunakan data contoh yang sedang kami pertimbangkan dan menilai ketepatan dan kebolehpercayaan x ar. Untuk contoh kami, kami mempunyai: x ar = 90; D x = 57,5; d x = 7.6. Mari kita cari kebarangkalian itu, dengan andaian M[X] * x ar, kami tidak akan membuat lebih daripada e - 3 ralat.

Menurut formula (6.60) - (6.62) kami mendapat:

Menurut jadual dalam Lampiran 5, kita dapati F o (1.765) = 0.46164, iaitu, kebarangkalian bahawa ralat daripada menggantikan M[X] dengan x ar tidak melebihi 3 adalah lebih kurang sama dengan 0.92 (92%). Kebarangkalian ini boleh dianggap mencukupi.

Terbukti apabila n> 20 markah Dx tanpa mengira taburan pembolehubah rawak X diagihkan lebih kurang undang-undang biasa dengan parameter:

Menggantikan dalam formula (6.64)-(6.66) D[X]nya penilaian statistik Dx kita mendapatkan:

Menggunakan data contoh, mengikut formula (6.67) dan (6.69) kita dapat:

Sekarang, menggunakan formula (6.63), kita dapati kebarangkalian bahawa anggaran itu Dx menyimpang daripadanya nilai sebenar D[X] kurang daripada e = 3.


Menurut jadual dalam Lampiran 5, kita dapati ФД0Д6) = 0.06356, iaitu, kebarangkalian bahawa anggaran daripada menggantikan D[X] dengan Dx akan kurang daripada 3 bersamaan dengan 0.13 (13%), yang jelas tidak mencukupi. Kami hanya mempunyai 20 pemerhatian, dan formula (6.64)-(6.66) berfungsi untuk n > 20.

Kami telah mengatakan bahawa contoh kami adalah pendidikan. AT tugasan sebenar terdapat lebih banyak data, jadi kebarangkalian yang diperoleh dengan formula (6.63) akan menjadi lebih tinggi.

Histogram yang kami terima (lihat Rajah 6.2.) ialah imej grafik pengedaran kami. Tetapi menggunakan histogram kajian lanjut tak selesa. Oleh itu, persoalannya ialah bagaimana untuk memilih pergantungan analitikal (formula) untuk pengedaran khusus ini, yang akan menyatakan hanya ciri penting pengedaran kami. tugasan ini dipanggil, selaraskan taburan statistik. Biasanya, histogram disamakan, iaitu, ia digantikan dengan beberapa lengkung teori yang mempunyai ungkapan analitik tertentu. Dan kemudian ungkapan ini diambil sebagai ketumpatan taburan f(x).

Dalam contoh yang sedang dipertimbangkan, kami menyelaraskan histogram yang dibina oleh kami mengikut undang-undang biasa dengan parameter x ar= 90; a x \u003d 7.6, iaitu dalam ungkapan untuk ketumpatan taburan normal

Kami menggantikan M[X] dan a[X] dengan anggaran mereka dan memperoleh

Sebagai nilai X kami mengambil sempadan selang dalam siri kumpulan kami, menggantikannya ke dalam formula (6.70) dan dapatkan:

Data yang diperolehi diplotkan dalam Rajah 6.2 dan kita mendapat lengkung licin.

Sekarang mari kita uji hipotesis H tentang hukum taburan normal dengan ketumpatan f(x). Hipotesis H o bertentangan dengan hipotesis alternatif H 1 yang mengatakan bahawa pembolehubah rawak X tidak mematuhi hukum normal dengan parameter. x ar= 90; dan x = 7.6.

Untuk membuat kesimpulan sama ada data pemerhatian adalah konsisten dengan hipotesis yang dikemukakan oleh kami, ujian kesesuaian digunakan. Kriteria kebaikan-kesesuaian ialah kriteria untuk menguji hipotesis tentang undang-undang pengedaran. Ia digunakan untuk menyemak persetujuan jenis undang-undang pengedaran yang dicadangkan dengan data eksperimen.

Terdapat pelbagai kriteria persetujuan: Pearson, Fisher, Kolmogorov, dll.

Apabila menguji hipotesis, dua jenis ralat boleh dibuat. Ralat jenis pertama ialah hipotesis nol yang betul H o ditolak; ralat jenis kedua - bahawa hipotesis alternatif yang betul ditolak

Kebarangkalian ralat jenis pertama (a) dipanggil tahap keertian kriteria. Semakin kecil a, semakin rendah kebarangkalian untuk menolak hipotesis yang betul H tentang Boleh diterima a biasanya ditetapkan lebih awal. Sebagai peraturan, nilai standard a \u003d 0.01 digunakan; 0.05; 0.1.

Kebarangkalian ralat jenis kedua dilambangkan dengan p. Nilai (1 - p) - kebarangkalian untuk mengelakkan ralat jenis kedua (untuk menerima hipotesis yang betul dan menolak hipotesis yang salah H 0) - dipanggil kuasa kriteria.

Pertama, kita gunakan untuk menguji hipotesis tentang taburan normal Kriteria Pearson (x 2) - Kami memberi ringkasan maklumat teori. Katakan bahawa n eksperimen telah dijalankan dalam setiap satu yang mana pembolehubah rawak X diambil nilai tertentu, iaitu x 1 x 2 ....., x k (kepada- bilangan nilai yang mungkin

pembolehubah rawak X). Hasilnya, kami memperoleh siri taburan statistik (Jadual 6.6).

Jadual 6.6

di manakah kebarangkalian yang sepadan.

Kami percaya bahawa penyelewengan / daripada R mempunyai sebab rawak. Untuk menguji kebolehpercayaan hipotesis yang dikemukakan, adalah perlu untuk memilih beberapa ukuran percanggahan antara taburan statistik dan teori.

Apabila menggunakan kriteria Pearson, jumlah sisihan kuasa dua (/. - R.), diambil dengan beberapa berat DARI ( , i.e.

Wajaran S. dimasukkan, kerana sisihan berkaitan dengan nilai yang berbeza R., tidak boleh dianggap sama pentingnya.

Pearson membuktikan bahawa jika kita mengambil

kemudian pada bilangan yang besar eksperimen P undang-undang pengagihan kuantiti Ra mempunyai sifat-sifat berikut: secara praktikalnya tidak bergantung pada hukum taburan pembolehubah rawak X, bergantung sedikit pada bilangan eksperimen n, bergantung hanya pada bilangan nilai pembolehubah rawak X(k) dan pada n -> oo menghampiri taburan x 2 Oleh itu, ukuran percanggahan dalam kes ini ditandakan % 2 , i.e.

Masukkan n di bawah tanda jumlah, memandangkan itu, dan selepas

transformasi yang kita dapat

Taburan x 2 bergantung pada parameter yang dipanggil bilangan darjah kebebasan (r s), yang ditakrifkan seperti berikut:

di mana Se-- jumlah keadaan bebas, yang ditindih pada frekuensi relatif. Untuk contoh kita Se= 3. Kami menuntut supaya syarat berikut dipenuhi:

Untuk pengedaran % 2 jadual telah disusun (lihat Lampiran 6). Untuk contoh kita, mari kita uji hipotesis taburan normal menggunakan ujian Pearson.

Mari kita kembali ke meja. 6.5, di mana terdapat satu lajur kosong (R.) - ini adalah kebarangkalian teori untuk jatuh ke dalam selang pembolehubah rawak X, yang mempunyai taburan normal dengan parameter x ar = 90; dan x = 7.6.

Untuk mencarinya, kami menggunakan formula (2.44). Kita mendapatkan:

di mana F o (x) ialah fungsi Laplace ternormal, yang mana, seperti yang telah kami katakan, jadual telah disusun (lihat Lampiran 5).

Nilai kebarangkalian yang diperolehi akan dimasukkan dalam Jadual. 6.5. Selanjutnya, mengikut formula (6.74), kita memperoleh:

Bilangan darjah kebebasan dalam kes kami ialah r, = 6 - 3 = 3. Aras keertian diambil bersamaan dengan 0.1, iaitu a = 0.1. Mengikut jadual taburan x 2 (lihat Lampiran 6), mengikut aras keertian a = 0.1 dan mengikut bilangan darjah kebebasan r = 3, kita dapati %m = 6.25.

Kerana Xm > X R, maka hipotesis taburan normal tidak bercanggah dengan data pemerhatian dan boleh diterima dengan aras keertian 0.1. Jika tiada jadual taburan x 2 di tangan, untuk menilai rawak percanggahan /. daripada R. anda boleh menggunakan kriteria Romanovsky

Jika hubungan (6.76) kurang daripada tiga, maka percanggahan antara taburan sebenar dan teori adalah rawak, jika tidak ia adalah signifikan.

Untuk data contoh, kami ada , jadi hipotesis taburan normal juga boleh diterima.

Sekarang mari kita gunakan ujian kebaikan-kesesuaian Kolmogorov untuk menguji hipotesis taburan normal.

Kriteria Kolmogorov adalah berdasarkan mencari percanggahan maksimum antara frekuensi terkumpul atau frekuensi relatif bagi taburan eksperimen dan kebarangkalian taburan teori. Ia ditentukan oleh formula:

jika kita menggunakan frekuensi relatif terkumpul;

jika kita menggunakan frekuensi terkumpul, di mana d M- nilai maksimum percanggahan antara frekuensi dan kebarangkalian relatif terkumpul;

D M- perbezaan maksimum antara frekuensi sebenar dan teori.

Kami akan menggunakan formula (6.77), dan meletakkan data yang diperlukan dalam Jadual. 6.8.

Daripada Jadual. 6.8 ia mengikuti bahawa, oleh itu, mengikut formula

(6.75) kita dapat

Jadual 6.8

Terkumpul f dan R

Kemudian mengikut jadual R()(lihat Lampiran 8) kami dapati P(X k)= 1. Oleh itu, kita boleh mengandaikan bahawa percanggahan antara frekuensi relatif dan kebarangkalian teori adalah bersifat rawak, dan, oleh itu, hipotesis taburan normal tidak bercanggah dengan data pemerhatian.

Kesimpulannya, kita ulang sekali lagi bahawa contoh kita adalah bersifat pendidikan. Perlu diingat bahawa apabila menggunakan kriteria Pearson, bilangan pemerhatian hendaklah sekurang-kurangnya beberapa puluh, setiap digit hendaklah mengandungi sekurang-kurangnya lima pemerhatian, dan bilangan digit hendaklah lebih kurang 10-15.

Soalan untuk pemeriksaan diri

  • 1. Apakah jenis purata yang digunakan dalam statistik?
  • 2. Bagaimanakah min harmonik mudah dan wajaran ditentukan?
  • 3. Bagaimanakah min geometrik mudah dan wajaran ditentukan?
  • 4. Bagaimanakah min aritmetik mudah dan wajaran ditentukan?
  • 5. Bagaimanakah RMS dan RMS dikira?
  • 6. Apakah penunjuk variasi yang anda tahu?
  • 7. Apakah julat variasi dan min sisihan linear? Apakah formula yang digunakan untuk mengiranya?
  • 8. Apakah varians dan sisihan piawai? Apakah formula yang digunakan untuk mengiranya?
  • 9. Apakah formula penyebaran sifat kualitatif?
  • 10. Apakah pekali variasi? Apakah kepentingannya untuk analisis ekonomi?
  • 11. Apakah peraturan penambahan varians?
  • 12. Apakah asimetri dan kurtosis, dan apakah formula yang digunakan untuk mencarinya?