Biografi Ciri-ciri Analisis

Ralat pensampelan relatif. Contoh Formula Ralat Min

    Formula tahap keyakinan apabila menilai umum nuh pecahan tanda. Purata ralat kuasa dua berulang dan tiada pensampelan semula dan membina selang keyakinan untuk bahagian umum sifat.

  1. Formula keyakinan untuk menganggar purata am. Purata ralat kuasa dua bagi sampel dan pembinaan berulang dan tidak berulang selang keyakinan untuk purata am.

Pembinaan selang keyakinan untuk min am dan pecahan am untuk sampel besar . Untuk membina selang keyakinan bagi parameter populasi, m.b. 2 pendekatan berdasarkan pengetahuan tentang taburan tepat (untuk saiz sampel n) atau asimptotik (sebagai n → ∞) ciri sampel (atau beberapa fungsi daripadanya) dilaksanakan. Pendekatan pertama dilaksanakan selanjutnya apabila membina anggaran parameter selang untuk sampel kecil. Dalam bahagian ini, kami menganggap pendekatan kedua boleh digunakan untuk sampel besar (mengikut susunan ratusan pemerhatian).

Teorem . Kepercayaan bahawa sisihan min sampel (atau bahagian) daripada min umum (atau bahagian) tidak akan melebihi nombor Δ > 0 (dalam nilai mutlak) adalah sama dengan:

di mana

,

di mana
.

Ф(t) - fungsi (integral kebarangkalian) Laplace.

Formula dinamakan Formula Confidence Vert untuk Min dan Kongsi .

Sisihan piawai bagi min sampel dan bahagian sampel sebenarnya- sampel rawak dipanggil min ralat segi empat sama (standard). sampel (untuk persampelan tidak berulang, kami nyatakan, masing-masing, dan ).

Akibat 1 . Untuk tahap keyakinan tertentu γ, ralat pensampelan marginal adalah sama dengan nilai kali ganda t bagi min ralat kuadratik, dengan Ф(t) = γ, i.e.

,

.

Akibat 2 . Anggaran selang (selang keyakinan) untuk purata am dan saham umum boleh didapati menggunakan formula:

,

.

  1. Penentuan isipadu yang diperlukan bagi sampel berulang dan tidak berulang apabila menganggar purata dan perkadaran am.

Untuk pemerhatian terpilih adalah sangat penting untuk menetapkan saiz sampel n dengan betul, yang sebahagian besarnya menentukan masa yang diperlukan, kos buruh dan kos untuk menentukan n, adalah perlu untuk menetapkan kebolehpercayaan (tahap keyakinan) anggaran γ dan ketepatan (ralat pensampelan marginal) Δ.

Jika saiz pensampelan semula n ditemui, maka saiz sampel semula n" yang sepadan boleh ditentukan dengan formula:

.

Kerana
, maka untuk ketepatan dan kebolehpercayaan anggaran yang sama, saiz sampel tidak berulang n" sentiasa kurang daripada saiz sampel semula n.

  1. Hipotesis statistik dan ujian statistik. Kesilapan jenis pertama dan kedua. Tahap kepentingan dan kuasa ujian. Prinsip kepastian praktikal.

Definisi . Hipotesis statistik Sebarang andaian tentang bentuk atau parameter undang-undang pengedaran yang tidak diketahui dipanggil.

Bezakan antara hipotesis statistik mudah dan kompleks. hipotesis mudah , berbeza dengan yang kompleks, sepenuhnya menentukan fungsi taburan teori SW.

Hipotesis yang akan diuji biasanya dipanggil null (atau asas ) dan menandakan H 0 . Serta hipotesis nol pertimbangkan alternatif , atau bertanding , hipotesis H 1 , iaitu penolakan logik bagi H 0 . Hipotesis nol dan alternatif adalah 2 pilihan yang dibuat dalam masalah ujian hipotesis statistik.

Intipati untuk menguji hipotesis statistik ialah ciri sampel (statistik) yang disusun khas digunakan.
, diperoleh daripada sampel
, yang pengedaran tepat atau anggarannya diketahui.

Kemudian, mengikut taburan sampel ini, nilai kritikal ditentukan - sehingga jika hipotesis H 0 adalah benar, maka
kecil; supaya sesuai dengan prinsip kepastian praktikal dalam syarat kajian ini, acara
mungkin (dengan beberapa risiko) dianggap mustahil. Oleh itu, jika dalam kes ini terdapat penyelewengan
, maka hipotesis H 0 ditolak, manakala kemunculan nilai
, dianggap serasi dengan hipotesis H 0, yang kemudiannya diterima (lebih tepat, tidak ditolak). Peraturan di mana hipotesis H 0 ditolak atau diterima dipanggil kriteria statistik atau ujian statistik .

Prinsip kepastian praktikal:

Jika kebarangkalian peristiwa A dalam ujian tertentu adalah sangat kecil, maka dengan satu pelaksanaan ujian, anda boleh yakin bahawa peristiwa A tidak akan berlaku, dan dari segi praktikal, berkelakuan seolah-olah peristiwa A adalah mustahil sama sekali.

Oleh itu, set kemungkinan nilai statistik - kriteria (statistik kritikal) dibahagikan kepada 2 subset tidak bertindih: kawasan kritikal(kawasan penolakan hipotesis) W dan julat toleransi(kawasan penerimaan hipotesis) . Jika nilai sebenar yang diperhatikan bagi statistik kriteria jatuh ke kawasan kritikal W, maka hipotesis H 0 ditolak. Terdapat empat kes yang mungkin:

Definisi . Kebarangkalian α untuk membuat ralat jenis ke-1, i.e. untuk menolak hipotesis H 0 apabila ia benar dipanggil aras keertian , atau saiz kriteria .

Kebarangkalian untuk membuat ralat jenis 2, i.e. terima hipotesis H 0 apabila ia palsu, biasanya dilambangkan β.

Definisi . Kebarangkalian (1-β) untuk tidak membuat ralat jenis 2, i.e. untuk menolak hipotesis H 0 apabila ia palsu dipanggil kuasa (atau fungsi kuasa ) kriteria .

Adalah perlu untuk memilih kawasan kritikal di mana kuasa kriteria akan menjadi yang paling besar.

Seperti yang kita sedia maklum, keterwakilan adalah harta kerangka persampelan membentangkan penerangan umum. Sekiranya tidak ada padanan, mereka bercakap tentang ralat perwakilan - tahap sisihan struktur statistik sampel daripada struktur yang sepadan penduduk. Katakan purata pendapatan bulanan keluarga pesara dalam populasi umum ialah 2 ribu rubel, dan dalam sampel - 6 ribu rubel. Ini bermakna ahli sosiologi hanya menemu bual golongan kaya daripada pesara, dan kesilapan keterwakilan menyelinap ke dalam kajiannya. Dalam erti kata lain, kesilapan perwakilan adalah percanggahan antara dua set - yang umum, yang mana kepentingan teori ahli sosiologi diarahkan dan idea tentang sifat yang dia ingin dapatkan pada akhirnya, dan yang terpilih. , yang mana minat praktikal ahli sosiologi diarahkan, yang bertindak sebagai objek pemeriksaan dan cara mendapatkan maklumat tentang populasi umum.

Bersama-sama dengan istilah "kesilapan perwakilan" dalam kesusasteraan domestik, anda boleh menemui satu lagi - "ralat pensampelan". Kadangkala ia digunakan secara bergantian, dan kadangkala "ralat pensampelan" digunakan dan bukannya "ralat keterwakilan" sebagai konsep yang lebih tepat secara kuantitatif.

Ralat persampelan ialah sisihan ciri purata populasi sampel daripada ciri purata populasi umum.

Dalam amalan, ralat pensampelan ditentukan dengan membandingkan ciri-ciri populasi yang diketahui dengan min sampel. Dalam sosiologi, tinjauan populasi dewasa paling kerap menggunakan data daripada banci penduduk, rekod statistik semasa dan hasil tinjauan sebelumnya. Ciri sosio-demografi biasanya digunakan sebagai parameter kawalan. Perbandingan purata populasi umum dan sampel, berdasarkan ini, penentuan ralat pensampelan dan pengurangannya dipanggil kawalan perwakilan. Memandangkan perbandingan data sendiri dan data orang lain boleh dibuat pada akhir kajian, kaedah kawalan ini dipanggil posteriori, i.e. dijalankan selepas pengalaman.

Dalam tinjauan pendapat Gallup, keterwakilan dikawal oleh data yang tersedia dalam banci kebangsaan mengenai taburan penduduk mengikut jantina, umur, pendidikan, pendapatan, profesion, bangsa, tempat kediaman, saiz lokaliti. Pusat Penyelidikan Semua-Rusia pendapat umum(VTsIOM) menggunakan untuk tujuan sedemikian penunjuk seperti jantina, umur, pendidikan, jenis penempatan, status perkahwinan, bidang pekerjaan, status rasmi responden, yang dipinjam daripada Jawatankuasa Statistik Negeri Persekutuan Rusia. Dalam kedua-dua kes, populasi diketahui. Ralat pensampelan tidak boleh diwujudkan jika nilai pembolehubah dalam sampel dan populasi tidak diketahui.

Semasa analisis data, pakar VTsIOM memastikan pembaikan menyeluruh sampel untuk meminimumkan penyelewengan yang berlaku semasa kerja lapangan. Peralihan yang sangat kuat diperhatikan dari segi jantina dan umur. Ini dijelaskan oleh fakta bahawa wanita dan orang dengan pendidikan tinggi menghabiskan lebih banyak masa di rumah dan membuat hubungan dengan penemuduga dengan lebih mudah; adalah kumpulan yang mudah diakses berbanding lelaki dan orang yang "tidak berpendidikan"35.

Ralat persampelan adalah disebabkan oleh dua faktor: kaedah persampelan dan saiz sampel.

Ralat pensampelan dibahagikan kepada dua jenis - rawak dan sistematik. Ralat rawak ialah kebarangkalian bahawa min sampel akan (atau tidak) jatuh di luar selang tertentu. Ralat rawak termasuk ralat statistik yang wujud dalam kaedah persampelan itu sendiri. Mereka berkurangan apabila saiz sampel bertambah.

Jenis ralat pensampelan kedua ialah kesilapan sistematik. Jika ahli sosiologi memutuskan untuk mengetahui pendapat semua penduduk bandar tentang yang berterusan pihak berkuasa tempatan pihak berkuasa dalam dasar sosial, dan hanya menemu bual mereka yang mempunyai telefon, maka terdapat kecenderungan sengaja dalam sampel yang memihak kepada strata kaya, i.e. ralat sistematik.

Justeru, kesilapan sistematik adalah hasil daripada aktiviti pengkaji itu sendiri. Mereka adalah yang paling berbahaya, kerana ia membawa kepada berat sebelah yang agak ketara dalam hasil kajian. Ralat sistematik dianggap lebih teruk daripada ralat rawak juga kerana ia tidak boleh dikawal dan diukur.

Mereka timbul apabila, sebagai contoh: 1) sampel tidak memenuhi objektif kajian (ahli sosiologi memutuskan untuk belajar hanya pesara yang bekerja, tetapi menemu bual semua orang berturut-turut); 2) terdapat kejahilan tentang sifat penduduk umum (ahli sosiologi berpendapat bahawa 70% daripada semua pesara tidak bekerja, tetapi ternyata hanya 10% yang tidak bekerja); 3) hanya elemen "menang" penduduk umum dipilih (contohnya, hanya pesara kaya).

Perhatian! Tidak seperti ralat rawak, ralat sistematik tidak berkurangan dengan peningkatan saiz sampel.

Merumuskan semua kes apabila ralat sistematik berlaku, ahli metodologi menyusun daftarnya. Mereka percaya bahawa sumber bias yang tidak terkawal dalam pengedaran pemerhatian sampel mungkin faktor berikut:
♦ peraturan metodologi dan metodologi untuk menjalankan penyelidikan sosiologi;
♦ kaedah persampelan yang tidak mencukupi, kaedah pengumpulan data dan pengiraan telah dipilih;
♦ terdapat penggantian unit pemerhatian yang diperlukan oleh orang lain, lebih mudah diakses;
♦ Liputan populasi pensampelan yang tidak lengkap (kekurangan soal selidik, soal selidik yang tidak lengkap, ketidakbolehcapaian unit pemerhatian) telah diperhatikan.

Ahli sosiologi jarang membuat kesilapan yang disengajakan. Lebih kerap daripada tidak, kesilapan timbul kerana ahli sosiologi tidak menyedari struktur populasi umum: pengagihan orang mengikut umur, profesion, pendapatan, dan sebagainya.

Ralat sistematik lebih mudah dicegah (berbanding ralat rawak), tetapi ia sangat sukar untuk dihapuskan. Adalah lebih baik untuk mengelakkan kesilapan sistematik dengan menjangka sumbernya dengan tepat - pada awal kajian.

Berikut ialah beberapa cara untuk mengelakkan ralat pensampelan:
♦ setiap unit populasi umum mesti mempunyai kebarangkalian yang sama untuk dimasukkan ke dalam sampel;
♦ adalah wajar untuk memilih daripada populasi homogen;
♦ perlu mengetahui ciri-ciri populasi umum;
♦ Ralat rawak dan sistematik perlu diambil kira semasa menyusun sampel.

Jika sampel (atau hanya sampel) dibuat dengan betul, maka ahli sosiologi memperoleh hasil yang boleh dipercayai yang mencirikan keseluruhan populasi. Sekiranya ia disusun secara tidak betul, maka ralat yang timbul pada peringkat pembuatan sampel didarab pada setiap peringkat kajian sosiologi yang seterusnya dan akhirnya mencapai nilai yang melebihi nilai kajian. Dikatakan bahawa penyelidikan sebegini lebih mendatangkan kemudaratan daripada kebaikan.

Ralat sedemikian hanya boleh berlaku dengan populasi sampel. Untuk mengelakkan atau mengurangkan kebarangkalian ralat, cara paling mudah ialah dengan meningkatkan saiz sampel (sebaik-baiknya sehingga saiz populasi: apabila kedua-dua populasi sepadan, ralat sampel akan hilang sama sekali). Dari segi ekonomi, kaedah ini adalah mustahil. Terdapat cara lain - untuk memperbaiki kaedah matematik persampelan. Mereka diaplikasikan dalam amalan. Ini adalah saluran pertama penembusan ke dalam sosiologi matematik. Saluran kedua - pemprosesan matematik data.

terutamanya isu penting kesilapan menjadi dalam penyelidikan pemasaran, di mana sampel tidak terlalu besar digunakan. Biasanya mereka terdiri daripada beberapa ratus, kurang kerap - seribu responden. Di sini, titik permulaan untuk mengira sampel ialah persoalan menentukan saiz populasi sampel. Saiz sampel bergantung kepada dua faktor: 1) kos mengumpul maklumat dan 2) berusaha untuk mencapai tahap tertentu kesahan statistik keputusan yang diharapkan oleh pengkaji. Sudah tentu, walaupun orang yang tidak berpengalaman dalam statistik dan sosiologi secara intuitif memahami bahawa semakin besar saiz sampel, i.e. semakin hampir dengan saiz populasi umum secara keseluruhan, semakin dipercayai dan boleh dipercayai data yang diperolehi. Walau bagaimanapun, kami telah bercakap di atas tentang kemustahilan praktikal tinjauan lengkap dalam kes-kes tersebut apabila ia dijalankan pada objek yang bilangannya melebihi puluhan, ratusan ribu malah berjuta-juta. Adalah jelas bahawa kos mengumpul maklumat (termasuk bayaran untuk replikasi alat, buruh soal selidik, pengurus lapangan dan operator input komputer) bergantung pada jumlah yang pelanggan sedia untuk memperuntukkan, dan bergantung sedikit kepada penyelidik. Bagi faktor kedua, kami akan membincangkannya dengan lebih terperinci.

Jadi, semakin besar saiz sampel, semakin kecil kemungkinan ralat. Walaupun perlu diperhatikan bahawa jika anda ingin menggandakan ketepatan, anda perlu meningkatkan sampel bukan dua, tetapi empat kali ganda. Sebagai contoh, untuk melakukan dua kali lebih banyak anggaran yang tepat data yang diperolehi dengan menemu bual 400 orang, anda perlu menemuduga bukan 800, tetapi 1600 orang. Walau bagaimanapun, tidak mungkin penyelidikan pemasaran memerlukan ketepatan 100%. Jika pembuat bir perlu mengetahui bahagian pengguna bir lebih suka jenamanya daripada jenama pesaingnya - 60% atau 40%, maka perbezaan antara 57%, 60 atau 63% tidak akan menjejaskan rancangannya.

Ralat pensampelan mungkin bergantung bukan sahaja pada saiznya, tetapi juga pada tahap perbezaan antara unit individu dalam populasi umum yang sedang kita kaji. Sebagai contoh, jika kita ingin mengetahui berapa banyak bir yang digunakan, maka kita dapati bahawa dalam populasi kita, kadar penggunaan untuk pelbagai orang berbeza dengan ketara (populasi umum heterogen). Dalam kes lain, kita akan mengkaji penggunaan roti dan mendapatinya orang yang berbeza ia berbeza jauh kurang ketara (populasi homogen). Lebih besar perbezaan (atau heterogeniti) dalam populasi umum, lebih besar nilainya kemungkinan ralat sampel. Keteraturan ini hanya mengesahkan apa yang mudah akal. Oleh itu, seperti yang dinyatakan dengan betul oleh V. Yadov, “saiz (isipadu) sampel bergantung pada tahap kehomogenan atau heterogeniti objek yang dikaji. Semakin homogen mereka, semakin kecil bilangan yang boleh memberikan kesimpulan yang boleh dipercayai secara statistik.

Penentuan saiz sampel juga bergantung pada tahap selang keyakinan ralat statistik yang dibenarkan. Di sini kami maksudkan apa yang dipanggil ralat rawak, yang dikaitkan dengan sifat sebarang ralat statistik. DALAM DAN. Paniotto memberikan pengiraan berikut sampel perwakilan dengan andaian ralat 5%:
Ini bermakna jika anda, selepas menemu bual, katakan, 400 orang di bandar daerah, di mana populasi pelarut dewasa adalah 100 ribu orang, mendapati bahawa 33% daripada pembeli yang ditinjau lebih suka produk kilang pemprosesan daging tempatan, kemudian dengan 95 % kebarangkalian anda boleh mengatakan bahawa 33+5% (iaitu daripada 28 hingga 38%) daripada penduduk bandar ini adalah pembeli tetap produk ini.

Anda juga boleh menggunakan pengiraan Gallup untuk menganggarkan nisbah saiz sampel dan ralat pensampelan.

Pemerhatian terpilih

Konsep pemerhatian terpilih

Kaedah persampelan digunakan apabila penggunaan pemerhatian berterusan adalah mustahil secara fizikal disebabkan oleh jumlah data yang besar atau tidak dapat dilaksanakan secara ekonomi. Ketidakmungkinan fizikal berlaku, sebagai contoh, apabila mengkaji aliran penumpang, harga pasaran, belanjawan keluarga. Ketidakupayaan ekonomi berlaku apabila menilai kualiti barangan yang berkaitan dengan kemusnahannya. Contohnya, mengecap, menguji batu bata untuk kekuatan, dsb. Pemerhatian terpilih juga digunakan untuk menguji keputusan yang berterusan.

Unit statistik yang dipilih untuk pemerhatian ialah selektif agregat atau sampel, dan keseluruhan tatasusunan - umum set (GS). Bilangan unit dalam sampel dilambangkan P, sepanjang HS N. Sikap n/N dipanggil saiz relatif atau bahagian sampel.

Kualiti keputusan pensampelan bergantung kepada keterwakilan sampel, i.e. tentang bagaimana ia mewakili dalam HS. Untuk memastikan keterwakilan sampel, adalah perlu untuk memerhatikan prinsip pemilihan rawak unit, yang menganggap bahawa kemasukan unit HS dalam sampel tidak boleh dipengaruhi oleh sebarang faktor selain daripada kebetulan.

Kaedah persampelan

1. Sebenarnya rawak pemilihan: semua unit HS bernombor dan nombor yang dilukis sepadan dengan unit dalam sampel, dengan bilangan nombor sama dengan saiz sampel yang dirancang. Dalam amalan, bukannya melukis lot, penjana digunakan nombor rawak. Kaedah ini pemilihan boleh berulang(apabila setiap unit yang dipilih dalam sampel dikembalikan ke HS selepas pemerhatian dan boleh ditinjau semula) dan tidak berulang(apabila unit yang ditinjau di HS tidak dikembalikan dan tidak boleh ditinjau semula). Dengan pemilihan berulang, kebarangkalian untuk masuk ke dalam sampel untuk setiap unit HS kekal tidak berubah, dan dengan pemilihan tidak berulang ia berubah (meningkat), tetapi untuk baki dalam HS selepas beberapa unit dipilih daripadanya, kebarangkalian untuk masuk ke dalam sampel adalah sama.



2. Mekanikal pemilihan: unit populasi dipilih dengan langkah yang berterusan T/A. Jadi, jika ia mengandungi populasi umum 100 ribu unit, dan ia dikehendaki memilih 1 ribu unit, maka setiap unit keseratus akan jatuh ke dalam sampel.

3. berstrata pemilihan (berstrata) dijalankan daripada populasi umum yang heterogen, apabila ia sebelum ini dibahagikan kepada kumpulan homogen, selepas itu pemilihan unit daripada setiap kumpulan dalam populasi sampel dijalankan secara rawak atau mekanikal mengikut kadar bilangan mereka dalam populasi umum.

4. bersiri pemilihan (bersarang): secara rawak atau mekanikal, bukan unit individu dipilih, tetapi siri tertentu (sarang), di mana pemerhatian berterusan dijalankan.

Ralat pensampelan purata

Selepas melengkapkan pemilihan bilangan unit yang diperlukan dalam sampel dan mendaftarkan ciri-ciri unit ini yang disediakan oleh program pemerhatian, mereka meneruskan pengiraan penunjuk generalisasi. Mereka termasuk nilai purata sifat yang dikaji dan bahagian unit yang mempunyai beberapa nilai sifat ini. Walau bagaimanapun, jika HS membuat beberapa sampel, sambil menentukan ciri umum mereka, maka dapat ditentukan bahawa nilai mereka akan berbeza, di samping itu, mereka akan berbeza daripada nilai sebenar mereka dalam HS, jika ini ditentukan menggunakan pemerhatian berterusan . Dalam erti kata lain, ciri umum yang dikira daripada data sampel akan berbeza daripada nilai sebenar mereka dalam HS, jadi kami memperkenalkan konvensyen berikut (Jadual 8).

Jadual 8 Konvensyen

Perbezaan antara nilai ciri umum sampel dan populasi umum dipanggil ralat pensampelan, yang terbahagi kepada kesilapan pendaftaran dan kesilapan keterwakilan. Yang pertama timbul kerana maklumat yang salah atau tidak tepat kerana kurang memahami intipati isu, kecuaian pendaftar semasa mengisi soal selidik, borang, dll. Ia agak mudah untuk dikesan dan diperbaiki. Yang kedua timbul daripada ketidakpatuhan prinsip pemilihan rawak unit dalam sampel. Ia lebih sukar untuk dikesan dan dihapuskan, ia lebih besar daripada yang pertama, dan oleh itu pengukurannya adalah tugas utama pemerhatian terpilih.

Untuk mengukur ralat pensampelan, ralat puratanya ditentukan oleh formula (39) untuk pemilihan semula dan mengikut formula (40) - untuk tidak berulang:

= ;(39) = . (40)

Ia boleh dilihat daripada formula (39) dan (40) bahawa ralat purata adalah lebih kecil untuk sampel tidak berulang, yang menentukan penggunaannya yang lebih luas.

Konsep dan pengiraan ralat pensampelan.

Tugas pemerhatian terpilih adalah untuk memberi idea yang betul tentang petunjuk ringkasan keseluruhan populasi berdasarkan sebahagian daripadanya yang tertakluk kepada pemerhatian. Kemungkinan sisihan bahagian sampel dan min sampel daripada bahagian dan min dalam populasi umum dipanggil ralat pensampelan atau kesilapan perwakilan. Lebih besar nilai ralat ini, lebih banyak penunjuk pemerhatian sampel berbeza daripada populasi umum.

Berbeza:

Ralat pensampelan;

Kesilapan pendaftaran.

Kesilapan pendaftaran berlaku apabila fakta tidak betul ditubuhkan dalam proses pemerhatian. Mereka adalah ciri kedua-dua pemerhatian berterusan dan pemerhatian terpilih, tetapi mereka kurang dalam pemerhatian terpilih.

Sifat ralat adalah:

Cenderung - sengaja, i.e. sama ada unit terbaik atau terburuk dalam populasi telah dipilih. Dalam kes ini, pemerhatian kehilangan maknanya;

Rawak - prinsip organisasi utama pemerhatian terpilih adalah untuk menghalang pemilihan yang disengajakan, i.e. memastikan pematuhan ketat kepada prinsip pemilihan rawak.

Peraturan Am pemilihan rawak ialah: unit individu populasi umum mesti mempunyai keadaan dan peluang yang sama untuk jatuh ke dalam bilangan unit yang termasuk dalam sampel. Ini mencirikan kebebasan hasil sampel daripada kehendak pemerhati. Kehendak pemerhati menjana ralat tendensius. Ralat pensampelan dalam pemilihan rawak ialah watak rawak. Ia mencirikan saiz sisihan ciri-ciri umum daripada yang sampel.

Oleh kerana ciri-ciri dalam populasi yang dikaji berbeza-beza, komposisi unit dalam sampel mungkin tidak bertepatan dengan komposisi unit keseluruhan populasi. Maksudnya begitu R dan tidak sepadan dengan W dan . Kemungkinan percanggahan antara ciri-ciri ini ditentukan oleh ralat pensampelan, yang ditentukan oleh formula:

di mana - varians umum.

di manakah varians sampel.

Ini menunjukkan di mana varians am berbeza daripada varians sampel dalam masa.

Terdapat pemilihan berulang dan tidak berulang. Intipati pemilihan semula ialah setiap unit dalam sampel, selepas pemerhatian, kembali kepada populasi umum dan boleh diperiksa semula. Apabila pensampelan semula, ralat pensampelan purata dikira:

Untuk penunjuk bahagian atribut alternatif, varians sampel ditentukan oleh formula:

Dalam amalan, pemilihan semula jarang digunakan. Dengan pemilihan tidak berulang, saiz populasi umum N berkurangan semasa pensampelan, formula ralat purata sampel untuk sifat kuantitatif kelihatan seperti:



, kemudian

Salah satu nilai yang mungkin di mana bahagian sifat yang dikaji boleh sama dengan:

di manakah ralat pensampelan ciri alternatif.

Contoh.

Semasa tinjauan sampel 10% daripada produk sekumpulan produk siap mengikut kaedah tanpa pemilihan semula, data berikut mengenai kandungan lembapan dalam sampel telah diperolehi.

Tentukan Purata % Kelembapan, Varians, Purata sisihan piawai, dengan kebarangkalian 0.954 had yang mungkin, yang kami harapkan rujuk. % kelembapan semua produk siap, dengan kebarangkalian 0.987 had yang mungkin graviti tertentu produk standard, dengan syarat lot bukan standard termasuk produk dengan kandungan lembapan sehingga 13 dan ke atas 19%.

Hanya dengan kebarangkalian tertentu boleh dikatakan bahawa bahagian am bagi bahagian sampel dan purata am bagi min sampel menyimpang dalam t sekali.

Dalam statistik, penyimpangan ini dipanggil ralat pensampelan marginal dan ditanda.

Kebarangkalian penghakiman boleh ditambah atau dikurangkan dalam t sekali. Dengan kebarangkalian 0.683, dengan 0.954, dengan 0.987, maka penunjuk populasi umum ditentukan oleh penunjuk sampel.

Ralat pensampelan purata menunjukkan berapa banyak parameter populasi sampel menyimpang secara purata daripada parameter yang sepadan bagi populasi umum. Jika kita mengira purata ralat semua sampel yang mungkin sejenis tertentu isipadu yang diberikan ( n) diekstrak daripada populasi umum yang sama, maka kita mendapat ciri umum mereka - min ralat pensampelan ().

Dalam teori pemerhatian terpilih, formula untuk menentukan , yang mana individu untuk cara yang berbeza pemilihan (berulang dan tidak berulang), jenis sampel yang digunakan dan jenis penunjuk statistik anggaran.

Sebagai contoh, jika persampelan rawak berulang digunakan, maka ia ditakrifkan sebagai:

Apabila menganggar nilai min sesuatu ciri;

Jika tanda itu adalah alternatif, dan bahagiannya dianggarkan.

Dalam kes pemilihan rawak tidak berulang, formula dipinda (1 - n/N):

- untuk nilai min atribut;

- untuk perkongsian.

Kebarangkalian untuk mendapatkan nilai ralat sedemikian sentiasa bersamaan dengan 0.683. Dalam amalan, adalah lebih baik untuk mendapatkan data dengan kebarangkalian yang lebih tinggi, tetapi ini membawa kepada peningkatan dalam saiz ralat pensampelan.

ralat marginal pensampelan () adalah sama dengan t kali bilangan ralat pensampelan purata (dalam teori persampelan, adalah lazim untuk memanggil pekali t pekali keyakinan):

Jika ralat pensampelan digandakan (t = 2), maka kita mendapat kebarangkalian yang lebih tinggi bahawa ia tidak akan melebihi had tertentu (dalam kes kita, dua kali ganda ralat purata) - 0.954. Jika kita mengambil t \u003d 3, maka tahap keyakinan akan menjadi 0.997 - hampir pasti.

Tahap ralat pensampelan marginal bergantung kepada faktor berikut:

  • tahap variasi unit populasi umum;
  • saiz sampel;
  • skim pemilihan terpilih (pemilihan tidak berulang memberikan nilai ralat yang lebih kecil);
  • tahap keyakinan.

Jika saiz sampel lebih besar daripada 30, maka nilai t ditentukan daripada jadual taburan normal, jika kurang - mengikut jadual agihan Pelajar.

Berikut ialah beberapa nilai pekali keyakinan daripada jadual taburan normal.

Selang keyakinan untuk nilai min atribut dan untuk perkadaran dalam populasi umum ditetapkan seperti berikut:

Jadi, takrifan sempadan purata am dan bahagian terdiri daripada langkah-langkah berikut:

Ralat pensampelan di pelbagai jenis pemilihan

  1. Sebenarnya persampelan rawak dan mekanikal. Ralat purata persampelan rawak dan mekanikal sebenar didapati menggunakan formula yang dibentangkan dalam Jadual. 11.3.

Contoh 11.2. Untuk mengkaji tahap pulangan ke atas aset, tinjauan sampel 90 perusahaan daripada 225 telah dijalankan menggunakan kaedah pensampelan semula rawak, hasilnya data yang dibentangkan dalam jadual diperolehi.

Dalam contoh ini, kami mempunyai 40% sampel (90: 225 = 0.4, atau 40%). Mari kita tentukan ralat marginalnya dan sempadan untuk nilai purata ciri dalam populasi umum dengan langkah-langkah algoritma:

  1. Berdasarkan keputusan tinjauan sampel, kami mengira nilai min dan varians dalam populasi sampel:
Jadual 11.5.
Hasil pemerhatian Anggaran nilai
pulangan atas aset, gosok., x i bilangan perusahaan, f i tengah selang, x i \xb4 x i \xb4 f i x i \xb4 2 f i
Sehingga 1.4 13 1,3 16,9 21,97
1,4-1,6 15 1,5 22,5 33,75
1,6-1,8 17 1,7 28,9 49,13
1,8-2,0 15 1,9 28,5 54,15
2,0-2,2 16 2,1 33,6 70,56
2.2 dan ke atas 14 2,3 32,2 74,06
Jumlah 90 - 162,6 303,62

Sampel min

Varians sampel bagi sifat yang dikaji

Untuk data kami, kami mentakrifkan ralat pensampelan marginal, sebagai contoh, dengan kebarangkalian 0.954. Menurut jadual nilai kebarangkalian fungsi taburan normal (lihat petikan daripadanya diberikan dalam Lampiran 1), kita dapati nilai pekali keyakinan t sepadan dengan kebarangkalian 0.954. Dengan kebarangkalian 0.954, pekali t ialah 2.

Oleh itu, dalam 954 kes daripada 1000, purata pulangan ke atas aset tidak akan melebihi 1.88 rubel. dan tidak kurang daripada 1.74 rubel.

Di atas, skema pemilihan rawak berulang telah digunakan. Mari kita lihat sama ada keputusan tinjauan itu berubah jika kita mengandaikan bahawa pemilihan telah dijalankan mengikut skim pemilihan tidak berulang. Dalam kes ini, ralat purata dikira menggunakan formula

Kemudian, dengan kebarangkalian sama dengan 0.954, ralat pensampelan marginal ialah:

Had keyakinan untuk nilai min ciri sekiranya pemilihan rawak tidak berulang akan mempunyai nilai berikut:

Membandingkan keputusan dua skim pemilihan, kita boleh membuat kesimpulan bahawa penggunaan persampelan rawak tidak berulang memberikan lebih banyak keputusan yang tepat berbanding dengan menggunakan pemilihan berulang pada tahap keyakinan yang sama. Pada masa yang sama, semakin besar saiz sampel, semakin ketara sempadan nilai min sempit apabila berpindah dari satu skema pemilihan ke yang lain.

Mengikut contoh, kami menentukan sempadan bahagian perusahaan dengan pulangan ke atas aset tidak melebihi 2.0 rubel dalam populasi umum:

  1. Mari kita mengira kadar sampel.

Bilangan perusahaan dalam sampel dengan pulangan ke atas aset tidak melebihi 2.0 rubel ialah 60 unit. Kemudian

m = 60, n = 90, w = m/n = 60: 90 = 0.667;

  1. hitung varians bahagian dalam populasi sampel
  1. ralat pensampelan purata semasa menggunakan skim semula pemilihan akan

Jika kita mengandaikan bahawa skim pemilihan tidak berulang telah digunakan, maka ralat pensampelan purata, dengan mengambil kira pembetulan untuk keterbatasan populasi, akan menjadi

  1. kami menetapkan kebarangkalian keyakinan dan menentukan ralat pensampelan marginal.

Dengan nilai kebarangkalian P = 0.997, mengikut jadual taburan normal, kami memperoleh nilai untuk pekali keyakinan t = 3 (lihat ekstrak daripadanya diberikan dalam Lampiran 1):

Oleh itu, dengan kebarangkalian 0.997, boleh dikatakan bahawa dalam populasi umum bahagian perusahaan dengan pulangan ke atas aset tidak melebihi 2.0 rubel adalah tidak kurang daripada 54.7% dan tidak lebih daripada 78.7%.

  1. Sampel biasa. Dengan sampel biasa, populasi umum objek dibahagikan kepada kumpulan k, kemudian

N 1 + N 2 + ... + N i + ... + N k = N.

Jumlah unit yang diekstrak daripada setiap kumpulan biasa bergantung pada kaedah pemilihan yang diterima pakai; mereka jumlah membentuk saiz sampel yang diperlukan

n 1 + n 2 + … + n i + … + n k = n.

Terdapat dua cara berikut untuk mengatur pemilihan dalam kumpulan tipikal: berkadar dengan volum kumpulan tipikal dan berkadar dengan tahap turun naik nilai atribut dalam unit pemerhatian dalam kumpulan. Pertimbangkan yang pertama daripada mereka, sebagai yang paling biasa digunakan.

Pemilihan berkadar dengan saiz kumpulan biasa mengandaikan bahawa dalam setiap kumpulan akan dipilih nombor seterusnya unit penduduk:

n = n i N i /N

di mana n i ialah bilangan unit yang boleh diekstrak untuk sampel daripada kumpulan tipikal ke-i;

n ialah jumlah saiz sampel;

N i - bilangan unit populasi umum yang membentuk kumpulan tipikal ke-i;

N ialah jumlah bilangan unit dalam populasi umum.

Pemilihan unit dalam kumpulan berlaku dalam bentuk persampelan rawak atau mekanikal.

Formula untuk menganggar ralat pensampelan min bagi min dan bahagian dibentangkan dalam Jadual. 11.6.

Berikut adalah purata bagi varians kumpulan kumpulan tipikal.

Contoh 11.3. Tinjauan selektif pelajar telah dijalankan di salah sebuah universiti Moscow untuk menentukan penunjuk purata kehadiran perpustakaan universiti oleh seorang pelajar setiap semester. Untuk ini, 5% sampel biasa tidak berulang telah digunakan, kumpulan tipikal yang sepadan dengan nombor kursus. Apabila memilih, berkadar dengan jumlah kumpulan biasa, data berikut diperoleh:

Jadual 11.7.
Nombor kursus Jumlah pelajar, orang, N i Diperiksa hasil pemerhatian terpilih, orang, n i Purata bilangan lawatan perpustakaan bagi setiap pelajar setiap semester, x i Varians sampel dalam kumpulan,
1 650 33 11 6
2 610 31 8 15
3 580 29 5 18
4 360 18 6 24
5 350 17 10 12
Jumlah 2 550 128 8 -

Bilangan pelajar yang akan diperiksa dalam setiap kursus dikira seperti berikut:

serupa untuk kumpulan lain:

Taburan nilai min sampel sentiasa ada undang-undang biasa pengedaran (atau mendekatinya) untuk n > 100, tanpa mengira jenis taburan populasi. Walau bagaimanapun, dalam kes sampel kecil, undang-undang pengedaran yang berbeza digunakan - Pengagihan pelajar. Dalam kes ini, pekali keyakinan didapati mengikut jadual taburan-t Pelajar, bergantung pada nilai kebarangkalian keyakinan P dan saiz sampel n. Lampiran 1 menyediakan serpihan jadual taburan-t Pelajar, yang dibentangkan sebagai pergantungan. kebarangkalian keyakinan pada saiz sampel dan pekali keyakinan t.

Contoh 11.4. Katakan bahawa sampel tinjauan lapan pelajar akademi menunjukkan bahawa sebagai persediaan untuk kerja kawalan mengikut statistik, mereka menghabiskan bilangan jam berikut: 8.5; 8.0; 7.8; 9.0; 7.2; 6.2; 8.4; 6.6.

Contoh 11.5. Mari kita hitung berapa banyak daripada 507 perusahaan industri pejabat cukai perlu disemak untuk menentukan bahagian perusahaan dengan pelanggaran cukai dengan kebarangkalian 0.997. Menurut tinjauan yang sama sebelum ini, nilai sisihan piawai ialah 0.15; saiz ralat pensampelan dijangka tidak lebih tinggi daripada 0.05.

Apabila menggunakan pemilihan rawak berulang, semak

Dalam pemilihan rawak yang tidak berulang, adalah perlu untuk menyemak

Seperti yang anda lihat, penggunaan pensampelan tidak berulang membolehkan anda menjalankan tinjauan dengan banyak lebih sedikit objek.

Contoh 11.6. Tinjauan dirancang upah di perusahaan industri dengan kaedah pemilihan rawak tidak berulang. Berapakah saiz sampel sekiranya pada masa tinjauan bilangan pekerja dalam industri ialah 100,000 orang? Ralat pensampelan marginal tidak boleh melebihi 100 rubel. dengan kebarangkalian 0.954. Berdasarkan hasil tinjauan sebelumnya mengenai gaji dalam industri, diketahui bahawa sisihan piawai ialah 500 rubel.

Oleh itu, untuk menyelesaikan masalah, perlu memasukkan sekurang-kurangnya 100 orang dalam sampel.