Bagaimana untuk mengira ralat min sampel. Purata ralat pensampelan semula dan tidak mencuba semula

Ia mewakili percanggahan sedemikian antara purata sampel dan populasi umum, yang tidak melebihi ± b (delta).

berdasarkan Teorem P. L. Chebyshev nilai ralat min dalam kes pemilihan semula rawak, ia dikira dengan formula (untuk purata sifat kuantitatif):

di mana pengangka ialah varians ciri x dalam sampel;
n ialah saiz sampel.

Untuk ciri alternatif, formula untuk ralat pensampelan min untuk perkadaran mengikut teorem J. Bernoulli dikira dengan formula:

dengan p(1 - p) ialah varians bahagian ciri dalam penduduk;
n - saiz sampel.

Disebabkan fakta bahawa varians sifat dalam populasi umum tidak diketahui dengan tepat, dalam praktiknya nilai varians digunakan, yang dikira untuk populasi sampel berdasarkan undang-undang nombor besar . mengikut undang-undang ini bingkai pensampelan dengan saiz sampel yang besar, ia menghasilkan semula ciri-ciri populasi umum dengan tepat.

sebab tu formula pengiraan min ralat dalam pensampelan semula rawak akan kelihatan seperti ini:

1. Untuk sifat kuantitatif purata:

dengan S^2 ialah varians bagi ciri x dalam sampel;
n - saiz sampel.

di mana w (1 - w) ialah varians perkadaran sifat yang dikaji dalam populasi sampel.

Dalam teori kebarangkalian, ia ditunjukkan bahawa ia dinyatakan melalui sampel mengikut formula:

Dalam kes sampel kecil, apabila isipadunya kurang daripada 30, adalah perlu untuk mengambil kira pekali n/(n-1). Kemudian ralat purata sampel kecil dikira dengan formula:

Oleh kerana bilangan unit populasi umum dikurangkan dalam proses persampelan tidak berulang, dalam formula di atas untuk mengira ralat pensampelan purata, ungkapan akar mesti didarabkan dengan 1- (n / N).

Formula pengiraan untuk jenis sampel ini akan kelihatan seperti ini:

1. Untuk sifat kuantitatif purata:

di mana N ialah isipadu populasi umum; n - saiz sampel.

2. Untuk perkongsian (ciri alternatif):

di mana 1- (n/N) ialah perkadaran unit dalam populasi umum yang tidak termasuk dalam sampel.

Oleh kerana n sentiasa kurang daripada N, faktor tambahan 1 - (n/N) akan sentiasa kurang daripada satu. Maksudnya begitu kesalahan bermakna dengan pemilihan tidak berulang akan sentiasa kurang daripada pemilihan berulang. Apabila proporsi unit populasi umum yang tidak termasuk dalam sampel adalah signifikan, maka nilai 1 - (n / N) hampir dengan satu, dan kemudian ralat purata dikira mengikut formula umum.

Ralat purata bergantung kepada faktor berikut:

1. Apabila prinsip pemilihan rawak dipenuhi, ralat pensampelan purata ditentukan, pertama, dengan saiz sampel: lebih kekuatan, semakin kecil nilainya ralat pensampelan min. Populasi umum dicirikan dengan lebih tepat apabila lebih banyak unit populasi ini meliputi pemerhatian sampel

2. Ralat purata juga bergantung pada tahap variasi ciri. Tahap variasi dicirikan oleh . Lebih kecil variasi ciri (serakan), lebih kecil ralat pensampelan purata. Dengan varians sifar (atribut tidak berbeza), ralat pensampelan purata adalah sifar, jadi mana-mana unit populasi umum akan mencirikan keseluruhan populasi mengikut atribut ini.

Pada pemerhatian terpilih hendaklah disediakan kemalangan pemilihan unit. Setiap unit mesti mempunyai peluang yang sama untuk dipilih dengan yang lain. Inilah yang menjadi asas pensampelan rawak.

Kepada sampel rawak yang betul merujuk kepada pemilihan unit daripada keseluruhan populasi umum (tanpa membahagikannya kepada mana-mana kumpulan) dengan membuat undian (terutamanya) atau kaedah lain yang serupa, contohnya, menggunakan jadual nombor rawak. Pemilihan rawak Pemilihan ini bukan sembarangan. Prinsip rawak mencadangkan bahawa kemasukan atau pengecualian objek daripada sampel tidak boleh dipengaruhi oleh sebarang faktor selain daripada kebetulan. Satu contoh sebenarnya rawak pemilihan boleh berfungsi sebagai edaran kemenangan: daripada jumlah tiket yang dikeluarkan, bahagian tertentu daripada nombor yang menyumbang kemenangan dipilih secara rawak. Selain itu, semua nombor diberikan peluang yang sama untuk masuk ke dalam sampel. Dalam kes ini, bilangan unit yang dipilih dalam set sampel biasanya ditentukan berdasarkan perkadaran sampel yang diterima.

Perkongsian sampel ialah nisbah bilangan unit populasi sampel kepada bilangan unit populasi umum:

Jadi, dengan sampel 5% daripada kumpulan bahagian dalam 1000 unit. saiz sampel P ialah 50 unit, dan dengan sampel 10% - 100 unit. dan lain-lain. Dengan hak organisasi saintifik sampel ralat keterwakilan boleh dikurangkan kepada nilai minimum, akibatnya, pemerhatian terpilih menjadi cukup tepat.

Pemilihan rawak yang betul bentuk tulen Ia jarang digunakan dalam amalan pemerhatian terpilih, tetapi ia adalah permulaan antara semua jenis pemilihan lain, ia mengandungi dan melaksanakan prinsip asas pemerhatian terpilih.

Mari kita pertimbangkan beberapa soalan tentang teori kaedah pensampelan dan formula ralat untuk yang mudah sampel rawak.

Apabila menggunakan kaedah persampelan dalam statistik, dua jenis utama penunjuk generalisasi biasanya digunakan: nilai purata tanda kuantitatif dan nilai relatif ciri alternatif(kongsi atau graviti tertentu unit dalam populasi statistik, yang berbeza daripada semua unit lain populasi ini hanya dengan kehadiran sifat yang dikaji).

Perkongsian sampel (w), atau kekerapan, ditentukan oleh nisbah bilangan unit yang mempunyai ciri yang dikaji t, kepada jumlah unit persampelan P:

Contohnya, jika daripada 100 butiran sampel ( n=100), 95 bahagian ternyata standard (t=95), maka pecahan sampel

w=95/100=0,95 .

Untuk mencirikan kebolehpercayaan penunjuk sampel, terdapat tengah dan ralat pensampelan marginal.

Ralat pensampelan ? atau, dengan kata lain, ralat perwakilan ialah perbezaan antara sampel yang sepadan dan ciri umum:

Kesilapan pensampelan adalah ciri pemerhatian terpilih sahaja. Bagaimana lebih nilai ralat ini, semakin banyak penunjuk sampel berbeza daripada penunjuk umum yang sepadan.

Purata sampel dan bahagian sampel adalah secara semula jadi pembolehubah rawak, yang boleh mengambil nilai yang berbeza bergantung pada unit populasi yang dimasukkan ke dalam sampel. Oleh itu, ralat pensampelan juga merupakan pembolehubah rawak dan boleh berlaku pelbagai maksud. Oleh itu, tentukan purata ralat yang mungkin - ralat sampel purata.

Bergantung pada apa min ralat pensampelan? Tertakluk kepada prinsip pemilihan rawak, ralat pensampelan purata ditentukan terutamanya saiz sampel: semakin besar bilangannya dengan yang lain syarat sama rata, semakin kecil ralat pensampelan purata. Meliputi semua persampelan Kuantiti yang besar unit populasi umum, lebih dan lebih tepat mencirikan keseluruhan populasi.

Ralat pensampelan min juga bergantung kepada darjah variasi sifat yang dipelajari. Tahap variasi, seperti yang anda tahu, dicirikan oleh penyebaran? 2 atau w(1-w)-- untuk ciri alternatif. Lebih kecil variasi ciri, dan oleh itu varians, lebih kecil ralat pensampelan purata, dan sebaliknya. Dengan serakan sifar (atribut tidak berbeza-beza), ralat pensampelan purata ialah sifar, iaitu, mana-mana unit populasi umum akan mencirikan keseluruhan populasi dengan tepat mengikut atribut ini.

Kebergantungan ralat pensampelan purata pada volumnya dan tahap variasi atribut dicerminkan dalam formula yang boleh digunakan untuk mengira ralat pensampelan purata di bawah keadaan pemerhatian sampel, apabila ciri umum ( x,p) tidak diketahui, dan oleh itu, tidak mungkin untuk mencari ralat pensampelan sebenar secara langsung daripada formula (bentuk. 1), (bentuk. 2).

W Dengan pemilihan rawak ralat purata secara teori dikira dengan formula berikut:

* untuk sifat kuantitatif purata

* untuk perkongsian (ciri alternatif)

Oleh kerana secara praktikalnya varians atribut dalam populasi umum? 2 tidak diketahui secara tepat, dalam praktiknya mereka menggunakan nilai varians S 2 yang dikira untuk populasi sampel berdasarkan undang-undang nombor besar, mengikut mana populasi sampel dengan saiz sampel yang cukup besar dengan tepat menghasilkan semula ciri-ciri Populasi umum.

Oleh itu, formula pengiraan tengah ralat pensampelan pensampelan semula rawak adalah seperti berikut:

* untuk sifat kuantitatif purata

* untuk perkongsian (ciri alternatif)

Walau bagaimanapun, varians populasi sampel tidak sama dengan varians populasi umum, dan oleh itu, ralat pensampelan purata yang dikira oleh formula (bentuk. 5) dan (bentuk. 6) akan menjadi anggaran. Tetapi dalam teori kebarangkalian terbukti bahawa varians umum dinyatakan melalui elektif oleh hubungan berikut:

Kerana P/(n-1) untuk cukup besar P -- nilai yang hampir dengan perpaduan, boleh diandaikan bahawa, dan oleh itu, dalam pengiraan praktikal bagi ralat pensampelan purata, formula (bentuk. 5) dan (bentuk. 6) boleh digunakan. Dan hanya dalam kes sampel kecil (apabila saiz sampel tidak melebihi 30) adalah perlu untuk mengambil kira pekali P/(n-1) dan mengira ralat min sampel kecil mengikut formula:

W X Dengan pemilihan rawak yang tidak berulang dalam formula di atas untuk mengira ralat pensampelan purata, adalah perlu untuk mendarabkan ungkapan akar dengan 1-(n / N), kerana bilangan unit dalam populasi umum dikurangkan dalam proses pensampelan tidak berulang. Oleh itu, untuk pemilihan yang tidak berulang formula pengiraan ralat pensampelan min akan mengambil bentuk berikut:

* untuk sifat kuantitatif purata

* untuk perkongsian (ciri alternatif)

. (borang. 10)

Kerana P sentiasa kurang N, maka faktor tambahan 1-( n/N) akan sentiasa kurang daripada satu. Ia berikutan daripada ini bahawa ralat purata dengan pemilihan tidak berulang akan sentiasa kurang daripada dengan pemilihan berulang. Pada masa yang sama, dengan peratusan sampel yang agak kecil, faktor ini hampir kepada satu (contohnya, dengan sampel 5% ialah 0.95; dengan sampel 2% ialah 0.98, dsb.). Oleh itu, kadangkala dalam amalan, formula (borang 5) dan (borang 6) digunakan untuk menentukan ralat pensampelan purata tanpa pengganda yang ditentukan, walaupun sampel disusun sebagai ralat tidak berulang. Ini berlaku apabila bilangan unit populasi umum N tidak diketahui atau tidak terhad, atau bila P sangat sedikit berbanding N, dan pada dasarnya, pengenalan faktor tambahan, hampir dengan nilai satu, secara praktikal tidak akan menjejaskan nilai ralat pensampelan purata.

Persampelan mekanikal terdiri daripada fakta bahawa pemilihan unit dalam sampel daripada umum, dibahagikan mengikut kriteria neutral kepada selang yang sama(kumpulan) dibuat dengan cara yang hanya satu unit dipilih daripada setiap kumpulan tersebut dalam sampel. Untuk mengelakkan ralat sistematik, unit yang berada di tengah-tengah setiap kumpulan hendaklah dipilih.

Apabila mengatur pemilihan mekanikal, unit populasi disusun terlebih dahulu (biasanya dalam senarai) dalam susunan tertentu (contohnya, mengikut abjad, mengikut lokasi, dalam susunan menaik atau menurun bagi nilai mana-mana penunjuk yang tidak dikaitkan. dengan harta yang dikaji, dsb.). dsb.), selepas itu bilangan unit tertentu dipilih secara mekanikal, pada selang waktu tertentu. Dalam kes ini, saiz selang dalam populasi umum adalah sama dengan nilai terbalik saham sampel. Jadi, dengan sampel 2%, setiap unit ke-50 (1: 0.02) dipilih dan diperiksa, dengan sampel 5%, setiap unit ke-20 (1: 0.05), contohnya, butiran menurun daripada mesin.

Apabila cukup penduduk yang ramai pemilihan mekanikal dari segi ketepatan keputusan adalah hampir dengan rawak yang betul. Oleh itu, untuk menentukan ralat purata sampel mekanikal, formula untuk persampelan tidak berulang rawak sendiri digunakan (bentuk. 9), (bentuk. 10).

Untuk memilih unit daripada populasi heterogen, yang dipanggil sampel biasa , yang digunakan dalam kes di mana semua unit populasi umum boleh dibahagikan kepada beberapa kumpulan homogen secara kualitatif, serupa mengikut ciri-ciri yang mempengaruhi penunjuk yang dikaji.

Apabila meninjau perusahaan, kumpulan sedemikian boleh, sebagai contoh, industri dan subsektor, bentuk pemilikan. Kemudian, daripada setiap kumpulan biasa, pemilihan unit individu ke dalam sampel dibuat oleh sampel rawak atau mekanikal.

Sampel tipikal biasanya digunakan dalam kajian populasi statistik yang kompleks. Sebagai contoh, dalam tinjauan sampel belanjawan keluarga pekerja dan pekerja dalam sektor ekonomi tertentu, produktiviti buruh pekerja dalam perusahaan yang diwakili oleh kumpulan individu mengikut kelayakan.

Sampel biasa memberikan lebih banyak keputusan yang tepat berbanding dengan kaedah lain untuk memilih unit dalam sampel. Penjenisan populasi umum memastikan keterwakilan sampel sedemikian, perwakilan setiap kumpulan tipologi di dalamnya, yang memungkinkan untuk mengecualikan pengaruh penyebaran antara kumpulan pada ralat sampel purata.

Apabila menentukan ralat purata sampel biasa sebagai penunjuk variasi ialah tengah luar dalam varians kumpulan.

Ralat pensampelan min didapati oleh formula:

* untuk sifat kuantitatif purata

(pemilihan semula); (borang. 11)

(pemilihan tidak boleh balik); (borang. 12)

* untuk perkongsian (ciri alternatif)

(pemilihan semula); (bentuk.13)

(pemilihan tidak berulang), (borang. 14)

di manakah purata varians antara kumpulan untuk populasi sampel;

Purata varians dalam kumpulan bahagian (sifat alternatif) dalam populasi sampel.

persampelan bersiri melibatkan pemilihan rawak daripada populasi umum bukan unit individu, tetapi kumpulan yang sama (sarang, siri) untuk menundukkan semua unit tanpa pengecualian kepada pemerhatian dalam kumpulan tersebut.

Permohonan persampelan bersiri disebabkan oleh fakta bahawa banyak barangan untuk pengangkutan, penyimpanan dan penjualan mereka dibungkus dalam pek, kotak, dll. Oleh itu, apabila mengawal kualiti barangan yang dibungkus, adalah lebih rasional untuk menyemak beberapa pakej (siri) daripada memilih daripada semua pakej jumlah yang diperlukan barang.

Oleh kerana dalam kumpulan (siri) semua unit tanpa pengecualian diperiksa, ralat pensampelan purata (apabila memilih siri yang sama) bergantung hanya pada varians antara kumpulan (interseries).

W Ralat persampelan min bagi skor min semasa pemilihan bersiri, mereka ditemui oleh formula:

(pemilihan semula); (borang.15)

(pemilihan tidak berulang), (borang. 16)

di mana r- bilangan siri yang dipilih; R-jumlah nombor siri.

Varians antara kumpulan sampel bersiri dikira seperti berikut:

di manakah purata i- siri ke-; - purata am untuk keseluruhan populasi sampel.

W Ralat pensampelan purata untuk perkongsian (ciri alternatif) dalam pemilihan bersiri:

(pemilihan semula); (borang. 17)

(pemilihan tidak berulang). (borang. 18)

Antara kumpulan(antara siri) varians bahagian sampel bersiri ditentukan oleh formula:

, (borang. 19)

di manakah bahagian ciri tersebut i siri ke-; - jumlah bahagian sifat dalam keseluruhan sampel.

Dalam amalan tinjauan statistik, sebagai tambahan kepada kaedah pemilihan yang dipertimbangkan sebelum ini, gabungan mereka digunakan (pemilihan gabungan).

Seperti yang kita sedia maklum, keterwakilan adalah hak milik populasi sampel untuk mewakili ciri populasi umum. Sekiranya tiada padanan, mereka bercakap tentang ralat perwakilan - ukuran sisihan struktur statistik sampel daripada struktur populasi umum yang sepadan. Katakan purata pendapatan bulanan keluarga pesara dalam populasi umum ialah 2 ribu rubel, dan dalam sampel - 6 ribu rubel. Ini bermakna ahli sosiologi hanya menemu bual golongan kaya daripada pesara, dan kesilapan keterwakilan menyelinap ke dalam kajiannya. Dalam erti kata lain, kesilapan perwakilan adalah percanggahan antara dua set - yang umum, yang mana kepentingan teori ahli sosiologi diarahkan dan idea tentang sifat yang dia ingin dapatkan pada akhirnya, dan yang terpilih. , yang mana kepentingan praktikal ahli sosiologi diarahkan, yang bertindak sebagai objek pemeriksaan dan cara mendapatkan maklumat tentang populasi umum.

Bersama-sama dengan istilah "kesilapan perwakilan" dalam kesusasteraan domestik, anda boleh menemui satu lagi - "ralat pensampelan". Kadangkala ia digunakan secara bergantian, dan kadangkala "ralat pensampelan" digunakan dan bukannya "ralat keterwakilan" sebagai konsep yang lebih tepat secara kuantitatif.

Ralat persampelan ialah sisihan ciri purata populasi sampel daripada ciri purata populasi umum.

Dalam amalan, ralat pensampelan ditentukan dengan membandingkan ciri-ciri populasi yang diketahui dengan min sampel. Dalam sosiologi, tinjauan populasi dewasa paling kerap menggunakan data daripada banci penduduk, rekod statistik semasa dan hasil tinjauan sebelumnya. Ciri sosio-demografi biasanya digunakan sebagai parameter kawalan. Perbandingan purata populasi umum dan sampel, berdasarkan ini, penentuan ralat pensampelan dan pengurangannya dipanggil kawalan perwakilan. Memandangkan perbandingan data sendiri dan data orang lain boleh dibuat pada akhir kajian, kaedah kawalan ini dipanggil posteriori, i.e. dijalankan selepas pengalaman.

Dalam tinjauan pendapat Gallup, keterwakilan dikawal oleh data yang tersedia dalam banci kebangsaan mengenai taburan penduduk mengikut jantina, umur, pendidikan, pendapatan, profesion, bangsa, tempat kediaman, saiz lokaliti. Pusat Penyelidikan Semua-Rusia pendapat umum(VTsIOM) menggunakan untuk tujuan tersebut penunjuk seperti jantina, umur, pendidikan, jenis penempatan, status perkahwinan, bidang pekerjaan, status rasmi responden, yang dipinjam daripada Jawatankuasa Statistik Negeri Persekutuan Rusia. Dalam kedua-dua kes, populasi diketahui. Ralat pensampelan tidak boleh diwujudkan jika nilai pembolehubah dalam sampel dan populasi tidak diketahui.

Semasa analisis data, pakar VTsIOM memastikan pembaikan menyeluruh sampel untuk meminimumkan penyelewengan yang berlaku semasa kerja lapangan. Peralihan yang sangat kuat diperhatikan dari segi jantina dan umur. Ini dijelaskan oleh fakta bahawa wanita dan orang dengan pendidikan tinggi menghabiskan lebih banyak masa di rumah dan membuat hubungan dengan penemuduga dengan lebih mudah; adalah kumpulan yang mudah diakses berbanding lelaki dan orang yang "tidak berpendidikan"35.

Ralat persampelan adalah disebabkan oleh dua faktor: kaedah persampelan dan saiz sampel.

Ralat pensampelan dibahagikan kepada dua jenis - rawak dan sistematik. Ralat rawak ialah kebarangkalian bahawa min sampel akan (atau tidak akan) melebihi selang yang ditentukan. Ralat rawak termasuk ralat statistik yang wujud dalam kaedah persampelan itu sendiri. Mereka berkurangan apabila saiz sampel bertambah.

Ralat persampelan jenis kedua ialah ralat sistematik. Jika ahli sosiologi memutuskan untuk mengetahui pendapat semua penduduk bandar tentang yang berterusan pihak berkuasa tempatan pihak berkuasa dalam dasar sosial, dan hanya menemu bual mereka yang mempunyai telefon, maka terdapat kecenderungan sengaja dalam sampel yang memihak kepada strata kaya, i.e. ralat sistematik.

Justeru, kesilapan sistematik adalah hasil daripada aktiviti pengkaji itu sendiri. Mereka adalah yang paling berbahaya, kerana ia membawa kepada berat sebelah yang agak ketara dalam hasil kajian. Ralat sistematik dianggap lebih teruk daripada ralat rawak juga kerana ia tidak boleh dikawal dan diukur.

Mereka timbul apabila, sebagai contoh: 1) sampel tidak memenuhi objektif kajian (ahli sosiologi memutuskan untuk belajar hanya pesara yang bekerja, tetapi menemu bual semua orang berturut-turut); 2) terdapat kejahilan tentang sifat penduduk umum (ahli sosiologi berpendapat bahawa 70% daripada semua pesara tidak bekerja, tetapi ternyata hanya 10% yang tidak bekerja); 3) hanya elemen "menang" penduduk umum dipilih (contohnya, hanya pesara kaya).

Perhatian! Tidak seperti ralat rawak, ralat sistematik tidak berkurangan dengan peningkatan saiz sampel.

Merumuskan semua kes apabila ralat sistematik berlaku, ahli metodologi menyusun daftarnya. Mereka percaya bahawa sumber bias yang tidak terkawal dalam pengedaran pemerhatian sampel mungkin faktor berikut:
♦ peraturan metodologi dan metodologi untuk menjalankan penyelidikan sosiologi;
♦ kaedah persampelan yang tidak mencukupi, kaedah pengumpulan data dan pengiraan telah dipilih;
♦ terdapat penggantian unit pemerhatian yang diperlukan oleh pihak lain, lebih mudah diakses;
♦ Liputan populasi pensampelan yang tidak lengkap (kekurangan soal selidik, soal selidik yang tidak lengkap, ketidakbolehcapaian unit pemerhatian) telah diperhatikan.

Ahli sosiologi jarang membuat kesilapan yang disengajakan. Lebih kerap daripada tidak, kesilapan timbul kerana ahli sosiologi tidak menyedari struktur populasi umum: pengagihan orang mengikut umur, profesion, pendapatan, dan sebagainya.

Ralat sistematik lebih mudah dicegah (berbanding ralat rawak), tetapi ia sangat sukar untuk dihapuskan. Adalah lebih baik untuk mengelakkan kesilapan sistematik dengan menjangka sumbernya dengan tepat - pada awal kajian.

Berikut ialah beberapa cara untuk mengelakkan ralat pensampelan:
♦ setiap unit populasi umum mesti mempunyai kebarangkalian yang sama untuk dimasukkan ke dalam sampel;
♦ adalah wajar untuk memilih daripada populasi homogen;
♦ perlu mengetahui ciri-ciri populasi umum;
♦ Ralat rawak dan sistematik perlu diambil kira semasa menyusun sampel.

Jika sampel (atau hanya sampel) dibuat dengan betul, maka ahli sosiologi memperoleh hasil yang boleh dipercayai yang mencirikan keseluruhan populasi. Jika ianya salah disusun, maka ralat yang berlaku pada peringkat persampelan digandakan pada setiap peringkat penyelidikan sosiologi seterusnya dan akhirnya mencapai nilai yang melebihi nilai kajian. Dikatakan bahawa penyelidikan sebegini lebih banyak mendatangkan kemudaratan daripada kebaikan.

Ralat sedemikian hanya boleh berlaku dengan populasi sampel. Untuk mengelakkan atau mengurangkan kebarangkalian ralat, cara paling mudah ialah meningkatkan saiz sampel (sebaik-baiknya sehingga saiz populasi: apabila kedua-dua populasi sepadan, ralat sampel akan hilang sama sekali). Dari segi ekonomi, kaedah ini adalah mustahil. Terdapat cara lain - untuk memperbaiki kaedah matematik persampelan. Mereka diterapkan dalam amalan. Ini adalah saluran pertama penembusan ke dalam sosiologi matematik. Saluran kedua - pemprosesan matematik data.

terutamanya isu penting kesilapan menjadi dalam penyelidikan pemasaran, di mana sampel tidak terlalu besar digunakan. Biasanya mereka terdiri daripada beberapa ratus, kurang kerap - seribu responden. Di sini, titik permulaan untuk mengira sampel ialah persoalan menentukan saiz populasi sampel. Saiz sampel bergantung kepada dua faktor: 1) kos mengumpul maklumat dan 2) berusaha untuk mencapai tahap tertentu kesahan statistik hasil yang diharapkan oleh pengkaji. Sudah tentu, walaupun orang yang tidak berpengalaman dalam statistik dan sosiologi secara intuitif memahami bahawa semakin besar saiz sampel, i.e. semakin hampir dengan saiz populasi umum secara keseluruhan, semakin dipercayai dan boleh dipercayai data yang diperolehi. Walau bagaimanapun, kami telah bercakap di atas tentang kemustahilan praktikal tinjauan lengkap dalam kes tersebut apabila ia dijalankan pada objek yang bilangannya melebihi puluhan, ratusan ribu dan juga berjuta-juta. Adalah jelas bahawa kos mengumpul maklumat (termasuk bayaran untuk replikasi alat, buruh soal selidik, pengurus lapangan dan operator input komputer) bergantung pada jumlah yang pelanggan sanggup peruntukkan, dan bergantung sedikit kepada penyelidik. Bagi faktor kedua, kami akan membincangkannya dengan lebih terperinci.

Jadi, semakin besar saiz sampel, semakin kecil kemungkinan ralat. Walaupun perlu diperhatikan bahawa jika anda ingin menggandakan ketepatan, anda perlu meningkatkan sampel bukan dua, tetapi empat kali ganda. Sebagai contoh, untuk melakukan dua kali lebih banyak anggaran yang tepat data yang diperolehi dengan menemu bual 400 orang, anda perlu menemuduga bukan 800, tetapi 1600 orang. Walau bagaimanapun, tidak mungkin penyelidikan pemasaran memerlukan ketepatan 100%. Jika pembuat bir perlu mengetahui berapa bahagian pengguna bir lebih suka jenamanya, dan bukan kepelbagaian pesaingnya - 60% atau 40%, maka perbezaan antara 57%, 60 atau 63% tidak akan menjejaskan rancangannya.

Ralat pensampelan mungkin bergantung bukan sahaja pada saiznya, tetapi juga pada tahap perbezaan antara unit individu dalam populasi umum yang sedang kita kaji. Sebagai contoh, jika kita ingin mengetahui berapa banyak bir yang digunakan, maka kita dapati bahawa dalam populasi kita, kadar penggunaan untuk pelbagai orang berbeza dengan ketara (populasi umum heterogen). Dalam kes lain, kita akan mengkaji penggunaan roti dan mendapatinya orang yang berbeza ia berbeza jauh kurang ketara (populasi homogen). Lebih besar perbezaan (atau heterogeniti) dalam populasi, lebih besar jumlah ralat pensampelan yang mungkin. Keteraturan ini hanya mengesahkan apa yang mudah akal. Oleh itu, seperti yang dinyatakan dengan betul oleh V. Yadov, “saiz (isipadu) sampel bergantung pada tahap kehomogenan atau kepelbagaian objek yang dikaji. Lebih homogen mereka, lebih kecil nombor boleh memberikan kesimpulan yang boleh dipercayai secara statistik.

Takrifan saiz sampel juga bergantung pada tahap selang keyakinan ralat statistik yang dibenarkan. Di sini kami maksudkan apa yang dipanggil ralat rawak, yang dikaitkan dengan sifat sebarang ralat statistik. DALAM DAN. Paniotto memberikan pengiraan berikut sampel perwakilan dengan andaian ralat 5%:
Ini bermakna jika anda, setelah menemu bual, katakan, 400 orang di bandar daerah, di mana populasi pelarut dewasa adalah 100 ribu orang, mendapati bahawa 33% daripada pembeli yang ditinjau lebih suka produk kilang pemprosesan daging tempatan, kemudian dengan 95 % kebarangkalian anda boleh mengatakan bahawa 33+5% (iaitu daripada 28 hingga 38%) daripada penduduk bandar ini adalah pembeli tetap produk ini.

Anda juga boleh menggunakan pengiraan Gallup untuk menganggarkan nisbah saiz sampel dan ralat pensampelan.

Ralat persampelan purata menunjukkan berapa banyak parameter populasi sampel menyimpang secara purata daripada parameter yang sepadan bagi populasi umum. Jika kita mengira purata ralat semua sampel yang mungkin sejenis tertentu isipadu yang diberikan ( n) diekstrak daripada populasi umum yang sama, maka kita mendapat ciri umum mereka - min ralat pensampelan ().

Dalam teori pemerhatian terpilih, formula untuk menentukan , yang mana individu untuk cara yang berbeza pemilihan (berulang dan tidak berulang), jenis sampel yang digunakan dan jenis penunjuk statistik anggaran.

Sebagai contoh, jika persampelan rawak berulang digunakan, maka ia ditakrifkan sebagai:

Apabila menganggar nilai min sesuatu ciri;

Jika tanda itu adalah alternatif, dan bahagiannya dianggarkan.

Dalam kes pemilihan rawak tidak berulang, formula dipinda (1 - n/N):

- untuk nilai min atribut;

- untuk perkongsian.

Kebarangkalian untuk mendapatkan nilai ralat sedemikian sentiasa bersamaan dengan 0.683. Dalam amalan, adalah lebih baik untuk mendapatkan data dengan kebarangkalian yang lebih tinggi, tetapi ini membawa kepada peningkatan dalam saiz ralat pensampelan.

Ralat persampelan marginal () adalah sama dengan t kali bilangan ralat pensampelan purata (dalam teori persampelan, adalah lazim untuk memanggil pekali t pekali keyakinan):

Jika ralat pensampelan digandakan (t = 2), maka kita mendapat kebarangkalian yang lebih tinggi bahawa ia tidak akan melebihi had tertentu (dalam kes kita, dua kali ganda ralat purata) - 0.954. Jika kita mengambil t \u003d 3, maka tahap keyakinan akan menjadi 0.997 - hampir pasti.

Tahap ralat pensampelan marginal bergantung kepada faktor berikut:

tahap variasi unit populasi umum;
saiz sampel;
skim pemilihan terpilih (pemilihan tidak berulang memberikan nilai ralat yang lebih kecil);
tahap keyakinan.

Jika saiz sampel lebih daripada 30, maka nilai t ditentukan daripada jadual taburan normal, jika kurang - daripada jadual taburan Pelajar.

Berikut ialah beberapa nilai pekali keyakinan daripada jadual taburan normal.

Selang keyakinan untuk nilai min atribut dan untuk perkadaran dalam populasi umum ditetapkan seperti berikut:

Jadi, takrifan sempadan purata am dan bahagian terdiri daripada langkah-langkah berikut:

Ralat pensampelan di pelbagai jenis pemilihan

Sebenarnya persampelan rawak dan mekanikal. Ralat purata persampelan rawak dan mekanikal sebenar didapati menggunakan formula yang dibentangkan dalam Jadual. 11.3.

Contoh 11.2. Untuk mengkaji tahap produktiviti modal, ia telah dijalankan sampel tinjauan 90 perusahaan daripada 225 melalui pensampelan semula rawak, yang menghasilkan data yang dibentangkan dalam jadual.

Dalam contoh ini, kami mempunyai 40% sampel (90: 225 = 0.4, atau 40%). Mari kita tentukan ralat marginalnya dan sempadan untuk nilai purata ciri dalam populasi umum dengan langkah-langkah algoritma:

Berdasarkan keputusan tinjauan sampel, kami mengira nilai min dan varians dalam populasi sampel:

Jadual 11.5.

Hasil pemerhatian			Anggaran nilai
pulangan atas aset, gosok., x i	bilangan perusahaan, f i	tengah selang, x i \xb4	x i \xb4 f i	x i \xb4 2 f i
Sehingga 1.4	13	1,3	16,9	21,97
1,4-1,6	15	1,5	22,5	33,75
1,6-1,8	17	1,7	28,9	49,13
1,8-2,0	15	1,9	28,5	54,15
2,0-2,2	16	2,1	33,6	70,56
2.2 dan ke atas	14	2,3	32,2	74,06
Jumlah	90	-	162,6	303,62

Sampel min

Varians sampel bagi sifat yang dikaji

Untuk data kami, kami mentakrifkan ralat pensampelan marginal, sebagai contoh, dengan kebarangkalian 0.954. Menurut jadual nilai kebarangkalian fungsi taburan normal (lihat ekstrak daripadanya diberikan dalam Lampiran 1), kita dapati nilai pekali keyakinan t sepadan dengan kebarangkalian 0.954. Dengan kebarangkalian 0.954, pekali t ialah 2.

Oleh itu, dalam 954 kes daripada 1000, purata pulangan ke atas aset tidak akan melebihi 1.88 rubel. dan tidak kurang daripada 1.74 rubel.

Di atas, skema pemilihan rawak berulang telah digunakan. Mari kita lihat sama ada keputusan tinjauan itu berubah jika kita mengandaikan bahawa pemilihan telah dijalankan mengikut skema pemilihan semula. Dalam kes ini, ralat purata dikira menggunakan formula

Kemudian, dengan kebarangkalian sama dengan 0.954, ralat pensampelan marginal ialah:

Had keyakinan untuk nilai min ciri sekiranya pemilihan rawak tidak berulang akan ada nilai berikut:

Membandingkan keputusan kedua-dua skema pemilihan, kita boleh membuat kesimpulan bahawa penggunaan persampelan rawak tidak berulang memberikan keputusan yang lebih tepat berbanding dengan penggunaan pemilihan berulang dengan tahap keyakinan yang sama. Pada masa yang sama, semakin besar saiz sampel, semakin ketara sempadan nilai min sempit apabila berpindah dari satu skema pemilihan ke yang lain.

Mengikut contoh, kami menentukan sempadan bahagian perusahaan dengan pulangan ke atas aset yang tidak melebihi nilai 2.0 rubel dalam populasi umum:

Mari kita kira kadar sampel.

Bilangan perusahaan dalam sampel dengan pulangan ke atas aset tidak melebihi 2.0 rubel ialah 60 unit. Kemudian

m = 60, n = 90, w = m/n = 60: 90 = 0.667;

kirakan varians bahagian dalam populasi sampel

ralat pensampelan purata semasa menggunakan skim semula pemilihan akan

Jika kita mengandaikan bahawa skema pemilihan tidak berulang telah digunakan, maka ralat pensampelan purata, dengan mengambil kira pembetulan untuk keterbatasan populasi, akan menjadi

kami menetapkan kebarangkalian keyakinan dan menentukan ralat pensampelan marginal.

Dengan nilai kebarangkalian P = 0.997, mengikut jadual taburan normal, kami memperoleh nilai untuk pekali keyakinan t = 3 (lihat ekstrak daripadanya diberikan dalam Lampiran 1):

Oleh itu, dengan kebarangkalian 0.997, boleh dikatakan bahawa dalam populasi umum bahagian perusahaan dengan pulangan ke atas aset tidak melebihi 2.0 rubel adalah tidak kurang daripada 54.7% dan tidak lebih daripada 78.7%.

Sampel biasa. Dengan sampel biasa, populasi umum objek dibahagikan kepada kumpulan k, kemudian

N 1 + N 2 + ... + N i + ... + N k = N.

Jumlah unit yang diekstrak daripada setiap kumpulan biasa bergantung pada kaedah pemilihan yang diterima pakai; mereka jumlah membentuk saiz sampel yang diperlukan

n 1 + n 2 + … + n i + … + n k = n.

Terdapat dua cara berikut untuk mengatur pemilihan dalam kumpulan tipikal: berkadar dengan volum kumpulan tipikal dan berkadar dengan tahap turun naik nilai atribut dalam unit pemerhatian dalam kumpulan. Pertimbangkan yang pertama, sebagai yang paling biasa digunakan.

Pemilihan berkadar dengan saiz kumpulan biasa mengandaikan bahawa dalam setiap kumpulan akan dipilih nombor seterusnya unit penduduk:

n = n i N i /N

di mana n i ialah bilangan unit yang boleh diekstrak untuk sampel daripada kumpulan tipikal ke-i;

n ialah jumlah saiz sampel;

N i - bilangan unit populasi umum yang membentuk kumpulan tipikal ke-i;

N ialah jumlah bilangan unit dalam populasi umum.

Pemilihan unit dalam kumpulan berlaku dalam bentuk persampelan rawak atau mekanikal.

Formula untuk menganggar ralat pensampelan min bagi min dan bahagian dibentangkan dalam Jadual. 11.6.

Di sini, ialah purata varians kumpulan kumpulan tipikal.

Contoh 11.3. Satu tinjauan sampel pelajar telah dijalankan di salah sebuah universiti Moscow untuk menentukan penunjuk purata kehadiran perpustakaan universiti oleh seorang pelajar setiap semester. Untuk ini, 5% sampel biasa tidak berulang telah digunakan, kumpulan tipikal yang sepadan dengan nombor kursus. Apabila memilih, berkadar dengan jumlah kumpulan biasa, data berikut diperoleh:

Jadual 11.7.

Nombor kursus	Jumlah pelajar, orang, N i	Diperiksa hasil pemerhatian terpilih, orang, n i	Purata bilangan lawatan perpustakaan bagi setiap pelajar setiap semester, x i	Varians sampel dalam kumpulan,
1	650	33	11	6
2	610	31	8	15
3	580	29	5	18
4	360	18	6	24
5	350	17	10	12
Jumlah	2 550	128	8	-

Bilangan pelajar yang akan diperiksa dalam setiap kursus dikira seperti berikut:

serupa untuk kumpulan lain:

Taburan nilai min sampel sentiasa ada undang-undang biasa pengedaran (atau mendekatinya) untuk n > 100, tanpa mengira sifat taburan populasi. Walau bagaimanapun, dalam kes sampel kecil, undang-undang pengedaran yang berbeza digunakan - Pengagihan pelajar. Dalam kes ini, pekali keyakinan ditemui mengikut jadual taburan-t Pelajar, bergantung kepada nilai kebarangkalian keyakinan P dan saiz sampel n. Lampiran 1 menyediakan serpihan jadual taburan-t Pelajar, yang dibentangkan sebagai pergantungan kebarangkalian keyakinan pada saiz sampel dan pekali keyakinan t.

Contoh 11.4. Katakan bahawa sampel tinjauan terhadap lapan pelajar akademi menunjukkan bahawa sebagai persediaan untuk kerja kawalan mengikut statistik, mereka menghabiskan bilangan jam berikut: 8.5; 8.0; 7.8; 9.0; 7.2; 6.2; 8.4; 6.6.

Contoh 11.5. Mari kita hitung berapa banyak daripada 507 perusahaan industri pejabat cukai perlu diperiksa untuk menentukan bahagian perusahaan dengan pelanggaran cukai dengan kebarangkalian 0.997. Menurut tinjauan yang sama sebelum ini, nilai sisihan piawai ialah 0.15; saiz ralat pensampelan dijangka tidak lebih tinggi daripada 0.05.

Apabila menggunakan pemilihan rawak berulang, semak

Dalam pemilihan rawak yang tidak berulang, adalah perlu untuk menyemak

Seperti yang anda lihat, penggunaan pensampelan tidak berulang membolehkan anda menjalankan tinjauan dengan banyak lebih sedikit objek.

Contoh 11.6. Satu tinjauan dirancang upah di perusahaan industri dengan kaedah pemilihan rawak tidak berulang. Berapakah saiz sampel sekiranya pada masa tinjauan bilangan pekerja dalam industri ialah 100,000 orang? Ralat pensampelan marginal tidak boleh melebihi 100 rubel. dengan kebarangkalian 0.954. Daripada tinjauan terdahulu mengenai gaji dalam industri, diketahui bahawa purata sisihan piawai ialah 500 rubel.

Oleh itu, untuk menyelesaikan masalah, perlu memasukkan sekurang-kurangnya 100 orang dalam sampel.

Ralat pensampelan min dan marginal

Kelebihan utama pemerhatian terpilih antara lain ialah kebolehan mengira ralat rawak sampel.

Kesilapan pensampelan adalah sama ada sistematik atau rawak.

Bersistematik- sekiranya prinsip asas persampelan - rawak - dilanggar. rawak- biasanya timbul disebabkan oleh fakta bahawa struktur sampel sentiasa berbeza daripada struktur populasi umum, tidak kira betapa betul pemilihan dibuat, iaitu, walaupun prinsip pemilihan rawak unit populasi, masih terdapat percanggahan antara ciri-ciri sampel dan populasi umum. Kajian dan pengukuran ralat rawak keterwakilan adalah tugas utama kaedah persampelan.

Sebagai peraturan, ralat min dan ralat perkadaran paling kerap dikira. Konvensyen berikut digunakan dalam pengiraan:

Purata dikira dalam populasi umum;

Purata yang dikira dalam populasi sampel;

R- bahagian kumpulan ini dalam populasi umum;

w- bahagian kumpulan ini dalam populasi sampel.

menggunakan konvensyen, ralat pensampelan untuk min dan untuk perkadaran boleh ditulis seperti berikut:

Purata sampel dan bahagian sampel adalah pembolehubah rawak yang boleh mengambil sebarang nilai bergantung pada unit populasi yang dimasukkan ke dalam sampel. Oleh itu, ralat pensampelan juga merupakan pembolehubah rawak dan boleh mengambil nilai yang berbeza. Oleh itu, purata ditentukan kesilapan yang mungkin μ .

Tidak seperti ralat sistematik, ralat rawak boleh ditentukan terlebih dahulu, sebelum pensampelan, mengikut had teorem dipertimbangkan dalam statistik matematik.

Ralat purata ditentukan dengan kebarangkalian 0.683. Dalam kes kebarangkalian yang berbeza, seseorang bercakap tentang ralat marginal.

Ralat pensampelan min bagi min dan bagi pecahan ditakrifkan seperti berikut:

Dalam formula ini, varians ciri adalah ciri populasi umum, yang tidak diketahui semasa pemerhatian terpilih. Dalam amalan, mereka digantikan dengan ciri-ciri serupa populasi sampel berdasarkan undang-undang nombor besar, mengikut mana populasi sampel volum besar menghasilkan semula ciri-ciri populasi umum dengan tepat.

Formula untuk menentukan ralat purata bagi cara berbeza pemilihan:

Kaedah pemilihan	Diulang	tidak berulang
kesalahan bermakna	ralat kongsi	kesalahan bermakna	ralat kongsi
Rawak sendiri dan mekanikal
tipikal
bersiri

μ - ralat purata;

∆ - ralat marginal;

P - saiz sampel;

N- saiz populasi umum;

Jumlah varians;

w- bahagian kategori ini dalam kekuatan total sampel:

Purata daripada penyebaran intrakumpulan;

Δ 2 - penyebaran antara kumpulan;

r- bilangan siri dalam sampel;

R ialah jumlah bilangan episod.

ralat marginal untuk semua kaedah pemilihan adalah berkaitan dengan ralat pensampelan purata seperti berikut:

di mana t- pekali keyakinan, berkaitan secara fungsi dengan kebarangkalian nilai ralat marginal disediakan. Bergantung kepada kebarangkalian, pekali keyakinan t mengambil nilai berikut:

t	P
	0,683
1,5	0,866
2,0	0,954
2,5	0,988
3,0	0,997
4,0	0,9999

Sebagai contoh, kebarangkalian ralat ialah 0.683. Ini bermakna min am berbeza dengan min sampel dari segi nilai mutlak tidak lebih daripada jumlahnya μ dengan kebarangkalian 0.683, maka jika ialah min sampel, ialah min am, maka dengan kebarangkalian 0.683.

Jika kami ingin memberikan kebarangkalian inferens yang lebih tinggi, kami dengan itu meningkatkan had ralat rawak.

Oleh itu, nilai ralat marginal bergantung kepada kuantiti berikut:

Turun naik tanda (sambungan langsung), yang dicirikan oleh magnitud penyebaran;

Saiz sampel ( Maklum balas);

Kebarangkalian keyakinan(sambungan langsung);

kaedah pemilihan.

Contoh pengiraan ralat min dan ralat bahagian.

Untuk menentukan purata bilangan anak dalam sebuah keluarga, 100 keluarga telah dipilih daripada 1000 keluarga secara rawak persampelan tidak berulang. Keputusan ditunjukkan dalam jadual:

takrifkan:.

- dengan kebarangkalian 0.997, ralat persampelan marginal dan sempadan di mana purata bilangan anak dalam keluarga berada;

- dengan kebarangkalian 0.954, sempadan di mana bahagian keluarga dengan dua anak terletak.

1. Tentukan ralat marginal bagi min dengan kebarangkalian 0.977. Untuk memudahkan pengiraan, kami menggunakan kaedah momen:

hlm = 0,997 t= 3

ralat purata min, 0.116 - ralat marginal

2,12 – 0,116 ≤ ≤ 2,12+ 0,116

2,004 ≤ ≤ 2,236

Akibatnya, dengan kebarangkalian 0.997, purata bilangan kanak-kanak dalam keluarga dalam populasi umum, iaitu, antara 1000 keluarga, adalah dalam julat 2.004 - 2.236.