Biografi Spesifikasi Analisis

Ralat persampelan marginal adalah sama dengan. Pemerhatian terpilih: konsep, jenis, ralat pensampelan, penilaian keputusan

Percanggahan antara nilai mana-mana penunjuk yang ditemui melalui pemerhatian statistik dan saiz sebenar dipanggil kesilapan pemerhatian . Bergantung kepada punca kejadian, kesilapan pendaftaran dan kesilapan perwakilan dibezakan.

Kesilapan pendaftaran timbul akibat daripada pencarian fakta yang salah atau rakaman yang salah dalam proses pemerhatian atau temu bual. Mereka rawak atau sistematik. Ralat pendaftaran rawak boleh dibuat oleh kedua-dua orang yang ditemuduga dalam jawapan dan pendaftar mereka. Kesilapan sistematik boleh disengajakan dan tidak disengajakan. Disengaja - penyelewengan secara sedar, tendensius terhadap keadaan sebenar. Tidak disengajakan disebabkan oleh pelbagai sebab rawak (kecuaian, ketidakpedulian).

Kesilapan perwakilan (kewakilan) timbul akibat tinjauan yang tidak lengkap dan jika populasi tinjauan tidak menghasilkan semula populasi umum sepenuhnya. Mereka boleh rawak atau sistematik. Ralat perwakilan rawak ialah sisihan yang berlaku semasa pemerhatian tidak berterusan disebabkan fakta bahawa set unit pemerhatian terpilih (sampel) tidak menghasilkan semula keseluruhan populasi secara keseluruhan. Bias keterwakilan ialah penyelewengan yang terhasil daripada pelanggaran prinsip pemilihan unit secara rawak. Kesilapan keterwakilan secara organik wujud dalam pemerhatian sampel dan timbul disebabkan fakta bahawa populasi sampel tidak menghasilkan semula populasi umum sepenuhnya. Adalah mustahil untuk mengelakkan ralat perwakilan, bagaimanapun, menggunakan kaedah teori kebarangkalian berdasarkan penggunaan teorem had undang-undang nombor besar, ralat ini boleh dikurangkan kepada nilai minimum, yang sempadannya ditetapkan dengan ketepatan yang cukup tinggi.

Ralat pensampelan - perbezaan antara ciri-ciri sampel dan populasi umum. Untuk nilai purata, ralat akan ditentukan oleh formula

di mana

Nilai
dipanggil ralat marginal sampel.

Ralat persampelan marginal ialah nilai rawak. Teorem had hukum nombor besar ditumpukan kepada kajian pola ralat persampelan rawak. Corak ini paling banyak didedahkan dalam teorem P. L. Chebyshev dan A. M. Lyapunov.

Teorem P. L. Chebyshev berhubung dengan kaedah yang sedang dipertimbangkan, ia boleh dirumuskan seperti berikut: dengan bilangan pemerhatian bebas yang cukup besar, adalah mungkin untuk menegaskan dengan kebarangkalian yang hampir dengan perpaduan (iaitu, hampir dengan pasti) bahawa sisihan sampel bermakna daripada yang umum akan menjadi kecil sewenang-wenangnya. Teorem P. L. Chebyshev membuktikan bahawa nilai ralat tidak boleh melebihi . Sebaliknya, nilai , menyatakan sisihan piawai bagi min sampel daripada min am, bergantung pada turun naik sifat dalam populasi umum dan bilangan unit yang dipilih n. Pergantungan ini dinyatakan oleh formula

, (7.2)

di mana juga bergantung kepada kaedah persampelan.

nilai =dipanggil ralat pensampelan purata. Dalam ungkapan ini ialah varians umum, n ialah saiz sampel.

Mari kita pertimbangkan bagaimana bilangan unit yang dipilih mempengaruhi nilai ralat purata n. Secara logiknya mudah untuk mengesahkan bahawa apabila sejumlah besar unit dipilih, percanggahan antara min akan menjadi lebih kecil, iaitu, terdapat hubungan songsang antara ralat pensampelan purata dan bilangan unit yang dipilih. Dalam kes ini, bukan sahaja pergantungan matematik songsang terbentuk di sini, tetapi pergantungan sedemikian, yang menunjukkan bahawa kuasa dua percanggahan antara min adalah berkadar songsang dengan bilangan unit yang dipilih.

Peningkatan dalam kebolehubahan sesuatu tanda memerlukan peningkatan dalam sisihan piawai, dan, akibatnya, ralat. Jika kita mengandaikan bahawa semua unit akan mempunyai nilai ciri yang sama, maka sisihan piawai akan menjadi sifar dan ralat pensampelan juga akan hilang. Kemudian tidak perlu memohon pensampelan. Walau bagaimanapun, perlu diingat bahawa magnitud kebolehubahan sifat dalam populasi umum tidak diketahui, kerana saiz unit di dalamnya tidak diketahui. Adalah mungkin untuk mengira hanya kebolehubahan sifat dalam populasi sampel. Nisbah antara varians populasi umum dan sampel dinyatakan dengan formula

Sejak nilai untuk cukup besar n hampir dengan perpaduan, kita boleh mengandaikan bahawa varians sampel adalah sama dengan varians am, i.e.

Oleh itu, ralat pensampelan purata menunjukkan apa penyelewengan yang mungkin bagi ciri-ciri populasi sampel daripada ciri-ciri sepadan populasi umum. Walau bagaimanapun, magnitud ralat ini boleh dinilai dengan kebarangkalian tertentu. Pengganda menunjukkan nilai kebarangkalian

Teorem A. M. Lyapunov . A. M. Lyapunov membuktikan bahawa taburan min sampel (oleh itu, sisihan mereka daripada min am) dengan bilangan pemerhatian bebas yang cukup besar adalah lebih kurang normal, dengan syarat populasi umum mempunyai min terhingga dan varians terhad.

secara matematik Teorem Lyapunov boleh ditulis seperti ini:

(7.3)

di mana
, (7.4)

di mana
ialah pemalar matematik;

ralat pensampelan marginal , yang memungkinkan untuk mengetahui dalam had nilai purata am.

Nilai kamiran ini untuk nilai yang berbeza bagi pekali keyakinan t dikira dan diberikan dalam jadual matematik khas. Khususnya, apabila:

Kerana ia t menunjukkan kemungkinan percanggahan
, iaitu, pada kebarangkalian berapa banyak min am akan berbeza daripada min sampel, maka ini boleh dibaca seperti berikut: dengan kebarangkalian 0.683 boleh dikatakan bahawa perbezaan antara sampel dan min am tidak melebihi satu. nilai ralat pensampelan min. Dalam erti kata lain, dalam 68.3% kes, ralat perwakilan tidak akan melampaui
Dengan kebarangkalian 0.954, boleh dikatakan bahawa ralat keterwakilan tidak melebihi
(iaitu dalam 95% kes). Dengan kebarangkalian 0.997, iaitu, agak hampir dengan satu, seseorang boleh menjangkakan bahawa perbezaan antara sampel dan min am tidak akan melebihi tiga kali purata ralat sampel, dsb.

Secara logiknya, sambungan di sini kelihatan agak jelas: lebih besar had di mana ralat yang mungkin dibenarkan, lebih besar kemungkinan ia menilai magnitudnya.

Mengetahui nilai min sampel bagi ciri tersebut
dan ralat pensampelan marginal
, adalah mungkin untuk menentukan sempadan (had) yang mengandungi purata am

1 . Persampelan rawak sendiri - kaedah ini tertumpu kepada unit persampelan daripada populasi umum tanpa sebarang pembahagian kepada bahagian atau kumpulan. Pada masa yang sama, untuk mematuhi prinsip asas persampelan - peluang yang sama untuk semua unit populasi umum dipilih - skema pengekstrakan unit secara rawak dengan menarik lot (loteri) atau jadual nombor rawak digunakan. . Pemilihan unit berulang dan tidak berulang adalah mungkin

Ralat min bagi sampel rawak yang betul ialah sisihan piawai bagi nilai yang mungkin bagi min sampel daripada min am. Purata ralat pensampelan bagi kaedah pemilihan rawak dibentangkan dalam Jadual. 7.2.

Jadual 7.2

Ralat pensampelan purata μ

Apabila memilih

berulang

tidak berulang

Untuk sederhana

Penamaan berikut digunakan dalam jadual:

ialah varians sampel;

- saiz sampel;

- saiz populasi umum;

ialah nisbah sampel unit yang mempunyai sifat yang dikaji;

- bilangan unit yang mempunyai ciri yang dikaji;

- saiz sampel.

Untuk meningkatkan ketepatan dan bukannya pengganda ambil pengganda
, tetapi dengan jumlah yang banyak N perbezaan antara ungkapan ini tidak mempunyai kepentingan praktikal.

Ralat marginal persampelan rawak yang betul
dikira dengan formula

, (7.6)

di mana t – pekali keyakinan bergantung pada nilai kebarangkalian.

Contoh. Apabila memeriksa seratus sampel produk yang dipilih secara rawak daripada satu kelompok, 20 ternyata tidak standard. Dengan kebarangkalian 0.954, tentukan had di mana bahagian produk bukan piawai dalam lot itu.

Keputusan. Kira jumlah bahagian ( R):
.

Bahagian produk bukan standard:
.

Ralat marginal pecahan sampel dengan kebarangkalian 0.954 dikira dengan formula (7.6) menggunakan formula dalam Jadual. 7.2 untuk perkongsian:

Dengan kebarangkalian 0.954, boleh dikatakan bahawa bahagian produk bukan standard dalam kumpulan barangan adalah dalam lingkungan 12% ≤ P≤ 28 %.

Dalam amalan mereka bentuk pemerhatian sampel, terdapat keperluan untuk menentukan saiz sampel, yang diperlukan untuk memastikan ketepatan tertentu dalam pengiraan purata am. Ralat persampelan marginal dan kebarangkaliannya diberikan dalam kes ini. Daripada formula
dan formula untuk ralat pensampelan min, saiz sampel yang diperlukan ditetapkan. Formula untuk menentukan saiz sampel ( n) bergantung kepada kaedah pemilihan. Pengiraan saiz sampel untuk sampel rawak sebenar diberikan dalam Jadual. 7.3.

Jadual 7.3

Pemilihan yang Dimaksudkan

untuk pertengahan

Diulang

tidak berulang

2 . Persampelan mekanikal - dengan kaedah ini, mereka meneruskan daripada mengambil kira beberapa ciri lokasi objek dalam populasi umum, pesanan mereka (mengikut senarai, nombor, abjad). Persampelan mekanikal dijalankan dengan memilih objek individu populasi umum pada selang waktu tertentu (setiap ke-10 atau ke-20). Selang dikira berhubung dengan , di mana n- saiz sampel, N- saiz populasi umum. Jadi, jika daripada populasi 500,000 unit ia sepatutnya mendapat 2% sampel, iaitu, pilih 10,000 unit, maka perkadaran pemilihan akan menjadi
Pemilihan unit dijalankan mengikut perkadaran yang ditetapkan pada selang masa yang tetap. Jika lokasi objek dalam populasi umum adalah rawak, maka persampelan mekanikal adalah serupa dalam kandungan dengan pemilihan rawak. Dalam pemilihan mekanikal, hanya pensampelan tidak berulang digunakan.

Ralat purata dan saiz sampel dalam pemilihan mekanikal dikira mengikut formula persampelan rawak yang betul (lihat Jadual 7.2 dan 7.3).

3 . Sampel biasa , di mana populasi umum dibahagikan mengikut beberapa ciri penting kepada kumpulan biasa; pemilihan unit dibuat daripada kumpulan biasa. Dengan kaedah pemilihan ini, populasi umum dibahagikan kepada kumpulan yang homogen dalam beberapa aspek, yang mempunyai ciri-ciri mereka sendiri, dan persoalannya dikurangkan untuk menentukan saiz sampel dari setiap kumpulan. Mungkin pensampelan seragam - dengan kaedah ini, bilangan unit yang sama dipilih daripada setiap kumpulan biasa
Pendekatan sedemikian dibenarkan hanya jika saiz kumpulan tipikal awal adalah sama. Dalam pemilihan biasa, tidak seimbang dengan saiz kumpulan, jumlah bilangan unit yang dipilih dibahagikan dengan bilangan kumpulan biasa, nilai yang terhasil memberikan bilangan pemilihan daripada setiap kumpulan biasa.

Bentuk pemilihan yang lebih maju ialah persampelan berkadar . Proportional ialah skema sedemikian untuk pembentukan populasi sampel, apabila bilangan sampel yang diambil daripada setiap kumpulan tipikal dalam populasi umum adalah berkadar dengan nombor, serakan (atau gabungan dan nombor, dan serakan). Kami menentukan saiz sampel 100 unit secara bersyarat dan memilih unit daripada kumpulan:

berkadaran dengan saiz populasi umum mereka (Jadual 7.4). Jadual menunjukkan:

N i ialah saiz kumpulan biasa;

d j- berkongsi ( N saya / N);

N- saiz populasi umum;

n i– saiz sampel daripada kumpulan biasa dikira:

, (7.7)

n ialah saiz sampel daripada populasi umum.

Jadual 7.4

N i

d j

n i

berkadar dengan sisihan piawai (Jadual 7.5).

di sini  i– sisihan piawai kumpulan biasa;

n i – saiz sampel daripada kumpulan biasa dikira dengan formula

(7.8)

Jadual 7.5

N i

n i

digabungkan (Jadual 7.6).

Saiz sampel dikira dengan formula

. (7.9)

Jadual 7.6

i N i

Apabila menjalankan sampel biasa, pemilihan langsung daripada setiap kumpulan dijalankan secara pemilihan rawak.

Ralat pensampelan purata dikira menggunakan formula dalam Jadual. 7.7 bergantung kepada kaedah pemilihan daripada kumpulan biasa.

Jadual 7.7

Kaedah pemilihan

Diulang

tidak berulang

untuk pertengahan

untuk perkongsian

untuk pertengahan

untuk perkongsian

Tidak seimbang dengan saiz kumpulan

Berkadar dengan saiz kumpulan

Turun naik berkadar dalam kumpulan (adalah yang paling berfaedah)

di sini
ialah purata varians intrakumpulan kumpulan tipikal;

ialah perkadaran unit yang mempunyai sifat yang dikaji;

ialah purata varians antara kumpulan untuk bahagian itu;

ialah sisihan piawai dalam sampel bagi i-kumpulan tipikal ke-;

ialah saiz sampel daripada kumpulan biasa;

ialah jumlah saiz sampel;

ialah isipadu kumpulan biasa;

- jumlah penduduk umum.

Saiz sampel daripada setiap kumpulan biasa hendaklah berkadar dengan sisihan piawai dalam kumpulan itu.
.Pengiraan nombor
dihasilkan mengikut formula yang diberikan dalam Jadual. 7.8.

Jadual 7.8

4 . persampelan bersiri - berguna dalam kes di mana unit populasi dikumpulkan ke dalam kumpulan atau siri kecil. Dengan sampel bersiri, populasi dibahagikan kepada kumpulan yang sama saiz - siri. Siri dipilih dalam set sampel. Intipati persampelan bersiri terletak pada pemilihan siri rawak atau mekanikal, di mana tinjauan berterusan unit dijalankan. Ralat purata sampel bersiri dengan siri yang sama bergantung pada nilai varians antara kumpulan sahaja. Ralat purata diringkaskan dalam Jadual. 7.9.

Jadual 7.9

Kaedah pemilihan siri

untuk pertengahan

untuk perkongsian

Diulang

tidak berulang

Di sini R ialah bilangan siri dalam populasi umum;

r– bilangan siri yang dipilih;

– perantaraan (antara kumpulan) varians cara;

– varians antara (antara kumpulan) bahagian.

Dengan pemilihan bersiri, bilangan siri terpilih yang diperlukan ditentukan dengan cara yang sama seperti kaedah pemilihan rawak yang betul.

Pengiraan bilangan sampel bersiri dibuat mengikut formula yang diberikan dalam Jadual. 7.10.

Jadual 7.10

Contoh. 100 pekerja bekerja di kedai mesin kilang itu dalam sepuluh pasukan. Untuk mengkaji kelayakan pekerja, sampel tidak berulang bersiri 20% telah dibuat, termasuk dua pasukan. Taburan pekerja yang dikaji mengikut kategori berikut telah diperolehi:

Pangkat pekerja dalam briged 1

Pangkat pekerja dalam briged 2

Pangkat pekerja dalam briged 1

Pangkat pekerja dalam briged 2

Adalah perlu untuk menentukan dengan kebarangkalian 0.997 had di mana kategori purata pekerja kedai mesin berada.

Penyelesaian. Kami mentakrifkan min sampel untuk pasukan dan min keseluruhan sebagai purata wajaran kumpulan bermakna:

Mari kita tentukan penyebaran interseri dengan formula (5.25):

Kami mengira ralat pensampelan purata menggunakan formula dalam Jadual. 7.9:

Mari kita hitung ralat pensampelan marginal dengan kebarangkalian 0.997:

Dengan kebarangkalian 0.997, boleh dikatakan bahawa pangkat purata pekerja di kedai mesin adalah dalam

Ralat persampelan purata menunjukkan berapa banyak parameter populasi sampel menyimpang secara purata daripada parameter yang sepadan bagi populasi umum. Jika kita mengira purata ralat semua sampel yang mungkin bagi jenis tertentu volum tertentu ( n) diekstrak daripada populasi umum yang sama, maka kita mendapat ciri umum mereka - min ralat pensampelan ().

Dalam teori pemerhatian terpilih, formula telah diperolehi untuk menentukan , iaitu individu untuk kaedah pemilihan yang berbeza (berulang dan tidak berulang), jenis sampel yang digunakan dan jenis penunjuk statistik anggaran.

Sebagai contoh, jika persampelan rawak berulang digunakan, maka ia ditakrifkan sebagai:

Apabila menganggar nilai min sesuatu ciri;

Jika tanda itu adalah alternatif, dan bahagiannya dianggarkan.

Dalam kes pemilihan rawak tidak berulang, formula dipinda (1 - n/N):

- untuk nilai min atribut;

- untuk perkongsian.

Kebarangkalian untuk mendapatkan nilai ralat sedemikian sentiasa bersamaan dengan 0.683. Dalam amalan, adalah lebih baik untuk mendapatkan data dengan kebarangkalian yang lebih tinggi, tetapi ini membawa kepada peningkatan dalam saiz ralat pensampelan.

Ralat persampelan marginal () adalah sama dengan t kali bilangan ralat pensampelan purata (dalam teori persampelan, adalah lazim untuk memanggil pekali t pekali keyakinan):

Jika ralat pensampelan digandakan (t = 2), maka kita mendapat kebarangkalian yang lebih tinggi bahawa ia tidak akan melebihi had tertentu (dalam kes kita, dua kali ganda ralat purata) - 0.954. Jika kita mengambil t \u003d 3, maka tahap keyakinan akan menjadi 0.997 - hampir pasti.

Tahap ralat pensampelan marginal bergantung kepada faktor berikut:

  • tahap variasi unit populasi umum;
  • saiz sampel;
  • skim pemilihan terpilih (pemilihan tidak berulang memberikan nilai ralat yang lebih kecil);
  • tahap keyakinan.

Jika saiz sampel lebih daripada 30, maka nilai t ditentukan daripada jadual taburan normal, jika kurang - daripada jadual taburan Pelajar.

Berikut ialah beberapa nilai pekali keyakinan daripada jadual taburan normal.

Selang keyakinan untuk nilai min atribut dan untuk perkadaran dalam populasi umum ditetapkan seperti berikut:

Jadi, takrifan sempadan purata am dan bahagian terdiri daripada langkah-langkah berikut:

Ralat pensampelan untuk pelbagai jenis pemilihan

  1. Sebenarnya persampelan rawak dan mekanikal. Ralat purata persampelan rawak dan mekanikal sebenar didapati menggunakan formula yang dibentangkan dalam Jadual. 11.3.

Contoh 11.2. Untuk mengkaji tahap pulangan ke atas aset, tinjauan sampel 90 perusahaan daripada 225 telah dijalankan menggunakan kaedah pensampelan semula rawak, hasilnya data yang dibentangkan dalam jadual diperolehi.

Dalam contoh ini, kami mempunyai 40% sampel (90: 225 = 0.4, atau 40%). Mari kita tentukan ralat marginalnya dan sempadan untuk nilai purata ciri dalam populasi umum dengan langkah-langkah algoritma:

  1. Berdasarkan keputusan tinjauan sampel, kami mengira nilai min dan varians dalam populasi sampel:
Jadual 11.5.
Hasil pemerhatian Anggaran nilai
pulangan atas aset, gosok., x i bilangan perusahaan, f i tengah selang, x i \xb4 x i \xb4 f i x i \xb4 2 f i
Sehingga 1.4 13 1,3 16,9 21,97
1,4-1,6 15 1,5 22,5 33,75
1,6-1,8 17 1,7 28,9 49,13
1,8-2,0 15 1,9 28,5 54,15
2,0-2,2 16 2,1 33,6 70,56
2.2 dan ke atas 14 2,3 32,2 74,06
Jumlah 90 - 162,6 303,62

Sampel min

Varians sampel bagi sifat yang dikaji

Untuk data kami, kami mentakrifkan ralat pensampelan marginal, sebagai contoh, dengan kebarangkalian 0.954. Menurut jadual nilai kebarangkalian fungsi taburan normal (lihat ekstrak daripadanya diberikan dalam Lampiran 1), kita dapati nilai pekali keyakinan t sepadan dengan kebarangkalian 0.954. Dengan kebarangkalian 0.954, pekali t ialah 2.

Oleh itu, dalam 954 kes daripada 1000, purata pulangan ke atas aset tidak akan melebihi 1.88 rubel. dan tidak kurang daripada 1.74 rubel.

Di atas, skema pemilihan rawak berulang telah digunakan. Mari kita lihat sama ada keputusan tinjauan itu berubah jika kita mengandaikan bahawa pemilihan telah dijalankan mengikut skim pemilihan tidak berulang. Dalam kes ini, ralat purata dikira menggunakan formula

Kemudian, dengan kebarangkalian sama dengan 0.954, ralat pensampelan marginal ialah:

Had keyakinan untuk nilai min ciri sekiranya pemilihan rawak tidak berulang akan mempunyai nilai berikut:

Membandingkan keputusan kedua-dua skema pemilihan, kita boleh membuat kesimpulan bahawa penggunaan persampelan rawak tidak berulang memberikan keputusan yang lebih tepat berbanding dengan penggunaan pemilihan berulang dengan tahap keyakinan yang sama. Pada masa yang sama, semakin besar saiz sampel, semakin ketara sempadan nilai min sempit apabila berpindah dari satu skema pemilihan ke yang lain.

Mengikut contoh, kami menentukan sempadan bahagian perusahaan dengan pulangan ke atas aset yang tidak melebihi nilai 2.0 rubel dalam populasi umum:

  1. Mari kita kira kadar sampel.

Bilangan perusahaan dalam sampel dengan pulangan ke atas aset tidak melebihi 2.0 rubel ialah 60 unit. Kemudian

m = 60, n = 90, w = m/n = 60: 90 = 0.667;

  1. kirakan varians bahagian dalam populasi sampel
  1. ralat pensampelan purata apabila menggunakan skema pemilihan berulang akan

Jika kita mengandaikan bahawa skema pemilihan tidak berulang telah digunakan, maka ralat pensampelan purata, dengan mengambil kira pembetulan untuk keterbatasan populasi, akan menjadi

  1. kami menetapkan kebarangkalian keyakinan dan menentukan ralat pensampelan marginal.

Dengan nilai kebarangkalian P = 0.997, mengikut jadual taburan normal, kami memperoleh nilai untuk pekali keyakinan t = 3 (lihat ekstrak daripadanya diberikan dalam Lampiran 1):

Oleh itu, dengan kebarangkalian 0.997, boleh dikatakan bahawa dalam populasi umum bahagian perusahaan dengan pulangan ke atas aset tidak melebihi 2.0 rubel adalah tidak kurang daripada 54.7% dan tidak lebih daripada 78.7%.

  1. Sampel biasa. Dengan sampel biasa, populasi umum objek dibahagikan kepada kumpulan k, kemudian

N 1 + N 2 + ... + N i + ... + N k = N.

Jumlah unit yang diekstrak daripada setiap kumpulan biasa bergantung pada kaedah pemilihan yang diterima pakai; jumlah bilangan mereka membentuk saiz sampel yang diperlukan

n 1 + n 2 + … + n i + … + n k = n.

Terdapat dua cara berikut untuk mengatur pemilihan dalam kumpulan tipikal: berkadar dengan volum kumpulan tipikal dan berkadar dengan tahap turun naik nilai atribut dalam unit pemerhatian dalam kumpulan. Pertimbangkan yang pertama, sebagai yang paling biasa digunakan.

Pemilihan, berkadar dengan saiz kumpulan biasa, mengandaikan bahawa bilangan unit populasi berikut akan dipilih dalam setiap kumpulan:

n = n i N i /N

di mana n i ialah bilangan unit yang boleh diekstrak untuk sampel daripada kumpulan tipikal ke-i;

n ialah jumlah saiz sampel;

N i - bilangan unit populasi umum yang membentuk kumpulan tipikal ke-i;

N ialah jumlah bilangan unit dalam populasi umum.

Pemilihan unit dalam kumpulan berlaku dalam bentuk persampelan rawak atau mekanikal.

Formula untuk menganggar ralat pensampelan min bagi min dan bahagian dibentangkan dalam Jadual. 11.6.

Di sini, ialah purata varians kumpulan kumpulan tipikal.

Contoh 11.3. Satu tinjauan sampel pelajar telah dijalankan di salah sebuah universiti Moscow untuk menentukan penunjuk purata kehadiran perpustakaan universiti oleh seorang pelajar setiap semester. Untuk ini, 5% sampel biasa tidak berulang telah digunakan, kumpulan tipikal yang sepadan dengan nombor kursus. Apabila memilih, berkadar dengan jumlah kumpulan biasa, data berikut diperoleh:

Jadual 11.7.
Nombor kursus Jumlah pelajar, orang, N i Diperiksa hasil pemerhatian terpilih, orang, n i Purata bilangan lawatan perpustakaan bagi setiap pelajar setiap semester, x i Varians sampel dalam kumpulan,
1 650 33 11 6
2 610 31 8 15
3 580 29 5 18
4 360 18 6 24
5 350 17 10 12
Jumlah 2 550 128 8 -

Bilangan pelajar yang akan diperiksa dalam setiap kursus dikira seperti berikut:

serupa untuk kumpulan lain:

n 2 \u003d 31 (orang);

n 3 \u003d 29 (orang);

Taburan nilai sampel bermakna sentiasa mempunyai hukum taburan normal (atau mendekatinya) untuk n > 100, tanpa mengira sifat taburan populasi umum. Walau bagaimanapun, dalam kes sampel kecil, undang-undang pengedaran yang berbeza digunakan - Pengagihan pelajar. Dalam kes ini, pekali keyakinan ditemui mengikut jadual taburan-t Pelajar, bergantung kepada nilai kebarangkalian keyakinan P dan saiz sampel n. Lampiran 1 menyediakan serpihan jadual taburan-t Pelajar, yang dibentangkan sebagai pergantungan kebarangkalian keyakinan pada saiz sampel dan pekali keyakinan t.

Contoh 11.4. Katakan bahawa sampel tinjauan terhadap lapan pelajar akademi menunjukkan bahawa mereka menghabiskan bilangan jam berikut untuk persediaan untuk ujian dalam statistik: 8.5; 8.0; 7.8; 9.0; 7.2; 6.2; 8.4; 6.6.

Mari kita anggarkan sampel purata masa yang dibelanjakan dan bina selang keyakinan untuk nilai purata atribut dalam populasi umum, mengambil kebarangkalian keyakinan bersamaan dengan 0.95.

Iaitu, dengan kebarangkalian 0.95, boleh dikatakan bahawa masa pelajar yang digunakan untuk membuat persediaan untuk ujian adalah dalam lingkungan 6.9 hingga 8.5 jam.

11.2.2. Menentukan saiz sampel

Sebelum persampelan langsung, soalan sentiasa diputuskan berapa unit populasi yang dikaji harus dipilih untuk tinjauan. Formula untuk menentukan saiz sampel diperoleh daripada formula untuk ralat pensampelan marginal mengikut andaian berikut (Jadual 11.7):

  1. jenis sampel yang dimaksudkan;
  2. kaedah pemilihan (berulang atau tidak berulang);
  3. pilihan parameter anggaran (nilai purata ciri atau bahagian).

Di samping itu, adalah perlu untuk menentukan terlebih dahulu nilai kebarangkalian keyakinan yang sesuai dengan pengguna maklumat, dan saiz ralat pensampelan marginal yang dibenarkan.

Nota: apabila menggunakan formula yang diberikan dalam jadual, adalah disyorkan bahawa saiz sampel yang terhasil dibundarkan ke atas untuk memberikan sedikit jidar ketepatan.

Contoh 11.5. Mari kita hitung berapa banyak daripada 507 perusahaan perindustrian yang perlu disemak oleh inspektorat cukai untuk menentukan bahagian perusahaan dengan pelanggaran cukai dengan kebarangkalian 0.997. Menurut tinjauan yang sama sebelum ini, nilai sisihan piawai ialah 0.15; saiz ralat pensampelan dijangka tidak lebih tinggi daripada 0.05.

Apabila menggunakan pemilihan rawak berulang, semak

Dalam pemilihan rawak yang tidak berulang, adalah perlu untuk menyemak

Seperti yang dapat kita lihat, penggunaan pensampelan tidak berulang membolehkan kita meninjau bilangan objek yang jauh lebih kecil.

Contoh 11.6. Ia dirancang untuk menjalankan tinjauan gaji di perusahaan industri dengan kaedah pemilihan rawak tidak berulang. Berapakah saiz sampel sekiranya pada masa tinjauan bilangan pekerja dalam industri ialah 100,000 orang? Ralat pensampelan marginal tidak boleh melebihi 100 rubel. dengan kebarangkalian 0.954. Berdasarkan hasil tinjauan sebelumnya mengenai upah dalam industri, diketahui bahawa sisihan piawai ialah 500 rubel.

Oleh itu, untuk menyelesaikan masalah, perlu memasukkan sekurang-kurangnya 100 orang dalam sampel.

Penduduk- satu set unit yang mempunyai watak jisim, tipikal, keseragaman kualitatif dan kehadiran variasi.

Populasi statistik terdiri daripada objek sedia ada secara material (Pekerja, perusahaan, negara, wilayah), adalah objek.

Unit penduduk- setiap unit khusus populasi statistik.

Populasi statistik yang sama boleh menjadi homogen dalam satu ciri dan heterogen dalam ciri lain.

Keseragaman kualitatif- persamaan semua unit populasi untuk sebarang ciri dan ketidaksamaan untuk semua yang lain.

Dalam populasi statistik, perbezaan antara satu unit populasi dengan yang lain lebih kerap bersifat kuantitatif. Perubahan kuantitatif dalam nilai atribut unit populasi yang berbeza dipanggil variasi.

Variasi Ciri- perubahan kuantitatif tanda (untuk tanda kuantitatif) semasa peralihan dari satu unit populasi ke unit yang lain.

tanda- ini ialah sifat, ciri ciri atau ciri lain unit, objek dan fenomena yang boleh diperhatikan atau diukur. Tanda terbahagi kepada kuantitatif dan kualitatif. Kepelbagaian dan kebolehubahan nilai ciri dalam unit individu populasi dipanggil variasi.

Ciri atribut (kualitatif) tidak boleh diukur (komposisi populasi mengikut jantina). Ciri kuantitatif mempunyai ungkapan berangka (komposisi populasi mengikut umur).

Indeks- ini ialah ciri kualitatif generalisasi mana-mana harta unit atau agregat secara keseluruhan dalam keadaan masa dan tempat tertentu.

Kad skor ialah satu set penunjuk yang menggambarkan secara menyeluruh fenomena yang dikaji.

Sebagai contoh, pertimbangkan gaji:
  • Tanda - upah
  • Statistik populasi - semua pekerja
  • Unit penduduk ialah setiap pekerja
  • Kehomogenan kualitatif - gaji terakru
  • Variasi ciri - satu siri nombor

Populasi umum dan sampel daripadanya

Asas ialah satu set data yang diperoleh hasil daripada mengukur satu atau lebih ciri. Set objek yang benar-benar diperhatikan, secara statistik diwakili oleh satu siri pemerhatian pembolehubah rawak , ialah persampelan, dan hipotesis sedia ada (difikirkan) - Populasi umum. Populasi umum boleh terhad (bilangan pemerhatian N = const) atau tidak terhingga ( N = ∞), dan sampel daripada populasi umum sentiasa hasil daripada bilangan pemerhatian yang terhad. Bilangan pemerhatian yang membentuk sampel dipanggil saiz sampel. Jika saiz sampel cukup besar n→∞) sampel dipertimbangkan besar, jika tidak ia dipanggil sampel volum terhad. Sampel dipertimbangkan kecil, jika, apabila mengukur pembolehubah rawak satu dimensi, saiz sampel tidak melebihi 30 ( n<= 30 ), dan apabila mengukur serentak beberapa ( k) ciri dalam hubungan ruang pelbagai dimensi n kepada k kurang daripada 10 (n/k< 10) . Borang sampel siri variasi jika ahlinya statistik pesanan, iaitu, nilai sampel pembolehubah rawak X diisih dalam susunan menaik (diperingkat), nilai atribut dipanggil pilihan.

Contoh. Set objek yang hampir sama secara rawak - bank perdagangan satu daerah pentadbiran Moscow, boleh dianggap sebagai sampel daripada populasi umum semua bank perdagangan di daerah ini, dan sebagai sampel daripada populasi umum semua bank perdagangan di Moscow , serta sampel bank perdagangan di negara ini dan lain-lain.

Kaedah persampelan asas

Kebolehpercayaan kesimpulan statistik dan tafsiran bermakna keputusan bergantung pada keterwakilan sampel, i.e. kesempurnaan dan kecukupan pembentangan sifat-sifat populasi umum, yang berkaitan dengan sampel ini boleh dianggap mewakili. Kajian sifat statistik populasi boleh diatur dalam dua cara: menggunakan berterusan dan tidak berterusan. Pemerhatian berterusan termasuk pemeriksaan semua unit belajar agregat, a pemerhatian tidak berterusan (selektif).- hanya sebahagian daripadanya.

Terdapat lima cara utama untuk mengatur persampelan:

1. pemilihan rawak mudah, di mana objek dipilih secara rawak daripada populasi umum objek (contohnya, menggunakan jadual atau penjana nombor rawak), dan setiap sampel yang mungkin mempunyai kebarangkalian yang sama. Sampel sedemikian dipanggil sebenarnya rawak;

2. pemilihan mudah melalui prosedur biasa dijalankan menggunakan komponen mekanikal (contohnya, tarikh, hari dalam seminggu, nombor pangsapuri, huruf abjad, dll.) dan sampel yang diperoleh dengan cara ini dipanggil mekanikal;

3. berstrata pemilihan terdiri daripada fakta bahawa populasi umum isipadu dibahagikan kepada subset atau lapisan (strata) isipadu supaya . Strata ialah objek homogen dari segi ciri statistik (contohnya, populasi dibahagikan kepada strata mengikut kumpulan umur atau kelas sosial; perusahaan mengikut industri). Dalam kes ini, sampel dipanggil berstrata(jika tidak, berstrata, tipikal, berzon);

4. kaedah bersiri pemilihan digunakan untuk membentuk bersiri atau sampel bersarang. Mereka mudah jika perlu untuk memeriksa "blok" atau satu siri objek sekaligus (contohnya, konsainan barangan, produk siri tertentu, atau populasi di bahagian pentadbiran wilayah negara). Pemilihan siri boleh dijalankan secara rawak atau mekanikal. Pada masa yang sama, tinjauan berterusan ke atas kumpulan barang tertentu, atau keseluruhan unit wilayah (bangunan kediaman atau suku) dijalankan;

5. digabungkan(berlangkah) pemilihan boleh menggabungkan beberapa kaedah pemilihan sekaligus (contohnya, berstrata dan rawak atau rawak dan mekanikal); sampel sedemikian dipanggil digabungkan.

Jenis pemilihan

Oleh fikiran terdapat pemilihan individu, kumpulan dan gabungan. Pada pemilihan individu unit individu populasi umum dipilih dalam set sampel, dengan pemilihan kumpulan adalah kumpulan homogen secara kualitatif (siri) unit, dan pemilihan gabungan melibatkan gabungan jenis pertama dan kedua.

Oleh kaedah pemilihan membezakan berulang dan tidak berulang sampel.

Tidak boleh berulang dipanggil pemilihan, di mana unit yang jatuh ke dalam sampel tidak kembali kepada populasi asal dan tidak mengambil bahagian dalam pemilihan selanjutnya; manakala bilangan unit penduduk umum N dikurangkan semasa proses pemilihan. Pada berulang pemilihan ditangkap dalam sampel, unit selepas pendaftaran dikembalikan kepada populasi umum dan dengan itu mengekalkan peluang yang sama, bersama-sama dengan unit lain, untuk digunakan dalam prosedur pemilihan selanjutnya; manakala bilangan unit penduduk umum N kekal tidak berubah (kaedah ini jarang digunakan dalam kajian sosio-ekonomi). Walau bagaimanapun, dengan besar N (N → ∞) formula untuk tidak berulang pemilihan adalah hampir dengan mereka untuk berulang pemilihan dan yang terakhir digunakan hampir lebih kerap ( N = const).

Ciri-ciri utama parameter populasi umum dan sampel

Asas kesimpulan statistik kajian adalah taburan pembolehubah rawak, manakala nilai yang diperhatikan (x 1, x 2, ..., x n) dipanggil realisasi pembolehubah rawak X(n ialah saiz sampel). Taburan pembolehubah rawak dalam populasi umum adalah teori, sifatnya ideal, dan analog sampelnya adalah empirikal pengedaran. Beberapa taburan teori diberikan secara analitikal, i.e. mereka parameter tentukan nilai fungsi taburan pada setiap titik dalam ruang nilai yang mungkin bagi pembolehubah rawak . Untuk sampel, sukar, dan kadangkala mustahil, untuk menentukan fungsi pengedaran, oleh itu parameter dianggarkan daripada data empirikal, dan kemudian ia digantikan ke dalam ungkapan analitik yang menerangkan taburan teori. Dalam kes ini, andaian (atau hipotesis) tentang jenis pengedaran boleh betul dan salah dari segi statistik. Tetapi dalam apa jua keadaan, taburan empirikal yang dibina semula daripada sampel hanya secara kasar mencirikan yang benar. Parameter pengedaran yang paling penting ialah nilai yang dijangkakan dan penyebaran.

Mengikut sifat mereka, pengedaran adalah berterusan dan diskret. Pengagihan berterusan yang paling terkenal ialah biasa. Analog terpilih parameter dan untuknya ialah: nilai min dan varians empirikal. Antara yang diskret dalam kajian sosio-ekonomi, yang paling biasa digunakan alternatif (dikotomi) pengedaran. Parameter jangkaan taburan ini menyatakan nilai relatif (atau kongsi) unit populasi yang mempunyai ciri yang dikaji (ia ditunjukkan oleh huruf ); bahagian populasi yang tidak mempunyai ciri ini dilambangkan dengan huruf q (q = 1 - p). Varians taburan alternatif juga mempunyai analog empirik.

Bergantung pada jenis taburan dan kaedah pemilihan unit populasi, ciri-ciri parameter taburan dikira secara berbeza. Yang utama untuk taburan teori dan empirikal diberikan dalam Jadual. satu.

Sampel bahagian k n ialah nisbah bilangan unit populasi sampel kepada bilangan unit populasi umum:

k n = n/N.

Perkongsian sampel w ialah nisbah unit yang mempunyai sifat yang dikaji x kepada saiz sampel n:

w = n n / n.

Contoh. Dalam kumpulan barangan yang mengandungi 1000 unit, dengan sampel 5%. pecahan sampel k n dalam nilai mutlak ialah 50 unit. (n = N*0.05); jika terdapat 2 produk yang rosak dalam sampel ini, maka pecahan sampel w akan menjadi 0.04 (w = 2/50 = 0.04 atau 4%).

Oleh kerana populasi sampel berbeza daripada populasi umum, terdapat ralat pensampelan.

Jadual 1. Parameter utama populasi umum dan sampel

Ralat pensampelan

Dengan mana-mana (pepejal dan selektif) ralat dua jenis boleh berlaku: pendaftaran dan perwakilan. Kesilapan pendaftaran boleh dapat rawak dan sistematik watak. rawak ralat terdiri daripada pelbagai punca yang tidak boleh dikawal, bersifat tidak disengajakan, dan biasanya mengimbangi satu sama lain bersama-sama (contohnya, perubahan dalam bacaan instrumen akibat turun naik suhu dalam bilik).

Bersistematik ralat adalah berat sebelah, kerana ia melanggar peraturan untuk memilih objek dalam sampel (contohnya, sisihan dalam ukuran apabila menukar tetapan peranti pengukur).

Contoh. Untuk menilai status sosial penduduk di bandar, ia dirancang untuk memeriksa 25% keluarga. Walau bagaimanapun, jika pemilihan setiap pangsapuri keempat adalah berdasarkan bilangannya, maka terdapat bahaya untuk memilih semua pangsapuri hanya satu jenis (contohnya, pangsapuri satu bilik), yang akan memperkenalkan ralat sistematik dan memesongkan keputusan; pilihan nombor apartmen mengikut lot adalah lebih baik, kerana ralat akan menjadi rawak.

Kesilapan perwakilan hanya wujud dalam pemerhatian terpilih, ia tidak boleh dielakkan dan ia timbul akibat fakta bahawa sampel tidak menghasilkan semula yang umum sepenuhnya. Nilai penunjuk yang diperoleh daripada sampel berbeza daripada penunjuk nilai yang sama dalam populasi umum (atau diperoleh semasa pemerhatian berterusan).

Ralat pensampelan ialah perbezaan antara nilai parameter dalam populasi umum dan nilai sampelnya. Untuk nilai purata atribut kuantitatif, ia adalah sama dengan: , dan untuk bahagian (atribut alternatif) - .

Kesilapan pensampelan hanya wujud dalam pemerhatian sampel. Lebih besar kesilapan ini, lebih banyak taburan empirikal berbeza daripada yang teori. Parameter taburan empirikal dan pembolehubah rawak, oleh itu, ralat pensampelan juga pembolehubah rawak, mereka boleh mengambil nilai yang berbeza untuk sampel yang berbeza, dan oleh itu adalah kebiasaan untuk mengira ralat purata.

Ralat pensampelan purata ialah nilai yang menyatakan sisihan piawai bagi min sampel daripada jangkaan matematik. Nilai ini, tertakluk kepada prinsip pemilihan rawak, bergantung terutamanya pada saiz sampel dan pada tahap variasi sifat: semakin besar dan semakin kecil variasi sifat (oleh itu, nilai ), semakin kecil nilai ralat pensampelan purata. Nisbah antara varians populasi umum dan sampel dinyatakan dengan formula:

mereka. untuk cukup besar, kita boleh mengandaikan bahawa . Ralat pensampelan purata menunjukkan kemungkinan sisihan parameter populasi sampel daripada parameter populasi umum. Dalam jadual. 2 menunjukkan ungkapan untuk mengira ralat pensampelan purata bagi kaedah yang berbeza mengatur pemerhatian.

Jadual 2. Ralat min (m) bagi min sampel dan kadaran bagi jenis sampel yang berbeza

Di manakah purata varians sampel antara kumpulan untuk ciri berterusan;

Purata taburan dalam kumpulan bahagian;

— bilangan siri yang dipilih, — jumlah bilangan siri;

,

di manakah purata bagi siri ke-;

- purata am ke atas keseluruhan sampel untuk ciri berterusan;

,

di manakah bahagian sifat dalam siri ke-;

— jumlah bahagian sifat ke atas keseluruhan sampel.

Walau bagaimanapun, magnitud ralat purata hanya boleh dinilai dengan kebarangkalian tertentu Р (Р ≤ 1). Lyapunov A.M. membuktikan bahawa taburan sampel bermakna, dan oleh itu sisihan mereka daripada min am, dengan jumlah yang cukup besar, kira-kira mematuhi undang-undang taburan normal, dengan syarat populasi umum mempunyai purata terhingga dan varians terhad.

Secara matematik, pernyataan untuk min ini dinyatakan sebagai:

dan bagi pecahan, ungkapan (1) akan berbentuk:

di mana - makan ralat pensampelan marginal, yang merupakan gandaan ralat pensampelan purata , dan faktor kepelbagaian ialah kriteria Pelajar ("faktor keyakinan"), yang dicadangkan oleh W.S. Gosset (nama samaran "Pelajar"); nilai untuk saiz sampel yang berbeza disimpan dalam jadual khas.

Nilai fungsi Ф(t) untuk beberapa nilai t ialah:

Oleh itu, ungkapan (3) boleh dibaca seperti berikut: dengan kebarangkalian P = 0.683 (68.3%) boleh dikatakan bahawa perbezaan antara sampel dan min am tidak akan melebihi satu nilai ralat min m(t=1), dengan kebarangkalian P = 0.954 (95.4%)— bahawa ia tidak melebihi nilai dua ralat min m (t = 2), dengan kebarangkalian P = 0.997 (99.7%)- tidak akan melebihi tiga nilai m (t = 3) . Oleh itu, kebarangkalian bahawa perbezaan ini akan melebihi tiga kali ganda nilai ralat min yang ditentukan tahap ralat dan tidak lebih daripada 0,3% .

Dalam jadual. 3 menunjukkan formula untuk mengira ralat pensampelan marginal.

Jadual 3. Ralat persampelan marginal (D) untuk min dan perkadaran (p) untuk pelbagai jenis pemerhatian sampel

Memperluaskan Hasil Sampel kepada Populasi

Matlamat akhir pemerhatian sampel adalah untuk mencirikan populasi umum. Untuk saiz sampel yang kecil, anggaran empirikal bagi parameter ( dan ) mungkin menyimpang dengan ketara daripada nilai sebenar ( dan ). Oleh itu, adalah perlu untuk mewujudkan sempadan di mana nilai sebenar ( dan ) terletak untuk nilai sampel parameter ( dan ).

Selang keyakinan daripada beberapa parameter θ populasi umum dipanggil julat rawak nilai parameter ini, yang dengan kebarangkalian hampir 1 ( kebolehpercayaan) mengandungi nilai sebenar parameter ini.

ralat marginal sampel Δ membolehkan anda menentukan nilai had ciri-ciri populasi umum dan mereka selang keyakinan, yang sama dengan:

Pokoknya selang keyakinan diperoleh dengan menolak ralat marginal daripada min sampel (kongsi), dan yang teratas dengan menambahkannya.

Selang keyakinan untuk min, ia menggunakan ralat pensampelan marginal dan untuk tahap keyakinan tertentu ditentukan oleh formula:

Ini bermakna bahawa dengan kebarangkalian yang diberikan R, yang dipanggil tahap keyakinan dan ditentukan secara unik oleh nilai t, boleh dikatakan bahawa nilai sebenar min terletak pada julat dari , dan nilai sebenar bahagian adalah dalam julat dari

Apabila mengira selang keyakinan untuk tiga tahap keyakinan standard P=95%, P=99% dan P=99.9% nilai dipilih oleh . Aplikasi bergantung pada bilangan darjah kebebasan. Jika saiz sampel cukup besar, maka nilai yang sepadan dengan kebarangkalian ini t adalah sama: 1,96, 2,58 dan 3,29 . Oleh itu, ralat pensampelan marginal membolehkan kita menentukan nilai marginal ciri-ciri populasi umum dan selang keyakinan mereka:

Pengagihan hasil pemerhatian terpilih kepada populasi umum dalam kajian sosio-ekonomi mempunyai ciri tersendiri, kerana ia memerlukan kesempurnaan perwakilan semua jenis dan kumpulannya. Asas untuk kemungkinan pengagihan sedemikian adalah pengiraan ralat relatif:

di mana Δ % - ralat pensampelan marginal relatif; , .

Terdapat dua kaedah utama untuk memanjangkan pemerhatian sampel kepada populasi: penukaran langsung dan kaedah pekali.

Intipati penukaran langsung adalah untuk mendarab min sampel!!\gariskan(x) dengan saiz populasi .

Contoh. Biarkan purata bilangan kanak-kanak di bandar dianggarkan dengan kaedah persampelan dan jumlah kepada seseorang. Sekiranya terdapat 1000 keluarga muda di bandar, maka bilangan tempat yang diperlukan di tapak semaian perbandaran diperoleh dengan mendarabkan purata ini dengan saiz populasi umum N = 1000, i.e. akan menjadi 1200 kerusi.

Kaedah pekali adalah dinasihatkan untuk digunakan dalam kes apabila pemerhatian terpilih dijalankan untuk menjelaskan data pemerhatian berterusan.

Dalam berbuat demikian, formula digunakan:

di mana semua pembolehubah adalah saiz populasi:

Saiz sampel yang diperlukan

Jadual 4. Saiz sampel yang diperlukan (n) untuk pelbagai jenis organisasi persampelan

Apabila merancang tinjauan persampelan dengan nilai yang telah ditetapkan bagi ralat pensampelan yang dibenarkan, adalah perlu untuk menganggarkan dengan betul saiz sampel. Jumlah ini boleh ditentukan berdasarkan ralat yang dibenarkan semasa pemerhatian terpilih berdasarkan kebarangkalian tertentu yang menjamin tahap ralat yang boleh diterima (dengan mengambil kira cara pemerhatian disusun). Formula untuk menentukan saiz sampel yang diperlukan n boleh didapati dengan mudah terus daripada formula untuk ralat pensampelan marginal. Jadi, dari ungkapan untuk ralat marginal:

saiz sampel ditentukan secara langsung n:

Formula ini menunjukkan bahawa dengan mengurangkan ralat pensampelan marginal Δ meningkatkan dengan ketara saiz sampel yang diperlukan, yang berkadar dengan varians dan kuasa dua ujian-t Pelajar.

Untuk kaedah khusus mengatur pemerhatian, saiz sampel yang diperlukan dikira mengikut formula yang diberikan dalam Jadual. 9.4.

Contoh Pengiraan Praktikal

Contoh 1. Pengiraan nilai min dan selang keyakinan untuk ciri kuantitatif berterusan.

Untuk menilai kelajuan penyelesaian dengan pemiutang di bank, sampel rawak 10 dokumen pembayaran telah dijalankan. Nilai mereka ternyata sama (dalam hari): 10; 3; lima belas; lima belas; 22; 7; lapan; satu; Sembilan belas; dua puluh.

Diperlukan dengan kebarangkalian P = 0.954 tentukan ralat marginal Δ min sampel dan had keyakinan purata masa pengiraan.

Penyelesaian. Nilai purata dikira dengan formula daripada Jadual. 9.1 untuk populasi sampel

Penyerakan dikira mengikut formula dari Jadual. 9.1.

Ralat kuasa dua min pada hari itu.

Ralat min dikira dengan formula:

mereka. nilai min ialah x ± m = 12.0 ± 2.3 hari.

Kebolehpercayaan min ialah

Ralat pengehadan dikira dengan formula daripada Jadual. 9.3 untuk pemilihan semula, kerana saiz populasi tidak diketahui, dan untuk P = 0.954 tahap keyakinan.

Oleh itu, nilai min ialah `x ± D = `x ± 2m = 12.0 ± 4.6, i.e. nilai sebenarnya terletak dalam julat dari 7.4 hingga 16.6 hari.

Penggunaan meja Pelajar. Aplikasi ini membolehkan kita membuat kesimpulan bahawa untuk n = 10 - 1 = 9 darjah kebebasan nilai yang diperolehi boleh dipercayai dengan tahap keertian £ 0.001, i.e. nilai min yang terhasil adalah jauh berbeza daripada 0.

Contoh 2. Anggaran kebarangkalian (bahagian am) r.

Dengan kaedah persampelan mekanikal untuk meninjau status sosial 1000 keluarga, didapati bahawa perkadaran keluarga berpendapatan rendah adalah w = 0.3 (30%)(sampel adalah 2% , iaitu n/N = 0.02). Diperlukan dengan tahap keyakinan p = 0.997 menentukan penunjuk R keluarga berpendapatan rendah di seluruh rantau ini.

Penyelesaian. Mengikut nilai fungsi yang dibentangkan Ф(t) cari tahap keyakinan tertentu P = 0.997 maksudnya t=3(lihat formula 3). Ralat bahagian marginal w tentukan dengan formula daripada Jadual. 9.3 untuk persampelan tidak berulang (persampelan mekanikal sentiasa tidak berulang):

Mengehadkan ralat pensampelan relatif dalam % akan jadi:

Kebarangkalian (bahagian am) keluarga berpendapatan rendah di rantau ini adalah p=w±Δw, dan had keyakinan p dikira berdasarkan ketaksamaan berganda:

w — Δw ≤ p ≤ w — Δw, iaitu nilai sebenar p terletak dalam:

0,3 — 0,014 < p <0,3 + 0,014, а именно от 28,6% до 31,4%.

Oleh itu, dengan kebarangkalian 0.997, boleh dikatakan bahawa bahagian keluarga berpendapatan rendah di kalangan semua keluarga di rantau ini adalah antara 28.6% hingga 31.4%.

Contoh 3 Pengiraan nilai min dan selang keyakinan untuk ciri diskret yang ditentukan oleh siri selang.

Dalam jadual. 5. Pengagihan permohonan untuk pengeluaran pesanan mengikut masa pelaksanaannya oleh perusahaan ditetapkan.

Jadual 5. Taburan pemerhatian mengikut masa kejadian

Penyelesaian. Purata masa siap pesanan dikira dengan formula:

Masa purata ialah:

= (3*20 + 9*80 + 24*60 + 48*20 + 72*20)/200 = 23.1 bulan

Kita mendapat jawapan yang sama jika kita menggunakan data pada p i dari lajur kedua terakhir Jadual. 9.5 menggunakan formula:

Ambil perhatian bahawa pertengahan selang untuk penggredan terakhir ditemui dengan menambahnya secara buatan dengan lebar selang penggredan sebelumnya bersamaan dengan 60 - 36 = 24 bulan.

Penyerakan dikira dengan formula

di mana x i- pertengahan siri selang.

Oleh itu!!\sigma = \frac (20^2 + 14^2 + 1 + 25^2 + 49^2)(4) dan ralat piawai ialah .

Ralat min dikira dengan formula untuk bulan, i.e. min ialah!!\gariskan(x) ± m = 23.1 ± 13.4.

Ralat pengehadan dikira dengan formula daripada Jadual. 9.3 untuk pemilihan semula kerana saiz populasi tidak diketahui, untuk tahap keyakinan 0.954:

Jadi min ialah:

mereka. nilai sebenarnya terletak dalam julat dari 0 hingga 50 bulan.

Contoh 4 Untuk menentukan kelajuan penyelesaian dengan pemiutang N = 500 perusahaan perbadanan di bank perdagangan, adalah perlu untuk menjalankan kajian terpilih menggunakan kaedah pemilihan rawak tidak berulang. Tentukan saiz sampel yang diperlukan n supaya dengan kebarangkalian P = 0.954 ralat min sampel tidak melebihi 3 hari, jika anggaran percubaan menunjukkan sisihan piawai s ialah 10 hari.

Keputusan. Untuk menentukan bilangan kajian yang diperlukan n, kami menggunakan formula untuk pemilihan tidak berulang daripada Jadual. 9.4:

Di dalamnya, nilai t ditentukan daripada untuk tahap keyakinan Р = 0.954. Ia bersamaan dengan 2. Nilai kuasa dua min s = 10, saiz populasi N = 500, dan ralat marginal bagi min Δ x = 3. Menggantikan nilai-nilai ini ke dalam formula, kita dapat:

mereka. adalah cukup untuk membuat sampel 41 perusahaan untuk menganggarkan parameter yang diperlukan - kelajuan penyelesaian dengan pemiutang.

Untuk mencirikan kebolehpercayaan penunjuk sampel, perbezaan dibuat antara ralat pensampelan min dan marginal, yang hanya merupakan ciri pemerhatian sampel. Penunjuk ini mencerminkan perbezaan antara sampel dan penunjuk umum yang sepadan.

Ralat sampel purata ditentukan terutamanya oleh saiz sampel dan bergantung kepada struktur dan darjah variasi sifat yang dikaji.

Maksud ralat persampelan min adalah seperti berikut. Nilai yang dikira bagi pecahan sampel (w) dan min sampel () adalah mengikut sifat pembolehubah rawak. Mereka boleh mengambil nilai yang berbeza bergantung pada unit tertentu populasi umum yang jatuh ke dalam sampel. Sebagai contoh, jika, apabila menentukan purata umur pekerja sesebuah perusahaan, lebih ramai orang muda dimasukkan dalam satu sampel, dan pekerja yang lebih tua dalam sampel lain, maka cara sampel dan ralat pensampelan akan berbeza. Ralat pensampelan purata ditentukan oleh formula:

(27) atau - pensampelan semula. (28)

Di mana: μ ialah ralat pensampelan purata;

σ ialah sisihan piawai bagi sesuatu sifat dalam populasi umum;

n ialah saiz sampel.

Nilai ralat μ menunjukkan bagaimana nilai min ciri, yang ditetapkan oleh sampel, berbeza daripada nilai sebenar ciri dalam populasi umum.

Ia berikutan daripada formula bahawa ralat pensampelan adalah berkadar terus dengan sisihan piawai dan berkadar songsang dengan punca kuasa dua bilangan unit dalam sampel. Ini bermakna, sebagai contoh, semakin besar sebaran nilai sesuatu ciri dalam populasi umum, iaitu, semakin besar serakan, semakin besar saiz sampel yang sepatutnya jika kita ingin mempercayai hasil tinjauan sampel. . Sebaliknya, dengan varians yang kecil, seseorang boleh mengehadkan dirinya kepada sebilangan kecil populasi sampel. Ralat pensampelan kemudiannya akan berada dalam had yang boleh diterima.

Oleh kerana saiz populasi umum N semasa pensampelan berkurangan semasa pemilihan tidak berulang, faktor tambahan dimasukkan dalam formula untuk mengira ralat pensampelan purata

(satu- ). Formula untuk ralat pensampelan min mengambil bentuk berikut:

Ralat purata adalah lebih kecil untuk pensampelan tidak berulang, yang menjadikannya lebih meluas digunakan.

Kesimpulan praktikal memerlukan pencirian populasi umum berdasarkan keputusan sampel. Cara dan perkadaran sampel digunakan untuk populasi umum, dengan mengambil kira had kemungkinan kesilapan mereka, dan dengan tahap kebarangkalian yang menjaminnya. Memandangkan tahap kebarangkalian tertentu, nilai sisihan ternormal dipilih dan ralat pensampelan marginal ditentukan.

Kebolehpercayaan (kebarangkalian keyakinan) anggaran X oleh X* dipanggil kebarangkalian γ , dengan mana ketidaksamaan


׀Х-Х*׀< δ, (30)

di mana δ ialah ralat pensampelan marginal yang mencirikan lebar selang di mana nilai parameter yang dikaji bagi populasi umum ditemui dengan kebarangkalian γ.

Dipercayai namakan selang (X* - δ; X* + δ) yang meliputi parameter X yang disiasat (iaitu nilai parameter X berada di dalam selang ini) dengan kebolehpercayaan yang diberikan γ.

Biasanya, kebolehpercayaan anggaran ditetapkan terlebih dahulu, dan nombor yang hampir dengan satu diambil sebagai γ: 0.95; 0.99 atau 0.999.

Ralat pengehad δ berkaitan dengan ralat purata μ seperti berikut: , (31)

di mana: t ialah faktor keyakinan, bergantung kepada kebarangkalian P, yang mana ia boleh dihujahkan bahawa ralat marginal δ tidak akan melebihi ralat purata lipatan-t μ (ia juga dipanggil titik kritikal atau kuantiti taburan Pelajar).

Seperti berikut daripada nisbah, ralat marginal adalah berkadar terus dengan ralat pensampelan purata dan pekali keyakinan, yang bergantung pada tahap kebolehpercayaan anggaran yang diberikan.

Daripada formula untuk ralat pensampelan purata dan nisbah ralat marginal dan purata, kami memperoleh:

Dengan mengambil kira kebarangkalian keyakinan, formula ini akan mengambil bentuk.

Ralat adalah sistematik dan rawak

Unit modular 2 Ralat pensampelan

Oleh kerana sampel biasanya merangkumi sebahagian kecil daripada populasi, ia harus diandaikan bahawa akan terdapat perbezaan antara anggaran dan ciri populasi yang mencerminkan anggaran ini. Perbezaan ini dipanggil ralat paparan atau ralat perwakilan. Kesilapan keterwakilan dikelaskan kepada dua jenis: sistematik dan rawak.

Kesilapan sistematik- ini adalah anggaran terlalu tinggi atau kurang anggaran nilai anggaran berbanding dengan ciri-ciri populasi umum. Sebab kemunculan ralat sistematik adalah ketidakpatuhan prinsip kesamaan untuk memasukkan setiap unit populasi umum ke dalam sampel, iaitu, sampel terbentuk daripada kebanyakan wakil "terburuk" (atau "terbaik") daripada populasi umum. Pematuhan dengan prinsip peluang yang sama bagi setiap unit untuk masuk ke dalam sampel memungkinkan untuk menghapuskan sepenuhnya jenis ralat ini.

Ralat rawak - ini adalah perbezaan antara anggaran dan ciri anggaran populasi umum, yang berbeza dari sampel ke sampel dalam tanda dan magnitud. Sebab berlakunya ralat rawak adalah permainan peluang dalam pembentukan sampel yang hanya sebahagian daripada populasi umum. Ralat jenis ini wujud dalam kaedah pensampelan. Tidak mustahil untuk mengecualikan mereka sepenuhnya, tugasnya adalah untuk meramalkan kemungkinan magnitud dan mengurangkannya ke tahap minimum. Urutan tindakan yang berkaitan dengan ini berikutan daripada pertimbangan tiga jenis ralat rawak: khusus, sederhana dan ekstrem.

2.2.1 Khusus ralat ialah ralat satu sampel yang diambil. Jika purata bagi sampel ini () ialah anggaran bagi purata am (0) dan, dengan mengandaikan bahawa purata am ini diketahui oleh kami, maka perbezaan = -0 dan akan menjadi ralat khusus sampel ini. Jika kita mengulangi sampel daripada populasi umum ini berkali-kali, maka setiap kali kita mendapat nilai baharu ralat khusus: ..., dan seterusnya. Mengenai ralat khusus ini, kita boleh mengatakan perkara berikut: sebahagian daripada mereka akan bertepatan antara satu sama lain dalam magnitud dan tanda, iaitu, terdapat pengagihan ralat, sebahagian daripadanya akan sama dengan 0, terdapat kebetulan anggaran. dan parameter populasi umum;

2.2.2 Ralat purata ialah kuasa dua purata punca semua ralat anggaran khusus yang mungkin secara kebetulan: , di manakah nilai ralat khusus yang berbeza-beza; kekerapan (kebarangkalian) berlakunya ralat tertentu. Ralat sampel purata menunjukkan berapa banyak ralat boleh dibuat secara purata jika, berdasarkan anggaran, pertimbangan dibuat tentang parameter populasi umum. Formula di atas mendedahkan kandungan ralat purata, tetapi ia tidak boleh digunakan untuk pengiraan praktikal, jika hanya kerana ia menganggap pengetahuan tentang parameter populasi umum, yang dengan sendirinya menghapuskan keperluan untuk pensampelan.



Pengiraan praktikal bagi ralat min anggaran adalah berdasarkan premis bahawa ia (min ralat) pada dasarnya adalah sisihan piawai bagi semua nilai anggaran yang mungkin. Premis ini memungkinkan untuk mendapatkan algoritma untuk mengira ralat min berdasarkan data satu sampel tunggal. Secara khususnya, ralat min bagi min sampel boleh diwujudkan berdasarkan alasan berikut. Terdapat pilihan (,… ) yang terdiri daripada unit. Bagi sampel, min sampel ditentukan sebagai anggaran purata am. Setiap nilai (,… ) di bawah tanda jumlah hendaklah dianggap sebagai pembolehubah rawak bebas, sejak yang pertama, kedua, dsb. unit boleh mengambil mana-mana nilai yang terdapat dalam populasi umum. Oleh itu Oleh kerana, seperti yang diketahui, varians jumlah pembolehubah rawak bebas adalah sama dengan jumlah varians, maka . Ia berikutan bahawa ralat purata bagi min sampel akan sama dan ia berkait songsang dengan saiz sampel (melalui punca kuasa duanya) dan berkadar terus dengan sisihan piawai ciri dalam populasi umum. Ini adalah logik, kerana min sampel ialah anggaran yang konsisten untuk min am dan, apabila saiz sampel bertambah, ia menghampiri nilainya kepada parameter anggaran populasi umum. Kebergantungan langsung ralat purata pada kebolehubahan sifat adalah disebabkan oleh fakta bahawa semakin besar kebolehubahan sifat dalam populasi umum, semakin sukar untuk membina model populasi umum yang mencukupi berdasarkan sampel. Dalam amalan, sisihan piawai ciri untuk populasi umum digantikan dengan anggarannya untuk sampel, dan kemudian formula untuk mengira ralat purata min sampel mengambil bentuk:, sambil mengambil kira bias varians sampel , sisihan piawai sampel dikira dengan formula = . Oleh kerana simbol n menandakan saiz sampel. , maka penyebut apabila mengira sisihan piawai tidak boleh menggunakan saiz sampel (n), tetapi bilangan darjah kebebasan yang dipanggil (n-1). Bilangan darjah kebebasan difahami sebagai bilangan unit dalam agregat, yang boleh berubah-ubah secara bebas (berubah) jika sebarang ciri ditakrifkan dalam agregat. Dalam kes kami, kerana purata sampel ditentukan, unit boleh berbeza-beza secara bebas.

Jadual 2.2 menyediakan formula untuk mengira ralat min pelbagai anggaran sampel. Seperti yang dapat dilihat daripada jadual ini, nilai ralat purata bagi semua anggaran adalah berkait songsang dengan saiz sampel dan berhubung terus dengan kebolehubahan. Ini juga boleh dikatakan tentang ralat min bagi pecahan sampel (frekuensi). Di bawah akar ialah varians ciri alternatif, yang ditubuhkan oleh sampel ()

Formula yang diberikan dalam Jadual 2.2 merujuk kepada apa yang dipanggil rawak, pemilihan berulang unit dalam sampel. Dengan kaedah pemilihan lain, yang akan dibincangkan di bawah, formula akan sedikit diubah suai.

Jadual 2.2

Formula untuk Mengira Min Ralat Anggaran Sampel

2.2.3 Ralat persampelan marginal Mengetahui anggaran dan min ralatnya dalam beberapa kes sama sekali tidak mencukupi. Sebagai contoh, apabila menggunakan hormon dalam pemakanan haiwan, mengetahui hanya saiz purata sisa berbahaya yang tidak terurai dan ralat purata bermakna mendedahkan pengguna produk kepada bahaya yang serius. Di sini keperluan untuk menentukan maksimum ( ralat marginal). Apabila menggunakan kaedah pensampelan, ralat marginal ditetapkan bukan dalam bentuk nilai tertentu, tetapi dalam bentuk sempadan yang sama.

(selang) dalam mana-mana arah daripada nilai penilaian.

Penentuan had ralat marginal adalah berdasarkan ciri taburan ralat tertentu. Bagi sampel yang dipanggil besar, bilangannya lebih daripada 30 unit (), ralat khusus diedarkan mengikut undang-undang taburan normal; dengan sampel kecil () ralat khusus diedarkan mengikut undang-undang pengedaran Gosset

(Pelajar). Berkenaan dengan ralat khusus dalam min sampel, fungsi taburan normal mempunyai bentuk: , di manakah ketumpatan kebarangkalian berlakunya nilai tertentu, dengan syarat , di manakah min sampel; - min am, - min ralat bagi min sampel. Oleh kerana ralat purata () ialah nilai malar, maka, mengikut hukum normal, ralat khusus diedarkan, dinyatakan dalam pecahan ralat purata, atau apa yang dipanggil sisihan ternormal.

Mengambil kamiran fungsi taburan normal, seseorang boleh menetapkan kebarangkalian bahawa ralat akan disertakan dalam selang t tertentu dan kebarangkalian bahawa ralat akan melampaui selang ini (peristiwa terbalik). Sebagai contoh, kebarangkalian bahawa ralat tidak akan melebihi separuh daripada ralat purata (dalam kedua-dua arah daripada purata am) ialah 0.3829, bahawa ralat itu akan terkandung dalam satu ralat purata - 0.6827, 2 ralat purata - 0.9545 dsb.

Hubungan antara tahap kebarangkalian dan selang perubahan t (dan, akhirnya, selang perubahan dalam ralat) membolehkan kita mendekati definisi selang (atau sempadan) ralat marginal, menghubungkan nilainya dengan kebarangkalian Kebarangkalian pelaksanaan ialah kebarangkalian bahawa ralat akan berlaku dalam beberapa selang. Kebarangkalian pelaksanaan akan menjadi "keyakinan" sekiranya peristiwa yang bertentangan (ralat akan berada di luar selang) mempunyai kebarangkalian kejadian yang boleh diabaikan. Oleh itu, tahap keyakinan kebarangkalian ditetapkan, sebagai peraturan, tidak lebih rendah daripada 0.90 (kebarangkalian peristiwa bertentangan ialah 0.10). Lebih banyak akibat negatif kemunculan ralat di luar selang yang ditetapkan, lebih tinggi tahap keyakinan kebarangkalian sepatutnya (0.95; 0.99; 0.999, dan seterusnya).

Setelah memilih tahap keyakinan kebarangkalian daripada jadual kamiran kebarangkalian taburan normal, seseorang harus mencari nilai t yang sepadan, dan kemudian menggunakan ungkapan = tentukan selang ralat marginal. Maksud nilai yang diperolehi adalah seperti berikut: dengan tahap keyakinan yang diterima kebarangkalian, ralat marginal min sampel tidak akan melebihi .

Untuk menetapkan had ralat marginal berdasarkan sampel besar untuk anggaran lain (varian, sisihan piawai, saham, dan sebagainya), pendekatan di atas digunakan, dengan mengambil kira fakta bahawa algoritma yang berbeza digunakan untuk menentukan ralat purata bagi setiap anggaran .

Bagi sampel kecil (), seperti yang telah disebutkan, taburan ralat anggaran sepadan dalam kes ini dengan taburan t - Pelajar. Keistimewaan taburan ini ialah, bersama-sama ralat, ia mengandungi saiz sampel sebagai parameter, atau sebaliknya, bukan saiz sampel, tetapi bilangan darjah kebebasan. Dengan peningkatan dalam saiz sampel, t-Pelajar taburan menghampiri normal, dan pada , taburan ini boleh dikatakan bertepatan. Membandingkan nilai t-Pelajar dan t - taburan normal dengan kebarangkalian keyakinan yang sama, kita boleh mengatakan bahawa nilai t-Pelajar sentiasa lebih besar daripada t - taburan normal, dan perbezaan meningkat dengan pengurangan saiz sampel dan dengan peningkatan dalam tahap keyakinan kebarangkalian. Akibatnya, apabila menggunakan sampel kecil, terdapat margin ralat marginal yang lebih luas berbanding dengan sampel besar, dan sempadan ini berkembang dengan pengurangan saiz sampel dan peningkatan dalam tahap keyakinan kebarangkalian.