Biografi Ciri-ciri Analisis

Sampel dan kaedah untuk mendapatkannya. Apakah sampel perwakilan? Saiz sampel yang diperlukan

Empirikal dianggap sebagai salah satu cara utama untuk mengkaji hubungan dan proses sosial. Mereka menyediakan maklumat yang boleh dipercayai, lengkap dan mewakili.

Kekhususan teknik

Empirikal menyediakan mendapatkan pengetahuan pembetulan fakta. Mereka menyumbang kepada penubuhan dan generalisasi keadaan melalui pendaftaran tidak langsung atau langsung peristiwa yang wujud dalam hubungan, objek, fenomena yang dikaji. Kaedah empirikal berbeza daripada kaedah teori kerana subjek analisis ialah:

  1. Tingkah laku individu dan kumpulan mereka.
  2. Produk aktiviti manusia.
  3. Tindakan lisan individu, pertimbangan, pandangan, pendapat mereka.

Contoh kajian

Kajian empirikal sentiasa tertumpu kepada mendapatkan maklumat yang objektif dan tepat, data kuantitatif. Dalam hal ini, apabila ia dijalankan, adalah perlu untuk memastikan keterwakilan maklumat. Sehubungan itu, betul set persampelan. ia Ini bermakna pemilihan mesti dijalankan sedemikian rupa sehingga data yang diperoleh daripada kumpulan sempit mencerminkan trend yang berlaku dalam jisim umum responden. Sebagai contoh, apabila mengundi 200-300 orang, data yang diperoleh boleh diekstrapolasi kepada seluruh penduduk bandar. Penunjuk set sampel membolehkan pendekatan berbeza untuk kajian proses sosio-ekonomi di rantau ini, di negara secara keseluruhan.

Terminologi

Untuk lebih memahami isu yang berkaitan dengan tinjauan sampel, beberapa definisi perlu dijelaskan. Unit pemerhatian ialah sumber langsung maklumat. Ia boleh menjadi individu, kumpulan, dokumen, organisasi, dan sebagainya. Penduduk umum ialah set unit pemerhatian. Kesemuanya harus relevan dengan masalah yang dikaji. tertakluk kepada analisis langsung. Kajian ini dijalankan mengikut kaedah pengumpulan maklumat yang telah dibangunkan. Untuk menentukan bahagian ini bagi keseluruhan tatasusunan responden, gunakan konsep "sampel". Hartanya untuk mencerminkan parameter utama jumlah jisim orang dipanggil keterwakilan. Dalam sesetengah kes, tiada perlawanan. Kemudian seseorang bercakap tentang kesilapan perwakilan.

Memastikan keterwakilan

Isu-isu yang berkaitan dengannya dipertimbangkan secara terperinci dalam rangka perangkaan. Masalahnya adalah kompleks kerana, di satu pihak, kita bercakap tentang menyediakan perwakilan kuantitatif yang memberi penduduk umum. ia bermakna, khususnya, kumpulan responden harus diwakili dalam bilangan yang optimum. Kuantiti mestilah mencukupi untuk perwakilan biasa. Sebaliknya, ia juga bermaksud perwakilan kualitatif. Ia mengandaikan komposisi subjek tertentu, yang membentuk set persampelan. ia bermakna, sebagai contoh, keterwakilan tidak boleh dibincangkan jika hanya lelaki atau wanita sahaja, orang tua atau muda ditemubual. Kajian hendaklah dijalankan dalam semua kumpulan yang diwakili.

Ciri sampel

Istilah ini dipertimbangkan dalam dua aspek. Pertama sekali, ia ditakrifkan sebagai kompleks elemen daripada susunan umum orang yang pendapatnya sedang dikaji - ini set persampelan. ia juga proses mewujudkan kategori responden tertentu dengan keterwakilan yang diperlukan. Dalam amalan, terdapat beberapa jenis dan jenis pemilihan. Mari kita pertimbangkan mereka.

Jenis

Terdapat tiga daripadanya:

  1. secara spontan set persampelan. ia satu set responden yang dipilih secara sukarela. Pada masa yang sama, kebolehcapaian kemasukan unit daripada jumlah jisim orang ke dalam kumpulan kajian tertentu dipastikan. Pemilihan spontan dalam amalan digunakan agak kerap. Contohnya, dalam tinjauan di akhbar, melalui surat. Walau bagaimanapun, pendekatan ini mempunyai kelemahan yang ketara. Adalah mustahil untuk mewakili keseluruhan isipadu sampel am secara kualitatif. Teknik ini digunakan berkaitan dengan ekonomi. Dalam sesetengah tinjauan, pilihan ini adalah satu-satunya pilihan yang mungkin.
  2. secara spontan set persampelan. ia salah satu kaedah utama yang digunakan dalam kajian. Prinsip utama pemilihan tersebut ialah penyediaan peluang bagi setiap unit pemerhatian untuk mendapatkan daripada jisim umum individu ke dalam kumpulan yang sempit. Untuk ini, kaedah yang berbeza digunakan. Sebagai contoh, ia boleh menjadi loteri, pemilihan mekanikal, jadual nombor rawak.
  3. Persampelan berstrata (kuota). Ia berdasarkan pembentukan model kualitatif jumlah jisim responden. Selepas itu, pemilihan unit dalam populasi sampel dijalankan. Sebagai contoh, ia dilakukan mengikut umur atau jantina, mengikut kumpulan penduduk, dan sebagainya.

Jenis

Terdapat pilihan berikut:

Selain itu

Sampel juga boleh bergantung dan bebas. Dalam kes pertama, prosedur eksperimen dan keputusan yang akan diperolehi semasanya untuk satu kumpulan responden mempunyai kesan tertentu kepada yang lain. Sehubungan itu, sampel bebas tidak membayangkan kesan sedemikian. Di sini, bagaimanapun, satu perkara penting harus diperhatikan. Satu kumpulan subjek, yang mana peperiksaan psikologi telah dijalankan dua kali (walaupun ia bertujuan untuk mengkaji kualiti, ciri, tanda yang berbeza), secara lalai, akan dianggap bergantung.

Pilihan kebarangkalian

Pertimbangkan beberapa jenis sampel:

  1. rawak. Ia mengandaikan kehomogenan jumlah populasi, satu kebarangkalian ketersediaan semua komponen, serta kehadiran senarai lengkap elemen. Sebagai peraturan, jadual dengan nombor rawak digunakan dalam proses pemilihan.
  2. mekanikal. Persampelan rawak jenis ini melibatkan pesanan mengikut atribut tertentu. Contohnya, mengikut nombor telefon, mengikut abjad, mengikut tarikh lahir dan sebagainya. Komponen pertama dipilih secara rawak. Seterusnya, setiap elemen k dipilih dengan langkah n. Nilai jumlah penduduk ialah N=k*n.
  3. Berstrata. Sampel ini digunakan apabila jumlah populasi adalah heterogen. Yang terakhir dibahagikan kepada strata (kumpulan). Dalam setiap daripada mereka, pemilihan dijalankan secara mekanikal atau rawak.
  4. bersiri. Kumpulan dipilih secara rawak. Di dalamnya, objek dikaji sepanjang jalan.

Pilihan yang luar biasa

Mereka melibatkan pensampelan bukan atas dasar rawak, tetapi atas alasan subjektif: tipikal, kebolehcapaian, perwakilan sama, dan sebagainya. Pilihan dalam kategori ini termasuk:

Nuansa

Senarai unit penduduk yang tepat dan lengkap diperlukan untuk memastikan keterwakilan. Objek pemerhatian, sebagai peraturan, adalah satu orang. Pemilihan daripada senarai paling baik dilakukan dengan menomborkan unit dan menggunakan jadual dengan nombor rawak. Tetapi kaedah kuasi rawak juga sering digunakan. Ia menganggap pemilihan daripada senarai setiap elemen n.

Faktor yang mempengaruhi

Isipadu populasi ialah bilangan unitnya. Menurut pakar, ia tidak semestinya besar. Tidak dinafikan, lebih ramai bilangan responden, lebih tepat hasilnya. Walau bagaimanapun, pada masa yang sama, jumlah yang besar tidak selalu menjamin kejayaan. Sebagai contoh, ini berlaku apabila jumlah tatasusunan responden adalah heterogen. Homogen akan dianggap sebagai set sedemikian di mana parameter terkawal, sebagai contoh, tahap celik huruf, diagihkan secara sama rata, iaitu, tiada lompang atau pemeluwapan. Dalam kes ini, cukup untuk menemu bual beberapa orang. Berdasarkan hasil tinjauan, adalah mungkin untuk membuat kesimpulan bahawa majoriti orang mempunyai tahap celik huruf yang normal. Dari sini, keterwakilan maklumat tidak dipengaruhi oleh ciri kuantitatif, tetapi oleh ciri kualitatif populasi - tahap kehomogenannya, khususnya.

Kesilapan

Mereka mewakili sisihan parameter purata populasi sampel daripada nilai jumlah jisim responden. Dalam amalan, ralat ditentukan dengan padanan. Apabila meninjau orang dewasa, data daripada banci, rekod statistik dan hasil tinjauan lepas biasanya digunakan. Parameter kawalan biasanya Perbandingan nilai purata populasi (umum dan sampel), penentuan ralat selaras dengan ini dan pengurangan sisihan ini dipanggil kawalan representatif.

penemuan

Kajian sampel ialah satu cara mengumpul data tentang sikap dan tingkah laku orang ramai melalui tinjauan terhadap kumpulan responden yang dipilih khas. Teknik ini dianggap boleh dipercayai dan menjimatkan, walaupun memerlukan teknik tertentu. Sampel adalah asas. Ia bertindak sebagai bahagian tertentu daripada jumlah jisim orang. Pemilihan dibuat menggunakan teknik khas dan bertujuan untuk mendapatkan maklumat tentang keseluruhan populasi. Yang terakhir, seterusnya, diwakili oleh semua objek sosial yang mungkin atau oleh kumpulan yang akan dikaji. Selalunya, populasi adalah terlalu ramai sehinggakan ia akan menjadi agak mahal dan menyusahkan untuk menjalankan tinjauan setiap ahlinya. Oleh itu, model yang dikurangkan digunakan. Sampel termasuk semua mereka yang menerima soal selidik, yang dipanggil responden, yang, sebenarnya, bertindak sebagai objek kajian. Ringkasnya, ia terdiri daripada ramai orang yang sedang ditemuduga.

Kesimpulan

Objektif tinjauan ditentukan oleh kategori khusus yang termasuk dalam populasi. Bagi bahagian tertentu daripada jumlah jisim orang, ia terdiri daripada subjek yang termasuk dalam kumpulan menggunakan pengiraan matematik. Untuk pemilihan unit, penerangan tentang objek populasi awal adalah perlu. Selepas menentukan bilangan subjek, penerimaan atau kaedah membentuk kumpulan ditentukan. Hasil tinjauan akan membolehkan kami menerangkan sifat yang dikaji berhubung dengan semua wakil jisim umum orang. Seperti yang ditunjukkan oleh amalan, kajian terpilih dan bukannya berterusan terutamanya dijalankan.

Dalam teori kaedah persampelan, pelbagai kaedah pemilihan dan jenis persampelan telah dibangunkan untuk memastikan keterwakilan. Di bawah kaedah pemilihan memahami prosedur untuk memilih unit daripada populasi umum. Terdapat dua kaedah pemilihan: berulang dan tidak berulang. Pada berulang Dalam proses pemilihan, setiap unit yang dipilih secara rawak dikembalikan kepada populasi umum selepas pemeriksaannya dan, semasa pemilihan berikutnya, mungkin sekali lagi jatuh ke dalam sampel. Kaedah pemilihan ini dibina mengikut skema "bola yang dikembalikan": kebarangkalian untuk masuk ke dalam sampel untuk setiap unit populasi umum tidak berubah tanpa mengira bilangan unit yang dipilih. Pada tidak berulang pemilihan, setiap unit yang dipilih secara rawak, selepas pemeriksaannya, tidak dikembalikan kepada populasi umum. Kaedah pemilihan ini dibina mengikut skema "bola tidak dipulangkan": kebarangkalian untuk masuk ke dalam sampel untuk setiap unit populasi umum meningkat apabila pemilihan dibuat.

Bergantung pada metodologi untuk membentuk populasi sampel, yang utama berikut dibezakan: jenis sampel:

sebenarnya rawak;

mekanikal;

tipikal (berstrata, dizonkan);

bersiri (bersarang);

digabungkan;

berbilang peringkat;

berbilang fasa;

saling menembusi.

Sampel rawak sebenar dibentuk mengikut ketat dengan prinsip saintifik dan peraturan pemilihan rawak. Untuk mendapatkan sampel rawak yang betul, populasi umum dibahagikan dengan ketat kepada unit persampelan, dan kemudian bilangan unit yang mencukupi dipilih dalam susunan rawak berulang atau tidak berulang.

Pesanan rawak adalah seperti melukis lot. Dalam amalan, ia paling kerap digunakan apabila menggunakan jadual khas nombor rawak. Jika, sebagai contoh, 40 unit harus dipilih daripada populasi yang mengandungi 1587 unit, maka 40 nombor empat digit yang kurang daripada 1587 dipilih daripada jadual.

Dalam kes apabila sampel rawak sebenar disusun sebagai sampel berulang, ralat piawai dikira mengikut formula (6.1). Dengan kaedah pensampelan tidak berulang, formula untuk mengira ralat piawai ialah:


di mana 1 - n/ N- perkadaran unit populasi umum yang tidak termasuk dalam sampel. Oleh kerana perkadaran ini sentiasa kurang daripada satu, ralat dalam pemilihan tidak berulang, perkara lain adalah sama, sentiasa kurang daripada pemilihan berulang. Pemilihan tidak berulang adalah lebih mudah untuk disusun daripada pemilihan berulang, dan ia digunakan dengan lebih kerap. Walau bagaimanapun, nilai ralat piawai dalam persampelan tidak berulang boleh ditentukan menggunakan formula yang lebih mudah (5.1). Penggantian sedemikian mungkin jika perkadaran unit populasi umum yang tidak termasuk dalam sampel adalah besar dan, oleh itu, nilainya hampir dengan satu.

Membentuk sampel mengikut ketat dengan peraturan pemilihan rawak boleh dikatakan sangat sukar, dan kadang-kadang mustahil, kerana apabila menggunakan jadual nombor rawak, adalah perlu untuk menomborkan semua unit populasi umum. Selalunya, populasi umum sangat besar sehingga sangat sukar dan tidak sesuai untuk menjalankan kerja awal sedemikian, oleh itu, dalam praktiknya, jenis sampel lain digunakan, yang masing-masing tidak rawak. Walau bagaimanapun, ia disusun sedemikian rupa sehingga penghampiran maksimum kepada syarat pemilihan rawak dipastikan.

Apabila semata-mata persampelan mekanikal keseluruhan populasi unit mesti pertama sekali dibentangkan dalam bentuk senarai unit pemilihan, disusun dalam beberapa susunan neutral berkenaan dengan sifat yang dikaji, sebagai contoh, mengikut abjad. Kemudian senarai unit persampelan dibahagikan kepada seberapa banyak bahagian yang sama seperti yang diperlukan untuk memilih unit. Selanjutnya, mengikut peraturan yang telah ditetapkan, tidak berkaitan dengan variasi sifat yang dikaji, satu unit dipilih daripada setiap bahagian senarai. Persampelan jenis ini mungkin tidak selalu memberikan pemilihan rawak, dan sampel yang terhasil mungkin berat sebelah. Ini dijelaskan oleh fakta bahawa, pertama, susunan unit populasi umum mungkin mempunyai unsur yang tidak rawak. Kedua, pensampelan daripada setiap bahagian populasi, jika asal usul tidak ditetapkan dengan betul, juga boleh membawa kepada ralat berat sebelah. Walau bagaimanapun, lebih mudah untuk menyusun sampel mekanikal daripada sampel rawak yang betul, dan persampelan jenis ini paling kerap digunakan dalam tinjauan sampel. Ralat piawai untuk persampelan mekanikal ditentukan oleh formula untuk persampelan tidak berulang rawak sebenar (6.2).

Sampel biasa (zon, berstrata). mempunyai dua matlamat:

untuk memberikan perwakilan dalam sampel kumpulan tipikal populasi umum yang sepadan mengikut ciri-ciri yang diminati penyelidik;

meningkatkan ketepatan keputusan tinjauan sampel.

Dengan sampel biasa, sebelum permulaan pembentukannya, populasi umum unit dibahagikan kepada kumpulan tipikal. Dalam kes ini, perkara yang sangat penting ialah pilihan yang betul bagi atribut kumpulan. Kumpulan biasa yang dipilih mungkin mengandungi bilangan unit pemilihan yang sama atau berbeza. Dalam kes pertama, set sampel dibentuk dengan bahagian pemilihan yang sama daripada setiap kumpulan, dalam kes kedua, dengan bahagian yang berkadar dengan bahagiannya dalam populasi umum. Jika sampel dibentuk dengan bahagian pemilihan yang sama, pada dasarnya ia adalah bersamaan dengan beberapa sampel rawak yang betul daripada populasi yang lebih kecil, setiap satunya adalah kumpulan biasa. Pemilihan daripada setiap kumpulan dijalankan secara rawak (berulang atau tidak berulang) atau susunan mekanikal. Dengan sampel biasa, kedua-duanya dengan bahagian pemilihan yang sama dan tidak sama, adalah mungkin untuk menghapuskan pengaruh variasi antara kumpulan sifat yang dikaji pada ketepatan keputusannya, kerana ia memastikan perwakilan mandatori setiap kumpulan tipikal dalam sampel ditetapkan. Ralat piawai sampel tidak akan bergantung pada magnitud jumlah varians? 2, dan pada nilai purata serakan kumpulan?i 2 . Oleh kerana min varians kumpulan sentiasa kurang daripada jumlah varians, maka, perkara lain adalah sama, ralat piawai sampel biasa akan kurang daripada ralat piawai sampel rawak itu sendiri.

Apabila menentukan ralat piawai sampel biasa, formula berikut digunakan:

Dengan pemilihan berulang

Dengan kaedah pemilihan tidak berulang:

ialah min bagi varians kumpulan dalam populasi sampel.

Pensampelan bersiri (bersarang).- ini adalah jenis pembentukan sampel, apabila bukan unit yang hendak ditinjau, tetapi kumpulan unit (siri, sarang) dipilih secara rawak. Dalam siri (sarang) yang dipilih, semua unit diperiksa. Persampelan bersiri secara praktikal lebih mudah untuk disusun dan dijalankan daripada pemilihan unit individu. Walau bagaimanapun, dengan jenis pensampelan ini, pertama, perwakilan setiap siri tidak dipastikan dan, kedua, pengaruh variasi interseri bagi sifat yang dikaji ke atas keputusan tinjauan tidak dihapuskan. Apabila variasi ini ketara, ia akan meningkatkan ralat perwakilan rawak. Apabila memilih jenis sampel, penyelidik mesti mengambil kira keadaan ini. Ralat standard persampelan bersiri ditentukan oleh formula:

Dengan kaedah pemilihan berulang -


di manakah varians interseri bagi populasi sampel; r– bilangan siri yang dipilih;

Dengan kaedah pemilihan tidak berulang -


di mana R ialah bilangan siri dalam populasi umum.

Dalam amalan, kaedah dan jenis persampelan tertentu digunakan bergantung pada tujuan dan objektif tinjauan sampel, serta kemungkinan mengatur dan menjalankannya. Selalunya, gabungan kaedah persampelan dan jenis persampelan digunakan. Sampel sedemikian dipanggil digabungkan. Penggabungan boleh dilakukan dalam kombinasi yang berbeza: persampelan mekanikal dan bersiri, tipikal dan mekanikal, bersiri dan sebenarnya rawak, dsb. Persampelan gabungan digunakan untuk memastikan keterwakilan yang paling besar dengan kos buruh dan kewangan terendah untuk mengatur dan menjalankan tinjauan.

Dengan sampel gabungan, nilai ralat piawai sampel terdiri daripada ralat pada setiap langkahnya dan boleh ditentukan sebagai punca kuasa dua jumlah kuasa dua ralat sampel yang sepadan. Jadi, jika persampelan mekanikal dan tipikal digunakan dalam kombinasi dengan pensampelan gabungan, maka ralat piawai boleh ditentukan oleh formula


di mana?1 dan? 2 ialah ralat piawai bagi sampel mekanikal dan tipikal, masing-masing.

Keanehan persampelan pelbagai peringkat terdiri daripada fakta bahawa sampel terbentuk secara beransur-ansur, mengikut peringkat pemilihan. Pada peringkat pertama, unit peringkat pertama dipilih menggunakan kaedah dan jenis pemilihan yang telah ditetapkan. Pada peringkat kedua, daripada setiap unit peringkat pertama yang termasuk dalam sampel, unit peringkat kedua dipilih, dan seterusnya. Bilangan peringkat mungkin lebih daripada dua. Pada peringkat terakhir, sampel dibentuk, unit-unitnya tertakluk kepada tinjauan. Jadi, sebagai contoh, untuk tinjauan sampel belanjawan isi rumah, pada peringkat pertama, subjek wilayah negara dipilih, pada peringkat kedua, daerah di wilayah terpilih, pada peringkat ketiga, perusahaan atau organisasi dipilih di setiap majlis perbandaran. , dan, akhirnya, pada peringkat keempat, keluarga dipilih dalam perusahaan terpilih. .

Oleh itu, set persampelan terbentuk pada peringkat terakhir. Persampelan berbilang peringkat adalah lebih fleksibel daripada jenis lain, walaupun secara amnya ia memberikan hasil yang kurang tepat berbanding sampel satu peringkat dengan saiz yang sama. Walau bagaimanapun, pada masa yang sama, ia mempunyai satu kelebihan penting, iaitu bingkai persampelan untuk pemilihan berbilang peringkat perlu dibina pada setiap peringkat hanya untuk unit-unit yang ada dalam sampel, dan ini sangat penting, kerana terdapat selalunya tiada rangka pensampelan siap sedia.

Ralat piawai pensampelan dalam pemilihan berbilang peringkat dengan kumpulan volum berbeza ditentukan oleh formula


di mana?1,?2,?3 , ... adalah ralat piawai pada peringkat yang berbeza;

n1, n2, n3 , .. . ialah bilangan sampel pada peringkat pemilihan yang sepadan.

Sekiranya kumpulan tidak sama dalam jumlah, maka secara teorinya formula ini tidak boleh digunakan. Tetapi jika jumlah bahagian pemilihan pada semua peringkat adalah malar, maka dalam praktiknya pengiraan oleh formula ini tidak akan membawa kepada herotan ralat.

Intipati persampelan berbilang fasa terdiri daripada fakta bahawa, berdasarkan sampel yang mula terbentuk, subsampel terbentuk, daripada subsampel ini, subsampel seterusnya, dsb. Sampel awal ialah fasa pertama, subsampel daripadanya adalah yang kedua, dsb. dinasihatkan untuk menggunakan pensampelan polifasa dalam kes jika:

untuk mengkaji ciri yang berbeza, saiz sampel yang tidak sama diperlukan;

turun naik tanda yang dikaji tidak sama dan ketepatan yang diperlukan adalah berbeza;

untuk semua unit sampel awal (fasa pertama), maklumat yang kurang terperinci harus dikumpul, dan untuk unit setiap fasa berikutnya, maklumat yang lebih terperinci.

Salah satu kelebihan pensampelan berbilang fasa yang tidak diragukan ialah fakta bahawa maklumat yang diperolehi dalam fasa pertama boleh digunakan sebagai maklumat tambahan dalam fasa berikutnya, maklumat fasa kedua boleh digunakan sebagai maklumat tambahan dalam fasa berikutnya, dsb. penggunaan maklumat meningkatkan ketepatan keputusan tinjauan sampel. .

Apabila menganjurkan pensampelan berbilang fasa, gabungan pelbagai kaedah dan jenis pemilihan boleh digunakan (persampelan tipikal dengan pensampelan mekanikal, dsb.). Pemilihan berbilang fasa boleh digabungkan dengan berbilang peringkat. Pada setiap peringkat, persampelan boleh berbilang fasa.

Ralat piawai dalam sampel berbilang fasa dikira untuk setiap fasa secara berasingan mengikut formula kaedah pemilihan dan jenis sampel yang sampelnya dibentuk.

Pilihan interpenetrasi- ini adalah dua atau lebih sampel bebas daripada populasi umum yang sama, dibentuk dengan kaedah dan jenis yang sama. Adalah dinasihatkan untuk menggunakan sampel interpenetrasi jika perlu untuk mendapatkan keputusan awal tinjauan sampel dalam masa yang singkat. Sampel interpenetrasi berkesan untuk menilai hasil tinjauan. Jika keputusan adalah sama dalam sampel bebas, maka ini menunjukkan kebolehpercayaan data tinjauan sampel. Sampel interpenetrasi kadangkala boleh digunakan untuk menguji kerja penyelidik yang berbeza dengan meminta setiap penyelidik menjalankan tinjauan sampel yang berbeza.

Ralat piawai untuk sampel interpenetrasi ditentukan oleh formula yang sama seperti persampelan berkadar biasa (5.3). Sampel interpenetrasi memerlukan lebih banyak tenaga kerja dan wang berbanding jenis lain, jadi penyelidik mesti mengambil kira perkara ini semasa mereka bentuk tinjauan sampel.

Ralat marginal untuk pelbagai kaedah pemilihan dan jenis persampelan ditentukan oleh formula? = t?, di mana? ialah ralat piawai yang sepadan.

Salah satu komponen utama kajian yang direka bentuk dengan baik ialah definisi sampel dan apakah sampel yang mewakili. Ia seperti contoh kek. Lagipun, tidak perlu makan keseluruhan pencuci mulut untuk memahami rasanya? Sebahagian kecil sudah memadai.

Jadi, kek adalah penduduk (iaitu semua responden yang layak untuk tinjauan). Ia boleh dinyatakan secara teritorial, sebagai contoh, hanya penduduk wilayah Moscow. Jantina - wanita sahaja. Atau mempunyai sekatan umur - warga Rusia berumur lebih dari 65 tahun.

Sukar untuk mengira populasi: anda perlu mempunyai data daripada banci penduduk atau tinjauan penilaian awal. Oleh itu, biasanya populasi umum adalah "anggaran", dan daripada bilangan yang terhasil mereka mengira bingkai pensampelan atau persampelan.

Apakah sampel perwakilan?

Sampel adalah bilangan responden yang jelas. Strukturnya harus bertepatan sebanyak mungkin dengan struktur populasi umum dari segi ciri utama pemilihan.

Sebagai contoh, jika responden berpotensi adalah seluruh penduduk Rusia, di mana 54% adalah wanita dan 46% adalah lelaki, maka sampel tersebut harus mengandungi peratusan yang sama. Jika parameter sepadan, maka sampel boleh dipanggil wakil. Ini bermakna ketidaktepatan dan kesilapan dalam kajian dapat diminimumkan.

Saiz sampel ditentukan dengan mengambil kira keperluan ketepatan dan ekonomi. Keperluan ini adalah berkadar songsang antara satu sama lain: lebih besar saiz sampel, lebih tepat hasilnya. Lebih-lebih lagi, semakin tinggi ketepatannya, semakin banyak kos yang diperlukan untuk kajian ini. Dan sebaliknya, semakin kecil sampel, semakin murah kosnya, semakin kurang tepat dan lebih rawak sifat populasi umum dihasilkan semula.

Oleh itu, untuk mengira jumlah pilihan, ahli sosiologi mencipta formula dan mencipta kalkulator khas:

Kebarangkalian keyakinan dan kesilapan keyakinan

Apakah istilah " tahap keyakinan"dan" kesilapan keyakinan"? Tahap keyakinan adalah ukuran ketepatan pengukuran. Ralat keyakinan adalah ralat yang mungkin berlaku dalam keputusan kajian. Sebagai contoh, dengan populasi umum lebih daripada 500,00 orang (contohnya, tinggal di Novokuznetsk), sampel akan menjadi 384 orang dengan tahap keyakinan 95% dan ralat 5% ATAU (dengan selang keyakinan 95 ± 5%).

Apa yang berikut daripada ini? Apabila menjalankan 100 kajian dengan sampel sedemikian (384 orang), dalam 95 peratus kes, jawapan yang diterima, mengikut undang-undang statistik, akan berada dalam ± 5% daripada yang asal. Dan kami akan mendapat sampel yang mewakili dengan kebarangkalian minimum ralat statistik.

Selepas pengiraan saiz sampel dilakukan, anda boleh melihat sama ada terdapat cukup responden dalam versi demo Panel Soal Selidik. Anda boleh mengetahui lebih lanjut tentang cara menjalankan tinjauan panel.

Pelan:

1. Masalah statistik matematik.

2. Jenis sampel.

3. Kaedah pemilihan.

4. Taburan statistik sampel.

5. Fungsi pengedaran empirikal.

6. Poligon dan histogram.

7. Ciri berangka siri variasi.

8. Anggaran statistik parameter pengedaran.

9. Anggaran selang parameter taburan.

1. Tugas dan kaedah statistik matematik

perangkaan matematik adalah satu cabang matematik yang menumpukan kepada kaedah mengumpul, menganalisis dan memproses keputusan data pemerhatian statistik untuk tujuan saintifik dan praktikal.

Biarkan ia dikehendaki mengkaji satu set objek homogen berkenaan dengan beberapa ciri kualitatif atau kuantitatif yang mencirikan objek ini. Sebagai contoh, jika terdapat sekumpulan bahagian, maka piawai bahagian boleh berfungsi sebagai tanda kualitatif, dan saiz bahagian terkawal boleh berfungsi sebagai tanda kuantitatif.

Kadang-kadang kajian berterusan dijalankan, i.e. periksa setiap objek berkenaan dengan ciri yang dikehendaki. Dalam amalan, tinjauan komprehensif jarang digunakan. Sebagai contoh, jika populasi mengandungi bilangan objek yang sangat besar, maka secara fizikalnya mustahil untuk menjalankan tinjauan lengkap. Sekiranya tinjauan objek dikaitkan dengan kemusnahannya atau memerlukan kos material yang besar, maka tidak masuk akal untuk menjalankan tinjauan lengkap. Dalam kes sedemikian, bilangan objek yang terhad (set sampel) dipilih secara rawak daripada keseluruhan populasi dan tertakluk kepada kajian mereka.

Tugas utama statistik matematik adalah untuk mengkaji keseluruhan populasi berdasarkan data sampel, bergantung pada matlamat, i.e. kajian sifat kebarangkalian populasi: hukum taburan, ciri berangka, dsb. untuk membuat keputusan pengurusan di bawah keadaan ketidakpastian.

2. Jenis sampel

Penduduk ialah set objek dari mana sampel dibuat.

Populasi sampel (sampel) ialah koleksi objek yang dipilih secara rawak.

Saiz penduduk ialah bilangan objek dalam koleksi ini. Jumlah populasi umum dilambangkan N, terpilih - n.

Contoh:

Jika daripada 1000 bahagian 100 bahagian dipilih untuk diperiksa, maka jumlah populasi umum N = 1000, dan saiz sampel n = 100.

Persampelan boleh dilakukan dalam dua cara: selepas objek dipilih dan diperhatikan di atasnya, ia boleh dikembalikan atau tidak dikembalikan kepada populasi umum. Itu. Sampel dibahagikan kepada berulang dan tidak berulang.

Diulangdipanggil persampelan, di mana objek yang dipilih (sebelum memilih yang seterusnya) dikembalikan kepada populasi umum.

Tidak berulangdipanggil persampelan, di mana objek yang dipilih tidak dikembalikan kepada populasi umum.

Dalam amalan, pemilihan rawak tidak berulang biasanya digunakan.

Agar data sampel dapat menilai dengan keyakinan yang mencukupi tentang ciri minat dalam populasi umum, adalah perlu bahawa objek sampel mewakilinya dengan betul. Sampel mesti mewakili perkadaran populasi dengan betul. Sampel mestilah wakil (wakil).

Berdasarkan undang-undang bilangan besar, boleh dikatakan bahawa sampel akan mewakili jika ia dijalankan secara rawak.

Jika saiz populasi umum cukup besar, dan sampel hanya sebahagian kecil daripada populasi ini, maka perbezaan antara sampel berulang dan tidak berulang dipadamkan; dalam kes mengehadkan, apabila populasi umum tidak terhingga dipertimbangkan, dan sampel mempunyai saiz terhingga, perbezaan ini hilang.

Contoh:

Dalam jurnal American Literary Review, menggunakan kaedah statistik, satu kajian dibuat mengenai ramalan mengenai keputusan pilihan raya presiden AS yang akan datang pada tahun 1936. Pemohon untuk jawatan ini ialah F.D. Roosevelt dan A. M. Landon. Buku rujukan pelanggan telefon telah diambil sebagai sumber untuk populasi umum orang Amerika yang dikaji. Daripada jumlah ini, 4 juta alamat dipilih secara rawak, yang mana editor majalah menghantar poskad meminta mereka menyatakan sikap mereka terhadap calon presiden. Selepas memproses keputusan tinjauan pendapat, majalah itu menerbitkan ramalan sosiologi bahawa Landon akan memenangi pilihan raya akan datang dengan margin yang besar. Dan ... saya silap: Roosevelt menang.
Contoh ini boleh dilihat sebagai contoh sampel bukan perwakilan. Hakikatnya ialah di Amerika Syarikat pada separuh pertama abad kedua puluh, hanya sebahagian penduduk yang kaya, yang menyokong pandangan Landon, mempunyai telefon.

3. Kaedah pemilihan

Dalam amalan, pelbagai kaedah pemilihan digunakan, yang boleh dibahagikan kepada 2 jenis:

1. Pemilihan tidak memerlukan pembahagian populasi kepada bahagian (a) rawak mudah tiada ulangan; b) ulangan rawak mudah).

2. Pemilihan, di mana populasi umum dibahagikan kepada bahagian. (a) pemilihan tipikal; b) pemilihan mekanikal; dalam) bersiri pemilihan).

rawak mudah panggil ini pemilihan, di mana objek diekstrak satu demi satu daripada keseluruhan populasi umum (secara rawak).

tipikaldipanggil pemilihan, di mana objek dipilih bukan daripada keseluruhan populasi umum, tetapi daripada setiap bahagian "tipikal"nya. Sebagai contoh, jika sesuatu bahagian dibuat pada beberapa mesin, maka pemilihan dibuat bukan daripada keseluruhan set bahagian yang dihasilkan oleh semua mesin, tetapi daripada produk setiap mesin secara berasingan. Pemilihan sedemikian digunakan apabila sifat yang diperiksa turun naik dengan ketara dalam pelbagai bahagian "tipikal" populasi umum.

mekanikaldipanggil pemilihan, di mana populasi umum "secara mekanikal" dibahagikan kepada seberapa banyak kumpulan kerana terdapat objek untuk dimasukkan ke dalam sampel, dan satu objek dipilih daripada setiap kumpulan. Sebagai contoh, jika anda perlu memilih 20% bahagian yang dibuat oleh mesin, maka setiap bahagian ke-5 dipilih; jika perlu memilih 5% bahagian - setiap 20hb, dsb. Kadangkala pemilihan sedemikian mungkin tidak memastikan sampel yang mewakili (jika setiap penggelek pusing ke-20 dipilih, dan pemotong diganti serta-merta selepas pemilihan, maka semua penggelek yang dipusing dengan pemotong tumpul akan dipilih).

bersiridipanggil pemilihan, di mana objek dipilih daripada populasi umum bukan satu demi satu, tetapi dalam "siri", yang tertakluk kepada tinjauan berterusan. Sebagai contoh, jika produk dikeluarkan oleh sekumpulan besar mesin automatik, maka produk hanya beberapa mesin tertakluk kepada pemeriksaan berterusan.

Dalam amalan, pemilihan gabungan sering digunakan, di mana kaedah di atas digabungkan.

4. Taburan statistik sampel

Biarkan sampel diambil daripada populasi umum, dan nilai x 1-dicerap sekali, x 2 -n 2 kali, ... x k - n k kali. n= n 1 +n 2 +...+n k ialah saiz sampel. Nilai yang diperhatikandipanggil pilihan, dan turutan ialah varian yang ditulis dalam tertib menaik - siri variasi. Bilangan pemerhatiandipanggil frekuensi (frekuensi mutlak), dan hubungannya dengan saiz sampel- frekuensi relatif atau kebarangkalian statistik.

Jika bilangan pilihan adalah besar atau sampel dibuat daripada populasi umum yang berterusan, maka siri variasi disusun bukan oleh nilai mata individu, tetapi dengan selang nilai populasi umum. Siri sedemikian dipanggil selang waktu. Panjang selang mestilah sama.

Taburan statistik sampel dipanggil senarai pilihan dan frekuensi yang sepadan atau frekuensi relatifnya.

Taburan statistik juga boleh ditentukan sebagai jujukan selang dan frekuensi sepadannya (jumlah frekuensi yang termasuk dalam selang nilai ini)

Siri variasi titik frekuensi boleh diwakili oleh jadual:

x i
x 1
x2

x k
n i
n 1
n 2

nk

Begitu juga, seseorang boleh mewakili siri variasi titik frekuensi relatif.

Dan:

Contoh:

Bilangan huruf dalam beberapa teks X ternyata sama dengan 1000. Huruf pertama ialah "i", yang kedua - huruf "i", yang ketiga - huruf "a", yang keempat - "u". Kemudian muncul huruf "o", "e", "y", "e", "s".

Mari tuliskan tempat yang mereka duduki dalam abjad, masing-masing, kita ada: 33, 10, 1, 32, 16, 6, 21, 31, 29.

Selepas memesan nombor ini dalam tertib menaik, kami mendapat siri variasi: 1, 6, 10, 16, 21, 29, 31, 32, 33.

Kekerapan penampilan huruf dalam teks: "a" - 75, "e" -87, "i" - 75, "o" - 110, "y" - 25, "s" - 8, "e" - 3, "yu "- 7," saya "- 22.

Kami mengarang siri variasi titik frekuensi:

Contoh:

Taburan kekerapan pensampelan volum ditentukan n = 20.

Buat satu siri variasi titik frekuensi relatif.

x i

2

6

12

n i

3

10

7

Keputusan:

Cari frekuensi relatif:


x i

2

6

12

w i

0,15

0,5

0,35

Apabila membina taburan selang, terdapat peraturan untuk memilih bilangan selang atau saiz setiap selang. Kriteria di sini ialah nisbah optimum: dengan peningkatan dalam bilangan selang, keterwakilan bertambah baik, tetapi jumlah data dan masa untuk memprosesnya meningkat. Beza x max - x min antara nilai terbesar dan terkecil varian dipanggil secara besar-besaran sampel.

Untuk mengira bilangan selang k biasanya menggunakan formula empirikal Sturgess (menyiratkan pembundaran kepada integer mudah terdekat): k = 1 + 3.322 log n .

Sehubungan itu, nilai setiap selang h boleh dikira menggunakan formula:

5. Fungsi pengedaran empirikal

Pertimbangkan beberapa sampel daripada populasi umum. Biarkan taburan statistik frekuensi bagi atribut kuantitatif X diketahui. Mari kita perkenalkan notasi: n xialah bilangan cerapan di mana nilai ciri kurang daripada x diperhatikan; n ialah jumlah bilangan pemerhatian (saiz sampel). Kekerapan peristiwa relatif X<х равна n x /n . Jika x berubah, maka frekuensi relatif juga berubah, i.e. frekuensi relatifn x /nialah fungsi bagi x. Kerana ia didapati secara empirik, ia dipanggil empirikal.

Fungsi pengedaran empirikal (fungsi pengedaran sampel) panggil fungsi, yang menentukan bagi setiap x kekerapan relatif bagi peristiwa X<х.


di manakah bilangan pilihan kurang daripada x,

n - saiz sampel.

Tidak seperti fungsi taburan empirikal sampel, fungsi taburan F(x) populasi dipanggil fungsi taburan teori.

Perbezaan antara fungsi taburan empirikal dan teori ialah fungsi teori F (x) menentukan kebarangkalian sesuatu peristiwa X F*(x) cenderung dalam kebarangkalian kepada kebarangkalian F (x) peristiwa ini. Iaitu, untuk n besar F*(x) dan F(x) berbeza sedikit antara satu sama lain.

Itu. adalah dinasihatkan untuk menggunakan fungsi taburan empirikal sampel untuk perwakilan anggaran fungsi taburan teori (integral) populasi umum.

F*(x) mempunyai semua sifat F(x).

1. Nilai F*(x) tergolong dalam selang.

2. F*(x) ialah fungsi tidak menurun.

3. Jika ialah varian terkecil, maka F*(x) = 0, pada x < x1; jika x k ialah varian terbesar, maka F*(x) = 1, untuk x > x k .

Itu. F*(x) berfungsi untuk menganggar F(x).

Jika sampel diberikan oleh siri variasi, maka fungsi empirikal mempunyai bentuk:

Graf fungsi empirikal dipanggil kumulatif.

Contoh:

Plotkan fungsi empirikal ke atas taburan sampel yang diberikan.


Keputusan:

Saiz sampel n = 12 + 18 +30 = 60. Pilihan terkecil ialah 2, i.e. pada x < 2. Peristiwa X<6, (x 1 = 2) наблюдалось 12 раз, т.е. F*(x)=12/60=0.2 pukul 2 < x < 6. Peristiwa X<10, (x 1 =2, x 2 = 6) наблюдалось 12 + 18 = 30 раз, т.е.F*(x)=30/60=0,5 при 6 < x < 10. Kerana x=10 ialah pilihan terbesar, maka F*(x) = 1 pada x>10. Fungsi empirikal yang dikehendaki mempunyai bentuk:

Kumpulkan:


Terkumpul memungkinkan untuk memahami maklumat yang dibentangkan secara grafik, sebagai contoh, untuk menjawab soalan: “Tentukan bilangan pemerhatian di mana nilai atribut adalah kurang daripada 6 atau tidak kurang daripada 6. F*(6) = 0.2 » Kemudian bilangan cerapan di mana nilai ciri yang diperhatikan adalah kurang daripada 6 ialah 0.2* n \u003d 0.2 * 60 \u003d 12. Bilangan pemerhatian di mana nilai ciri yang diperhatikan tidak kurang daripada 6 ialah (1-0.2) * n \u003d 0.8 * 60 \u003d 48.

Jika siri variasi selang diberikan, maka untuk menyusun fungsi taburan empirikal, titik tengah selang ditemui dan fungsi taburan empirikal diperoleh daripadanya sama seperti siri variasi titik.

6. Poligon dan histogram

Untuk kejelasan, pelbagai graf taburan statistik dibina: polinomial dan histogram

Poligon kekerapan- ini ialah garis putus-putus, segmen yang menyambungkan titik ( x 1 ;n 1 ), ( x 2 ;n 2 ),…, ( x k ; n k ), di manakah pilihan, ialah frekuensi yang sepadan dengannya.

Poligon frekuensi relatif - ini ialah garis putus-putus, segmen yang menyambungkan titik ( x 1 ;w 1 ), (x 2 ;w 2 ),…, ( x k ;w k ), dengan x i ialah pilihan, w i ialah frekuensi relatif yang sepadan dengannya.

Contoh:

Plot polinomial kekerapan relatif ke atas taburan sampel yang diberikan:

Keputusan:

Dalam kes ciri berterusan, adalah dinasihatkan untuk membina histogram, yang mana selang, yang mengandungi semua nilai yang diperhatikan ciri, dibahagikan kepada beberapa selang separa panjang h dan untuk setiap selang separa n i didapati. - jumlah frekuensi varian yang jatuh ke dalam selang ke-i. (Sebagai contoh, apabila mengukur ketinggian atau berat seseorang, kita berhadapan dengan tanda berterusan).

Histogram frekuensi- ini adalah rajah bertingkat, yang terdiri daripada segi empat tepat, tapaknya adalah selang separa panjang h, dan ketinggiannya sama dengan nisbah (ketumpatan frekuensi).

Kawasan segi empat tepat separa ke-i adalah sama dengan jumlah frekuensi bagi varian selang ke-i, i.e. luas histogram frekuensi adalah sama dengan jumlah semua frekuensi, i.e. saiz sampel.

Contoh:

Keputusan perubahan voltan (dalam volt) dalam rangkaian elektrik diberikan. Susun siri variasi, bina poligon dan histogram frekuensi jika nilai voltan adalah seperti berikut: 227, 215, 230, 232, 223, 220, 228, 222, 221, 226, 226, 215, 218, 220 216, 220, 225, 212, 217, 220.

Keputusan:

Mari buat satu siri variasi. Kami mempunyai n = 20, x min =212, x max =232.

Mari gunakan formula Sturgess untuk mengira bilangan selang.

Siri variasi selang frekuensi mempunyai bentuk:


Ketumpatan Kekerapan

212-21 6

0,75

21 6-22 0

0,75

220-224

1,75

224-228

228-232

0,75

Mari bina histogram frekuensi:

Mari kita bina poligon frekuensi dengan mencari titik tengah selang dahulu:


Histogram frekuensi relatif panggil rajah bertingkat yang terdiri daripada segi empat tepat, tapaknya adalah selang separa panjang h, dan ketinggiannya sama dengan nisbah w i/h (ketumpatan frekuensi relatif).

Kawasan Segi empat tepat separa ke-i adalah sama dengan kekerapan relatif bagi varian yang jatuh ke dalam selang ke-i. Itu. luas histogram frekuensi relatif adalah sama dengan jumlah semua frekuensi relatif, i.e. unit.

7. Ciri berangka siri variasi

Pertimbangkan ciri-ciri utama populasi umum dan sampel.

menengah am dipanggil min aritmetik bagi nilai-nilai ciri populasi umum.

Untuk nilai yang berbeza x 1 , x 2 , x 3 , …, x n . tanda populasi umum isipadu N yang kita ada:

Jika nilai atribut mempunyai frekuensi yang sepadan N 1 +N 2 +…+N k =N , maka


min sampel dipanggil min aritmetik bagi nilai ciri populasi sampel.

Jika nilai atribut mempunyai frekuensi yang sepadan n 1 +n 2 +…+n k = n, maka


Contoh:

Kirakan min sampel bagi sampel: x 1 = 51.12; x 2 \u003d 51.07; x 3 \u003d 52.95; x 4 \u003d 52.93; x 5 \u003d 51.1; x 6 \u003d 52.98; x 7 \u003d 52.29; x 8 \u003d 51.23; x 9 \u003d 51.07; x10 = 51.04.

Keputusan:

Varians am dipanggil min aritmetik bagi sisihan kuasa dua nilai-nilai ciri X populasi umum daripada purata umum.

Untuk nilai yang berbeza x 1 , x 2 , x 3 , …, x N tanda populasi isipadu N kita ada:

Jika nilai atribut mempunyai frekuensi yang sepadan N 1 +N 2 +…+N k =N , maka

Sisihan piawai am (standard) dipanggil punca kuasa dua varians am

Varians sampel dipanggil min aritmetik bagi sisihan kuasa dua bagi nilai yang diperhatikan ciri daripada nilai min.

Untuk nilai yang berbeza x 1 , x 2 , x 3 , ..., x n tanda populasi sampel isipadu n kita ada:


Jika nilai atribut mempunyai frekuensi yang sepadan n 1 +n 2 +…+n k = n, maka


Sisihan piawai sampel (standard) dipanggil punca kuasa dua varians sampel.


Contoh:

Set persampelan diberikan oleh jadual pengedaran. Cari varians sampel.


Keputusan:

Teorem: Varians adalah sama dengan perbezaan antara min kuasa dua nilai ciri dan kuasa dua jumlah min.

Contoh:

Cari varians untuk taburan ini.



Keputusan:

8. Anggaran statistik parameter pengedaran

Biarkan populasi umum dikaji oleh beberapa sampel. Dalam kes ini, adalah mungkin untuk mendapatkan hanya nilai anggaran parameter Q yang tidak diketahui, yang berfungsi sebagai anggarannya. Adalah jelas bahawa anggaran boleh berbeza-beza dari satu sampel ke yang lain.

Penilaian statistikQ* parameter taburan teori yang tidak diketahui dipanggil fungsi f, yang bergantung pada nilai sampel yang diperhatikan. Tugas anggaran statistik parameter yang tidak diketahui daripada sampel adalah untuk membina fungsi sedemikian daripada data pemerhatian statistik yang tersedia yang akan memberikan nilai anggaran yang paling tepat, yang tidak diketahui oleh penyelidik, nilai parameter ini.

Anggaran statistik dibahagikan kepada titik dan selang, bergantung pada cara ia disediakan (nombor atau selang).

Anggaran mata dipanggil anggaran statistik. parameter Q taburan teori ditentukan oleh satu nilai parameter Q *=f (x 1 , x 2 , ..., x n), di manax 1 , x 2 , ...,xn- hasil pemerhatian empirikal pada atribut kuantitatif X sampel tertentu.

Anggaran parameter sedemikian yang diperoleh daripada sampel yang berbeza selalunya berbeza antara satu sama lain. Perbezaan mutlak /Q *-Q / dipanggil ralat pensampelan (anggaran).

Agar anggaran statistik memberikan hasil yang boleh dipercayai tentang parameter anggaran, adalah perlu bahawa ia tidak berat sebelah, cekap dan konsisten.

Anggaran Mata, jangkaan matematik yang sama (tidak sama) dengan parameter anggaran, dipanggil tidak berubah (beralih). M(Q *)=Q .

Perbezaan M( Q *)-Q dipanggil bias atau ralat sistematik. Untuk anggaran tidak berat sebelah, ralat sistematik ialah 0.

cekap penilaian Q *, yang, untuk saiz sampel tertentu n, mempunyai varians terkecil yang mungkin: D min(n = const ). Penganggar berkesan mempunyai sebaran terkecil berbanding penganggar lain yang tidak berat sebelah dan konsisten.

Kayadipanggil statistik sedemikian penilaian Q *, yang untuk ncenderung dalam kebarangkalian kepada parameter anggaran Q , iaitu dengan pertambahan saiz sampel n anggaran cenderung dalam kebarangkalian kepada nilai sebenar parameter Q.

Keperluan ketekalan adalah konsisten dengan undang-undang nombor besar: lebih banyak maklumat awal tentang objek yang dikaji, lebih tepat hasilnya. Jika saiz sampel kecil, maka anggaran titik parameter boleh membawa kepada ralat yang serius.

mana-mana sampel (volumen) boleh dianggap sebagai set yang dipesanx 1 , x 2 , ...,xn pembolehubah rawak teragih sama bebas.

Sampel bermakna untuk sampel volum yang berbeza n daripada populasi yang sama akan berbeza. Maksudnya, min sampel boleh dianggap sebagai pembolehubah rawak, yang bermaksud bahawa kita boleh bercakap tentang taburan min sampel dan ciri berangkanya.

Min sampel memenuhi semua keperluan yang dikenakan pada anggaran statistik, i.e. memberikan anggaran yang tidak berat sebelah, cekap dan konsisten bagi min populasi.

Ia boleh dibuktikan bahawa. Oleh itu, varians sampel ialah anggaran berat sebelah bagi varians umum, memberikan nilai yang dipandang rendah. Iaitu, dengan saiz sampel yang kecil, ia akan memberikan ralat sistematik. Untuk anggaran yang tidak berat sebelah, konsisten, cukuplah untuk mengambil kuantiti, yang dipanggil varians diperbetulkan. i.e.

Dalam amalan, untuk menganggar varians am, varians diperbetulkan digunakan apabila n < 30. Dalam kes lain ( n >30) sisihan daripada hampir tidak ketara. Oleh itu, untuk nilai yang besar n ralat bias boleh diabaikan.

Seseorang juga boleh membuktikan bahawa kekerapan relatifn i / n ialah anggaran kebarangkalian yang tidak berat sebelah dan konsisten P(X=x i ). Fungsi pengedaran empirikal F*(x ) ialah anggaran yang tidak berat sebelah dan konsisten bagi fungsi taburan teori F(x)=P(X< x ).

Contoh:

Cari anggaran tidak berat sebelah bagi min dan varians daripada jadual sampel.

x i
n i

Keputusan:

Saiz sampel n=20.

Anggaran tidak berat sebelah bagi jangkaan matematik ialah min sampel.


Untuk mengira anggaran tidak berat sebelah bagi varians, kami mula-mula mencari varians sampel:

Sekarang mari cari anggaran yang tidak berat sebelah:

9. Anggaran selang parameter taburan

Selang ialah anggaran statistik yang ditentukan oleh dua nilai berangka - hujung selang yang dikaji.

Nombor> 0, di mana | Q - Q*|< , mencirikan ketepatan anggaran selang.

Dipercayaidipanggil selang waktu , yang dengan kebarangkalian yang diberikanmeliputi nilai parameter yang tidak diketahui Q . Melengkapkan selang keyakinan kepada set semua nilai parameter yang mungkin Q dipanggil kawasan kritikal. Jika kawasan kritikal terletak hanya pada satu sisi selang keyakinan, maka selang keyakinan dipanggil unilateral: sebelah kiri, jika kawasan kritikal hanya wujud di sebelah kiri, dan tangan kanan melainkan di sebelah kanan. Jika tidak, selang keyakinan dipanggil dua hala.

Kebolehpercayaan, atau tahap keyakinan, Anggaran Q (menggunakan Q *) namakan kebarangkalian ketidaksamaan berikut dipenuhi: | Q - Q*|< .

Selalunya, kebarangkalian keyakinan ditetapkan terlebih dahulu (0.95; 0.99; 0.999) dan keperluan dikenakan ke atasnya untuk mendekati satu.

Kebarangkaliandipanggil kebarangkalian kesilapan, atau tahap kepentingan.

Biarkan | Q - Q*|< , kemudian. Ini bermakna bahawa dengan kebarangkalianboleh dikatakan bahawa nilai sebenar parameter Q tergolong dalam selang. Semakin kecil sisihan, lebih tepat anggarannya.

Sempadan (hujung) selang keyakinan dipanggil sempadan keyakinan, atau sempadan kritikal.

Nilai sempadan selang keyakinan bergantung pada hukum taburan parameter Q*.

Nilai sisihanseparuh lebar selang keyakinan dipanggil ketepatan penilaian.

Kaedah untuk membina selang keyakinan mula-mula dibangunkan oleh ahli statistik Amerika Y. Neumann. Ketepatan Anggaran, kebarangkalian keyakinan dan saiz sampel n saling berkaitan. Oleh itu, mengetahui nilai khusus dua kuantiti, anda sentiasa boleh mengira yang ketiga.

Mencari selang keyakinan untuk menganggar jangkaan matematik bagi taburan normal jika sisihan piawai diketahui.

Biarkan sampel dibuat daripada populasi umum, tertakluk kepada undang-undang taburan normal. Biarkan sisihan piawai am diketahui, tetapi jangkaan matematik bagi taburan teori tidak diketahui a().

Formula berikut adalah sah:

Itu. mengikut nilai sisihan yang ditetapkanadalah mungkin untuk mencari dengan kebarangkalian apakah min am yang tidak diketahui tergolong dalam selang itu. Dan begitu juga sebaliknya. Ia boleh dilihat daripada formula bahawa dengan peningkatan dalam saiz sampel dan nilai tetap kebarangkalian keyakinan, nilai- berkurangan, i.e. ketepatan anggaran bertambah. Dengan peningkatan kebolehpercayaan (kebarangkalian keyakinan), nilai-meningkat, i.e. ketepatan anggaran berkurangan.

Contoh:

Hasil daripada ujian, nilai berikut diperolehi -25, 34, -20, 10, 21. Adalah diketahui bahawa mereka mematuhi undang-undang taburan normal dengan sisihan piawai 2. Cari anggaran a* untuk jangkaan matematik a. Plot selang keyakinan 90% untuknya.

Keputusan:

Mari cari anggaran yang tidak berat sebelah

Kemudian


Selang keyakinan untuk a mempunyai bentuk: 4 - 1.47< a< 4+ 1,47 или 2,53 < a < 5, 47

Mencari selang keyakinan untuk menganggar jangkaan matematik bagi taburan normal jika sisihan piawai tidak diketahui.

Hendaklah diketahui bahawa populasi umum tertakluk kepada hukum taburan normal, di mana a dan. Ketepatan Meliputi Selang Keyakinan dengan Kebolehpercayaannilai sebenar parameter a, dalam kes ini, dikira dengan formula:

, di mana n ialah saiz sampel, , - Pekali pelajar (ia perlu didapati daripada nilai yang diberikan n dan daripada jadual "Titik kritikal taburan Pelajar").

Contoh:

Hasil daripada ujian, nilai berikut diperolehi -35, -32, -26, -35, -30, -17. Adalah diketahui bahawa mereka mematuhi undang-undang taburan normal. Cari selang keyakinan bagi min populasi a dengan aras keyakinan 0.9.

Keputusan:

Mari cari anggaran yang tidak berat sebelah.

Jom cari.

Kemudian

Selang keyakinan akan mengambil bentuk(-29.2 - 5.62; -29.2 + 5.62) atau (-34.82; -23.58).

Mencari selang keyakinan bagi varians dan sisihan piawai bagi taburan normal

Biarkan sampel rawak isipadu diambil daripada beberapa set nilai umum yang diedarkan mengikut hukum biasan < 30 yang mana varians sampel dikira: berat sebelahdan diperbetulkan s 2. Kemudian untuk mencari anggaran selang dengan kebolehpercayaan yang diberikanuntuk penyebaran umumDsisihan piawai amformula berikut digunakan.


atau,

Nilai- cari menggunakan jadual nilai titik kritikalPengagihan Pearson.

Selang keyakinan bagi varians didapati daripada ketaksamaan ini dengan mengkuadratkan semua bahagian ketaksamaan.

Contoh:

Kualiti 15 bolt telah diperiksa. Dengan mengandaikan bahawa ralat dalam pembuatannya tertakluk kepada undang-undang taburan normal, dan sisihan piawai sampelsama dengan 5 mm, tentukan dengan kebolehpercayaanselang keyakinan untuk parameter yang tidak diketahui

Kami mewakili sempadan selang sebagai ketaksamaan berganda:

Hujung selang keyakinan dua belah bagi varians boleh ditentukan tanpa melakukan aritmetik untuk tahap keyakinan dan saiz sampel tertentu menggunakan jadual yang sepadan (Had selang keyakinan untuk varians bergantung pada bilangan darjah kebebasan dan kebolehpercayaan) . Untuk melakukan ini, hujung selang yang diperoleh daripada jadual didarab dengan varians yang dibetulkan s 2.

Contoh:

Mari selesaikan masalah sebelum ini dengan cara yang berbeza.

Keputusan:

Mari cari varians yang diperbetulkan:

Menurut jadual "Had selang keyakinan untuk varians bergantung pada bilangan darjah kebebasan dan kebolehpercayaan", kita dapati sempadan selang keyakinan untuk varians padak=14 dan: had bawah 0.513 dan had atas 2.354.

Darabkan sempadan yang diperolehi dengans 2 dan ekstrak punca (kerana kita memerlukan selang keyakinan bukan untuk varians, tetapi untuk sisihan piawai).

Seperti yang dapat dilihat daripada contoh, nilai selang keyakinan bergantung kepada kaedah pembinaannya dan memberikan keputusan yang rapat tetapi berbeza.

Untuk sampel saiz yang cukup besar (n>30) sempadan selang keyakinan bagi sisihan piawai am boleh ditentukan dengan formula: - beberapa nombor, yang dijadualkan dan diberikan dalam jadual rujukan yang sepadan.

Jika 1- q<1, то формула имеет вид:

Contoh:

Jom selesaikan masalah sebelum ini dengan cara ketiga.

Keputusan:

Ditemui sebelum inis= 5,17. q(0.95; 15) = 0.46 - kita dapati mengikut jadual.

Kemudian:

Pemerhatian terpilih terpakai apabila menggunakan pemerhatian berterusan mustahil secara fizikal disebabkan oleh sejumlah besar data atau tidak praktikal dari segi ekonomi. Ketidakmungkinan fizikal berlaku, sebagai contoh, apabila mengkaji aliran penumpang, harga pasaran, belanjawan keluarga. Ketidakupayaan ekonomi berlaku apabila menilai kualiti barangan yang berkaitan dengan kemusnahannya, contohnya, mengecap, menguji kekuatan batu bata, dsb.

Unit statistik yang dipilih untuk pemerhatian ialah bingkai pensampelan atau persampelan, dan keseluruhan tatasusunan mereka - Populasi umum(GS). Di mana bilangan unit dalam sampel menetapkan n, dan dalam keseluruhan HS - N. Sikap n/N dipanggil saiz relatif atau bahagian sampel.

Kualiti keputusan pensampelan bergantung kepada keterwakilan sampel, iaitu bagaimana ia mewakili dalam GS. Untuk memastikan keterwakilan sampel, perlu diperhatikan prinsip pemilihan unit secara rawak, yang mengandaikan bahawa kemasukan unit HS dalam sampel tidak boleh dipengaruhi oleh sebarang faktor selain daripada kebetulan.

wujud 4 cara pemilihan rawak untuk sampel:

  1. Sebenarnya rawak pemilihan atau "kaedah lotto", apabila nombor siri diberikan kepada nilai statistik, dimasukkan pada objek tertentu (contohnya, tong), yang kemudiannya dicampur dalam beberapa bekas (contohnya, dalam beg) dan dipilih secara rawak. Dalam amalan, kaedah ini dijalankan menggunakan penjana nombor rawak atau jadual matematik nombor rawak.
  2. mekanikal pemilihan, mengikut mana setiap ( N/n)-nilai populasi umum. Sebagai contoh, jika ia mengandungi 100,000 nilai, dan anda ingin memilih 1,000, maka setiap 100,000 / 1000 = nilai ke-100 akan jatuh ke dalam sampel. Lebih-lebih lagi, jika mereka tidak disenaraikan, maka yang pertama dipilih secara rawak daripada seratus pertama, dan bilangan yang lain akan menjadi seratus lagi. Sebagai contoh, jika nombor unit 19 adalah yang pertama, maka nombor 119 hendaklah seterusnya, kemudian nombor 219, kemudian nombor 319, dan seterusnya. Jika unit populasi disenaraikan, maka #50 dipilih dahulu, kemudian #150, kemudian #250, dan seterusnya.
  3. Pemilihan nilai daripada tatasusunan data heterogen dijalankan berstrata(berstrata), apabila populasi umum sebelum ini dibahagikan kepada kumpulan homogen, yang mana pemilihan rawak atau mekanikal digunakan.
  4. Kaedah persampelan khas ialah bersiri pemilihan, di mana bukan kuantiti individu dipilih secara rawak atau mekanikal, tetapi sirinya (jujukan daripada beberapa nombor kepada beberapa berturut-turut), di mana pemerhatian berterusan dijalankan.

Kualiti pemerhatian sampel juga bergantung kepada jenis pensampelan: berulang atau tidak berulang.
Pada pemilihan semula nilai statistik atau siri mereka yang jatuh ke dalam sampel dikembalikan kepada populasi umum selepas digunakan, mempunyai peluang untuk masuk ke dalam sampel baharu. Pada masa yang sama, semua nilai populasi umum mempunyai kebarangkalian yang sama untuk dimasukkan ke dalam sampel.
Pemilihan tidak berulang bermakna bahawa nilai statistik atau siri mereka yang termasuk dalam sampel tidak dikembalikan kepada populasi umum selepas digunakan, dan oleh itu kebarangkalian untuk masuk ke sampel seterusnya meningkat untuk baki nilai yang terakhir.

Persampelan tidak berulang memberikan hasil yang lebih tepat, jadi ia digunakan lebih kerap. Tetapi terdapat situasi apabila ia tidak boleh digunakan (kajian aliran penumpang, permintaan pengguna, dll.) dan kemudian pemilihan semula dijalankan.

Ralat pensampelan

Set persampelan boleh dibentuk berdasarkan tanda kuantitatif nilai statistik, serta berdasarkan alternatif atau atribut. Dalam kes pertama, ciri umum sampel ialah nilai yang dilambangkan dengan , dan dalam kedua - bahagian sampel kuantiti, dilambangkan w. Dalam populasi umum, masing-masing: purata am dan bahagian am p.

Perbezaan - dan WR dipanggil ralat pensampelan, yang dibahagikan dengan ralat pendaftaran dan kesilapan perwakilan. Bahagian pertama ralat pensampelan timbul daripada maklumat yang salah atau tidak tepat kerana salah faham tentang intipati isu, kecuaian pendaftar semasa mengisi soal selidik, borang, dsb. Ia agak mudah untuk dikesan dan diperbaiki. Bahagian kedua ralat timbul daripada ketidakpatuhan berterusan atau spontan dengan prinsip pemilihan rawak. Sukar untuk dikesan dan dihapuskan, ia lebih besar daripada yang pertama dan oleh itu perhatian utama diberikan kepadanya.

Nilai ralat pensampelan mungkin berbeza untuk sampel yang berbeza daripada populasi umum yang sama, oleh itu, dalam statistik ia ditentukan ralat purata pensampelan semula dan bukan pensampelan mengikut formula:

Diulang;

- tidak berulang;

Di mana Dv ialah varians sampel.

Contohnya, di kilang yang mempunyai 1000 pekerja. 5% persampelan rawak tidak berulang telah dijalankan untuk menentukan purata tempoh perkhidmatan pekerja. Keputusan pemerhatian persampelan diberikan dalam dua lajur pertama jadual berikut:

X , tahun
(pengalaman kerja)

f , pers.
(bilangan pekerja dalam sampel)

X dan

X dan f

Dalam lajur ke-3, titik tengah selang X ditakrifkan (sebagai separuh hasil tambah sempadan bawah dan atas selang), dan dalam lajur ke-4, hasil darab X dan f untuk mencari min sampel menggunakan aritmetik berwajaran. formula min:

143.0/50 = 2.86 (tahun).

Kira varians sampel berwajaran:
= 105,520/50 = 2,110.

Sekarang mari cari purata ralat bukan ujian semula:
= 0.200 (tahun).

Daripada formula untuk ralat pensampelan purata, dapat dilihat bahawa ralat adalah lebih kecil dengan pensampelan tidak berulang, dan, seperti yang dibuktikan dalam teori kebarangkalian, ia berlaku dengan kebarangkalian 0.683 (iaitu, jika anda mengambil 1000 sampel daripada satu am populasi, maka dalam 683 daripadanya ralat tidak akan melebihi ralat pensampelan purata). Kebarangkalian ini (0.683) tidak tinggi, jadi ia tidak begitu sesuai untuk pengiraan praktikal, di mana kebarangkalian yang lebih tinggi diperlukan. Untuk menentukan ralat pensampelan dengan kebarangkalian lebih tinggi daripada 0.683, hitung ralat pensampelan marginal:

di mana t– pekali keyakinan, bergantung pada kebarangkalian ralat pensampelan marginal ditentukan.

Nilai Faktor Keyakinan t dikira untuk kebarangkalian yang berbeza dan tersedia dalam jadual khas (kamiran Laplace), yang mana gabungan berikut digunakan secara meluas dalam statistik:

Kebarangkalian 0,683 0,866 0,950 0,954 0,988 0,990 0,997 0,999
t 1 1,5 1,96 2 2,5 2,58 3 3,5

Memandangkan tahap kebarangkalian tertentu, nilai yang sepadan dengannya dipilih daripada jadual t dan tentukan ralat pensampelan marginal dengan formula.
Dalam kes ini, = 0.95 dan t= 1.96, iaitu, mereka percaya bahawa dengan kebarangkalian 95%, ralat persampelan marginal adalah 1.96 kali lebih besar daripada purata. Kebarangkalian ini (0.95) dipertimbangkan standard dan digunakan secara lalai dalam pengiraan.

Dalam , kami mentakrifkan ralat pensampelan marginal pada kebarangkalian standard 95% (daripada mengambil t= 1.96 untuk 95% peluang): = 1.96*0.200 = 0.392 (tahun).

Selepas mengira ralat marginal, seseorang mendapati selang keyakinan ciri generalisasi populasi umum. Selang sedemikian untuk purata am mempunyai bentuk
Iaitu, purata tempoh perkhidmatan pekerja di seluruh loji terletak dalam julat dari 2.468 hingga 3.252 tahun.

Menentukan saiz sampel

Apabila membangunkan program pemerhatian terpilih, kadangkala mereka diberi nilai khusus ralat marginal dengan tahap kebarangkalian. Saiz sampel minimum yang memberikan ketepatan yang diberikan masih tidak diketahui. Ia boleh didapati daripada formula untuk ralat min dan marginal, bergantung kepada jenis sampel. Jadi, menggantikan dan ke dalam dan, menyelesaikannya berkenaan dengan saiz sampel, kami memperoleh formula berikut:
untuk pensampelan semula n =
untuk tiada pensampelan semula n = .

Di samping itu, untuk nilai statistik dengan ciri kuantitatif, seseorang juga mesti mengetahui varians sampel, tetapi pada permulaan pengiraan ia tidak diketahui sama ada. Oleh itu, ia diterima lebih kurang salah satu daripada yang berikut cara(dalam susunan keutamaan):

Apabila mengkaji ciri bukan berangka, walaupun tiada maklumat anggaran tentang pecahan sampel, ia diterima w= 0.5, yang, mengikut formula penyebaran bahagian, sepadan dengan penyebaran sampel dalam saiz maksimum Dv = 0,5*(1-0,5) = 0,25.