วิธีคำนวณข้อผิดพลาดของค่าเฉลี่ยตัวอย่าง ข้อผิดพลาดในการสุ่มตัวอย่างใหม่โดยเฉลี่ยและการไม่ลองซ้ำ

ซึ่งแสดงถึงความแตกต่างดังกล่าวระหว่างค่าเฉลี่ยของตัวอย่างและประชากรทั่วไป ซึ่งไม่เกิน ± b (เดลต้า)

ซึ่งเป็นรากฐาน ทฤษฎีบทของ P. L. Chebyshev หมายถึงค่าความผิดพลาดในกรณีของการสุ่มเลือกใหม่ จะคำนวณโดยสูตร (สำหรับค่าเฉลี่ย ลักษณะเชิงปริมาณ):

โดยที่ตัวเศษคือความแปรปรวนของคุณลักษณะ x ในตัวอย่าง
n คือขนาดของตัวอย่าง

สำหรับคุณลักษณะทางเลือก สูตรสำหรับค่าเฉลี่ยข้อผิดพลาดในการสุ่มตัวอย่างสำหรับสัดส่วน ตามทฤษฎีบทของ J. Bernoulliคำนวณโดยสูตร:

โดยที่ p(1 - p) คือความแปรปรวนของส่วนแบ่งของคุณลักษณะใน ประชากร;
n - ขนาดตัวอย่าง

เนื่องจากข้อเท็จจริงที่ว่าความแปรปรวนของคุณลักษณะในประชากรทั่วไปไม่เป็นที่ทราบแน่ชัด ในทางปฏิบัติจึงใช้ค่าความแปรปรวน ซึ่งคำนวณสำหรับประชากรกลุ่มตัวอย่างตาม กฎ ตัวเลขขนาดใหญ่ . ตาม กฎหมายฉบับนี้ กรอบการสุ่มตัวอย่างด้วยขนาดตัวอย่างที่ใหญ่ ทำให้จำลองลักษณะของประชากรทั่วไปได้อย่างแม่นยำ

นั่นเป็นเหตุผล สูตรการคำนวณ หมายถึงข้อผิดพลาดในการสุ่มตัวอย่างใหม่ จะมีลักษณะดังนี้:

1. สำหรับลักษณะเชิงปริมาณโดยเฉลี่ย:

โดยที่ S^2 คือความแปรปรวนของคุณลักษณะ x ในตัวอย่าง
n - ขนาดตัวอย่าง

โดยที่ w (1 - w) คือความแปรปรวนของสัดส่วนของลักษณะที่ศึกษาในกลุ่มประชากรตัวอย่าง

ในทฤษฎีความน่าจะเป็นแสดงให้เห็นว่ามันแสดงผ่านตัวอย่างตามสูตร:

ในกรณี ตัวอย่างขนาดเล็กเมื่อปริมาตรน้อยกว่า 30 จำเป็นต้องคำนึงถึงค่าสัมประสิทธิ์ n/(n-1) จากนั้นสูตรจะคำนวณข้อผิดพลาดเฉลี่ยของตัวอย่างขนาดเล็ก:

เนื่องจากจำนวนหน่วยของประชากรทั่วไปลดลงในกระบวนการสุ่มตัวอย่างแบบไม่ซ้ำ ในสูตรข้างต้นสำหรับการคำนวณข้อผิดพลาดในการสุ่มตัวอย่างโดยเฉลี่ย นิพจน์รูทจะต้องคูณด้วย 1- (n / N)

สูตรการคำนวณสำหรับตัวอย่างประเภทนี้จะมีลักษณะดังนี้:

1. สำหรับลักษณะเชิงปริมาณโดยเฉลี่ย:

โดยที่ N คือปริมาตรของประชากรทั่วไป n - ขนาดตัวอย่าง

2. สำหรับการแบ่งปัน (คุณสมบัติทางเลือก):

โดยที่ 1- (n/N) คือสัดส่วนของหน่วยในประชากรทั่วไปที่ไม่ได้รวมอยู่ในกลุ่มตัวอย่าง

เนื่องจาก n จะน้อยกว่า N เสมอ ตัวประกอบเพิ่มเติม 1 - (n/N) จะน้อยกว่าหนึ่งเสมอ มันหมายความว่า หมายถึงข้อผิดพลาดโดยการเลือกแบบไม่ซ้ำจะน้อยกว่าการเลือกซ้ำเสมอ เมื่อสัดส่วนของหน่วยของประชากรทั่วไปที่ไม่รวมอยู่ในตัวอย่างมีนัยสำคัญ ค่า 1 - (n / N) จะใกล้เคียงกับหนึ่ง จากนั้นจึงคำนวณข้อผิดพลาดโดยเฉลี่ยตามสูตรทั่วไป

ข้อผิดพลาดเฉลี่ยขึ้นอยู่กับปัจจัยต่อไปนี้:

1. เมื่อปฏิบัติตามหลักการของการเลือกแบบสุ่ม ข้อผิดพลาดในการสุ่มตัวอย่างโดยเฉลี่ยจะถูกกำหนดโดยขนาดตัวอย่างเป็นอันดับแรก: ความแข็งแรงมากขึ้นค่ายิ่งน้อย หมายถึงข้อผิดพลาดในการสุ่มตัวอย่าง. ประชากรทั่วไปมีลักษณะที่แม่นยำยิ่งขึ้นเมื่อมีหน่วยของประชากรนี้ครอบคลุมการสังเกตตัวอย่างมากขึ้น

2. ข้อผิดพลาดเฉลี่ยยังขึ้นอยู่กับระดับของรูปแบบคุณลักษณะ ระดับของการเปลี่ยนแปลงมีลักษณะโดย ยิ่งรูปแบบคุณลักษณะ (การกระจาย) มีขนาดเล็กเท่าใด ข้อผิดพลาดในการสุ่มตัวอย่างโดยเฉลี่ยก็จะยิ่งน้อยลงเท่านั้น ด้วยความแปรปรวนเป็นศูนย์ (แอตทริบิวต์ไม่แปรผัน) ข้อผิดพลาดในการสุ่มตัวอย่างโดยเฉลี่ยจะเป็นศูนย์ ดังนั้นหน่วยใดๆ ของประชากรทั่วไปจะกำหนดลักษณะของประชากรทั้งหมดตามแอตทริบิวต์นี้

ที่ การสังเกตแบบเลือกควรจัดให้มี อุบัติเหตุการเลือกหน่วย แต่ละหน่วยต้องมีโอกาสได้รับเลือกเท่าเทียมกันกับหน่วยอื่นๆ นี่คือสิ่งที่การสุ่มตัวอย่างขึ้นอยู่กับ

ถึง การสุ่มตัวอย่างที่เหมาะสม หมายถึง การเลือกหน่วยจากประชากรทั่วไปทั้งหมด (โดยไม่ได้แบ่งออกเป็นกลุ่มใด ๆ ล่วงหน้า) โดยวิธีจับฉลาก (ส่วนใหญ่) หรือวิธีอื่นที่คล้ายคลึงกัน เช่น ใช้ตาราง ตัวเลขสุ่ม. การเลือกแบบสุ่มการเลือกนี้ไม่ใช่การสุ่ม หลักการของการสุ่มเสนอแนะว่าการรวมหรือแยกวัตถุออกจากตัวอย่างไม่สามารถได้รับอิทธิพลจากปัจจัยอื่นใดนอกจากความบังเอิญ ตัวอย่าง สุ่มจริงๆการเลือกสามารถใช้เป็นการหมุนเวียนของเงินรางวัล: จากจำนวนสลากที่ออกทั้งหมด ส่วนหนึ่งของหมายเลขบัญชีสำหรับการชนะจะถูกสุ่มเลือก ยิ่งกว่านั้น ตัวเลขทั้งหมดยังมีโอกาสเท่าเทียมกันในการสุ่มตัวอย่าง ในกรณีนี้ จำนวนหน่วยที่เลือกในชุดตัวอย่างมักจะถูกกำหนดตามสัดส่วนที่ยอมรับได้ของตัวอย่าง

แบ่งปันตัวอย่าง คืออัตราส่วนของจำนวนหน่วยของประชากรตัวอย่างต่อจำนวนหน่วยของประชากรทั่วไป:

ด้วยตัวอย่าง 5% จากชุดชิ้นส่วนใน 1,000 หน่วย ขนาดตัวอย่าง พีคือ 50 หน่วย และด้วยตัวอย่าง 10% - 100 หน่วย เป็นต้น ด้วยสิทธิ องค์กรทางวิทยาศาสตร์ตัวอย่างข้อผิดพลาดในการเป็นตัวแทนสามารถลดลงเหลือ ค่าต่ำสุดเป็นผลให้การสังเกตแบบเลือกมีความแม่นยำเพียงพอ

การสุ่มเลือกที่เหมาะสม รูปแบบที่บริสุทธิ์ไม่ค่อยได้ใช้ในการฝึกฝนการสังเกตแบบเลือก แต่เป็นการเริ่มต้นของการเลือกประเภทอื่น ๆ ทั้งหมด มันมีและใช้หลักการพื้นฐานของการสังเกตแบบเลือก

ให้เราพิจารณาคำถามเกี่ยวกับทฤษฎีของวิธีการสุ่มตัวอย่างและสูตรข้อผิดพลาดสำหรับวิธีง่ายๆ สุ่มตัวอย่าง.

เมื่อใช้วิธีการสุ่มตัวอย่างในสถิติ มักใช้ตัวบ่งชี้ทั่วไปสองประเภท: ค่าเฉลี่ยเครื่องหมายเชิงปริมาณและ ค่าสัมพัทธ์คุณสมบัติทางเลือก(แชร์หรือ แรงดึงดูดเฉพาะหน่วยในประชากรทางสถิติซึ่งแตกต่างจากหน่วยอื่น ๆ ทั้งหมดของประชากรนี้โดยมีลักษณะเฉพาะที่กำลังศึกษาอยู่เท่านั้น)

แบ่งปันตัวอย่าง (ว),หรือความถี่กำหนดโดยอัตราส่วนของจำนวนหน่วยที่มีลักษณะศึกษา เสื้อถึงจำนวนหน่วยสุ่มตัวอย่างทั้งหมด พี:

ตัวอย่างเช่น ถ้าจาก 100 รายละเอียดตัวอย่าง ( น=100), 95 ชิ้นส่วนกลายเป็นมาตรฐาน (ที=95) จากนั้นเศษส่วนตัวอย่าง

ว=95/100=0,95 .

เพื่อกำหนดลักษณะความน่าเชื่อถือของตัวบ่งชี้ตัวอย่าง กลางและ ข้อผิดพลาดในการสุ่มตัวอย่างเล็กน้อย

ข้อผิดพลาดในการสุ่มตัวอย่าง ? หรืออีกนัยหนึ่ง ข้อผิดพลาดในการเป็นตัวแทนคือความแตกต่างระหว่างตัวอย่างที่เกี่ยวข้องและลักษณะทั่วไป:

ข้อผิดพลาดในการสุ่มตัวอย่างเป็นลักษณะเฉพาะของการสังเกตแบบเลือกเท่านั้น ยังไง มูลค่ามากขึ้นข้อผิดพลาดนี้ ยิ่งตัวบ่งชี้ตัวอย่างแตกต่างจากตัวบ่งชี้ทั่วไปที่เกี่ยวข้องมากเท่าไร

ค่าเฉลี่ยตัวอย่างและส่วนแบ่งตัวอย่างมีอยู่จริง ตัวแปรสุ่ม, ซึ่งสามารถรับค่าที่แตกต่างกันขึ้นอยู่กับหน่วยของประชากรที่รวมอยู่ในตัวอย่าง ดังนั้นข้อผิดพลาดในการสุ่มตัวอย่างจึงเป็นตัวแปรสุ่มและสามารถดำเนินการได้ ความหมายต่างๆ. ดังนั้นให้กำหนดค่าเฉลี่ยของข้อผิดพลาดที่เป็นไปได้ - ข้อผิดพลาดของตัวอย่างโดยเฉลี่ย

มันขึ้นอยู่กับอะไร หมายถึงข้อผิดพลาดในการสุ่มตัวอย่าง?ขึ้นอยู่กับหลักการของการเลือกแบบสุ่ม ข้อผิดพลาดในการสุ่มตัวอย่างโดยเฉลี่ยจะถูกกำหนดเป็นหลัก ขนาดตัวอย่าง:ยิ่งมีจำนวนมากขึ้นด้วย เงื่อนไขที่เท่าเทียมกันข้อผิดพลาดในการสุ่มตัวอย่างเฉลี่ยยิ่งน้อยลง ครอบคลุมการสุ่มตัวอย่างทั้งหมด ปริมาณมากหน่วยของประชากรทั่วไปกำหนดลักษณะของประชากรทั้งหมดได้แม่นยำยิ่งขึ้น

ข้อผิดพลาดในการสุ่มตัวอย่างเฉลี่ยยังขึ้นอยู่กับ ระดับของการเปลี่ยนแปลงศึกษาลักษณะ ดังที่คุณทราบระดับความแปรปรวนนั้นมีลักษณะการกระจายตัวหรือไม่? 2 หรือ ว(1-ว)-- สำหรับคุณสมบัติทางเลือก ความแปรผันของคุณลักษณะมีขนาดเล็กลง และด้วยเหตุนี้ความแปรปรวน ข้อผิดพลาดในการสุ่มตัวอย่างโดยเฉลี่ยก็จะยิ่งน้อยลง และในทางกลับกัน ด้วยการกระจายตัวเป็นศูนย์ (แอตทริบิวต์ไม่แปรผัน) ข้อผิดพลาดในการสุ่มตัวอย่างโดยเฉลี่ยจะเป็นศูนย์ กล่าวคือ หน่วยใดๆ ของประชากรทั่วไปจะระบุลักษณะของประชากรทั้งหมดได้อย่างถูกต้องตามแอตทริบิวต์นี้

การพึ่งพาข้อผิดพลาดในการสุ่มตัวอย่างโดยเฉลี่ยในปริมาณและระดับการเปลี่ยนแปลงของแอตทริบิวต์จะสะท้อนให้เห็นในสูตรที่สามารถใช้ในการคำนวณข้อผิดพลาดในการสุ่มตัวอย่างโดยเฉลี่ยภายใต้เงื่อนไขของการสังเกตตัวอย่างเมื่อลักษณะทั่วไป ( x, พี)ไม่เป็นที่รู้จัก ดังนั้นจึงไม่สามารถค้นหาข้อผิดพลาดในการสุ่มตัวอย่างจริงได้โดยตรงจากสูตร (แบบฟอร์ม 1), (แบบฟอร์ม 2)

ว ด้วยการสุ่มเลือก ข้อผิดพลาดโดยเฉลี่ยคำนวณตามทฤษฎีโดยใช้สูตรต่อไปนี้:

* สำหรับลักษณะเชิงปริมาณโดยเฉลี่ย

* เพื่อแบ่งปัน (ลักษณะทางเลือก)

เนื่องจากความแปรปรวนของแอตทริบิวต์ในประชากรทั่วไป? 2 ไม่เป็นที่ทราบแน่ชัด ในทางปฏิบัติ พวกเขาใช้ค่าของความแปรปรวน S 2 ที่คำนวณสำหรับประชากรกลุ่มตัวอย่างตามกฎของตัวเลขจำนวนมาก ตามที่กลุ่มตัวอย่างที่มีขนาดตัวอย่างใหญ่เพียงพอจะจำลองลักษณะของ ประชากรทั่วไป.

ดังนั้น, สูตรการคำนวณ กลาง ข้อผิดพลาดในการสุ่มตัวอย่าง การสุ่มใหม่จะเป็นดังนี้:

* สำหรับลักษณะเชิงปริมาณโดยเฉลี่ย

* เพื่อแบ่งปัน (ลักษณะทางเลือก)

อย่างไรก็ตาม ความแปรปรวนของประชากรตัวอย่างไม่เท่ากับความแปรปรวนของประชากรทั่วไป ดังนั้น ค่าเฉลี่ยข้อผิดพลาดในการสุ่มตัวอย่างที่คำนวณโดยสูตร (แบบฟอร์ม 5) และ (แบบฟอร์ม 6) จะเป็นค่าประมาณ แต่ในทฤษฎีความน่าจะเป็นได้รับการพิสูจน์แล้วว่า ความแปรปรวนทั่วไปแสดงออกผ่านวิชาเลือกตามความสัมพันธ์ต่อไปนี้:

เพราะ พี/(น-1) สำหรับขนาดใหญ่เพียงพอ พี --ค่าใกล้เคียงกับเอกภาพ สามารถสันนิษฐานได้ว่า ดังนั้น ในการคำนวณเชิงปฏิบัติของข้อผิดพลาดในการสุ่มตัวอย่างโดยเฉลี่ย จึงสามารถใช้สูตร (แบบฟอร์ม 5) และ (แบบฟอร์ม 6) ได้ และเฉพาะในกรณีของตัวอย่างขนาดเล็ก (เมื่อขนาดตัวอย่างไม่เกิน 30) จำเป็นต้องคำนึงถึงค่าสัมประสิทธิ์ พี/(น-1) และคำนวณ ข้อผิดพลาดค่าเฉลี่ยตัวอย่างเล็กน้อยตามสูตร:

ว เอ็กซ์ ด้วยการสุ่มเลือกแบบไม่ซ้ำ ในสูตรข้างต้นสำหรับการคำนวณข้อผิดพลาดในการสุ่มตัวอย่างโดยเฉลี่ย จำเป็นต้องคูณนิพจน์รูทด้วย 1-(n / N) เนื่องจากจำนวนหน่วยในประชากรทั่วไปจะลดลงในกระบวนการสุ่มตัวอย่างแบบไม่ซ้ำ ดังนั้นสำหรับการเลือกที่ไม่ซ้ำ สูตรการคำนวณ หมายถึงข้อผิดพลาดในการสุ่มตัวอย่าง จะอยู่ในรูปแบบต่อไปนี้:

* สำหรับลักษณะเชิงปริมาณโดยเฉลี่ย

* เพื่อแบ่งปัน (ลักษณะทางเลือก)

. (แบบ.10)

เพราะ พีน้อยกว่าเสมอ เอ็นแล้วปัจจัยเพิ่มเติม 1-( ไม่มี) จะน้อยกว่าหนึ่งเสมอ จากนี้ไปข้อผิดพลาดโดยเฉลี่ยของการเลือกที่ไม่ซ้ำจะน้อยกว่าการเลือกซ้ำเสมอ ในขณะเดียวกัน ด้วยเปอร์เซ็นต์ตัวอย่างที่ค่อนข้างน้อย ปัจจัยนี้จึงใกล้เคียงกับหนึ่ง (เช่น ตัวอย่าง 5% จะได้ 0.95 ส่วนตัวอย่าง 2% จะเท่ากับ 0.98 เป็นต้น) ดังนั้น ในทางปฏิบัติบางครั้ง สูตร (แบบฟอร์ม 5) และ (แบบฟอร์ม 6) จึงถูกใช้เพื่อหาข้อผิดพลาดในการสุ่มตัวอย่างโดยเฉลี่ยโดยไม่มีตัวคูณที่ระบุ แม้ว่าตัวอย่างจะถูกจัดเป็นการไม่ซ้ำ สิ่งนี้เกิดขึ้นเมื่อไม่ทราบหรือไม่จำกัดจำนวนหน่วยของประชากรทั่วไป N หรือเมื่อใด พีน้อยมากเมื่อเทียบกับ เอ็นและโดยพื้นฐานแล้ว การแนะนำปัจจัยเพิ่มเติมซึ่งมีค่าใกล้เคียงหนึ่งจะไม่ส่งผลกระทบต่อค่าของข้อผิดพลาดในการสุ่มตัวอย่างโดยเฉลี่ย

การสุ่มตัวอย่างทางกล ประกอบด้วยความจริงที่ว่าการเลือกหน่วยในตัวอย่างจากทั่วไปแบ่งตามเกณฑ์ที่เป็นกลาง ช่วงเวลาที่เท่ากัน(กลุ่ม) ถูกสร้างขึ้นในลักษณะที่เลือกเพียงหนึ่งหน่วยจากแต่ละกลุ่มดังกล่าวในตัวอย่าง เพื่อหลีกเลี่ยงข้อผิดพลาดอย่างเป็นระบบ ควรเลือกหน่วยที่อยู่ตรงกลางของแต่ละกลุ่ม

เมื่อจัดระเบียบการเลือกเชิงกล หน่วยของประชากรจะถูกจัดเรียงไว้ล่วงหน้า (โดยปกติจะอยู่ในรายการ) ในลำดับที่แน่นอน (เช่น เรียงตามตัวอักษร ตามตำแหน่ง ตามลำดับจากน้อยไปมากหรือมากไปน้อยของค่าของตัวบ่งชี้ใด ๆ ที่ไม่เกี่ยวข้อง กับทรัพย์สินที่กำลังศึกษา ฯลฯ) ฯลฯ) หลังจากนั้นจำนวนหน่วยที่กำหนดจะถูกเลือกโดยอัตโนมัติในช่วงเวลาหนึ่ง ในกรณีนี้ ขนาดของช่วงเวลาในประชากรทั่วไปเท่ากับ ค่าย้อนกลับหุ้นตัวอย่าง. ดังนั้น ด้วยตัวอย่าง 2% ทุก ๆ หน่วยที่ 50 (1: 0.02) จะถูกเลือกและตรวจสอบ โดยมีตัวอย่าง 5% ทุก ๆ หน่วยที่ 20 (1: 0.05) เช่น รายละเอียดจากมากไปน้อยจากเครื่อง

เมื่อเพียงพอ ประชากรจำนวนมากการเลือกเชิงกลในแง่ของความแม่นยำของผลลัพธ์นั้นใกล้เคียงกับการสุ่มที่เหมาะสม ดังนั้นเพื่อตรวจสอบข้อผิดพลาดเฉลี่ยของตัวอย่างเชิงกลจึงใช้สูตรสำหรับการสุ่มตัวอย่างแบบไม่ซ้ำแบบสุ่ม (แบบฟอร์ม 9) (แบบฟอร์ม 10)

ในการเลือกหน่วยจากประชากรต่างกันที่เรียกว่า ตัวอย่างทั่วไป , ซึ่งใช้ในกรณีที่ทุกหน่วยของประชากรทั่วไปสามารถแบ่งออกเป็นกลุ่มที่มีคุณภาพเหมือนกันหลายกลุ่มตามลักษณะที่ส่งผลต่อตัวบ่งชี้ที่ศึกษา

เมื่อทำการสำรวจวิสาหกิจ กลุ่มดังกล่าวอาจเป็นรูปแบบความเป็นเจ้าของ เช่น อุตสาหกรรมและภาคส่วนย่อย จากนั้น จากแต่ละกลุ่มทั่วไป การเลือกแต่ละหน่วยลงในตัวอย่างจะทำโดยการสุ่มหรือตัวอย่างเชิงกล

ตัวอย่างทั่วไปมักใช้ในการศึกษาประชากรทางสถิติที่ซับซ้อน ตัวอย่างเช่น ในการสำรวจตัวอย่างงบประมาณครอบครัวของคนงานและพนักงานในบางภาคส่วนของเศรษฐกิจ ผลิตภาพแรงงานของคนงานในองค์กรที่แสดงโดย แต่ละกลุ่มตามวุฒิการศึกษา

ตัวอย่างทั่วไปให้มากขึ้น ผลลัพธ์ที่แม่นยำเมื่อเทียบกับวิธีอื่นๆ ในการเลือกหน่วยในตัวอย่าง การจำแนกประเภทของประชากรทั่วไปช่วยให้มั่นใจถึงการเป็นตัวแทนของตัวอย่างดังกล่าว การเป็นตัวแทนของแต่ละกลุ่มการจำแนกประเภทในนั้น ซึ่งทำให้สามารถแยกอิทธิพลของการกระจายระหว่างกลุ่มที่มีต่อข้อผิดพลาดของตัวอย่างโดยเฉลี่ยได้

เมื่อกำหนด ข้อผิดพลาดโดยเฉลี่ยของตัวอย่างทั่วไปเป็นตัวบ่งชี้การเปลี่ยนแปลงคือ ตรงกลางออกด้านใน ความแปรปรวนของกลุ่ม.

ค่าเฉลี่ยข้อผิดพลาดในการสุ่มตัวอย่าง พบได้จากสูตร:

* สำหรับลักษณะเชิงปริมาณโดยเฉลี่ย

(เลือกใหม่); (แบบ.11)

(เลือกกลับไม่ได้); (แบบ.12)

* เพื่อแบ่งปัน (ลักษณะทางเลือก)

(เลือกใหม่); (แบบ.13)

(แบบไม่เลือกซ้ำ), (แบบ.14)

โดยที่ค่าเฉลี่ยของความแปรปรวนภายในกลุ่มสำหรับประชากรตัวอย่าง

ค่าเฉลี่ยของความแปรปรวนภายในกลุ่มของส่วนแบ่ง (ลักษณะทางเลือก) ในประชากรตัวอย่าง

การสุ่มตัวอย่างแบบอนุกรม เกี่ยวข้องกับการเลือกสุ่มจากประชากรทั่วไป ไม่ใช่จากแต่ละหน่วย แต่จากกลุ่มที่เท่ากัน (รัง, ชุด) เพื่อให้ทุกหน่วยอยู่ภายใต้การสังเกตโดยไม่มีข้อยกเว้นในการสังเกตในกลุ่มดังกล่าว

แอปพลิเคชัน การสุ่มตัวอย่างแบบอนุกรมเนื่องจากสินค้าจำนวนมากสำหรับการขนส่ง การจัดเก็บ และการขายของพวกเขาถูกบรรจุในแพ็ค กล่อง ฯลฯ ดังนั้นเมื่อควบคุมคุณภาพของสินค้าที่บรรจุหีบห่อ การตรวจสอบหลายบรรจุภัณฑ์ (ซีรีส์) จึงมีเหตุผลมากกว่าการเลือกจากบรรจุภัณฑ์ทั้งหมด จำนวนที่ต้องการสินค้า.

เนื่องจากภายในกลุ่ม (อนุกรม) หน่วยทั้งหมดจะถูกตรวจสอบโดยไม่มีข้อยกเว้น ข้อผิดพลาดในการสุ่มตัวอย่างโดยเฉลี่ย (เมื่อเลือกอนุกรมที่เท่ากัน) ขึ้นอยู่กับความแปรปรวนระหว่างกลุ่ม (interseries) เท่านั้น

ว ค่าเฉลี่ยข้อผิดพลาดในการสุ่มตัวอย่างสำหรับคะแนนเฉลี่ย ในระหว่างการเลือกแบบอนุกรมจะพบได้จากสูตร:

(เลือกใหม่); (แบบ.15)

(แบบไม่เลือกซ้ำ), (แบบ.16)

ที่ไหน r-จำนวนซีรีส์ที่เลือก R-จำนวนทั้งหมดชุด.

ความแปรปรวนระหว่างกลุ่มของตัวอย่างอนุกรมคำนวณดังนี้:

ค่าเฉลี่ยอยู่ที่ไหน ผม- ชุดที่; - ค่าเฉลี่ยทั่วไปของประชากรกลุ่มตัวอย่างทั้งหมด

ว ข้อผิดพลาดในการสุ่มตัวอย่างเฉลี่ยสำหรับการแชร์ (คุณลักษณะทางเลือก) ในการเลือกแบบอนุกรม:

(เลือกใหม่); (แบบ.17)

(เลือกแบบไม่ซ้ำ). (แบบ.18)

อินเตอร์กรุ๊ป(อินเตอร์ซีรีส์) ความแปรปรวนของส่วนแบ่งตัวอย่างอนุกรมกำหนดโดยสูตร:

, (แบบ.19)

ส่วนแบ่งของคุณสมบัติอยู่ที่ไหน ผมชุดที่; - ส่วนแบ่งทั้งหมดของลักษณะในกลุ่มตัวอย่างทั้งหมด

ในทางปฏิบัติของการสำรวจทางสถิตินอกเหนือจากวิธีการคัดเลือกที่พิจารณาก่อนหน้านี้แล้วยังใช้ชุดค่าผสม (การเลือกรวมกัน).

อย่างที่เราทราบกันดีอยู่แล้ว ความเป็นตัวแทนเป็นคุณสมบัติของกลุ่มตัวอย่างที่แสดงถึงคุณลักษณะของประชากรทั่วไป หากไม่มีการจับคู่พวกเขาจะพูดถึงข้อผิดพลาดในการเป็นตัวแทน - การวัดความเบี่ยงเบนของโครงสร้างทางสถิติของตัวอย่างจากโครงสร้างของประชากรทั่วไปที่สอดคล้องกัน สมมติว่ารายได้ครอบครัวเฉลี่ยต่อเดือนของผู้รับบำนาญในประชากรทั่วไปคือ 2,000 รูเบิลและในตัวอย่าง - 6,000 รูเบิล ซึ่งหมายความว่านักสังคมวิทยาสัมภาษณ์เฉพาะผู้รับบำนาญที่มีฐานะร่ำรวย และข้อผิดพลาดในการเป็นตัวแทนก็พุ่งเข้ามาในการศึกษาของเขา กล่าวอีกนัยหนึ่งข้อผิดพลาดในการเป็นตัวแทนคือความแตกต่างระหว่างสองชุด - ชุดทั่วไปซึ่งมุ่งความสนใจทางทฤษฎีของนักสังคมวิทยาและแนวคิดเกี่ยวกับคุณสมบัติที่เขาต้องการได้รับในตอนท้ายและชุดที่เลือก ซึ่งมุ่งความสนใจในทางปฏิบัติของนักสังคมวิทยาซึ่งทำหน้าที่เป็นทั้งวัตถุในการตรวจสอบและวิธีการรับข้อมูลเกี่ยวกับประชากรทั่วไป

นอกเหนือจากคำว่า "ข้อผิดพลาดในการเป็นตัวแทน" ในเอกสารในประเทศแล้ว คุณสามารถค้นหาอีก - "ข้อผิดพลาดในการสุ่มตัวอย่าง" บางครั้งใช้แทนกันได้ และบางครั้งใช้ "ข้อผิดพลาดในการสุ่มตัวอย่าง" แทน "ข้อผิดพลาดในการเป็นตัวแทน" เป็นแนวคิดเชิงปริมาณที่แม่นยำกว่า

ข้อผิดพลาดในการสุ่มตัวอย่างคือการเบี่ยงเบนของลักษณะเฉลี่ยของประชากรตัวอย่างจากลักษณะเฉลี่ยของประชากรทั่วไป

ในทางปฏิบัติ ข้อผิดพลาดในการสุ่มตัวอย่างถูกกำหนดโดยการเปรียบเทียบคุณลักษณะที่ทราบของประชากรกับค่าเฉลี่ยของตัวอย่าง ในสังคมวิทยา การสำรวจประชากรผู้ใหญ่มักใช้ข้อมูลจากสำมะโนประชากร บันทึกทางสถิติปัจจุบัน และผลการสำรวจครั้งก่อน มักใช้ลักษณะทางสังคมและประชากรเป็นพารามิเตอร์ควบคุม การเปรียบเทียบค่าเฉลี่ยของประชากรทั่วไปและกลุ่มตัวอย่าง บนพื้นฐานของสิ่งนี้ การกำหนดข้อผิดพลาดในการสุ่มตัวอย่างและการลดลงเรียกว่าการควบคุมความเป็นตัวแทน เนื่องจากเมื่อสิ้นสุดการศึกษาสามารถเปรียบเทียบข้อมูลของตนเองและของผู้อื่นได้ วิธีการควบคุมนี้จึงเรียกว่าหลัง (posteriori) กล่าวคือ ดำเนินการหลังจากมีประสบการณ์

ในการสำรวจความคิดเห็นของ Gallup ความเป็นตัวแทนถูกควบคุมโดยข้อมูลที่มีอยู่ในสำมะโนแห่งชาติเกี่ยวกับการกระจายตัวของประชากรตามเพศ อายุ การศึกษา รายได้ อาชีพ เชื้อชาติ สถานที่อยู่อาศัย ขนาด ท้องที่. ศูนย์วิจัยออลรัสเซีย ความคิดเห็นของประชาชน(VTsIOM) ใช้เพื่อวัตถุประสงค์ดังกล่าว เช่น ตัวบ่งชี้เพศ อายุ การศึกษา ประเภทของการตั้งถิ่นฐาน สถานภาพการสมรส, ขอบเขตของการจ้างงาน, สถานะอย่างเป็นทางการของผู้ตอบแบบสอบถามซึ่งยืมมาจากคณะกรรมการแห่งรัฐเกี่ยวกับสถิติของสหพันธรัฐรัสเซีย ในทั้งสองกรณี ประชากรเป็นที่รู้จัก ไม่สามารถสร้างข้อผิดพลาดในการสุ่มตัวอย่างหากไม่ทราบค่าของตัวแปรในตัวอย่างและประชากร

ในระหว่างการวิเคราะห์ข้อมูล ผู้เชี่ยวชาญของ VTsIOM จะทำการซ่อมแซมตัวอย่างอย่างละเอียดถี่ถ้วน เพื่อลดความเบี่ยงเบนที่เกิดขึ้นระหว่าง งานภาคสนาม. การเปลี่ยนแปลงที่รุนแรงโดยเฉพาะอย่างยิ่งจะสังเกตได้ในแง่ของเพศและอายุ สิ่งนี้อธิบายได้จากข้อเท็จจริงที่ว่าผู้หญิงและผู้ที่มี อุดมศึกษาใช้เวลาที่บ้านมากขึ้นและติดต่อกับผู้สัมภาษณ์ได้ง่ายขึ้น เป็นกลุ่มที่เข้าถึงได้ง่ายเมื่อเทียบกับผู้ชายและคนที่ “ไม่มีการศึกษา”35

ข้อผิดพลาดในการสุ่มตัวอย่างเกิดจากปัจจัย 2 ประการ ได้แก่ วิธีการสุ่มตัวอย่างและขนาดตัวอย่าง

ข้อผิดพลาดในการสุ่มตัวอย่างแบ่งออกเป็นสองประเภท - สุ่มและเป็นระบบ ข้อผิดพลาดแบบสุ่มคือความน่าจะเป็นที่ค่าเฉลี่ยตัวอย่างจะ (หรือไม่เกิน) เกิน ช่วงเวลาที่กำหนด. ข้อผิดพลาดแบบสุ่มรวมถึงข้อผิดพลาดทางสถิติที่มีอยู่ในวิธีการสุ่มตัวอย่างเอง ลดลงเมื่อขนาดตัวอย่างเพิ่มขึ้น

ข้อผิดพลาดในการสุ่มตัวอย่างประเภทที่สองคือข้อผิดพลาดอย่างเป็นระบบ หากนักสังคมวิทยาตัดสินใจที่จะค้นหาความคิดเห็นของผู้อยู่อาศัยทั้งหมดในเมืองเกี่ยวกับเหตุการณ์ที่เกิดขึ้น หน่วยงานท้องถิ่นผู้มีอำนาจในนโยบายสังคมและสัมภาษณ์เฉพาะผู้ที่มีโทรศัพท์แล้วมีอคติโดยเจตนาในกลุ่มตัวอย่างที่เข้าข้างกลุ่มคนร่ำรวยเช่น ข้อผิดพลาดอย่างเป็นระบบ

ดังนั้นข้อผิดพลาดอย่างเป็นระบบจึงเป็นผลมาจากกิจกรรมของนักวิจัยเอง พวกเขาเป็นสิ่งที่อันตรายที่สุดเพราะนำไปสู่อคติที่ค่อนข้างสำคัญในผลการศึกษา ข้อผิดพลาดอย่างเป็นระบบถือว่าแย่กว่าข้อผิดพลาดแบบสุ่มเช่นกัน เนื่องจากไม่สามารถควบคุมและวัดผลได้

เกิดขึ้นเมื่อ: 1) ตัวอย่างไม่ตรงตามวัตถุประสงค์ของการศึกษา (นักสังคมวิทยาตัดสินใจศึกษาเฉพาะผู้รับบำนาญที่ทำงาน แต่สัมภาษณ์ทุกคนในแถว) 2) มีความไม่รู้ในธรรมชาติของประชากรทั่วไป (นักสังคมวิทยาคิดว่า 70% ของผู้รับบำนาญทั้งหมดไม่ทำงาน แต่ปรากฎว่ามีเพียง 10% เท่านั้นที่ไม่ได้ทำงาน) 3) เลือกเฉพาะองค์ประกอบที่ "ชนะ" ของประชากรทั่วไปเท่านั้น (เช่น ผู้รับบำนาญที่ร่ำรวยเท่านั้น)

ความสนใจ! ซึ่งแตกต่างจากข้อผิดพลาดแบบสุ่ม ข้อผิดพลาดอย่างเป็นระบบจะไม่ลดลงเมื่อขนาดตัวอย่างเพิ่มขึ้น

สรุปกรณีทั้งหมดที่เกิดข้อผิดพลาดอย่างเป็นระบบ นักระเบียบวิธีได้รวบรวมทะเบียนของพวกเขา พวกเขาเชื่อว่าแหล่งที่มาของอคติที่ไม่มีการควบคุมในการกระจายตัวของการสังเกตอาจเป็นได้ ปัจจัยดังต่อไปนี้:
♦ กฎระเบียบวิธีและระเบียบวิธีปฏิบัติ การวิจัยทางสังคมวิทยา;
♦ เลือกวิธีการสุ่มตัวอย่าง การรวบรวมข้อมูล และวิธีการคำนวณไม่เพียงพอ
♦ มีการแทนที่หน่วยสังเกตการณ์ที่ต้องการโดยผู้อื่น เข้าถึงได้มากขึ้น
♦ สังเกตความครอบคลุมของประชากรตัวอย่างที่ไม่สมบูรณ์ (การขาดแคลนแบบสอบถาม การกรอกแบบสอบถามไม่ครบถ้วน การเข้าไม่ถึงหน่วยสังเกตการณ์)

นักสังคมวิทยาไม่ค่อยทำผิดพลาดโดยเจตนา บ่อยครั้งที่ข้อผิดพลาดเกิดขึ้นเนื่องจากนักสังคมวิทยาไม่ตระหนักดีถึงโครงสร้างของประชากรทั่วไป: การกระจายตัวของผู้คนตามอายุ อาชีพ รายได้ และอื่นๆ

ข้อผิดพลาดอย่างเป็นระบบนั้นป้องกันได้ง่ายกว่า (เมื่อเทียบกับข้อผิดพลาดแบบสุ่ม) แต่กำจัดได้ยากมาก เป็นการดีที่สุดที่จะป้องกันข้อผิดพลาดอย่างเป็นระบบโดยคาดการณ์แหล่งที่มาล่วงหน้าอย่างแม่นยำ - ในช่วงเริ่มต้นของการศึกษา

วิธีหลีกเลี่ยงข้อผิดพลาดในการสุ่มตัวอย่างมีดังนี้
♦ แต่ละหน่วยของประชากรทั่วไปต้องมีความน่าจะเป็นเท่ากันที่จะรวมอยู่ในกลุ่มตัวอย่าง
♦ เป็นที่พึงปรารถนาที่จะเลือกจากประชากรที่เป็นเนื้อเดียวกัน;
♦ จำเป็นต้องรู้ลักษณะของประชากรทั่วไป
♦ ควรคำนึงถึงข้อผิดพลาดแบบสุ่มและเป็นระบบเมื่อรวบรวมตัวอย่าง

หากตัวอย่าง (หรือเพียงแค่ตัวอย่าง) ถูกวาดขึ้นอย่างถูกต้อง นักสังคมวิทยาจะได้ผลลัพธ์ที่เชื่อถือได้ซึ่งระบุลักษณะของประชากรทั้งหมด หากรวบรวมอย่างไม่ถูกต้อง ข้อผิดพลาดที่เกิดขึ้นในขั้นตอนของการสุ่มตัวอย่างจะทวีคูณในแต่ละขั้นตอนต่อมาของการวิจัยทางสังคมวิทยา และในที่สุดก็ถึงค่าที่เกินดุลของการศึกษา ว่ากันว่าการวิจัยดังกล่าวส่งผลเสียมากกว่าผลดี

ข้อผิดพลาดดังกล่าวสามารถเกิดขึ้นได้กับกลุ่มตัวอย่างเท่านั้น เพื่อหลีกเลี่ยงหรือลดความน่าจะเป็นของข้อผิดพลาด วิธีที่ง่ายที่สุดคือการเพิ่มขนาดตัวอย่าง (ตามหลักการแล้วให้เท่ากับขนาดของประชากร: เมื่อประชากรทั้งสองตรงกัน ข้อผิดพลาดของตัวอย่างจะหายไปโดยสิ้นเชิง) ในทางเศรษฐกิจ วิธีนี้เป็นไปไม่ได้ มีวิธีอื่น - เพื่อปรับปรุง วิธีการทางคณิตศาสตร์การสุ่มตัวอย่าง นำไปใช้ในทางปฏิบัติ นี่เป็นช่องทางแรกของการเข้าสู่สังคมวิทยาของคณิตศาสตร์ ช่องที่สอง - การประมวลผลทางคณิตศาสตร์ข้อมูล.

โดยเฉพาะ ปัญหาสำคัญข้อผิดพลาดกลายเป็นในการวิจัยการตลาดซึ่งใช้กลุ่มตัวอย่างไม่มากนัก โดยปกติแล้วจะมีหลายร้อยคน แต่น้อยกว่านั้น - ผู้ตอบแบบสอบถามหนึ่งพันคน ที่นี่ จุดเริ่มต้นสำหรับการคำนวณตัวอย่างคือคำถามของการกำหนดขนาดของประชากรตัวอย่าง ขนาดตัวอย่างขึ้นอยู่กับปัจจัยสองประการ: 1) ค่าใช้จ่ายในการรวบรวมข้อมูลและ 2) ความพยายามในระดับหนึ่ง ความถูกต้องทางสถิติผลลัพธ์ที่ผู้วิจัยหวังว่าจะได้รับ แน่นอน แม้แต่คนที่ไม่มีประสบการณ์ด้านสถิติและสังคมวิทยาก็เข้าใจได้โดยสัญชาตญาณว่ายิ่งกลุ่มตัวอย่างมีขนาดใหญ่เท่าไร นั่นคือ ยิ่งเข้าใกล้ขนาดของประชากรโดยรวมมากเท่าใด ข้อมูลที่ได้รับก็ยิ่งน่าเชื่อถือและน่าเชื่อถือมากขึ้นเท่านั้น อย่างไรก็ตาม เราได้พูดไปแล้วข้างต้นเกี่ยวกับความเป็นไปไม่ได้ในทางปฏิบัติของการสำรวจทั้งหมดในกรณีเหล่านั้น เมื่อดำเนินการกับวัตถุที่มีจำนวนเกินกว่าหมื่น แสน และแม้แต่นับล้าน เป็นที่ชัดเจนว่าค่าใช้จ่ายในการเก็บรวบรวมข้อมูล (รวมถึงการชำระเงินสำหรับการจำลองแบบของเครื่องมือ แรงงานของแบบสอบถาม ผู้จัดการภาคสนาม และผู้ดำเนินการป้อนข้อมูลด้วยคอมพิวเตอร์) ขึ้นอยู่กับจำนวนเงินที่ลูกค้ายินดีจัดสรร และขึ้นอยู่กับนักวิจัยเพียงเล็กน้อย สำหรับปัจจัยที่สองเราจะพิจารณารายละเอียดเพิ่มเติมเล็กน้อย

ดังนั้น ยิ่งขนาดตัวอย่างใหญ่ขึ้น ข้อผิดพลาดที่เป็นไปได้ก็จะยิ่งน้อยลงเท่านั้น แม้ว่าควรสังเกตว่าหากคุณต้องการเพิ่มความแม่นยำเป็นสองเท่า คุณจะต้องเพิ่มจำนวนตัวอย่างไม่ใช่สองเท่า แต่เพิ่มขึ้นสี่เท่า เช่น ให้ทำสองเท่า ประมาณการที่แม่นยำข้อมูลที่ได้จากการสัมภาษณ์ 400 คน คุณต้องสัมภาษณ์ไม่ใช่ 800 คน แต่เป็น 1,600 คน อย่างไรก็ตาม การวิจัยการตลาดไม่น่าจะต้องการความแม่นยำ 100% หากผู้ผลิตเบียร์ต้องการทราบว่าผู้บริโภคเบียร์ชอบแบรนด์ของตนในสัดส่วนใด ไม่ใช่ความหลากหลายของคู่แข่ง - 60% หรือ 40% ดังนั้นความแตกต่างระหว่าง 57%, 60 หรือ 63% จะไม่ส่งผลกระทบต่อแผนของเขา

ข้อผิดพลาดในการสุ่มตัวอย่างอาจไม่ได้ขึ้นอยู่กับขนาดของมันเท่านั้น แต่ยังขึ้นอยู่กับระดับของความแตกต่างระหว่างแต่ละหน่วยภายในประชากรทั่วไปที่เรากำลังศึกษาด้วย ตัวอย่างเช่น หากเราต้องการทราบว่ามีการบริโภคเบียร์เท่าใด เราจะพบว่าภายในประชากรของเรา อัตราการบริโภคสำหรับ ผู้คนหลากหลายแตกต่างกันอย่างมีนัยสำคัญ (ประชากรทั่วไปต่างกัน) อีกกรณีหนึ่งเราจะศึกษาการบริโภคขนมปังและพบว่า ผู้คนที่หลากหลายมันแตกต่างกันอย่างมีนัยสำคัญน้อยกว่ามาก (ประชากรที่เป็นเนื้อเดียวกัน) ยิ่งความแตกต่าง (หรือ heterogeneity) ภายในประชากรมีมากเท่าใด จำนวนข้อผิดพลาดในการสุ่มตัวอย่างก็จะยิ่งมากขึ้นเท่านั้น ความสม่ำเสมอนี้เป็นเพียงการยืนยันสิ่งที่เรียบง่ายเท่านั้น การใช้ความคิดเบื้องต้น. ดังที่ V. Yadov กล่าวอย่างถูกต้อง "ขนาด (ปริมาตร) ของตัวอย่างขึ้นอยู่กับระดับของความเป็นเนื้อเดียวกันหรือความไม่เหมือนกันของวัตถุที่ศึกษา ยิ่งมีความเป็นเนื้อเดียวกันมากเท่าใด จำนวนที่น้อยลงก็สามารถให้ข้อสรุปที่น่าเชื่อถือทางสถิติได้

คำจำกัดความของขนาดตัวอย่างยังขึ้นอยู่กับระดับด้วย ช่วงความมั่นใจข้อผิดพลาดทางสถิติที่อนุญาต ในที่นี้เราหมายถึงข้อผิดพลาดแบบสุ่มซึ่งเกี่ยวข้องกับธรรมชาติของข้อผิดพลาดทางสถิติใดๆ ในและ Paniotto ให้การคำนวณต่อไปนี้ ตัวอย่างตัวแทนด้วยสมมติฐานของข้อผิดพลาด 5%:
ซึ่งหมายความว่าหากคุณสัมภาษณ์คน 400 คนในเขตเมืองซึ่งมีประชากรผู้ใหญ่ 100,000 คนพบว่า 33% ของผู้ซื้อที่ทำแบบสำรวจชอบผลิตภัณฑ์ของโรงงานแปรรูปเนื้อสัตว์ในท้องถิ่น จากนั้นด้วย 95 % ความน่าจะเป็น คุณสามารถพูดได้ว่า 33+5% (เช่น จาก 28 เป็น 38%) ของชาวเมืองนี้เป็นผู้ซื้อสินค้าเหล่านี้เป็นประจำ

คุณยังสามารถใช้การคำนวณของ Gallup เพื่อประเมินอัตราส่วนของขนาดตัวอย่างและข้อผิดพลาดในการสุ่มตัวอย่าง

ข้อผิดพลาดในการสุ่มตัวอย่างโดยเฉลี่ยแสดงว่าพารามิเตอร์ของประชากรตัวอย่างเบี่ยงเบนจากพารามิเตอร์ที่สอดคล้องกันของประชากรทั่วไปโดยเฉลี่ยมากน้อยเพียงใด หากเราคำนวณค่าเฉลี่ยของข้อผิดพลาดของตัวอย่างที่เป็นไปได้ทั้งหมด บางชนิดปริมาณที่กำหนด ( น) แยกมาจากประชากรกลุ่มเดียวกัน จากนั้นเราจะได้ลักษณะทั่วไปของพวกมัน - หมายถึงข้อผิดพลาดในการสุ่มตัวอย่าง ().

ในทฤษฎีการสังเกตแบบเลือกสูตรสำหรับการพิจารณาซึ่งเป็นรายบุคคล วิธีทางที่แตกต่างการเลือก (ซ้ำและไม่ซ้ำ) ประเภทของตัวอย่างที่ใช้และประเภทของตัวบ่งชี้ทางสถิติโดยประมาณ

ตัวอย่างเช่น หากใช้การสุ่มตัวอย่างซ้ำๆ ก็จะถูกกำหนดเป็น:

เมื่อประเมินค่าเฉลี่ยของคุณลักษณะ

หากเครื่องหมายเป็นทางเลือกและส่วนแบ่งเป็นค่าประมาณ

ในกรณีที่ไม่มีการเลือกแบบสุ่มซ้ำ สูตรจะได้รับการแก้ไข (1 - n/N):

- สำหรับค่าเฉลี่ยของแอตทริบิวต์

- สำหรับส่วนแบ่ง

ความน่าจะเป็นที่จะได้ค่าความผิดพลาดดังกล่าวจะเท่ากับ 0.683 เสมอ ในทางปฏิบัติ เป็นการดีกว่าที่จะได้ข้อมูลที่มีความน่าจะเป็นสูงกว่า แต่สิ่งนี้จะนำไปสู่การเพิ่มขนาดของข้อผิดพลาดในการสุ่มตัวอย่าง

ข้อผิดพลาดในการสุ่มตัวอย่างส่วนเพิ่ม () เท่ากับ t คูณจำนวนข้อผิดพลาดในการสุ่มตัวอย่างโดยเฉลี่ย (ในทฤษฎีการสุ่มตัวอย่าง เป็นเรื่องปกติที่จะเรียกค่าสัมประสิทธิ์ เสื้อ ค่าสัมประสิทธิ์ความเชื่อมั่น):

หากข้อผิดพลาดในการสุ่มตัวอย่างเพิ่มขึ้นเป็นสองเท่า (t = 2) เราจะมีโอกาสสูงกว่ามากที่จะไม่เกินขีดจำกัดที่กำหนด (ในกรณีของเรา ให้เพิ่มข้อผิดพลาดโดยเฉลี่ยเป็นสองเท่า) - 0.954 หากเราใช้ t \u003d 3 ระดับความเชื่อมั่นจะเท่ากับ 0.997 ซึ่งเป็นความแน่นอนจริง

ระดับข้อผิดพลาดในการสุ่มตัวอย่างส่วนเพิ่มขึ้นอยู่กับปัจจัยต่อไปนี้:

ระดับการเปลี่ยนแปลงของหน่วยของประชากรทั่วไป
ขนาดตัวอย่าง;
รูปแบบการเลือกที่เลือก (การเลือกที่ไม่ซ้ำให้ค่าความผิดพลาดที่น้อยลง);
ระดับความเชื่อมั่น.

หากขนาดตัวอย่างมากกว่า 30 ค่าของ t จะถูกกำหนดจากตารางการแจกแจงปกติ ถ้าน้อยกว่า - จากตารางการแจกแจงของนักเรียน

ต่อไปนี้คือค่าสัมประสิทธิ์ความเชื่อมั่นบางส่วนจากตารางการแจกแจงแบบปกติ

ช่วงความเชื่อมั่นสำหรับค่าเฉลี่ยของแอตทริบิวต์และสำหรับสัดส่วนในประชากรทั่วไปกำหนดไว้ดังนี้:

ดังนั้น คำจำกัดความของขอบเขตของค่าเฉลี่ยทั่วไปและส่วนแบ่งประกอบด้วยขั้นตอนต่อไปนี้:

ข้อผิดพลาดในการสุ่มตัวอย่างที่ หลากหลายชนิดการเลือก

การสุ่มตัวอย่างแบบสุ่มและเชิงกล ข้อผิดพลาดเฉลี่ยของการสุ่มตัวอย่างเชิงกลและการสุ่มที่เกิดขึ้นจริงพบได้โดยใช้สูตรที่แสดงในตาราง 11.3.

ตัวอย่าง 11.2 เพื่อศึกษาระดับผลผลิตทุนได้ดำเนินการ แบบสำรวจตัวอย่างกิจการ 90 แห่งจาก 225 แห่งโดยการสุ่มตัวอย่างซ้ำ ซึ่งได้ข้อมูลที่แสดงในตาราง

ในตัวอย่างนี้ เรามีตัวอย่าง 40% (90: 225 = 0.4 หรือ 40%) ให้เราพิจารณาข้อผิดพลาดเล็กน้อยและขอบเขตสำหรับค่าเฉลี่ยของคุณลักษณะในประชากรทั่วไปตามขั้นตอนของอัลกอริทึม:

จากผลการสำรวจตัวอย่าง เราคำนวณค่าเฉลี่ยและความแปรปรวนในกลุ่มประชากรตัวอย่าง:

ตารางที่ 11.5

ผลการสังเกต			ค่าโดยประมาณ
ผลตอบแทนจากสินทรัพย์ rub., x i	จำนวนวิสาหกิจฉ	ตรงกลางของช่วง x i \xb4	x ฉัน \xb4 ฉ ฉัน	x ฉัน \xb4 2 ฉ ฉัน
สูงถึง 1.4	13	1,3	16,9	21,97
1,4-1,6	15	1,5	22,5	33,75
1,6-1,8	17	1,7	28,9	49,13
1,8-2,0	15	1,9	28,5	54,15
2,0-2,2	16	2,1	33,6	70,56
2.2 ขึ้นไป	14	2,3	32,2	74,06
ทั้งหมด	90	-	162,6	303,62

ค่าเฉลี่ยตัวอย่าง

ตัวอย่างความแปรปรวนของลักษณะที่ศึกษา

สำหรับข้อมูลของเรา เรากำหนดข้อผิดพลาดในการสุ่มตัวอย่างส่วนเพิ่ม ตัวอย่างเช่น ด้วยความน่าจะเป็น 0.954 ตามตารางค่าความน่าจะเป็นของฟังก์ชันการแจกแจงแบบปกติ (ดูสารสกัดจากภาคผนวก 1) เราพบค่าสัมประสิทธิ์ความเชื่อมั่น t ที่สอดคล้องกับความน่าจะเป็น 0.954 ด้วยความน่าจะเป็น 0.954 ค่าสัมประสิทธิ์ t คือ 2

ดังนั้นใน 954 กรณีจาก 1,000 ผลตอบแทนจากสินทรัพย์โดยเฉลี่ยจะไม่เกิน 1.88 รูเบิล และไม่น้อยกว่า 1.74 รูเบิล

ข้างต้น มีการใช้แผนการสุ่มเลือกซ้ำๆ มาดูกันว่าผลลัพธ์ของการสำรวจจะเปลี่ยนไปหรือไม่หากเราถือว่าการเลือกนั้นดำเนินการตามโครงร่าง เลือกใหม่. ในกรณีนี้ ค่าเฉลี่ยข้อผิดพลาดจะคำนวณโดยใช้สูตร

จากนั้น ด้วยความน่าจะเป็นเท่ากับ 0.954 ข้อผิดพลาดในการสุ่มตัวอย่างส่วนเพิ่มจะเป็น:

ขีดจำกัดความเชื่อมั่นสำหรับค่าเฉลี่ยของคุณลักษณะในกรณีที่มีการเลือกแบบสุ่มที่ไม่ซ้ำจะมี ค่าต่อไปนี้:

การเปรียบเทียบผลลัพธ์ของรูปแบบการเลือกทั้งสอง เราสามารถสรุปได้ว่าการใช้การสุ่มตัวอย่างแบบไม่ซ้ำจะให้ผลลัพธ์ที่แม่นยำกว่าเมื่อเปรียบเทียบกับการใช้การเลือกซ้ำที่มีระดับความเชื่อมั่นเดียวกัน ในเวลาเดียวกัน ยิ่งขนาดตัวอย่างใหญ่เท่าใด ขอบเขตของค่าเฉลี่ยก็จะยิ่งแคบลงเมื่อย้ายจากรูปแบบการเลือกหนึ่งไปยังอีกรูปแบบหนึ่ง

ตามตัวอย่าง เรากำหนดขอบเขตของส่วนแบ่งขององค์กรโดยให้ผลตอบแทนจากสินทรัพย์ที่ไม่เกิน 2.0 รูเบิลในประชากรทั่วไป:

ลองคำนวณอัตราตัวอย่าง

จำนวนวิสาหกิจในตัวอย่างที่มีผลตอบแทนจากสินทรัพย์ไม่เกิน 2.0 รูเบิลคือ 60 หน่วย แล้ว

m = 60, n = 90, w = m/n = 60: 90 = 0.667;

คำนวณความแปรปรวนของส่วนแบ่งในกลุ่มประชากรตัวอย่าง

ข้อผิดพลาดในการสุ่มตัวอย่างโดยเฉลี่ยเมื่อใช้ โครงการใหม่การเลือกจะเป็น

หากเราสันนิษฐานว่ามีการใช้รูปแบบการเลือกที่ไม่ซ้ำ ข้อผิดพลาดในการสุ่มตัวอย่างโดยเฉลี่ย โดยคำนึงถึงการแก้ไขสำหรับจำนวนจำกัดของประชากรจะเป็น

เราตั้งค่าความน่าจะเป็นที่มั่นใจและกำหนดข้อผิดพลาดในการสุ่มตัวอย่างส่วนเพิ่ม

ด้วยค่าความน่าจะเป็นของ P = 0.997 ตามตารางการแจกแจงแบบปกติ เราได้ค่าสำหรับค่าสัมประสิทธิ์ความเชื่อมั่น t = 3 (ดูข้อความที่แยกออกมาในภาคผนวก 1):

ดังนั้นด้วยความน่าจะเป็นที่ 0.997 จึงเป็นที่ถกเถียงกันอยู่ว่าในประชากรทั่วไป ส่วนแบ่งขององค์กรที่มีผลตอบแทนจากสินทรัพย์ไม่เกิน 2.0 รูเบิล ไม่น้อยกว่า 54.7% และไม่เกิน 78.7%

ตัวอย่างทั่วไป ด้วยตัวอย่างทั่วไป ประชากรทั่วไปของวัตถุจะแบ่งออกเป็น k กลุ่ม

N 1 + N 2 + ... + N i + ... + N k = N.

ปริมาณของหน่วยที่สกัดจากแต่ละกลุ่มทั่วไปขึ้นอยู่กับวิธีการเลือกที่นำมาใช้ พวกเขา ทั้งหมดสร้างขนาดตัวอย่างที่ต้องการ

n 1 + n 2 + … + n i + … + n k = n

มีสองวิธีดังต่อไปนี้ในการจัดระเบียบการเลือกภายในกลุ่มทั่วไป: สัดส่วนกับปริมาณของกลุ่มทั่วไปและสัดส่วนตามระดับความผันผวนของค่าของแอตทริบิวต์ในหน่วยการสังเกตในกลุ่ม พิจารณาอย่างแรกว่าเป็นสิ่งที่ใช้บ่อยที่สุด

การเลือกสัดส่วนตามขนาดของกลุ่มทั่วไปจะถือว่าในแต่ละกลุ่มจะถูกเลือก หมายเลขถัดไปหน่วยประชากร:

n = n ผม ยังไม่มี ผม /N

โดยที่ n i คือจำนวนหน่วยที่แยกได้สำหรับตัวอย่างจากกลุ่มทั่วไป i-th

n คือขนาดตัวอย่างทั้งหมด

N i - จำนวนหน่วยของประชากรทั่วไปที่ประกอบขึ้นเป็น i-th กลุ่มทั่วไป

N คือจำนวนหน่วยทั้งหมดในประชากรทั่วไป

การเลือกหน่วยภายในกลุ่มเกิดขึ้นในรูปแบบของการสุ่มหรือการสุ่มตัวอย่างเชิงกล

สูตรสำหรับการประมาณค่าเฉลี่ยข้อผิดพลาดในการสุ่มตัวอย่างสำหรับค่าเฉลี่ยและส่วนแบ่งจะแสดงในตาราง 11.6.

นี่คือค่าเฉลี่ยของความแปรปรวนของกลุ่มของกลุ่มทั่วไป

ตัวอย่าง 11.3 มีการสำรวจตัวอย่างนักเรียนในมหาวิทยาลัยมอสโกแห่งหนึ่งเพื่อกำหนดตัวบ่งชี้การเข้าเรียนโดยเฉลี่ยของห้องสมุดมหาวิทยาลัยโดยนักเรียนหนึ่งคนต่อภาคการศึกษา สำหรับสิ่งนี้ ใช้ตัวอย่างทั่วไปที่ไม่ซ้ำ 5% ซึ่งเป็นกลุ่มทั่วไปที่สอดคล้องกับหมายเลขหลักสูตร เมื่อเลือกตามสัดส่วนของปริมาณของกลุ่มทั่วไป จะได้ข้อมูลต่อไปนี้:

ตาราง 11.7.

หมายเลขรายวิชา	นักเรียนทั้งหมด, คน, N i	ตรวจสอบจากการสังเกตแบบเลือก, คน, n i	จำนวนการเข้าใช้ห้องสมุดโดยเฉลี่ยต่อนักเรียนต่อภาคการศึกษา x i	ความแปรปรวนตัวอย่างภายในกลุ่ม
1	650	33	11	6
2	610	31	8	15
3	580	29	5	18
4	360	18	6	24
5	350	17	10	12
ทั้งหมด	2 550	128	8	-

จำนวนนักศึกษาที่จะสอบในแต่ละรายวิชาคำนวณได้ดังนี้

คล้ายกันสำหรับกลุ่มอื่น:

การกระจายของค่าเฉลี่ยตัวอย่างมีเสมอ กฎหมายปกติการกระจาย (หรือเข้าใกล้) สำหรับ n > 100 โดยไม่คำนึงถึงลักษณะของการกระจายตัวของประชากร อย่างไรก็ตาม ในกรณีของตัวอย่างขนาดเล็ก จะใช้กฎหมายการกระจายที่แตกต่างกัน - การกระจายของนักเรียน ในกรณีนี้ จะพบค่าสัมประสิทธิ์ความเชื่อมั่นตามตารางการแจกแจงแบบ t ของนักเรียน ขึ้นอยู่กับค่าของความน่าจะเป็นทางความเชื่อมั่น P และขนาดตัวอย่าง n ภาคผนวก 1 แสดงส่วนของตารางการแจกแจงแบบ t ของนักเรียน ซึ่งแสดงเป็นการพึ่งพา ของความเชื่อมั่นความน่าจะเป็นของขนาดตัวอย่างและค่าสัมประสิทธิ์ความเชื่อมั่น t

ตัวอย่าง 11.4 สมมติว่าการสำรวจตัวอย่างของนักเรียนแปดคนในสถาบันแสดงว่ากำลังเตรียมตัวสำหรับ ควบคุมการทำงานตามสถิติพวกเขาใช้เวลาหลายชั่วโมงต่อไปนี้: 8.5; 8.0; 7.8; 9.0; 7.2; 6.2; 8.4; 6.6.

ตัวอย่าง 11.5 ลองคำนวณจำนวน 507 กัน สถานประกอบการอุตสาหกรรมควรตรวจสอบสำนักงานภาษีเพื่อกำหนดส่วนแบ่งขององค์กรที่มีการละเมิดภาษีโดยมีความน่าจะเป็น 0.997 จากการสำรวจที่คล้ายกันก่อนหน้านี้ ค่าของส่วนเบี่ยงเบนมาตรฐานคือ 0.15; ขนาดของข้อผิดพลาดในการสุ่มตัวอย่างคาดว่าจะไม่เกิน 0.05

เมื่อใช้การเลือกสุ่มซ้ำ ตรวจสอบ

ในการสุ่มแบบไม่ซ้ำจะต้องตรวจสอบ

อย่างที่คุณเห็น การใช้การสุ่มตัวอย่างแบบไม่ซ้ำทำให้คุณสามารถสำรวจได้มาก น้อยลงวัตถุ

ตัวอย่าง 11.6 มีการวางแผนการสำรวจ ค่าจ้างที่สถานประกอบการของอุตสาหกรรมโดยวิธีการสุ่มเลือกแบบไม่ซ้ำ ขนาดของกลุ่มตัวอย่างควรเป็นเท่าใดหากในขณะที่ทำการสำรวจจำนวนพนักงานในอุตสาหกรรมคือ 100,000 คน ข้อผิดพลาดในการสุ่มตัวอย่างส่วนเพิ่มไม่ควรเกิน 100 รูเบิล ด้วยความน่าจะเป็น 0.954 จากการสำรวจค่าจ้างในอุตสาหกรรมที่ผ่านมาทราบว่าเป็นค่าเฉลี่ย ส่วนเบี่ยงเบนมาตรฐานคือ 500 รูเบิล

ดังนั้นในการแก้ปัญหาจำเป็นต้องรวมกลุ่มตัวอย่างอย่างน้อย 100 คน

ค่าเฉลี่ยและข้อผิดพลาดในการสุ่มตัวอย่างเล็กน้อย

ข้อได้เปรียบหลักของการสังเกตแบบเลือกคือความสามารถในการคำนวณ ข้อผิดพลาดแบบสุ่มตัวอย่าง

ข้อผิดพลาดในการสุ่มตัวอย่างเป็นระบบหรือแบบสุ่ม

อย่างเป็นระบบ- ในกรณีที่หลักการพื้นฐานของการสุ่มตัวอย่าง - การสุ่ม - ถูกละเมิด สุ่ม- มักเกิดขึ้นเนื่องจากโครงสร้างของตัวอย่างแตกต่างจากโครงสร้างของประชากรทั่วไปเสมอไม่ว่าจะทำการเลือกอย่างถูกต้องเพียงใดนั่นคือแม้จะมีหลักการสุ่มเลือกหน่วยของประชากร แต่ก็ยังมี ความแตกต่างระหว่างคุณลักษณะของกลุ่มตัวอย่างกับประชากรทั่วไป การศึกษาและการวัดข้อผิดพลาดแบบสุ่มของการเป็นตัวแทนเป็นงานหลักของวิธีการสุ่มตัวอย่าง

ตามกฎแล้วมักจะคำนวณข้อผิดพลาดของค่าเฉลี่ยและข้อผิดพลาดของสัดส่วน ข้อตกลงต่อไปนี้ใช้ในการคำนวณ:

ค่าเฉลี่ยที่คำนวณจากประชากรทั่วไป

ค่าเฉลี่ยที่คำนวณภายในประชากรกลุ่มตัวอย่าง

ร- ส่วนแบ่งของกลุ่มนี้ในประชากรทั่วไป

ว- ส่วนแบ่งของกลุ่มนี้ในกลุ่มประชากรตัวอย่าง

โดยใช้ การประชุมข้อผิดพลาดในการสุ่มตัวอย่างสำหรับค่าเฉลี่ยและสัดส่วนสามารถเขียนได้ดังนี้:

ค่าเฉลี่ยตัวอย่างและส่วนแบ่งตัวอย่างเป็นตัวแปรสุ่มที่สามารถรับค่าใดก็ได้ขึ้นอยู่กับหน่วยของประชากรที่รวมอยู่ในตัวอย่าง ดังนั้น ข้อผิดพลาดในการสุ่มตัวอย่างจึงเป็นตัวแปรสุ่มและสามารถรับค่าที่แตกต่างกันได้ ดังนั้นจึงกำหนดค่าเฉลี่ย ข้อผิดพลาดที่เป็นไปได้ μ .

ข้อผิดพลาดแบบสุ่มสามารถกำหนดได้ล่วงหน้าก่อนการสุ่มตัวอย่าง ซึ่งแตกต่างจากข้อผิดพลาดอย่างเป็นระบบ ทฤษฎีบทจำกัดพิจารณาในทางสถิติทางคณิตศาสตร์

ข้อผิดพลาดเฉลี่ยถูกกำหนดด้วยความน่าจะเป็น 0.683 ในกรณีของความน่าจะเป็นที่แตกต่างกัน เราจะพูดถึงข้อผิดพลาดเล็กน้อย

ค่าเฉลี่ยข้อผิดพลาดในการสุ่มตัวอย่างสำหรับค่าเฉลี่ยและสำหรับเศษส่วนถูกกำหนดดังนี้:

ในสูตรเหล่านี้ ความแปรปรวนของคุณลักษณะเป็นคุณลักษณะเฉพาะของประชากรทั่วไป ซึ่งไม่เป็นที่รู้จักในระหว่างการสังเกตแบบเลือก ในทางปฏิบัติ พวกมันจะถูกแทนที่ด้วยลักษณะที่คล้ายคลึงกันของประชากรตัวอย่างตามกฎของจำนวนมาก ซึ่งประชากรตัวอย่างของปริมาณมากจะจำลองลักษณะของประชากรทั่วไปได้อย่างถูกต้อง

สูตรสำหรับพิจารณาข้อผิดพลาดเฉลี่ยสำหรับ วิธีการที่แตกต่างกันการเลือก:

วิธีการคัดเลือก	ซ้ำ	ไม่ซ้ำ
หมายถึงข้อผิดพลาด	แบ่งปันข้อผิดพลาด	หมายถึงข้อผิดพลาด	แบ่งปันข้อผิดพลาด
การสุ่มด้วยตนเองและเชิงกล
ทั่วไป
อนุกรม

μ - ข้อผิดพลาดเฉลี่ย

∆ - ข้อผิดพลาดเล็กน้อย;

พี -ขนาดตัวอย่าง;

N-ขนาดของประชากรทั่วไป

ผลต่างทั้งหมด;

ว-ส่วนแบ่งของหมวดหมู่นี้ใน ความแข็งแรงทั้งหมดตัวอย่าง:

ค่าเฉลี่ยของ การกระจายตัวภายในกลุ่ม;

Δ 2 - การกระจายระหว่างกลุ่ม;

r-จำนวนซีรีส์ในตัวอย่าง

รคือจำนวนตอนทั้งหมด

ข้อผิดพลาดเล็กน้อยสำหรับวิธีการเลือกทั้งหมดจะเกี่ยวข้องกับค่าเฉลี่ยข้อผิดพลาดในการสุ่มตัวอย่างดังนี้

ที่ไหน ที- ค่าสัมประสิทธิ์ของความเชื่อมั่นที่เกี่ยวข้องกับการทำงานกับความน่าจะเป็นที่มีการระบุค่าของข้อผิดพลาดเล็กน้อย ขึ้นอยู่กับความน่าจะเป็น ค่าสัมประสิทธิ์ความเชื่อมั่น t ใช้ค่าต่อไปนี้:

ที	พี
	0,683
1,5	0,866
2,0	0,954
2,5	0,988
3,0	0,997
4,0	0,9999

ตัวอย่างเช่น ความน่าจะเป็นของข้อผิดพลาดคือ 0.683 ซึ่งหมายความว่าค่าเฉลี่ยทั่วไปแตกต่างจากค่าเฉลี่ยตัวอย่างในแง่ของ ค่าสัมบูรณ์ไม่เกินจำนวน μ ด้วยความน่าจะเป็น 0.683 ถ้าค่าเฉลี่ยตัวอย่างคือค่าเฉลี่ยทั่วไป กับความน่าจะเป็น 0.683

หากเราต้องการให้ความเป็นไปได้ในการอนุมานสูงขึ้น เราจึงเพิ่มขอบเขตของข้อผิดพลาดแบบสุ่ม

ดังนั้น ค่าของข้อผิดพลาดส่วนเพิ่มขึ้นอยู่กับปริมาณต่อไปนี้:

ความผันผวนของสัญญาณ (การเชื่อมต่อโดยตรง) ซึ่งมีลักษณะตามขนาดของการกระจาย

ขนาดตัวอย่าง ( ข้อเสนอแนะ);

ความน่าจะเป็นของความมั่นใจ(เชื่อมต่อโดยตรง);

วิธีการเลือก

ตัวอย่างการคำนวณข้อผิดพลาดของค่าเฉลี่ยและข้อผิดพลาดของส่วนแบ่ง

เพื่อกำหนดจำนวนเด็กโดยเฉลี่ยในครอบครัว 100 ครอบครัวได้รับเลือกจาก 1,000 ครอบครัวโดยการสุ่มตัวอย่างแบบไม่ซ้ำ ๆ ผลลัพธ์แสดงในตาราง:

กำหนด:.

- ด้วยความน่าจะเป็น 0.997 ข้อผิดพลาดในการสุ่มตัวอย่างส่วนเพิ่มและขอบเขตที่จำนวนเด็กเฉลี่ยในครอบครัวตั้งอยู่

- ด้วยความน่าจะเป็น 0.954 ซึ่งเป็นขอบเขตที่สัดส่วนของครอบครัวที่มีลูกสองคนตั้งอยู่

1. กำหนดข้อผิดพลาดเล็กน้อยของค่าเฉลี่ยด้วยความน่าจะเป็น 0.977 เพื่อให้การคำนวณง่ายขึ้น เราใช้วิธีช่วงเวลา:

หน้า = 0,997 ที= 3

ข้อผิดพลาดเฉลี่ยของค่าเฉลี่ย 0.116 - ข้อผิดพลาดเล็กน้อย

2,12 – 0,116 ≤ ≤ 2,12+ 0,116

2,004 ≤ ≤ 2,236

ดังนั้นด้วยความน่าจะเป็น 0.997 จำนวนเด็กโดยเฉลี่ยในครอบครัวของประชากรทั่วไป ซึ่งก็คือใน 1,000 ครอบครัว อยู่ในช่วง 2.004 - 2.236