ข้อผิดพลาดในการสุ่มตัวอย่างแบบสัมพันธ์ สูตรข้อผิดพลาดในการสุ่มตัวอย่างโดยเฉลี่ย

สูตร ความน่าจะเป็นของความมั่นใจเมื่อประเมินทั่วไป ไม่มีส่วนแบ่งของลักษณะ ค่าคลาดเคลื่อนกำลังสองเฉลี่ยของการทำซ้ำ และ การสุ่มตัวอย่างแบบไม่ทำซ้ำและการสร้างช่วงความเชื่อมั่น เพื่อแบ่งปันลักษณะทั่วไป

สูตรความเชื่อมั่นในการประมาณค่าเฉลี่ยทั่วไป ค่าคลาดเคลื่อนกำลังสองเฉลี่ยของการสุ่มตัวอย่างและการสร้างซ้ำและไม่ซ้ำ ช่วงความมั่นใจสำหรับค่าเฉลี่ยทั่วไป

การสร้างช่วงความเชื่อมั่นสำหรับค่าเฉลี่ยทั่วไปและส่วนแบ่งทั่วไปสำหรับกลุ่มตัวอย่างขนาดใหญ่ - เพื่อสร้างช่วงความเชื่อมั่นสำหรับพารามิเตอร์ของประชากรทั่วไป m.b. มีการนำแนวทาง 2 ไปใช้ โดยอาศัยความรู้ที่แน่นอน (สำหรับขนาดตัวอย่างที่กำหนด n) หรือการกระจายเชิงเส้นกำกับ (สำหรับ n → ∞) ของคุณลักษณะตัวอย่าง (หรือฟังก์ชันบางอย่างของพวกมัน) แนวทางแรกถูกนำมาใช้เพิ่มเติมเมื่อสร้างการประมาณช่วงของพารามิเตอร์สำหรับตัวอย่างขนาดเล็ก ในส่วนนี้จะกล่าวถึงแนวทางที่สอง ซึ่งใช้ได้กับกลุ่มตัวอย่างขนาดใหญ่ (ตามลำดับการสังเกตหลายร้อยครั้ง)

ทฤษฎีบท - ความเชื่อที่ว่าค่าเบี่ยงเบนของค่าเฉลี่ยตัวอย่าง (หรือส่วนแบ่ง) จากค่าเฉลี่ยทั่วไป (หรือส่วนแบ่ง) จะไม่เกินตัวเลข Δ > 0 (ในค่าสัมบูรณ์) เท่ากับ:

ที่ไหน

ที่ไหน
.

Ф(t) - ฟังก์ชัน (อินทิกรัลความน่าจะเป็น) ของ Laplace

มีชื่อสูตรว่า สูตรความเชื่อมั่นสำหรับค่าเฉลี่ยและเศษส่วน .

ค่าเบี่ยงเบนมาตรฐานของค่าเฉลี่ยตัวอย่าง และแชร์ตัวอย่าง จริงๆ แล้ว ตัวอย่างแบบสุ่มเรียกว่า ข้อผิดพลาดเฉลี่ยกำลังสอง (มาตรฐาน) ตัวอย่าง (สำหรับการสุ่มตัวอย่างที่ไม่ซ้ำเราจะแสดงตามนั้น และ ).

ข้อพิสูจน์ 1 - สำหรับระดับความเชื่อมั่นที่กำหนด γ ความคลาดเคลื่อนในการสุ่มตัวอย่างสูงสุดจะเท่ากับ t-fold ของค่าเฉลี่ย ข้อผิดพลาดกำลังสองโดยที่ Ф(t) = γ คือ

ข้อพิสูจน์ 2 - การประมาณช่วง (ช่วงความเชื่อมั่น) สำหรับค่าเฉลี่ยทั่วไปและส่วนแบ่งทั่วไปสามารถดูได้โดยใช้สูตร:

การกำหนดปริมาตรที่ต้องการของตัวอย่างที่ซ้ำและไม่ซ้ำเมื่อประมาณค่าค่าเฉลี่ยทั่วไปและส่วนแบ่ง

เพื่อดำเนินการ การสังเกตตัวอย่างสิ่งสำคัญมากคือต้องตั้งค่าขนาดตัวอย่างให้ถูกต้อง ซึ่งส่วนใหญ่จะกำหนดเวลา ค่าแรง และต้นทุนที่ต้องใช้ในการกำหนด n จำเป็นต้องตั้งค่าความน่าเชื่อถือ (ความมั่นใจ) ของการประมาณค่า γ และความแม่นยำ (ข้อผิดพลาดในการสุ่มตัวอย่างสูงสุด) Δ

หากพบปริมาตรของการสุ่มตัวอย่างซ้ำ n ปริมาตรของการสุ่มตัวอย่างแบบไม่ซ้ำกัน n" สามารถกำหนดได้จากสูตร:

เพราะ
จากนั้นด้วยความแม่นยำและความน่าเชื่อถือที่เท่ากันของการประมาณค่า ปริมาตรของการสุ่มตัวอย่างแบบไม่ซ้ำ n" จะน้อยกว่าปริมาตรของการสุ่มตัวอย่างซ้ำ n เสมอ

สมมติฐานทางสถิติและการทดสอบทางสถิติ ข้อผิดพลาดประเภทที่ 1 และ 2 ระดับความสำคัญและอำนาจของการทดสอบ หลักความแน่นอนในทางปฏิบัติ

คำนิยาม . สมมติฐานทางสถิติ เป็นข้อสันนิษฐานเกี่ยวกับประเภทหรือพารามิเตอร์ของกฎหมายการกระจายที่ไม่รู้จัก

มีสมมติฐานทางสถิติที่เรียบง่ายและซับซ้อน. สมมติฐานง่ายๆ ตรงกันข้ามกับฟังก์ชันเชิงซ้อน กำหนดฟังก์ชันการแจกแจงทางทฤษฎีของ SW อย่างสมบูรณ์

สมมติฐานที่กำลังทดสอบมักเรียกว่า โมฆะ (หรือ ขั้นพื้นฐาน ) และแสดงถึง H 0 . พร้อมทั้ง สมมติฐานว่างกำลังพิจารณา ทางเลือก , หรือ กำลังแข่งขัน สมมติฐาน H 1 ซึ่งเป็นการปฏิเสธเชิงตรรกะของ H 0 สมมติฐานที่เป็นโมฆะและทางเลือกแสดงถึงสองตัวเลือกที่เกิดขึ้นในปัญหาการทดสอบสมมติฐานทางสถิติ

สาระสำคัญของการทดสอบสมมติฐานทางสถิติคือใช้คุณลักษณะตัวอย่างที่รวบรวมไว้เป็นพิเศษ (สถิติ)
ที่ได้จากตัวอย่าง
การแจกแจงที่แน่นอนหรือโดยประมาณซึ่งเป็นที่รู้จัก

ค่าวิกฤตจะถูกกำหนดจากการกระจายตัวอย่างนี้ - เช่นว่าถ้าสมมุติฐาน H 0 เป็นจริง แสดงว่าความเชื่อนั้น
เล็ก; เพื่อให้เป็นไปตามหลักการของความมั่นใจในทางปฏิบัติในเงื่อนไขของการศึกษาครั้งนี้
สามารถ (มีความเสี่ยง) ถือว่าเป็นไปไม่ได้ในทางปฏิบัติ ดังนั้นหากในกรณีนี้ตรวจพบความเบี่ยงเบน
แล้วสมมุติฐาน H 0 จะถูกปฏิเสธ ในขณะที่ปรากฏค่า
ถือว่าเข้ากันได้กับสมมติฐาน H 0 ซึ่งเป็นที่ยอมรับแล้ว (แม่นยำกว่านั้นไม่ถูกปฏิเสธ) กฎที่สมมติฐาน H 0 ถูกปฏิเสธหรือยอมรับเรียกว่า เกณฑ์ทางสถิติ หรือ การทดสอบทางสถิติ .

หลักการของความมั่นใจในทางปฏิบัติ:

ถ้าความน่าจะเป็นของเหตุการณ์ A ในการทดสอบที่กำหนดมีน้อยมาก ถ้าทำการทดสอบครั้งเดียว คุณจะมั่นใจได้ว่าเหตุการณ์ A จะไม่เกิดขึ้น และในทางปฏิบัติจะทำตัวราวกับว่าเหตุการณ์ A เป็นไปไม่ได้เลย

ดังนั้นชุดของค่าสถิติที่เป็นไปได้ - เกณฑ์ (สถิติวิกฤต) แบ่งออกเป็น 2 ชุดย่อยที่ไม่ต่อเนื่องกัน: ภูมิภาคที่สำคัญ(พื้นที่ปฏิเสธสมมติฐาน) วและ ช่วงของค่าที่ยอมรับได้(พื้นที่ยอมรับสมมติฐาน) - หากค่าที่สังเกตได้จริงตามเกณฑ์ทางสถิติ ตกอยู่ในบริเวณวิกฤต W จากนั้นสมมติฐาน H 0 จะถูกปฏิเสธ ในกรณีนี้เป็นไปได้ 4 กรณี คือ

คำนิยาม - ความน่าจะเป็น α ที่จะทำข้อผิดพลาดประเภท l เช่น การปฏิเสธสมมติฐาน H 0 เมื่อเป็นจริงเรียกว่า ระดับความสำคัญ , หรือ ขนาดเกณฑ์ .

ความน่าจะเป็นที่จะเกิดข้อผิดพลาดประเภทที่ 2 เช่น ยอมรับสมมติฐาน H 0 เมื่อเป็นเท็จ โดยปกติจะแสดงด้วย β

คำนิยาม - ความน่าจะเป็น (1-β) ที่ไม่ทำให้เกิดข้อผิดพลาดประเภท 2 เช่น การปฏิเสธสมมติฐาน H 0 เมื่อเป็นเท็จเรียกว่า พลัง (หรือ ฟังก์ชั่นพลังงาน ) เกณฑ์ .

เราควรเลือกพื้นที่วิกฤตซึ่งอำนาจของเกณฑ์นั้นยิ่งใหญ่ที่สุด

ดังที่เราทราบกันดีอยู่แล้วว่าความเป็นตัวแทนคือทรัพย์สิน ประชากรตัวอย่างนำเสนอลักษณะทั่วไป หากไม่มีการจับคู่พวกเขาจะพูดถึงข้อผิดพลาดในการเป็นตัวแทน - การวัดความเบี่ยงเบนของโครงสร้างทางสถิติของกลุ่มตัวอย่างจากโครงสร้างของโครงสร้างที่เกี่ยวข้อง ประชากร- สมมติว่ารายได้ครอบครัวเฉลี่ยต่อเดือนของผู้รับบำนาญในประชากรทั่วไปคือ 2,000 รูเบิลและในประชากรตัวอย่าง - 6,000 รูเบิล ซึ่งหมายความว่านักสังคมวิทยาสัมภาษณ์เฉพาะส่วนที่ร่ำรวยของผู้รับบำนาญและเกิดข้อผิดพลาดในการเป็นตัวแทนในการศึกษาของเขา กล่าวอีกนัยหนึ่งข้อผิดพลาดในการเป็นตัวแทนคือความแตกต่างระหว่างประชากรสองคน - ประชากรทั่วไปซึ่งมีความสนใจทางทฤษฎีของนักสังคมวิทยาและความคิดเกี่ยวกับคุณสมบัติที่เขาต้องการได้รับในท้ายที่สุดและตัวอย่างที่นักสังคมวิทยา มีการกำกับความสนใจเชิงปฏิบัติซึ่งทำหน้าที่เป็นวัตถุในการตรวจสอบและวิธีการรับข้อมูลเกี่ยวกับประชากรทั่วไปพร้อมกัน

นอกเหนือจากคำว่า "ข้อผิดพลาดในการเป็นตัวแทน" ในวรรณกรรมภายในประเทศแล้ว คุณยังสามารถพบอีกปัญหาหนึ่งได้ - "ข้อผิดพลาดในการสุ่มตัวอย่าง" บางครั้งใช้แทนกันได้ และบางครั้งใช้ "ข้อผิดพลาดในการสุ่มตัวอย่าง" แทน "ข้อผิดพลาดตัวแทน" เนื่องจากเป็นแนวคิดเชิงปริมาณที่แม่นยำยิ่งขึ้น

ข้อผิดพลาดในการสุ่มตัวอย่างคือการเบี่ยงเบนของลักษณะเฉลี่ยของประชากรตัวอย่างจากลักษณะเฉลี่ยของประชากรทั่วไป

ในทางปฏิบัติ ข้อผิดพลาดในการสุ่มตัวอย่างถูกกำหนดโดยการเปรียบเทียบคุณลักษณะของประชากรที่ทราบกับค่าเฉลี่ยของตัวอย่าง ในสังคมวิทยา เมื่อมีการสำรวจประชากรผู้ใหญ่ มักใช้ข้อมูลจากการสำรวจสำมะโนประชากร สถิติปัจจุบัน และผลการสำรวจครั้งก่อนๆ ลักษณะทางสังคมและประชากรมักใช้เป็นพารามิเตอร์ควบคุม การเปรียบเทียบค่าเฉลี่ยของประชากรทั่วไปและประชากรตัวอย่างบนพื้นฐานของสิ่งนี้ การกำหนดข้อผิดพลาดในการสุ่มตัวอย่างและการลดลงเรียกว่าการควบคุมความเป็นตัวแทน เนื่องจากการเปรียบเทียบข้อมูลของตนเองและของผู้อื่นสามารถทำได้หลังจากเสร็จสิ้นการศึกษา วิธีการควบคุมนี้เรียกว่า posteriori กล่าวคือ ดำเนินการหลังจากประสบการณ์

ในการสำรวจความคิดเห็นของ Gallup ความเป็นตัวแทนจะถูกควบคุมโดยใช้ข้อมูลที่มีอยู่ในการสำรวจสำมะโนระดับชาติเกี่ยวกับการกระจายตัวของประชากรตามเพศ อายุ การศึกษา รายได้ อาชีพ เชื้อชาติ สถานที่อยู่อาศัย ขนาด การตั้งถิ่นฐาน- ศูนย์การศึกษารัสเซียทั้งหมด ความคิดเห็นของประชาชน(VTsIOM) ใช้เพื่อวัตถุประสงค์ดังกล่าว เช่น ตัวบ่งชี้เพศ อายุ การศึกษา ประเภทของการตั้งถิ่นฐาน สถานภาพการสมรส, สาขาการจ้างงาน, สถานะงานของผู้ถูกร้องซึ่งยืมมาจากคณะกรรมการสถิติแห่งรัฐของสหพันธรัฐรัสเซีย ในทั้งสองกรณีจะทราบจำนวนประชากร ไม่สามารถระบุข้อผิดพลาดในการสุ่มตัวอย่างได้หากไม่ทราบค่าของตัวแปรในกลุ่มตัวอย่างและประชากร

ผู้เชี่ยวชาญของ VTsIOM รับประกันการซ่อมแซมตัวอย่างอย่างระมัดระวังในระหว่างการวิเคราะห์ข้อมูล เพื่อลดความเบี่ยงเบนที่เกิดขึ้นในขั้นตอน งานภาคสนาม- มีอคติที่รุนแรงเป็นพิเศษในแง่ของเพศและอายุ ซึ่งอธิบายได้จากข้อเท็จจริงที่ว่าผู้หญิงและคนทั่วไปด้วย อุดมศึกษาใช้เวลาอยู่ที่บ้านมากขึ้นและติดต่อกับผู้สัมภาษณ์ได้ง่ายขึ้น เช่น เป็นกลุ่มที่เข้าถึงได้ง่ายเมื่อเทียบกับผู้ชายและคนที่ “ไม่มีการศึกษา”35

ข้อผิดพลาดในการสุ่มตัวอย่างเกิดจากปัจจัยสองประการ: วิธีการสุ่มตัวอย่างและขนาดตัวอย่าง

ข้อผิดพลาดในการสุ่มตัวอย่างแบ่งออกเป็นสองประเภท - แบบสุ่มและเป็นระบบ ข้อผิดพลาดแบบสุ่มคือความน่าจะเป็นที่ค่าเฉลี่ยตัวอย่างจะ (หรือไม่) อยู่นอกช่วงเวลาที่กำหนด ข้อผิดพลาดแบบสุ่มรวมถึงข้อผิดพลาดทางสถิติที่มีอยู่ในวิธีการสุ่มตัวอย่างด้วย ลดลงเมื่อขนาดตัวอย่างเพิ่มขึ้น

ข้อผิดพลาดในการสุ่มตัวอย่างประเภทที่สองคือ ข้อผิดพลาดอย่างเป็นระบบ- หากนักสังคมวิทยาตัดสินใจค้นหาความคิดเห็นของชาวเมืองทั้งหมดเกี่ยวกับเรื่องนี้อย่างต่อเนื่อง เจ้าหน้าที่ท้องถิ่นหน่วยงานในนโยบายสังคมและสำรวจเฉพาะผู้ที่มีโทรศัพท์แล้วมีอคติในกลุ่มตัวอย่างโดยเจตนาเพื่อกลุ่มคนร่ำรวย ได้แก่ ข้อผิดพลาดอย่างเป็นระบบ

ดังนั้นข้อผิดพลาดอย่างเป็นระบบจึงเป็นผลมาจากกิจกรรมของผู้วิจัยเอง เป็นสิ่งที่อันตรายที่สุดเนื่องจากทำให้เกิดอคติที่ค่อนข้างสำคัญในผลการวิจัย ข้อผิดพลาดที่เป็นระบบถือว่าแย่กว่าข้อผิดพลาดแบบสุ่มเนื่องจากไม่สามารถควบคุมและวัดผลได้

เกิดขึ้นเมื่อเช่น: 1) กลุ่มตัวอย่างไม่สอดคล้องกับวัตถุประสงค์ของการศึกษา (นักสังคมวิทยาตัดสินใจศึกษาเฉพาะผู้รับบำนาญที่ทำงาน แต่สัมภาษณ์ทุกคน) 2) มีความไม่รู้อย่างชัดเจนถึงธรรมชาติของประชากรทั่วไป (นักสังคมวิทยาคิดว่า 70% ของผู้รับบำนาญทั้งหมดไม่ทำงาน แต่กลับกลายเป็นว่ามีเพียง 10% เท่านั้นที่ไม่ทำงาน) 3) เลือกเฉพาะองค์ประกอบ "ที่ชนะ" ของประชากรทั่วไป (เช่น เฉพาะผู้รับบำนาญที่ร่ำรวยเท่านั้น)

ความสนใจ! ข้อผิดพลาดเชิงระบบไม่เหมือนกับข้อผิดพลาดแบบสุ่ม ข้อผิดพลาดเชิงระบบจะไม่ลดลงเมื่อขนาดตัวอย่างเพิ่มขึ้น

หลังจากสรุปกรณีทั้งหมดที่เกิดข้อผิดพลาดอย่างเป็นระบบแล้ว นักระเบียบวิธีจึงรวบรวมบันทึกข้อผิดพลาดเหล่านั้น พวกเขาเชื่อว่าแหล่งที่มาของการบิดเบือนที่ไม่สามารถควบคุมได้ในการกระจายตัวของการสังเกตตัวอย่างอาจเป็นได้ ปัจจัยต่อไปนี้:
♦กฎเกณฑ์ระเบียบวิธีและระเบียบวิธีสำหรับการดำเนินการ การวิจัยทางสังคมวิทยา;
♦ วิธีการสร้างประชากรตัวอย่างไม่เพียงพอ วิธีการรวบรวมและคำนวณข้อมูลถูกเลือก;
♦ หน่วยสังเกตการณ์ที่จำเป็นถูกแทนที่ด้วยหน่วยอื่นที่เข้าถึงได้ง่ายกว่า
♦ ระบุความครอบคลุมที่ไม่สมบูรณ์ของประชากรตัวอย่าง (การได้รับแบบสอบถามไม่เพียงพอ การกรอกแบบสอบถามไม่ครบถ้วน การไม่สามารถเข้าถึงหน่วยสังเกตการณ์)

นักสังคมวิทยาไม่ค่อยทำผิดพลาดโดยเจตนา บ่อยครั้งที่ข้อผิดพลาดเกิดขึ้นเนื่องจากนักสังคมวิทยาตระหนักถึงโครงสร้างของประชากรทั่วไปไม่ดี: การกระจายตัวของผู้คนตามอายุอาชีพรายได้ ฯลฯ

ข้อผิดพลาดที่เป็นระบบนั้นป้องกันได้ง่ายกว่า (เมื่อเทียบกับข้อผิดพลาดแบบสุ่ม) แต่ข้อผิดพลาดเหล่านี้ยากมากที่จะกำจัด วิธีที่ดีที่สุดคือป้องกันข้อผิดพลาดอย่างเป็นระบบโดยการคาดการณ์แหล่งที่มาล่วงหน้าอย่างแม่นยำตั้งแต่เริ่มต้นการศึกษา

ต่อไปนี้เป็นวิธีหลีกเลี่ยงข้อผิดพลาดในการสุ่มตัวอย่าง:
♦ แต่ละหน่วยในประชากรจะต้องมีความน่าจะเป็นเท่ากันที่จะรวมอยู่ในกลุ่มตัวอย่าง
♦ แนะนำให้เลือกจากประชากรที่เป็นเนื้อเดียวกัน
♦ คุณต้องรู้ลักษณะของประชากรทั่วไป
♦ เมื่อรวบรวมประชากรตัวอย่าง จะต้องคำนึงถึงข้อผิดพลาดแบบสุ่มและเป็นระบบด้วย

หากรวบรวมประชากรตัวอย่าง (หรือเพียงตัวอย่าง) อย่างถูกต้อง นักสังคมวิทยาก็จะได้รับผลลัพธ์ที่เชื่อถือได้ซึ่งเป็นลักษณะของประชากรทั้งหมด หากมีการรวบรวมไม่ถูกต้อง ข้อผิดพลาดที่เกิดขึ้นในขั้นตอนการสุ่มตัวอย่างจะถูกคูณในแต่ละขั้นตอนต่อมาของการวิจัยทางสังคมวิทยา และท้ายที่สุดจะไปถึงมูลค่าที่มากกว่ามูลค่าของการวิจัยที่ดำเนินการ พวกเขากล่าวว่าการวิจัยดังกล่าวให้ผลเสียมากกว่าผลดี

ข้อผิดพลาดดังกล่าวสามารถเกิดขึ้นได้เฉพาะกับประชากรตัวอย่างเท่านั้น เพื่อหลีกเลี่ยงหรือลดโอกาสที่จะเกิดข้อผิดพลาด วิธีที่ง่ายที่สุดคือการเพิ่มขนาดตัวอย่าง (ตามหลักการแล้วให้เท่ากับขนาดของกลุ่มตัวอย่างทั่วไป: เมื่อประชากรทั้งสองตรงกัน ข้อผิดพลาดในการสุ่มตัวอย่างจะหายไปโดยสิ้นเชิง) ในเชิงเศรษฐกิจ วิธีนี้เป็นไปไม่ได้ ยังมีวิธีอื่นในการปรับปรุง วิธีการทางคณิตศาสตร์การสุ่มตัวอย่าง พวกมันถูกใช้ในทางปฏิบัติ นี่เป็นช่องทางแรกของการเจาะเข้าสู่สังคมวิทยาของคณิตศาสตร์ ช่องที่สอง - การประมวลผลทางคณิตศาสตร์ข้อมูล.

โดยเฉพาะ ปัญหาสำคัญข้อผิดพลาดเกิดขึ้นในการวิจัยการตลาดซึ่งใช้ตัวอย่างไม่มากนัก โดยปกติแล้วพวกเขาจะมีจำนวนหลายร้อยคน แต่น้อยกว่านั้น - ผู้ตอบแบบสอบถามหนึ่งพันคน จุดเริ่มต้นสำหรับการคำนวณตัวอย่างคือคำถามในการกำหนดขนาดของประชากรตัวอย่าง ขนาดของประชากรตัวอย่างขึ้นอยู่กับสองปัจจัย: 1) ค่าใช้จ่ายในการรวบรวมข้อมูลและ 2) ความปรารถนาในระดับหนึ่ง นัยสำคัญทางสถิติผลลัพธ์ที่ผู้วิจัยหวังจะได้รับ แน่นอนว่าแม้แต่คนที่ไม่มีประสบการณ์ในด้านสถิติและสังคมวิทยาก็เข้าใจโดยสัญชาตญาณว่ายิ่งขนาดกลุ่มตัวอย่างใหญ่ขึ้นเช่น ยิ่งใกล้กับขนาดของประชากรโดยรวมมากเท่าใด ข้อมูลที่ได้รับก็จะยิ่งเชื่อถือได้และถูกต้องมากขึ้นเท่านั้น อย่างไรก็ตาม เราได้พูดไปแล้วข้างต้นเกี่ยวกับความเป็นไปไม่ได้ในทางปฏิบัติของการสำรวจต่อเนื่องในกรณีที่ดำเนินการกับวัตถุที่มีจำนวนเกินหมื่น หลักแสน และแม้กระทั่งล้าน เป็นที่ชัดเจนว่าค่าใช้จ่ายในการรวบรวมข้อมูล (รวมถึงการชำระเงินสำหรับการจำลองเครื่องมือ ค่าแรงของแบบสอบถาม ผู้จัดการภาคสนาม และผู้ปฏิบัติงานป้อนข้อมูลด้วยคอมพิวเตอร์) ขึ้นอยู่กับจำนวนเงินที่ลูกค้ายินดีจัดสรร และขึ้นอยู่กับผู้วิจัยเพียงเล็กน้อย สำหรับปัจจัยที่สองเราจะกล่าวถึงรายละเอียดเพิ่มเติมอีกเล็กน้อย

ดังนั้น ยิ่งขนาดตัวอย่างใหญ่ขึ้น ข้อผิดพลาดที่เป็นไปได้ก็จะยิ่งน้อยลงเท่านั้น แม้ว่าควรสังเกตว่าหากคุณต้องการเพิ่มความแม่นยำเป็นสองเท่า คุณจะต้องเพิ่มตัวอย่างไม่ใช่สองเท่า แต่เพิ่มขึ้นสี่เท่า เช่น ทำเพิ่มเป็นสองเท่า การประเมินที่แม่นยำข้อมูลที่ได้จากการสำรวจคน 400 คน คุณจะต้องสำรวจไม่ใช่ 800 คน แต่เป็น 1,600 คน อย่างไรก็ตาม การวิจัยการตลาดไม่น่าจะต้องการความถูกต้อง 100% หากผู้ผลิตเบียร์จำเป็นต้องค้นหาสัดส่วนที่ผู้บริโภคเบียร์ชอบแบรนด์ของเขามากกว่าแบรนด์ของคู่แข่ง - 60% หรือ 40% - แผนของเขาจะไม่ได้รับผลกระทบใดๆ จากความแตกต่างระหว่าง 57%, 60 หรือ 63%

ข้อผิดพลาดในการสุ่มตัวอย่างอาจไม่เพียงขึ้นอยู่กับขนาดของมัน แต่ยังขึ้นอยู่กับระดับความแตกต่างระหว่างแต่ละหน่วยภายในประชากรที่เรากำลังศึกษาด้วย ตัวอย่างเช่น หากเราต้องการทราบว่าเบียร์มีการบริโภคไปเท่าใด เราจะพบว่าภายในประชากรของเรามีอัตราการบริโภค คนละคนแตกต่างกันอย่างมีนัยสำคัญ (ประชากรต่างกัน) อีกกรณีหนึ่งเราจะศึกษาการบริโภคขนมปังแล้วพบว่า คนละคนมันแตกต่างกันอย่างมีนัยสำคัญน้อยกว่ามาก (ประชากรที่เป็นเนื้อเดียวกัน) ยิ่งความแปรผัน (หรือความแตกต่าง) ภายในประชากรมากเท่าใด ค่าก็จะยิ่งมากขึ้นเท่านั้น ข้อผิดพลาดที่เป็นไปได้ตัวอย่าง รูปแบบนี้เพียงยืนยันสิ่งที่เรียบง่าย สามัญสำนึก- ดังนั้น ตามที่ V. Yadov กล่าวอย่างถูกต้อง "ขนาด (ปริมาตร) ของกลุ่มตัวอย่างขึ้นอยู่กับระดับความเป็นเนื้อเดียวกันหรือความหลากหลายของวัตถุที่กำลังศึกษา ยิ่งเป็นเนื้อเดียวกันมากเท่าไร ตัวเลขก็จะยิ่งน้อยลงเท่านั้นที่สามารถให้ข้อสรุปที่เชื่อถือได้ทางสถิติ”

การกำหนดขนาดตัวอย่างยังขึ้นอยู่กับระดับช่วงความเชื่อมั่นของข้อผิดพลาดทางสถิติที่ยอมรับได้ นี่หมายถึงสิ่งที่เรียกว่าข้อผิดพลาดแบบสุ่ม ซึ่งเกี่ยวข้องกับลักษณะของข้อผิดพลาดทางสถิติ วี.ไอ. Paniotto ให้การคำนวณดังต่อไปนี้ ตัวอย่างตัวแทนสมมติว่ามีข้อผิดพลาด 5%:
ซึ่งหมายความว่าหากคุณสำรวจคน 400 คนในเมืองในภูมิภาคซึ่งมีประชากรตัวทำละลายที่เป็นผู้ใหญ่ 100,000 คน พบว่า 33% ของผู้ซื้อที่ตอบแบบสำรวจชอบผลิตภัณฑ์ของโรงงานแปรรูปเนื้อสัตว์ในท้องถิ่น จากนั้น 95% ความน่าจะเป็นที่คุณสามารถพูดได้ว่า 33+5% (เช่นจาก 28 ถึง 38%) ของชาวเมืองนี้เป็นผู้ซื้อผลิตภัณฑ์เหล่านี้เป็นประจำ

คุณยังสามารถใช้การคำนวณ Gallup เพื่อประมาณอัตราส่วนขนาดตัวอย่างและข้อผิดพลาดในการสุ่มตัวอย่างได้

การสังเกตแบบเลือกสรร

แนวคิดของการสังเกตตัวอย่าง

วิธีการสุ่มตัวอย่างใช้เมื่อการใช้การสังเกตอย่างต่อเนื่องเป็นไปไม่ได้ทางกายภาพเนื่องจากมีข้อมูลจำนวนมหาศาล หรือไม่สามารถทำได้ในเชิงเศรษฐกิจ ความเป็นไปไม่ได้ทางกายภาพเกิดขึ้นเมื่อศึกษาจำนวนผู้โดยสาร ราคาตลาด และงบประมาณของครอบครัว ความไม่สะดวกทางเศรษฐกิจเกิดขึ้นเมื่อประเมินคุณภาพของสินค้าที่เกี่ยวข้องกับการทำลายล้าง เช่น การชิม การทดสอบอิฐเพื่อความแข็งแรง เป็นต้น การสังเกตตัวอย่างยังใช้เพื่อตรวจสอบผลลัพธ์ของการสังเกตอย่างต่อเนื่อง

หน่วยทางสถิติที่เลือกมาสังเกตคือ เลือกสรรจำนวนทั้งสิ้นหรือ ตัวอย่าง,และอาร์เรย์ทั้งหมด - ทั่วไปจำนวนทั้งสิ้น (GS) ในกรณีนี้ จำนวนหน่วยในกลุ่มตัวอย่างจะแสดงด้วย พีตลอด HS ทั้งหมด - เอ็น.ทัศนคติ ไม่มี/ไม่มีเรียกว่าขนาดสัมพัทธ์หรือ แบ่งปันตัวอย่าง.

คุณภาพของผลการสังเกตตัวอย่างขึ้นอยู่กับ ความเป็นตัวแทนตัวอย่างเช่น ว่าเป็นตัวแทนใน GC แค่ไหน เพื่อให้มั่นใจถึงความเป็นตัวแทนของตัวอย่าง จำเป็นต้องปฏิบัติตามหลักการสุ่มเลือกหน่วย ซึ่งถือว่าการรวมหน่วย HS ไว้ในตัวอย่างไม่สามารถได้รับอิทธิพลจากปัจจัยอื่นใดนอกจากโอกาส

วิธีการสุ่มตัวอย่าง

1. จริงๆแล้วสุ่มเลยการเลือก: หน่วย GS ทั้งหมดจะมีหมายเลขกำกับไว้ และตัวเลขที่สุ่มได้จากผลการจับฉลากจะสอดคล้องกับหน่วยที่รวมอยู่ในตัวอย่าง และจำนวนตัวเลขจะเท่ากับขนาดตัวอย่างที่วางแผนไว้ ในทางปฏิบัติ เครื่องปั่นไฟจะถูกใช้แทนการจับสลาก ตัวเลขสุ่ม. วิธีการนี้การเลือกอาจจะเป็น ซ้ำแล้วซ้ำเล่า(เมื่อแต่ละหน่วยที่เลือกสำหรับตัวอย่างกลับสู่ HS หลังจากการสังเกตและสามารถสำรวจได้อีกครั้ง) และ หยาบคาย(เมื่อหน่วยที่สำรวจไม่ถูกส่งกลับไปยัง HS และไม่สามารถสำรวจได้อีก) ด้วยการเลือกซ้ำๆ ความน่าจะเป็นที่จะเข้าไปในกลุ่มตัวอย่างสำหรับแต่ละหน่วยของ GS ยังคงไม่เปลี่ยนแปลง และด้วยการเลือกซ้ำๆ ความน่าจะเป็นที่จะเข้าไปในกลุ่มตัวอย่างจำนวนไม่กี่หน่วยที่เหลืออยู่ใน GS หลังจากเลือกจากกลุ่มนั้น ความน่าจะเป็นที่จะเข้าไปในกลุ่มตัวอย่าง ตัวอย่างก็เหมือนกัน

2. เครื่องกลการเลือก: หน่วยของประชากรจะถูกเลือกด้วยขั้นตอนคงที่ ไม่มี- ดังนั้น หากประชากรทั่วไปมี 100,000 หน่วย และคุณต้องเลือก 1,000 หน่วย ทุก ๆ 100 หน่วยก็จะรวมอยู่ในตัวอย่างด้วย

3. แบ่งชั้นการคัดเลือก (แบ่งชั้น) จะดำเนินการจากประชากรทั่วไปที่ต่างกันเมื่อถูกแบ่งออกเป็นครั้งแรก กลุ่มที่เป็นเนื้อเดียวกันหลังจากนั้นหน่วยจากแต่ละกลุ่มจะถูกเลือกให้เป็นประชากรตัวอย่างโดยการสุ่มหรือโดยกลไกตามสัดส่วนของจำนวนหน่วยในประชากรทั่วไป

4. อนุกรมการเลือก (คลัสเตอร์): ไม่ใช่แต่ละหน่วย แต่อนุกรมบางชุด (รัง) จะถูกเลือกแบบสุ่มหรือโดยกลไก ซึ่งจะดำเนินการสังเกตอย่างต่อเนื่อง

ข้อผิดพลาดในการสุ่มตัวอย่างโดยเฉลี่ย

หลังจากเสร็จสิ้นการเลือกจำนวนหน่วยที่ต้องการในตัวอย่างและบันทึกคุณลักษณะที่ศึกษาของหน่วยเหล่านี้ที่โปรแกรมการสังเกตจัดเตรียมไว้ให้แล้ว เราจะดำเนินการคำนวณตัวบ่งชี้ทั่วไปต่อไป เหล่านี้ได้แก่ ค่าเฉลี่ยลักษณะที่กำลังศึกษาและสัดส่วนของหน่วยที่มีค่าใด ๆ ของลักษณะนี้ อย่างไรก็ตามหาก GS ทำตัวอย่างหลายตัวอย่างโดยพิจารณาถึงลักษณะทั่วไปแล้วก็สามารถระบุได้ว่าค่าของพวกเขาจะแตกต่างกันนอกจากนี้พวกเขาจะแตกต่างจากมูลค่าที่แท้จริงใน GS หากถูกกำหนดโดยใช้การสังเกตอย่างต่อเนื่อง . กล่าวอีกนัยหนึ่งลักษณะทั่วไปที่คำนวณจากข้อมูลตัวอย่างจะแตกต่างจากค่าจริงใน GS ดังนั้นเราจึงแนะนำสัญลักษณ์ต่อไปนี้ (ตารางที่ 8)

ตารางที่ 8. ตำนาน

เรียกว่าความแตกต่างระหว่างค่าของลักษณะทั่วไปของกลุ่มตัวอย่างและประชากรทั่วไป ข้อผิดพลาดในการสุ่มตัวอย่างซึ่งแบ่งออกเป็นข้อผิดพลาด การลงทะเบียนและข้อผิดพลาด ความเป็นตัวแทน- ประการแรกเกิดขึ้นเนื่องจากข้อมูลที่ไม่ถูกต้องหรือไม่ถูกต้องเนื่องจากขาดความเข้าใจในสาระสำคัญของปัญหาการไม่เอาใจใส่ของนายทะเบียนเมื่อกรอกแบบสอบถามแบบฟอร์ม ฯลฯ มันค่อนข้างง่ายที่จะตรวจจับและกำจัด ประการที่สองเกิดจากการไม่ปฏิบัติตามหลักการสุ่มเลือกหน่วยในกลุ่มตัวอย่าง ตรวจจับและกำจัดได้ยากกว่า เนื่องจากมีขนาดใหญ่กว่าครั้งแรกมาก ดังนั้นการวัดจึงเป็นภารกิจหลักของการสังเกตแบบเลือกสรร

ในการวัดข้อผิดพลาดในการสุ่มตัวอย่าง ข้อผิดพลาดโดยเฉลี่ยจะถูกกำหนดโดยใช้สูตร (39) สำหรับ การคัดเลือกใหม่และตามสูตร (40) - สำหรับการไม่ทำซ้ำ:

= ;(39) = . (40)

จากสูตร (39) และ (40) เห็นได้ชัดว่าข้อผิดพลาดโดยเฉลี่ยน้อยกว่าสำหรับการสุ่มตัวอย่างแบบไม่ซ้ำ ซึ่งเป็นตัวกำหนดการใช้งานที่กว้างขึ้น

แนวคิดและการคำนวณข้อผิดพลาดในการสุ่มตัวอย่าง

หน้าที่ของการสังเกตตัวอย่างคือการให้แนวคิดที่ถูกต้องเกี่ยวกับตัวบ่งชี้รวมของประชากรทั้งหมดโดยอิงจากบางส่วนที่ถูกสังเกตการณ์ ค่าเบี่ยงเบนที่เป็นไปได้ของสัดส่วนตัวอย่างและค่าเฉลี่ยตัวอย่างจากสัดส่วนและค่าเฉลี่ยในประชากรเรียกว่า ข้อผิดพลาดในการสุ่มตัวอย่าง หรือ ข้อผิดพลาดในการเป็นตัวแทน ยิ่งข้อผิดพลาดนี้มีขนาดใหญ่เท่าใด ตัวบ่งชี้การสังเกตตัวอย่างก็จะยิ่งแตกต่างจากตัวบ่งชี้ประชากรทั่วไปมากขึ้นเท่านั้น

พวกเขาแตกต่างกัน:

ข้อผิดพลาดในการสุ่มตัวอย่าง

ข้อผิดพลาดในการลงทะเบียน

ข้อผิดพลาดในการลงทะเบียนเกิดขึ้นเมื่อข้อเท็จจริงได้รับการพิสูจน์อย่างไม่ถูกต้องในระหว่างกระบวนการสังเกต เป็นลักษณะของทั้งการสังเกตอย่างต่อเนื่องและการสังเกตแบบเลือก แต่ในการสังเกตแบบเลือกจะมีน้อยกว่า

โดยธรรมชาติแล้ว ข้อผิดพลาดคือ:

Tendentious – จงใจ เช่น เลือกหน่วยที่ดีที่สุดหรือแย่ที่สุดในประชากร ในกรณีนี้ การสังเกตจะหมดความหมาย

สุ่ม - หลักการพื้นฐานของการจัดองค์กรในการสังเกตการสุ่มตัวอย่างคือการหลีกเลี่ยงการเลือกโดยเจตนา เช่น รับรองการปฏิบัติตามหลักการสุ่มเลือกอย่างเข้มงวด

กฎทั่วไปการเลือกแบบสุ่มคือ: แต่ละหน่วยของประชากรทั่วไปจะต้องมีเงื่อนไขและโอกาสที่เหมือนกันทุกประการที่จะตกอยู่ในจำนวนหน่วยที่รวมอยู่ในกลุ่มตัวอย่าง สิ่งนี้แสดงถึงความเป็นอิสระของผลการสุ่มตัวอย่างจากความประสงค์ของผู้สังเกตการณ์ เจตจำนงของผู้สังเกตการณ์ก่อให้เกิดข้อผิดพลาดที่มีแนวโน้ม ข้อผิดพลาดในการสุ่มตัวอย่างในการสุ่มตัวอย่างคือ ธรรมชาติแบบสุ่ม- มันแสดงลักษณะของขนาดความเบี่ยงเบนของลักษณะทั่วไปจากลักษณะของตัวอย่าง

เนื่องจากลักษณะของประชากรที่ศึกษาแตกต่างกันไป องค์ประกอบของหน่วยที่รวมอยู่ในกลุ่มตัวอย่างอาจไม่ตรงกับองค์ประกอบของหน่วยของประชากรทั้งหมด นี่หมายความว่า รและไม่ตรงกันด้วย วและ . ความคลาดเคลื่อนที่เป็นไปได้ระหว่างคุณลักษณะเหล่านี้ถูกกำหนดโดยข้อผิดพลาดในการสุ่มตัวอย่างซึ่งกำหนดโดยสูตร:

ที่ไหน - ความแปรปรวนทั่วไป.

ความแปรปรวนตัวอย่างอยู่ที่ไหน

นี่แสดงให้เห็นว่าความแปรปรวนทั่วไปแตกต่างจากที่ใด ความแปรปรวนตัวอย่างในบางครั้ง

มีการเลือกซ้ำและไม่ซ้ำซ้อน สาระสำคัญของการคัดเลือกซ้ำคือ แต่ละหน่วยที่รวมอยู่ในตัวอย่างหลังจากการสังเกต จะกลับไปยังประชากรทั่วไปและสามารถตรวจสอบอีกครั้งได้ เมื่อทำการสุ่มตัวอย่างใหม่ จะมีการคำนวณข้อผิดพลาดในการสุ่มตัวอย่างโดยเฉลี่ย:

สำหรับตัวบ่งชี้ส่วนแบ่งของคุณลักษณะทางเลือก ความแปรปรวนตัวอย่างจะถูกกำหนดโดยสูตร:

ในทางปฏิบัติ ไม่ค่อยมีการใช้การเลือกซ้ำๆ ด้วยการคัดเลือกแบบไม่ซ้ำซ้อนตามขนาดของประชากรทั่วไป เอ็นจะลดลงระหว่างการสุ่มตัวอย่าง สูตร ข้อผิดพลาดโดยเฉลี่ยตัวอย่างสำหรับ ลักษณะเชิงปริมาณมีรูปแบบ:

, แล้ว

หนึ่งในค่าที่เป็นไปได้ซึ่งส่วนแบ่งของลักษณะที่กำลังศึกษาอาจเท่ากับ:

โดยที่ข้อผิดพลาดในการสุ่มตัวอย่างของแอตทริบิวต์ทางเลือก

ตัวอย่าง.

เมื่อสุ่มตัวอย่าง 10% ของผลิตภัณฑ์ในชุดผลิตภัณฑ์สำเร็จรูปโดยใช้วิธีการโดยไม่ต้องสุ่มตัวอย่างซ้ำ จะได้ข้อมูลต่อไปนี้เกี่ยวกับปริมาณความชื้นในตัวอย่าง

กำหนดค่าเฉลี่ย % ความชื้น ความแปรปรวน ค่าเฉลี่ย ส่วนเบี่ยงเบนมาตรฐานด้วยความน่าจะเป็น 0.954 ขีดจำกัดที่เป็นไปได้ซึ่งคาดว่าจะมีค่าเฉลี่ย % ความชื้นของผลิตภัณฑ์สำเร็จรูปทั้งหมด โดยมีความน่าจะเป็น 0.987 ขีดจำกัดที่เป็นไปได้ ความถ่วงจำเพาะผลิตภัณฑ์มาตรฐาน โดยมีเงื่อนไขว่าชุดที่ไม่ได้มาตรฐานประกอบด้วยผลิตภัณฑ์ที่มีความชื้นสูงถึง 13 และสูงกว่า 19%

ด้วยความน่าจะเป็นที่แน่นอนเท่านั้นที่เราสามารถพูดได้ว่าส่วนแบ่งทั่วไปจากส่วนแบ่งตัวอย่างและค่าเฉลี่ยทั่วไปจากค่าเฉลี่ยตัวอย่างเบี่ยงเบนไป ทีครั้งหนึ่ง.

ในสถิติการเบี่ยงเบนเหล่านี้เรียกว่า ข้อผิดพลาดในการสุ่มตัวอย่างสูงสุด และถูกกำหนดไว้

ความน่าจะเป็นของการตัดสินสามารถเพิ่มหรือลดลงได้ตาม ทีครั้งหนึ่ง. ที่มีความน่าจะเป็น 0.683 ที่ 0.954 ที่ 0.987 แล้วตัวชี้วัดของประชากรทั่วไปจะถูกกำหนดจากตัวชี้วัดของกลุ่มตัวอย่าง

ข้อผิดพลาดในการสุ่มตัวอย่างโดยเฉลี่ยแสดงให้เห็นว่าพารามิเตอร์ประชากรตัวอย่างเบี่ยงเบนโดยเฉลี่ยจากพารามิเตอร์ประชากรที่เกี่ยวข้องมากน้อยเพียงใด หากเราคำนวณค่าเฉลี่ยของข้อผิดพลาดของกลุ่มตัวอย่างที่เป็นไปได้ทั้งหมด บางประเภทปริมาณที่กำหนด ( n) ซึ่งสกัดจากประชากรทั่วไปกลุ่มเดียวกัน เราได้ลักษณะทั่วไปของพวกมัน - ข้อผิดพลาดในการสุ่มตัวอย่างเฉลี่ย ().

ในทฤษฎีการสังเกตแบบเลือกสรร สูตรต่างๆ ได้มาจากการกำหนดว่าสูตรใดเป็นรายบุคคล วิธีการที่แตกต่างกันการคัดเลือก (ซ้ำและไม่ทำซ้ำ) ประเภทของตัวอย่างที่ใช้ และประเภทของตัวบ่งชี้ทางสถิติที่ได้รับการประเมิน

ตัวอย่างเช่น หากใช้การสุ่มตัวอย่างตามจริงซ้ำๆ จะมีการกำหนดเป็น:

เมื่อประมาณค่าเฉลี่ยของคุณลักษณะ

หากแอตทริบิวต์เป็นทางเลือกและมีการประเมินส่วนแบ่ง

ในกรณีที่สุ่มเลือกแบบไม่ซ้ำกัน จะมีการแก้ไขสูตร (1 - n/N) ดังนี้

- สำหรับค่าเฉลี่ยของลักษณะเฉพาะ

- เพื่อการแบ่งปัน

ความน่าจะเป็นที่จะได้รับค่าความผิดพลาดนี้จะเท่ากับ 0.683 เสมอ ในทางปฏิบัติ พวกเขาต้องการรับข้อมูลที่มีความน่าจะเป็นสูงกว่า แต่สิ่งนี้นำไปสู่การเพิ่มขนาดของข้อผิดพลาดในการสุ่มตัวอย่าง

ข้อผิดพลาดเล็กน้อยการสุ่มตัวอย่าง () เท่ากับ t-fold จำนวนข้อผิดพลาดในการสุ่มตัวอย่างโดยเฉลี่ย (ในทฤษฎีการสุ่มตัวอย่าง ค่าสัมประสิทธิ์ t มักเรียกว่าสัมประสิทธิ์ความเชื่อมั่น):

หากข้อผิดพลาดในการสุ่มตัวอย่างเพิ่มขึ้นเป็นสองเท่า (t = 2) เราจะมีโอกาสมากขึ้นที่จะไม่เกินขีดจำกัดที่กำหนด (ในกรณีของเรา ให้เพิ่มข้อผิดพลาดโดยเฉลี่ยเป็นสองเท่า) - 0.954 หากเราหา t = 3 ความน่าจะเป็นของความเชื่อมั่นจะเป็น 0.997 ซึ่งเกือบจะแน่นอน

ระดับข้อผิดพลาดในการสุ่มตัวอย่างส่วนเพิ่มขึ้นอยู่กับปัจจัยต่อไปนี้:

ระดับความแปรผันของหน่วยประชากรทั่วไป
ขนาดตัวอย่าง
รูปแบบการเลือกที่เลือก (การเลือกที่ไม่ซ้ำจะทำให้มีข้อผิดพลาดน้อยลง)
ระดับความมั่นใจ

หากขนาดตัวอย่างมากกว่า 30 ค่า t จะถูกกำหนดจากตาราง การกระจายตัวแบบปกติถ้าน้อยกว่า - ตามตารางการแจกแจงนักเรียน

ให้เรานำเสนอค่าสัมประสิทธิ์ความเชื่อมั่นจากตารางการแจกแจงแบบปกติ

ช่วงความเชื่อมั่นสำหรับค่าเฉลี่ยของคุณลักษณะและส่วนแบ่งในประชากรถูกกำหนดไว้ดังนี้:

ดังนั้นการกำหนดขอบเขตของค่าเฉลี่ยทั่วไปและส่วนแบ่งจึงประกอบด้วยขั้นตอนต่อไปนี้:

ข้อผิดพลาดในการสุ่มตัวอย่างที่ ประเภทต่างๆการเลือก

ที่จริงแล้วการสุ่มตัวอย่างและการสุ่มตัวอย่างเชิงกล พบข้อผิดพลาดโดยเฉลี่ยของการสุ่มตัวอย่างและการสุ่มตัวอย่างเชิงกลตามจริงโดยใช้สูตรที่แสดงในตาราง 1 11.3.

ตัวอย่างที่ 11.2 เพื่อศึกษาระดับการผลิตเงินทุน การสำรวจตัวอย่างขององค์กร 90 แห่งจาก 225 แห่งได้ดำเนินการโดยใช้วิธีการสุ่มตัวอย่างซ้ำ ๆ ซึ่งส่งผลให้ข้อมูลที่นำเสนอในตาราง

ในตัวอย่างที่อยู่ระหว่างการพิจารณา เรามีตัวอย่าง 40% (90: 225 = 0.4 หรือ 40%) ให้เราพิจารณาข้อผิดพลาดและขอบเขตสูงสุดสำหรับค่าเฉลี่ยของคุณลักษณะในประชากรตามขั้นตอนของอัลกอริทึม:

จากผลการสำรวจตัวอย่าง เราจะคำนวณค่าเฉลี่ยและความแปรปรวนในประชากรตัวอย่าง:

ตารางที่ 11.5.

ผลการสังเกต			ค่าที่คำนวณได้
ระดับผลผลิตทุน, rub., x i	จำนวนวิสาหกิจ f i	ตรงกลางของช่วง x i \xb4	x ฉัน\xb4 ฉ ฉัน	x ฉัน\xb4 2 ฉ ฉัน
สูงถึง 1.4	13	1,3	16,9	21,97
1,4-1,6	15	1,5	22,5	33,75
1,6-1,8	17	1,7	28,9	49,13
1,8-2,0	15	1,9	28,5	54,15
2,0-2,2	16	2,1	33,6	70,56
2.2 และสูงกว่า	14	2,3	32,2	74,06
ทั้งหมด	90	-	162,6	303,62

ค่าเฉลี่ยตัวอย่าง

ความแปรปรวนตัวอย่างของลักษณะที่ศึกษา

สำหรับข้อมูลของเรา เราจะกำหนดข้อผิดพลาดในการสุ่มตัวอย่างสูงสุด เช่น ความน่าจะเป็น 0.954 การใช้ตารางค่าความน่าจะเป็นของฟังก์ชันการแจกแจงแบบปกติ (ดูข้อความที่ตัดตอนมาจากค่าดังกล่าวในภาคผนวก 1) เราจะค้นหาค่าสัมประสิทธิ์ความเชื่อมั่น t ซึ่งสอดคล้องกับความน่าจะเป็น 0.954 ด้วยความน่าจะเป็น 0.954 ค่าสัมประสิทธิ์ t คือ 2

ดังนั้นใน 954 กรณีจาก 1,000 กรณี มูลค่าผลผลิตทุนโดยเฉลี่ยจะไม่สูงกว่า 1.88 รูเบิล และไม่น้อยกว่า 1.74 รูเบิล

มีการใช้แผนการสุ่มตัวอย่างซ้ำๆ ข้างต้น มาดูกันว่าผลการสำรวจเปลี่ยนแปลงไปหรือไม่หากเราถือว่าการคัดเลือกนั้นดำเนินการตามแผนการคัดเลือกที่ไม่ซ้ำกัน ในกรณีนี้ ข้อผิดพลาดโดยเฉลี่ยจะคำนวณโดยใช้สูตร

จากนั้น ด้วยความน่าจะเป็นเท่ากับ 0.954 ค่าของข้อผิดพลาดในการสุ่มตัวอย่างสูงสุดจะเป็น:

ขีดจำกัดความเชื่อมั่นสำหรับค่าเฉลี่ยของคุณลักษณะระหว่างการเลือกสุ่มแบบไม่ซ้ำกันจะมีค่าต่อไปนี้:

เมื่อเปรียบเทียบผลลัพธ์ของแผนการคัดเลือกทั้งสองแบบแล้ว เราสามารถสรุปได้ว่าการใช้การสุ่มตัวอย่างแบบไม่ซ้ำจะให้ผลมากกว่า ผลลัพธ์ที่แม่นยำเทียบกับการใช้การเลือกซ้ำๆ ในระดับความเชื่อมั่นเท่าเดิม ยิ่งไปกว่านั้น ยิ่งขนาดตัวอย่างใหญ่ขึ้น ขอบเขตของค่าเฉลี่ยก็จะยิ่งแคบลงเมื่อย้ายจากรูปแบบการเลือกหนึ่งไปยังอีกรูปแบบหนึ่ง

จากข้อมูลตัวอย่าง เราจะพิจารณาว่าส่วนแบ่งขององค์กรที่มีระดับผลิตภาพทุนไม่เกิน 2.0 รูเบิลอยู่ในขอบเขตใดในประชากรทั่วไป:

ลองคำนวณส่วนแบ่งตัวอย่างกัน

จำนวนวิสาหกิจในกลุ่มตัวอย่างที่มีระดับผลิตภาพทุนไม่เกิน 2.0 รูเบิลคือ 60 หน่วย แล้ว

ม. = 60, n = 90, ก = ม./n = 60: 90 = 0.667;

คำนวณความแปรปรวนของส่วนแบ่งในประชากรตัวอย่าง

ข้อผิดพลาดในการสุ่มตัวอย่างโดยเฉลี่ยเมื่อใช้ ทำซ้ำโครงการการคัดเลือกจะเป็น

หากเราสมมติว่าใช้แผนการสุ่มตัวอย่างที่ไม่ซ้ำซาก ข้อผิดพลาดในการสุ่มตัวอย่างโดยเฉลี่ยโดยคำนึงถึงการแก้ไขสำหรับความจำกัดของประชากรจะเป็น

มาตั้งค่าความน่าจะเป็นของความเชื่อมั่นและหาข้อผิดพลาดในการสุ่มตัวอย่างสูงสุด

ด้วยค่าความน่าจะเป็นที่ P = 0.997 ตามตารางการแจกแจงแบบปกติ เราได้ค่าสัมประสิทธิ์ความเชื่อมั่น t = 3 (ดูข้อความที่ตัดตอนมาจากที่ให้ไว้ในภาคผนวก 1):

ดังนั้นด้วยความน่าจะเป็นที่ 0.997 จึงสามารถระบุได้ว่าในประชากรทั่วไปส่วนแบ่งขององค์กรที่มีระดับผลิตภาพทุนไม่เกิน 2.0 รูเบิลจะต้องไม่น้อยกว่า 54.7% และไม่เกิน 78.7%

ตัวอย่างทั่วไป จากตัวอย่างทั่วไป ประชากรทั่วไปของวัตถุจะถูกแบ่งออกเป็น k กลุ่ม

N 1 + N 2 + … + N i + … + N k = N

ปริมาตรของหน่วยที่สกัดได้จากแต่ละกลุ่มโดยทั่วไปจะขึ้นอยู่กับวิธีการสุ่มตัวอย่างที่ใช้ ของพวกเขา ปริมาณรวมสร้างขนาดตัวอย่างที่ต้องการ

n 1 + n 2 + … + n ฉัน + … + n k = n

มีสองวิธีในการจัดการคัดเลือกภายในกลุ่มทั่วไป: สัดส่วนกับปริมาณของกลุ่มทั่วไปและสัดส่วนกับระดับความผันผวนของค่าคุณลักษณะระหว่างหน่วยการสังเกตในกลุ่ม พิจารณาสิ่งแรกที่ใช้บ่อยที่สุด

การเลือกตามสัดส่วนกับขนาดของกลุ่มทั่วไปถือว่าจะมีการเลือกในแต่ละกลุ่ม หมายเลขถัดไปหน่วยรวม:

n = n ฉัน N ฉัน /N

โดยที่ n i คือจำนวนหน่วยที่สกัดสำหรับตัวอย่างจากกลุ่มทั่วไปที่ i

n - ขนาดตัวอย่างทั้งหมด

N i คือจำนวนหน่วยในประชากรทั่วไปที่ประกอบขึ้นเป็นกลุ่มทั่วไปที่ i

N คือจำนวนหน่วยทั้งหมดในประชากร

การเลือกหน่วยภายในกลุ่มเกิดขึ้นในรูปแบบของการสุ่มตัวอย่างหรือการสุ่มตัวอย่างเชิงกล

สูตรสำหรับการประมาณค่าความคลาดเคลื่อนในการสุ่มตัวอย่างโดยเฉลี่ยสำหรับค่าเฉลี่ยและสัดส่วนแสดงไว้ในตาราง 1 11.6.

นี่คือค่าเฉลี่ยของ ความแปรปรวนของกลุ่มกลุ่มทั่วไป

ตัวอย่างที่ 11.3 ในมหาวิทยาลัยแห่งหนึ่งในมอสโก มีการสำรวจตัวอย่างของนักเรียนเพื่อกำหนดจำนวนการเข้าห้องสมุดมหาวิทยาลัยโดยเฉลี่ยต่อนักเรียนหนึ่งคนต่อภาคการศึกษา เพื่อจุดประสงค์นี้ จึงมีการใช้ตัวอย่างทั่วไปที่ไม่ซ้ำ 5% ซึ่งกลุ่มทั่วไปจะสอดคล้องกับหมายเลขหลักสูตร เมื่อเลือกสัดส่วนตามขนาดของกลุ่มทั่วไป จะได้ข้อมูลต่อไปนี้:

ตารางที่ 11.7.

หมายเลขหลักสูตร	นักเรียนทั้งหมด, ผู้คน, N i	ตรวจสอบจากการสังเกตแบบเลือกสรรผู้คน n i	จำนวนผู้เข้าเยี่ยมชมห้องสมุดโดยเฉลี่ยต่อนักเรียนต่อภาคการศึกษา x i	ความแปรปรวนตัวอย่างภายในกลุ่ม
1	650	33	11	6
2	610	31	8	15
3	580	29	5	18
4	360	18	6	24
5	350	17	10	12
ทั้งหมด	2 550	128	8	-

จำนวนนักศึกษาที่ต้องสอบในแต่ละหลักสูตรคำนวณได้ดังนี้

ในทำนองเดียวกันสำหรับกลุ่มอื่นๆ:

การกระจายตัวของค่าเฉลี่ยตัวอย่างมีอยู่เสมอ กฎหมายปกติการกระจาย (หรือเข้าใกล้) สำหรับ n > 100 โดยไม่คำนึงถึงลักษณะของการกระจายตัวของประชากร อย่างไรก็ตาม ในกรณีของกลุ่มตัวอย่างขนาดเล็ก จะมีการบังคับใช้กฎหมายการกระจายที่แตกต่างออกไป - การกระจายตัวของนักเรียน ในกรณีนี้ ค่าสัมประสิทธิ์ความเชื่อมั่นจะพบได้จากตารางการแจกแจงค่า t ของนักเรียน ขึ้นอยู่กับความน่าจะเป็นของความเชื่อมั่น P และขนาดตัวอย่าง n ภาคผนวก 1 จัดเตรียมส่วนของตารางการกระจายค่า t ของนักเรียน ซึ่งแสดงเป็นการขึ้นอยู่กับความน่าจะเป็นของความเชื่อมั่นบน ขนาดตัวอย่างและสัมประสิทธิ์ความเชื่อมั่น t

ตัวอย่างที่ 11.4 สมมติว่ามีการสำรวจตัวอย่างนักศึกษาจำนวน 8 คน แสดงให้เห็นว่ามีการเตรียมตัวสำหรับ ทดสอบงานตามสถิติพวกเขาใช้เวลาตามจำนวนชั่วโมงต่อไปนี้: 8.5; 8.0; 7.8; 9.0; 7.2; 6.2; 8.4; 6.6.

ตัวอย่างที่ 11.5 ลองคำนวณจำนวน 507 กัน สถานประกอบการอุตสาหกรรมเจ้าหน้าที่ตรวจสอบภาษีควรตรวจสอบเพื่อพิจารณาความน่าจะเป็นที่ 0.997 ส่วนแบ่งขององค์กรที่มีการละเมิดในการชำระภาษี จากข้อมูลจากการสำรวจที่คล้ายกันก่อนหน้านี้ ค่าเบี่ยงเบนมาตรฐานคือ 0.15; ข้อผิดพลาดในการสุ่มตัวอย่างคาดว่าจะไม่สูงกว่า 0.05

เมื่อใช้การสุ่มตัวอย่างซ้ำๆ ให้ตรวจสอบ

ในกรณีที่สุ่มเลือกซ้ำจะต้องตรวจสอบ

ดังที่เราเห็น การใช้การสุ่มตัวอย่างแบบไม่ทำซ้ำทำให้สามารถทำการทดสอบได้มากขึ้น จำนวนที่น้อยกว่าวัตถุ

ตัวอย่างที่ 11.6 มีการวางแผนการสำรวจ ค่าจ้างในสถานประกอบการอุตสาหกรรมโดยใช้การสุ่มตัวอย่างแบบไม่ซ้ำกัน ประชากรตัวอย่างควรมีขนาดเท่าใดหากในขณะที่ทำการสำรวจจำนวนพนักงานในอุตสาหกรรมคือ 100,000 คน ข้อผิดพลาดในการสุ่มตัวอย่างสูงสุดไม่ควรเกิน 100 รูเบิล ด้วยความน่าจะเป็น 0.954 จากผลการสำรวจเงินเดือนครั้งก่อนในอุตสาหกรรม เป็นที่ทราบกันว่าค่าเบี่ยงเบนมาตรฐานคือ 500 รูเบิล

ดังนั้นเพื่อแก้ไขปัญหานี้จึงจำเป็นต้องรวมคนในกลุ่มตัวอย่างอย่างน้อย 100 คน

ข้อผิดพลาดในการสุ่มตัวอย่างแบบสัมพันธ์ สูตรข้อผิดพลาดในการสุ่มตัวอย่างโดยเฉลี่ย

การกำหนดปริมาตรที่ต้องการของตัวอย่างที่ซ้ำและไม่ซ้ำเมื่อประมาณค่าค่าเฉลี่ยทั่วไปและส่วนแบ่ง