Sai số lấy mẫu tương đối. Công thức lỗi trung bình mẫu

Công thức mức độ tự tin khi đánh giá chung noah phần của dấu hiệu. Sai số bình phương trung bình của lặp lại và không lấy mẫu lại và xây dựng khoảng tin cậy cho phần chung của đặc điểm.

Công thức độ tin cậy để ước tính giá trị trung bình chung. Sai số bình phương trung bình của các mẫu và kết cấu lặp lại và không lặp lại khoảng tin cậy cho mức trung bình chung.

Xây dựng khoảng tin cậy cho giá trị trung bình chung và phần chung cho các mẫu lớn . Để xây dựng khoảng tin cậy cho các tham số của quần thể, m.b. Thực hiện 2 cách tiếp cận dựa trên kiến thức về phân phối chính xác (đối với cỡ mẫu n) hoặc tiệm cận (khi n → ∞) của các đặc trưng mẫu (hoặc một số chức năng của chúng). Cách tiếp cận đầu tiên được thực hiện xa hơn khi xây dựng các ước lượng tham số khoảng thời gian cho các mẫu nhỏ. Trong phần này, chúng tôi xem xét cách tiếp cận thứ hai áp dụng cho các mẫu lớn (theo thứ tự hàng trăm quan sát).

Định lý . Niềm tin rằng độ lệch của trung bình mẫu (hoặc tỷ lệ chia sẻ) so với trung bình chung (hoặc tỷ lệ chia sẻ) sẽ không vượt quá số Δ> 0 (về giá trị tuyệt đối) bằng:

Ở đâu

Ở đâu
.

Ф (t) - hàm (tích phân xác suất) của Laplace.

Các công thức được đặt tên Công thức Vert tự tin cho Trung bình và Chia sẻ .

Độ lệch chuẩn của trung bình mẫu và chia sẻ mẫu thực ra- mẫu thử ngẫu nhiên gọi là lỗi trung bình vuông (tiêu chuẩn) mẫu (đối với lấy mẫu không lặp lại, chúng tôi biểu thị, và ).

Hệ quả 1 . Đối với mức độ tin cậy γ đã cho, sai số lấy mẫu biên bằng giá trị gấp t của giá trị trung bình lỗi bậc hai, trong đó Ф (t) = γ, tức là

Hệ quả 2 . Các ước tính khoảng thời gian (khoảng tin cậy) cho tỷ lệ trung bình chung và tỷ trọng chung có thể được tìm thấy bằng cách sử dụng các công thức:

Xác định khối lượng yêu cầu của các mẫu lặp lại và không lặp lại khi ước tính tỷ trọng và giá trị trung bình chung.

Vì quan sát có chọn lọcđiều rất quan trọng là đặt đúng cỡ mẫu n, điều này xác định phần lớn thời gian, lao động và chi phí cần thiết để xác định n, cần phải đặt độ tin cậy (mức độ tin cậy) của ước lượng γ và độ chính xác (sai số lấy mẫu biên) Δ.

Nếu kích thước lấy mẫu lại n được tìm thấy, thì kích thước của n "lấy mẫu lại tương ứng có thể được xác định theo công thức:

Tại vì
, thì để có cùng độ chính xác và độ tin cậy của các ước lượng, kích thước của mẫu n ”không lặp lại luôn nhỏ hơn kích thước của mẫu n.

Giả thuyết thống kê và kiểm định thống kê. Lỗi thuộc loại thứ nhất và thứ hai. Mức độ quan trọng và sức mạnh của thử nghiệm. Nguyên tắc chắc chắn thực tế.

Sự định nghĩa . Giả thuyết thống kê Bất kỳ giả định nào về dạng hoặc các tham số của luật phân phối chưa biết đều được gọi.

Phân biệt giữa các giả thuyết thống kê đơn giản và phức tạp. giả thuyết đơn giản , ngược lại với phức hợp, hoàn toàn xác định hàm phân phối lý thuyết của SW.

Giả thuyết được kiểm tra thường được gọi là vô giá trị (hoặc nền tảng ) và ký hiệu là H 0. Cùng với giả thuyết vô hiệu xem xét thay thế , hoặc cạnh tranh , giả thuyết H 1, là phủ định logic của H 0. Giả thuyết vô hiệu và giả thuyết thay thế là 2 lựa chọn được thực hiện trong các bài toán kiểm tra giả thuyết thống kê.

Bản chất của việc kiểm tra một giả thuyết thống kê là sử dụng một đặc tính mẫu được biên soạn đặc biệt (số liệu thống kê).
, thu được từ mẫu
, có phân phối chính xác hoặc gần đúng được biết đến.

Sau đó, theo phân phối mẫu này, giá trị tới hạn được xác định - sao cho nếu giả thuyết H 0 là đúng, thì
nhỏ bé; để phù hợp với nguyên tắc chắc chắn thực tế trong các điều kiện của nghiên cứu này, sự kiện
có thể (với một số rủi ro) được coi là không thể trên thực tế. Do đó, nếu trong trường hợp cụ thể này, một sai lệch được tìm thấy
, thì giả thuyết H 0 bị bác bỏ, trong khi sự xuất hiện của giá trị
, được coi là tương thích với giả thuyết H 0, sau đó được chấp nhận (chính xác hơn là không bị bác bỏ). Quy tắc mà giả thuyết H 0 bị bác bỏ hoặc được chấp nhận được gọi là tiêu chí thống kê hoặc kiểm tra thống kê .

Nguyên tắc chắc chắn thực tế:

Nếu xác suất của sự kiện A trong một thử nghiệm nhất định là rất nhỏ, thì chỉ với một lần thực hiện thử nghiệm, bạn có thể chắc chắn rằng sự kiện A sẽ không xảy ra và về mặt thực tế, hãy cư xử như thể sự kiện A là không thể xảy ra.

Do đó, tập hợp các giá trị có thể có của thống kê - tiêu chí (thống kê quan trọng) được chia thành 2 tập con không chồng chéo: khu vực quan trọng(lĩnh vực bác bỏ giả thuyết) W và phạm vi dung sai(lĩnh vực chấp nhận giả thuyết) . Nếu giá trị quan sát thực tế của thống kê tiêu chí rơi vào vùng tới hạn W thì giả thuyết H 0 bị bác bỏ. Có bốn trường hợp có thể xảy ra:

Sự định nghĩa . Xác suất α để mắc lỗi thuộc loại thứ nhất, tức là để bác bỏ giả thuyết H 0 khi nó đúng được gọi là mức độ đáng kể , hoặc kích thước tiêu chí .

Xác suất mắc lỗi loại 2, tức là chấp nhận giả thuyết H 0 khi nó sai, thường ký hiệu là β.

Sự định nghĩa . Xác suất (1-β) không mắc lỗi loại 2, tức là để bác bỏ giả thuyết H 0 khi nó sai được gọi là sức mạnh (hoặc chức năng quyền lực ) tiêu chuẩn .

Cần phải ưu tiên vùng tới hạn mà tại đó sức mạnh của tiêu chí sẽ là lớn nhất.

Như chúng ta đã biết, tính đại diện là một thuộc tính khung lấy mẫu trình bày mô tả về cái chung. Nếu không có kết quả phù hợp, chúng nói về lỗi tính đại diện - mức độ sai lệch của cấu trúc thống kê của mẫu so với cấu trúc của mẫu tương ứng dân số. Giả sử rằng thu nhập gia đình trung bình hàng tháng của những người hưu trí trong dân số nói chung là 2 nghìn rúp, và trong mẫu - 6 nghìn rúp. Điều này có nghĩa là nhà xã hội học chỉ phỏng vấn phần khá giả của những người hưu trí, và một sai sót về tính đại diện len lỏi vào nghiên cứu của ông. Nói cách khác, sai số về tính đại diện là sự khác biệt giữa hai tập hợp - tập hợp chung, mà nhà xã hội học hướng đến mối quan tâm lý thuyết và ý tưởng về các thuộc tính mà cuối cùng anh ta muốn đạt được, và tập hợp có chọn lọc. , hướng đến sự quan tâm thực tế của nhà xã hội học, người đóng vai trò vừa là đối tượng kiểm tra vừa là phương tiện thu thập thông tin về dân số nói chung.

Cùng với thuật ngữ "lỗi tính đại diện" trong tài liệu trong nước, bạn có thể tìm thấy một thuật ngữ khác - "lỗi lấy mẫu". Đôi khi chúng được sử dụng thay thế cho nhau và đôi khi “lỗi lấy mẫu” được sử dụng thay vì “lỗi tính đại diện” như một khái niệm chính xác hơn về mặt định lượng.

Sai số chọn mẫu là độ lệch của các đặc điểm trung bình của tổng thể mẫu so với các đặc điểm trung bình của tổng thể chung.

Trong thực tế, sai số lấy mẫu được xác định bằng cách so sánh các đặc điểm đã biết của quần thể với các phương tiện mẫu. Trong xã hội học, các cuộc điều tra về dân số trưởng thành thường sử dụng dữ liệu từ các cuộc tổng điều tra dân số, hồ sơ thống kê hiện tại và kết quả của các cuộc điều tra trước đó. Các đặc điểm nhân khẩu học - xã hội thường được sử dụng làm thông số kiểm soát. So sánh giá trị trung bình của tổng thể mẫu và tổng thể mẫu, trên cơ sở này, việc xác định sai số lấy mẫu và mức giảm của nó được gọi là kiểm soát tính đại diện. Vì có thể so sánh dữ liệu của chính mình và của người khác khi kết thúc nghiên cứu, nên phương pháp kiểm soát này được gọi là hậu kiểm, tức là thực hiện sau khi trải nghiệm.

Trong các cuộc thăm dò của Gallup, tính đại diện được kiểm soát bởi dữ liệu có sẵn trong các cuộc điều tra dân số quốc gia về phân bố dân số theo giới tính, tuổi tác, học vấn, thu nhập, nghề nghiệp, chủng tộc, nơi cư trú, quy mô địa phương. Trung tâm nghiên cứu toàn Nga dư luận(VTsIOM) sử dụng cho các mục đích như giới tính, tuổi tác, học vấn, loại hình định cư, tình trạng hôn nhân, lĩnh vực việc làm, tình trạng chính thức của người trả lời, được mượn từ Ủy ban Nhà nước về Thống kê của Liên bang Nga. Trong cả hai trường hợp, dân số được biết đến. Lỗi lấy mẫu không thể được thiết lập nếu các giá trị của biến trong mẫu và tổng thể không xác định.

Trong quá trình phân tích dữ liệu, các chuyên gia VTsIOM đảm bảo sửa chữa toàn diện mẫu để giảm thiểu sai lệch xảy ra trong quá trình công việc thực địa. Có sự thay đổi đặc biệt mạnh mẽ về giới tính và độ tuổi. Điều này được giải thích là do phụ nữ và những người có giáo dục đại học dành nhiều thời gian hơn ở nhà và tiếp xúc với người phỏng vấn dễ dàng hơn; là một nhóm dễ tiếp cận so với nam giới và những người “thất học” 35.

Sai số lấy mẫu do hai yếu tố: phương pháp lấy mẫu và cỡ mẫu.

Sai số lấy mẫu được chia thành hai loại - ngẫu nhiên và hệ thống. Sai số ngẫu nhiên là xác suất mà giá trị trung bình của mẫu sẽ (hoặc không) nằm ngoài một khoảng nhất định. Sai số ngẫu nhiên bao gồm các lỗi thống kê vốn có trong chính phương pháp lấy mẫu. Chúng giảm khi kích thước mẫu tăng lên.

Loại lỗi lấy mẫu thứ hai là lỗi hệ thống. Nếu một nhà xã hội học quyết định tìm hiểu ý kiến của tất cả cư dân của thành phố về sự chính quyền địa phương các cơ quan có thẩm quyền về chính sách xã hội và chỉ phỏng vấn những người có điện thoại, sau đó có một sự thiên vị có chủ ý trong mẫu đối với các tầng lớp giàu có, tức là lỗi hệ thống.

Như vậy, sai số hệ thống là kết quả của hoạt động của chính người nghiên cứu. Chúng là nguy hiểm nhất, vì chúng dẫn đến những sai lệch khá lớn trong kết quả của nghiên cứu. Các lỗi hệ thống được coi là tồi tệ hơn các lỗi ngẫu nhiên cũng bởi vì chúng không thể kiểm soát và đo lường được.

Chúng phát sinh khi, ví dụ: 1) mẫu không đáp ứng được các mục tiêu của nghiên cứu (nhà xã hội học quyết định chỉ nghiên cứu những người hưu trí đang làm việc, nhưng phỏng vấn liên tiếp tất cả mọi người); 2) có sự thiếu hiểu biết về bản chất của dân số nói chung (nhà xã hội học nghĩ rằng 70% tổng số người hưu trí không làm việc, nhưng hóa ra chỉ có 10% không làm việc); 3) chỉ những yếu tố “chiến thắng” của dân số chung mới được lựa chọn (ví dụ, chỉ những người hưu trí giàu có).

Chú ý! Không giống như sai số ngẫu nhiên, sai số hệ thống không giảm khi kích thước mẫu tăng lên.

Tóm tắt tất cả các trường hợp khi xảy ra lỗi hệ thống, các nhà phương pháp lập một sổ đăng ký về chúng. Họ tin rằng nguồn gốc của những sai lệch không kiểm soát được trong việc phân phối các quan sát mẫu có thể là các yếu tố sau:
♦ các quy tắc phương pháp luận và phương pháp luận để tiến hành nghiên cứu xã hội học;
♦ Phương pháp lấy mẫu, phương pháp thu thập dữ liệu và tính toán không phù hợp đã được lựa chọn;
♦ đã có sự thay thế các đơn vị quan sát cần thiết bằng những người khác, dễ tiếp cận hơn;
♦ Mức độ bao phủ không đầy đủ của dân số lấy mẫu (thiếu bảng câu hỏi, hoàn thành bảng câu hỏi không đầy đủ, không thể tiếp cận các đơn vị quan sát) đã được ghi nhận.

Các nhà xã hội học hiếm khi mắc lỗi cố ý. Thông thường, sai sót nảy sinh do nhà xã hội học không nhận thức rõ về cơ cấu dân số chung: sự phân bố dân cư theo độ tuổi, nghề nghiệp, thu nhập, v.v.

Các lỗi có hệ thống dễ ngăn ngừa hơn (so với các lỗi ngẫu nhiên), nhưng chúng rất khó loại bỏ. Tốt nhất là ngăn ngừa các sai sót có hệ thống bằng cách dự đoán chính xác các nguồn của chúng trước - ngay khi bắt đầu nghiên cứu.

Dưới đây là một số cách để tránh lỗi lấy mẫu:
♦ Mỗi đơn vị của tổng thể chung phải có xác suất được đưa vào mẫu bằng nhau;
♦ mong muốn chọn lọc từ các quần thể đồng nhất;
♦ cần biết các đặc điểm của dân số chung;
♦ Các sai số ngẫu nhiên và hệ thống cần được tính đến khi biên dịch mẫu.

Nếu mẫu (hoặc chỉ mẫu) được vẽ chính xác, thì nhà xã hội học sẽ thu được kết quả đáng tin cậy đặc trưng cho toàn bộ dân số. Nếu nó được biên soạn không chính xác, thì sai số xảy ra ở giai đoạn chọn mẫu sẽ được nhân lên ở mỗi giai đoạn tiếp theo của nghiên cứu xã hội học và cuối cùng đạt đến giá trị lớn hơn giá trị của nghiên cứu. Người ta nói rằng nghiên cứu như vậy gây hại nhiều hơn lợi.

Những lỗi như vậy chỉ có thể xảy ra với một tập hợp mẫu. Để tránh hoặc giảm xác suất sai sót, cách dễ nhất là tăng kích thước mẫu (lý tưởng nhất là lên đến kích thước của quần thể: khi cả hai quần thể khớp nhau, lỗi mẫu sẽ biến mất hoàn toàn). Về mặt kinh tế, phương pháp này là không thể. Có một cách khác - để cải thiện phương pháp toán học lấy mẫu. Chúng được áp dụng trong thực tế. Đây là kênh thâm nhập đầu tiên vào xã hội học toán học. Kênh thứ hai - xử lý toán học dữ liệu.

Đặc biệt vấn đề quan trọng sai sót trở thành trong nghiên cứu tiếp thị, nơi các mẫu không quá lớn được sử dụng. Thông thường họ chiếm vài trăm, ít thường xuyên hơn - một nghìn người được hỏi. Ở đây, điểm bắt đầu để tính toán mẫu là câu hỏi xác định kích thước của tổng thể mẫu. Cỡ mẫu phụ thuộc vào hai yếu tố: 1) chi phí thu thập thông tin và 2) phấn đấu ở một mức độ nhất định giá trị thống kê kết quả mà nhà nghiên cứu hy vọng sẽ thu được. Tất nhiên, ngay cả những người không có kinh nghiệm về thống kê và xã hội học cũng hiểu một cách trực giác rằng cỡ mẫu càng lớn, tức là chúng càng gần với quy mô của tổng thể nói chung, thì dữ liệu thu được càng chắc chắn và đáng tin cậy hơn. Tuy nhiên, chúng tôi đã nói ở trên về khả năng thực tế không thể thực hiện của các cuộc khảo sát hoàn chỉnh trong những trường hợp này khi chúng được thực hiện ở các đối tượng có số lượng vượt quá hàng chục, hàng trăm nghìn và thậm chí hàng triệu. Rõ ràng là chi phí thu thập thông tin (bao gồm chi trả cho việc nhân rộng các công cụ, lao động của bảng câu hỏi, người quản lý thực địa và người vận hành máy tính) phụ thuộc vào số tiền mà khách hàng sẵn sàng phân bổ, và phụ thuộc rất ít vào các nhà nghiên cứu. Đối với yếu tố thứ hai, chúng tôi sẽ đi sâu vào nó chi tiết hơn một chút.

Vì vậy, kích thước mẫu càng lớn, sai số có thể xảy ra càng nhỏ. Mặc dù cần lưu ý rằng nếu bạn muốn tăng gấp đôi độ chính xác, bạn sẽ phải tăng mẫu không phải hai mà là bốn lần. Ví dụ, để làm nhiều gấp đôi ước tính chính xác dữ liệu thu được khi phỏng vấn 400 người, bạn cần phỏng vấn không phải 800 mà là 1600 người. Tuy nhiên, không chắc rằng nghiên cứu tiếp thị cần chính xác 100%. Nếu một nhà sản xuất bia cần tìm hiểu tỷ lệ người tiêu dùng bia thích nhãn hiệu của mình chứ không phải sự đa dạng của đối thủ cạnh tranh - 60% hay 40%, thì sự khác biệt giữa 57%, 60 hoặc 63% sẽ không ảnh hưởng đến kế hoạch của họ.

Sai số lấy mẫu có thể không chỉ phụ thuộc vào kích thước của nó mà còn phụ thuộc vào mức độ khác biệt giữa các đơn vị riêng lẻ trong tổng thể chung mà chúng tôi đang nghiên cứu. Ví dụ: nếu chúng ta muốn biết lượng bia được tiêu thụ, thì chúng ta thấy rằng trong dân số của chúng ta, tỷ lệ tiêu thụ cho những người khác nhau khác nhau đáng kể (quần thể chung không đồng nhất). Trong một trường hợp khác, chúng tôi sẽ nghiên cứu việc tiêu thụ bánh mì và nhận thấy rằng người khác nó khác biệt ít hơn nhiều (dân số đồng nhất). Sự khác biệt (hoặc không đồng nhất) trong tổng thể chung càng lớn thì giá trị càng lớn lỗi có thể xảy ra mẫu. Sự đều đặn này chỉ xác nhận những gì đơn giản ý thức chung. Vì vậy, như V. Yadov đã phát biểu đúng, “kích thước (thể tích) của mẫu phụ thuộc vào mức độ đồng nhất hoặc không đồng nhất của các đối tượng được nghiên cứu. Chúng càng đồng nhất, số lượng càng nhỏ có thể cung cấp các kết luận đáng tin cậy về mặt thống kê.

Việc xác định cỡ mẫu cũng phụ thuộc vào mức độ của khoảng tin cậy của sai số thống kê cho phép. Ở đây chúng tôi muốn nói đến cái gọi là lỗi ngẫu nhiên, có liên quan đến bản chất của bất kỳ lỗi thống kê nào. TRONG VA. Paniotto đưa ra các tính toán sau mẫu đại diện với giả định lỗi 5%:
Điều này có nghĩa là nếu bạn, sau khi phỏng vấn, chẳng hạn, 400 người ở một thành phố huyện, nơi dân số trưởng thành là 100 nghìn người, nhận thấy rằng 33% người mua được khảo sát thích sản phẩm của một nhà máy chế biến thịt địa phương, thì với 95 % xác suất bạn có thể nói rằng 33 + 5% (tức là từ 28 đến 38%) cư dân của thành phố này là người mua thường xuyên các sản phẩm này.

Bạn cũng có thể sử dụng tính toán của Gallup để ước tính tỷ lệ giữa kích thước mẫu và lỗi lấy mẫu.

Quan sát có chọn lọc

Khái niệm quan sát chọn lọc

Phương pháp lấy mẫuđược sử dụng khi việc sử dụng quan sát liên tục là không thể thực hiện được do lượng dữ liệu khổng lồ hoặc không khả thi về mặt kinh tế. Điều bất khả thi xảy ra, ví dụ, khi nghiên cứu luồng hành khách, giá thị trường, ngân sách gia đình. Tình trạng thiếu kinh tế xảy ra khi đánh giá chất lượng của hàng hóa liên quan đến việc tiêu hủy chúng. Ví dụ, nếm, thử độ bền của gạch, v.v. Quan sát có chọn lọc cũng được sử dụng để kiểm tra kết quả của một quá trình liên tục.

Các đơn vị thống kê được chọn để quan sát là chọn lọc tổng hợp hoặc vật mẫu, và toàn bộ mảng - chung bộ (GS). Số lượng đơn vị trong mẫu được ký hiệu là P, trong suốt HS N. Thái độ n / nđược gọi là kích thước tương đối hoặc chia sẻ mẫu.

Chất lượng của kết quả lấy mẫu phụ thuộc vào tính đại diện mẫu, tức là về tính đại diện của nó trong HS. Để đảm bảo tính đại diện của mẫu, cần tuân thủ nguyên tắc chọn ngẫu nhiên các đơn vị, giả định rằng việc đưa một đơn vị HS vào mẫu không thể bị ảnh hưởng bởi bất kỳ yếu tố nào khác ngoài yếu tố ngẫu nhiên.

Phương pháp xét nghiệm

1. Thực ra là ngẫu nhiên lựa chọn: tất cả các đơn vị HS được đánh số và các số được rút ra tương ứng với các đơn vị trong mẫu, với số lượng bằng cỡ mẫu đã định. Trong thực tế, thay vì bốc thăm, máy phát điện được sử dụng Số ngẫu nhiên. Phương pháp này lựa chọn có thể được lặp đi lặp lại(khi mỗi đơn vị được chọn trong mẫu được trả lại cho HS sau khi quan sát và có thể khảo sát lại) và chưa khai báo(khi các đơn vị được khảo sát trong HS không được trả lại và không được phục hồi). Với cách chọn lặp lại, xác suất lọt vào mẫu đối với mỗi đơn vị của HS không đổi, và với phép chọn không lặp lại, nó thay đổi (tăng), nhưng đối với những HS còn lại sau khi chọn một vài đơn vị từ nó, xác suất của việc nhận được vào mẫu là như nhau.

2. Cơ khí lựa chọn: các đơn vị dân số được chọn với một bước không đổi N / A. Vì vậy, nếu nó chứa một tổng thể chung là 100 nghìn đơn vị, và bắt buộc phải chọn 1 nghìn đơn vị, thì mỗi đơn vị hàng trăm sẽ rơi vào mẫu.

3. phân tầng(phân tầng) lựa chọn được thực hiện từ một quần thể chung không đồng nhất, khi trước đó nó được chia thành nhóm đồng nhất, sau đó, việc lựa chọn các đơn vị từ mỗi nhóm trong tổng thể mẫu được thực hiện ngẫu nhiên hoặc máy móc theo tỷ lệ với số lượng của chúng trong tổng thể chung.

4. Nối tiếp Lựa chọn (lồng nhau): ngẫu nhiên hoặc máy móc, không phải các đơn vị riêng lẻ được chọn, mà là một loạt (tổ) nhất định, trong đó việc quan sát liên tục được thực hiện.

Sai số lấy mẫu trung bình

Sau khi hoàn thành việc lựa chọn số lượng đơn vị cần thiết trong mẫu và đăng ký các đặc điểm của các đơn vị này do chương trình quan sát cung cấp, họ tiến hành tính toán các chỉ số tổng quát. Chúng bao gồm giá trị trung bình của đặc điểm đang nghiên cứu và tỷ lệ các đơn vị có giá trị nào đó của đặc điểm này. Tuy nhiên, nếu HS làm một số mẫu, đồng thời xác định các đặc điểm tổng quát của chúng, thì có thể xác định rằng giá trị của chúng sẽ khác nhau, ngoài ra, chúng sẽ khác với giá trị thực của chúng trong HS, nếu điều này được xác định bằng cách sử dụng quan sát liên tục . Nói cách khác, các đặc điểm tổng quát được tính toán từ dữ liệu mẫu sẽ khác với giá trị thực của chúng trong HS, vì vậy chúng tôi giới thiệu các ký hiệu sau (Bảng 8).

Bảng 8 Quy ước

Sự khác biệt giữa giá trị của các đặc điểm tổng quát của mẫu và tổng thể chung được gọi là lỗi lấy mẫu,được chia nhỏ thành lỗi sự đăng ký và lỗi tính đại diện. Đầu tiên phát sinh do thông tin không đúng hoặc không chính xác do hiểu sai bản chất vấn đề, cán bộ đăng ký bất cẩn khi điền phiếu, biểu mẫu, v.v. Nó khá dễ dàng để phát hiện và sửa chữa. Thứ hai phát sinh từ việc không tuân thủ nguyên tắc lựa chọn ngẫu nhiên các đơn vị trong mẫu. Khó phát hiện và loại bỏ hơn, nó lớn hơn nhiều so với cái đầu tiên, và do đó phép đo của nó là nhiệm vụ chính của quan sát chọn lọc.

Để đo lỗi lấy mẫu, sai số trung bình của nó được xác định theo công thức (39) cho lựa chọn lại và theo công thức (40) - để không lặp lại:

= ;(39) = . (40)

Có thể thấy từ công thức (39) và (40) rằng sai số trung bình nhỏ hơn đối với mẫu không lặp lại, điều này xác định ứng dụng rộng rãi hơn của nó.

Khái niệm và cách tính sai số lấy mẫu.

Nhiệm vụ của quan sát chọn lọc là đưa ra những ý kiến đúng đắn về các chỉ số tổng hợp của toàn bộ dân số dựa trên một số bộ phận của chúng được quan sát. Độ lệch có thể có của tỷ trọng mẫu và trung bình mẫu so với tỷ trọng và trung bình trong dân số chung được gọi là lỗi lấy mẫu hoặc lỗi tính đại diện. Giá trị của sai số này càng lớn thì các chỉ số quan sát mẫu càng khác với các chỉ số của tổng thể chung.

Khác biệt:

Sai số lấy mẫu;

Lỗi đăng ký.

Lỗi đăng ký xảy ra khi một dữ kiện được thiết lập không chính xác trong quá trình quan sát. Chúng là đặc trưng của cả quan sát liên tục và quan sát chọn lọc, nhưng chúng ít hơn trong quan sát chọn lọc.

Bản chất của lỗi là:

Có xu hướng - có chủ ý, tức là các đơn vị tốt nhất hoặc xấu nhất của tổng thể đã được chọn. Trong trường hợp này, các quan sát mất đi ý nghĩa của chúng;

Ngẫu nhiên - nguyên tắc tổ chức chính của quan sát có chọn lọc là ngăn chặn sự lựa chọn có chủ ý, tức là đảm bảo tuân thủ nghiêm ngặt nguyên tắc chọn ngẫu nhiên.

Nguyên tắc chung lựa chọn ngẫu nhiên là: các đơn vị riêng lẻ của tổng thể chung phải có các điều kiện và cơ hội hoàn toàn giống nhau để rơi vào số lượng các đơn vị có trong mẫu. Điều này thể hiện tính độc lập của kết quả mẫu so với ý muốn của người quan sát. Ý chí của người quan sát tạo ra những sai sót có xu hướng. Lỗi lấy mẫu trong lựa chọn ngẫu nhiên là nhân vật ngẫu nhiên. Nó đặc trưng cho kích thước sai lệch của các đặc tính chung so với các đặc tính mẫu.

Do thực tế là các đặc điểm trong quần thể nghiên cứu khác nhau, thành phần của các đơn vị trong mẫu có thể không trùng với thành phần của các đơn vị của toàn bộ quần thể. Nó có nghĩa là R và không phù hợp với W và . Sự khác biệt có thể có giữa các đặc điểm này được xác định bằng sai số lấy mẫu, được xác định theo công thức:

ở đâu - phương sai chung.

phương sai mẫu ở đâu.

Điều này cho thấy phương sai chung khác với phương sai mẫuđúng giờ.

Có lựa chọn lặp lại và không lặp lại. Bản chất của việc chọn lọc lại là mỗi đơn vị trong mẫu sau khi quan sát sẽ trở về tổng thể chung và có thể được kiểm tra lại. Khi lấy mẫu lại, lỗi lấy mẫu trung bình được tính:

Đối với chỉ báo về tỷ trọng của một thuộc tính thay thế, phương sai mẫu được xác định theo công thức:

Trong thực tế, lựa chọn lại hiếm khi được sử dụng. Với sự lựa chọn không lặp lại, quy mô của dân số chung N giảm trong quá trình lấy mẫu, công thức lỗi trung bình mẫu cho đặc điểm số lượng giống như:

, sau đó

Một trong những giá trị có thể có mà tỷ lệ của tính trạng được nghiên cứu có thể bằng:

đâu là lỗi lấy mẫu của đối tượng địa lý thay thế.

Thí dụ.

Trong quá trình khảo sát mẫu đối với 10% sản phẩm của một lô thành phẩm theo phương pháp không chọn lại, thu được các số liệu sau về độ ẩm trong các mẫu.

Xác định% độ ẩm trung bình, phương sai, trung bình độ lệch chuẩn, với xác suất 0,954 giới hạn có thể, trong đó chúng tôi mong đợi cf. % độ ẩm của tất cả các thành phẩm, với xác suất 0,987 giới hạn có thể trọng lượng riêng sản phẩm tiêu chuẩn, với điều kiện lô hàng không đạt tiêu chuẩn bao gồm các sản phẩm có độ ẩm từ 13 trở lên 19%.

Chỉ với một xác suất nhất định mới có thể lập luận rằng tỷ trọng chung của tỷ trọng mẫu và giá trị trung bình chung của trung bình mẫu sai lệch trong t Một lần.

Trong thống kê, những sai lệch này được gọi là lỗi lấy mẫu biên và được đánh dấu.

Xác suất phán đoán có thể tăng hoặc giảm trong t Một lần. Với xác suất 0,683, 0,954, 0,987, thì các chỉ tiêu của dân số chung được xác định bởi các chỉ tiêu của mẫu.

Sai số lấy mẫu trung bình cho thấy tham số của tổng thể mẫu sai lệch trung bình bao nhiêu so với tham số tương ứng của tổng thể chung. Nếu chúng ta tính giá trị trung bình của các sai số của tất cả các mẫu có thể một loại nhất định khối lượng nhất định ( N) được trích xuất từ cùng một tổng thể chung, sau đó chúng tôi nhận được đặc điểm tổng quát của chúng - nghĩa là lỗi lấy mẫu ().

Trong lý thuyết về quan sát có chọn lọc, các công thức để xác định, những công thức đó dành riêng cho những cách khác lựa chọn (lặp lại và không lặp lại), các loại mẫu được sử dụng và các loại chỉ tiêu thống kê ước tính.

Ví dụ: nếu lấy mẫu ngẫu nhiên lặp lại được sử dụng, thì nó được định nghĩa là:

Khi ước tính giá trị trung bình của một đối tượng địa lý;

Nếu dấu hiệu là thay thế, và chia sẻ được ước tính.

Trong trường hợp lựa chọn ngẫu nhiên không lặp lại, các công thức được sửa đổi (1 - n / N):

- đối với giá trị trung bình của thuộc tính;

- để được chia sẻ.

Xác suất thu được một giá trị sai số luôn bằng 0,683. Trong thực tế, tốt hơn là lấy dữ liệu với xác suất cao hơn, nhưng điều này dẫn đến sự gia tăng kích thước của sai số lấy mẫu.

lỗi biên lấy mẫu () bằng t nhân với số lỗi lấy mẫu trung bình (trong lý thuyết lấy mẫu, thường gọi hệ số t là hệ số tin cậy):

Nếu sai số lấy mẫu được tăng gấp đôi (t = 2), thì chúng ta sẽ có xác suất cao hơn nhiều là nó sẽ không vượt quá một giới hạn nhất định (trong trường hợp của chúng ta là gấp đôi sai số trung bình) - 0,954. Nếu chúng ta lấy \ u003d 3, thì mức độ tin cậy sẽ là 0,997 - thực tế là chắc chắn.

Mức sai số lấy mẫu biên phụ thuộc vào các yếu tố sau:

mức độ biến thiên của các đơn vị của tổng thể chung;
cỡ mẫu;
các lược đồ lựa chọn đã chọn (lựa chọn không lặp lại cho giá trị lỗi nhỏ hơn);
mức độ tin cậy.

Nếu cỡ mẫu lớn hơn 30, thì giá trị của t được xác định từ bảng phân phối bình thường, nếu ít hơn - theo bảng phân phối của Học sinh.

Dưới đây là một số giá trị của hệ số tin cậy từ bảng phân phối chuẩn.

Khoảng tin cậy cho giá trị trung bình của thuộc tính và cho tỷ lệ trong tổng thể chung được đặt như sau:

Vì vậy, việc xác định ranh giới của tỷ lệ trung bình chung và tỷ trọng bao gồm các bước sau:

Lỗi lấy mẫu tại nhiều loại khác nhau sự lựa chọn

Thực tế là lấy mẫu ngẫu nhiên và cơ học. Sai số trung bình của việc lấy mẫu ngẫu nhiên và cơ học thực tế được tìm thấy bằng cách sử dụng các công thức được trình bày trong Bảng. 11.3.

Ví dụ 11.2. Để nghiên cứu mức độ lợi nhuận trên tài sản, một cuộc khảo sát mẫu đối với 90 doanh nghiệp trong số 225 doanh nghiệp đã được thực hiện bằng phương pháp chọn mẫu lại ngẫu nhiên, kết quả là số liệu trình bày trong bảng thu được.

Trong ví dụ này, chúng tôi có một mẫu 40% (90: 225 = 0,4, hoặc 40%). Hãy để chúng tôi xác định sai số biên của nó và các ranh giới cho giá trị trung bình của đối tượng địa lý trong tổng thể chung bằng các bước của thuật toán:

Dựa trên kết quả điều tra mẫu, chúng tôi tính giá trị trung bình và phương sai trong tổng thể mẫu:

Bảng 11.5.

Kết quả quan sát			Giá trị ước tính
lợi nhuận trên tài sản, chà., x i	số lượng doanh nghiệp, f i	giữa khoảng thời gian, x i \ xb4	x i \ xb4 f i	x i \ xb4 2 f i
Lên đến 1,4	13	1,3	16,9	21,97
1,4-1,6	15	1,5	22,5	33,75
1,6-1,8	17	1,7	28,9	49,13
1,8-2,0	15	1,9	28,5	54,15
2,0-2,2	16	2,1	33,6	70,56
2.2 trở lên	14	2,3	32,2	74,06
Tổng cộng	90	-	162,6	303,62

Trung bình mẫu

Phương sai mẫu của đặc điểm đang nghiên cứu

Đối với dữ liệu của chúng tôi, chúng tôi xác định lỗi lấy mẫu biên, ví dụ, với xác suất là 0,954. Theo bảng giá trị xác suất của hàm phân phối chuẩn (xem phần trích từ nó được đưa ra trong Phụ lục 1), chúng tôi tìm thấy giá trị của hệ số tin cậy t tương ứng với xác suất là 0,954. Với xác suất 0,954, hệ số t là 2.

Do đó, trong 954 trường hợp trong số 1000, tỷ suất sinh lợi trung bình của tài sản sẽ không vượt quá 1,88 rúp. và không ít hơn 1,74 rúp.

Ở trên, một sơ đồ lựa chọn ngẫu nhiên lặp lại đã được sử dụng. Hãy xem kết quả của cuộc khảo sát có thay đổi không nếu chúng ta giả định rằng việc lựa chọn được thực hiện theo sơ đồ lựa chọn không lặp lại. Trong trường hợp này, sai số trung bình được tính bằng công thức

Khi đó, với xác suất bằng 0,954, sai số lấy mẫu biên sẽ là:

Giới hạn độ tin cậy cho giá trị trung bình của đối tượng địa lý trong trường hợp lựa chọn ngẫu nhiên không lặp lại sẽ có các giá trị sau:

So sánh kết quả của hai phương án lựa chọn, chúng ta có thể kết luận rằng việc sử dụng lấy mẫu ngẫu nhiên không lặp lại mang lại nhiều hơn kết quả chính xác so với việc áp dụng lựa chọn lặp lại ở cùng một mức độ tin cậy. Đồng thời, kích thước mẫu càng lớn, ranh giới của các giá trị trung bình càng thu hẹp đáng kể khi chuyển từ lược đồ lựa chọn này sang lược đồ lựa chọn khác.

Theo ví dụ này, chúng tôi xác định ranh giới của phần doanh nghiệp có tỷ suất sinh lợi trên tài sản không vượt quá giá trị 2,0 rúp trong dân số chung:

Hãy tính tỷ lệ mẫu.

Số lượng doanh nghiệp trong mẫu có tỷ suất sinh lợi trên tài sản không quá 2,0 rúp là 60 đơn vị. sau đó

m = 60, n = 90, w = m / n = 60: 90 = 0,667;

tính toán phương sai của tỷ trọng trong tổng thể mẫu

lỗi lấy mẫu trung bình khi sử dụng kế hoạch lại lựa chọn sẽ được

Nếu chúng ta giả định rằng một lược đồ lựa chọn không lặp lại đã được sử dụng, thì sai số lấy mẫu trung bình, có tính đến hiệu chỉnh cho tính hữu hạn của tổng thể, sẽ là

chúng tôi đặt xác suất tin cậy và xác định lỗi lấy mẫu biên.

Với giá trị xác suất P = 0,997, theo bảng phân phối chuẩn, chúng ta thu được giá trị cho hệ số tin cậy t = 3 (xem phần trích từ nó được đưa ra trong Phụ lục 1):

Như vậy, với xác suất 0,997, có thể lập luận rằng trong dân số chung, tỷ lệ doanh nghiệp có tỷ suất sinh lợi trên tài sản không quá 2,0 rúp là không nhỏ hơn 54,7% và không quá 78,7%.

Mẫu điển hình. Với một mẫu điển hình, tổng thể chung của các đối tượng được chia thành k nhóm, khi đó

N 1 + N 2 + ... + N i + ... + N k = N.

Khối lượng các đơn vị được trích ra từ mỗi nhóm điển hình phụ thuộc vào phương pháp lựa chọn được thông qua; họ toàn bộ tạo thành kích thước mẫu yêu cầu

n 1 + n 2 +… + n i +… + n k = n.

Có hai cách sau đây để tổ chức lựa chọn trong nhóm điển hình: tỷ lệ với khối lượng của nhóm điển hình và tỷ lệ với mức độ biến động của các giá trị của thuộc tính theo đơn vị quan sát trong nhóm. Hãy xem xét cái đầu tiên trong số chúng, là cái được sử dụng phổ biến nhất.

Lựa chọn tỷ lệ với quy mô của các nhóm điển hình giả định rằng trong mỗi nhóm sẽ được chọn số tiếp theođơn vị dân số:

n = n i N i / N

với n i là số lượng đơn vị có thể trích xuất cho một mẫu từ nhóm điển hình thứ i;

n là tổng cỡ mẫu;

N i - số đơn vị của dân số chung tạo nên nhóm điển hình thứ i;

N là tổng số đơn vị trong tổng thể chung.

Việc lựa chọn các đơn vị trong các nhóm xảy ra dưới hình thức lấy mẫu ngẫu nhiên hoặc cơ học.

Các công thức để ước tính sai số lấy mẫu trung bình cho giá trị trung bình và chia sẻ được trình bày trong Bảng. 11,6.

Đây là mức trung bình của phương sai nhóm các nhóm tiêu biểu.

Ví dụ 11.3. Một cuộc khảo sát mẫu về sinh viên đã được thực hiện tại một trong các trường đại học ở Moscow để xác định chỉ số về mức độ trung bình của một sinh viên đến thư viện trường đại học trong một học kỳ. Đối với điều này, mẫu điển hình 5% không lặp lại đã được sử dụng, các nhóm điển hình tương ứng với số khóa học. Khi chọn, tỷ lệ với khối lượng của các nhóm điển hình, các dữ liệu sau thu được:

Bảng 11.7.

Số của khóa học	Tổng số học sinh, số người, N i	Được kiểm tra là kết quả của sự quan sát có chọn lọc, mọi người, n i	Số lần đến thư viện trung bình của mỗi sinh viên trong mỗi học kỳ, x i	Phương sai mẫu trong nhóm,
1	650	33	11	6
2	610	31	8	15
3	580	29	5	18
4	360	18	6	24
5	350	17	10	12
Tổng cộng	2 550	128	8	-

Số lượng học viên được kiểm tra trong mỗi khóa học được tính như sau:

tương tự cho các nhóm khác:

Sự phân bố của các giá trị trung bình mẫu luôn có luật bình thường phân phối (hoặc tiếp cận nó) cho n> 100, bất kể bản chất của phân bố dân cư. Tuy nhiên, trong trường hợp các mẫu nhỏ, một luật phân phối khác được áp dụng - Phân phối của học sinh. Trong trường hợp này, hệ số tin cậy được tìm thấy theo bảng phân phối t của Student, phụ thuộc vào giá trị của xác suất tin cậy P và cỡ mẫu n. Phụ lục 1 cung cấp một đoạn bảng phân phối t của Student, được trình bày dưới dạng phụ thuộc xác suất tin cậy trên cỡ mẫu và hệ số tin cậy t.

Ví dụ 11.4. Giả sử rằng một cuộc khảo sát mẫu với tám sinh viên của học viện cho thấy rằng để chuẩn bị cho Công việc kiểm soát Theo thống kê, họ đã dành số giờ như sau: 8,5; 8,0; 7,8; 9,0; 7,2; 6,2; 8,4; 6.6.

Ví dụ 11.5. Hãy tính xem có bao nhiêu trong số 507 doanh nghiệp công nghiệp cơ quan thuế cần được kiểm tra để xác định tỷ lệ doanh nghiệp vi phạm thuế với xác suất 0,997. Theo khảo sát tương tự trước đây, giá trị của độ lệch chuẩn là 0,15; Kích thước của sai số lấy mẫu dự kiến không cao hơn 0,05.

Khi sử dụng lựa chọn ngẫu nhiên lặp lại, hãy kiểm tra

Trong lựa chọn ngẫu nhiên không lặp lại, cần phải kiểm tra

Như bạn có thể thấy, việc sử dụng lấy mẫu không lặp lại cho phép bạn thực hiện một cuộc khảo sát ít hơn các đối tượng.

Ví dụ 11.6. Một cuộc khảo sát đã được lên kế hoạch tiền công tại các doanh nghiệp của ngành theo phương pháp lựa chọn ngẫu nhiên không lặp lại. Kích thước của mẫu sẽ là bao nhiêu nếu tại thời điểm khảo sát, số lượng người làm việc trong ngành là 100.000 người? Sai số lấy mẫu biên không được vượt quá 100 rúp. với xác suất 0,954. Dựa trên kết quả của các cuộc khảo sát trước đây về tiền lương trong ngành, người ta biết rằng độ lệch chuẩn là 500 rúp.

Do đó, để giải quyết vấn đề, cần đưa ít nhất 100 người vào mẫu.

Sai số lấy mẫu tương đối. Công thức lỗi trung bình mẫu

Công thức độ tin cậy để ước tính giá trị trung bình chung. Sai số bình phương trung bình của các mẫu và kết cấu lặp lại và không lặp lại khoảng tin cậy cho mức trung bình chung.

Xác định khối lượng yêu cầu của các mẫu lặp lại và không lặp lại khi ước tính tỷ trọng và giá trị trung bình chung.

Giả thuyết thống kê và kiểm định thống kê. Lỗi thuộc loại thứ nhất và thứ hai. Mức độ quan trọng và sức mạnh của thử nghiệm. Nguyên tắc chắc chắn thực tế.