Tiểu sử Đặc trưng Phân tích

Lỗi lấy mẫu trung bình là gì? Xác định cỡ mẫu

Khái niệm quan sát có chọn lọc.

Với phương pháp quan sát thống kê, có thể sử dụng hai phương pháp quan sát: liên tục, bao trùm tất cả các đơn vị dân số và chọn lọc (không liên tục).

Khi lấy mẫu, chúng tôi muốn nói đến một phương pháp nghiên cứu liên quan đến việc thiết lập các chỉ số chung về dân số cho một phần dân số dựa trên phương pháp chọn ngẫu nhiên.

Trong quá trình quan sát chọn lọc, một phần tương đối nhỏ của toàn bộ dân số (5-10%) được kiểm tra.

Toàn bộ dân số được khảo sát được gọi là dân số nói chung.

Phần đơn vị được lựa chọn từ tổng thể để khảo sát được gọi là dân số mẫu hoặc lấy mẫu.

Các chỉ số đặc trưng cho dân số chung và dân số mẫu:

1) Chia sẻ một đặc điểm thay thế;

TRONG dân số tỷ lệ các đơn vị có đặc tính thay thế bất kỳ được ký hiệu bằng chữ “P”.

TRONG dân số mẫu tỷ lệ các đơn vị có đặc tính thay thế bất kỳ được ký hiệu bằng chữ “w”.

2) Kích thước tính năng trung bình;

TRONG dân số Kích thước trung bình của một đối tượng được biểu thị bằng một chữ cái (trung bình chung).

TRONG dân số mẫu Kích thước tính năng trung bình được biểu thị bằng một chữ cái (trung bình mẫu).

Định nghĩa lỗi lấy mẫu.

Việc quan sát mẫu dựa trên nguyên tắc cơ hội bình đẳng cho các đơn vị của tổng thể được đưa vào mẫu. Điều này tránh được các lỗi quan sát có tính hệ thống. Tuy nhiên, do thực tế là tổng thể được nghiên cứu bao gồm các đơn vị có các đặc điểm khác nhau nên thành phần của mẫu có thể khác với thành phần của tổng thể nói chung, gây ra sự khác biệt giữa đặc điểm chung và đặc điểm mẫu.

Những khác biệt như vậy được gọi là lỗi đại diện hoặc lỗi lấy mẫu.

Xác định sai số lấy mẫu là vấn đề chính được giải quyết trong quá trình quan sát mẫu.

Trong thống kê toán học, người ta đã chứng minh rằng sai số lấy mẫu trung bình được xác định theo công thức:

Trong đó m là sai số lấy mẫu;

s 2 0 – sự phân tán của dân số nói chung;

n - số đơn vị trong quần thể mẫu.

Trong thực tế, phương sai của tổng thể mẫu s 2 được sử dụng để xác định sai số lấy mẫu trung bình.

Có sự bằng nhau giữa phương sai chung và phương sai mẫu:

(2).

Từ công thức (2) rõ ràng là phương sai chung lớn hơn phương sai mẫu một lượng (). Tuy nhiên, với cỡ mẫu đủ lớn thì tỷ lệ này gần bằng 1 nên ta có thể viết rằng

Tuy nhiên, công thức xác định sai số lấy mẫu trung bình này chỉ áp dụng cho việc lấy mẫu lặp lại.

Trong thực tế nó thường được sử dụng lựa chọn lặp lại và sai số lấy mẫu trung bình được tính hơi khác do cỡ mẫu giảm trong quá trình nghiên cứu:

(4)

trong đó n là cỡ của quần thể mẫu;

N – quy mô dân số;

s 2 - phương sai mẫu.

Đối với phần của một đặc tính thay thế, sai số lấy mẫu trung bình tại lựa chọn lặp đi lặp lạiđược xác định bởi công thức:

(5), ở đâu

w (1-w) - sai số trung bình của tỷ lệ mẫu của một đặc điểm thay thế;

w là tỷ lệ của một đặc tính thay thế trong quần thể mẫu.

Tại lựa chọn lại Sai số trung bình trong tỷ lệ của một đặc tính thay thế được xác định bằng công thức đơn giản hóa:

(6)

Nếu như cỡ mẫu không vượt quá 5%, sai số trung bình của phần mẫu và giá trị trung bình mẫu được xác định bằng các công thức đơn giản (3) và (6).

Việc xác định sai số trung bình của trung bình mẫu và tỷ lệ mẫu là cần thiết để thiết lập các giá trị có thể có của trung bình chung (x) và tỷ lệ chung (P) dựa trên trung bình mẫu (x) và tỷ lệ mẫu (w) .

Một trong những giá trị có thể có trong đó trung bình chung được xác định theo công thức:

Đối với phần chung, khoảng này có thể được viết là :

(8)

Các đặc điểm của tỷ trọng và mức trung bình trong tổng thể chung thu được theo cách này khác với giá trị của tỷ trọng mẫu và mức trung bình mẫu theo số lượng. m. Tuy nhiên, điều này không thể được đảm bảo hoàn toàn chắc chắn mà chỉ với một mức độ xác suất nhất định.

Trong thống kê toán học, người ta đã chứng minh rằng giới hạn của các đặc tính của trung bình chung và trung bình mẫu khác nhau về lượng tôi chỉ với xác suất là 0,683. Do đó, chỉ có 683 trường hợp trong số 1000 trường hợp là trung bình chung trong x= x m x, trong những trường hợp khác nó sẽ vượt quá những giới hạn này.

Xác suất phán đoán có thể tăng lên nếu chúng ta mở rộng giới hạn sai lệch bằng cách lấy sai số lấy mẫu trung bình tăng t lần làm thước đo.

Hệ số t được gọi là hệ số tin cậy. Nó được xác định tùy thuộc vào mức độ tin cậy mà kết quả nghiên cứu phải được đảm bảo.

Nhà toán học A.M. Lyapushev đã tính toán các giá trị khác nhau của t, thường được đưa ra trong các bảng làm sẵn.

Ưu điểm chính của việc quan sát mẫu so với các phương pháp khác là khả năng tính toán sai số lấy mẫu ngẫu nhiên.

Lỗi lấy mẫu có thể là hệ thống hoặc ngẫu nhiên.

có tính hệ thống- trong trường hợp nguyên tắc cơ bản của việc lấy mẫu - tính ngẫu nhiên - bị vi phạm. Ngẫu nhiên- thường phát sinh do cấu trúc của dân số mẫu luôn khác với cấu trúc của dân số nói chung, cho dù việc lựa chọn được thực hiện chính xác đến đâu, nghĩa là, mặc dù theo nguyên tắc chọn ngẫu nhiên các đơn vị dân số, vẫn có sự khác biệt giữa các đặc điểm của mẫu và tổng thể chung. Việc nghiên cứu và đo lường sai số ngẫu nhiên về tính đại diện là nhiệm vụ chính của phương pháp lấy mẫu.

Thông thường, sai số của giá trị trung bình và sai số của tỷ lệ thường được tính toán nhiều nhất. Các quy ước sau đây được sử dụng để tính toán:

Trung bình được tính trong dân số;

Tính trung bình trong quần thể mẫu;

R- tỷ lệ của nhóm này trong dân số nói chung;

w- tỷ lệ của nhóm này trong dân số mẫu.

Sử dụng các quy ước, sai số lấy mẫu đối với giá trị trung bình và tỷ lệ có thể được viết như sau:

Giá trị trung bình mẫu và tỷ lệ mẫu là các biến ngẫu nhiên có thể nhận bất kỳ giá trị nào tùy thuộc vào đơn vị dân số nào được đưa vào mẫu. Do đó, lỗi lấy mẫu cũng là biến ngẫu nhiên và có thể nhận các giá trị khác nhau. Do đó, giá trị trung bình của các sai số có thể xảy ra μ được xác định .

Không giống như sai số hệ thống, sai số ngẫu nhiên có thể được xác định trước, trước khi lấy mẫu, theo các định lý giới hạn được xem xét trong thống kê toán học.

Sai số trung bình được xác định với xác suất là 0,683. Trong trường hợp có xác suất khác, họ nói đến sai số cận biên.

Sai số lấy mẫu trung bình đối với giá trị trung bình và tỷ lệ được xác định như sau:


Trong các công thức này, phương sai của một đặc điểm là một đặc điểm của tổng thể chung, không xác định được trong quá trình quan sát mẫu. Trong thực tế, chúng được thay thế bằng các đặc điểm tương tự của quần thể mẫu dựa trên quy luật số lớn, theo đó quần thể mẫu tái tạo chính xác các đặc điểm của tổng thể mẫu với số lượng lớn.

Công thức xác định sai số trung bình cho các phương pháp lựa chọn khác nhau:

Phương pháp lựa chọn Lặp đi lặp lại lặp lại
sai số trung bình lỗi chia sẻ sai số trung bình lỗi chia sẻ
Đúng ngẫu nhiên và máy móc
Đặc trưng
nối tiếp

μ - sai số trung bình;

∆ - sai số tối đa;

P - cỡ mẫu;

N- quy mô dân số;

Tổng phương sai;

w- Tỷ lệ của loại này trong tổng cỡ mẫu:

Trung bình của phương sai trong nhóm;

Δ2 - độ phân tán giữa các nhóm;

r- số loạt trong mẫu;

R- tổng số tập.


Lỗi cận biênđối với tất cả các phương pháp lấy mẫu đều liên quan đến sai số lấy mẫu trung bình như sau:

Ở đâu t- hệ số tin cậy, liên quan về mặt chức năng với xác suất đảm bảo giá trị lỗi tối đa. Tùy thuộc vào xác suất, hệ số tin cậy t lấy các giá trị sau:

t P
0,683
1,5 0,866
2,0 0,954
2,5 0,988
3,0 0,997
4,0 0,9999

Ví dụ: xác suất xảy ra lỗi là 0,683. Điều này có nghĩa là trung bình chung khác với trung bình mẫu về giá trị tuyệt đối không quá μ với xác suất là 0,683 thì nếu là trung bình mẫu, là trung bình tổng quát thì Với xác suất 0,683.

Nếu chúng ta muốn đảm bảo xác suất đưa ra kết luận cao hơn, thì chúng ta sẽ tăng biên độ sai số ngẫu nhiên.

Do đó, độ lớn của sai số tối đa phụ thuộc vào các đại lượng sau:

Biến động của một đặc tính (mối quan hệ trực tiếp), được đặc trưng bởi mức độ phân tán;

Cỡ mẫu (phản hồi);

Xác suất tin cậy (kết nối trực tiếp);

Phương pháp tuyển chọn.

Một ví dụ về tính sai số của giá trị trung bình và sai số của tỷ lệ.

Để xác định số con trung bình trong một gia đình, 100 gia đình được chọn từ 1000 gia đình theo phương pháp chọn mẫu ngẫu nhiên không lặp lại, kết quả được thể hiện ở bảng:

Định nghĩa:.

- với xác suất 0,997, sai số lấy mẫu tối đa và ranh giới mà số trẻ em trung bình trong một gia đình nằm trong đó;

- với xác suất là 0,954, ranh giới mà tỷ lệ gia đình có hai con nằm trong đó.

1. Hãy xác định sai số lớn nhất của giá trị trung bình với xác suất là 0,977. Để đơn giản hóa việc tính toán, chúng ta sử dụng phương pháp mômen:

P = 0,997 t= 3

sai số trung bình của trung bình, 0,116 - sai số cận biên

2,12 – 0,116 ≤ ≤ 2,12+ 0,116

2,004 ≤ ≤ 2,236

Do đó, với xác suất 0,997, số con trung bình trong một gia đình trong tổng dân số nói chung, tức là trong 1000 gia đình, nằm trong khoảng 2,004 - 2,236.

Lỗi cận biên- độ phân kỳ tối đa có thể có của các giá trị trung bình hoặc sai số tối đa đối với xác suất xuất hiện cho trước.

1. Sai số lấy mẫu lớn nhất đối với giá trị trung bình trong quá trình lấy mẫu lặp lại được tính theo công thức:

trong đó t là độ lệch chuẩn hóa - “hệ số tin cậy”, phụ thuộc vào xác suất đảm bảo sai số lấy mẫu tối đa;

mu x - lỗi lấy mẫu trung bình.

2. Lỗi lấy mẫu cận biên cho phân số trong quá trình chọn lọc lặp lại được xác định theo công thức:

3. Sai số lấy mẫu tối đa đối với giá trị trung bình khi lấy mẫu không lặp lại:

Giới hạn sai số tương đối lấy mẫu được định nghĩa là tỷ lệ phần trăm của sai số lấy mẫu cận biên với đặc tính tương ứng của quần thể mẫu. Nó được định nghĩa theo cách này:

Mẫu nhỏ

Lý thuyết mẫu nhỏ được phát triển Sinh viên thống kê tiếng Anh vào đầu thế kỷ 20. Năm 1908, ông đã xác định được một phân bố đặc biệt cho phép tương quan giữa t và xác suất tin cậy F(t) ngay cả trong các mẫu nhỏ. Với n lớn hơn 100, chúng cho kết quả tương tự như bảng tích phân xác suất Laplace, với 30< n < 100 различия получаются незначительные. Поэтому на практике к малым выборкам относятся выборки объемом менее 30 единиц.

Lỗi lấy mẫu cận biên bằng t gấp số lỗi lấy mẫu trung bình:

μ - sai số lấy mẫu trung bình, được tính toán có tính đến sự hiệu chính mà việc điều chỉnh được thực hiện trong trường hợp đó lựa chọn không lặp lại;

t là hệ số tin cậy được tìm thấy ở một mức xác suất nhất định. Vậy với P=0,997 theo bảng giá trị của hàm tích phân Laplace t=3

Kích cỡ lỗi lấy mẫu cận biên có thể được cài đặt với một số xác suất. Xác suất để xảy ra lỗi như vậy bằng hoặc lớn hơn ba lần lỗi lấy mẫu trung bình là cực kỳ nhỏ và bằng 0,003 (1–0,997). Những sự kiện khó xảy ra như vậy được coi là thực tế không thể xảy ra, và do đóxác suất mà sự khác biệt này sẽ vượt quá ba lần sai số trung bình xác định mức độ lỗi và số tiền không còn nữa 0,3% .

Xác định sai số lấy mẫu tối đa đối với cổ phiếu

Tình trạng:

Từ thành phẩm, theo thứ tự ngẫu nhiên thực tế lựa chọn không lặp lại, 200 tạ được chọn lọc, trong đó có 8 tạ bị hư hỏng. Chúng ta có thể giả định với xác suất 0,954 rằng tổn thất sản xuất sẽ không vượt quá 5% nếu kích thước mẫu là 1:20 không?

Được cho:

  • n =200ts – cỡ mẫu (dân số mẫu)
  • m =8ts - số sản phẩm hư hỏng
  • n:N = 1:20 – tỷ lệ lựa chọn, trong đó N là số lượng dân số (dân số nói chung)
  • P = 0,954 – xác suất

Định nghĩa: ∆ ω < 5% (согласуется ли то, что потери продукции не превысят 5%)

Giải pháp:

1. Hãy xác định tỷ lệ mẫu - đây là tỷ lệ sản phẩm hư hỏng trong tổng thể mẫu:

2. Xác định dân số chung:

N=n*20=200*20=4000(ts)- Số lượng của tất cả các sản phẩm.

3. Hãy để chúng tôi xác định sai số lấy mẫu tối đa cho tỷ lệ sản phẩm có thuộc tính tương ứng, tức là. về phần sản phẩm hư hỏng: Δ = t*μ, Ở đâu µ - sai số trung bình của cổ phiếu có đặc tính thay thế, có tính đến sự điều chỉnh được thực hiện trong trường hợp đó có thể lặp lại lựa chọn; t – hệ số tin cậy, được tìm thấy ở mức xác suất cho trước P = 0,954 từ bảng giá trị của hàm tích phân Laplace: t = 2

4. Xác định r giới hạn khoảng tin cậycổ phần của một đặc điểm thay thế trong dân số nói chung, tức là Tỷ lệ sản phẩm hư hỏng trong tổng khối lượng sẽ là bao nhiêu: vì tỷ lệ sản phẩm hư hỏng trong khối lượng mẫu là ω = 0,04 nên có tính đến sai số tối đa ∆ ω = 0,027 chia sẻ chung của một đặc điểm thay thế(p) sẽ nhận các giá trị sau:

ω-∆ ω < p < ω+∆ ω

0.04-0.027< p < 0.04+0.027

0.013 < p < 0.067

Phần kết luận: với xác suất P=0,954 có thể khẳng định , tỷ lệ sản phẩm hư hỏngkhi lấy mẫu với thể tích lớn hơn, nó sẽ không vượt quá khoảng được tìm thấy (không dưới 1,3% và không quá 6,7%). Nhưng vẫn có khả năng tỷ lệ sản phẩm hư hỏng có thể vượt quá 5% trong phạm vi lên tới 6,7%, do đó, điều này không phù hợp với tuyên bố ∆ ω< 5%.

*******

Tình trạng:

Người quản lý cửa hàng qua kinh nghiệm biết rằng 25% khách hàng vào cửa hàng sẽ mua hàng. Giả sử có 200 khách hàng bước vào cửa hàng.

Định nghĩa:

  1. tỷ lệ người mua đã mua hàng
  2. phương sai phân số mẫu
  3. độ lệch chuẩn của phần mẫu
  4. xác suất tỷ lệ mẫu sẽ nằm trong khoảng từ 0,25 đến 0,30

Giải pháp:

BẰNG chia sẻ chung (P) chấp nhận chia sẻ mẫu (ω ) và xác định giới hạn trên của khoảng tin cậy.
Biết điểm tới hạn (theo điều kiện: tỷ lệ mẫu sẽ nằm trong khoảng 0,25-0,30), ta xây dựng vùng tới hạn một phía (phía bên phải).
Sử dụng bảng giá trị của hàm tích phân Laplace ta tìm được Z
Tùy chọn tương tự có thể được coi là lựa chọn lại với điều kiện là cùng một người mua, không mua hàng lần đầu, sẽ quay lại và mua hàng.

Nếu mẫu được coi là có thể lặp lại, cần phải sửa sai số trung bình bằng hệ số hiệu chỉnh. Sau đó, bằng cách thay thế các giá trị đã hiệu chỉnh của sai số cực đại cho phần mẫu, khi xác định vùng tới hạn, Z và P sẽ thay đổi

Xác định sai số lấy mẫu lớn nhất đối với giá trị trung bình

Theo số liệu từ 17 nhân viên của một công ty có 260 người, mức lương trung bình hàng tháng là 360 USD, với s = 76 USD. Số tiền tối thiểu phải được gửi vào tài khoản của công ty là bao nhiêu để đảm bảo trả lương cho tất cả nhân viên với xác suất 0,98?

Được cho:

  • n=17 - cỡ mẫu (dân số mẫu)
  • N=260 - số lượng dân số (dân số nói chung)
  • X Thứ Tư =360 - trung bình mẫu
  • S=76 - độ lệch chuẩn mẫu
  • P = 0,98 – xác suất tin cậy

Định nghĩa: giá trị tối thiểu có thể chấp nhận được của mức trung bình chung (giới hạn dưới của khoảng tin cậy).

Để mô tả độ tin cậy của các chỉ số mẫu, cần phân biệt giữa sai số lấy mẫu trung bình và sai số tối đa, đây chỉ là đặc trưng của các quan sát mẫu. Các chỉ tiêu này phản ánh sự khác biệt giữa mẫu và các chỉ tiêu chung tương ứng.

Lỗi lấy mẫu trung bìnhđược xác định chủ yếu bởi cỡ mẫu và phụ thuộc vào cấu trúc cũng như mức độ biến đổi của tính trạng đang được nghiên cứu.

Ý nghĩa của sai số lấy mẫu trung bình như sau. Các giá trị tính toán được của tỷ lệ mẫu (w) và giá trị trung bình mẫu () là các biến ngẫu nhiên về bản chất. Chúng có thể nhận các giá trị khác nhau tùy thuộc vào đơn vị dân số cụ thể nào được đưa vào mẫu. Ví dụ, nếu khi xác định độ tuổi trung bình của nhân viên doanh nghiệp, trong một mẫu có nhiều người trẻ hơn và một mẫu khác là những người lao động lớn tuổi hơn, thì phương tiện mẫu và sai số lấy mẫu sẽ khác nhau. Lỗi lấy mẫu trung bìnhđược xác định bởi công thức:

(27) hoặc - lấy mẫu lại. (28)

Trong đó: μ – sai số lấy mẫu trung bình;

σ – độ lệch chuẩn của đặc tính trong dân số nói chung;

n – cỡ mẫu.

Độ lớn của sai số μ cho thấy giá trị trung bình của thuộc tính được thiết lập trong mẫu khác bao nhiêu so với giá trị thực của thuộc tính trong tổng thể chung.

Theo công thức, sai số lấy mẫu tỷ lệ thuận với độ lệch chuẩn và tỷ lệ nghịch với căn bậc hai của số đơn vị có trong mẫu. Ví dụ, điều này có nghĩa là độ phân tán của các giá trị thuộc tính trong dân số càng lớn, tức là độ phân tán càng lớn thì cỡ mẫu càng phải lớn nếu chúng ta muốn tin tưởng vào kết quả khảo sát mẫu. Và ngược lại, với độ phân tán thấp, bạn có thể giới hạn bản thân ở một số lượng nhỏ dân số mẫu. Sai số lấy mẫu sẽ nằm trong giới hạn chấp nhận được.

Vì với việc lấy mẫu không lặp lại, quy mô quần thể N giảm trong quá trình lấy mẫu nên một hệ số bổ sung được đưa vào công thức tính sai số lấy mẫu trung bình

(1- ). Công thức tính sai số lấy mẫu trung bình có dạng sau:

Sai số trung bình nhỏ hơn đối với lấy mẫu không lặp lại, điều này quyết định việc sử dụng rộng rãi hơn.

Để có kết luận thực tế, cần phải mô tả đặc điểm của tổng thể dựa trên kết quả mẫu. Giá trị trung bình và phần chia của mẫu được phân phối cho dân chúng nói chung, có tính đến giới hạn sai số có thể xảy ra của họ và với mức xác suất đảm bảo điều đó. Sau khi chỉ định một mức xác suất cụ thể, giá trị độ lệch chuẩn hóa được chọn và sai số lấy mẫu tối đa được xác định.

Độ tin cậy (xác suất tin cậy) của việc đánh giá X dựa trên X* gọi là xác suất γ , qua đó sự bất bình đẳng được thực hiện


׀Х-Х*׀< δ, (30)

trong đó δ là sai số lấy mẫu tối đa, đặc trưng cho độ rộng của khoảng trong đó, với xác suất γ, giá trị của tham số tổng thể được nghiên cứu nằm ở đó.

Đáng tin cậyđược gọi là khoảng (X* - δ; X* + δ), bao gồm tham số X đang nghiên cứu (nghĩa là giá trị của tham số X nằm trong khoảng này) với độ tin cậy γ cho trước.

Thông thường, độ tin cậy của ước tính được xác định trước và số gần bằng 1 được lấy là γ: 0,95; 0,99 hoặc 0,999.

Sai số cực đại δ liên hệ với sai số trung bình μ theo hệ thức sau: , (31)

trong đó: t là hệ số tin cậy tùy thuộc vào xác suất P mà có thể khẳng định rằng sai số biên δ sẽ không vượt quá t gấp sai số trung bình μ (nó còn được gọi là điểm tới hạn hoặc phân vị của phân phối Sinh viên).

Như sau từ mối quan hệ , sai số biên tỷ lệ thuận với sai số lấy mẫu trung bình và hệ số tin cậy, phụ thuộc vào mức độ tin cậy đã cho của ước tính.

Từ công thức tính sai số lấy mẫu trung bình và tỷ số giữa sai số biên và sai số trung bình, ta thu được:

Có tính đến xác suất tin cậy, công thức này sẽ có dạng: