Sai số bình phương trung bình của mẫu lớn hơn. Giải thích lỗi tiêu chuẩn mẫu hình vuông trung bình cho

Sai số trung bình của mẫu cho biết mức độ lệch trung bình của tham số. khung lấy mẫu từ tham số chung tương ứng. Nếu chúng ta tính giá trị trung bình của các sai số của tất cả các mẫu có thể một loại nhất định khối lượng nhất định ( N) được trích xuất từ cùng một tổng thể chung, sau đó chúng tôi nhận được đặc điểm tổng quát của chúng - nghĩa là lỗi lấy mẫu ().

Trong lý thuyết về quan sát có chọn lọc, các công thức để xác định, những công thức này dành riêng cho những cách khác lựa chọn (lặp lại và không lặp lại), các loại mẫu được sử dụng và các loại chỉ tiêu thống kê ước tính.

Ví dụ: nếu sử dụng lấy mẫu ngẫu nhiên thích hợp lặp lại, thì nó được định nghĩa là:

Khi ước tính giá trị trung bình của một đối tượng địa lý;

Nếu dấu hiệu là thay thế, và chia sẻ được ước tính.

Trong trường hợp lựa chọn ngẫu nhiên không lặp lại, các công thức được sửa đổi (1 - n / N):

- đối với giá trị trung bình của thuộc tính;

- để được chia sẻ.

Xác suất thu được một giá trị sai số luôn bằng 0,683. Trong thực tế, tốt hơn là lấy dữ liệu với xác suất cao hơn, nhưng điều này dẫn đến sự gia tăng kích thước của sai số lấy mẫu.

Sai số lấy mẫu biên () bằng t nhân với số lỗi lấy mẫu trung bình (trong lý thuyết lấy mẫu, người ta thường gọi hệ số t là hệ số tin cậy):

Nếu sai số lấy mẫu tăng lên gấp đôi (t = 2), thì chúng ta sẽ có xác suất lớn hơn nhiều rằng nó sẽ không vượt quá một giới hạn nhất định (trong trường hợp của chúng ta là gấp đôi lỗi trung bình) - 0,954. Nếu chúng ta lấy t = 3, thì mức độ tự tin sẽ là 0,997 - thực tế là chắc chắn.

Cấp độ lỗi biên việc lấy mẫu phụ thuộc vào các yếu tố sau:

mức độ biến thiên của các đơn vị của tổng thể chung;
cỡ mẫu;
các lược đồ lựa chọn đã chọn (lựa chọn không lặp lại cho giá trị lỗi nhỏ hơn);
mức độ tin cậy.

Nếu cỡ mẫu lớn hơn 30, thì giá trị của t được xác định từ bảng phân phối chuẩn, nếu nhỏ hơn - từ bảng phân phối của Student.

Dưới đây là một số giá trị của hệ số tin cậy từ bảng phân phối chuẩn.

Khoảng tin cậy cho giá trị trung bình của thuộc tính và cho tỷ lệ trong tổng thể chung được đặt như sau:

Vì vậy, việc xác định ranh giới của tỷ lệ trung bình chung và tỷ trọng bao gồm các bước sau:

Lỗi lấy mẫu tại nhiều loại khác nhau sự lựa chọn

Thực tế là lấy mẫu ngẫu nhiên và cơ học. Sai số trung bình của lấy mẫu ngẫu nhiên và cơ học thực tế được tìm thấy bằng cách sử dụng các công thức được trình bày trong Bảng. 11.3.

Ví dụ 11.2. Để nghiên cứu mức độ hoàn vốn của tài sản, một cuộc khảo sát mẫu đối với 90 doanh nghiệp trong số 225 doanh nghiệp đã được thực hiện theo phương pháp ngẫu nhiên. lấy mẫu lại, dẫn đến dữ liệu được trình bày trong bảng.

Trong ví dụ này, chúng ta có một mẫu 40% (90: 225 = 0,4, hoặc 40%). Hãy để chúng tôi xác định sai số biên của nó và các ranh giới cho giá trị trung bình của đối tượng địa lý trong tổng thể chung bằng các bước của thuật toán:

Dựa trên kết quả điều tra mẫu, chúng tôi tính giá trị trung bình và phương sai trong tổng thể mẫu:

Bảng 11.5.

Kết quả quan sát			Giá trị ước tính
lợi nhuận trên tài sản, chà., x i	số lượng doanh nghiệp, f i	giữa khoảng thời gian, x i \ xb4	x i \ xb4 f i	x i \ xb4 2 f i
Lên đến 1,4	13	1,3	16,9	21,97
1,4-1,6	15	1,5	22,5	33,75
1,6-1,8	17	1,7	28,9	49,13
1,8-2,0	15	1,9	28,5	54,15
2,0-2,2	16	2,1	33,6	70,56
2.2 trở lên	14	2,3	32,2	74,06
Toàn bộ	90	-	162,6	303,62

Trung bình mẫu

Phương sai mẫu của đặc điểm đang nghiên cứu

Đối với dữ liệu của chúng tôi, chúng tôi xác định lỗi lấy mẫu biên, ví dụ, với xác suất là 0,954. Theo bảng giá trị xác suất của hàm phân phối chuẩn (xem phần trích dẫn trong Phụ lục 1), chúng tôi tìm thấy giá trị của hệ số tin cậy t tương ứng với xác suất bằng 0,954. Với xác suất 0,954, hệ số t là 2.

Do đó, trong 954 trường hợp trong số 1000, tỷ suất sinh lợi trung bình của tài sản sẽ không vượt quá 1,88 rúp. và không ít hơn 1,74 rúp.

Ở trên, một sơ đồ lựa chọn ngẫu nhiên lặp lại đã được sử dụng. Hãy xem kết quả của cuộc khảo sát có thay đổi không nếu chúng ta giả định rằng việc lựa chọn được thực hiện theo sơ đồ lựa chọn không lặp lại. Trong trường hợp này, sai số trung bình được tính bằng công thức

Khi đó, với xác suất bằng 0,954, sai số lấy mẫu biên sẽ là:

Giới hạn độ tin cậy cho giá trị trung bình của đối tượng địa lý trong trường hợp lựa chọn ngẫu nhiên không lặp lại sẽ có các giá trị sau:

So sánh kết quả của hai phương án lựa chọn, chúng ta có thể kết luận rằng việc sử dụng phương pháp chọn mẫu ngẫu nhiên không lặp lại cho kết quả chính xác hơn so với việc sử dụng phương pháp lựa chọn lặp lại với cùng một mức độ tin cậy. Đồng thời, kích thước mẫu càng lớn, ranh giới của các giá trị trung bình càng thu hẹp đáng kể khi chuyển từ lược đồ lựa chọn này sang lược đồ lựa chọn khác.

Theo ví dụ này, chúng tôi xác định ranh giới của phần doanh nghiệp có tỷ suất sinh lợi trên tài sản không vượt quá 2,0 rúp trong dân số chung:

Hãy tính tỷ lệ mẫu.

Số lượng doanh nghiệp trong mẫu có tỷ suất sinh lợi trên tài sản không quá 2,0 rúp là 60 đơn vị. sau đó

m = 60, n = 90, w = m / n = 60: 90 = 0,667;

tính toán phương sai của tỷ trọng trong tổng thể mẫu

lỗi lấy mẫu trung bình khi sử dụng kế hoạch lại lựa chọn sẽ được

Nếu chúng ta giả định rằng một lược đồ lựa chọn không lặp lại đã được sử dụng, thì sai số lấy mẫu trung bình, có tính đến hiệu chỉnh cho tính hữu hạn của tổng thể, sẽ là

chúng tôi đặt xác suất tin cậy và xác định sai số lấy mẫu biên.

Với giá trị xác suất P = 0,997, theo bảng phân phối chuẩn, chúng ta thu được giá trị của hệ số tin cậy t = 3 (xem phần trích từ nó được đưa ra trong Phụ lục 1):

Như vậy, với xác suất 0,997, có thể lập luận rằng trong dân số nói chung, tỷ lệ doanh nghiệp có tỷ suất sinh lợi trên tài sản không quá 2,0 rúp là không nhỏ hơn 54,7% và không quá 78,7%.

Mẫu điển hình. Với một mẫu điển hình dân số các đối tượng được chia thành k nhóm, sau đó

N 1 + N 2 + ... + N i + ... + N k = N.

Khối lượng các đơn vị được trích ra từ mỗi nhóm điển hình phụ thuộc vào phương pháp lựa chọn được thông qua; họ toàn bộ tạo thành kích thước mẫu yêu cầu

n 1 + n 2 +… + n i +… + n k = n.

Có hai cách sau đây để tổ chức lựa chọn trong nhóm điển hình: tỷ lệ với khối lượng của nhóm điển hình và tỷ lệ với mức độ biến động của các giá trị của thuộc tính theo đơn vị quan sát trong nhóm. Hãy xem xét cái đầu tiên trong số chúng, là cái được sử dụng phổ biến nhất.

Lựa chọn tỷ lệ với quy mô của các nhóm điển hình giả định rằng trong mỗi nhóm sẽ được chọn số tiếp theođơn vị dân số:

n = n i N i / N

trong đó n i là số đơn vị có thể trích xuất cho một mẫu từ nhóm điển hình thứ i;

n là tổng cỡ mẫu;

N i - số đơn vị của dân số chung tạo nên nhóm điển hình thứ i;

N là tổng số đơn vị trong tổng thể chung.

Việc lựa chọn các đơn vị trong các nhóm xảy ra dưới hình thức lấy mẫu ngẫu nhiên hoặc cơ học.

Các công thức để ước tính sai số lấy mẫu trung bình cho giá trị trung bình và chia sẻ được trình bày trong Bảng. 11,6.

Đây là giá trị trung bình của các phương sai nhóm của các nhóm điển hình.

Ví dụ 11.3. Một cuộc khảo sát mẫu về sinh viên đã được thực hiện tại một trong các trường đại học ở Moscow nhằm xác định chỉ số về mức độ trung bình của một sinh viên đến thư viện trường đại học trong một học kỳ. Đối với điều này, mẫu điển hình 5% không lặp lại đã được sử dụng, các nhóm điển hình tương ứng với số khóa học. Khi lựa chọn, tỷ lệ với khối lượng của các nhóm điển hình, các dữ liệu sau thu được:

Bảng 11.7.

Số của khóa học	Tổng số học sinh, số người, N i	Được kiểm tra là kết quả của sự quan sát có chọn lọc, mọi người, n i	Số lần đến thư viện trung bình của mỗi sinh viên trong mỗi học kỳ, x i	Phương sai mẫu trong nhóm,
1	650	33	11	6
2	610	31	8	15
3	580	29	5	18
4	360	18	6	24
5	350	17	10	12
Toàn bộ	2 550	128	8	-

Số lượng học viên được kiểm tra trong mỗi khóa học được tính như sau:

tương tự cho các nhóm khác:

Phân phối các giá trị của mẫu luôn có luật phân phối chuẩn (hoặc tiếp cận nó) cho n> 100, bất kể bản chất của phân phối tổng thể nói chung là gì. Tuy nhiên, trong trường hợp các mẫu nhỏ, một luật phân phối khác được áp dụng - Phân phối của học sinh. Trong trường hợp này, hệ số tin cậy được tìm thấy theo bảng phân phối t của Student, tùy thuộc vào giá trị của xác suất tin cậy P và cỡ mẫu n. Phụ lục 1 cung cấp một đoạn của bảng phân phối t của Student, được trình bày dưới dạng phụ thuộc xác suất tin cậy trên cỡ mẫu và hệ số tin cậy t.

Ví dụ 11.4. Giả sử rằng một cuộc khảo sát mẫu với tám sinh viên của học viện cho thấy rằng để chuẩn bị cho Công việc kiểm soát Theo thống kê, họ đã dành số giờ như sau: 8,5; 8,0; 7,8; 9,0; 7,2; 6,2; 8,4; 6,6.

Ví dụ 11.5. Hãy tính xem có bao nhiêu trong số 507 doanh nghiệp công nghiệp cơ quan thuế cần được kiểm tra để xác định tỷ lệ doanh nghiệp vi phạm thuế với xác suất 0,997. Theo khảo sát tương tự trước đây, giá trị của độ lệch chuẩn là 0,15; Kích thước của sai số lấy mẫu dự kiến không cao hơn 0,05.

Khi sử dụng lựa chọn ngẫu nhiên lặp lại, hãy kiểm tra

Trong lựa chọn ngẫu nhiên không lặp lại, cần phải kiểm tra

Như bạn có thể thấy, việc sử dụng lấy mẫu không lặp lại cho phép bạn thực hiện một cuộc khảo sát ít hơn các đối tượng.

Ví dụ 11.6. Một cuộc khảo sát đã được lên kế hoạch tiền công tại các doanh nghiệp của ngành theo phương pháp lựa chọn ngẫu nhiên không lặp lại. Kích thước của mẫu sẽ là bao nhiêu nếu tại thời điểm khảo sát, số lượng người làm việc trong ngành là 100.000 người? Sai số lấy mẫu biên không được vượt quá 100 rúp. với xác suất 0,954. Từ các cuộc khảo sát trước đây về tiền lương trong ngành, người ta biết rằng mức trung bình độ lệch chuẩn là 500 rúp.

Do đó, để giải quyết vấn đề, cần phải đưa ít nhất 100 người vào mẫu.

Sự khác biệt giữa giá trị của các chỉ số thu được từ mẫu và các tham số tương ứng của tổng thể chung được gọi là lỗi tính đại diện. Phân biệt giữa hệ thống và lỗi ngẫu nhiên mẫu.

Lỗi ngẫu nhiên không giải thích đủ đại diện thống nhất trong một tập hợp mẫu gồm các loại đơn vị khác nhau của dân số chung.

Lỗi hệ thống có thể liên quan đến việc vi phạm các quy tắc lựa chọn hoặc các điều kiện để thực hiện mẫu.

Như vậy, khi khảo sát ngân sách hộ gia đình, khung chọn mẫu đã được xây dựng trong hơn 40 năm trên cơ sở nguyên tắc lựa chọn theo ngành - lãnh thổ, do mục tiêu chính của cuộc điều tra ngân sách - là đặc trưng cho mức sống của công nhân, viên chức. và nông dân tập thể. Mẫu được phân bổ giữa các khu vực và lĩnh vực của nền kinh tế của RSFSR theo tỷ lệ tổng sức mạnh có việc làm; để tạo một mẫu ngành, một mẫu điển hình đã được sử dụng với sự lựa chọn cơ học của các đơn vị trong các nhóm.

Tiêu chí lựa chọn chính là mức lương trung bình hàng tháng. Nguyên tắc lựa chọn đảm bảo tính đại diện theo tỷ lệ trong tập mẫu người lao động với các mức lương khác nhau.

Với sự ra đời của cái mới nhóm xã hội(doanh nhân, nông dân, người thất nghiệp), tính đại diện của mẫu bị vi phạm không chỉ do sự khác biệt với cấu trúc của dân số chung, mà còn do lỗi hệ thống phát sinh do sự không phù hợp giữa đơn vị lấy mẫu (nhân viên) và đơn vị quan sát (hộ gia đình). Hộ gia đình có nhiều hơn một thành viên trong gia đình đi làm cũng có nhiều khả năng được lựa chọn hơn so với hộ gia đình có một công nhân. Các gia đình không có việc làm trong các lĩnh vực được khảo sát nằm ngoài phạm vi các đơn vị được lựa chọn (hộ hưu trí, hộ tự kinh doanh, v.v.). Rất khó để đánh giá độ chính xác của các kết quả thu được (ranh giới của khoảng tin cậy, sai số lấy mẫu), vì các mô hình xác suất không được sử dụng trong việc xây dựng mẫu.

Năm 1996–1997 đã được giới thiệu về cơ bản cách tiếp cận mớiđến việc lấy mẫu các hộ gia đình. Dữ liệu điều tra dân số vi mô năm 1994 được sử dụng làm cơ sở để thực hiện. Dân số chung trong cuộc lựa chọn bao gồm tất cả các loại hộ gia đình, ngoại trừ các hộ gia đình tập thể. Và bộ lấy mẫu bắt đầu được tổ chức có tính đến tính đại diện của thành phần và loại hộ gia đình trong từng đối tượng của Liên bang Nga.

Việc đo lường sai số về tính đại diện của các chỉ số mẫu dựa trên giả định về bản chất ngẫu nhiên của phân bố của chúng là vô hạn số lượng lớn mẫu.

Định lượng độ tin cậy của một chỉ thị mẫu được sử dụng để có được ý tưởng về đặc tính chung. Điều này được thực hiện trên cơ sở một chỉ báo mẫu, có tính đến sai số ngẫu nhiên của nó hoặc trên cơ sở một giả thuyết nhất định (về giá trị phương sai trung bình, tính chất phân bố, liên hệ) trong mối quan hệ với các thuộc tính của quần thể chung.

Để kiểm tra giả thuyết, đánh giá tính nhất quán của dữ liệu thực nghiệm với dữ liệu giả thuyết.

Độ lớn của sai số tính đại diện ngẫu nhiên phụ thuộc vào:

1) về kích thước mẫu;
2) mức độ biến động của tính trạng nghiên cứu trong quần thể nói chung;
3) phương pháp được chấp nhận để hình thành một quần thể mẫu.

Có sai số lấy mẫu trung bình (tiêu chuẩn) và cận biên.

Lỗi trung bình đặc trưng cho phép đo độ lệch của các chỉ số mẫu so với các chỉ số tương tự của dân số chung.

lỗi biên Thông thường sẽ xem xét sự khác biệt tối đa có thể có giữa mẫu và các đặc tính chung, tức là lỗi tối đa đối với một xác suất xảy ra cho trước.

Theo tổng thể mẫu, có thể đánh giá nhiều chỉ tiêu (thông số) khác nhau của tổng thể chung. Điểm số được sử dụng phổ biến nhất là:

- chung Kích thước trung bình của đặc điểm đang được nghiên cứu (đối với đặc điểm số lượng);
- chia sẻ chung (cho một dấu hiệu thay thế).

Nguyên tắc cơ bản của việc áp dụng phương pháp chọn mẫu là đảm bảo cơ hội bình đẳng cho tất cả các đơn vị của tổng thể chung được chọn trong tổng thể mẫu. Với cách tiếp cận này, yêu cầu của lựa chọn ngẫu nhiên, khách quan được quan sát và do đó, sai số lấy mẫu được xác định chủ yếu bởi kích thước của nó ( P ). Với sự gia tăng sau này, giá trị của sai số trung bình giảm xuống, các đặc điểm của tổng thể mẫu tiệm cận với các đặc điểm của tổng thể chung.

Với cùng một số lượng bộ lấy mẫu và các điều kiện bình đẳng Sai số lấy mẫu sẽ nhỏ hơn trong số chúng, được chọn từ tổng thể chung có ít biến động hơn về tính trạng được nghiên cứu. Mức độ biến đổi của tính trạng giảm có nghĩa là giá trị của phương sai giảm (đối với tính trạng số lượng hoặc đối với tính trạng thay thế).

Sự phụ thuộc của kích thước sai số lấy mẫu vào các phương pháp hình thành tổng thể mẫu được xác định bằng các công thức tính sai số lấy mẫu trung bình (Bảng 5.2).

Hãy bổ sung các chỉ số của Bảng. 5.2 với các giải thích sau đây.

Phương sai mẫu nhỏ hơn một chút so với phương sai chung. thống kê toán học Chứng minh rằng

Bảng 5.2

Công thức tính sai số mẫu trung bình mri nhiều cách khác nhau sự lựa chọn

Loại mẫu
	lặp lại cho	không thể lặp lại cho

Thực ra ngẫu nhiên (giản dị)
Nối tiếp (với bằng
Điển hình (tỷ lệ với quy mô của các nhóm)

Nếu mẫu lớn (tức là P đủ lớn), khi đó tỷ số tiến tới sự thống nhất và phương sai mẫu thực tế trùng với phương sai chung.

Mẫu được coi là lớn vô điều kiện khi n> 100 và nhỏ vô điều kiện tại P < 30. При оценке результатов малой выборки указанное соотношение выборочной и генеральной дисперсии следует принимать во внимание.

Chúng có thể được tính bằng các công thức sau:

trung bình ở đâu tôi loạt thứ; là giá trị trung bình chung cho toàn bộ mẫu;

Tỷ lệ các đơn vị của một danh mục nhất định ở đâu trong tôi loạt thứ; - tỷ trọng của các đơn vị thuộc loại này trong toàn bộ mẫu; r- số tập đã chọn.

4. Để xác định sai số trung bình của một mẫu điển hình trong trường hợp chọn các đơn vị tương ứng với quy mô của mỗi nhóm, giá trị trung bình của phương sai trong nhóm(- đối với đặc tính định lượng, đối với đặc tính thay thế). Theo quy tắc thêm phương sai, giá trị trung bình của các phương sai trong nhóm nhỏ hơn giá trị tổng phương sai. Giá trị trung bình lỗi có thể xảy ra lấy mẫu điển hình nhỏ hơn sai số của lấy mẫu ngẫu nhiên thích hợp đơn giản.

Lựa chọn kết hợp thường được sử dụng: lựa chọn đơn vị riêng lẻ được kết hợp với lựa chọn nhóm, lựa chọn điển hình được kết hợp với lựa chọn hàng loạt. Với bất kỳ phương pháp lựa chọn nào, với một xác suất nhất định, có thể lập luận rằng độ lệch của giá trị trung bình mẫu (hoặc tỷ trọng) so với giá trị trung bình chung (hoặc tỷ trọng) sẽ không vượt quá một giá trị nhất định, được gọi là lỗi biên mẫu.

Tỷ lệ giữa giới hạn sai số lấy mẫu (∆) được đảm bảo với một số xác suất F (t), và lỗi lấy mẫu trung bình có dạng: hoặc, ở đâu t - hệ số tin cậy, được xác định tùy thuộc vào mức xác suất F (t).

Giá trị hàm F (t) và t được xác định trên cơ sở các bảng toán học được biên soạn đặc biệt. Dưới đây là một số trong số những cái được sử dụng phổ biến nhất:


t

Do đó, sai số lấy mẫu biên trả lời câu hỏi về độ chính xác của việc lấy mẫu với một xác suất nhất định, giá trị của nó phụ thuộc vào giá trị của hệ số tin cậy t. Có, tại t = 1 xác suất F (t ) độ lệch của các đặc trưng của mẫu so với các đặc trưng chung theo giá trị của một sai số trung bình là 0,683. Do đó, trung bình, trong số 1000 mẫu, 683 sẽ đưa ra các chỉ số tổng quát (trung bình, tỷ lệ), sẽ khác với các chỉ số chung không quá một sai số trung bình. Tại t = 2 xác suất F (t) bằng 0,954, có nghĩa là trong số 1000 mẫu, 954 sẽ cho các chỉ số chung sẽ khác với các chỉ số chung không quá hai lần sai số trung bình của mẫu, v.v.

Cũng như giá trị tuyệt đối sai số lấy mẫu biên được tính toán và sai số tương đối, được định nghĩa là tỷ lệ phần trăm sai số lấy mẫu biên đối với đặc tính tương ứng của tổng thể lấy mẫu:

Trong thực tế, theo quy luật, thường đặt giá trị của ∆ nằm trong 10% mức trung bình dự kiến của thuộc tính.

Việc tính toán các sai số lấy mẫu trung bình và cận biên cho phép bạn xác định các giới hạn trong đó các đặc điểm của tổng thể chung sẽ là:

Các giới hạn trong đó, với một mức xác suất nhất định, một giá trị chưa biết của chỉ số đang được nghiên cứu trong tổng thể chung sẽ được bao hàm được gọi là mức độ tin cậy, và xác suất F (t) – xác suất tin cậy. Giá trị của ∆ càng lớn thì giá trị càng lớn mức độ tin cậy và do đó độ chính xác ước tính thấp hơn.

Hãy xem xét ví dụ sau. Để xác định quy mô trung bình của một khoản tiền gửi trong ngân hàng, 200 tài khoản ngoại tệ của người gửi tiền đã được chọn theo phương pháp lấy mẫu ngẫu nhiên lặp lại. Kết quả là, người ta thấy rằng kích thước trung bình tiền đặt cọc - 60 nghìn rúp, mức phân tán là 32. Đồng thời, 40 tài khoản xuất hiện theo yêu cầu. Cần xác định với xác suất 0,954 giới hạn số tiền gửi bình quân trên tài khoản ngoại tệ tại ngân hàng và phần tài khoản không kỳ hạn.

Tính toán sai số trung bình của mẫu trung bình bằng công thức chọn lại

Sai số biên của trung bình mẫu với xác suất 0,954 sẽ là

Do đó, số tiền gửi trung bình trong tài khoản ngân hàng bằng ngoại tệ là trong vòng một nghìn rúp:

Với xác suất 0,954, có thể lập luận rằng tiền gửi trung bình trong tài khoản ngân hàng bằng ngoại tệ dao động từ 59.200 đến 60.800 rúp.

Hãy để chúng tôi xác định tỷ lệ tiền gửi không kỳ hạn trong tổng thể mẫu:

Lỗi trung bình chia sẻ mẫu

Sai số cận biên của phần có xác suất 0,954 sẽ là

Do đó, tỷ lệ tài khoản nhu cầu trong dân số nói chung nằm trong w :

Với xác suất 0,954, có thể lập luận rằng tỷ trọng của tài khoản không kỳ hạn trong tổng số tài khoản ngoại tệ của ngân hàng nằm trong khoảng từ 14,4 đến 25,6%.

Tại nghiên cứu điển hìnhđiều quan trọng là phải thiết lập tỷ lệ tối ưu giữa thước đo độ tin cậy của kết quả thu được và kích thước của sai số lấy mẫu có thể chấp nhận được. Về vấn đề này, khi tổ chức quan sát mẫu, câu hỏi đặt ra liên quan đến việc xác định cỡ mẫu cần thiết để có được độ chính xác cần thiết của kết quả với một xác suất cho trước. Việc tính toán cỡ mẫu yêu cầu được thực hiện trên cơ sở các công thức về sai số lấy mẫu biên phù hợp với loại và phương pháp lựa chọn (Bảng 5.3).

Bảng 5.3

Công thức tính cỡ mẫu với phương pháp chọn ngẫu nhiên thích hợp

Hãy tiếp tục ví dụ trình bày kết quả của một cuộc khảo sát mẫu về tài khoản cá nhân của những người gửi tiền ngân hàng.

Yêu cầu xác định có bao nhiêu tài khoản cần được kiểm tra để với xác suất 0,977, sai số trong việc xác định quy mô tiền gửi trung bình không vượt quá 1,5 nghìn rúp. Hãy để chúng tôi biểu thị từ công thức cho sai số lấy mẫu biên để lựa chọn lại chỉ số của cỡ mẫu:

Khi xác định cỡ mẫu cần thiết bằng cách sử dụng các công thức trên, rất khó để tìm các giá trị của σ2 và đúng, vì các giá trị này chỉ có thể thu được sau khi khảo sát mẫu. Về vấn đề này, thay vì các giá trị thực của các chỉ số này, các giá trị gần đúng được thay thế, có thể được xác định trên cơ sở bất kỳ thử nghiệm nào. quan sát mẫu hoặc từ các cuộc điều tra phân tích trước đó.

Trong trường hợp nhà thống kê biết giá trị trung bình của các đặc điểm đang được nghiên cứu (ví dụ: từ các chỉ thị, các quy định pháp luật, v.v.) hoặc các giới hạn mà đặc tính này thay đổi, thì phép tính sau có thể được áp dụng bằng cách sử dụng các công thức gần đúng:

và tích w (1 - w) nên được thay bằng giá trị 0,25 (w = 0,5).

Để có được nhiều hơn kết quả chính xác, lấy giá trị lớn nhất có thể của các chỉ số này. Nếu sự phân bố của một tính trạng trong quần thể nói chung tuân theo luật bình thường, thì phạm vi biến thiên xấp xỉ bằng 6σ ( Giá trị cực đoan cách nhau cả hai chiều so với giá trị trung bình một khoảng là 3σ). Do đó, nhưng nếu phân phối rõ ràng là không đối xứng, thì.

Với bất kỳ loại mẫu nào, thể tích của nó bắt đầu được tính theo công thức lấy mẫu lại

Nếu, do kết quả của phép tính, lựa chọn chia sẻ ( N ) vượt quá 5%, thì việc tính toán được thực hiện theo công thức lựa chọn không lặp lại.

Đối với một mẫu điển hình, cần phải chia tổng thể tích của tổng thể mẫu giữa các loại đơn vị đã chọn. Việc tính toán số lượng quan sát từ mỗi nhóm phụ thuộc vào tên trước đó hình thức tổ chức mẫu điển hình.

Trong việc lựa chọn đơn vị điển hình không tương xứng với số lượng nhóm, tổng số đơn vị được chọn được chia cho số nhóm, giá trị kết quả cho biết số lượng lựa chọn từ mỗi nhóm điển hình:

ở đâu k là số lượng các nhóm điển hình phân biệt.

Khi lựa chọn các đơn vị tương ứng với số lượng các nhóm điển hình, số lượng quan sát của mỗi nhóm được xác định theo công thức

kích thước mẫu từ đâu tôi -nhóm thứ; - âm lượng tôi -nhóm thứ.

Khi lựa chọn, có tính đến sự biến đổi của tính trạng, tỷ lệ phần trăm của mẫu từ mỗi nhóm phải tỷ lệ với độ lệch chuẩn trong nhóm này (). Việc tính số () được thực hiện theo công thức

Trong lựa chọn nối tiếp, số lượng sê-ri đã chọn được yêu cầu được xác định theo cách tương tự như trong lựa chọn ngẫu nhiên thích hợp:

Lựa chọn lại

Lựa chọn không lặp lại

Trong trường hợp này, các phương sai và sai số lấy mẫu có thể được tính toán cho giá trị trung bình hoặc tỷ lệ của đặc điểm.

Khi sử dụng quan sát chọn lọc, các đặc điểm của kết quả của nó có thể có trên cơ sở so sánh các giới hạn sai số thu được của các chỉ số chọn lọc với giá trị của sai số cho phép.

Về vấn đề này, vấn đề nảy sinh là xác định xác suất để sai số lấy mẫu không vượt quá sai số cho phép. Giải pháp của vấn đề này được rút gọn thành phép tính dựa trên công thức cho sai số lấy mẫu biên của đại lượng t.

Tiếp tục xem xét một ví dụ về cuộc khảo sát mẫu về tài khoản cá nhân của khách hàng ngân hàng, chúng tôi sẽ tìm ra xác suất mà có thể lập luận rằng sai số trong việc xác định quy mô tiền gửi trung bình sẽ không vượt quá 785 rúp:

độ tin cậy tương ứng là 0,95.

Hiện tại, thực hành lấy mẫu bao gồm quan sát thống kêđã tiến hành:

- xác của Rosstat;
- các bộ và ban ngành khác (ví dụ, giám sát các doanh nghiệp trong hệ thống của Ngân hàng Nga).

Khái quát kinh nghiệm nổi tiếng trong việc tổ chức các cuộc điều tra mẫu về doanh nghiệp nhỏ, dân số và hộ gia đình được trình bày trong Quy định về phương pháp luận về thống kê. Họ cho nhiều hơn khái niệm rộng quan sát mẫu hơn đã thảo luận ở trên (Bảng 5.4).

Trong thực hành thống kê, tất cả bốn loại mẫu được sử dụng, được trình bày trong Bảng. 5.4. Tuy nhiên, ưu tiên thường được ưu tiên cho các mẫu xác suất (ngẫu nhiên) được mô tả ở trên, là mẫu khách quan nhất, vì chúng có thể được sử dụng để đánh giá độ chính xác của kết quả thu được từ dữ liệu của chính mẫu đó.

Bảng 5.4

Các loại mẫu

Trong các mẫu kiểu bán ngẫu nhiên lựa chọn theo xác suất được giả định trên cơ sở chuyên gia xem xét mẫu cho rằng nó có thể chấp nhận được. Một ví dụ về việc sử dụng phương pháp chọn mẫu bán ngẫu nhiên trong thực hành thống kê là "Điều tra chọn mẫu các doanh nghiệp nhỏ để nghiên cứu các quá trình xã hội trong doanh nghiệp nhỏ ", được thực hiện vào năm 1996 tại một số vùng của Nga. Các đơn vị quan sát (doanh nghiệp nhỏ) được lựa chọn một cách chuyên nghiệp, có tính đến đại diện của các thành phần kinh tế từ mẫu khảo sát về hoạt động kinh tế tài chính của các doanh nghiệp nhỏ. (Mẫu "Thông tin về các chỉ tiêu chủ yếu hoạt động kinh tế tài chính doanh nghiệp nhỏ"). Khi tổng hợp số liệu mẫu, người ta cho rằng mẫu được hình thành theo phương pháp chọn ngẫu nhiên đơn giản.

trực tiếp sử dụng đánh giá của chuyên gia Nó là nhất phương pháp chung chủ ý đưa các đơn vị vào mẫu. Một ví dụ về phương pháp lựa chọn như vậy là phương pháp độc bản, theo nhà tổ chức khảo sát - một chuyên gia, trong đó có việc thu thập thông tin chỉ từ một đơn vị quan sát, đó là điển hình.

Các mẫu dựa trên lựa chọn hướng, được thực hiện bằng cách sử dụng một thủ tục khách quan, nhưng không sử dụng cơ chế xác suất. Phương pháp mảng chính được biết đến rộng rãi, trong đó mẫu bao gồm các đơn vị quan sát lớn nhất (đáng kể) cung cấp đóng góp chính cho chỉ số, chẳng hạn. Tổng giá trị một tính năng đại diện cho mục đích chính của cuộc khảo sát.

Trong thực hành thống kê, nó thường được sử dụng phương pháp kết hợp quan sát thống kê. Việc kết hợp các phương pháp quan sát liên tục và chọn lọc có hai khía cạnh:

luân phiên trong thời gian;
việc sử dụng chúng đồng thời (một phần dân số được quan sát liên tục và một phần - một cách có chọn lọc).

luân phiên Việc lấy mẫu định kỳ với các cuộc điều tra hoặc tổng điều tra liên tục tương đối hiếm hoi là cần thiết để làm rõ thành phần của dân số nghiên cứu. Thông tin này sau đó được sử dụng làm cơ sở thống kê quan sát có chọn lọc. Ví dụ như điều tra dân số và điều tra mẫu hộ gia đình ở giữa.

TẠI trường hợp này các nhiệm vụ sau được yêu cầu:

- xác định thành phần của các dấu hiệu quan sát liên tục, đảm bảo tổ chức của mẫu;
- chứng minh của các khoảng thời gian luân phiên, tức là khi dữ liệu liên tục không còn phù hợp và cần có chi phí để cập nhật dữ liệu đó.

Sử dụng đồng thời trong khuôn khổ của một cuộc điều tra các quan sát liên tục và mẫu là do tính không đồng nhất của các quần thể gặp phải trong thực hành thống kê. Điều này đặc biệt đúng đối với các cuộc điều tra về hoạt động kinh tế của một nhóm doanh nghiệp được đặc trưng bởi sự phân bố lệch của các đặc điểm đang nghiên cứu, khi một số đơn vị nhất định có các đặc điểm rất khác với phần lớn các giá trị. Trong trường hợp này, các đơn vị như vậy được quan sát liên tục, và phần khác của quần thể được quan sát một cách chọn lọc.

Với cách tổ chức quan sát này, các nhiệm vụ chính là:

- thiết lập tỷ lệ tối ưu của chúng;
- phát triển các phương pháp đánh giá độ chính xác của kết quả.

Một ví dụ điển hình minh họa khía cạnh này của ứng dụng phương pháp kết hợp, là một Nguyên tắc chung thực hiện điều tra dân số doanh nghiệp, theo đó điều tra dân số doanh nghiệp lớn và vừa chủ yếu theo phương pháp liên tục, doanh nghiệp nhỏ theo phương pháp mẫu.

Việc phát triển thêm phương pháp lấy mẫu được thực hiện kết hợp với việc tổ chức quan sát liên tục và thông qua việc tổ chức các cuộc điều tra đặc biệt, việc tiến hành được quyết định bởi nhu cầu lấy mẫu. thông tin thêmđể giải quyết các vấn đề cụ thể. Như vậy, việc tổ chức điều tra trong lĩnh vực điều kiện và mức sống của dân cư được thực hiện trên hai phương diện:

- các thành phần bắt buộc;
- các mô-đun bổ sung trong hệ thống tích hợp các chỉ số.

Các thành phần bắt buộc có thể là các cuộc điều tra hàng năm về thu nhập, chi tiêu và tiêu dùng (tương tự như điều tra ngân sách hộ gia đình), cũng bao gồm các chỉ số cơ bản về điều kiện sống của dân số. Hàng năm, theo một kế hoạch đặc biệt, các thành phần bắt buộc phải được bổ sung bằng các cuộc điều tra một lần (mô-đun) về điều kiện sống của dân cư, nhằm mục đích nghiên cứu sâu bất kỳ được chọn chủ đề xã hội của họ Tổng số(ví dụ: tài sản gia đình, sức khỏe, dinh dưỡng, giáo dục, điều kiện làm việc, nhà ở, giải trí, di động xã hội, bảo mật, v.v.) ở các khoảng thời gian khác nhau, được xác định bởi nhu cầu về các chỉ số và khả năng tài nguyên.

Khái niệm và cách tính sai số lấy mẫu.

Nhiệm vụ của quan sát có chọn lọc là đưa ra những ý kiến đúng đắn về các chỉ số tóm tắt của toàn bộ dân số dựa trên một số bộ phận của họ được quan sát. Độ lệch có thể có của tỷ trọng mẫu và trung bình mẫu so với tỷ trọng và trung bình trong dân số chung được gọi là lỗi lấy mẫu hoặc lỗi tính đại diện. Giá trị của sai số này càng lớn thì các chỉ số của quan sát mẫu càng khác với các chỉ số của tổng thể chung.

Khác nhau:

Sai số lấy mẫu;

Lỗi đăng ký.

Lỗi đăng ký xảy ra khi một dữ kiện được thiết lập không chính xác trong quá trình quan sát. Chúng là đặc trưng của cả quan sát liên tục và quan sát chọn lọc, nhưng chúng ít hơn trong quan sát chọn lọc.

Bản chất của lỗi là:

Có xu hướng - có chủ ý, tức là các đơn vị tốt nhất hoặc xấu nhất của tổng thể đã được chọn. Trong trường hợp này, các quan sát mất đi ý nghĩa của chúng;

Ngẫu nhiên - nguyên tắc tổ chức chính của quan sát có chọn lọc là ngăn chặn sự lựa chọn có chủ ý, tức là đảm bảo tuân thủ nghiêm ngặt nguyên tắc chọn ngẫu nhiên.

Nguyên tắc chung lựa chọn ngẫu nhiên là: các đơn vị riêng lẻ của tổng thể chung phải có các điều kiện và cơ hội hoàn toàn giống nhau để rơi vào số lượng các đơn vị có trong mẫu. Điều này thể hiện tính độc lập của kết quả mẫu so với ý muốn của người quan sát. Ý chí của người quan sát tạo ra những sai sót có xu hướng. Lỗi lấy mẫu trong lựa chọn ngẫu nhiên là nhân vật ngẫu nhiên. Nó đặc trưng cho kích thước sai lệch của các đặc tính chung so với các đặc tính mẫu.

Do thực tế là các đặc điểm trong quần thể nghiên cứu khác nhau, thành phần của các đơn vị trong mẫu có thể không trùng với thành phần của các đơn vị của toàn bộ quần thể. Nó có nghĩa là R và không phù hợp với W và . Sự khác biệt có thể có giữa các đặc điểm này được xác định bằng sai số lấy mẫu, được xác định theo công thức:

ở đâu - phương sai chung.

phương sai mẫu ở đâu.

Điều này cho thấy phương sai chung khác với phương sai mẫuđúng giờ.

Có lựa chọn lặp lại và không lặp lại. Bản chất của việc chọn lọc lại là mỗi đơn vị trong mẫu sau khi quan sát sẽ trở về tổng thể chung và có thể được kiểm tra lại. Khi lấy mẫu lại, lỗi lấy mẫu trung bình được tính:

Đối với chỉ báo về tỷ trọng của một thuộc tính thay thế, phương sai mẫu được xác định theo công thức:

Trong thực tế, lựa chọn lại hiếm khi được sử dụng. Tại không chọn lại, quy mô dân số N giảm trong quá trình lấy mẫu, công thức cho lỗi lấy mẫu trung bình cho một thuộc tính định lượng là:

, sau đó

Một trong những giá trị có thể có mà tỷ lệ của tính trạng được nghiên cứu có thể bằng:

đâu là lỗi lấy mẫu của đối tượng địa lý thay thế.

Ví dụ.

Tại khảo sát mẫu 10% sản phẩm của lô thành phẩm theo phương pháp không qua tuyển chọn lại nhận được số liệu sau về độ ẩm trong các mẫu.

Xác định độ ẩm trung bình%, phương sai, độ lệch chuẩn, với xác suất 0,954 giới hạn có thể, trong đó chúng tôi mong đợi cf. % độ ẩm của tất cả các thành phẩm, với xác suất là 0,987 giới hạn có thể trọng lượng riêng sản phẩm tiêu chuẩn, với điều kiện lô không đạt tiêu chuẩn bao gồm các sản phẩm có độ ẩm từ 13 trở lên 19%.

Chỉ với một xác suất nhất định mới có thể lập luận rằng tỷ trọng chung của tỷ trọng mẫu và giá trị trung bình chung của trung bình mẫu sai lệch trong t Một lần.

Trong thống kê, những sai lệch này được gọi là lỗi lấy mẫu biên và được đánh dấu.

Xác suất phán đoán có thể được tăng hoặc giảm trong t Một lần. Với xác suất 0,683, 0,954, 0,987, thì các chỉ tiêu của dân số chung được xác định bởi các chỉ tiêu của mẫu.

Như chúng ta đã biết, tính đại diện là thuộc tính của tổng thể mẫu để thể hiện một đặc tính của tổng thể chung. Nếu không có sự trùng khớp, chúng nói về lỗi tính đại diện - thước đo độ lệch của cấu trúc thống kê của mẫu so với cấu trúc của tổng thể chung tương ứng. Giả sử rằng thu nhập gia đình trung bình hàng tháng của những người hưu trí trong dân số nói chung là 2 nghìn rúp, và trong mẫu - 6 nghìn rúp. Điều này có nghĩa là nhà xã hội học chỉ phỏng vấn phần khá giả của những người hưu trí, và một sai sót về tính đại diện len lỏi vào nghiên cứu của ông. Nói cách khác, sai số về tính đại diện là sự khác biệt giữa hai tập hợp - tập hợp chung, mà nhà xã hội học hướng đến mối quan tâm lý thuyết và ý tưởng về các thuộc tính mà cuối cùng ông ta muốn đạt được, và tập hợp có chọn lọc. , mà nhà xã hội học hướng tới mối quan tâm thực tế, người đóng vai trò vừa là đối tượng kiểm tra vừa là phương tiện thu thập thông tin về dân số nói chung.

Cùng với thuật ngữ "lỗi tính đại diện" trong tài liệu trong nước, bạn có thể tìm thấy một thuật ngữ khác - "lỗi lấy mẫu". Đôi khi chúng được sử dụng thay thế cho nhau và đôi khi “lỗi lấy mẫu” được sử dụng thay vì “lỗi tính đại diện” như một khái niệm chính xác hơn về mặt định lượng.

Sai số chọn mẫu là độ lệch của các đặc điểm trung bình của tổng thể mẫu so với các đặc điểm trung bình của tổng thể chung.

Trong thực tế, sai số lấy mẫu được xác định bằng cách so sánh các đặc điểm đã biết của quần thể với các phương tiện mẫu. Trong xã hội học, các cuộc điều tra về dân số trưởng thành thường sử dụng dữ liệu từ các cuộc tổng điều tra dân số, hồ sơ thống kê hiện tại và kết quả của các cuộc điều tra trước đó. Các đặc điểm nhân khẩu học - xã hội thường được sử dụng làm thông số kiểm soát. So sánh giá trị trung bình của tổng thể mẫu và tổng thể mẫu, trên cơ sở này, việc xác định sai số lấy mẫu và mức giảm của nó được gọi là kiểm soát tính đại diện. Vì có thể thực hiện so sánh dữ liệu của chính mình và của người khác khi kết thúc nghiên cứu, nên phương pháp kiểm soát này được gọi là hậu nghiệm, tức là thực hiện sau khi trải nghiệm.

Trong các cuộc thăm dò của Gallup, tính đại diện được kiểm soát bởi dữ liệu có sẵn trong các cuộc điều tra dân số quốc gia về phân bố dân số theo giới tính, tuổi, học vấn, thu nhập, nghề nghiệp, chủng tộc, nơi cư trú, quy mô địa phương. Trung tâm Nghiên cứu Toàn Nga dư luận(VTsIOM) sử dụng cho các mục đích như giới tính, tuổi tác, học vấn, loại hình định cư, tình trạng hôn nhân, lĩnh vực việc làm, tình trạng chính thức của người trả lời, được mượn từ Ủy ban Nhà nước về Thống kê của Liên bang Nga. Trong cả hai trường hợp, dân số được biết đến. Lỗi lấy mẫu không thể được thiết lập nếu các giá trị của biến trong mẫu và tổng thể không xác định.

Trong quá trình phân tích dữ liệu, các chuyên gia của VTsIOM đảm bảo sửa chữa toàn diện mẫu để giảm thiểu sai lệch xảy ra trong quá trình công việc thực địa. Có sự thay đổi đặc biệt mạnh mẽ về giới tính và độ tuổi. Điều này được giải thích là do phụ nữ và những người có giáo dục đại học dành nhiều thời gian hơn ở nhà và tiếp xúc với người phỏng vấn dễ dàng hơn; là một nhóm dễ tiếp cận so với nam giới và những người “thất học” 35.

Sai số lấy mẫu do hai yếu tố: phương pháp lấy mẫu và cỡ mẫu.

Sai số lấy mẫu được chia thành hai loại - ngẫu nhiên và hệ thống. Sai số ngẫu nhiên là xác suất mà giá trị trung bình của mẫu sẽ (hoặc sẽ không) vượt quá giới hạn khoảng thời gian xác định. Sai số ngẫu nhiên bao gồm các lỗi thống kê vốn có trong chính phương pháp lấy mẫu. Chúng giảm khi kích thước mẫu tăng lên.

Loại sai số lấy mẫu thứ hai là sai số hệ thống. Nếu một nhà xã hội học quyết định tìm hiểu ý kiến của tất cả cư dân trong thành phố về sự chính quyền địa phương các cơ quan có thẩm quyền về chính sách xã hội và chỉ phỏng vấn những người có điện thoại, thì mẫu có chủ ý thiên vị ủng hộ các tầng lớp giàu có, tức là lỗi hệ thống.

Như vậy, sai số hệ thống là kết quả của hoạt động của chính người nghiên cứu. Chúng nguy hiểm nhất, vì chúng dẫn đến những sai lệch khá lớn trong kết quả của nghiên cứu. Các lỗi hệ thống được coi là tồi tệ hơn các lỗi ngẫu nhiên cũng vì chúng không thể kiểm soát và đo lường được.

Chúng phát sinh khi, ví dụ: 1) mẫu không đáp ứng được các mục tiêu của nghiên cứu (nhà xã hội học quyết định chỉ nghiên cứu những người hưu trí đang làm việc, nhưng phỏng vấn liên tiếp tất cả mọi người); 2) có sự thiếu hiểu biết về bản chất của dân số chung (nhà xã hội học nghĩ rằng 70% tổng số người hưu trí không làm việc, nhưng hóa ra chỉ có 10% không làm việc); 3) chỉ những yếu tố “chiến thắng” của dân số chung mới được lựa chọn (ví dụ, chỉ những người hưu trí giàu có).

Chú ý! Không giống như sai số ngẫu nhiên, sai số hệ thống không giảm khi kích thước mẫu tăng lên.

Tóm tắt tất cả các trường hợp khi các lỗi hệ thống xảy ra, các nhà phương pháp lập một sổ đăng ký về chúng. Họ tin rằng nguồn gốc của những sai lệch không kiểm soát được trong việc phân phối các quan sát mẫu có thể là các yếu tố sau:
♦ các quy tắc phương pháp luận và phương pháp luận để tiến hành nghiên cứu xã hội học;
♦ Phương pháp lấy mẫu, phương pháp thu thập dữ liệu và tính toán không phù hợp đã được lựa chọn;
♦ đã có sự thay thế các đơn vị quan sát cần thiết bằng những đơn vị khác, dễ tiếp cận hơn;
♦ Mức độ bao phủ của dân số lấy mẫu không đầy đủ (thiếu bảng câu hỏi, hoàn thành bảng câu hỏi không đầy đủ, không thể tiếp cận các đơn vị quan sát) đã được ghi nhận.

Các nhà xã hội học hiếm khi mắc lỗi cố ý. Thông thường, sai sót nảy sinh do nhà xã hội học không nhận thức rõ về cơ cấu dân số chung: sự phân bố dân cư theo độ tuổi, nghề nghiệp, thu nhập, v.v.

Các lỗi có hệ thống dễ ngăn ngừa hơn (so với các lỗi ngẫu nhiên), nhưng chúng rất khó loại bỏ. Tốt nhất là ngăn ngừa các sai sót có hệ thống bằng cách dự đoán chính xác các nguồn của chúng trước - ngay khi bắt đầu nghiên cứu.

Dưới đây là một số cách để tránh lỗi lấy mẫu:
♦ Mỗi đơn vị của tổng thể chung phải có xác suất được đưa vào mẫu bằng nhau;
♦ mong muốn chọn lọc từ các quần thể đồng nhất;
♦ Cần biết các đặc điểm của dân số chung;
♦ Các sai số ngẫu nhiên và hệ thống cần được tính đến khi biên dịch mẫu.

Nếu mẫu (hoặc đơn giản là mẫu) được thiết kế chính xác, thì nhà xã hội học sẽ nhận được kết quả đáng tin cậy về đặc điểm của toàn bộ dân số. Nếu nó được biên soạn không chính xác, thì sai số xảy ra ở giai đoạn chọn mẫu sẽ được nhân lên ở mỗi giai đoạn tiếp theo của nghiên cứu xã hội học và cuối cùng đạt đến giá trị lớn hơn giá trị của nghiên cứu. Người ta nói rằng nghiên cứu như vậy gây hại nhiều hơn lợi.

Những lỗi như vậy chỉ có thể xảy ra với một tập hợp mẫu. Để tránh hoặc giảm xác suất sai sót, cách dễ nhất là tăng kích thước mẫu (lý tưởng nhất là lên đến kích thước của tổng thể: khi cả hai tổng thể khớp nhau, lỗi mẫu sẽ biến mất hoàn toàn). Về mặt kinh tế, phương pháp này là không thể. Có một cách khác - để cải thiện phương pháp toán học lấy mẫu. Chúng được áp dụng trong thực tế. Đây là kênh thâm nhập đầu tiên vào xã hội học toán học. Kênh thứ hai - xử lý toán học dữ liệu.

Đặc biệt vấn đề quan trọng sai sót trở thành trong nghiên cứu tiếp thị, nơi các mẫu không quá lớn được sử dụng. Thông thường họ chiếm vài trăm, ít thường xuyên hơn - một nghìn người trả lời. Ở đây, điểm bắt đầu để tính toán mẫu là câu hỏi xác định kích thước của tổng thể mẫu. Cỡ mẫu phụ thuộc vào hai yếu tố: 1) chi phí thu thập thông tin và 2) phấn đấu ở một mức độ nhất định giá trị thống kê kết quả mà nhà nghiên cứu hy vọng sẽ thu được. Tất nhiên, ngay cả những người không có kinh nghiệm về thống kê và xã hội học cũng hiểu một cách trực giác rằng cỡ mẫu càng lớn, tức là chúng càng gần với quy mô của tổng thể nói chung thì dữ liệu thu được càng chắc chắn và đáng tin cậy. Tuy nhiên, chúng ta đã nói ở trên về khả năng thực tế không thể thực hiện được của các cuộc khảo sát hoàn chỉnh trong những trường hợp đó khi chúng được thực hiện tại các đối tượng có số lượng vượt quá hàng chục, hàng trăm nghìn và thậm chí hàng triệu. Rõ ràng rằng chi phí thu thập thông tin (bao gồm chi trả cho việc nhân rộng các công cụ, lao động của bảng câu hỏi, người quản lý thực địa và người vận hành máy tính) phụ thuộc vào số tiền mà khách hàng sẵn sàng phân bổ, và phụ thuộc rất ít vào các nhà nghiên cứu. Đối với yếu tố thứ hai, chúng tôi sẽ đi sâu vào nó chi tiết hơn một chút.

Vì vậy, kích thước mẫu càng lớn, sai số có thể xảy ra càng nhỏ. Mặc dù cần lưu ý rằng nếu bạn muốn tăng gấp đôi độ chính xác, bạn sẽ phải tăng mẫu không phải hai mà là bốn lần. Ví dụ, để làm nhiều gấp đôi ước tính chính xác dữ liệu thu được khi phỏng vấn 400 người, bạn cần phỏng vấn không phải 800 mà là 1600 người. Tuy nhiên, chưa chắc nghiên cứu tiếp thị cần chính xác 100%. Nếu một nhà sản xuất bia cần tìm ra tỷ lệ người tiêu dùng bia thích nhãn hiệu của mình hơn là nhãn hiệu của đối thủ cạnh tranh - 60% hoặc 40%, thì sự khác biệt giữa 57%, 60 hoặc 63% sẽ không ảnh hưởng đến kế hoạch của họ.

Sai số lấy mẫu có thể không chỉ phụ thuộc vào kích thước của nó mà còn phụ thuộc vào mức độ khác biệt giữa các đơn vị riêng lẻ trong tổng thể chung mà chúng tôi đang nghiên cứu. Ví dụ: nếu chúng ta muốn biết lượng bia được tiêu thụ, thì chúng ta thấy rằng trong dân số của chúng ta, tỷ lệ tiêu thụ cho những người khác nhau khác nhau đáng kể (quần thể chung không đồng nhất). Trong một trường hợp khác, chúng tôi sẽ nghiên cứu việc tiêu thụ bánh mì và thấy rằng người khác nó khác biệt ít hơn nhiều (dân số đồng nhất). Sự khác biệt (hoặc không đồng nhất) trong quần thể càng lớn, thì lượng lỗi lấy mẫu có thể có càng lớn. Sự đều đặn này chỉ xác nhận những gì đơn giản ý thức chung. Vì vậy, như V. Yadov đã phát biểu đúng, “kích thước (khối lượng) của mẫu phụ thuộc vào mức độ đồng nhất hoặc không đồng nhất của các đối tượng được nghiên cứu. Chúng càng đồng nhất, số lượng càng nhỏ có thể cung cấp các kết luận đáng tin cậy về mặt thống kê.

Việc xác định cỡ mẫu cũng phụ thuộc vào mức độ khoảng tin cậy của sai số thống kê cho phép. Ở đây chúng tôi muốn nói đến cái gọi là lỗi ngẫu nhiên, có liên quan đến bản chất của bất kỳ lỗi thống kê nào. TRONG VA. Paniotto đưa ra các phép tính sau mẫu đại diện với giả định lỗi 5%:
Điều này có nghĩa là nếu bạn, sau khi phỏng vấn, chẳng hạn, 400 người ở một thành phố huyện, nơi dân số trưởng thành là 100 nghìn người, nhận thấy rằng 33% người mua được khảo sát thích sản phẩm của một nhà máy chế biến thịt địa phương, thì với 95 % xác suất bạn có thể nói rằng 33 + 5% (tức là từ 28 đến 38%) cư dân của thành phố này là người mua thường xuyên các sản phẩm này.

Bạn cũng có thể sử dụng tính toán của Gallup để ước tính tỷ lệ giữa kích thước mẫu và lỗi lấy mẫu.