Dữ liệu mẫu. Lấy mẫu thống kê

các loại mẫu:

Thực ra-ngẫu nhiên;

Cơ khí;

đặc trưng;

nối tiếp;

kết hợp.

Lấy mẫu tự ngẫu nhiên là chọn các đơn vị từ dân số một cách ngẫu nhiên hoặc ngẫu nhiên mà không có bất kỳ yếu tố thống nhất nào. Tuy nhiên, trước khi thực hiện lựa chọn ngẫu nhiên thích hợp, cần đảm bảo rằng tất cả các đơn vị của tổng thể chung, không có ngoại lệ, đều có cơ hội lọt vào mẫu hoàn toàn như nhau, không có khoảng trống trong danh sách hoặc danh sách, bỏ qua các đơn vị riêng lẻ, v.v. Ranh giới rõ ràng cũng nên được thiết lập cho dân số để không nghi ngờ gì về việc đưa vào hoặc loại trừ các đơn vị riêng lẻ. Vì vậy, ví dụ, khi kiểm tra học sinh, cần chỉ ra liệu những người ở nghỉ học, sinh viên đại học ngoài công lập, trường quân sự, v.v.; khi khảo sát các cơ sở thương mại, điều quan trọng là phải xác định xem dân số nói chung sẽ bao gồm gian hàng thương mại, lều thương mại và các đồ vật tương tự khác. Tự chọn ngẫu nhiên có thể lặp lại và không lặp lại. Vì lựa chọn không lặp lại trong quá trình bốc thăm, các lô đã bốc thăm không được trả về bộ ban đầu và không tham gia vào việc lựa chọn tiếp theo. Khi sử dụng bảng Số ngẫu nhiên lựa chọn không lặp lại đạt được bằng cách bỏ qua các số nếu chúng được lặp lại trong cột hoặc các cột đã chọn.

lấy mẫu cơ họcđược sử dụng trong trường hợp dân số nói chung được sắp xếp theo cách nào đó, tức là có một trình tự nhất định trong việc sắp xếp các đơn vị (số lượng biên chế của nhân viên, danh sách cử tri, số điện thoại người trả lời, số nhà và căn hộ, v.v.).

Quần thể chung trong quá trình chọn lọc cơ học có thể được xếp hạng hoặc sắp xếp theo giá trị của tính trạng đang được nghiên cứu hoặc tương quan với nó, điều này sẽ làm tăng tính đại diện của mẫu. Tuy nhiên, trong trường hợp này, nguy cơ xảy ra lỗi hệ thống tăng lên, liên quan đến việc đánh giá thấp các giá trị của đặc điểm được nghiên cứu (nếu giá trị đầu tiên được ghi lại từ mỗi khoảng thời gian) hoặc đánh giá quá cao (nếu giá trị cuối cùng). Do đó, nên bắt đầu lựa chọn từ giữa khoảng thời gian đầu tiên

lựa chọn tiêu biểu. Phương pháp lựa chọn này được sử dụng trong trường hợp tất cả các đơn vị của tổng thể có thể được chia thành một số nhóm điển hình. Trong một cuộc điều tra dân số, các nhóm như vậy có thể, ví dụ, quận, xã hội, độ tuổi hoặc nhóm giáo dục, khi khảo sát các doanh nghiệp - ngành hoặc phân ngành, hình thức sở hữu, v.v. Lựa chọn điển hình liên quan đến việc lựa chọn các đơn vị từ mỗi nhóm điển hình theo cách hoàn toàn ngẫu nhiên hoặc máy móc. Bởi vì trong khung lấy mẫuđại diện của tất cả các nhóm nhất thiết phải giảm theo tỷ lệ này hay tỷ lệ khác, việc tiêu biểu hóa dân số nói chung giúp loại trừ ảnh hưởng phương sai giữa các nhóm trên lỗi trung bình mẫu, trong trường hợp này chỉ được xác định bởi biến thể nội nhóm.

Việc lựa chọn các đơn vị trong một mẫu điển hình có thể được sắp xếp theo tỷ lệ với khối lượng của các nhóm điển hình hoặc theo tỷ lệ với sự khác biệt giữa các nhóm của một tính trạng.

lựa chọn nối tiếp. Phương pháp lựa chọn này thuận tiện trong trường hợp các đơn vị dân số được nhóm thành các nhóm hoặc chuỗi nhỏ. Theo loạt như vậy, các gói có một lượng thành phẩm nhất định, lô hàng, nhóm sinh viên, lữ đoàn và các hiệp hội khác. Bản chất của lấy mẫu nối tiếp nằm ở việc lựa chọn loạt ngẫu nhiên hoặc cơ học thực tế, trong đó một cuộc khảo sát đầy đủ các đơn vị được thực hiện.

Điều thường xảy ra là cần phải phân tích một hiện tượng xã hội cụ thể và thu thập thông tin về nó. Những nhiệm vụ như vậy thường phát sinh trong thống kê và nghiên cứu thống kê. Việc xác minh một hiện tượng xã hội được xác định đầy đủ thường là không thể. Ví dụ, làm thế nào để tìm hiểu ý kiến của người dân hoặc tất cả cư dân của một thành phố nhất định về bất kỳ vấn đề nào? Yêu cầu tất cả mọi người là gần như không thể và rất mất thời gian. Trong những trường hợp như vậy, chúng tôi cần một mẫu. Đây chính xác là khái niệm mà hầu hết các nghiên cứu và phân tích đều dựa vào.

mẫu là gì

Khi phân tích cụ thể Hiện tượng xã hội cần lấy thông tin về nó. Nếu tham gia một nghiên cứu nào đó, chúng ta có thể thấy rằng không phải đơn vị nào trong tổng thể của đối tượng nghiên cứu cũng là đối tượng nghiên cứu và phân tích. Chỉ một phần nhất định của tổng thể này được tính đến. Quá trình này là lấy mẫu: khi chỉ một số đơn vị nhất định từ tập hợp được kiểm tra.

Tất nhiên, phần lớn phụ thuộc vào loại mẫu. Nhưng cũng có những quy tắc cơ bản. Cái chính nói rằng việc lựa chọn từ dân số phải hoàn toàn ngẫu nhiên. Các đơn vị dân số được sử dụng không nên được lựa chọn dựa trên bất kỳ tiêu chí nào. Nói một cách đại khái, nếu cần thu thập dân số từ dân số của một thành phố nhất định và chỉ chọn nam giới, thì sẽ có lỗi trong nghiên cứu, vì việc lựa chọn không được thực hiện ngẫu nhiên mà được chọn theo giới tính. Hầu như tất cả các phương pháp lấy mẫu đều dựa trên quy tắc này.

Quy tắc lấy mẫu

Để tập hợp được chọn phản ánh những phẩm chất chính của toàn bộ hiện tượng, nó phải được xây dựng theo các quy luật cụ thể, trong đó cần chú ý chính đến các loại sau:

mẫu (dân số mẫu);
dân số nói chung;
tính đại diện;
lỗi đại diện;
đơn vị dân số;
Phương pháp xét nghiệm.

đặc thù quan sát chọn lọc và lấy mẫu như sau:

Tất cả các kết quả thu được đều dựa trên các định luật và quy tắc toán học, nghĩa là với việc thực hiện đúng nghiên cứu và tính toán chính xác, kết quả sẽ không bị sai lệch trên cơ sở chủ quan
Nó giúp bạn có thể đạt được kết quả nhanh hơn nhiều với ít thời gian và nguồn lực hơn, không nghiên cứu toàn bộ mảng sự kiện mà chỉ một phần của chúng.
Có thể được sử dụng để nghiên cứu các đối tượng khác nhau: từ vấn đề cụ thể, ví dụ, tuổi tác, giới tính của nhóm quan tâm đến chúng tôi, để nghiên cứu dư luận hay mức độ hỗ trợ vật chất của dân cư.

quan sát có chọn lọc

chọn lọc là quan sát thống kê, trong đó không phải toàn bộ tập hợp những gì đang được nghiên cứu được nghiên cứu mà chỉ một phần của nó, được chọn theo một cách nhất định và kết quả nghiên cứu phần này áp dụng cho toàn bộ tập hợp. Phần này được gọi là khung lấy mẫu. nó cách duy nhất nghiên cứu một mảng lớn đối tượng nghiên cứu.

Nhưng quan sát chọn lọc chỉ có thể được sử dụng trong trường hợp chỉ cần điều tra nhóm nhỏ các đơn vị. Ví dụ, khi nghiên cứu tỷ lệ nam nữ trên thế giới, quan sát chọn lọc sẽ được sử dụng. Vì những lý do rõ ràng, không thể tính đến mọi cư dân trên hành tinh của chúng ta.

Tuy cùng nghiên cứu nhưng không phải toàn bộ cư dân trên trái đất mà là 2 hạng "A" nào đó trong trường học cụ thể, một thành phố nào đó, một quốc gia nào đó, có thể làm mà không cần quan sát ngẫu nhiên. Rốt cuộc, hoàn toàn có thể phân tích toàn bộ mảng của đối tượng nghiên cứu. Cần phải đếm số nam và nữ của lớp này - đó sẽ là tỷ lệ.

Mẫu và dân số

Nó thực sự không khó như nó có vẻ. Trong bất kỳ đối tượng nghiên cứu nào cũng có hai hệ thống: dân số chung và dân số mẫu. Nó là gì? Tất cả các đơn vị thuộc về chung. Và đối với mẫu - những đơn vị trong tổng dân số được lấy làm mẫu. Nếu mọi thứ được thực hiện chính xác, thì phần được chọn sẽ là bố cục giảm của toàn bộ dân số (chung).

Nếu chúng ta nói về dân số nói chung, thì chúng ta chỉ có thể phân biệt hai loại của nó: dân số chung xác định và không xác định. Phụ thuộc vào việc tổng số đơn vị của một hệ thống nhất định có được biết hay không. Nếu đây là một quần thể nhất định, thì việc lấy mẫu sẽ dễ dàng hơn do thực tế là đã biết bao nhiêu phần trăm toàn bộđơn vị sẽ được lấy mẫu.

Thời điểm này là rất cần thiết trong nghiên cứu. Ví dụ: nếu cần điều tra tỷ lệ phần trăm sản phẩm bánh kẹo kém chất lượng tại một nhà máy cụ thể. Giả sử rằng dân số đã được xác định. Được biết, doanh nghiệp này sản xuất 1000 sản phẩm bánh kẹo mỗi năm. Nếu chúng ta lấy mẫu ngẫu nhiên 100 sản phẩm bánh kẹo từ hàng nghìn sản phẩm này và gửi đi kiểm tra thì sai số sẽ là nhỏ nhất. Nói một cách đại khái, 10% trong số tất cả các sản phẩm đã được nghiên cứu và dựa trên kết quả, có tính đến lỗi đại diện, chúng ta có thể nói về chất lượng kém của tất cả các sản phẩm.

Và nếu bạn lấy một mẫu gồm 100 sản phẩm bánh kẹo từ một quần thể chung không xác định, trong đó thực tế có 1 triệu đơn vị, thì kết quả của mẫu và bản thân nghiên cứu sẽ cực kỳ khó tin và không chính xác. Cảm nhận sự khác biệt? Vì vậy, độ chắc chắn của tổng thể trong hầu hết các trường hợp là vô cùng quan trọng và ảnh hưởng lớn đến kết quả nghiên cứu.

tính đại diện dân số

Vì vậy, bây giờ một trong những câu hỏi quan trọng nhất - mẫu nên là gì? Đây là nhiều nhất điểm chính nghiên cứu. Ở giai đoạn này, cần tính toán mẫu và chọn các đơn vị từ Tổng số vào cô ấy. Dân số được chọn chính xác nếu một số tính năng và đặc điểm của dân số nói chung vẫn còn trong mẫu. Điều này được gọi là tính đại diện.

Nói cách khác, nếu sau khi lựa chọn, một phần vẫn giữ nguyên xu hướng và đặc điểm như toàn bộ số lượng được kiểm tra, thì dân số đó được gọi là đại diện. Nhưng không phải mọi mẫu cụ thể đều có thể được chọn từ một quần thể đại diện. Cũng có những đối tượng nghiên cứu như vậy, mẫu đơn giản là không thể mang tính đại diện. Đây là nơi xuất phát khái niệm về lỗi đại diện. Nhưng hãy nói về điều này nhiều hơn một chút.

Cách thực hiện lựa chọn

Vì vậy, để tối đa hóa tính đại diện, có ba quy tắc lấy mẫu cơ bản:

Lỗi (lỗi) về tính đại diện

Đặc điểm chính chất lượng của mẫu được chọn là khái niệm "sai số đại diện". Nó là gì? Đây là những khác biệt nhất định giữa các chỉ số quan sát chọn lọc và liên tục. Theo các chỉ số lỗi, tính đại diện được chia thành đáng tin cậy, thông thường và gần đúng. Nói cách khác, độ lệch tương ứng lên tới 3%, từ 3 đến 10% và từ 10 đến 20% là có thể chấp nhận được. Mặc dù trong thống kê, mong muốn sai số không vượt quá 5-6%. Mặt khác, có lý do để nói về tính đại diện không đầy đủ của mẫu. Để tính toán lỗi đại diện và cách nó ảnh hưởng đến một mẫu hoặc dân số, nhiều yếu tố được tính đến:

Xác suất để có được kết quả chính xác.
Số đơn vị lấy mẫu. Như đã đề cập trước đó, số lượng đơn vị trong mẫu càng nhỏ thì sai số về tính đại diện càng lớn và ngược lại.
Tính đồng nhất của quần thể nghiên cứu. Dân số càng không đồng nhất, sai số đại diện sẽ càng lớn. Khả năng mang tính đại diện của một quần thể phụ thuộc vào tính đồng nhất của tất cả các đơn vị cấu thành nó.
Một phương pháp lựa chọn các đơn vị trong quần thể mẫu.

trong bê tông nghiên cứu được giao sai số phần trăm của giá trị trung bình thường do nhà nghiên cứu đặt ra trên cơ sở chương trình quan sát và theo dữ liệu của các nghiên cứu trước đó. Theo quy định, lỗi lấy mẫu tối đa (sai số đại diện) trong khoảng 3-5% được coi là chấp nhận được.

Hơn không phải là luôn luôn tốt hơn

Cũng cần nhớ rằng điều chính trong việc tổ chức quan sát có chọn lọc là đưa khối lượng của nó đến mức tối thiểu có thể chấp nhận được. Đồng thời, không nên cố gắng giảm quá mức các giới hạn lỗi lấy mẫu, vì điều này có thể dẫn đến sự gia tăng không chính đáng về lượng dữ liệu mẫu và do đó, làm tăng chi phí lấy mẫu.

Đồng thời, kích thước của lỗi đại diện không nên tăng quá mức. Rốt cuộc, trong trường hợp này, mặc dù kích thước mẫu sẽ giảm, nhưng điều này sẽ dẫn đến suy giảm độ tin cậy của kết quả thu được.

Những câu hỏi thường được hỏi bởi các nhà nghiên cứu?

Bất kỳ nghiên cứu nào, nếu được thực hiện, đều nhằm mục đích nào đó và để thu được kết quả nào đó. Khi tiến hành nghiên cứu mẫu thường được thiết lập câu hỏi ban đầu:

Phương pháp chọn đơn vị nghiên cứu trong mẫu

Không phải mọi mẫu là đại diện. Đôi khi một và cùng một dấu hiệu được thể hiện khác nhau trong toàn bộ và một phần của nó. Để đạt được các yêu cầu về tính đại diện, nên sử dụng các phương pháp lấy mẫu khác nhau. Hơn nữa, việc sử dụng phương pháp này hay phương pháp khác phụ thuộc vào các trường hợp cụ thể. Một số phương pháp lấy mẫu này bao gồm:

lựa chọn ngẫu nhiên;
lựa chọn cơ khí;
bình chọn điển hình;
lựa chọn nối tiếp (lồng nhau).

Lựa chọn ngẫu nhiên là một hệ thống các hoạt động nhằm lựa chọn ngẫu nhiên các đơn vị dân số, khi xác suất được đưa vào mẫu là bằng nhau đối với tất cả các đơn vị của tổng thể. Kỹ thuật này chỉ nên áp dụng trong trường hợp đồng nhất và một số ít các tính năng vốn có của nó. Nếu không, một số đặc điểm tính cách rủi ro không được đưa vào mẫu. Các tính năng của lựa chọn ngẫu nhiên làm cơ sở cho tất cả các phương pháp lấy mẫu khác.

Với việc lựa chọn đơn vị cơ học được thực hiện trong một khoảng thời gian nhất định. Nếu cần thiết lập một mẫu tội phạm cụ thể, có thể loại bỏ mọi thẻ thứ 5, 10 hoặc 15 khỏi tất cả các hồ sơ thống kê về các tội phạm được ghi lại, tùy thuộc vào tổng số lượng và kích thước mẫu có sẵn. Nhược điểm của phương pháp này là trước khi lựa chọn, cần phải có một tài khoản đầy đủ về các đơn vị dân số, sau đó cần tiến hành xếp hạng và chỉ sau đó mới có thể lấy mẫu trong một khoảng thời gian nhất định. Phương pháp này mất nhiều thời gian nên không thường được sử dụng.

Lựa chọn điển hình (khu vực hóa) - một loại mẫu trong đó dân số nói chung được chia thành nhóm đồng nhất trên một cơ sở nhất định. Đôi khi các nhà nghiên cứu sử dụng các thuật ngữ khác thay vì "nhóm": "quận" và "khu vực". Sau đó, một số đơn vị nhất định được chọn ngẫu nhiên từ mỗi nhóm theo tỷ lệ trọng lượng riêng nhóm trong quần thể chung. Một lựa chọn điển hình thường được thực hiện trong một số giai đoạn.

Lấy mẫu nối tiếp là một phương pháp trong đó việc lựa chọn các đơn vị được thực hiện theo nhóm (sê-ri) và tất cả các đơn vị của nhóm (sê-ri) đã chọn đều phải kiểm tra. Ưu điểm của phương pháp này là đôi khi việc chọn các đơn vị riêng lẻ khó khăn hơn so với hàng loạt, chẳng hạn như khi nghiên cứu một người đang thụ án. Trong các khu vực, khu vực đã chọn, việc nghiên cứu tất cả các đơn vị không có ngoại lệ được áp dụng, ví dụ, nghiên cứu về tất cả những người đang thụ án trong một cơ sở cụ thể.

Ước tính khoảng thời gian của xác suất sự kiện. Công thức tính số mẫu trong trường hợp chọn theo phương pháp ngẫu nhiên.

Để xác định xác suất của các sự kiện mà chúng tôi quan tâm, chúng tôi sử dụng phương pháp lấy mẫu: chúng tôi thực hiện N các thí nghiệm độc lập, trong mỗi biến cố A có thể xảy ra (hoặc không xảy ra) (xác suất r xuất hiện biến cố A trong mỗi thí nghiệm là không đổi). Khi đó tần suất tương đối p* của các lần xuất hiện sự kiện NHƯNG trong một loạt N các bài kiểm tra được chấp nhận như ước tính điểm cho xác suất P sự xuất hiện của một sự kiện NHƯNG trong một thử nghiệm riêng biệt. Trong trường hợp này, giá trị p* được gọi là chia sẻ mẫu sự kiện xảy ra NHƯNG, và r - chia sẻ chung .

Nhờ một hệ quả tất yếu từ trung tâm định lý giới hạn(Định lý Moivre-Laplace) tần suất tương đối của một sự kiện với cỡ mẫu lớn có thể được coi là phân phối chuẩn với các tham số M(p*)=p và

Do đó, với n>30 khoảng tin cậy cho phần chung có thể được xây dựng bằng cách sử dụng các công thức:

trong đó u cr được tìm thấy theo các bảng của hàm Laplace, có tính đến xác suất tin cậy đã cho γ: 2Ф(u cr)=γ.

Với cỡ mẫu nhỏ n≤30, sai số biên ε được xác định từ bảng phân phối Student:
trong đó t cr =t(k; α) và số bậc tự do k=n-1 xác suất α=1-γ (diện tích hai mặt).

Các công thức hợp lệ nếu việc lựa chọn được thực hiện ngẫu nhiên theo cách lặp lại (dân số chung là vô hạn), nếu không thì cần phải hiệu chỉnh đối với lựa chọn không lặp lại (bảng).

Lỗi lấy mẫu trung bình cho tỷ lệ chung

Dân số	Bất tận	khối lượng cuối cùng N
loại lựa chọn	Lặp đi lặp lại	không lặp lại
Lỗi lấy mẫu trung bình

Công thức tính cỡ mẫu theo phương pháp chọn ngẫu nhiên hợp lý

phương pháp lựa chọn	công thức cỡ mẫu
	cho giữa	để chia sẻ
Lặp đi lặp lại
không lặp lại

Vấn đề về chia sẻ chung

Đối với câu hỏi "Giá trị đã cho của p 0 có bao gồm khoảng tin cậy không?" - có thể được trả lời bằng cách kiểm tra giả thuyết thống kê H 0:p=p 0 . Người ta cho rằng các thí nghiệm được thực hiện theo sơ đồ thử nghiệm Bernoulli (độc lập, xác suất P sự xuất hiện của một sự kiện NHƯNG không thay đổi). Theo khối lượng mẫu N xác định tần suất tương đối p * xảy ra sự kiện A: trong đó tôi- số lần xuất hiện của sự kiện NHƯNG trong một loạt N các bài kiểm tra. Để kiểm tra giả thuyết H 0, số liệu thống kê được sử dụng, với cỡ mẫu đủ lớn, có tiêu chuẩn phân phối bình thường(Bảng 1).
Bảng 1 - Các giả thuyết về thị phần chung

giả thuyết	H0:p=p0	H 0:p 1 \u003d p 2
giả định	Sơ đồ kiểm định Bernoulli	Sơ đồ kiểm định Bernoulli
ước tính mẫu
Số liệu thống kê K
phân phối thống kê K		Tiêu chuẩn bình thường N(0,1)

Ví dụ 1. Sử dụng phương pháp lấy mẫu lại ngẫu nhiên, ban quản lý của công ty đã tiến hành một cuộc khảo sát ngẫu nhiên đối với 900 nhân viên của công ty. Có 270 phụ nữ trong số những người được hỏi. Vẽ một khoảng tin cậy, với xác suất 0,95, bao gồm tỷ lệ thực sự của phụ nữ trong toàn bộ nhóm của công ty.
Dung dịch. Theo điều kiện, tỷ lệ phụ nữ trong mẫu là (tần suất tương đối của phụ nữ trong số tất cả những người được hỏi). Do việc lựa chọn được lặp lại và cỡ mẫu lớn (n=900) nên sai số lấy mẫu biên được xác định theo công thức

Giá trị của u cr được tìm thấy từ bảng hàm Laplace từ quan hệ 2Ф(u cr)=γ, tức là Hàm Laplace (Phụ lục 1) nhận giá trị 0,475 tại u cr =1,96. Do đó, sai số cận biên và khoảng tin cậy mong muốn
(p – ε, p + ε) = (0,3 – 0,18; 0,3 + 0,18) = (0,12; 0,48)
Vì vậy, với xác suất 0,95, có thể đảm bảo rằng tỷ lệ phụ nữ trong toàn bộ đội ngũ của công ty nằm trong khoảng từ 0,12 đến 0,48.

Ví dụ #2. Chủ bãi đỗ xe coi ngày đó là "may mắn" nếu bãi đỗ xe chật kín hơn 80%. Trong năm, đã thực hiện 40 cuộc kiểm tra bãi đỗ xe, trong đó có 24 cuộc “thành công”. Với xác suất 0,98, hãy tìm khoảng tin cậy để ước tính tỷ lệ phần trăm thực sự của những ngày "may mắn" trong năm.
Dung dịch. Tỷ lệ mẫu của những ngày “tốt” là
Theo bảng hàm Laplace ta tìm được giá trị của u cr ứng với một
mức độ tự tin
Ф(2,23) = 0,49, u cr = 2,33.
Xem xét lựa chọn không lặp lại (nghĩa là hai lần kiểm tra không được thực hiện trong cùng một ngày), chúng tôi tìm thấy lỗi biên:
trong đó n=40 , N = 365 (ngày). Từ đây
và khoảng tin cậy cho phân số chung: (p – ε, p + ε) = (0,6 – 0,17; 0,6 + 0,17) = (0,43; 0,77)
Với xác suất 0,98, có thể dự đoán rằng tỷ lệ ngày "tốt" trong năm nằm trong khoảng từ 0,43 đến 0,77.

Ví dụ #3. Sau khi kiểm tra 2500 mặt hàng trong lô, họ thấy rằng 400 mặt hàng thuộc loại cao nhất, nhưng n–m thì không. Bạn cần kiểm tra bao nhiêu sản phẩm để xác định tỷ trọng của loại cao cấp với độ chính xác 0,01 với độ chắc chắn 95%?
Ta đang tìm lời giải theo công thức xác định cỡ mẫu để chọn lại.

Ф(t) = γ/2 = 0,95/2 = 0,475 và theo bảng Laplace giá trị này tương ứng với t=1,96
Phân số mẫu w = 0,16; lỗi lấy mẫu ε = 0,01

Ví dụ #4. Một lô sản phẩm được chấp nhận nếu xác suất sản phẩm đạt tiêu chuẩn ít nhất là 0,97. Trong số 200 sản phẩm được chọn ngẫu nhiên của lô kiểm tra, có 193 sản phẩm đạt tiêu chuẩn. Có thể chấp nhận lô ở mức ý nghĩa α=0,02 không?
Dung dịch. Chúng tôi xây dựng các giả thuyết chính và thay thế.
H 0: p \u003d p 0 \u003d 0,97 - chia sẻ chung chưa biết P bằng đặt giá trị p0 =0,97. Liên quan đến điều kiện - xác suất mà bộ phận từ lô được thử nghiệm sẽ phù hợp với tiêu chuẩn là 0,97; những thứ kia. lô sản phẩm có thể được chấp nhận.
H1:p<0,97 - вероятность того, что деталь из проверяемой партии окажется соответствующей стандарту, меньше 0.97; т.е. партию изделий нельзя принять. При такой альтернативной гипотезе критическая область будет левосторонней.
Giá trị thống kê quan sát được K(bảng) tính cho các giá trị đã cho p 0 =0,97, n=200, m=193

Giá trị quan trọng được tìm thấy từ bảng của hàm Laplace từ đẳng thức

Theo điều kiện α=0,02, do đó F(Kcr)=0,48 và Kcr=2,05. Khu vực quan trọng là thuận tay trái, tức là là khoảng (-∞;-K kp)= (-∞;-2,05). Giá trị quan sát Kobs = -0,415 không thuộc vùng tới hạn nên với mức ý nghĩa này không có lý do gì để bác bỏ giả thuyết chính. Một lô sản phẩm có thể được chấp nhận.

Ví dụ số 5. Hai nhà máy sản xuất cùng một loại phụ tùng. Để đánh giá chất lượng, người ta đã lấy mẫu sản phẩm của các nhà máy này và thu được kết quả như sau. Trong số 200 sản phẩm được chọn của nhà máy thứ nhất có 20 sản phẩm bị lỗi và trong số 300 sản phẩm của nhà máy thứ hai có 15 sản phẩm bị lỗi.
Với mức ý nghĩa 0,025, hãy tìm xem liệu có sự khác biệt đáng kể về chất lượng của các bộ phận được sản xuất bởi các nhà máy này hay không.

Theo điều kiện α=0,025, do đó F(Kcr)=0,4875 và Kcr=2,24. Với phương án hai phía, tích các giá trị chấp nhận được có dạng (-2,24; 2,24). Giá trị quan sát được Kobs =2,15 nằm trong khoảng này, tức là ở mức ý nghĩa này, không có lý do gì để bác bỏ giả thuyết chính. Các nhà máy sản xuất các sản phẩm có chất lượng như nhau.

Kế hoạch

Giới thiệu
1. Vai trò của lấy mẫu
Sự kết luận
Thư mục

Giới thiệu

Thống kê là một khoa học phân tích cần thiết cho tất cả các chuyên gia hiện đại. Một chuyên gia hiện đại không thể biết chữ nếu anh ta không sở hữu phương pháp thống kê. Thống kê là công cụ giao tiếp quan trọng nhất giữa doanh nghiệp và xã hội. Thống kê là một trong những bộ môn quan trọng nhất trong chương trình giảng dạy của tất cả các chuyên ngành. kiến thức thống kê là một phần không thể thiếu của giáo dục đại học và về số giờ được phân bổ trong chương trình giảng dạy, nó chiếm một trong những vị trí đầu tiên. Làm việc với các số liệu, mỗi chuyên gia phải biết cách thu được một số dữ liệu nhất định, bản chất tính toán của chúng là gì, mức độ đầy đủ và đáng tin cậy của chúng.

1. Vai trò của lấy mẫu

Tập hợp tất cả các đơn vị tổng thể có một thuộc tính nhất định và là đối tượng nghiên cứu được gọi là tổng thể chung trong thống kê.

Trong thực tế, vì lý do này hay lý do khác, không phải lúc nào cũng có thể hoặc không thực tế để xem xét toàn bộ dân số. Sau đó, họ chỉ giới hạn nghiên cứu một phần của nó, mục tiêu cuối cùng là mở rộng kết quả thu được cho toàn bộ dân số nói chung, tức là. sử dụng phương pháp chọn mẫu.

Để làm điều này, một phần của các yếu tố, cái gọi là mẫu, được chọn từ dân số nói chung theo một cách đặc biệt và kết quả xử lý dữ liệu mẫu (ví dụ: trung bình số học) được khái quát hóa cho toàn bộ dân số.

Cơ sở lý thuyết của phương pháp chọn mẫu là quy luật số lớn. Theo định luật này, với sự phân tán hạn chế của một đặc điểm trong tổng thể chung và một mẫu đủ lớn với xác suất gần với độ tin cậy hoàn toàn, giá trị trung bình của mẫu có thể gần với giá trị trung bình chung một cách tùy ý. Định luật này, bao gồm một nhóm các định lý, đã được chứng minh một cách chặt chẽ về mặt toán học. Do đó, trung bình cộng được tính cho mẫu có thể được coi là một chỉ số đặc trưng cho toàn bộ dân số nói chung.

2. Phương pháp lựa chọn xác suất đảm bảo tính đại diện

Để có thể rút ra kết luận về các thuộc tính của tổng thể từ mẫu, mẫu phải mang tính đại diện (đại diện), tức là nó phải đại diện đầy đủ và thỏa đáng các thuộc tính của dân số nói chung. Tính đại diện của mẫu chỉ có thể được đảm bảo nếu việc lựa chọn dữ liệu là khách quan.

Bộ mẫu được hình thành theo nguyên tắc của các quy trình xác suất hàng loạt mà không có bất kỳ ngoại lệ nào đối với sơ đồ lựa chọn được chấp nhận; cần đảm bảo tính đồng nhất tương đối của mẫu hoặc sự phân chia của nó thành các nhóm đơn vị đồng nhất. Khi hình thành quần thể mẫu, cần đưa ra định nghĩa rõ ràng về đơn vị lấy mẫu. Kích thước xấp xỉ của các đơn vị lấy mẫu là mong muốn và kết quả sẽ chính xác hơn, đơn vị lấy mẫu càng nhỏ.

Có thể có ba phương pháp lựa chọn: lựa chọn ngẫu nhiên, lựa chọn các đơn vị theo một sơ đồ nhất định, kết hợp phương pháp thứ nhất và phương pháp thứ hai.

Nếu việc lựa chọn theo sơ đồ được chấp nhận được thực hiện từ dân số chung, trước đó được chia thành các loại (lớp hoặc tầng), thì mẫu đó được gọi là mẫu điển hình (hoặc phân tầng, hoặc phân tầng hoặc phân vùng). Một sự phân chia khác của mẫu theo loài được xác định bởi đơn vị lấy mẫu là gì: đơn vị quan sát hoặc một loạt đơn vị (đôi khi thuật ngữ "tổ" được sử dụng). Trong trường hợp sau, mẫu được gọi là nối tiếp hoặc lồng nhau. Trong thực tế, sự kết hợp của một mẫu điển hình với lựa chọn hàng loạt thường được sử dụng. Trong thống kê toán học, khi thảo luận về vấn đề lựa chọn dữ liệu, cần phải giới thiệu việc chia mẫu thành lặp lại và không lặp lại. Cái đầu tiên tương ứng với sơ đồ của một quả bóng có thể trả lại, cái thứ hai - không thể thu hồi (khi xem xét quá trình chọn dữ liệu trên ví dụ chọn các quả bóng có màu khác nhau từ bình). Trong thống kê kinh tế xã hội, việc sử dụng lấy mẫu lặp lại là vô nghĩa, do đó, theo quy định, lấy mẫu không lặp lại có nghĩa là.

Vì các đối tượng kinh tế xã hội có cấu trúc phức tạp nên việc sắp xếp một mẫu có thể khá khó khăn. Ví dụ: để chọn các hộ gia đình khi nghiên cứu mức tiêu dùng của dân số một thành phố lớn, trước tiên sẽ dễ dàng chọn các ô lãnh thổ, tòa nhà dân cư, sau đó là căn hộ hoặc hộ gia đình, sau đó là người trả lời. Một mẫu như vậy được gọi là nhiều tầng. Ở mỗi giai đoạn, các đơn vị lấy mẫu khác nhau được sử dụng: lớn hơn ở giai đoạn đầu, ở giai đoạn cuối, đơn vị chọn trùng với đơn vị quan sát.

Một kiểu quan sát mẫu khác là lấy mẫu nhiều pha. Một mẫu như vậy bao gồm một số giai đoạn nhất định, mỗi giai đoạn khác nhau về chi tiết của chương trình quan sát. Ví dụ, 25% toàn bộ dân số được điều tra theo một chương trình ngắn, cứ 4 đơn vị trong mẫu này được điều tra theo một chương trình hoàn chỉnh hơn, v.v.

Đối với bất kỳ loại mẫu nào, việc lựa chọn các đơn vị được thực hiện theo ba cách. Hãy xem xét một thủ tục lựa chọn ngẫu nhiên. Trước hết, một danh sách các đơn vị dân số được biên soạn, trong đó mỗi đơn vị được gán một mã kỹ thuật số (số hoặc nhãn). Sau đó, một trận hòa được thực hiện. Các quả bóng có số tương ứng được đặt vào trống, chúng được trộn lẫn và các quả bóng được chọn. Các số đã giảm tương ứng với các đơn vị trong mẫu; số lượng bằng cỡ mẫu dự kiến.

Lựa chọn bốc thăm có thể bị sai lệch do lỗi kỹ thuật (chất lượng bóng, trống) và các lý do khác. Đáng tin cậy hơn từ quan điểm khách quan là lựa chọn theo bảng số ngẫu nhiên. Một bảng như vậy chứa một dãy số, xen kẽ ngẫu nhiên, được chọn bằng tín hiệu điện tử. Vì chúng ta đang sử dụng hệ thống số thập phân 0, 1, 2, ., 9 nên xác suất xuất hiện của bất kỳ chữ số nào là 1/10. Do đó, nếu cần tạo một bảng số ngẫu nhiên, bao gồm 500 ký tự, thì khoảng 50 trong số đó sẽ là 0, cùng một số sẽ là 1, v.v.

Lựa chọn theo một số sơ đồ (cái gọi là lấy mẫu trực tiếp) thường được sử dụng. Sơ đồ lựa chọn được thông qua theo cách phản ánh các thuộc tính và tỷ lệ chính của dân số nói chung. Cách đơn giản nhất: theo danh sách các đơn vị của tổng thể, được tổng hợp theo cách sao cho thứ tự của các đơn vị không liên quan đến các thuộc tính đang được nghiên cứu, việc lựa chọn đơn vị cơ học được thực hiện với bước bằng N: n.Thông thường, việc lựa chọn không bắt đầu từ đơn vị đầu tiên, mà lùi lại nửa bước để giảm khả năng sai lệch mẫu. Tần suất xuất hiện của các đơn vị có đặc điểm nhất định, ví dụ sinh viên có thành tích học tập nhất định, sống trong ký túc xá, v.v. sẽ được xác định bởi cấu trúc đã phát triển trong dân số nói chung.

Để chắc chắn hơn rằng mẫu sẽ phản ánh cấu trúc của dân số, mẫu sau được chia thành các loại (tầng hoặc khu vực) và lựa chọn ngẫu nhiên hoặc cơ học được thực hiện từ mỗi loại. Tổng số đơn vị được chọn từ các loại khác nhau phải tương ứng với cỡ mẫu.

Những khó khăn đặc biệt phát sinh khi không có danh sách các đơn vị và việc lựa chọn phải được thực hiện trên mặt đất hoặc từ các mẫu sản phẩm trong kho thành phẩm. Trong những trường hợp này, điều quan trọng là phải phát triển chi tiết sơ đồ định hướng cho địa hình và sơ đồ lựa chọn và tuân theo nó mà không cho phép sai lệch. Ví dụ: đồng hồ được hướng dẫn di chuyển từ một bến xe buýt nhất định về phía bắc ở phía chẵn của con phố và sau khi đếm hai ngôi nhà từ góc đầu tiên, hãy vào ngôi nhà thứ ba và thăm dò từng ngôi nhà thứ 5. Việc tuân thủ nghiêm ngặt sơ đồ đã được thông qua đảm bảo đáp ứng điều kiện chính để hình thành một mẫu đại diện - tính khách quan của việc lựa chọn các đơn vị.

Từ mẫu thử ngẫu nhiên người ta nên phân biệt giữa lựa chọn hạn ngạch, khi mẫu được xây dựng từ các đơn vị thuộc các loại nhất định (hạn ngạch), phải được đại diện theo tỷ lệ nhất định. Ví dụ: trong một cuộc khảo sát khách hàng của cửa hàng bách hóa, có thể lên kế hoạch lựa chọn 150 người trả lời, bao gồm 90 phụ nữ, trong đó 25 là nữ, 20 là phụ nữ trẻ có con nhỏ, 35 là phụ nữ trung niên mặc vest công sở, 10 là phụ nữ ở độ tuổi 50 trở lên; Ngoài ra, một cuộc khảo sát với 70 nam giới đã được lên kế hoạch, trong đó 25 thanh thiếu niên và nam thanh niên, 20 nam thanh niên có con, 15 nam mặc vest, 10 nam mặc đồ thể thao. Để xác định xu hướng và sở thích của người tiêu dùng, một mẫu như vậy có thể tốt, nhưng nếu chúng tôi muốn thiết lập số lượng mua trung bình, cấu trúc của chúng, chúng tôi sẽ nhận được kết quả không mang tính đại diện. Điều này là do lấy mẫu hạn ngạch nhằm mục đích chọn các danh mục nhất định.

Mẫu có thể không mang tính đại diện, ngay cả khi nó được hình thành theo tỷ lệ đã biết của dân số nói chung, nhưng việc lựa chọn được thực hiện mà không có bất kỳ sơ đồ nào - các đơn vị được tuyển dụng theo bất kỳ cách nào, chỉ để đảm bảo tỷ lệ các loại của chúng theo tỷ lệ giống nhau như trong dân số nói chung (ví dụ: tỷ lệ nam và nữ, người trả lời ở độ tuổi trẻ hơn và lớn hơn so với người khỏe mạnh và người khỏe mạnh, v.v.).

Những nhận xét này sẽ cảnh báo bạn về các phương pháp lấy mẫu như vậy và nhấn mạnh lại nhu cầu lấy mẫu khách quan.

3. Đặc điểm tổ chức và phương pháp lấy mẫu ngẫu nhiên, cơ học, điển hình và nối tiếp

Tùy thuộc vào cách thức tiến hành lựa chọn các phần tử dân số trong mẫu, có một số loại điều tra chọn mẫu. Lựa chọn có thể là ngẫu nhiên, máy móc, điển hình và nối tiếp.

Lựa chọn ngẫu nhiên là một lựa chọn như vậy trong đó tất cả các phần tử của dân số nói chung có cơ hội bình đẳng để được lựa chọn. Nói cách khác, mỗi phần tử của tổng thể đều có xác suất được đưa vào mẫu như nhau.

lấy mẫu ngẫu nhiên xác suất thống kê

Yêu cầu lựa chọn ngẫu nhiên đạt được trong thực tế với sự trợ giúp của các lô hoặc bảng số ngẫu nhiên.

Khi lựa chọn bằng cách bốc thăm, tất cả các yếu tố của dân số nói chung được đánh số sơ bộ và số của chúng được ghi trên thẻ. Sau khi xáo trộn cẩn thận từ gói theo bất kỳ cách nào (theo hàng hoặc theo bất kỳ thứ tự nào khác), số lượng thẻ cần thiết được chọn, tương ứng với kích thước mẫu. Trong trường hợp này, bạn có thể đặt các thẻ đã chọn sang một bên (do đó thực hiện cái gọi là lựa chọn không lặp lại), hoặc rút thẻ ra, ghi số của nó và trả lại vào gói, do đó tạo cơ hội cho nó xuất hiện trong mẫu một lần nữa (lựa chọn lặp đi lặp lại). Khi chọn lại, mỗi lần sau khi trả lại thẻ, gói phải được xáo trộn cẩn thận.

Phương pháp bốc thăm được sử dụng trong trường hợp số lượng phần tử của toàn bộ dân số đang nghiên cứu là nhỏ. Với khối lượng dân số chung lớn, việc thực hiện bốc thăm ngẫu nhiên trở nên khó khăn. Đáng tin cậy hơn và ít tốn thời gian hơn trong trường hợp xử lý một lượng lớn dữ liệu là phương pháp sử dụng bảng số ngẫu nhiên.

Lựa chọn cơ khí được thực hiện như sau. Nếu một mẫu 10% được hình thành, tức là phải chọn một trong mười phần tử, sau đó toàn bộ tập hợp được chia thành các phần bằng nhau của 10 phần tử một cách có điều kiện. Sau đó, một phần tử được chọn ngẫu nhiên từ top 10. Ví dụ, lần rút thăm chỉ ra số thứ chín. Việc lựa chọn các phần tử còn lại của mẫu hoàn toàn được xác định bởi tỷ lệ chọn N xác định theo số phần tử được chọn đầu tiên. Trong trường hợp đang xem xét, mẫu sẽ bao gồm các phần tử 9, 19, 29, v.v.

Lựa chọn cơ học nên được sử dụng một cách thận trọng, vì có nguy cơ thực sự xảy ra cái gọi là lỗi hệ thống. Vì vậy, trước khi thực hiện lấy mẫu cơ học, cần phân tích quần thể nghiên cứu. Nếu các phần tử của nó được định vị ngẫu nhiên, thì mẫu thu được một cách máy móc sẽ là ngẫu nhiên. Tuy nhiên, thông thường các phần tử của tập hợp ban đầu được sắp xếp một phần hoặc thậm chí hoàn toàn. Việc lựa chọn cơ học có thứ tự các phần tử có độ lặp lại chính xác là rất không mong muốn, khoảng thời gian có thể trùng với khoảng thời gian lấy mẫu cơ học.

Thông thường, các phần tử của quần thể được sắp xếp theo giá trị của đặc điểm đang nghiên cứu theo thứ tự giảm dần hoặc tăng dần và không có tính tuần hoàn. Lựa chọn cơ học từ một tổng thể như vậy có được đặc điểm của lựa chọn có chỉ định, vì các bộ phận riêng lẻ của tổng thể được đại diện trong mẫu theo tỷ lệ với kích thước của chúng trong toàn bộ tổng thể, tức là việc lựa chọn nhằm làm cho mẫu có tính đại diện.

Một loại lựa chọn định hướng khác là lựa chọn điển hình. Việc lựa chọn điển hình cần được phân biệt với việc lựa chọn các đối tượng điển hình. Việc lựa chọn các đối tượng điển hình đã được sử dụng trong thống kê zemstvo, cũng như trong các cuộc điều tra ngân sách. Đồng thời, việc lựa chọn "làng điển hình" hoặc "trang trại điển hình" được thực hiện theo các đặc điểm kinh tế nhất định, ví dụ, theo quy mô sở hữu đất đai của mỗi hộ gia đình, theo nghề nghiệp của cư dân, v.v. . Lựa chọn kiểu này không thể là cơ sở để áp dụng phương pháp lấy mẫu, vì ở đây yêu cầu chính của nó không được đáp ứng - tính ngẫu nhiên của lựa chọn.

Trong lựa chọn điển hình thực tế trong phương pháp lấy mẫu, dân số được chia thành các nhóm đồng nhất về chất lượng và sau đó lựa chọn ngẫu nhiên được thực hiện trong mỗi nhóm. Lựa chọn điển hình khó tổ chức hơn so với lựa chọn ngẫu nhiên, vì cần có kiến thức nhất định về thành phần và tính chất của tổng thể, nhưng nó cho kết quả chính xác hơn.

Với lựa chọn hàng loạt, toàn bộ dân số được chia thành các nhóm (sê-ri). Sau đó, bằng cách lựa chọn ngẫu nhiên hoặc cơ học, một phần nhất định của chuỗi này được tách ra và quá trình xử lý liên tục của chúng được thực hiện. Về bản chất, chọn lọc nối tiếp là chọn lọc ngẫu nhiên hoặc máy móc được thực hiện đối với các phần tử mở rộng của quần thể ban đầu.

Về mặt lý thuyết, lấy mẫu nối tiếp là không hoàn hảo nhất trong số những thứ được xem xét. Theo quy định, nó không được sử dụng để xử lý vật liệu, nhưng nó mang lại những tiện ích nhất định trong việc tổ chức các cuộc điều tra, đặc biệt là trong nghiên cứu nông nghiệp. Ví dụ, các cuộc điều tra mẫu hàng năm về các trang trại nông dân trong những năm trước khi tập thể hóa được thực hiện theo phương pháp lựa chọn nối tiếp. Nó rất hữu ích cho một nhà sử học để biết về lấy mẫu nối tiếp như anh ta có thể đáp ứng với kết quả của các cuộc điều tra như vậy.

Ngoài các phương pháp lựa chọn cổ điển được mô tả ở trên, các phương pháp khác cũng được sử dụng trong thực hành phương pháp lấy mẫu. Hãy xem xét hai trong số chúng.

Dân số được nghiên cứu có thể có cấu trúc nhiều tầng, nó có thể bao gồm các đơn vị của giai đoạn đầu tiên, lần lượt, bao gồm các đơn vị của giai đoạn thứ hai, v.v. Ví dụ: các tỉnh bao gồm các huyện, các huyện có thể được coi là một tập hợp các khu dân cư, các khu vực bao gồm các làng và các làng bao gồm các hộ gia đình.

Lựa chọn nhiều tầng có thể được áp dụng cho các quần thể như vậy, tức là chọn liên tục ở mỗi giai đoạn. Do đó, từ một tập hợp các tỉnh, bằng phương pháp cơ học, điển hình hoặc ngẫu nhiên, người ta có thể chọn các quận (giai đoạn đầu tiên), sau đó chọn các vùng (giai đoạn thứ hai) bằng một trong các phương pháp được chỉ định, sau đó chọn làng (giai đoạn thứ ba) và, cuối cùng là hộ gia đình (giai đoạn thứ tư).

Một ví dụ về lựa chọn máy móc hai giai đoạn là lựa chọn ngân sách của người lao động đã được thực hành từ lâu. Ở giai đoạn đầu tiên, các doanh nghiệp được lựa chọn một cách máy móc, ở giai đoạn thứ hai - công nhân, ngân sách được kiểm tra.

Sự thay đổi của các tính năng của các đối tượng nghiên cứu có thể khác nhau. Ví dụ, việc cung cấp cho các trang trại nông dân lực lượng lao động của họ dao động ít hơn, chẳng hạn như quy mô cây trồng của họ. Do đó, một mẫu nhỏ hơn về nguồn cung lao động sẽ chỉ mang tính đại diện như một mẫu dữ liệu quy mô cây trồng lớn hơn. Trong trường hợp này, từ mẫu dùng để xác định quy mô cây trồng, có thể lập một mẫu đủ đại diện để xác định mức độ sẵn có của lực lượng lao động, từ đó tiến hành lựa chọn hai giai đoạn. Trong trường hợp chung, các giai đoạn sau đây cũng có thể được thêm vào, tức là từ mẫu phụ kết quả, tạo một mẫu phụ khác, v.v. Phương pháp lựa chọn giống nhau được sử dụng trong trường hợp các mục tiêu của nghiên cứu đòi hỏi độ chính xác khác nhau khi tính toán các chỉ tiêu khác nhau.

Nhiệm vụ 1. Thống kê mô tả

Trong kỳ thi, 20 học sinh nhận được số điểm sau (theo thang điểm 100):

1) Xây dựng dãy phân bố tần số, tần số tương đối và tích luỹ cho 5 khoảng;

2) Xây dựng đa giác, biểu đồ và đa giác tích lũy;

3) Tìm trung bình cộng, chế độ, trung vị, phần tư thứ nhất và thứ ba, phạm vi hàng quý, độ lệch chuẩn và hệ số biến thiên. Phân tích dữ liệu bằng cách sử dụng các đặc điểm này và chỉ ra một khoảng bao gồm 50% giá trị trung tâm của các giá trị được chỉ định.

1) x (tối thiểu) =53, x (tối đa) =98

R=x (tối đa) - x (tối thiểu) =98-53=45

h=R/1+3.32lgn, trong đó n là cỡ mẫu, n=20

h= 45/1+3.32*lg20= 9

a(i) - giới hạn dưới của khoảng, b(i) - giới hạn trên của khoảng.

a(1) = x(min) - h/2, b(1) = a(1) + h, thì nếu b(i) là giới hạn trên của khoảng thứ i (và a(i+1) =b(i)), thì b(2) = a(2) + h, b(3) = a(3) + h, v.v. Việc xây dựng các khoảng tiếp tục cho đến khi bắt đầu khoảng tiếp theo theo thứ tự bằng hoặc lớn hơn x (max).

a(1) = 47,5 b(1) = 56,5

a(2) = 56,5 b(2) = 65,5

a(3) = 65,5 b(3) = 74,5

a(4) = 74,5 b(4) = 83,5

a(5) = 83,5 b(5) = 92,5

a(6) = 92,5 b(6) = 101,5

Khoảng thời gian, a (i) - b (i)	Đếm tần số	Tần suất, n(i)	Tần suất tích lũy, n(hi)

2) Để vẽ đồ thị, ta viết chuỗi phân bố biến thiên (khoảng và rời rạc) của tần số tương đối W(i) = n(i)/n, tần số tương đối tích lũy W(hi) và tìm tỉ số W(i)/h bằng cách điền vào bảng.

x(i)=a(i)+b(i)/2; W(hi)=n(hi)/n

Chuỗi phân phối thống kê của các ước tính:

Khoảng thời gian, a (i) - b (i)

Để xây dựng biểu đồ tần số tương đối dọc theo trục hoành, chúng tôi đặt các khoảng một phần sang một bên, trên mỗi khoảng chúng tôi dựng một hình chữ nhật, diện tích của nó bằng tần số tương đối W (i) của khoảng thứ i đã cho. Sau đó, chiều cao của hình chữ nhật cơ bản phải bằng W (i) / h.

Một đa giác có cùng phân bố có thể thu được từ biểu đồ nếu trung điểm của các đáy trên của hình chữ nhật được nối với nhau bằng các đoạn thẳng.

Để xây dựng tích lũy của một chuỗi rời rạc, chúng tôi vẽ các giá trị của tính năng dọc theo trục hoành và tần số tích lũy tương đối W (hi) dọc theo trục tọa độ. Các điểm kết quả được kết nối bởi các đoạn thẳng. Đối với chuỗi khoảng dọc theo trục hoành, chúng tôi đặt các ranh giới trên của nhóm sang một bên.

3) Giá trị trung bình cộng được tìm theo công thức:

Chế độ được tính theo công thức:

Giới hạn dưới của khoảng phương thức; h - chiều rộng khoảng cách nhóm; - tần số khoảng phương thức; - tần số của khoảng thời gian trước phương thức; - tần số của quãng theo phương thức. = 23,125.

Hãy tìm trung vị:

n=20: 53.58.59.59.63.67.68.69.71.73.78.79.85.86.87.89.91.91.98.98

Thay các giá trị vào, ta được: Q1=65;

Giá trị của phần tư thứ hai giống như giá trị của trung vị, vì vậy Q2=75,5; Q3=88.

Phạm vi hàng quý là:

Độ lệch bình phương trung bình gốc (chuẩn) được tìm theo công thức:

Hệ số biến thiên:

Có thể thấy từ các tính toán này rằng 50% giá trị trung tâm của các đại lượng được chỉ định bao gồm khoảng 74,5 - 83,5.

Nhiệm vụ 2. Kiểm định thống kê các giả thuyết.

Sở thích thể thao cho nam giới, phụ nữ và thanh thiếu niên như sau:

Kiểm định giả thuyết về sự độc lập của sở thích với giới tính và độ tuổi b = 0,05.

1) Kiểm định giả thuyết về tính độc lập của sở thích trong thể thao.

Hệ số Pearsen:

Giá trị dạng bảng của phép kiểm chi bình phương với bậc tự do là 4 tại b \u003d 0,05 bằng h 2 bảng \u003d 9,488.

Do giả thuyết bị bác bỏ. Sự khác biệt trong sở thích là đáng kể.

2. Giả thuyết về sự phù hợp.

Bóng chuyền là môn thể thao gần giống với bóng rổ nhất. Hãy kiểm tra sự tương ứng trong sở thích của nam giới, phụ nữ và thanh thiếu niên.

Ф 2 = 0,1896+0,1531+0,1624+0,1786+0,1415+0,1533 = 0,979.

Với mức ý nghĩa b = 0,05 và bậc tự do k = 2, giá trị dạng bảng h 2 tabl = 9,210.

Vì Ф 2 > nên sự khác biệt về sở thích là đáng kể.

Nhiệm vụ 3. Phân tích tương quan và hồi quy.

Một phân tích về các vụ tai nạn giao thông đưa ra số liệu thống kê sau đây về tỷ lệ người lái xe dưới 21 tuổi và số vụ tai nạn nghiêm trọng trên 1.000 người lái xe:

Tiến hành phân tích dữ liệu đồ họa và tương quan-hồi quy, dự đoán số vụ tai nạn gây hậu quả nghiêm trọng cho một thành phố mà số lượng tài xế dưới 21 tuổi chiếm 20% tổng số tài xế.

Ta được mẫu cỡ n=10.

x là phần trăm tài xế dưới 21 tuổi,

y là số vụ tai nạn trên 1000 lái xe.

phương trình hồi quy tuyến tính giống như:

Ta lần lượt tính:

Tương tự như vậy, chúng tôi tìm thấy

Hệ số hồi quy mẫu

Kết nối giữa x, y là mạnh mẽ.

Phương trình hồi quy tuyến tính có dạng:

trên nhân vật đệ trình đồng ruộng tán xạ và lịch trình tuyến tính hồi quy . Chúng ta chi tiêu dự báo vì x N =20 .

Chúng tôi nhận được y N =0 .2 9*20-1 .4 6 = 4 .3 4 .

tiên đoán Ý nghĩa đã xảy ra hơn tất cả các giá trị, đệ trình Trong nguyên bản bàn . nó hậu quả Đi, Gì tương quan nghiện dài và hệ số bằng 0,29 đầy đủ to lớn . trên mọi đơn vị gia số dx anh ta cho tăng đê =0 .3

Tập thể dục 4 . Phân tích tạm thời cấp bậc và dự báo .

dự đoán giá trị chỉ mục cho tuần tiếp theo bằng cách sử dụng:

a) phương pháp trung bình trượt, chọn dữ liệu ba tuần để tính toán;

b) bình quân gia quyền hàm mũ, chọn b = 0,1.

Từ bảng số ngẫu nhiên, chúng tôi tìm thấy các số 41, 51, 69, 135, 124, 93, 91, 144, 10, 24.

Chúng tôi sắp xếp chúng theo thứ tự tăng dần: 10, 24, 41, 51, 69, 91, 93, 124, 135, 144.

Chúng tôi thực hiện đánh số mới từ 1 đến 10. Chúng tôi lấy dữ liệu ban đầu trong mười tuần:

Làm mịn theo hàm mũ tại b = 0,1 chỉ cho một giá trị.

Đối với giữa toàn bộ thời kỳ, chúng tôi nhận được ba dự báo: 12,855; 1309; 12.895.

Có sự thống nhất giữa các dự báo này.

Tập thể dục 5 . mục lục phân tích.

Công ty đang tham gia vào việc vận chuyển hàng hóa. Có số liệu của một số năm về khối lượng vận chuyển của 4 loại hàng hóa và giá thành vận chuyển một đơn vị hàng hóa.

Xác định chỉ số giá, số lượng và giá trị đơn giản cho từng loại sản phẩm, cũng như chỉ số Laspeyres và Pasche và chỉ số giá trị. Nhận xét về kết quả thu được một cách có ý nghĩa.

Dung dịch. Hãy tính các chỉ số đơn giản:

Chỉ số Laspeyres:

Chỉ số Pasha:

Chi phí Thổ Nhĩ Kỳ:

Các chỉ số riêng cho biết sự chênh lệch về thay đổi giá cả và số lượng đối với hàng hóa A, B, C, D. Các chỉ số tổng hợp cho biết xu hướng thay đổi chung. Nhìn chung, chi phí hàng hóa vận chuyển giảm 13%. Lý do là hàng hóa đắt nhất đã giảm 42% về số lượng và giá cước không thay đổi nhiều.

Các năm 16-20 được đánh số theo thứ tự từ 1 đến 5. Dữ liệu ban đầu có dạng:

Đầu tiên, chúng tôi nghiên cứu động thái của lượng hàng hóa A.

Mục lục	lợi nhuận tuyệt đối	Tốc độ tăng trưởng, %	Tỉ lệ tăng trưởng, %

Tại đây tốc độ sự phát triển trung bình trên công thức :

, .

Vì tốc độ sự phát triển Trong không tí nào trường hợp t vân vân =T r -1 .

Hiện nay xem xét chở hàng D .

Mục lục	lợi nhuận tuyệt đối	Tốc độ tăng trưởng, %	Tỉ lệ tăng trưởng, %

Sự kết luận

Trung bình và giống của chúng đóng một vai trò quan trọng trong thống kê. Các chỉ số trung bình được sử dụng rộng rãi trong phân tích, vì chính trong đó, các quy luật được thể hiện. hiện tượng khối lượng và các quá trình cả về thời gian và không gian. Vì vậy, ví dụ, mô hình tăng năng suất lao động được thể hiện trong số liệu thống kê tăng trưởng sản lượng bình quân một người làm việc trong ngành công nghiệp, tính đều đặn của tăng trưởng ổn định về mức sống của dân cư thể hiện ở các chỉ tiêu thống kê về tăng thu nhập bình quân của công nhân, viên chức, v.v.

Các đặc điểm mô tả như vậy về phân phối của một tính năng biến như chế độ và trung vị được sử dụng rộng rãi. Chúng là những đặc điểm cụ thể, ý nghĩa của chúng là bất kỳ tùy chọn cụ thể nào trong chuỗi biến thể.

Vì vậy, để mô tả giá trị phổ biến nhất của một tính năng, một chế độ được sử dụng và để hiển thị giới hạn định lượng của giá trị của một tính năng biến, mà một nửa số thành viên của dân số đạt được, trung bình là đã sử dụng.

Do đó, các giá trị trung bình giúp nghiên cứu các mô hình phát triển của ngành, một ngành cụ thể, xã hội và cả nước.

Thư mục

1. Lý thuyết thống kê: Sách giáo khoa / R.A. Shmoylova, V.G. Minashkin, N.A. Sadovnikova, E.B. Shuvalov; Dưới sự biên tập của R.A. Shmoylova. - Tái bản lần thứ 4, đã sửa đổi. và bổ sung - M.: Tài chính và thống kê, 2005. - 656s.

2. Gusarov V.M. Số liệu thống kê: hướng dẫn cho các trường đại học. - M.: UNITI-DANA, 2001.

4. Tuyển tập các nhiệm vụ về lý thuyết thống kê: Sách giáo khoa / Ed. giáo sư V. V. Glinsky và Ph.D. TS, PGS L.K. Serga. biên tập. Z-e. - M.: INFRA-M; Novosibirsk: Hiệp định Siberia, 2002.

5. Thống kê: Sách giáo khoa / Kharchenko L-P., Dolzhenkova V.G., Ionin V.G. và những người khác, ed. V.G. ionina. - Ed.2nd, sửa đổi. và bổ sung - M.: INFRA-M. 2003.

Tài liệu tương tự

Thống kê mô tả và suy luận thống kê. Phương pháp chọn đảm bảo tính đại diện của mẫu. Ảnh hưởng của loại mẫu đến độ lớn của sai số. Nhiệm vụ trong việc áp dụng phương pháp chọn mẫu. Phân phối dữ liệu quan sát cho dân số nói chung.

kiểm tra, thêm 27/02/2011

Phương pháp lấy mẫu và vai trò của nó. Sự phát triển thuyết hiện đại quan sát có chọn lọc. Typology của phương pháp lựa chọn. Các cách thực hiện lấy mẫu ngẫu nhiên đơn giản trong thực tế. Tổ chức mẫu (phân tầng) điển hình. Kích thước mẫu trong lựa chọn hạn ngạch.

báo cáo, bổ sung ngày 03/09/2011

Mục đích lấy mẫu và lấy mẫu. Tính năng tổ chức nhiều loại quan sát có chọn lọc. sai lầm tuyển chọn có chọn lọc và phương pháp tính toán của chúng. Áp dụng phương pháp lấy mẫu để phân tích các doanh nghiệp thuộc tổ hợp nhiên liệu và năng lượng.

giấy hạn, thêm 10/06/2014

Phương pháp quan sát chọn lọc nghiên cứu thống kê, Các tính năng của nó. Các kiểu chọn ngẫu nhiên, máy móc, điển hình và nối tiếp trong việc hình thành bộ mẫu. Khái niệm và nguyên nhân của sai số lấy mẫu, phương pháp xác định.

tóm tắt, bổ sung 04/06/2010

Khái niệm và vai trò của thống kê trong cơ chế quản lý nền kinh tế hiện đại. Quan sát thống kê liên tục và không liên tục, mô tả phương pháp lấy mẫu. Các loại lựa chọn trong quá trình quan sát chọn lọc, sai số chọn mẫu. Các chỉ số sản xuất và tài chính.

giấy hạn, thêm 17/03/2011

Nghiên cứu việc thực hiện kế hoạch. Một cuộc điều tra lấy mẫu ngẫu nhiên 10%. Chi phí sản xuất của nhà máy. lỗi cận biên mẫu. Động lực của giá trung bình và khối lượng bán của sản phẩm. Chỉ số giá thành phần biến đổi.

công tác kiểm soát, thêm 09/02/2009

Lấy mẫu thể tích n-phân phối bình thường biến ngẫu nhiên. Phát hiện đặc điểm số mẫu. nhóm dữ liệu và loạt biến thể. Biểu đồ tần số. Hàm phân phối thực nghiệm. Ước lượng thống kê các tham số.

công việc trong phòng thí nghiệm, thêm 31/03/2013

Bản chất của các khái niệm lấy mẫu và quan sát lấy mẫu, các loại và loại lựa chọn chính. Xác định khối lượng và kích thước của mẫu. Công dụng thực tế Phân tích thống kê quan sát có chọn lọc. Tính toán sai số trong phần mẫu và trung bình mẫu.

hạn giấy, thêm 02/17/2015

Khái niệm quan sát chọn lọc. Sai số đại diện, đo lường sai số lấy mẫu. Xác định cỡ mẫu cần thiết. Việc sử dụng phương pháp lấy mẫu thay vì lấy mẫu liên tục. Sự phân tán trong dân số nói chung và so sánh các chỉ số.

kiểm tra, thêm 23/07/2009

Các loại lỗi lựa chọn và quan sát. Phương pháp chọn các đơn vị trong quần thể mẫu. đặc trưng hoạt động thương mại doanh nghiệp. khảo sát mẫu người tiêu dùng sản phẩm. Phân phối các đặc điểm của mẫu cho dân số nói chung.

Một phần của các đối tượng từ dân số được chọn để nghiên cứu nhằm đưa ra kết luận về toàn bộ dân số. Để kết luận thu được bằng cách nghiên cứu mẫu được mở rộng cho toàn bộ dân số, mẫu phải có đặc tính đại diện.

tính đại diện của mẫu

Tài sản của mẫu để phản ánh chính xác dân số nói chung. Cùng một mẫu có thể hoặc không thể đại diện cho các quần thể khác nhau.
Thí dụ:

Một mẫu bao gồm toàn bộ người Hồi giáo sở hữu ô tô không đại diện cho toàn bộ dân số Moscow.

Mẫu doanh nghiệp Nga có tới 100 lao động không đại diện cho tất cả các doanh nghiệp ở Nga.

Mẫu người Hồi giáo mua hàng trên thị trường không đại diện cho hành vi mua hàng của tất cả người Hồi giáo.

Đồng thời, các mẫu này (tùy thuộc vào các điều kiện khác) hoàn toàn có thể đại diện cho chủ sở hữu ô tô Muscovite, doanh nghiệp vừa và nhỏ của Nga và người mua mua hàng trên thị trường.

Điều quan trọng là phải hiểu rằng tính đại diện của mẫu và lỗi lấy mẫu là những hiện tượng khác nhau. Tính đại diện, không giống như lỗi, không phụ thuộc vào cỡ mẫu.

Cho dù chúng tôi có tăng số lượng chủ sở hữu xe hơi của người Hồi giáo được khảo sát bao nhiêu đi chăng nữa, chúng tôi sẽ không thể đại diện cho tất cả người Hồi giáo bằng mẫu này.

Lỗi lấy mẫu (khoảng tin cậy)

Độ lệch của kết quả thu được với sự trợ giúp của quan sát mẫu so với dữ liệu thực của tổng thể.

Có hai loại lỗi lấy mẫu: thống kê và hệ thống. Sai số thống kê phụ thuộc vào cỡ mẫu. Cỡ mẫu càng lớn thì càng thấp.

Thí dụ:
Đối với một mẫu ngẫu nhiên đơn giản gồm 400 đơn vị, sai số thống kê tối đa (từ 95% mức độ tự tin) là 5%, đối với mẫu 600 đơn vị - 4%, đối với mẫu 1100 đơn vị - 3%. Thông thường, khi họ nói về lỗi lấy mẫu, họ có nghĩa chính xác là lỗi thống kê.

Sai số hệ thống phụ thuộc vào các yếu tố khác nhau có tác động lâu dài đến nghiên cứu và làm thay đổi kết quả nghiên cứu theo một hướng nhất định.

Thí dụ:
- Việc sử dụng bất kỳ mẫu xác suất nào đều đánh giá thấp tỷ lệ người có thu nhập cao dẫn đầu hình ảnh hoạt độngđời sống. Điều này xảy ra do thực tế là những người như vậy khó tìm thấy hơn nhiều ở bất kỳ địa điểm cụ thể nào (ví dụ: ở nhà).

Vấn đề của những người được hỏi từ chối trả lời các câu hỏi của bảng câu hỏi (tỷ lệ "refuseniks" ở Moscow, đối với các cuộc khảo sát khác nhau, dao động từ 50% đến 80%)

Trong một số trường hợp, khi các bản phân phối thực sự được biết đến, lỗi hệ thống có thể được cân bằng bằng cách đưa ra hạn ngạch hoặc tái định trọng số dữ liệu, nhưng trong hầu hết các nghiên cứu thực tế, thậm chí việc đánh giá nó có thể khá khó khăn.

các loại mẫu

Các mẫu được chia thành hai loại:

xác suất

khả năng xảy ra

mẫu xác suất

1.1 Lấy mẫu ngẫu nhiên (chọn ngẫu nhiên đơn giản)

Một mẫu như vậy giả định tính đồng nhất của dân số nói chung, cùng xác suất về sự sẵn có của tất cả các yếu tố, sự hiện diện danh sách đầy đủ tất cả các phần tử. Khi chọn các phần tử, theo quy luật, một bảng số ngẫu nhiên được sử dụng.
1.2 Lấy mẫu cơ học (có hệ thống)

Một loại mẫu ngẫu nhiên, được sắp xếp theo một số thuộc tính (thứ tự bảng chữ cái, số điện thoại, ngày sinh, v.v.). Phần tử đầu tiên được chọn ngẫu nhiên, sau đó mọi phần tử 'k' được chọn theo gia số 'n'. Quy mô dân số nói chung, trong khi - N=n*k

1.3 Phân tầng (khoanh vùng)

Nó được sử dụng trong trường hợp tính không đồng nhất của dân số nói chung. Dân số nói chung được chia thành các nhóm (tầng lớp). Trong mỗi tầng, việc chọn lọc được thực hiện một cách ngẫu nhiên hoặc máy móc.

1.4 Lấy mẫu nối tiếp (lồng nhau hoặc theo cụm)

Với lấy mẫu nối tiếp, các đơn vị lựa chọn không phải là các đối tượng, mà là các nhóm (cụm hoặc tổ). Các nhóm được chọn ngẫu nhiên. Các đối tượng trong nhóm được khảo sát khắp nơi.

mẫu đáng kinh ngạc

Việc lựa chọn trong một mẫu như vậy được thực hiện không theo nguyên tắc may rủi, mà theo các tiêu chí chủ quan - khả năng tiếp cận, tính điển hình, đại diện bình đẳng, v.v.

Lấy mẫu hạn ngạch

Ban đầu, một số nhóm đối tượng nhất định được phân bổ (ví dụ: nam giới từ 20-30 tuổi, 31-45 tuổi và 46-60 tuổi; những người có thu nhập lên tới 30 nghìn rúp, có thu nhập từ 30 đến 60 nghìn rúp và có thu nhập trên 60 nghìn rúp ) Đối với mỗi nhóm, số lượng đối tượng được khảo sát được chỉ định. Số lượng đối tượng nên rơi vào mỗi nhóm được đặt, thường xuyên nhất, theo tỷ lệ với tỷ lệ đã biết trước đó của nhóm trong dân số chung hoặc giống nhau cho mỗi nhóm. Trong các nhóm, các đối tượng được chọn ngẫu nhiên. Mẫu hạn ngạch được sử dụng khá thường xuyên trong nghiên cứu tiếp thị.

phương pháp quả cầu tuyết

Mẫu được xây dựng như sau. Mỗi người trả lời, bắt đầu từ người đầu tiên, được yêu cầu liên hệ với bạn bè, đồng nghiệp, người quen của mình, những người phù hợp với điều kiện lựa chọn và có thể tham gia nghiên cứu. Như vậy, ngoại trừ bước đầu tiên, mẫu được hình thành với sự tham gia của chính các đối tượng nghiên cứu. Phương pháp này thường được sử dụng khi cần tìm và phỏng vấn các nhóm đối tượng khó tiếp cận (ví dụ: đối tượng có thu nhập cao, đối tượng cùng nhóm nghề nghiệp, đối tượng có sở thích/đam mê giống nhau, v.v.). )
2.3 Lấy mẫu tự phát

Những người trả lời dễ tiếp cận nhất được thăm dò ý kiến. ví dụ điển hình mẫu ngẫu nhiên - khảo sát trên báo / tạp chí, bảng câu hỏi được đưa ra cho người trả lời để tự hoàn thành, hầu hết các khảo sát trên Internet. Kích thước và thành phần của các mẫu tự phát không được biết trước và chỉ được xác định bởi một tham số - hoạt động của người trả lời.
2.4 Mẫu trường hợp điển hình

Các đơn vị của tổng thể được chọn có giá trị trung bình (điển hình) của thuộc tính. Điều này đặt ra vấn đề lựa chọn một tính năng và xác định giá trị tiêu biểu của nó.

Thực hiện kế hoạch nghiên cứu

Chúng tôi nhớ rằng giai đoạn này bao gồm việc thu thập thông tin và phân tích thông tin. Quá trình thực hiện một kế hoạch nghiên cứu tiếp thị thường đòi hỏi nhiều nghiên cứu nhất và là nguồn gốc của sai sót lớn nhất.

Trong quá trình thu thập số liệu thống kê phát sinh một số tồn tại, vướng mắc:

thứ nhất, một số người trả lời có thể không ở đúng nơi đã thỏa thuận và họ phải được liên hệ lại hoặc thay thế;

thứ hai, một số người trả lời có thể không hợp tác hoặc đưa ra những câu trả lời thiên lệch, cố ý sai.

Nhờ công nghệ điện toán và viễn thông hiện đại, các phương pháp thu thập dữ liệu đang phát triển và cải tiến.

Một số công ty tiến hành khảo sát từ một trung tâm duy nhất. Trong trường hợp này, những người phỏng vấn chuyên nghiệp ngồi trong văn phòng và quay số điện thoại ngẫu nhiên. Nếu họ nghe thấy phản hồi của người gọi, người phỏng vấn sẽ yêu cầu người trả lời điện thoại trả lời một số câu hỏi. Phần sau được đọc từ màn hình máy tính và câu trả lời của người trả lời được gõ trên bàn phím. Phương pháp này loại bỏ nhu cầu định dạng và mã hóa dữ liệu, giảm số lượng lỗi.