Tiểu sử Đặc trưng Phân tích

Dân số mẫu trong thống kê là gì Hơn không phải là luôn luôn tốt hơn

ước tính khoảng thời gian xác suất của một sự kiện. Công thức tính cỡ mẫu bằng phương pháp lấy mẫu hoàn toàn ngẫu nhiên.

Để xác định xác suất của các sự kiện mà chúng tôi quan tâm, chúng tôi sử dụng phương pháp lấy mẫu: chúng tôi tiến hành N các thí nghiệm độc lập, trong đó mỗi biến cố A có thể xảy ra (hoặc không xảy ra) (xác suất R sự xuất hiện của sự kiện A trong mỗi thí nghiệm là không đổi). Khi đó tần suất tương đối p* của các lần xuất hiện các sự kiện MỘT trong một loạt N các bài kiểm tra được chấp nhận như ước tính điểm cho xác suất P sự xuất hiện của một sự kiện MỘT trong một phiên tòa riêng biệt. Trong trường hợp này, giá trị p* được gọi là chia sẻ mẫu sự kiện xảy ra MỘT, và P - cổ phiếu phổ thông .

Do hệ quả tất yếu từ trung tâm định lý giới hạn(Định lý Moivre-Laplace) tần số tương đối của một sự kiện với cỡ mẫu lớn có thể được coi là phân phối chuẩn với các tham số M(p*)=p và

Do đó, với n>30 khoảng tin cậyđối với cổ phần phổ thông có thể được xây dựng bằng công thức:


trong đó ucr được tìm thấy từ các bảng của hàm Laplace, có tính đến giá trị đã cho xác suất tin cậyγ: 2Ф(u cr)=γ.

Với cỡ mẫu nhỏ n<30, sai số cực đại ε được xác định từ bảng phân phối Sinh viên:
trong đó tcr =t(k; α) và số bậc tự do k=n-1 xác suất α=1-γ (diện tích hai mặt).

Các công thức hợp lệ nếu việc lựa chọn được thực hiện theo cách lặp lại ngẫu nhiên ( dân số là vô hạn), nếu không thì cần phải điều chỉnh để không lặp lại lựa chọn (bảng).

Lỗi lấy mẫu trung bình cho cổ phiếu chung

Dân sốvô hạnTập cuối cùng N
Kiểu lựa chọnLặp đi lặp lạilặp lại
Lỗi lấy mẫu trung bình

Công thức tính cỡ mẫu bằng phương pháp lấy mẫu hoàn toàn ngẫu nhiên

Phương pháp lựa chọnCông thức xác định cỡ mẫu
trung bìnhđể chia sẻ
Lặp đi lặp lại
lặp lại
Phân số của đơn vị w = . Độ chính xác ε = . Xác suất γ =

Các vấn đề chung về chia sẻ

Đối với câu hỏi “Khoảng tin cậy có bao gồm giá trị p0 đã cho không?” - bạn có thể trả lời bằng cách kiểm tra giả thuyết thống kê H 0:p=p 0 . Giả định rằng các thí nghiệm được thực hiện theo sơ đồ thử nghiệm Bernoulli (độc lập, xác suất P sự xuất hiện của một sự kiện MỘT là hằng số). Theo khối lượng mẫu N xác định tần suất tương đối p * xảy ra của sự kiện A: trong đó tôi- số lần xuất hiện của sự kiện MỘT trong một loạt N các bài kiểm tra. Để kiểm tra giả thuyết H 0, số liệu thống kê được sử dụng với cỡ mẫu đủ lớn, có tiêu chuẩn phân phối bình thường(Bảng 1).
Bảng 1 - Các giả thuyết về tỷ trọng chung

giả thuyết

H 0:p=p 0H 0:p 1 =p 2
Giả địnhMạch thử nghiệm BernoulliMạch thử nghiệm Bernoulli
Ước tính mẫu
Số liệu thống kê K
Phân phối thống kê K Tiêu chuẩn bình thường N(0,1)

Ví dụ số 1. Sử dụng ngẫu nhiên lựa chọn lại Ban quản lý của công ty đã tiến hành một cuộc khảo sát mẫu với 900 nhân viên của mình. Trong số những người được hỏi có 270 phụ nữ. Xây dựng khoảng tin cậy với xác suất 0,95 bao gồm tỷ lệ nữ thực sự trong toàn bộ nhóm của công ty.
Giải pháp. Theo điều kiện, tỷ lệ phụ nữ trong mẫu là (tần suất tương đối của phụ nữ trong số tất cả những người được hỏi). Do việc lựa chọn được lặp lại và cỡ mẫu lớn (n=900) nên sai số lấy mẫu tối đa được xác định theo công thức

Giá trị của u cr được tìm thấy từ bảng hàm Laplace từ quan hệ 2Ф(u cr) = γ, tức là. Hàm Laplace (Phụ lục 1) lấy giá trị 0,475 tại u cr = 1,96. Do đó, sai số cận biên và khoảng tin cậy mong muốn
(p – ε, p + ε) = (0,3 – 0,18; 0,3 + 0,18) = (0,12; 0,48)
Vì vậy, với xác suất 0,95, chúng ta có thể đảm bảo rằng tỷ lệ nữ trong toàn bộ đội ngũ của công ty nằm trong khoảng từ 0,12 đến 0,48.

Ví dụ số 2. Chủ bãi đậu xe coi ngày “may mắn” nếu bãi đậu xe kín chỗ hơn 80%. Trong năm, 40 cuộc kiểm tra bãi đậu xe đã được thực hiện, trong đó có 24 cuộc “thành công”. Với xác suất 0,98, hãy tìm khoảng tin cậy để ước tính tỷ lệ thực sự của những ngày “may mắn” trong năm.
Giải pháp. Tỷ lệ mẫu của những ngày “may mắn” là
Sử dụng bảng hàm Laplace, chúng ta tìm giá trị của u cr cho một
xác suất tin cậy
Ф(2,23) = 0,49, ucr = 2,33.
Xem xét việc lựa chọn là không lặp lại (nghĩa là hai lần kiểm tra không được thực hiện trong cùng một ngày), chúng tôi thấy lỗi cận biên:
trong đó n=40, N = 365 (ngày). Từ đây
và khoảng tin cậy cho phần chung: (p – ε, p + ε) = (0,6 – 0,17; 0,6 + 0,17) = (0,43; 0,77)
Với xác suất 0,98, chúng ta có thể kỳ vọng rằng tỷ lệ ngày “may mắn” trong năm sẽ nằm trong khoảng từ 0,43 đến 0,77.

Ví dụ số 3. Sau khi kiểm tra 2500 sản phẩm trong lô, họ phát hiện ra rằng 400 sản phẩm thuộc loại cao cấp nhất, nhưng n–m thì không. Có bao nhiêu sản phẩm cần được kiểm tra để xác định với độ tin cậy 95% tỷ lệ loại cao nhất với độ chính xác 0,01?
Chúng tôi tìm giải pháp sử dụng công thức xác định cỡ mẫu để chọn lại.

Ф(t) = γ/2 = 0,95/2 = 0,475 và giá trị này theo bảng Laplace tương ứng với t=1,96
Tỷ lệ mẫu w = 0,16; sai số lấy mẫu ε = 0,01

Ví dụ số 4. Một lô sản phẩm được chấp nhận nếu xác suất sản phẩm đó đạt tiêu chuẩn ít nhất là 0,97. Trong số 200 sản phẩm được chọn ngẫu nhiên của lô kiểm tra, có 193 sản phẩm đạt tiêu chuẩn. Có thể chấp nhận lô ở mức ý nghĩa α=0,02 không?
Giải pháp. Hãy để chúng tôi xây dựng các giả thuyết chính và thay thế.
H 0:p=p 0 =0,97 - tỷ trọng chung chưa xác định P tương đương với đặt giá trị p 0 = 0,97. Liên quan đến điều kiện - xác suất một bộ phận trong lô được kiểm tra sẽ tuân thủ tiêu chuẩn là 0,97; những thứ kia. Lô sản phẩm có thể được chấp nhận.
H1:p<0,97 - вероятность того, что деталь из проверяемой партии окажется соответствующей стандарту, меньше 0.97; т.е. партию изделий нельзя принять. При такой альтернативной гипотезе критическая область будет левосторонней.
Giá trị thống kê được quan sát K(bảng) tính các giá trị đã cho p 0 =0,97, n=200, m=193


Chúng ta tìm giá trị tới hạn từ bảng hàm Laplace từ đẳng thức


Theo điều kiện, α = 0,02, do đó F(Kcr) = 0,48 và Kcr = 2,05. Vùng tới hạn là về bên trái, tức là là khoảng (-∞;-K kp)= (-∞;-2,05). Giá trị quan sát được K obs = -0,415 không thuộc vùng tới hạn, do đó, ở mức ý nghĩa này không có lý do gì để bác bỏ giả thuyết chính. Bạn có thể chấp nhận một loạt sản phẩm.

Ví dụ số 5. Hai nhà máy sản xuất cùng một loại phụ tùng. Để đánh giá chất lượng của chúng, các mẫu được lấy từ sản phẩm của các nhà máy này và thu được kết quả như sau. Trong số 200 sản phẩm được lựa chọn từ nhà máy thứ nhất, có 20 sản phẩm bị lỗi và trong số 300 sản phẩm của nhà máy thứ hai, có 15 sản phẩm bị lỗi.
Với mức ý nghĩa 0,025, hãy tìm hiểu xem liệu có sự khác biệt đáng kể về chất lượng của các bộ phận do các nhà máy này sản xuất hay không.

Theo điều kiện, α = 0,025, do đó F(Kcr) = 0,4875 và Kcr = 2,24. Với phương án thay thế hai mặt, phạm vi giá trị được chấp nhận có dạng (-2,24;2,24). Giá trị quan sát được K obs = 2,15 nằm trong khoảng này, tức là. ở mức độ ý nghĩa này không có lý do gì để bác bỏ giả thuyết chính. Các nhà máy sản xuất ra những sản phẩm có chất lượng như nhau.

Vật mẫu

Vật mẫu hoặc dân số mẫu- một tập hợp các trường hợp (đối tượng, đối tượng, sự kiện, mẫu), sử dụng một quy trình nhất định, được chọn từ dân số nói chung để tham gia nghiên cứu.

Đặc điểm mẫu:

  • Đặc điểm định tính của mẫu - chúng tôi chọn chính xác ai và chúng tôi sử dụng phương pháp lấy mẫu nào cho việc này.
  • Đặc điểm định lượng của mẫu - chúng ta chọn bao nhiêu trường hợp, hay nói cách khác là cỡ mẫu.

Sự cần thiết của việc lấy mẫu

  • Đối tượng nghiên cứu rất rộng. Ví dụ: người tiêu dùng sản phẩm của một công ty toàn cầu được đại diện bởi một số lượng lớn các thị trường phân tán về mặt địa lý.
  • Cần phải thu thập thông tin sơ cấp.

Cỡ mẫu

Cỡ mẫu- số trường hợp có trong quần thể mẫu. Vì lý do thống kê, số trường hợp được khuyến nghị ít nhất là 30-35.

Mẫu phụ thuộc và độc lập

Khi so sánh hai (hoặc nhiều) mẫu, một tham số quan trọng là sự phụ thuộc của chúng. Nếu có thể thiết lập một cặp đồng hình (nghĩa là khi một trường hợp từ mẫu X tương ứng với một và chỉ một trường hợp từ mẫu Y và ngược lại) cho mỗi trường hợp trong hai mẫu (và cơ sở của mối quan hệ này rất quan trọng đối với tính trạng được đo trong các mẫu), những mẫu như vậy được gọi là sự phụ thuộc. Ví dụ về các mẫu phụ thuộc:

  • cặp song sinh,
  • hai phép đo bất kỳ tính trạng nào trước và sau khi tiếp xúc thử nghiệm,
  • vợ chồng
  • và như thế.

Nếu không có mối quan hệ như vậy giữa các mẫu thì các mẫu này được coi là độc lập, Ví dụ:

Theo đó, các mẫu phụ thuộc luôn có cùng kích thước, trong khi kích thước của các mẫu độc lập có thể khác nhau.

Việc so sánh các mẫu được thực hiện bằng các tiêu chí thống kê khác nhau:

  • và vân vân.

Tính đại diện

Mẫu có thể được coi là mang tính đại diện hoặc không mang tính đại diện.

Ví dụ về mẫu không mang tính đại diện

  1. Một nghiên cứu với các nhóm thử nghiệm và đối chứng, được đặt trong các điều kiện khác nhau.
    • Nghiên cứu với các nhóm thực nghiệm và đối chứng bằng cách sử dụng chiến lược lựa chọn theo cặp
  2. Một nghiên cứu chỉ sử dụng một nhóm - một nhóm thử nghiệm.
  3. Một nghiên cứu sử dụng thiết kế hỗn hợp (giai thừa) - tất cả các nhóm được đặt trong các điều kiện khác nhau.

Các kiểu lấy mẫu

Mẫu được chia thành hai loại:

  • xác suất
  • phi xác suất

Mẫu xác suất

  1. Lấy mẫu xác suất đơn giản:
    • Lấy mẫu lại đơn giản. Việc sử dụng mẫu như vậy dựa trên giả định rằng mỗi người trả lời đều có khả năng được đưa vào mẫu như nhau. Dựa trên danh sách dân số nói chung, các thẻ có số người trả lời được tổng hợp. Chúng được đặt trong một bộ bài, xáo trộn và một lá bài được lấy ra một cách ngẫu nhiên, con số được ghi lại và sau đó được trả lại. Tiếp theo, quy trình được lặp lại nhiều lần với số lượng mẫu chúng ta cần. Nhược điểm: sự lặp lại của các đơn vị lựa chọn.

Quy trình xây dựng một mẫu ngẫu nhiên đơn giản bao gồm các bước sau:

1. Cần lập danh sách đầy đủ các thành viên của dân cư và đánh số vào danh sách này. Hãy nhớ lại, danh sách như vậy được gọi là khung lấy mẫu;

2. xác định cỡ mẫu dự kiến, tức là số lượng người trả lời dự kiến;

3. trích xuất bao nhiêu số từ bảng số ngẫu nhiên mà chúng ta cần đơn vị mẫu. Nếu cần có 100 người trong mẫu thì 100 số ngẫu nhiên sẽ được lấy từ bảng. Những số ngẫu nhiên này có thể được tạo ra bởi một chương trình máy tính.

4. chọn từ danh sách cơ sở những quan sát có số tương ứng với số ngẫu nhiên được viết

  • Lấy mẫu ngẫu nhiên đơn giản có lợi thế rõ ràng. Phương pháp này cực kỳ dễ hiểu. Kết quả của nghiên cứu có thể được khái quát hóa cho dân số đang được nghiên cứu. Hầu hết các phương pháp suy luận thống kê đều liên quan đến việc thu thập thông tin bằng cách sử dụng một mẫu ngẫu nhiên đơn giản. Tuy nhiên, phương pháp lấy mẫu ngẫu nhiên đơn giản có ít nhất bốn hạn chế đáng kể:

1. Thường rất khó để tạo ra một khung lấy mẫu cho phép lấy mẫu ngẫu nhiên đơn giản.

2. Việc lấy mẫu ngẫu nhiên đơn giản có thể tạo ra một quần thể lớn hoặc một quần thể phân bố trên một khu vực địa lý rộng lớn, làm tăng đáng kể thời gian và chi phí thu thập dữ liệu.

3. Kết quả lấy mẫu ngẫu nhiên đơn giản thường có đặc điểm là độ chính xác thấp và sai số chuẩn lớn hơn kết quả của các phương pháp xác suất khác.

4. Do sử dụng SRS, mẫu không mang tính đại diện có thể được hình thành. Mặc dù các mẫu thu được bằng cách lấy mẫu ngẫu nhiên đơn giản, về trung bình, đại diện đầy đủ cho tổng thể, nhưng một số trong số đó lại thể hiện cực kỳ sai lệch về tổng thể đang được nghiên cứu. Điều này đặc biệt có thể xảy ra khi cỡ mẫu nhỏ.

  • Lấy mẫu đơn giản không lặp lại. Cách thức lấy mẫu giống nhau, chỉ những lá bài có số đáp là không được trả về bộ bài.
  1. Lấy mẫu xác suất có hệ thống. Đây là phiên bản đơn giản của lấy mẫu xác suất đơn giản. Dựa trên danh sách dân số nói chung, người trả lời được chọn ở một khoảng nhất định (K). Giá trị của K được xác định ngẫu nhiên. Kết quả đáng tin cậy nhất đạt được với một quần thể đồng nhất, nếu không thì kích thước bước và một số kiểu tuần hoàn bên trong của mẫu có thể trùng nhau (trộn mẫu). Nhược điểm: giống như trong mẫu xác suất đơn giản.
  2. Lấy mẫu nối tiếp (cụm). Đơn vị lựa chọn là chuỗi thống kê (gia đình, trường học, đội, v.v.). Các yếu tố được chọn phải được kiểm tra đầy đủ. Việc lựa chọn các đơn vị thống kê có thể được tổ chức dưới dạng lấy mẫu ngẫu nhiên hoặc hệ thống. Nhược điểm: Có khả năng đồng nhất cao hơn so với dân số nói chung.
  3. Lấy mẫu khu vực. Trong trường hợp dân số không đồng nhất, trước khi sử dụng lấy mẫu xác suất với bất kỳ kỹ thuật chọn lọc nào, nên chia dân số thành các phần đồng nhất, mẫu như vậy được gọi là lấy mẫu huyện. Các nhóm phân vùng có thể bao gồm cả các thành tạo tự nhiên (ví dụ: các quận trong thành phố) và bất kỳ đặc điểm nào tạo thành cơ sở của nghiên cứu. Đặc điểm trên cơ sở thực hiện phân chia được gọi là đặc điểm phân tầng và phân vùng.
  4. "Mẫu thuận tiện. Quy trình lấy mẫu “tiện lợi” bao gồm việc thiết lập mối liên hệ với các đơn vị lấy mẫu “tiện lợi” - một nhóm sinh viên, một đội thể thao, bạn bè và hàng xóm. Nếu bạn muốn biết thông tin về phản ứng của mọi người đối với một khái niệm mới thì kiểu lấy mẫu này khá hợp lý. Lấy mẫu thuận tiện thường được sử dụng để kiểm tra trước các câu hỏi.

Mẫu phi xác suất

Việc lựa chọn trong một mẫu như vậy được thực hiện không theo nguyên tắc ngẫu nhiên mà theo tiêu chí chủ quan - tính sẵn có, tính điển hình, tính đại diện ngang nhau, v.v.

  1. Lấy mẫu hạn ngạch - mẫu được xây dựng như một mô hình tái tạo cấu trúc của tổng thể nói chung dưới dạng hạn ngạch (tỷ lệ) của các đặc điểm đang được nghiên cứu. Số lượng phần tử mẫu có sự kết hợp khác nhau của các đặc điểm nghiên cứu được xác định sao cho tương ứng với tỷ lệ (tỷ lệ) của chúng trong tổng thể chung. Vì vậy, ví dụ: nếu dân số chung của chúng ta bao gồm 5.000 người, trong đó 2.000 là phụ nữ và 3.000 là nam giới, thì trong mẫu hạn ngạch, chúng ta sẽ có 20 nữ và 30 nam, hoặc 200 nữ và 300 nam. Các mẫu hạn ngạch thường dựa trên các tiêu chí nhân khẩu học: giới tính, độ tuổi, khu vực, thu nhập, trình độ học vấn và các tiêu chí khác. Nhược điểm: thông thường những mẫu như vậy không mang tính đại diện vì không thể tính đến một số thông số xã hội cùng một lúc. Ưu điểm: nguyên liệu sẵn có.
  2. Phương pháp quả cầu tuyết. Mẫu được xây dựng như sau. Mỗi người trả lời, bắt đầu từ người đầu tiên, được hỏi thông tin liên lạc của bạn bè, đồng nghiệp, người quen của mình, những người phù hợp với điều kiện lựa chọn và có thể tham gia nghiên cứu. Như vậy, ngoại trừ bước đầu tiên, mẫu được hình thành với sự tham gia của chính đối tượng nghiên cứu. Phương pháp này thường được sử dụng khi cần tìm và phỏng vấn những nhóm người trả lời khó tiếp cận (ví dụ: người trả lời có thu nhập cao, người trả lời cùng nhóm nghề nghiệp, người trả lời có sở thích/mối quan tâm tương tự, v.v.)
  3. Lấy mẫu tự phát – lấy mẫu của cái gọi là “người đầu tiên bạn gặp”. Thường được sử dụng trong các cuộc thăm dò trên truyền hình và đài phát thanh. Kích thước và thành phần của các mẫu tự phát không được biết trước và chỉ được xác định bởi một tham số - hoạt động của người trả lời. Nhược điểm: không thể xác định được người trả lời đại diện cho nhóm dân cư nào và do đó, không thể xác định được tính đại diện.
  4. Khảo sát lộ trình – thường được sử dụng khi đơn vị nghiên cứu là gia đình. Trên bản đồ địa phương nơi tiến hành khảo sát, tất cả các đường phố đều được đánh số. Sử dụng bảng (trình tạo) các số ngẫu nhiên, các số lớn sẽ được chọn. Mỗi số lớn được coi là gồm 3 thành phần: số nhà (2-3 số đầu), số nhà, số chung cư. Ví dụ: số 14832: 14 là số đường trên bản đồ, 8 là số nhà, 32 là số căn hộ.
  5. Lấy mẫu khu vực với việc lựa chọn các đối tượng điển hình. Nếu sau khi phân vùng, một đối tượng điển hình được chọn từ mỗi nhóm, tức là. một đối tượng gần với mức trung bình về hầu hết các đặc điểm được nghiên cứu trong nghiên cứu, mẫu như vậy được gọi là khu vực hóa với việc lựa chọn các đối tượng điển hình.

6. Lấy mẫu phương thức. 7. lấy mẫu chuyên gia. 8. Mẫu không đồng nhất.

Chiến lược xây dựng nhóm

Việc lựa chọn các nhóm tham gia vào một thí nghiệm tâm lý được thực hiện bằng nhiều chiến lược khác nhau để đảm bảo rằng giá trị bên trong và bên ngoài được duy trì ở mức độ lớn nhất có thể.

Ngẫu nhiên hóa

Ngẫu nhiên hóa, hoặc lựa chọn ngẫu nhiên, được sử dụng để tạo các mẫu ngẫu nhiên đơn giản. Việc sử dụng mẫu như vậy dựa trên giả định rằng mỗi thành viên của tổng thể đều có khả năng được đưa vào mẫu như nhau. Ví dụ: để tạo một mẫu ngẫu nhiên gồm 100 sinh viên đại học, bạn có thể đặt những mảnh giấy có tên của tất cả sinh viên đại học vào một chiếc mũ, sau đó lấy 100 mảnh giấy ra khỏi đó - đây sẽ là một lựa chọn ngẫu nhiên (Goodwin J ., trang 147).

Lựa chọn theo cặp

Lựa chọn theo cặp- chiến lược xây dựng các nhóm lấy mẫu, trong đó các nhóm đối tượng được tạo thành từ các đối tượng tương đương về các thông số phụ có ý nghĩa đối với thử nghiệm. Chiến lược này hiệu quả đối với các thử nghiệm sử dụng nhóm thử nghiệm và nhóm đối chứng, với lựa chọn tốt nhất là có sự tham gia của các cặp sinh đôi (đơn sắc và cặp hợp tử), vì nó cho phép bạn tạo...

Lựa chọn địa tầng

Lựa chọn địa tầng- ngẫu nhiên hóa bằng việc phân bổ các tầng (hoặc cụm). Với phương pháp lấy mẫu này, dân số nói chung được chia thành các nhóm (tầng lớp) với những đặc điểm nhất định (giới tính, độ tuổi, sở thích chính trị, trình độ học vấn, mức thu nhập, v.v.) và các đối tượng có các đặc điểm tương ứng sẽ được chọn.

Mô hình gần đúng

Mô hình gần đúng- rút ra các mẫu giới hạn và khái quát hóa các kết luận về mẫu này cho quần thể rộng hơn. Ví dụ, với sự tham gia của sinh viên đại học năm thứ 2 vào nghiên cứu, dữ liệu của nghiên cứu này áp dụng cho “những người từ 17 đến 21 tuổi”. Khả năng chấp nhận những khái quát hóa như vậy là vô cùng hạn chế.

Mô hình hóa gần đúng là sự hình thành một mô hình, đối với một lớp hệ thống (quy trình) được xác định rõ ràng, mô tả hành vi của nó (hoặc hiện tượng mong muốn) với độ chính xác có thể chấp nhận được.

Ghi chú

Văn học

Nasledov A. D. Phương pháp toán học nghiên cứu tâm lý học. - St. Petersburg: Rech, 2004.

  • Ilyasov F.N. Tính đại diện của kết quả khảo sát trong nghiên cứu tiếp thị // Nghiên cứu xã hội học. 2011. Số 3. Trang 112-116.

Xem thêm

  • Trong một số loại nghiên cứu, mẫu được chia thành các nhóm:
    • thực nghiệm
    • điều khiển
  • Đội quân

Liên kết

  • Khái niệm lấy mẫu. Các đặc điểm chính của mẫu. Các kiểu lấy mẫu

Quỹ Wikimedia. 2010.

từ đồng nghĩa:

Xem “Lựa chọn” là gì trong các từ điển khác:

    vật mẫu- một nhóm đối tượng đại diện cho một nhóm dân cư cụ thể và được chọn để thực hiện một thí nghiệm hoặc nghiên cứu. Khái niệm đối lập là tổng thể chung. Một mẫu là một phần của dân số nói chung. Từ điển của một nhà tâm lý học thực tế. M.: AST,.... ... Bách khoa toàn thư tâm lý lớn

    vật mẫu- mẫu Một phần của tổng thể các phần tử được bao phủ bởi quan sát (thường được gọi là quần thể mẫu và mẫu là phương pháp lấy mẫu của chính quan sát). Trong thống kê toán học nó được chấp nhận... ... Hướng dẫn dịch thuật kỹ thuật

    - (mẫu) 1. Một lượng nhỏ của một sản phẩm, được chọn để đại diện cho toàn bộ số lượng của sản phẩm đó. Xem: bán theo mẫu. 2. Một lượng nhỏ hàng hóa được trao cho những người mua tiềm năng để họ có cơ hội thực hiện nó... ... Từ điển thuật ngữ kinh doanh

    Vật mẫu- một phần của tổng thể gồm các phần tử được quan sát bao phủ (thường được gọi là quần thể mẫu và mẫu là phương pháp lấy mẫu của chính quan sát). Trong thống kê toán học, nguyên tắc chọn ngẫu nhiên được áp dụng; Cái này… … Từ điển kinh tế và toán học

    - (mẫu) Lựa chọn ngẫu nhiên một nhóm nhỏ các phần tử từ quần thể chính, các đặc điểm của chúng được sử dụng để đánh giá toàn bộ quần thể nói chung. Phương pháp lấy mẫu được sử dụng khi việc khảo sát toàn bộ dân số quá tốn thời gian hoặc quá tốn kém... Từ điển kinh tế

    Cm… Từ điển đồng nghĩa

Nghiên cứu thống kê rất tốn công và tốn kém, vì vậy nảy sinh ý tưởng thay thế quan sát liên tục bằng quan sát có chọn lọc.

Mục tiêu chính của việc quan sát không liên tục là thu được các đặc điểm của tổng thể thống kê đang được nghiên cứu đối với phần được khảo sát.

quan sát có chọn lọc là phương pháp nghiên cứu thống kê trong đó các chỉ số chung của dân số chỉ được xác lập cho một phần duy nhất dựa trên quy định chọn lọc ngẫu nhiên.

Với phương pháp lấy mẫu, chỉ một phần nhất định của dân số đang được nghiên cứu được nghiên cứu và dân số thống kê cần nghiên cứu được gọi là dân số chung.

Một quần thể mẫu hay đơn giản là một mẫu có thể được gọi là một phần của các đơn vị được chọn từ tổng thể sẽ được nghiên cứu thống kê.

Tầm quan trọng của phương pháp lấy mẫu: với số lượng đơn vị nghiên cứu tối thiểu, nghiên cứu thống kê sẽ được thực hiện trong khoảng thời gian ngắn hơn và với ít tiền bạc và công sức nhất.

Trong dân số nói chung, tỷ lệ các đơn vị có đặc điểm đang được nghiên cứu được gọi là tỷ lệ chung (ký hiệu là R), và giá trị trung bình của tính trạng biến đổi đang được nghiên cứu là giá trị trung bình chung (ký hiệu là X).

Trong một quần thể mẫu, tỷ lệ của đặc điểm đang nghiên cứu gọi là tỷ lệ mẫu, hay phần (ký hiệu là w), giá trị trung bình trong mẫu là trung bình mẫu.

Nếu trong quá trình kiểm tra, tất cả các quy tắc của tổ chức khoa học của nó được tuân thủ, thì phương pháp lấy mẫu sẽ cho kết quả khá chính xác nên phương pháp này được khuyến khích sử dụng để kiểm tra số liệu quan trắc liên tục.

Phương pháp này đã trở nên phổ biến trong thống kê tiểu bang và ngoài ngành, bởi vì khi nghiên cứu số lượng đơn vị tối thiểu được nghiên cứu, nó cho phép nghiên cứu kỹ lưỡng và chính xác.

Dân số thống kê đang được nghiên cứu bao gồm các đơn vị có đặc điểm khác nhau. Thành phần của tổng thể mẫu có thể khác với thành phần của tổng thể; sự khác biệt giữa các đặc điểm của mẫu và tổng thể cấu thành sai số lấy mẫu.

Các lỗi cố hữu trong quan sát mẫu đặc trưng cho mức độ khác biệt giữa dữ liệu của quan sát mẫu và toàn bộ tổng thể. Các lỗi phát sinh trong quá trình quan sát mẫu được gọi là lỗi đại diện và được chia thành ngẫu nhiên và hệ thống.

Nếu quần thể mẫu không tái tạo chính xác toàn bộ quần thể do tính chất không liên tục của quan sát thì đây được gọi là lỗi ngẫu nhiên và kích thước của chúng được xác định với độ chính xác đủ dựa trên quy luật số lớn và lý thuyết xác suất.

Các lỗi hệ thống phát sinh do vi phạm nguyên tắc ngẫu nhiên trong việc lựa chọn các đơn vị dân số để quan sát.

2. Các loại và phương án lựa chọn

Kích thước của sai số lấy mẫu và các phương pháp xác định nó phụ thuộc vào loại và thiết kế của việc lựa chọn.

Có bốn loại lựa chọn dân số của các đơn vị quan sát:

1) ngẫu nhiên;

2) cơ khí;

3) điển hình;

4) nối tiếp (lồng nhau).

Lựa chọn ngẫu nhiên– phương pháp lựa chọn phổ biến nhất trong một mẫu ngẫu nhiên, nó còn được gọi là phương pháp rút thăm, trong đó một vé có số sê-ri được chuẩn bị cho từng đơn vị của tổng thể thống kê.

Tiếp theo, số lượng đơn vị cần thiết của tổng thể thống kê được chọn ngẫu nhiên. Trong các điều kiện này, mỗi vé trong số chúng đều có cùng xác suất được đưa vào mẫu, chẳng hạn như rút thăm trúng thưởng, khi trong tổng số vé phát hành, một phần nhất định của các số xảy ra tiền thắng được chọn ngẫu nhiên. Trong trường hợp này, tất cả các số đều có cơ hội bình đẳng để được đưa vào mẫu.

Lựa chọn cơ học- đây là phương pháp chia toàn bộ tổng thể thành các nhóm có khối lượng đồng nhất theo một tiêu chí ngẫu nhiên, sau đó mỗi nhóm chỉ lấy ra một đơn vị, tất cả các đơn vị của tổng thể thống kê đang nghiên cứu đều được sắp xếp trước theo một thứ tự nhất định, nhưng tùy theo cỡ mẫu mà số lượng đơn vị yêu cầu được chọn lọc một cách máy móc trong một khoảng thời gian nhất định.

Lựa chọn điển hình –Đây là phương pháp trong đó dân số thống kê đang nghiên cứu được chia theo một đặc điểm cơ bản, điển hình thành các nhóm đồng nhất về mặt chất lượng, các nhóm cùng loại, sau đó từ mỗi nhóm này, một số đơn vị nhất định được chọn ngẫu nhiên, tỷ lệ với trọng số cụ thể của nhóm trong toàn bộ dân số.

Lựa chọn điển hình cho kết quả chính xác hơn vì nó bao gồm đại diện của tất cả các nhóm điển hình trong mẫu.

Lựa chọn nối tiếp (cụm). Toàn bộ nhóm (chuỗi, tổ) được chọn ngẫu nhiên hoặc máy móc đều có thể được lựa chọn. Đối với mỗi nhóm hoặc chuỗi như vậy, việc quan sát liên tục được thực hiện và kết quả được chuyển đến toàn bộ dân số.

Độ chính xác của mẫu cũng phụ thuộc vào sơ đồ lấy mẫu. Việc lấy mẫu có thể được thực hiện theo sơ đồ lấy mẫu lặp lại hoặc không lặp lại.

Lựa chọn lại. Mỗi đơn vị hoặc chuỗi đã chọn sẽ được trả về toàn bộ tập hợp và có thể được nhập lại vào mẫu. Đây được gọi là sơ đồ bóng trả về.

Lựa chọn không lặp lại Mỗi đơn vị được khảo sát sẽ bị loại bỏ và không được trả lại cho dân cư nên không được khảo sát lại. Sơ đồ này được gọi là quả bóng không được trả lại.

Lấy mẫu không lặp lại cho kết quả chính xác hơn vì với cùng cỡ mẫu, quan sát bao gồm số lượng lớn hơn các đơn vị dân số được nghiên cứu.

Lựa chọn kết hợp có thể trải qua một hoặc nhiều giai đoạn. Một mẫu được gọi là một giai đoạn nếu một khi các đơn vị dân số được chọn được nghiên cứu.

Một mẫu được gọi là nhiều giai đoạn nếu việc chọn lọc tổng thể diễn ra theo từng giai đoạn, giai đoạn kế tiếp nhau và mỗi giai đoạn, giai đoạn chọn lọc đều có đơn vị lựa chọn riêng.

Lấy mẫu nhiều giai đoạn - ở tất cả các giai đoạn lấy mẫu, cùng một đơn vị lấy mẫu được giữ lại, nhưng một số giai đoạn, giai đoạn khảo sát lấy mẫu được thực hiện, khác nhau về phạm vi của chương trình khảo sát và cỡ mẫu.

Đặc điểm của các tham số của quần thể chung và quần thể mẫu được biểu thị bằng các ký hiệu sau:

N- số lượng dân số nói chung;

N- cỡ mẫu;

X- tổn thất chung;

X- trung bình mẫu;

R- cổ phần chung;

w – chia sẻ mẫu;

2 – độ phân tán chung (phương sai của đặc điểm trong dân số nói chung);

2 – phương sai mẫu có cùng đặc tính;

? – độ lệch chuẩn trong tổng thể;

? – độ lệch chuẩn của mẫu.

3. Lỗi lấy mẫu

Mỗi đơn vị trong một mẫu quan sát phải có cơ hội bình đẳng với những đơn vị khác để được chọn - đây là cơ sở của một mẫu ngẫu nhiên thích hợp.

Lấy mẫu ngẫu nhiên thích hợp là việc lựa chọn các đơn vị từ toàn bộ dân số bằng cách rút thăm hoặc các phương pháp tương tự khác.

Nguyên tắc ngẫu nhiên là việc bao gồm hoặc loại trừ một hạng mục khỏi mẫu không thể bị ảnh hưởng bởi bất kỳ yếu tố nào ngoài sự ngẫu nhiên.

Chia sẻ mẫu là tỷ số giữa số đơn vị trong quần thể mẫu với số đơn vị trong tổng thể chung:


Lựa chọn ngẫu nhiên thích hợp ở dạng thuần túy là hình thức ban đầu trong số tất cả các loại lựa chọn khác; nó chứa đựng và thực hiện các nguyên tắc cơ bản của quan sát thống kê có chọn lọc.

Hai loại chỉ số chung chính được sử dụng trong phương pháp lấy mẫu là giá trị trung bình của một đặc tính định lượng và giá trị tương đối của một đặc tính thay thế.

Tỷ lệ mẫu (w), hay độ đặc hiệu, được xác định bằng tỷ lệ số lượng đơn vị có đặc tính đang được nghiên cứu tôi,đến tổng số đơn vị trong quần thể mẫu (n):


Để mô tả độ tin cậy của các chỉ số mẫu, cần phân biệt giữa sai số lấy mẫu trung bình và sai số lấy mẫu tối đa.

Sai số lấy mẫu hay còn gọi là sai số đại diện là sự khác biệt giữa mẫu tương ứng và đặc điểm chung:

?x =|x – x|;

?w =|x – p|.

Chỉ các quan sát mẫu mới có thể xảy ra lỗi lấy mẫu.

Giá trị trung bình mẫu và tỷ lệ mẫu– đây là các biến ngẫu nhiên có các giá trị khác nhau tùy thuộc vào đơn vị của tổng thể thống kê đang được nghiên cứu được đưa vào mẫu. Theo đó, sai số lấy mẫu cũng là biến ngẫu nhiên và cũng có thể mang những giá trị khác nhau. Do đó, mức trung bình của các lỗi có thể xảy ra được xác định - lỗi lấy mẫu trung bình.

Sai số lấy mẫu trung bình được xác định bởi cỡ mẫu: số lượng càng lớn, các yếu tố khác bằng nhau thì sai số lấy mẫu trung bình càng nhỏ. Bằng cách bao gồm số lượng ngày càng tăng các đơn vị của dân số nói chung bằng một cuộc khảo sát mẫu, chúng tôi mô tả đặc điểm của toàn bộ dân số nói chung ngày càng chính xác hơn.

Sai số lấy mẫu trung bình phụ thuộc vào mức độ biến thiên của đặc tính đang được nghiên cứu, lần lượt mức độ biến thiên được đặc trưng bởi độ phân tán? 2 hoặc w(l – w)- cho một dấu hiệu thay thế. Sự biến đổi và phân tán tính trạng càng nhỏ thì sai số lấy mẫu trung bình càng nhỏ và ngược lại.

Trong trường hợp lấy mẫu lặp lại ngẫu nhiên, sai số trung bình được tính theo lý thuyết bằng các công thức sau:

1) đối với đặc tính định lượng trung bình:


Ở đâu? 2 – giá trị trung bình của độ phân tán của đặc tính định lượng.

2) để chia sẻ (thuộc tính thay thế):


Vậy phương sai của một tính trạng trong quần thể là gì? 2 chưa được biết chính xác, trong thực tế họ sử dụng giá trị độ phân tán S 2 được tính cho quần thể mẫu trên cơ sở định luật số lớn, theo đó quần thể mẫu với cỡ mẫu đủ lớn sẽ tái tạo khá chính xác đặc điểm của dân số nói chung.

Các công thức tính sai số lấy mẫu trung bình cho việc lấy mẫu lại ngẫu nhiên như sau. Đối với giá trị trung bình của đặc tính định lượng: phương sai tổng quát được biểu thị thông qua phương sai chọn lọc theo quan hệ sau:


trong đó S 2 là giá trị phân tán.

Lấy mẫu cơ học– đây là việc lựa chọn các đơn vị thành một quần thể mẫu từ tổng thể chung, được chia theo tiêu chí trung lập thành các nhóm bằng nhau; Nó được thực hiện sao cho từ mỗi nhóm như vậy chỉ có một đơn vị được chọn làm mẫu.

Trong lấy mẫu cơ học, các đơn vị của tổng thể thống kê đang được nghiên cứu được sắp xếp sơ bộ theo một thứ tự nhất định, sau đó một số đơn vị nhất định được chọn một cách máy móc trong một khoảng thời gian nhất định. Trong trường hợp này, kích thước của khoảng trong tổng thể bằng giá trị nghịch đảo của tỷ lệ mẫu.

Với quần thể đủ lớn, việc chọn lọc cơ học gần giống với tự ngẫu nhiên xét về độ chính xác của kết quả, do đó, để xác định sai số trung bình của lấy mẫu cơ học, người ta sử dụng các công thức lấy mẫu tự ngẫu nhiên không lặp lại.

Để chọn các đơn vị từ một quần thể không đồng nhất, cái gọi là mẫu điển hình được sử dụng, nó được sử dụng khi tất cả các đơn vị của tổng thể nói chung có thể được chia thành nhiều nhóm tương tự, đồng nhất về chất lượng theo các đặc điểm mà các chỉ số được nghiên cứu phụ thuộc vào.

Sau đó, từ mỗi nhóm điển hình, việc lựa chọn các đơn vị riêng lẻ vào quần thể mẫu được thực hiện bằng cách sử dụng mẫu hoàn toàn ngẫu nhiên hoặc cơ học.

Lấy mẫu mẫu thường được sử dụng khi nghiên cứu các quần thể thống kê phức tạp.

Lấy mẫu điển hình cho kết quả chính xác hơn. Việc gõ tổng thể chung đảm bảo tính đại diện của mẫu đó, tính đại diện của từng nhóm loại hình trong đó, giúp loại bỏ ảnh hưởng của sự phân tán giữa các nhóm đối với sai số lấy mẫu trung bình. Do đó, khi xác định sai số trung bình của một mẫu điển hình, giá trị trung bình của các phương sai trong nhóm đóng vai trò là chỉ báo về sự biến thiên.

Lấy mẫu nối tiếp bao gồm việc lựa chọn ngẫu nhiên từ một quần thể chung gồm các nhóm bằng nhau để quan sát tất cả các đơn vị trong các nhóm đó mà không có ngoại lệ.

Vì trong các nhóm (chuỗi) tất cả các đơn vị không có ngoại lệ đều được kiểm tra nên sai số lấy mẫu trung bình (khi chọn các chuỗi bằng nhau) chỉ phụ thuộc vào độ phân tán giữa các nhóm (giữa các chuỗi).

4. Phương pháp phổ biến kết quả mẫu tới cộng đồng dân cư

Các đặc điểm của dân số dựa trên kết quả mẫu là mục tiêu cuối cùng của việc quan sát mẫu.

Phương pháp lấy mẫu được sử dụng để thu được các đặc điểm của dân số theo các chỉ số mẫu nhất định. Tùy thuộc vào mục đích của nghiên cứu, việc này được thực hiện bằng cách tính toán lại trực tiếp các chỉ số mẫu cho dân số nói chung hoặc bằng cách tính toán các hệ số hiệu chỉnh.

Phương pháp tính toán lại trực tiếp là sử dụng các chỉ số chia sẻ mẫu w hoặc trung bình Xáp dụng cho dân số nói chung, có tính đến lỗi lấy mẫu.

Phương pháp hiệu chỉnh hệ số được sử dụng khi mục đích của phương pháp lấy mẫu là làm rõ kết quả tính toán liên tục. Phương pháp này được sử dụng để làm rõ dữ liệu từ các cuộc điều tra dân số chăn nuôi hàng năm.

Kế hoạch:

1. Các vấn đề về thống kê toán học.

2. Các loại mẫu.

3. Các phương pháp tuyển chọn.

4. Phân phối thống kê của mẫu.

5. Hàm phân phối theo kinh nghiệm.

6. Đa giác và biểu đồ.

7. Đặc điểm số của chuỗi biến thể.

8. Ước tính thống kê các tham số phân phối.

9. Ước tính khoảng thời gian của các tham số phân phối.

1. Bài toán và phương pháp thống kê toán học

Thống kê toán học là một nhánh của toán học dành cho các phương pháp thu thập, phân tích và xử lý kết quả dữ liệu quan sát thống kê cho mục đích khoa học và thực tiễn.

Cần phải nghiên cứu một tập hợp các đối tượng đồng nhất về một số đặc điểm định tính hoặc định lượng đặc trưng cho các đối tượng này. Ví dụ: nếu có một lô bộ phận, thì tiêu chuẩn của bộ phận đó có thể đóng vai trò là dấu hiệu định tính và kích thước được kiểm soát của bộ phận có thể đóng vai trò là dấu hiệu định lượng.

Đôi khi một nghiên cứu hoàn chỉnh được thực hiện, tức là. mỗi đối tượng được kiểm tra các đặc tính cần thiết. Trong thực tế, một cuộc khảo sát đầy đủ hiếm khi được sử dụng. Ví dụ: nếu một quần thể có số lượng đối tượng rất lớn thì về mặt vật lý không thể tiến hành một cuộc khảo sát toàn diện. Nếu việc khảo sát một đối tượng gắn liền với việc nó bị phá hủy hoặc đòi hỏi chi phí vật chất lớn thì việc tiến hành một cuộc khảo sát hoàn chỉnh sẽ không có ý nghĩa gì. Trong những trường hợp như vậy, một số lượng hạn chế các đối tượng được chọn ngẫu nhiên từ toàn bộ quần thể (dân số mẫu) và được nghiên cứu.

Nhiệm vụ chính của thống kê toán học là nghiên cứu toàn bộ dân số bằng cách sử dụng dữ liệu mẫu, tùy thuộc vào mục tiêu, tức là. nghiên cứu các đặc tính xác suất của dân số: quy luật phân bố, các đặc tính số, v.v. để đưa ra các quyết định quản lý trong điều kiện không chắc chắn.

2. Các loại mẫu

Dân số là tập hợp các đối tượng mà từ đó mẫu được tạo ra.

Dân số mẫu (mẫu) là tập hợp các đối tượng được chọn ngẫu nhiên.

Mật độ dân số là số lượng đối tượng trong bộ sưu tập này. Quy mô dân số được biểu thị bằng N, chọn lọc – n.

Ví dụ:

Nếu trong số 1000 phần 100 phần được chọn để kiểm tra thì khối lượng dân số nói chung N = 1000 và cỡ mẫu n = 100.

Có hai cách để chọn mẫu: sau khi một đối tượng được chọn và quan sát, nó có thể được trả lại cho quần thể hoặc không. Cái đó. mẫu được chia thành lặp lại và không lặp lại.

Lặp lạigọi điện vật mẫu, trong đó đối tượng đã chọn (trước khi chọn đối tượng tiếp theo) được trả về tổng thể.

lặp lạigọi điện vật mẫu, trong đó đối tượng được chọn không được trả lại cho quần thể.

Trong thực tế, việc lấy mẫu ngẫu nhiên lặp lại thường được sử dụng.

Để có thể đánh giá một cách đủ tin cậy về đặc điểm của tổng thể quan tâm dựa trên dữ liệu mẫu, điều cần thiết là các đối tượng mẫu phải thể hiện chính xác đặc điểm đó. Mẫu phải thể hiện chính xác tỷ lệ của tổng thể. Mẫu nên được người đại diện (đại diện).

Do luật số lớn, có thể lập luận rằng mẫu sẽ mang tính đại diện nếu nó được thực hiện ngẫu nhiên.

Nếu quy mô của quần thể đủ lớn và mẫu chỉ chiếm một phần nhỏ của quần thể này thì sự khác biệt giữa mẫu lặp lại và mẫu không lặp lại sẽ bị xóa bỏ; trong trường hợp giới hạn, khi xem xét một quần thể vô hạn và mẫu có kích thước hữu hạn thì sự khác biệt này sẽ biến mất.

Ví dụ:

Tạp chí Literary Review của Mỹ, sử dụng phương pháp thống kê, đã thực hiện một nghiên cứu về các dự báo liên quan đến kết quả của cuộc bầu cử tổng thống Mỹ sắp tới vào năm 1936. Những người tranh cử cho vị trí này là F.D. Roosevelt và A. M. Landon. Danh bạ điện thoại được lấy làm nguồn nghiên cứu cho người dân Mỹ nói chung. Trong số này, 4 triệu địa chỉ được chọn ngẫu nhiên, các biên tập viên của tạp chí đã gửi bưu thiếp yêu cầu họ bày tỏ thái độ đối với các ứng cử viên cho chức tổng thống. Sau khi xử lý kết quả khảo sát, tạp chí đã công bố một dự báo xã hội học rằng Landon sẽ giành chiến thắng trong cuộc bầu cử sắp tới với tỷ số cách biệt lớn. Và... tôi đã nhầm: Roosevelt đã thắng.
Ví dụ này có thể được coi là một ví dụ về mẫu không mang tính đại diện. Thực tế là ở Hoa Kỳ vào nửa đầu thế kỷ 20, chỉ có bộ phận dân chúng giàu có ủng hộ quan điểm của Landon mới có điện thoại.

3. Phương pháp tuyển chọn

Trong thực tế, nhiều phương pháp lựa chọn khác nhau được sử dụng, có thể chia thành 2 loại:

1. Lựa chọn không yêu cầu chia quần thể thành các phần (a) ngẫu nhiên đơn giản không lặp lại; b) lặp lại ngẫu nhiên đơn giản).

2. Lựa chọn, trong đó dân số được chia thành nhiều phần. (MỘT) lựa chọn điển hình; b) lựa chọn cơ học; V) nối tiếp lựa chọn).

Ngẫu nhiên đơn giản họ gọi đây là lựa chọn, trong đó các đối tượng được trích xuất lần lượt từ toàn bộ tập hợp (ngẫu nhiên).

Đặc trưnggọi điện lựa chọn, trong đó các đối tượng được chọn không phải từ toàn bộ quần thể mà từ từng phần “điển hình” của nó. Ví dụ: nếu một bộ phận được sản xuất trên một số máy, thì việc lựa chọn không được thực hiện từ toàn bộ bộ bộ phận được sản xuất bởi tất cả các máy mà từ các sản phẩm của từng máy riêng biệt. Lựa chọn này được sử dụng khi đặc điểm đang được kiểm tra thay đổi đáng kể ở các bộ phận “điển hình” khác nhau của dân số nói chung.

Cơ khígọi điện lựa chọn, trong đó tổng thể nói chung được chia một cách “một cách máy móc” thành nhiều nhóm tùy theo số lượng đối tượng cần được đưa vào mẫu và một đối tượng được chọn từ mỗi nhóm. Ví dụ: nếu bạn cần chọn 20% số bộ phận do máy sản xuất thì cứ 5 bộ phận sẽ được chọn; nếu bạn cần chọn 5% số bộ phận - cứ sau 20 ngày, v.v. Đôi khi việc lựa chọn như vậy có thể không đảm bảo tính đại diện của mẫu (nếu cứ chọn con lăn nghiền thứ 20 và dao cắt được thay thế ngay sau khi chọn thì tất cả các con lăn quay bằng dao cắt cùn sẽ được chọn).

nối tiếpgọi điện lựa chọn, trong đó các đối tượng được chọn từ tổng thể không phải từng đối tượng một mà theo “chuỗi”, đối tượng phải được khảo sát liên tục. Ví dụ: nếu sản phẩm được sản xuất bởi một nhóm lớn máy tự động thì sản phẩm của chỉ một số ít máy sẽ phải được kiểm tra toàn diện.

Trong thực tế, lựa chọn kết hợp thường được sử dụng trong đó các phương pháp trên được kết hợp.

4. Phân phối thống kê của mẫu

Lấy một mẫu từ tổng thể chung và giá trị x 1–quan sát được một lần, x 2 -n 2 lần,... x k - n k lần. n= n 1 +n 2 +...+n k – cỡ mẫu. Giá trị quan sátđược gọi là tùy chọn, và dãy các phương án viết theo thứ tự tăng dần là chuỗi biến thể. Số lượng quan sátđược gọi là tần số (tần số tuyệt đối) và mối quan hệ của chúng với cỡ mẫu- tần số tương đối hoặc xác suất thống kê.

Nếu số lượng biến thể lớn hoặc mẫu được lấy từ một quần thể liên tục, thì chuỗi biến thể được tổng hợp không phải từ các giá trị điểm riêng lẻ mà từ các khoảng giá trị trong quần thể. Chuỗi biến thể như vậy được gọi là khoảng thời gian.Độ dài của các khoảng phải bằng nhau.

Phân phối mẫu thống kê được gọi là danh sách các tùy chọn và tần số tương ứng hoặc tần số tương đối của chúng.

Phân phối thống kê cũng có thể được chỉ định dưới dạng một chuỗi các khoảng và tần số tương ứng của chúng (tổng tần số nằm trong khoảng giá trị này)

Một chuỗi tần số biến đổi điểm có thể được biểu diễn bằng bảng:

x tôi
x 1
x 2

xk
và tôi
n 1
n 2

n k

Tương tự, người ta có thể tưởng tượng một chuỗi biến thiên điểm có tần số tương đối.

Hơn thế nữa:

Ví dụ:

Số chữ cái trong một văn bản X nào đó hóa ra bằng 1000. Chữ cái đầu tiên gặp là chữ “i”, chữ cái thứ hai là chữ “i”, chữ cái thứ ba là chữ “a”, chữ cái thứ tư là “ yu”. Sau đó là các chữ cái “o”, “e”, “u”, “e”, “s”.

Hãy viết ra vị trí chúng chiếm trong bảng chữ cái, lần lượt chúng ta có: 33, 10, 1, 32, 16, 6, 21, 31, 29.

Sau khi sắp xếp các số này theo thứ tự tăng dần, chúng ta có dãy biến thể: 1, 6, 10, 16, 21, 29, 31, 32, 33.

Tần suất xuất hiện của các chữ cái trong văn bản: “a” - 75, “e” - 87, “i” - 75, “o” - 110, “u” - 25, “s” - 8, “e” - 3 , “yu” "- 7, "Tôi" - 22.

Hãy tạo một chuỗi tần số biến đổi điểm:

Ví dụ:

Phân phối tần số lấy mẫu khối lượng được chỉ định n = 20.

Tạo một chuỗi biến đổi điểm có tần số tương đối.

x tôi

2

6

12

và tôi

3

10

7

Giải pháp:

Hãy tìm tần số tương đối:


x tôi

2

6

12

Wi

0,15

0,5

0,35

Khi xây dựng phân bố khoảng, có các quy tắc để chọn số khoảng hoặc kích thước của mỗi khoảng. Tiêu chí ở đây là tỷ lệ tối ưu: khi số lượng khoảng tăng lên, tính đại diện được cải thiện, nhưng khối lượng dữ liệu và thời gian xử lý nó sẽ tăng lên. Sự khác biệt x max - x min giữa giá trị lớn nhất và nhỏ nhất tùy chọn được gọi phạm vi mẫu.

Để đếm số khoảng k Thông thường, công thức Sturgess theo kinh nghiệm được sử dụng (ngụ ý làm tròn đến số nguyên thuận tiện gần nhất): k = 1 + 3,322 log n.

Theo đó, kích thước của mỗi khoảng h có thể được tính bằng công thức:

5. Hàm phân phối theo kinh nghiệm

Hãy xem xét một số mẫu từ dân số nói chung. Cho biết phân bố tần số thống kê của đặc tính định lượng X. Chúng ta đưa ra ký hiệu: n x- số lượng quan sát trong đó quan sát được giá trị đặc trưng nhỏ hơn x; N – tổng số quan sát (cỡ mẫu). Tần suất tương đối của sự kiện X<х равна nx/n. Nếu x thay đổi thì tần số tương đối cũng thay đổi, tức là tần số tương đốinx /n- có hàm số x. Bởi vì nó được tìm thấy bằng thực nghiệm thì nó được gọi là thực nghiệm.

Hàm phân phối theo kinh nghiệm (hàm phân phối mẫu) gọi hàm, xác định cho mỗi x tần suất tương đối của sự kiện X<х.


số tùy chọn nhỏ hơn x ở đâu,

n - cỡ mẫu.

Ngược lại với hàm phân phối thực nghiệm của một mẫu, hàm phân phối F(x) của tổng thể được gọi là hàm phân phối lý thuyết.

Sự khác biệt giữa hàm phân bố thực nghiệm và lý thuyết là hàm lý thuyết F(x) xác định xác suất của sự kiện X F*(x) có xu hướng xác suất bằng xác suất F(x) của sự kiện này. Nghĩa là, với n lớn F*(x) và F(x) khác nhau một chút.

Cái đó. Nên sử dụng hàm phân phối thực nghiệm của mẫu để ước tính hàm phân phối lý thuyết (tích phân) của tổng thể nói chung.

F*(x) có tất cả các thuộc tính F(x).

1. Giá trị F*(x) thuộc khoảng.

2. F*(x) là hàm không giảm.

3. Nếu là phương án nhỏ nhất thì F*(x) = 0, với x < x 1 ; nếu x k là tùy chọn lớn nhất thì F*(x) = 1, với x > x k.

Những thứ kia. F*(x) dùng để ước tính F(x).

Nếu mẫu được cho bởi một chuỗi biến thiên thì hàm thực nghiệm có dạng:

Đồ thị của hàm thực nghiệm được gọi là tích lũy.

Ví dụ:

Vẽ đồ thị hàm thực nghiệm từ phân phối mẫu đã cho.


Giải pháp:

Cỡ mẫu n = 12 + 18 +30 = 60. Tùy chọn nhỏ nhất là 2, tức là. tại x < 2. Sự kiện X<6, (x 1 = 2) наблюдалось 12 раз, т.е. F*(x)=12/60=0,2 lúc 2 giờ < x < 6. Sự kiện X<10, (x 1 =2, x 2 = 6) наблюдалось 12 + 18 = 30 раз, т.е.F*(x)=30/60=0,5 при 6 < x < 10. Bởi vì x=10 là phương án lớn nhất thì F*(x) = 1 tại x>10. Hàm thực nghiệm mong muốn có dạng:

tích lũy:


Tích lũy giúp có thể hiểu thông tin được trình bày bằng đồ họa, ví dụ: trả lời các câu hỏi: “Xác định số lượng quan sát trong đó giá trị của thuộc tính nhỏ hơn 6 hoặc không nhỏ hơn 6. F*(6) =0,2 "Khi đó số lượng quan sát trong đó giá trị của đặc tính được quan sát nhỏ hơn 6 là 0,2* N = 0,2*60 = 12. Số lượng quan sát trong đó giá trị của đặc tính quan sát được ít nhất là 6 bằng (1-0,2)* n = 0,8*60 = 48.

Nếu một chuỗi biến thiên theo khoảng được đưa ra, thì để biên soạn hàm phân phối theo kinh nghiệm, các điểm giữa của các khoảng được tìm thấy và từ chúng, hàm phân phối theo kinh nghiệm thu được tương tự như chuỗi biến thiên điểm.

6. Đa giác và biểu đồ

Để rõ ràng, các biểu đồ phân phối thống kê khác nhau được xây dựng: đa thức và biểu đồ

Dải tần số -đây là một đường đứt nét, các đoạn nối các điểm ( x 1 ; n 1 ), ( x 2 ; n 2 ),…, ( x k ; n k ), đâu là các lựa chọn và tần số tương ứng.

Đa giác tần số tương đối -đây là một đường đứt nét, các đoạn nối các điểm ( x 1 ; w 1 ), ( x 2 ; w 2 ),…, ( x k ; w k ), trong đó x i là các tùy chọn, w i là tần số tương đối tương ứng với họ.

Ví dụ:

Xây dựng đa thức tần số tương đối từ phân bố lấy mẫu đã cho:

Giải pháp:

Trong trường hợp đặc tính liên tục, nên xây dựng biểu đồ, trong đó khoảng chứa tất cả các giá trị quan sát được của đặc tính được chia thành nhiều khoảng từng phần có độ dài h và cho mỗi khoảng một phần n i được tìm thấy - tổng tần số của các biến thể rơi vào khoảng thứ i. (Ví dụ: khi đo chiều cao hoặc cân nặng của một người, chúng ta đang xử lý thuộc tính liên tục).

Biểu đồ tần số-Đây là một hình bậc thang bao gồm các hình chữ nhật, các đáy của chúng là các khoảng một phần có chiều dài h và chiều cao bằng tỷ số (mật độ tần số).

Quảng trường Hình chữ nhật một phần thứ i bằng tổng tần số của biến thể khoảng thứ i, tức là Diện tích của biểu đồ tần số bằng tổng của tất cả các tần số, tức là. cỡ mẫu.

Ví dụ:

Kết quả của sự thay đổi điện áp (tính bằng volt) trong mạng điện được đưa ra. Tạo chuỗi biến thể, xây dựng đa giác và biểu đồ tần số nếu các giá trị điện áp như sau: 227, 215, 230, 232, 223, 220, 228, 222, 221, 226, 226, 215, 218, 220, 216, 220, 225, 212, 217, 220.

Giải pháp:

Hãy tạo một chuỗi biến thể. Ta có n = 20, x min = 212, x max = 232.

Hãy áp dụng công thức Sturgess để tính số khoảng.

Chuỗi biến thiên theo khoảng của tần số có dạng:


Mật độ tần số

212-21 6

0,75

21 6-22 0

0,75

220-224

1,75

224-228

228-232

0,75

Hãy xây dựng biểu đồ tần số:

Trước tiên hãy xây dựng một đa giác tần số bằng cách tìm điểm giữa của các khoảng:


Biểu đồ tần số tương đốiđược gọi là một hình bậc bao gồm các hình chữ nhật, các đáy của chúng là các đoạn có chiều dài h và chiều cao bằng tỷ số w Tôi/h (mật độ tần số tương đối).

Quảng trường Hình chữ nhật một phần thứ i bằng tần số tương đối của các biến thể rơi vào khoảng thứ i. Những thứ kia. diện tích biểu đồ của tần số tương đối bằng tổng của tất cả các tần số tương đối, tức là đơn vị.

7. Đặc điểm số của chuỗi biến thể

Hãy xem xét các đặc điểm chính của quần thể chung và mẫu.

Phổ thôngđược gọi là giá trị trung bình số học của các giá trị đặc trưng của tổng thể.

Đối với các giá trị khác nhau x 1, x 2, x 3, ..., x n. đặc trưng của tổng thể của khối N ta có:

Nếu các giá trị đặc tính có tần số tương ứng N 1 +N 2 +…+N k =N thì


Trung bình mẫuđược gọi là giá trị trung bình số học của các giá trị đặc trưng của quần thể mẫu.

Nếu các giá trị đặc trưng có tần số tương ứng n 1 +n 2 +…+n k = n thì


Ví dụ:

Tính giá trị trung bình mẫu của mẫu: x 1 = 51,12; x 2 = 51,07, x 3 = 52,95; x 4 = 52,93, x 5 = 51,1, x 6 = 52,98; x 7 = 52,29; x 8 = 51,23; x 9 = 51,07; x 10 = 51,04.

Giải pháp:

Phương sai chungđược gọi là giá trị trung bình số học của độ lệch bình phương của các giá trị đặc tính X của tổng thể so với giá trị trung bình chung.

Với các giá trị x 1 , x 2 , x 3 , ..., x N khác nhau của đặc tính tổng thể của khối N ta có:

Nếu các giá trị đặc tính có tần số tương ứng N 1 +N 2 +…+N k =N thì

Độ lệch chuẩn chung (tiêu chuẩn) gọi là căn bậc hai của phương sai tổng quát

Phương sai mẫuđược gọi là giá trị trung bình số học của độ lệch bình phương của các giá trị quan sát được của một đặc tính so với giá trị trung bình.

Với các giá trị x 1, x 2, x 3, ..., x n khác nhau của đặc trưng quần thể mẫu của tập n ta có:


Nếu các giá trị đặc trưng có tần số tương ứng n 1 +n 2 +…+n k = n thì


Độ lệch chuẩn mẫu (tiêu chuẩn)được gọi là căn bậc hai của phương sai mẫu.


Ví dụ:

Quần thể mẫu được xác định bởi bảng phân phối. Tìm phương sai mẫu.


Giải pháp:

Định lý: Phương sai bằng hiệu giữa bình phương trung bình của các giá trị thuộc tính và bình phương của giá trị trung bình tổng thể.

Ví dụ:

Tìm phương sai của phân phối này.



Giải pháp:

8. Ước tính thống kê các tham số phân phối

Hãy để dân số nói chung được nghiên cứu bằng cách sử dụng một mẫu nhất định. Trong trường hợp này, chỉ có thể nhận được giá trị gần đúng của tham số Q chưa biết, dùng làm ước tính của nó. Rõ ràng, ước tính có thể khác nhau giữa các mẫu.

Đánh giá thống kêHỏi* Tham số chưa biết của phân bố lý thuyết được gọi là hàm f, tùy thuộc vào các giá trị mẫu được quan sát. Nhiệm vụ ước tính thống kê các tham số chưa biết từ một mẫu là xây dựng một hàm từ dữ liệu quan sát thống kê có sẵn để đưa ra các giá trị gần đúng chính xác nhất của giá trị thực mà nhà nghiên cứu chưa biết, giá trị của các tham số này.

Ước tính thống kê được chia thành điểm và khoảng, tùy thuộc vào phương pháp trình bày của chúng (số lượng hoặc khoảng).

Một điểm là một ước tính thống kê tham số Q của phân bố lý thuyết được xác định bởi một giá trị của tham số Q *=f (x 1, x 2, ..., x n), trong đóx 1 , x 2 , ..., xn- kết quả quan sát thực nghiệm về đặc tính định lượng X của một mẫu nhất định.

Các ước tính tham số như vậy thu được từ các mẫu khác nhau thường khác nhau. Hiệu tuyệt đối /Q *-Q / được gọi là lỗi lấy mẫu (ước tính).

Để ước tính thống kê tạo ra kết quả đáng tin cậy về các tham số được ước tính, chúng phải khách quan, hiệu quả và nhất quán.

Ước tính điểm, kỳ vọng toán học bằng (không bằng) tham số ước tính được gọi là không dịch chuyển (đã dịch chuyển). M(Q *)=Q .

Chênh lệch M( Q*)-Q được gọi là sai lệch hoặc lỗi hệ thống. Đối với các ước tính không thiên vị, độ lệch là 0.

Hiệu quả đánh giá Q *, với cỡ mẫu n cho trước có phương sai nhỏ nhất có thể có: D phút(n = const). Công cụ ước tính hiệu quả có phương sai nhỏ nhất so với các công cụ ước tính không thiên vị và nhất quán khác.

Giàu cógọi đây là thống kê đánh giá Q*, mà đối với ncó xu hướng xác suất theo tham số ước tính Q , I E. với kích thước mẫu ngày càng tăng N ước tính có xu hướng xác suất đến giá trị thực của tham số Q.

Yêu cầu về tính nhất quán phải phù hợp với quy luật số lớn: thông tin ban đầu về đối tượng nghiên cứu càng nhiều thì kết quả càng chính xác. Nếu cỡ mẫu nhỏ thì ước lượng điểm của tham số có thể dẫn đến sai sót nghiêm trọng.

tôi thích nó Khối lượng mẫuN) có thể được coi là một tập hợp có thứ tựx 1 , x 2 , ..., xn các biến ngẫu nhiên được phân phối độc lập giống hệt nhau.

Phương tiện mẫu cho các cỡ mẫu khác nhau N từ cùng một quần thể sẽ khác nhau. Nghĩa là, giá trị trung bình mẫu có thể được coi là một biến ngẫu nhiên, có nghĩa là chúng ta có thể nói về sự phân bố của giá trị trung bình mẫu và các đặc tính số của nó.

Giá trị trung bình mẫu đáp ứng tất cả các yêu cầu áp đặt cho ước tính thống kê, tức là đưa ra ước tính khách quan, hiệu quả và nhất quán về giá trị trung bình chung.

Có thể chứng minh rằng. Do đó, phương sai mẫu là ước tính sai lệch của phương sai tổng thể, đánh giá thấp nó. Tức là với cỡ mẫu nhỏ sẽ tạo ra sai số hệ thống. Để có một ước tính nhất quán, không thiên vị, chỉ cần lấy giá trị, được gọi là phương sai đã hiệu chỉnh. Đó là

Trong thực tế, để ước lượng phương sai tổng quát, phương sai đã hiệu chỉnh được sử dụng tại N < 30. Trong các trường hợp khác ( n >30) độ lệch so với khó nhận thấy. Vì vậy, đối với các giá trị lớn N sai số offset có thể được bỏ qua.

Người ta cũng có thể chứng minh rằng tần số tương đốin i / n là ước tính xác suất không thiên vị và nhất quán P (X = x tôi ). Hàm phân phối theo kinh nghiệm F*(x ) là ước tính không thiên vị và nhất quán của hàm phân phối lý thuyết F(x)=P(X< x ).

Ví dụ:

Tìm các ước tính không thiên vị về giá trị kỳ vọng và phương sai từ bảng mẫu.

x tôi
và tôi

Giải pháp:

Cỡ mẫu n = 20.

Ước tính không thiên vị của kỳ vọng toán học là giá trị trung bình mẫu.


Để tính toán ước lượng phương sai không thiên vị, trước tiên chúng ta tìm phương sai mẫu:

Bây giờ hãy tìm ước tính khách quan:

9. Ước tính khoảng thời gian của các tham số phân phối

Khoảng thời gian là ước tính thống kê được xác định bởi hai giá trị số - phần cuối của khoảng thời gian đang nghiên cứu.

Con số> 0, trong đó | Q - Q *|< , đặc trưng cho độ chính xác của ước tính khoảng.

Đáng tin cậygọi điện khoảng thời gian , với một xác suất cho trướcbao gồm giá trị tham số không xác định Q . Bổ sung khoảng tin cậy cho tập hợp tất cả các giá trị có thể có của tham số Q gọi điện khu vực quan trọng. Nếu vùng tới hạn chỉ nằm ở một phía của khoảng tin cậy thì khoảng tin cậy được gọi là một bên: bên trái, nếu vùng tới hạn chỉ tồn tại ở bên trái và thuận tay phải nếu chỉ ở bên phải. Ngược lại, khoảng tin cậy được gọi là song phương.

Độ tin cậy, hoặc mức độ tin cậy, ước tính Q (sử dụng Q *) là xác suất để thỏa mãn bất đẳng thức sau: | Q - Q *|< .

Thông thường, xác suất tin cậy được đặt trước (0,95; 0,99; 0,999) và yêu cầu được đặt ra là nó phải gần bằng một.

Xác suấtgọi điện xác suất xảy ra lỗi hoặc mức độ quan trọng.

Hãy | Q - Q *|< , Sau đó. Điều này có nghĩa là với xác suấtcó thể lập luận rằng giá trị thực của tham số Q thuộc về khoảng. Độ lệch càng nhỏ, ước tính càng chính xác.

Các ranh giới (kết thúc) của khoảng tin cậy được gọi là giới hạn tin cậy hoặc giới hạn tới hạn.

Các giá trị của giới hạn khoảng tin cậy phụ thuộc vào quy luật phân bố của tham số Hỏi*.

Giá trị sai lệchbằng một nửa độ rộng của khoảng tin cậy được gọi là độ chính xác của đánh giá.

Các phương pháp xây dựng khoảng tin cậy lần đầu tiên được phát triển bởi nhà thống kê người Mỹ Yu Neumann. Độ chính xác ước tính, xác suất tin cậy và cỡ mẫu n được kết nối với nhau. Do đó, biết giá trị cụ thể của hai đại lượng, bạn luôn có thể tính được đại lượng thứ ba.

Tìm khoảng tin cậy để ước tính kỳ vọng toán học của phân bố chuẩn nếu biết độ lệch chuẩn.

Hãy lấy một mẫu từ một tổng thể chung tuân theo quy luật phân phối chuẩn. Cho biết độ lệch chuẩn chung, nhưng kỳ vọng toán học của phân bố lý thuyết vẫn chưa được biết Một ().

Công thức sau đây là đúng:

Những thứ kia. theo một giá trị độ lệch nhất địnhcó thể được tìm thấy với xác suất bao nhiêu để giá trị trung bình tổng quát chưa biết thuộc về khoảng. Và ngược lại. Từ công thức, rõ ràng là khi tăng cỡ mẫu và giá trị xác suất tin cậy cố định, giá trị- giảm, tức là độ chính xác của đánh giá tăng lên. Với độ tin cậy ngày càng tăng (xác suất tin cậy), giá trị-tăng, tức là độ chính xác của đánh giá giảm.

Ví dụ:

Kết quả của các thử nghiệm, các giá trị sau thu được -25, 34, -20, 10, 21. Được biết, chúng tuân theo quy luật phân phối chuẩn với độ lệch chuẩn là 2. Tìm ước tính a* cho kỳ vọng toán học a. Hãy xây dựng khoảng tin cậy 90% cho nó.

Giải pháp:

Hãy tìm một ước tính khách quan

Sau đó


Khoảng tin cậy cho a là: 4 – 1,47< Một< 4+ 1,47 или 2,53 < a < 5, 47

Tìm khoảng tin cậy để ước tính kỳ vọng toán học của phân bố chuẩn nếu chưa biết độ lệch chuẩn.

Biết rằng dân số nói chung tuân theo quy luật phân phối chuẩn, trong đó a và. Độ chính xác của khoảng tin cậy bao trùm với độ tin cậygiá trị thực của tham số a, trong trường hợp này, được tính theo công thức:

, trong đó n là cỡ mẫu, , - Hệ số sinh viên (tìm từ giá trị cho trước) n và từ bảng “Các điểm quan trọng của phân phối Sinh viên”).

Ví dụ:

Kết quả của các thử nghiệm, các giá trị sau thu được -35, -32, -26, -35, -30, -17. Được biết, chúng tuân theo quy luật phân phối chuẩn. Tìm khoảng tin cậy cho kỳ vọng toán học a của tổng thể với xác suất tin cậy là 0,9.

Giải pháp:

Hãy tìm một ước tính khách quan.

Chúng ta sẽ tìm thấy.

Sau đó

Khoảng tin cậy sẽ có dạng(-29,2 - 5,62; -29,2 + 5,62) hoặc (-34,82; -23,58).

Tìm khoảng tin cậy cho phương sai và độ lệch chuẩn của phân phối chuẩn

Lấy một mẫu thể tích ngẫu nhiên từ một quần thể giá trị chung nhất định được phân phối theo luật thông thườngN < 30, trong đó phương sai mẫu được tính: sai lệchvà đã sửa câu 2. Sau đó, để tìm ước tính khoảng với độ tin cậy nhất địnhcho phương sai chungDđộ lệch chuẩn chungCác công thức sau đây được sử dụng.


hoặc,

Giá trị- được tìm thấy bằng cách sử dụng bảng các giá trị điểm tới hạnPhân phối Pearson.

Khoảng tin cậy cho phương sai được tìm thấy từ những bất đẳng thức này bằng cách bình phương tất cả các vế của bất đẳng thức.

Ví dụ:

Kiểm tra chất lượng 15 bu lông. Giả sử rằng sai số trong quá trình sản xuất tuân theo quy luật phân phối chuẩn và độ lệch chuẩn của mẫubằng 5 mm, xác định một cách đáng tin cậykhoảng tin cậy cho một tham số chưa biết

Chúng tôi biểu thị ranh giới của khoảng dưới dạng bất đẳng thức kép:

Các điểm cuối của khoảng tin cậy hai phía cho phương sai có thể được xác định mà không cần thực hiện các phép tính số học đối với mức độ tin cậy và cỡ mẫu nhất định bằng cách sử dụng bảng thích hợp (Giới hạn khoảng tin cậy cho phương sai tùy thuộc vào số bậc tự do và độ tin cậy) . Để làm điều này, các điểm cuối của khoảng thu được từ bảng được nhân với phương sai đã hiệu chỉnh s 2.

Ví dụ:

Hãy giải quyết vấn đề trước theo một cách khác.

Giải pháp:

Hãy tìm phương sai đã hiệu chỉnh:

Sử dụng bảng “Giới hạn khoảng tin cậy đối với độ phân tán tùy thuộc vào số bậc tự do và độ tin cậy”, chúng ta sẽ tìm được ranh giới của khoảng tin cậy đối với độ phân tán tạik=14 và: giới hạn dưới 0,513 và giới hạn trên 2,354.

Hãy nhân các ranh giới kết quả vớis 2 và trích rút nghiệm (vì chúng ta cần khoảng tin cậy không phải cho phương sai mà cho độ lệch chuẩn).

Như có thể thấy từ các ví dụ, độ lớn của khoảng tin cậy phụ thuộc vào phương pháp xây dựng nó và cho kết quả tương tự nhưng không bằng nhau.

Đối với các mẫu có kích thước đủ lớn (N>30) ranh giới của khoảng tin cậy đối với độ lệch chuẩn chung có thể được xác định bằng công thức: - một số nhất định được lập bảng và đưa ra trong bảng tham chiếu tương ứng.

Nếu 1- q<1, то формула имеет вид:

Ví dụ:

Hãy giải quyết vấn đề trước theo cách thứ ba.

Giải pháp:

Đã tìm thấy trước đóS= 5,17. q(0,95; 15) = 0,46 – được tìm thấy từ bảng.

Sau đó:

Điều thường xảy ra là cần phải phân tích một hiện tượng xã hội cụ thể và thu thập thông tin về nó. Những nhiệm vụ như vậy thường phát sinh trong thống kê và nghiên cứu thống kê. Thường không thể xác minh được một hiện tượng xã hội được xác định đầy đủ. Ví dụ, làm thế nào để tìm hiểu ý kiến ​​​​của người dân hoặc tất cả cư dân của một thành phố nào đó về bất kỳ vấn đề nào? Việc hỏi tất cả mọi người gần như là không thể và rất tốn thời gian. Trong những trường hợp như vậy, chúng ta cần lấy mẫu. Đây chính xác là khái niệm mà hầu hết các nghiên cứu và phân tích đều dựa vào.

lấy mẫu là gì

Khi phân tích một hiện tượng xã hội cụ thể, cần thu thập thông tin về nó. Nếu bạn thực hiện bất kỳ nghiên cứu nào, bạn sẽ nhận thấy rằng không phải mọi đơn vị trong tổng thể đối tượng nghiên cứu đều có thể được nghiên cứu và phân tích. Chỉ một phần nhất định của toàn bộ tổng thể này được tính đến. Quá trình này là lấy mẫu: khi chỉ kiểm tra một số đơn vị nhất định từ một tập hợp.

Tất nhiên, rất nhiều phụ thuộc vào loại mẫu. Nhưng cũng có những quy tắc cơ bản. Điều chính nêu rõ rằng việc lựa chọn từ dân số phải hoàn toàn ngẫu nhiên. Các đơn vị dân số được sử dụng không nên được lựa chọn vì bất kỳ tiêu chí nào. Nói một cách đại khái, nếu cần tuyển một dân số từ dân số của một thành phố nhất định và chỉ chọn nam giới, thì sẽ có sai sót trong nghiên cứu, vì việc lựa chọn không được thực hiện ngẫu nhiên mà được chọn dựa trên giới tính. . Hầu như tất cả các phương pháp lấy mẫu đều dựa trên quy tắc này.

Quy tắc lấy mẫu

Để tập hợp được chọn phản ánh những đặc điểm chính của toàn bộ hiện tượng, nó phải được xây dựng theo các quy luật cụ thể, trong đó phải chú ý chính đến các loại sau:

  • mẫu (dân số mẫu);
  • dân số;
  • tính đại diện;
  • lỗi đại diện;
  • đơn vị tổng hợp;
  • Phương pháp xét nghiệm.

Đặc điểm của quan sát và lấy mẫu chọn lọc như sau:

  1. Tất cả các kết quả thu được đều dựa trên các định luật và quy tắc toán học, nghĩa là nếu nghiên cứu được thực hiện đúng và tính toán đúng thì kết quả sẽ không bị sai lệch vì lý do chủ quan
  2. Có thể đạt được kết quả nhanh hơn nhiều với ít thời gian và nguồn lực hơn bằng cách nghiên cứu không phải toàn bộ các sự kiện mà chỉ một phần trong số đó.
  3. Nó có thể được sử dụng để nghiên cứu nhiều đối tượng khác nhau: từ các vấn đề cụ thể, chẳng hạn như độ tuổi, giới tính của nhóm chúng ta quan tâm, đến nghiên cứu dư luận hoặc mức độ an toàn vật chất của người dân.

quan sát có chọn lọc

Lấy mẫu là một quan sát thống kê trong đó không phải toàn bộ dân số đang được nghiên cứu đều phải nghiên cứu mà chỉ một phần nhất định của nó, được chọn theo một cách nhất định và kết quả thu được từ việc nghiên cứu phần này sẽ được phân phối cho toàn bộ dân số. Phần này được gọi là dân số mẫu. Đây là cách duy nhất để nghiên cứu một lượng lớn các đối tượng nghiên cứu.

Nhưng quan sát mẫu chỉ có thể được sử dụng trong trường hợp chỉ cần nghiên cứu một nhóm nhỏ đơn vị. Ví dụ, trong một nghiên cứu về tỷ lệ nam và nữ trên thế giới, phương pháp quan sát mẫu sẽ được sử dụng. Vì những lý do hiển nhiên, không thể tính đến từng cư dân trên hành tinh của chúng ta.

Nhưng với cùng một nghiên cứu, nhưng không phải đối với tất cả cư dân trên trái đất, mà đối với một lớp 2 “A” nhất định trong một trường học cụ thể, một thành phố nhất định, một quốc gia nhất định, thì có thể thực hiện được mà không cần quan sát có chọn lọc. Rốt cuộc, hoàn toàn có thể phân tích toàn bộ mảng của đối tượng nghiên cứu. Cần phải đếm số nam và nữ của lớp này - đây sẽ là tỷ lệ.

Mẫu và dân số

Trên thực tế, mọi thứ không khó như người ta tưởng. Trong bất kỳ đối tượng nghiên cứu nào cũng có hai hệ thống: dân số chung và dân số mẫu. Nó là gì? Tất cả các đơn vị thuộc về chung. Và đối với mẫu - những đơn vị của tổng thể được lấy làm mẫu. Nếu mọi thứ được thực hiện chính xác, thì phần được chọn sẽ tạo thành một mô hình rút gọn của toàn bộ dân số (chung).

Nếu nói về dân số nói chung thì chúng ta chỉ có thể phân biệt hai loại dân số đó: dân số chung xác định và không xác định. Phụ thuộc vào việc có biết tổng số đơn vị của một hệ thống nhất định hay không. Nếu đó là một tổng thể cụ thể thì việc lấy mẫu sẽ dễ dàng hơn vì bạn biết bao nhiêu phần trăm trên tổng số đơn vị sẽ được lấy mẫu.

Điểm này rất cần thiết trong nghiên cứu. Ví dụ, nếu cần điều tra tỷ lệ sản phẩm bánh kẹo kém chất lượng tại một nhà máy cụ thể. Chúng ta hãy giả sử rằng dân số đã được xác định. Được biết, doanh nghiệp này sản xuất 1000 sản phẩm bánh kẹo mỗi năm. Nếu bạn lấy ngẫu nhiên 100 sản phẩm bánh kẹo trong số hàng nghìn sản phẩm này và gửi đi kiểm tra thì sai số sẽ rất nhỏ. Nói một cách đại khái, 10% tổng số sản phẩm phải được nghiên cứu và dựa trên kết quả, chúng ta có thể tính đến lỗi đại diện và nói về chất lượng kém của tất cả các sản phẩm.

Và nếu bạn lấy mẫu 100 sản phẩm bánh kẹo từ một nhóm dân số không chắc chắn, trong đó trên thực tế có 1 triệu đơn vị, thì kết quả của mẫu và bản thân nghiên cứu sẽ cực kỳ khó tin và không chính xác. Bạn có cảm thấy sự khác biệt? Vì vậy, sự chắc chắn của dân số trong hầu hết các trường hợp là vô cùng quan trọng và ảnh hưởng rất lớn đến kết quả nghiên cứu.

Tính đại diện của dân số

Vì vậy, bây giờ một trong những câu hỏi quan trọng nhất là mẫu nên là gì? Đây là điểm quan trọng nhất của nghiên cứu. Ở giai đoạn này, cần tính toán mẫu và chọn đơn vị từ tổng số vào mẫu. Một tổng thể được chọn chính xác nếu một số đặc điểm và đặc điểm nhất định của tổng thể vẫn còn trong mẫu. Điều này được gọi là tính đại diện.

Nói cách khác, nếu sau khi chọn lọc, một bộ phận vẫn giữ được xu hướng và đặc điểm giống như toàn bộ số lượng mẫu thì quần thể đó được gọi là đại diện. Nhưng không phải mọi mẫu cụ thể đều có thể được chọn từ một quần thể đại diện. Cũng có những đối tượng nghiên cứu mà mẫu của chúng đơn giản là không thể mang tính đại diện. Đây là nơi phát sinh khái niệm thiên vị đại diện. Nhưng hãy nói về điều này chi tiết hơn một chút sau.

Cách làm mẫu

Vì vậy, để tối đa hóa tính đại diện, có ba quy tắc lấy mẫu cơ bản:


Lỗi (lỗi) về tính đại diện

Đặc điểm chính về chất lượng của mẫu được chọn là khái niệm “sai số đại diện”. Nó là gì? Đây là những khác biệt nhất định giữa các chỉ số của mẫu và quan sát liên tục. Dựa trên các chỉ số lỗi, tính đại diện được chia thành đáng tin cậy, thông thường và gần đúng. Nói cách khác, độ lệch lên tới 3%, từ 3 đến 10% và từ 10 đến 20% tương ứng là có thể chấp nhận được. Mặc dù trong thống kê, điều mong muốn là sai số không vượt quá 5-6%. Nếu không thì có lý do để nói về tính đại diện không đủ của mẫu. Để tính toán độ lệch đại diện và cách nó ảnh hưởng đến một mẫu hoặc tổng thể, nhiều yếu tố được tính đến:

  1. Xác suất để có được kết quả chính xác.
  2. Số lượng đơn vị trong quần thể mẫu. Như đã đề cập trước đó, mẫu càng chứa ít đơn vị thì sai số đại diện sẽ càng lớn và ngược lại.
  3. Tính đồng nhất của dân số nghiên cứu. Dân số càng không đồng nhất thì độ lệch về tính đại diện sẽ càng lớn. Khả năng mang tính đại diện của một tổng thể phụ thuộc vào tính đồng nhất của tất cả các đơn vị cấu thành nó.
  4. Phương pháp lựa chọn các đơn vị trong tổng thể mẫu.

Trong các nghiên cứu cụ thể, tỷ lệ sai số trong giá trị trung bình thường do chính nhà nghiên cứu đặt ra, dựa trên chương trình quan sát và theo dữ liệu từ các nghiên cứu đã tiến hành trước đó. Theo quy định, sai số lấy mẫu tối đa (sai số về tính đại diện) từ 3-5% được coi là có thể chấp nhận được.

Hơn không phải là luôn luôn tốt hơn

Cũng cần nhớ rằng điều chính khi tổ chức quan sát mẫu là đưa khối lượng của nó đến mức tối thiểu có thể chấp nhận được. Đồng thời, không nên cố gắng giảm quá mức biên độ sai số lấy mẫu, vì điều này có thể dẫn đến sự gia tăng không hợp lý về khối lượng dữ liệu mẫu và do đó làm tăng chi phí cho việc tiến hành quan sát mẫu.

Đồng thời, độ lớn của sai số đại diện không thể tăng quá mức. Thật vậy, trong trường hợp này, mặc dù quy mô của tổng thể mẫu sẽ giảm nhưng điều này sẽ dẫn đến sự suy giảm độ tin cậy của kết quả thu được.

Những câu hỏi nào thường được đặt ra cho nhà nghiên cứu?

Nếu bất kỳ nghiên cứu nào được thực hiện, nó đều nhằm mục đích nào đó và thu được một số kết quả. Khi tiến hành khảo sát mẫu, các câu hỏi ban đầu thường được hỏi là:


Phương pháp lựa chọn đơn vị nghiên cứu trong mẫu

Không phải mọi mẫu đều mang tính đại diện. Đôi khi cùng một đặc điểm được thể hiện khác nhau cả về tổng thể và từng phần của nó. Để đạt được yêu cầu về tính đại diện, nên sử dụng nhiều kỹ thuật lấy mẫu khác nhau. Hơn nữa, việc sử dụng phương pháp này hay phương pháp khác còn tùy thuộc vào hoàn cảnh cụ thể. Trong số các kỹ thuật lấy mẫu này là:

  • lựa chọn ngẫu nhiên;
  • lựa chọn cơ học;
  • lựa chọn điển hình;
  • lựa chọn nối tiếp (cụm).

Lựa chọn ngẫu nhiên là một hệ thống các biện pháp nhằm chọn ngẫu nhiên các đơn vị trong quần thể, khi xác suất được đưa vào mẫu là như nhau đối với tất cả các đơn vị trong quần thể. Kỹ thuật này chỉ nên sử dụng trong trường hợp đồng nhất và một số ít các đặc tính vốn có. Nếu không, một số đặc điểm có nguy cơ không được phản ánh trong mẫu. Các đặc điểm của lựa chọn ngẫu nhiên là nền tảng của tất cả các phương pháp lấy mẫu khác.

Với việc lựa chọn cơ học các đơn vị được thực hiện trong một khoảng thời gian nhất định. Nếu cần lập mẫu về tội phạm cụ thể, bạn có thể xóa từng thẻ thứ 5, 10 hoặc 15 khỏi tất cả các thẻ thống kê về tội phạm đã đăng ký, tùy thuộc vào tổng số và cỡ mẫu có sẵn. Nhược điểm của phương pháp này là trước khi lựa chọn phải có hồ sơ đầy đủ về các đơn vị quần thể, sau đó phải tiến hành xếp hạng và chỉ sau đó mới tiến hành lấy mẫu theo một khoảng thời gian nhất định. Phương pháp này mất nhiều thời gian nên không được sử dụng thường xuyên.

Lựa chọn điển hình (được khoanh vùng) là một kiểu lấy mẫu trong đó dân số nói chung được chia thành các nhóm đồng nhất theo một đặc điểm nhất định. Đôi khi các nhà nghiên cứu sử dụng các thuật ngữ khác thay vì “nhóm”: “quận” và “khu vực”. Sau đó, từ mỗi nhóm, một số đơn vị nhất định được chọn ngẫu nhiên tương ứng với tỷ trọng của nhóm trong tổng dân số. Lựa chọn điển hình thường được thực hiện trong một số giai đoạn.

Lấy mẫu nối tiếp là phương pháp trong đó việc lựa chọn các đơn vị được thực hiện theo nhóm (loạt) và tất cả các đơn vị thuộc nhóm (loạt) đã chọn đều phải được kiểm tra. Ưu điểm của phương pháp này là đôi khi việc chọn các đơn vị riêng lẻ khó khăn hơn so với việc chọn hàng loạt, chẳng hạn như khi nghiên cứu một cá nhân đang thụ án. Trong các khu vực và khu vực được chọn, một nghiên cứu về tất cả các đơn vị không có ngoại lệ được sử dụng, ví dụ, nghiên cứu về tất cả những người đang thụ án trong một cơ sở cụ thể.