Độ lệch chuẩn của giá trị trung bình. Tính độ lớn của chế độ

Độ lệch chuẩn

Đặc tính hoàn hảo nhất của sự biến đổi là độ lệch chuẩn, ĸᴏᴛᴏᴩᴏᴇ được gọi là độ chuẩn (hay độ lệch chuẩn). Độ lệch chuẩn() bằng căn bậc hai của bình phương trung bình của độ lệch của các giá trị đối tượng địa lý riêng lẻ so với giá trị trung bình số học:

Độ lệch chuẩn rất đơn giản:

Độ lệch chuẩn có trọng số được áp dụng cho dữ liệu được nhóm:

Giữa bình phương trung bình và độ lệch tuyến tính trung bình trong các điều kiện của phân phối chuẩn, có mối quan hệ sau: ~ 1,25.

Độ lệch chuẩn, là thước đo tuyệt đối chính của sự thay đổi, được sử dụng để xác định các giá trị của bậc của đường cong phân phối chuẩn, trong các tính toán liên quan đến việc tổ chức quan sát mẫu và thiết lập độ chính xác của các đặc trưng mẫu, cũng như trong đánh giá ranh giới biến dị của một tính trạng trong quần thể đồng nhất.

18. Độ phân tán, các dạng của nó, độ lệch chuẩn.

Phương sai của một biến ngẫu nhiên- thước đo mức độ lan truyền của một biến ngẫu nhiên nhất định, tức là độ lệch của nó so với kỳ vọng toán học. Trong thống kê, chỉ định hoặc thường được sử dụng. Căn bậc hai của phương sai được gọi là độ lệch chuẩn, độ lệch chuẩn hoặc độ chênh lệch chuẩn.

Tổng phương sai (σ2) đo lường sự biến động của một tính trạng trong toàn quần thể dưới tác động của tất cả các yếu tố gây ra sự biến đổi này. Đồng thời, nhờ phương pháp phân nhóm, có thể cô lập và đo lường sự biến đổi do đặc điểm phân nhóm và sự biến động xảy ra dưới ảnh hưởng của các yếu tố không được tính toán.

Phương sai giữa các nhóm (σ 2 m.gr) đặc trưng cho sự biến đổi có hệ thống, tức là, sự khác biệt về mức độ của đặc điểm đang nghiên cứu, phát sinh dưới ảnh hưởng của đặc điểm - yếu tố cơ bản của sự phân nhóm.

độ lệch chuẩn(từ đồng nghĩa: độ lệch chuẩn, độ lệch chuẩn, độ lệch chuẩn; các điều khoản liên quan: độ lệch chuẩn, tiêu chuẩn lây lan) - trong lý thuyết xác suất và thống kê, chỉ số phổ biến nhất về sự phân tán các giá trị của một biến ngẫu nhiên so với kỳ vọng toán học của nó. Với dãy giá trị giới hạn của các mẫu, thay vì kỳ vọng toán học, giá trị trung bình cộng của tập mẫu được sử dụng.

Độ lệch chuẩn được đo bằng đơn vị của chính biến ngẫu nhiên và được sử dụng khi tính toán sai số chuẩn của trung bình số học, khi xây dựng khoảng tin cậy, khi kiểm định thống kê các giả thuyết và khi đo lường mối quan hệ tuyến tính giữa các biến ngẫu nhiên. Nó được định nghĩa là căn bậc hai của phương sai của một biến ngẫu nhiên.

Độ lệch chuẩn:

Độ lệch chuẩn(ước tính độ lệch chuẩn của một biến ngẫu nhiên x so với kỳ vọng toán học của nó dựa trên một ước tính không thiên vị về phương sai của nó):

sự phân tán ở đâu; - tôi-thành phần mẫu; - cỡ mẫu; - trung bình cộng của mẫu:

Cần lưu ý rằng cả hai ước tính đều sai lệch. Trong trường hợp chung, không thể xây dựng một ước tính không chệch. Đồng thời, ước tính dựa trên ước tính phương sai không chệch là nhất quán.

19. Bản chất, phạm vi và thủ tục xác định chế độ và trung vị.

Ngoài giá trị trung bình theo luật lũy thừa trong thống kê, đối với đặc tính tương đối về độ lớn của một thuộc tính khác nhau và cấu trúc bên trong của chuỗi phân phối, các giá trị trung bình cấu trúc được sử dụng, chủ yếu được biểu thị bằng chế độ và trung vị.

Thời trang- Đây là biến thể phổ biến nhất của bộ truyện. Ví dụ, thời trang được sử dụng khi xác định kích cỡ của quần áo, giày dép mà người mua có nhu cầu nhất. Chế độ cho một chuỗi rời rạc là biến thể có tần số cao nhất. Khi tính toán chế độ cho một chuỗi biến thiên theo khoảng, điều cực kỳ quan trọng là phải xác định khoảng phương thức (bằng tần số tối đa), sau đó là giá trị của giá trị phương thức của đối tượng bằng công thức:

§ - giá trị thời trang

§ - giới hạn dưới của khoảng phương thức

§ - giá trị của khoảng

§ - tần số khoảng phương thức

§ - tần số của khoảng trước phương thức

§ - tần số của khoảng thời gian tuân theo phương thức

Trung bình - giá trị đặc trưng này, ĸᴏᴛᴏᴩᴏᴇ nằm ở cơ sở của chuỗi đã xếp hạng và chia chuỗi này thành hai phần bằng nhau về số lượng.

Để xác định trung vị trong một loạt phim rời rạc với sự có mặt của tần số, nửa tổng của tần số được tính trước tiên, sau đó nó được xác định giá trị của biến thể nằm trên nó. (Nếu hàng đã sắp xếp chứa một số đối tượng lẻ, thì số trung vị được tính theo công thức:

M e \ u003d (n (số tính năng trong tổng thể) + 1) / 2,

trong trường hợp một số đối tượng chẵn, trung vị sẽ bằng trung bình cộng của hai đối tượng địa lý nằm ở giữa chuỗi).

Khi tính toán trung vị cho chuỗi biến thiên khoảng thời gianđầu tiên xác định khoảng trung vị mà trong đó trung vị nằm trong đó, sau đó xác định giá trị của trung vị theo công thức:

§ - trung vị mong muốn

§ - giới hạn dưới của khoảng có chứa trung vị

§ - giá trị của khoảng

§ - tổng các tần số hoặc số lượng thành viên của chuỗi

§ - tổng các tần số tích lũy của các khoảng trước trung vị

§ - tần số của khoảng trung bình

Ví dụ. Tìm chế độ và trung vị.

Quyết định: Trong ví dụ này, khoảng phương thức nằm trong nhóm tuổi từ 25-30 tuổi, vì khoảng này chiếm tần suất cao nhất (1054).

Hãy tính toán giá trị chế độ:

Điều này có nghĩa là độ tuổi phương thức của học sinh là 27 tuổi.

Hãy tính số trung vị. Khoảng trung vị là ở nhóm tuổi 25-30, vì trong khoảng này có một biến thể chia dân số thành hai phần bằng nhau (Σf i / 2 = 3462/2 = 1731). Tiếp theo, chúng tôi thay thế dữ liệu số cần thiết vào công thức và nhận giá trị của trung vị:

Điều này có nghĩa là một nửa số sinh viên dưới 27,4 tuổi và nửa còn lại trên 27,4 tuổi.

Ngoài chế độ và trung vị, các chỉ số như phần tư cũng được sử dụng, chia chuỗi được xếp hạng thành 4 phần bằng nhau, phần thập phân - 10 phần và phần trăm - thành 100 phần.

20. Khái niệm về quan sát chọn lọc và phạm vi của nó.

Quan sát có chọn lọcáp dụng khi áp dụng quan sát liên tục vật lý không thể do một lượng lớn dữ liệu hoặc kinh tế phi thực tế. Không thể thực hiện được, ví dụ, khi nghiên cứu luồng hành khách, giá thị trường, ngân sách gia đình. Tình trạng thiếu kinh tế xảy ra khi đánh giá chất lượng hàng hóa liên quan đến việc tiêu hủy chúng, ví dụ, nếm thử, thử độ bền của gạch, v.v.

Các đơn vị thống kê được chọn để quan sát là khung lấy mẫu hoặc lấy mẫu và toàn bộ mảng của họ - dân số chung(GS). Trong đó số lượng đơn vị trong mẫu chỉ định N, và trong tất cả GS - N. Thái độ n / n triệu tập kích thước tương đối hoặc chia sẻ mẫu.

Chất lượng của kết quả lấy mẫu phụ thuộc vào tính đại diện mẫu nghĩa là nó có tính đại diện như thế nào trong HS. Để đảm bảo tính đại diện của mẫu, điều cần thiết là nguyên tắc lựa chọn ngẫu nhiên các đơn vị, giả định rằng việc đưa một đơn vị HS vào mẫu không thể bị ảnh hưởng bởi bất kỳ yếu tố nào khác ngoài cơ hội.

Hiện hữu 4 cách chọn ngẫu nhiênđể lấy mẫu:

Thực ra là ngẫu nhiên lựa chọn hoặc ʼʼmethod of lottoʼʼ, khi số sê-ri được gán cho các giá trị thống kê, được nhập trên các đối tượng nhất định (ví dụ: thùng), sau đó được trộn trong một thùng chứa nhất định (ví dụ: trong một túi) và được chọn ngẫu nhiên. Trong thực tế, phương pháp này được thực hiện bằng cách sử dụng một bộ tạo số ngẫu nhiên hoặc các bảng toán học của các số ngẫu nhiên.
Cơ khí lựa chọn, theo đó mỗi ( N / n) -giá trị thứ của dân số chung. Ví dụ: nếu nó chứa 100.000 giá trị và bạn muốn chọn 1.000, thì cứ 100.000 / 1000 = giá trị thứ 100 sẽ rơi vào mẫu. Hơn nữa, nếu họ không được xếp hạng, thì người đầu tiên được chọn ngẫu nhiên từ hàng trăm đầu tiên, và số của những người khác sẽ nhiều hơn một trăm. Ví dụ: nếu đơn vị đầu tiên là số 19, thì đơn vị tiếp theo sẽ là số 119, sau đó là số 219, sau đó là số 319, v.v. Nếu các đơn vị của dân số chung được xếp hạng, thì số 50 được chọn đầu tiên, sau đó đến số 150, sau đó là số 250, v.v.
Việc lựa chọn các giá trị từ một mảng dữ liệu không đồng nhất được thực hiện phân tầng(phân tầng), khi dân số chung trước đây được chia thành các nhóm đồng nhất, mà lựa chọn ngẫu nhiên hoặc cơ học được áp dụng.
Một phương pháp lấy mẫu đặc biệt là nối tiếp lựa chọn, trong đó không phải các đại lượng riêng lẻ được chọn ngẫu nhiên hoặc máy móc, mà là chuỗi của chúng (chuỗi từ một số đến một số liên tiếp), trong đó thực hiện quan sát liên tục.

Chất lượng của các quan sát mẫu cũng phụ thuộc vào loại lấy mẫu: lặp đi lặp lại hoặc không lặp đi lặp lại. Tại lựa chọn lại các giá trị thống kê hoặc chuỗi của chúng rơi vào mẫu được trả lại cho tổng thể chung sau khi sử dụng, có cơ hội nhận được mẫu mới. Đồng thời, tất cả các giá trị của tổng thể chung đều có xác suất được đưa vào mẫu như nhau. Lựa chọn không lặp lại có nghĩa là các giá trị thống kê hoặc chuỗi của chúng có trong mẫu không được trả lại cho tổng thể chung sau khi sử dụng, và do đó xác suất lọt vào mẫu tiếp theo tăng lên đối với các giá trị còn lại của mẫu sau.

Lấy mẫu không lặp lại cho kết quả chính xác hơn, và do đó được sử dụng thường xuyên hơn. Nhưng có những tình huống không thể áp dụng (nghiên cứu luồng hành khách, nhu cầu tiêu dùng, v.v.) và sau đó phải tiến hành lựa chọn lại.

21. Giới hạn sai số lấy mẫu của quan sát, sai số lấy mẫu trung bình, thứ tự tính toán của chúng.

Chúng ta hãy xem xét chi tiết các phương pháp trên để hình thành một tổng thể mẫu và các lỗi về tính đại diện phát sinh trong trường hợp này. Thực tế-ngẫu nhiên mẫu dựa trên việc lựa chọn ngẫu nhiên các đơn vị từ tổng thể chung mà không có bất kỳ yếu tố nhất quán nào. Về mặt kỹ thuật, lựa chọn ngẫu nhiên thích hợp được thực hiện bằng cách rút thăm (ví dụ, xổ số) hoặc bằng một bảng các số ngẫu nhiên.

Thực tế chọn ngẫu nhiên "ở dạng thuần túy" trong thực hành quan sát chọn lọc hiếm khi được sử dụng, nhưng nó là bước khởi đầu trong số các loại chọn lọc khác, nó thực hiện các nguyên tắc cơ bản của quan sát chọn lọc. Chúng ta hãy xem xét một số câu hỏi về lý thuyết của phương pháp chọn mẫu và công thức sai số cho một mẫu ngẫu nhiên đơn giản.

Lỗi lấy mẫu- ϶ᴛᴏ sự khác biệt giữa giá trị của tham số trong tổng thể chung và giá trị của nó được tính toán từ kết quả quan sát mẫu. Điều quan trọng cần lưu ý là đối với đặc tính định lượng trung bình, sai số lấy mẫu được xác định bởi

Chỉ báo này thường được gọi là sai số lấy mẫu biên. Giá trị trung bình của mẫu là một biến ngẫu nhiên có thể nhận các giá trị khác nhau tùy thuộc vào đơn vị nào trong mẫu. Do đó, sai số lấy mẫu cũng là các biến ngẫu nhiên và có thể nhận các giá trị khác nhau. Vì lý do này, giá trị trung bình của các lỗi có thể xảy ra được xác định - nghĩa là lỗi lấy mẫu, phụ thuộc vào:

cỡ mẫu: số càng lớn thì sai số trung bình càng nhỏ;

Mức độ thay đổi của đặc điểm được nghiên cứu: sự thay đổi của đặc điểm càng nhỏ và do đó, phương sai, sai số lấy mẫu trung bình càng nhỏ.

Tại lựa chọn lại ngẫu nhiên sai số trung bình được tính toán. Trong thực tế, phương sai chung không được biết chính xác, nhưng nó đã được chứng minh trong lý thuyết xác suất rằng . Vì giá trị của n đủ lớn gần bằng 1, chúng ta có thể giả sử rằng. Sau đó, sai số lấy mẫu trung bình sẽ được tính toán:. Nhưng trong trường hợp một mẫu nhỏ (đối với n<30) коэффициент крайне важно учитывать, и среднюю ошибку малой выборки рассчитывать по формуле .

Tại lấy mẫu ngẫu nhiên các công thức đã cho được sửa chữa bởi giá trị. Khi đó, sai số trung bình của việc không lấy mẫu là: và . Tại vì luôn nhỏ hơn, khi đó thừa số () luôn nhỏ hơn 1. Điều này có nghĩa là sai số trung bình với phép chọn không lặp lại luôn nhỏ hơn với phép chọn lặp lại. Lấy mẫu cơ học nó được sử dụng khi dân số chung được sắp xếp theo một cách nào đó (ví dụ, danh sách cử tri theo thứ tự bảng chữ cái, số điện thoại, số nhà, căn hộ). Việc lựa chọn các đơn vị được thực hiện ở một khoảng thời gian nhất định, bằng nghịch đảo của tỷ lệ phần trăm lấy mẫu. Vì vậy, với mẫu 2%, cứ 50 đơn vị = 1 / 0,02 được chọn, với 5%, mỗi 1 / 0,05 = 20 đơn vị của tổng thể chung.

Điểm gốc được chọn theo những cách khác nhau: ngẫu nhiên, từ giữa khoảng thời gian, với sự thay đổi điểm gốc. Điều quan trọng là tránh lỗi hệ thống. Ví dụ: với mẫu 5%, nếu đơn vị thứ 13 được chọn làm đơn vị đầu tiên, thì đơn vị tiếp theo là 33, 53, 73, v.v.

Về độ chính xác, lựa chọn cơ học gần với chọn mẫu ngẫu nhiên thích hợp. Vì lý do này, các công thức chọn ngẫu nhiên thích hợp được sử dụng để xác định sai số trung bình của lấy mẫu cơ học.

Tại lựa chọn điển hình dân số điều tra được phân chia sơ bộ thành các nhóm thuần nhất, đơn loại. Ví dụ, khi khảo sát doanh nghiệp, đây là những ngành, tiểu lĩnh vực, trong khi nghiên cứu dân số - khu vực, xã hội hoặc nhóm tuổi. Tiếp theo, một sự lựa chọn độc lập được thực hiện từ mỗi nhóm một cách máy móc hoặc ngẫu nhiên.

Lấy mẫu điển hình cho kết quả chính xác hơn các phương pháp khác. Việc phân loại tổng thể chung đảm bảo sự đại diện của từng nhóm điển hình trong mẫu, giúp loại trừ ảnh hưởng của phương sai giữa các nhóm đối với sai số trung bình của mẫu. Do đó, khi tìm sai số của một mẫu điển hình theo quy tắc cộng phương sai (), điều cực kỳ quan trọng là chỉ tính đến giá trị trung bình của các phương sai của nhóm. Sau đó, lỗi lấy mẫu trung bình: với lựa chọn lặp lại, với lựa chọn không lặp lại , ở đâu là giá trị trung bình của các phương sai trong nhóm trong mẫu.

Lựa chọn nối tiếp (hoặc lồng nhau)được sử dụng khi dân số được chia thành chuỗi hoặc nhóm trước khi bắt đầu điều tra mẫu. Các chuỗi này là các gói thành phẩm, nhóm sinh viên, đội nhóm. Các loạt bài để kiểm tra được lựa chọn một cách máy móc hoặc ngẫu nhiên, và trong chuỗi một cuộc khảo sát hoàn chỉnh các đơn vị được thực hiện. Vì lý do này, sai số lấy mẫu trung bình chỉ phụ thuộc vào phương sai giữa các nhóm (xen kẽ), được tính bằng công thức: trong đó r là số chuỗi được chọn; là giá trị trung bình của chuỗi thứ i. Sai số lấy mẫu nối tiếp trung bình được tính: với lựa chọn lại, với lựa chọn không lặp lại , trong đó R là tổng số chuỗi. Kết hợp lựa chọn là sự kết hợp của các phương pháp lựa chọn được xem xét.

Sai số lấy mẫu trung bình đối với bất kỳ phương pháp lựa chọn nào phụ thuộc chủ yếu vào kích thước tuyệt đối của mẫu và ở mức độ thấp hơn, vào tỷ lệ phần trăm của mẫu. Giả sử rằng 225 quan sát được thực hiện trong trường hợp đầu tiên trên tổng số 4500 đơn vị và trong trường hợp thứ hai trên 225000 đơn vị. Phương sai trong cả hai trường hợp đều bằng 25. Sau đó, trong trường hợp đầu tiên, với lựa chọn 5%, sai số lấy mẫu sẽ là: Trong trường hợp thứ hai, với lựa chọn 0,1%, nó sẽ bằng:

Τᴀᴋᴎᴍ ᴏϬᴩᴀᴈᴏᴍ, với tỷ lệ phần trăm lấy mẫu giảm 50 lần, sai số lấy mẫu tăng nhẹ do kích thước mẫu không thay đổi. Giả sử rằng kích thước mẫu được tăng lên 625 quan sát. Trong trường hợp này, lỗi lấy mẫu là: Việc tăng mẫu lên 2,8 lần với cùng kích thước của tổng thể chung làm giảm kích thước của sai số lấy mẫu hơn 1,6 lần.

22. Các phương pháp và cách thức thành lập một quần thể mẫu.

Trong thống kê, người ta sử dụng nhiều phương pháp hình thành tập mẫu khác nhau, được xác định bởi mục tiêu của nghiên cứu và phụ thuộc vào đặc điểm cụ thể của đối tượng nghiên cứu.

Điều kiện chính để tiến hành điều tra chọn mẫu là ngăn ngừa sự xuất hiện của sai số hệ thống phát sinh do vi phạm nguyên tắc cơ hội bình đẳng cho mỗi đơn vị dân số chung nhập mẫu. Việc ngăn ngừa các sai sót hệ thống đạt được là kết quả của việc sử dụng các phương pháp dựa trên cơ sở khoa học để hình thành tổng thể mẫu.

Có các cách chọn đơn vị từ tổng thể chung sau đây: 1) chọn lọc cá thể - các đơn vị cá thể được chọn trong mẫu; 2) lựa chọn nhóm - các nhóm hoặc loạt đơn vị đồng nhất về chất lượng được đưa vào mẫu; 3) lựa chọn kết hợp là sự kết hợp giữa lựa chọn cá nhân và lựa chọn nhóm. Phương pháp lựa chọn được xác định bởi các quy tắc hình thành dân số lấy mẫu.

Mẫu phải là:

ngẫu nhiên thích hợp bao gồm thực tế là mẫu được hình thành là kết quả của sự lựa chọn ngẫu nhiên (không chủ ý) các đơn vị riêng lẻ từ tổng thể chung. Trong trường hợp này, số lượng đơn vị được chọn trong tập mẫu thường được xác định dựa trên tỷ lệ mẫu được chấp nhận. Tỷ lệ mẫu là tỷ số giữa số đơn vị trong tổng thể mẫu n với số đơn vị trong tổng thể chung N, ᴛ.ᴇ.

cơ khí bao gồm thực tế là việc lựa chọn các đơn vị trong mẫu được thực hiện từ tổng thể chung, được chia thành các khoảng (nhóm) bằng nhau. Trong trường hợp này, kích thước của khoảng trong tổng thể chung bằng nghịch đảo của tỷ lệ mẫu. Vì vậy, với mẫu 2%, mỗi đơn vị thứ 50 được chọn (1: 0,02), với mẫu 5%, mỗi đơn vị thứ 20 (1: 0,05), v.v. Τᴀᴋᴎᴍ ᴏϬᴩᴀᴈᴏᴍ, theo tỷ lệ chọn lọc được chấp nhận, dân số nói chung được chia một cách máy móc thành các nhóm bằng nhau. Chỉ một đơn vị được chọn từ mỗi nhóm trong mẫu.
đặc trưng - trong đó quần thể chung đầu tiên được chia thành các nhóm điển hình đồng nhất. Hơn nữa, từ mỗi nhóm điển hình, một lựa chọn riêng lẻ các đơn vị vào mẫu được thực hiện bằng mẫu ngẫu nhiên hoặc mẫu cơ học. Đặc điểm quan trọng của mẫu điển hình là nó cho kết quả chính xác hơn so với các phương pháp chọn đơn vị khác trong mẫu;
nối tiếp- trong đó quần thể nói chung được chia thành các nhóm có cùng kích thước - hàng loạt. Dòng được chọn trong bộ mẫu. Trong chuỗi, việc quan sát liên tục các đơn vị rơi vào chuỗi được thực hiện;
kết hợp- mẫu phải có hai giai đoạn. Trong trường hợp này, dân số chung đầu tiên được chia thành các nhóm. Tiếp theo, các nhóm được chọn và trong phần sau, các đơn vị riêng lẻ được chọn.

Trong thống kê, các phương pháp chọn đơn vị trong mẫu sau đây được phân biệt:

giai đoạn đơn mẫu - mỗi đơn vị được chọn sẽ được nghiên cứu ngay lập tức trên một cơ sở nhất định (thực tế là các mẫu ngẫu nhiên và nối tiếp);
nhiều tầng lấy mẫu - lựa chọn được thực hiện từ tổng thể chung của các nhóm riêng lẻ, và các đơn vị riêng lẻ được chọn từ các nhóm (một mẫu điển hình với phương pháp cơ học là chọn các đơn vị trong tổng thể mẫu).

Ngoài ra, phân biệt:

sự lựa chọn lại- theo sơ đồ của bóng trả lại. Đồng thời, mỗi đơn vị hoặc loạt đã được đưa vào mẫu được trả về tổng thể chung và do đó, có cơ hội được đưa vào mẫu một lần nữa;
lựa chọn không lặp lại- theo sơ đồ của quả bóng không quay lại. Nó có kết quả chính xác hơn cho cùng một cỡ mẫu.

23. Xác định cỡ mẫu cực kỳ quan trọng (sử dụng bảng Student).

Một trong những nguyên tắc khoa học trong lý thuyết chọn mẫu là đảm bảo chọn đủ số lượng đơn vị. Về mặt lý thuyết, tầm quan trọng cực kỳ quan trọng của việc tuân thủ nguyên tắc này được trình bày trong phần chứng minh các định lý giới hạn của lý thuyết xác suất, cho phép người ta thiết lập bao nhiêu đơn vị nên được chọn từ tổng thể chung sao cho đủ và đảm bảo tính đại diện của mẫu.

Việc giảm sai số chuẩn của mẫu và do đó tăng độ chính xác của ước lượng luôn đi kèm với việc tăng kích thước mẫu, về mặt này, đã ở giai đoạn tổ chức quan sát mẫu, cần phải quyết định cỡ mẫu cần có để đảm bảo độ chính xác cần thiết của kết quả quan sát. Việc tính toán cỡ mẫu cực kỳ quan trọng được xây dựng bằng cách sử dụng các công thức rút ra từ các công thức cho sai số lấy mẫu biên (A), tương ứng với một hoặc một loại và phương pháp lựa chọn khác. Vì vậy, đối với cỡ mẫu lặp lại ngẫu nhiên (n), chúng ta có:

Bản chất của công thức này là với việc chọn lại ngẫu nhiên một số cực kỳ quan trọng, kích thước mẫu tỷ lệ thuận với bình phương của hệ số tin cậy (t2) và phương sai của đặc trưng biến thiên (? 2) và tỷ lệ nghịch với bình phương sai số lấy mẫu biên (? 2). Đặc biệt, khi sai số biên tăng gấp đôi, kích thước mẫu yêu cầu phải giảm đi một phần bốn. Trong ba tham số, hai tham số (t và?) Được thiết lập bởi nhà nghiên cứu. Đồng thời, nhà nghiên cứu, dựa trên mục tiêu

và mục tiêu của cuộc điều tra mẫu nên quyết định câu hỏi: tốt hơn là nên đưa các tham số này vào kết hợp định lượng nào để đưa ra phương án tốt nhất? Trong một trường hợp, anh ta có thể hài lòng với độ tin cậy của kết quả thu được (t) hơn là với thước đo độ chính xác (?), Ngược lại, ngược lại. Khó khăn hơn để giải quyết vấn đề liên quan đến giá trị của sai số lấy mẫu cận biên, vì nhà nghiên cứu không có chỉ số này ở giai đoạn thiết kế quan sát mẫu, liên quan đến điều này, theo thông lệ, trong thực tế, người ta thường đặt sai số lấy mẫu cận biên. , theo quy luật, trong phạm vi 10% so với mức trung bình dự kiến của đặc điểm. Việc thiết lập mức trung bình giả định có thể được tiếp cận theo nhiều cách khác nhau: sử dụng dữ liệu từ các cuộc điều tra tương tự trước đó hoặc sử dụng dữ liệu từ khung lấy mẫu và lấy một mẫu thí điểm nhỏ.

Điều khó khăn nhất để thiết lập khi thiết kế một quan sát mẫu là tham số thứ ba trong công thức (5.2) - phương sai của tổng thể mẫu. Trong trường hợp này, điều cần thiết là sử dụng tất cả các thông tin có sẵn cho điều tra viên từ các cuộc điều tra thí điểm và tương tự trước đó.

Vấn đề xác định cỡ mẫu cực kỳ quan trọng sẽ trở nên phức tạp hơn nếu cuộc điều tra mẫu liên quan đến việc nghiên cứu một số đặc điểm của các đơn vị lấy mẫu. Trong trường hợp này, các mức độ trung bình của mỗi đặc điểm và sự biến đổi của chúng, như một quy luật, là khác nhau, và về mặt này, có thể quyết định mức độ phân tán của các đặc điểm nào sẽ được ưu tiên hơn nếu chỉ tính đến mục đích và mục tiêu của cuộc khảo sát.

Khi thiết kế quan sát mẫu, giá trị xác định trước của sai số lấy mẫu cho phép được giả định phù hợp với mục tiêu của một nghiên cứu cụ thể và xác suất kết luận dựa trên kết quả của quan sát.

Nói chung, công thức cho sai số biên của giá trị trung bình mẫu cho phép bạn xác định:

‣‣‣ mức độ sai lệch có thể có của các chỉ số của dân số chung so với các chỉ số của tổng thể mẫu;

‣‣‣ cỡ mẫu cần thiết, cung cấp độ chính xác cần thiết, trong đó các giới hạn của sai số có thể xảy ra sẽ không vượt quá một giá trị quy định nhất định;

‣‣‣ xác suất mà lỗi trong mẫu sẽ có một giới hạn nhất định.

Phân phối sinh viên trong lý thuyết xác suất, đây là họ một tham số của các phân phối liên tục tuyệt đối.

24. Chuỗi động lực học (khoảng thời gian, thời điểm), đóng chuỗi động học.

Loạt động lực học- Đây là các giá trị của các chỉ tiêu thống kê được trình bày theo một trình tự thời gian nhất định.

Mỗi chuỗi thời gian chứa hai thành phần:

1) chỉ số khoảng thời gian(năm, quý, tháng, ngày hoặc ngày);

2) các chỉ số đặc trưng cho đối tượng được nghiên cứu trong các khoảng thời gian hoặc vào các ngày tương ứng, được gọi là mức độ của một số.

Các mức của chuỗi được thể hiện dưới dạng giá trị tuyệt đối và giá trị trung bình hoặc giá trị tương đối. Với sự phụ thuộc vào bản chất của các chỉ số, chuỗi động của các giá trị tuyệt đối, tương đối và trung bình được xây dựng. Chuỗi giá trị tương đối và trung bình động được xây dựng trên cơ sở đạo hàm của chuỗi giá trị tuyệt đối. Có khoảng thời gian và chuỗi thời điểm của động lực học.

Chuỗi khoảng thời gian động chứa các giá trị của các chỉ số trong những khoảng thời gian nhất định. Trong chuỗi khoảng thời gian, các mức có thể được tổng hợp lại, thu được khối lượng của hiện tượng trong một khoảng thời gian dài hơn, hoặc cái gọi là tổng tích lũy.

Chuỗi khoảnh khắc động phản ánh giá trị của các chỉ tiêu tại một thời điểm nhất định (ngày giờ). Trong chuỗi thời điểm, nhà nghiên cứu có thể chỉ quan tâm đến sự khác biệt của hiện tượng, phản ánh sự thay đổi mức độ của chuỗi giữa các ngày nhất định, vì tổng các mức ở đây không có nội dung thực. Tổng tích lũy không được tính toán ở đây.

Điều kiện quan trọng nhất để xây dựng đúng chuỗi thời gian là khả năng so sánh mức loạt liên quan đến các thời kỳ khác nhau. Các mức độ phải được trình bày bằng các giá trị đồng nhất, phải có cùng mức độ bao quát của các phần khác nhau của hiện tượng.

Để tránh làm sai lệch các động lực thực, các tính toán sơ bộ được thực hiện trong nghiên cứu thống kê (kết thúc chuỗi thời gian), trước khi phân tích thống kê chuỗi thời gian. Ở dưới đóng các hàng của động lực Thông thường hiểu sự kết hợp thành một hàng gồm hai hoặc nhiều hàng, các cấp được tính theo phương pháp luận khác nhau hoặc không tương ứng với ranh giới lãnh thổ, v.v. Việc đóng chuỗi động lực cũng có thể ngụ ý giảm mức tuyệt đối của chuỗi động xuống một cơ sở chung, điều này loại bỏ sự không tương thích của các cấp trong chuỗi động.

25. Khái niệm về sự so sánh của dãy số động lực học, hệ số, tốc độ tăng trưởng và tốc độ tăng trưởng.

Loạt động lực học- Đây là những dãy chỉ tiêu thống kê đặc trưng cho sự phát triển của các sự vật hiện tượng của tự nhiên và xã hội trong thời gian. Các bộ sưu tập thống kê do Ủy ban Thống kê Nhà nước của Nga xuất bản chứa một số lượng lớn các chuỗi thời gian dưới dạng bảng. Chuỗi động lực cho phép tiết lộ các mô hình phát triển của các hiện tượng được nghiên cứu.

Chuỗi động có hai loại chỉ báo. Các chỉ số thời gian(năm, quý, tháng, v.v.) hoặc thời điểm (đầu năm, đầu tháng, v.v.). Chỉ báo mức hàng. Các chỉ số về mức độ của chuỗi thời gian được biểu thị bằng giá trị tuyệt đối (sản lượng sản phẩm tính bằng tấn hoặc rúp), giá trị tương đối (tỷ trọng dân số thành thị tính bằng%) và giá trị trung bình (mức lương trung bình của công nhân trong ngành bằng năm, v.v.). Ở dạng bảng, chuỗi thời gian chứa hai cột hoặc hai hàng.

Việc xây dựng đúng chuỗi thời gian liên quan đến việc đáp ứng một số yêu cầu:

tất cả các chỉ số của một số động lực phải được chứng minh một cách khoa học, đáng tin cậy;
các chỉ số của một loạt các động lực phải được so sánh theo thời gian, ᴛ.ᴇ. phải được tính trong cùng khoảng thời gian hoặc vào cùng ngày;
các chỉ số về một số động lực nên có thể so sánh được trên toàn lãnh thổ;
các chỉ số của một loạt các động lực nên có thể so sánh được về nội dung, ᴛ.ᴇ. được tính toán theo một phương pháp luận duy nhất, theo cùng một cách thức;
Các chỉ số của một loạt các động thái nên có thể so sánh được trong phạm vi các trang trại được xem xét. Tất cả các chỉ số của một loạt các động lực phải được đưa ra theo cùng một đơn vị đo lường.

Các chỉ số thống kê có thể đặc trưng cho kết quả của quá trình đang nghiên cứu trong một khoảng thời gian hoặc trạng thái của hiện tượng đang nghiên cứu tại một thời điểm nhất định, ᴛ.ᴇ. các chỉ số là khoảng thời gian (định kỳ) và thời điểm. Theo đó, ban đầu chuỗi động lực học là khoảng thời gian hoặc thời điểm. Lần lượt, chuỗi động lực có các khoảng thời gian bằng nhau và không bằng nhau.

Chuỗi động lực ban đầu được chuyển thành chuỗi giá trị trung bình và chuỗi giá trị tương đối (chuỗi và cơ sở). Chuỗi thời gian như vậy được gọi là chuỗi thời gian xuất phát.

Phương pháp tính mức trung bình trong chuỗi động lực là khác nhau, do loại chuỗi động lực. Sử dụng các ví dụ, hãy xem xét các loại chuỗi thời gian và công thức tính mức trung bình.

Lợi nhuận tuyệt đối (Δy) cho biết mức độ tiếp theo của chuỗi đã thay đổi bao nhiêu đơn vị so với mức trước đó (cột 3 - mức tăng tuyệt đối của chuỗi) hoặc so với mức ban đầu (cột 4 - mức tăng tuyệt đối cơ bản). Các công thức tính toán có thể được viết như sau:

Với sự giảm các giá trị tuyệt đối của chuỗi sẽ có “giảm”, “giảm” tương ứng.

Tỷ lệ tăng trưởng tuyệt đối chỉ ra rằng, ví dụ, vào năm 1998 ᴦ. sản xuất sản phẩm "A" đã tăng lên so với năm 1997 ᴦ. tăng 4 nghìn tấn, và so với năm 1994 ᴦ. - 34 nghìn tấn; cho các năm khác, xem bảng. 11,5 gr.
Được lưu trữ trên ref.rf
3 và 4.

Yếu tố tăng trưởng cho biết mức độ của chuỗi đã thay đổi bao nhiêu lần so với mức trước đó (cột 5 - yếu tố tăng trưởng hoặc suy giảm của chuỗi) hoặc so với mức ban đầu (cột 6 - yếu tố tăng trưởng hoặc suy giảm cơ bản). Các công thức tính toán có thể được viết như sau:

Tỷ lệ tăng trưởng cho biết mức độ tiếp theo của chuỗi so với mức trước đó (cột 7 - tốc độ tăng trưởng chuỗi) hoặc so với mức ban đầu (cột 8 - tốc độ tăng trưởng cơ bản) là bao nhiêu phần trăm. Các công thức tính toán có thể được viết như sau:

Vì vậy, ví dụ, vào năm 1997 ᴦ. khối lượng sản xuất của sản phẩm "A" so với năm 1996 ᴦ. lên tới 105,5% (

Tốc độ tăng trưởng cho biết mức độ của kỳ báo cáo tăng bao nhiêu phần trăm so với kỳ trước (cột 9 - tốc độ tăng trưởng chuỗi) hoặc so với mức ban đầu (cột 10 - tốc độ tăng trưởng cơ bản). Các công thức tính toán có thể được viết như sau:

T pr \ u003d T p - 100% hoặc T pr \ u003d mức / mức tăng tuyệt đối của giai đoạn trước * 100%

Vì vậy, ví dụ, vào năm 1996 ᴦ. so với năm 1995 ᴦ. sản phẩm "A" được sản xuất nhiều hơn 3,8% (103,8% - 100%) hoặc (8: 210) x100%, và so với năm 1994 ᴦ. - 9% (109% - 100%).

Nếu các mức tuyệt đối trong chuỗi giảm, thì tỷ lệ sẽ nhỏ hơn 100% và theo đó, sẽ có một tỷ lệ suy giảm (tỷ lệ tăng trưởng với một dấu trừ).

Giá trị tuyệt đối của mức tăng 1%(gr.
Được lưu trữ trên ref.rf
11) cho biết cần phải sản xuất bao nhiêu đơn vị trong một thời kỳ nhất định để mức của kỳ trước tăng 1%. Trong ví dụ của chúng tôi, vào năm 1995 ᴦ. nó là cần thiết để sản xuất 2,0 nghìn tấn, và vào năm 1998 ᴦ. - 2,3 nghìn tấn, ᴛ.ᴇ. to hơn nhiều.

Có hai cách để xác định độ lớn của giá trị tuyệt đối của mức tăng trưởng 1%:

§ mức của kỳ trước chia cho 100;

§ số gia tăng tuyệt đối của chuỗi chia cho tỷ lệ tăng trưởng của chuỗi tương ứng.

Giá trị tuyệt đối của mức tăng 1% =

Trong động lực học, đặc biệt là trong một thời kỳ dài, điều quan trọng là phải cùng nhau phân tích tốc độ tăng trưởng với nội dung của từng phần trăm tăng hoặc giảm.

Lưu ý rằng phương pháp được xem xét để phân tích chuỗi thời gian có thể áp dụng cho cả chuỗi thời gian, các mức được biểu thị bằng giá trị tuyệt đối (t, nghìn rúp, số lượng nhân viên, v.v.) và đối với chuỗi thời gian, các mức của được biểu thị bằng các chỉ tiêu tương đối (% phế liệu,% tro của than, v.v.) hoặc giá trị trung bình (năng suất bình quân tính bằng c / ha, lương bình quân, v.v.).

Cùng với các chỉ tiêu phân tích được xem xét tính toán cho từng năm so với mức trước đó hoặc ban đầu, khi phân tích chuỗi thời gian, việc tính toán các chỉ tiêu phân tích bình quân cho cả kỳ là vô cùng quan trọng: mức bình quân của chuỗi, mức tăng tuyệt đối bình quân hàng năm. (giảm) và tốc độ phát triển và tốc độ tăng trưởng bình quân hàng năm.

Các phương pháp tính toán mức độ trung bình của một loạt các động lực đã được thảo luận ở trên. Trong chuỗi động lực theo khoảng thời gian mà chúng ta đang xem xét, mức trung bình của chuỗi được tính bằng công thức trung bình cộng đơn giản:

Sản lượng trung bình hàng năm của sản phẩm trong giai đoạn 1994-1998. lên tới 218,4 nghìn tấn.

Mức tăng tuyệt đối trung bình hàng năm cũng được tính bằng công thức trung bình cộng

Độ lệch chuẩn - khái niệm và các loại. Phân loại và đặc điểm của loại "Độ lệch chuẩn" 2017, 2018.

Một trong những công cụ chính của phân tích thống kê là tính toán độ lệch chuẩn. Chỉ số này cho phép bạn ước tính độ lệch chuẩn cho một mẫu hoặc cho tổng thể chung. Hãy cùng tìm hiểu cách sử dụng công thức độ lệch chuẩn trong Excel.

Hãy ngay lập tức xác định độ lệch chuẩn là gì và công thức của nó trông như thế nào. Giá trị này là căn bậc hai của trung bình cộng của các bình phương của hiệu giữa tất cả các giá trị của chuỗi và trung bình cộng của chúng. Có một tên giống hệt cho chỉ số này - độ lệch chuẩn. Cả hai tên là hoàn toàn tương đương.

Nhưng, tất nhiên, trong Excel, người dùng không phải tính toán điều này, vì chương trình thực hiện mọi thứ cho anh ta. Hãy cùng tìm hiểu cách tính độ lệch chuẩn trong Excel.

Tính toán trong Excel

Bạn có thể tính toán giá trị được chỉ định trong Excel bằng cách sử dụng hai hàm đặc biệt STDEV.B(theo mẫu) và STDEV.G(theo dân số chung). Nguyên tắc hoạt động của chúng là hoàn toàn giống nhau, nhưng chúng có thể được gọi theo ba cách, mà chúng ta sẽ thảo luận dưới đây.

Phương pháp 1: Trình hướng dẫn hàm

Phương pháp 2: Tab công thức

Phương pháp 3: Nhập công thức theo cách thủ công

Cũng có một cách mà bạn không cần phải gọi cửa sổ đối số. Để làm điều này, hãy nhập công thức theo cách thủ công.

Như bạn thấy, cơ chế tính độ lệch chuẩn trong Excel rất đơn giản. Người dùng chỉ cần nhập các số từ tập hợp hoặc liên kết đến các ô chứa chúng. Tất cả các tính toán được thực hiện bởi chính chương trình. Việc hiểu chỉ số tính toán là gì và kết quả tính toán có thể áp dụng vào thực tế sẽ khó hơn nhiều. Nhưng hiểu điều này đã thuộc về lĩnh vực thống kê hơn là học cách làm việc với phần mềm.

Độ lệch chuẩn là một chỉ báo cổ điển về sự thay đổi từ thống kê mô tả.

Độ lệch chuẩn, độ lệch chuẩn, RMS, độ lệch chuẩn mẫu (độ lệch chuẩn tiếng Anh, STD, STDev) là một thước đo độ phân tán rất phổ biến trong thống kê mô tả. Nhưng bởi vì phân tích kỹ thuật cũng giống như thống kê, chỉ báo này có thể (và nên) được sử dụng trong phân tích kỹ thuật để phát hiện mức độ phân tán giá của công cụ được phân tích theo thời gian. Được biểu thị bằng ký hiệu Hy Lạp Sigma "σ".

Cảm ơn Karl Gauss và Pearson vì chúng tôi có cơ hội sử dụng độ lệch chuẩn.

Sử dụng độ lệch chuẩn trong phân tích kỹ thuật, chúng tôi biến điều này "chỉ số phân tán" trong "chỉ báo biến động“Giữ nguyên nghĩa nhưng thay đổi điều khoản.

Độ lệch chuẩn là gì

Nhưng ngoài các tính toán phụ trợ trung gian, độ lệch chuẩn là khá chấp nhận được để tự tính toán và các ứng dụng trong phân tích kỹ thuật. Theo ghi nhận của một độc giả tích cực của tạp chí ngưu bàng của chúng tôi, “ Tôi vẫn không hiểu tại sao RMS không được đưa vào bộ chỉ số tiêu chuẩn của các trung tâm giao dịch trong nước«.

Thật sự, độ lệch chuẩn có thể theo cách cổ điển và "thuần túy" đo lường độ biến thiên của một công cụ. Nhưng thật không may, chỉ báo này không quá phổ biến trong phân tích chứng khoán.

Áp dụng độ lệch chuẩn

Tính toán độ lệch chuẩn theo cách thủ công không thú vị lắm. nhưng hữu ích cho kinh nghiệm. Độ lệch chuẩn có thể được biểu thị công thức STD = √ [(∑ (x-x) 2) / n], nghe giống như tổng bình phương của chênh lệch bình phương giữa các mục mẫu và giá trị trung bình, chia cho số mục trong mẫu.

Nếu số phần tử trong mẫu vượt quá 30, thì mẫu số của phân số dưới căn sẽ nhận giá trị n-1. Nếu không, n được sử dụng.

từng bước một tính toán độ lệch chuẩn:

tính giá trị trung bình cộng của mẫu dữ liệu
trừ điểm trung bình này cho mỗi phần tử của mẫu
tất cả sự khác biệt kết quả được bình phương
tổng tất cả các hình vuông kết quả
chia tổng kết quả cho số phần tử trong mẫu (hoặc cho n-1 nếu n> 30)
tính căn bậc hai của thương kết quả (được gọi là sự phân tán)

Sự phân tán. Độ lệch chuẩn

Sự phân tán là trung bình cộng của độ lệch bình phương của từng giá trị đối tượng so với tổng giá trị. Tùy thuộc vào dữ liệu nguồn, phương sai có thể không có trọng số (đơn giản) hoặc có trọng số.

Độ phân tán được tính bằng các công thức sau:

cho dữ liệu chưa được phân nhóm

cho dữ liệu được nhóm

Quy trình tính phương sai có trọng số:

1. xác định giá trị trung bình cộng

2. Độ lệch của các biến thể so với giá trị trung bình được xác định

3. bình phương độ lệch của mỗi tùy chọn so với giá trị trung bình

4. nhân độ lệch bình phương với trọng số (tần số)

5. tóm tắt các tác phẩm đã nhận

6. số tiền kết quả được chia cho tổng trọng lượng

Công thức xác định phương sai có thể được chuyển đổi thành công thức sau:

- giản dị

Quy trình tính toán phương sai rất đơn giản:

1. xác định giá trị trung bình cộng

2. bình phương số học trung bình

3. vuông từng hàng tùy chọn

4. tìm tổng bình phương tùy chọn

5. chia tổng các bình phương của tùy chọn cho số của chúng, tức là xác định bình phương trung bình

6. xác định sự khác biệt giữa bình phương trung bình của đối tượng địa lý và bình phương trung bình

Ngoài ra, công thức xác định phương sai có trọng số có thể được chuyển đổi thành công thức sau:

những thứ kia. phương sai bằng hiệu giữa trung bình của các bình phương của các giá trị đối tượng và bình phương của trung bình số học. Khi sử dụng công thức đã chuyển đổi, một quy trình bổ sung để tính toán độ lệch của các giá trị riêng lẻ của một đối tượng từ x sẽ bị loại trừ và lỗi trong phép tính liên quan đến độ lệch làm tròn bị loại trừ

Sự phân tán có một số đặc tính, một số đặc tính giúp tính toán dễ dàng hơn:

1) độ phân tán của một giá trị không đổi bằng 0;

2) nếu tất cả các biến thể của các giá trị thuộc tính đều giảm cùng một số, thì phương sai sẽ không giảm;

3) nếu tất cả các biến thể của các giá trị thuộc tính đều giảm cùng một số lần (lần), thì phương sai sẽ giảm theo hệ số

Độ lệch chuẩn- là căn bậc hai của phương sai:

Đối với dữ liệu chưa được nhóm:

;

Đối với một chuỗi biến thể:

Phạm vi biến thiên, tuyến tính trung bình và độ lệch bình phương trung bình là các đại lượng được đặt tên. Chúng có cùng đơn vị đo lường như các giá trị đặc trưng riêng lẻ.

Độ phân tán và độ lệch chuẩn là những thước đo độ biến thiên được sử dụng rộng rãi nhất. Điều này được giải thích bởi thực tế là chúng được bao gồm trong hầu hết các định lý của lý thuyết xác suất, đóng vai trò là nền tảng của thống kê toán học. Ngoài ra, phương sai có thể được phân tách thành các yếu tố cấu thành của nó, cho phép đánh giá mức độ ảnh hưởng của các yếu tố khác nhau gây ra sự biến đổi của một tính trạng.

Việc tính toán các chỉ số biến động cho các ngân hàng được phân nhóm theo lợi nhuận được trình bày trong bảng.

Lợi nhuận, triệu rúp	Số lượng ngân hàng	các chỉ số tính toán

3,7 - 4,6 (-)		4,15	8,30	-1,935	3,870	7,489
4,6 - 5,5		5,05	20,20	- 1,035	4,140	4,285
5,5 - 6,4		5,95	35,70	- 0,135	0,810	0,109
6,4 - 7,3		6,85	34,25	+0,765	3,825	2,926
7,3 - 8,2		7,75	23,25	+1,665	4,995	8,317
Toàn bộ:			121,70		17,640	23,126

Độ lệch trung bình tuyến tính và bình phương trung bình cho biết giá trị của thuộc tính dao động trung bình bao nhiêu đối với các đơn vị và dân số đang được nghiên cứu. Vì vậy, trong trường hợp này, giá trị trung bình của sự biến động về lượng lợi nhuận là: theo độ lệch tuyến tính trung bình, 0,882 triệu rúp; theo độ lệch chuẩn - 1,075 triệu rúp. Độ lệch chuẩn luôn lớn hơn độ lệch tuyến tính trung bình. Nếu sự phân bố của tính trạng gần với bình thường, thì có mối quan hệ giữa S và d: S = 1,25d, hoặc d = 0,8S. Độ lệch chuẩn cho biết vị trí của phần lớn các đơn vị dân số so với giá trị trung bình số học. Bất kể hình thức phân phối là gì, 75 giá trị thuộc tính nằm trong khoảng x 2S và ít nhất 89 trong số tất cả các giá trị nằm trong khoảng x 3S (định lý P.L. Chebyshev).

X tôi - giá trị ngẫu nhiên (hiện tại);

X̅– giá trị trung bình của các biến ngẫu nhiên trong mẫu được tính theo công thức:

Cho nên, phương sai là bình phương trung bình của độ lệch . Nghĩa là, giá trị trung bình được tính trước, sau đó lấy sự khác biệt giữa mỗi giá trị gốc và giá trị trung bình, bình phương , được thêm vào và sau đó chia cho số giá trị trong tập hợp đã cho.

Sự khác biệt giữa giá trị cá nhân và giá trị trung bình phản ánh thước đo độ lệch. Nó được bình phương để đảm bảo rằng tất cả các độ lệch trở thành các số dương duy nhất và để tránh việc loại bỏ lẫn nhau của các độ lệch âm và dương khi chúng được cộng lại. Sau đó, với độ lệch bình phương, chúng ta chỉ cần tính trung bình cộng.

Manh mối của từ ma thuật "phân tán" chỉ nằm trong ba từ này: trung bình - bình phương - sai lệch.

Độ lệch chuẩn (RMS)

Lấy căn bậc hai của độ phân tán, chúng ta nhận được cái gọi là " độ lệch chuẩn". Có những cái tên "độ lệch chuẩn" hoặc "sigma" (từ tên của chữ cái Hy Lạp σ .). Công thức cho độ lệch chuẩn là:

Cho nên, phương sai là bình phương sigma, hoặc - bình phương độ lệch chuẩn.

Độ lệch chuẩn, rõ ràng, cũng đặc trưng cho phép đo độ phân tán dữ liệu, nhưng bây giờ (không giống độ phân tán) nó có thể được so sánh với dữ liệu ban đầu, vì chúng có cùng đơn vị đo lường (điều này rõ ràng trong công thức tính toán). Khoảng biến thiên là hiệu số giữa các giá trị cực trị. Độ lệch chuẩn, như một thước đo độ không đảm bảo, cũng liên quan đến nhiều phép tính thống kê. Với sự trợ giúp của nó, mức độ chính xác của các ước tính và dự báo khác nhau được thiết lập. Nếu sự thay đổi là rất lớn, thì độ lệch chuẩn cũng sẽ lớn, do đó, dự báo sẽ không chính xác, ví dụ, sẽ được thể hiện trong khoảng tin cậy rất rộng.

Do đó, trong các phương pháp xử lý dữ liệu thống kê trong thẩm định giá bất động sản, tùy thuộc vào độ chính xác yêu cầu của nhiệm vụ, quy tắc hai hoặc ba dấu hiệu được sử dụng.

Để so sánh quy tắc hai sigma và quy tắc ba sigma, chúng tôi sử dụng công thức Laplace:

F - F,

trong đó Ф (x) là hàm Laplace;

Giá trị tối thiểu

β = giá trị lớn nhất

s = giá trị sigma (độ lệch chuẩn)

a = giá trị trung bình

Trong trường hợp này, một dạng cụ thể của công thức Laplace được sử dụng khi các ranh giới α và β của các giá trị của biến ngẫu nhiên X cách đều nhau từ trung tâm phân phối a = M (X) bởi một giá trị nào đó d: a = a-d , b = a + d.

Hoặc

(1) Công thức (1) xác định xác suất của độ lệch d cho trước của một biến ngẫu nhiên X với luật phân phối chuẩn từ kỳ vọng toán học của nó М (X) = a. Nếu trong công thức (1) ta lấy liên tiếp d = 2s và d = 3s thì ta được: (2), (3).

Quy tắc hai sigma

Gần như đáng tin cậy (với xác suất tin cậy là 0,954), có thể lập luận rằng tất cả các giá trị của biến ngẫu nhiên X với luật phân phối chuẩn đều sai lệch so với kỳ vọng toán học của nó M (X) = a một lượng không lớn hơn 2s (hai tiêu chuẩn sai lệch). Xác suất tin cậy (Pd) là xác suất của các sự kiện được chấp nhận có điều kiện là đáng tin cậy (xác suất của chúng gần bằng 1).

Hãy minh họa quy tắc của hai sigma về mặt hình học. Trên hình. 6 cho thấy một đường cong Gaussian với một trung tâm phân phối a. Diện tích giới hạn bởi toàn bộ đường cong và trục Ox là 1 (100%), và diện tích hình thang cong giữa các đường cong a – 2s và a + 2s, theo quy tắc hai sigma, là 0,954 (95,4% của tổng diện tích). Diện tích các vùng được tô bóng bằng 1-0,954 = 0,046 (> 5% tổng diện tích). Các phần này được gọi là phạm vi tới hạn của biến ngẫu nhiên. Các giá trị của một biến ngẫu nhiên rơi vào vùng tới hạn là không thể xảy ra và trong thực tế được coi là không thể có điều kiện.

Xác suất của các giá trị không thể có điều kiện được gọi là mức ý nghĩa của một biến ngẫu nhiên. Mức ý nghĩa liên quan đến mức độ tin cậy theo công thức:

trong đó q là mức ý nghĩa, được biểu thị bằng phần trăm.

Quy tắc ba sigma

Khi giải quyết các vấn đề yêu cầu độ tin cậy cao hơn, khi xác suất tin cậy (Pd) được lấy bằng 0,997 (chính xác hơn là 0,9973), thay vì quy tắc hai sigma, theo công thức (3), quy tắc được sử dụng ba sigma.

Dựa theo quy tắc ba sigma với mức độ tin cậy là 0,9973, vùng tới hạn sẽ là vùng của các giá trị thuộc tính nằm ngoài khoảng (a-3s, a + 3s). Mức ý nghĩa là 0,27%.

Nói cách khác, xác suất giá trị tuyệt đối của độ lệch vượt quá ba lần độ lệch chuẩn là rất nhỏ, cụ thể là 0,0027 = 1-0,9973. Điều này có nghĩa là chỉ trong 0,27% trường hợp điều này có thể xảy ra. Những sự kiện như vậy, dựa trên nguyên tắc về tính không thể xảy ra của các sự kiện không xảy ra, có thể được coi là không thể xảy ra trên thực tế. Những thứ kia. lấy mẫu chính xác cao.

Đây là bản chất của quy tắc ba sigma:

Nếu một biến ngẫu nhiên được phân phối chuẩn, thì giá trị tuyệt đối của độ lệch của nó so với kỳ vọng toán học không vượt quá ba lần độ lệch chuẩn (RMS).

Trong thực tế, quy tắc ba sigma được áp dụng như sau: nếu chưa biết phân phối của biến ngẫu nhiên đang nghiên cứu nhưng đáp ứng điều kiện quy định trong quy tắc trên thì có lý do để cho rằng biến nghiên cứu được phân phối bình thường; nếu không, nó không được phân phối bình thường.

Mức độ ý nghĩa được thực hiện tùy thuộc vào mức độ rủi ro cho phép và nhiệm vụ. Đối với hoạt động thẩm định bất động sản, một mẫu ít chính xác hơn thường được lấy, tuân theo quy tắc hai sigma.