Tiểu sử Đặc điểm Phân tích

Công thức phân tán toán học. Sự phân tán của một biến ngẫu nhiên rời rạc

Hãy tính toán trongEXCELphương sai và độ lệch chuẩn của mẫu. Chúng tôi cũng tính toán phương sai của một biến ngẫu nhiên nếu biết phân phối của nó.

Đầu tiên hãy xem xét sự phân tán, sau đó độ lệch chuẩn.

Phương sai mẫu

Phương sai mẫu (phương sai mẫu,vật mẫuphương sai) đặc trưng cho sự lan truyền các giá trị trong mảng so với.

Cả 3 công thức đều tương đương về mặt toán học.

Có thể thấy từ công thức đầu tiên rằng phương sai mẫu là tổng bình phương độ lệch của mỗi giá trị trong mảng từ mức trung bình chia cho cỡ mẫu trừ đi 1.

sự phân tán mẫu hàm DISP () được sử dụng, eng. tên của VAR, tức là VARIance. Kể từ MS EXCEL 2010, bạn nên sử dụng DISP.V () tương tự, eng. tên VARS, tức là Phương sai mẫu. Ngoài ra, bắt đầu từ phiên bản MS EXCEL 2010, có một hàm DISP.G (), eng. Tên VARP, tức là VARIance tổng thể tính toán sự phân tándân số. Toàn bộ sự khác biệt đi xuống mẫu số: thay vì n-1 như DISP.V (), DISP.G () chỉ có n ở mẫu số. Trước MS EXCEL 2010, hàm VARP () đã được sử dụng để tính phương sai tổng thể.

Phương sai mẫu
= SQUARE (Mẫu) / (COUNT (Mẫu) -1)
= (SUMSQ (Mẫu) -COUNT (Mẫu) * AVERAGE (Mẫu) ^ 2) / (COUNT (Mẫu) -1)- công thức thông thường
= SUM ((Mẫu -AVERAGE (Mẫu)) ^ 2) / (COUNT (Mẫu) -1) –

Phương sai mẫu chỉ bằng 0 nếu tất cả các giá trị đều bằng nhau và do đó, bằng giá trị trung bình. Thông thường, giá trị càng lớn sự phân tán, mức độ lan truyền các giá trị trong mảng càng lớn.

Phương sai mẫu là một ước tính điểm sự phân tán phân phối của biến ngẫu nhiên mà từ đó vật mẫu. Về tòa nhà khoảng tin cậy khi đánh giá sự phân tán có thể được đọc trong bài báo.

Phương sai của một biến ngẫu nhiên

Tính toán sự phân tán biến ngẫu nhiên, bạn cần biết nó.

sự phân tán biến ngẫu nhiên X thường sử dụng ký hiệu Var (X). Sự phân tán bằng bình phương của độ lệch so với giá trị trung bình E (X): Var (X) = E [(X-E (X)) 2]

sự phân tánđược tính theo công thức:

trong đó x i là giá trị mà biến ngẫu nhiên có thể nhận, và μ là giá trị trung bình (), p (x) là xác suất để biến ngẫu nhiên nhận giá trị x.

Nếu biến ngẫu nhiên có, thì sự phân tánđược tính theo công thức:

Kích thước sự phân tán tương ứng với bình phương của đơn vị đo các giá trị ban đầu. Ví dụ, nếu các giá trị trong mẫu là số đo trọng lượng của bộ phận (tính bằng kg), thì thứ nguyên của phương sai sẽ là kg 2. Do đó, điều này có thể khó giải thích để mô tả đặc điểm của sự lan truyền các giá trị, một giá trị bằng căn bậc hai của sự phân tánđộ lệch chuẩn.

Một số tài sản sự phân tán:

Var (X + a) = Var (X), trong đó X là biến ngẫu nhiên và a là hằng số.

Var (aХ) = a 2 Var (X)

Var (X) = E [(X-E (X)) 2] = E = E (X 2) -E (2 * X * E (X)) + (E (X)) 2 = E (X 2) - 2 * E (X) * E (X) + (E (X)) 2 = E (X 2) - (E (X)) 2

Thuộc tính phân tán này được sử dụng trong bài viết về hồi quy tuyến tính.

Var (X + Y) = Var (X) + Var (Y) + 2 * Cov (X; Y), trong đó X và Y là các biến ngẫu nhiên, Cov (X; Y) là hiệp phương sai của các biến ngẫu nhiên này.

Nếu các biến ngẫu nhiên là độc lập, thì hiệp phương sai là 0, và do đó Var (X + Y) = Var (X) + Var (Y). Thuộc tính này của phương sai được sử dụng trong đầu ra.

Chúng ta hãy chứng minh rằng đối với các đại lượng độc lập Var (X-Y) = Var (X + Y). Thật vậy, Var (X-Y) = Var (X-Y) = Var (X + (- Y)) = Var (X) + Var (-Y) = Var (X) + Var (-Y) = Var (X) + (- 1) 2 Var (Y) = Var (X) + Var (Y) = Var (X + Y). Thuộc tính này của phương sai được sử dụng để vẽ biểu đồ.

Độ lệch chuẩn mẫu

Độ lệch chuẩn mẫu là thước đo mức độ phân tán của các giá trị trong mẫu so với chúng.

Theo định nghĩa, độ lệch chuẩn bằng căn bậc hai của sự phân tán:

Độ lệch chuẩn không tính đến độ lớn của các giá trị trong lấy mẫu, nhưng chỉ mức độ phân tán của các giá trị xung quanh chúng ở giữa. Hãy lấy một ví dụ để minh họa điều này.

Hãy tính độ lệch chuẩn cho 2 mẫu: (1; 5; 9) và (1001; 1005; 1009). Trong cả hai trường hợp, s = 4. Rõ ràng là tỷ lệ của độ lệch chuẩn so với các giá trị của mảng là khác nhau đáng kể đối với các mẫu. Đối với những trường hợp như vậy, hãy sử dụng Hệ số biến đổi(Hệ số biến thiên, CV) - tỷ lệ độ lệch chuẩnđến mức trung bình Môn số học, được biểu thị dưới dạng phần trăm.

Trong MS EXCEL 2007 và các phiên bản trước đó để tính toán Độ lệch chuẩn mẫu hàm = STDEV () được sử dụng, eng. tên STDEV, tức là độ lệch chuẩn. Kể từ MS EXCEL 2010, bạn nên sử dụng tương tự = STDEV.B (), eng. tên STDEV.S, tức là Độ lệch chuẩn mẫu.

Ngoài ra, bắt đầu từ phiên bản MS EXCEL 2010, có một hàm STDEV.G (), eng. tên STDEV.P, tức là Dân số Tiêu chuẩn DEViation tính toán độ lệch chuẩndân số. Toàn bộ sự khác biệt đi xuống mẫu số: thay vì n-1 như STDEV.V (), STDEV.G () chỉ có n ở mẫu số.

Độ lệch chuẩn cũng có thể được tính toán trực tiếp từ các công thức bên dưới (xem tệp ví dụ)
= SQRT (SQUADROTIV (Mẫu) / (COUNT (Mẫu) -1))
= SQRT ((SUMSQ (Mẫu) -COUNT (Mẫu) * AVERAGE (Mẫu) ^ 2) / (COUNT (Mẫu) -1))

Các biện pháp phân tán khác

Hàm SQUADRIVE () tính toán với umm độ lệch bình phương của các giá trị so với ở giữa. Hàm này sẽ trả về kết quả giống như công thức = VAR.G ( Vật mẫu)*KIỂM TRA( Vật mẫu) , ở đâu Vật mẫu- một tham chiếu đến một phạm vi chứa một mảng các giá trị mẫu (). Các phép tính trong hàm QUADROTIV () được thực hiện theo công thức:

Hàm SROOT () cũng là một thước đo độ phân tán của một tập dữ liệu. Hàm SIROTL () tính giá trị trung bình của các giá trị tuyệt đối của độ lệch của các giá trị từ ở giữa. Hàm này sẽ trả về kết quả giống như công thức = SUMPRODUCT (ABS (Mẫu-AVERAGE (Mẫu))) / COUNT (Mẫu), ở đâu Vật mẫu- tham chiếu đến một phạm vi chứa một mảng các giá trị mẫu.

Các phép tính trong hàm SROOTKL () được thực hiện theo công thức:

Phạm vi biến đổi (hoặc phạm vi biến thể) - là sự khác biệt giữa giá trị tối đa và giá trị nhỏ nhất của đối tượng địa lý:

Trong ví dụ của chúng ta, phạm vi biến động của sản lượng ca của công nhân là: ở lữ đoàn thứ nhất R = 105-95 = 10 con, ở lữ đoàn thứ hai R = 125-75 = 50 con. (Gấp 5 lần). Điều này cho thấy rằng sản lượng của lữ đoàn 1 “ổn định” hơn, nhưng lữ đoàn thứ hai có nhiều dự trữ hơn để tăng sản lượng, bởi vì. nếu tất cả công nhân đạt sản lượng tối đa cho lữ đoàn này, nó có thể sản xuất 3 * 125 = 375 bộ phận, và ở lữ đoàn 1 chỉ có 105 * 3 = 315 bộ phận.
Nếu các giá trị cực đoan của thuộc tính không phải là điển hình cho tổng thể, thì phạm vi phần tư hoặc phần thập phân sẽ được sử dụng. Phạm vi phần tư RQ = Q3-Q1 bao gồm 50% dân số, phạm vi phân tách đầu tiên RD1 = D9-D1 bao gồm 80% dữ liệu, phạm vi phân tách thứ hai RD2 = D8-D2 bao gồm 60%.
Nhược điểm của chỉ báo phạm vi biến đổi là, nhưng giá trị của nó không phản ánh tất cả các biến động của tính trạng.
Chỉ số tổng quát đơn giản nhất phản ánh tất cả các biến động của một đặc điểm là có nghĩa là độ lệch tuyến tính, là trung bình cộng của độ lệch tuyệt đối của các tùy chọn riêng lẻ so với giá trị trung bình của chúng:

,
cho dữ liệu được nhóm
,
trong đó хi là giá trị của thuộc tính trong một chuỗi rời rạc hoặc giữa khoảng trong phân phối khoảng.
Trong các công thức trên, sự khác biệt về tử số được tính theo môđun, nếu không, theo thuộc tính của trung bình cộng, tử số sẽ luôn bằng không. Do đó, độ lệch tuyến tính trung bình ít được sử dụng trong thực hành thống kê, chỉ trong những trường hợp tổng hợp các chỉ tiêu mà không tính đến dấu hiệu mới có ý nghĩa kinh tế. Với sự trợ giúp của nó, ví dụ, thành phần của người lao động, lợi nhuận của sản xuất và kim ngạch ngoại thương được phân tích.
Phương sai của tính năng là bình phương trung bình của độ lệch của biến thể so với giá trị trung bình của chúng:
phương sai đơn giản
,
phương sai trọng số
.
Công thức tính phương sai có thể được đơn giản hóa:

Do đó, phương sai bằng hiệu giữa trung bình của các bình phương của biến thể và bình phương của trung bình của biến thể của tổng thể:
.
Tuy nhiên, do tổng các độ lệch bình phương, phương sai đưa ra một ý tưởng sai lệch về độ lệch, vì vậy giá trị trung bình được tính từ nó. độ lệch chuẩn, cho biết mức độ trung bình của các biến thể cụ thể của thuộc tính so với giá trị trung bình của chúng. Được tính bằng cách lấy căn bậc hai của phương sai:
cho dữ liệu chưa được phân nhóm
,
cho chuỗi biến thể

Giá trị của phương sai và độ lệch chuẩn càng nhỏ, tổng thể càng đồng nhất thì giá trị trung bình càng đáng tin cậy (điển hình).
Độ lệch tuyến tính trung bình và độ lệch bình phương trung bình là các số được đặt tên, tức là chúng được biểu thị bằng đơn vị đo của thuộc tính, giống nhau về nội dung và gần giống nhau về giá trị.
Chúng tôi khuyến nghị tính toán các chỉ số tuyệt đối của sự thay đổi bằng cách sử dụng các bảng.
Bảng 3 - Tính toán các đặc điểm của sự thay đổi (trên ví dụ về thời kỳ dữ liệu về sản lượng ca của các nhóm công việc)


Số lượng công nhân

Giữa khoảng

Giá trị ước tính

Tổng cộng:

Sản lượng ca làm việc bình quân của công nhân:

Độ lệch tuyến tính trung bình:

Phân tán đầu ra:

Độ lệch chuẩn của sản lượng của từng công nhân so với sản lượng trung bình:
.

1 Tính toán độ phân tán theo phương pháp mômen

Việc tính toán phương sai được kết hợp với các phép tính rườm rà (đặc biệt nếu giá trị trung bình được biểu thị dưới dạng một số lớn với vài chữ số thập phân). Các phép tính có thể được đơn giản hóa bằng cách sử dụng công thức đơn giản hóa và các thuộc tính phân tán.
Sự phân tán có các tính chất sau:

  1. nếu tất cả các giá trị của thuộc tính bị giảm hoặc tăng bởi cùng một giá trị A, thì phương sai sẽ không giảm từ điều này:

,

, sau đó hoặc
Sử dụng các tính chất của phương sai và trước tiên giảm tất cả các biến thể của tổng thể theo giá trị A, sau đó chia cho giá trị của khoảng thời gian h, chúng ta thu được công thức tính phương sai trong chuỗi biến thiên với các khoảng thời gian bằng nhau cách của khoảnh khắc:
,
đâu là độ phân tán được tính theo phương pháp mômen;
h là giá trị của khoảng thời gian của chuỗi biến thiên;
- giá trị biến thể mới (đã chuyển đổi);
A là một giá trị không đổi, được sử dụng làm giá trị giữa của khoảng có tần số cao nhất; hoặc biến thể có tần suất cao nhất;
là bình phương của thời điểm của bậc đầu tiên;
là một thời điểm của lệnh thứ hai.
Hãy tính phương sai theo phương pháp mô men dựa trên dữ liệu về sản lượng ca của đội làm việc.
Bảng 4 - Tính toán độ phân tán theo phương pháp mômen


Các nhóm công nhân sản xuất, chiếc.

Số lượng công nhân

Giữa khoảng

Giá trị ước tính

Quy trình tính toán:


  1. tính toán phương sai:

2 Tính toán phương sai của một đối tượng địa lý thay thế

Trong số những dấu hiệu được thống kê nghiên cứu, có những dấu hiệu chỉ mang hai ý nghĩa loại trừ lẫn nhau. Đây là những dấu hiệu thay thế. Chúng được đưa ra hai giá trị định lượng, lần lượt là: phương án 1 và 0. Tần suất của phương án 1, được ký hiệu là p, là tỷ lệ các đơn vị có tính năng này. Sự khác biệt 1-p = q là tần suất của các phương án 0. Do đó,


xi

Trung bình cộng của đối tượng địa lý thay thế
, vì p + q = 1.

Phương sai của tính năng
, tại vì 1-p = q
Do đó, phương sai của một thuộc tính thay thế bằng tích của tỷ lệ các đơn vị có thuộc tính này và tỷ lệ các đơn vị không có thuộc tính này.
Nếu các giá trị 1 và 0 có tần suất như nhau, tức là p = q, thì phương sai đạt cực đại pq = 0,25.
Biến phương sai được sử dụng trong các cuộc điều tra mẫu, ví dụ, chất lượng sản phẩm.

3 Sự phân tán giữa các nhóm. Quy tắc cộng phương sai

Sự phân tán, không giống như các đặc điểm khác của sự biến đổi, là một đại lượng cộng tính. Tức là, trong tổng thể, được chia thành các nhóm theo tiêu chí yếu tố X , phương sai kết quả y có thể được phân tách thành phương sai trong mỗi nhóm (trong nhóm) và phương sai giữa các nhóm (giữa nhóm). Sau đó, cùng với việc nghiên cứu sự biến đổi của các tính trạng trong toàn bộ quần thể, có thể nghiên cứu sự biến đổi trong mỗi nhóm, cũng như giữa các nhóm này.

Tổng phương saiđo lường sự biến đổi của một tính trạng tại trên toàn bộ dân số dưới tác động của tất cả các yếu tố gây ra sự biến đổi (sai lệch) này. Nó bằng bình phương trung bình của độ lệch của các giá trị riêng lẻ của đối tượng địa lý tại của giá trị trung bình tổng thể và có thể được tính dưới dạng phương sai đơn giản hoặc phương sai có trọng số.
Phương sai giữa các nhómđặc trưng cho sự thay đổi của tính năng hiệu quả tại, do ảnh hưởng của yếu tố dấu hiệu X cơ bản của nhóm. Nó đặc trưng cho sự biến thiên của trung bình của nhóm và bằng bình phương trung bình của độ lệch của nhóm có nghĩa là từ tổng trung bình:
,
trung bình cộng của nhóm thứ i ở đâu;
- số đơn vị trong nhóm thứ i (tần số của nhóm thứ i);
là tổng số trung bình của dân số.
Phương sai nội nhóm phản ánh sự biến đổi ngẫu nhiên, tức là phần biến thể gây ra bởi ảnh hưởng của các yếu tố không được tính toán và không phụ thuộc vào yếu tố thuộc tính cơ bản của nhóm. Nó đặc trưng cho sự biến thiên của các giá trị riêng lẻ so với giá trị trung bình của nhóm, nó bằng bình phương độ lệch trung bình của các giá trị riêng lẻ của đặc điểm tại trong một nhóm từ trung bình cộng của nhóm này (trung bình nhóm) và được tính như một phương sai đơn giản hoặc có trọng số cho mỗi nhóm:
hoặc ,
đâu là số đơn vị trong nhóm.
Dựa trên các phương sai nội bộ của mỗi nhóm, có thể xác định trung bình tổng thể của các phương sai trong nhóm:
.
Mối quan hệ giữa ba phương sai được gọi là quy tắc cộng phương sai, theo đó tổng phương sai bằng tổng phương sai giữa các nhóm và trung bình của các phương sai trong nhóm:

Thí dụ. Khi nghiên cứu ảnh hưởng của loại thuế quan (trình độ) của người lao động đến mức năng suất lao động của họ, người ta thu được các số liệu sau.
Bảng 5 - Phân bổ công nhân theo sản lượng trung bình hàng giờ.



p / p

Công nhân loại 4

Công nhân loại 5

Tập thể dục
công nhân, chiếc.,

Tập thể dục
công nhân, chiếc.,

1
2
3
4
5
6

7
9
9
10
12
13

7-10=-3
9-10=-1
-1
0
2
3

9
1
1
0
4
9

1
2
3
4

14
14
15
17

14-15=-1
-1
0
2

1
1
0
4

Trong ví dụ này, người lao động được chia thành hai nhóm theo hệ số X- bằng cấp, được đặc trưng bởi cấp bậc của họ. Đặc điểm hiệu quả - sản xuất - thay đổi cả dưới ảnh hưởng của nó (biến đổi giữa các nhóm) và do các yếu tố ngẫu nhiên khác (biến đổi trong nhóm). Thách thức là đo lường các biến thể này bằng cách sử dụng ba phương sai: tổng số, giữa nhóm và trong nhóm. Hệ số xác định theo kinh nghiệm cho thấy tỷ lệ biến thiên của đặc điểm kết quả tại dưới ảnh hưởng của một dấu hiệu nhân tố X. Phần còn lại của tổng biến thể tại gây ra bởi sự thay đổi của các yếu tố khác.
Trong ví dụ, hệ số xác định theo kinh nghiệm là:
hoặc 66,7%,
Điều này có nghĩa là 66,7% sự biến động năng suất lao động của người lao động là do chênh lệch về trình độ, và 33,3% là do ảnh hưởng của các yếu tố khác.
Mối quan hệ tương quan thực nghiệm cho thấy mối quan hệ chặt chẽ giữa các tính năng nhóm và hiệu quả. Nó được tính bằng căn bậc hai của hệ số xác định thực nghiệm:

Tỷ lệ tương quan thực nghiệm cũng có thể nhận các giá trị từ 0 đến 1.
Nếu không có kết nối, thì = 0. Trong trường hợp này, = 0, nghĩa là các nhóm bằng nhau và không có sự thay đổi giữa các nhóm. Điều này có nghĩa là dấu hiệu phân nhóm - yếu tố không ảnh hưởng đến sự hình thành biến thể chung.
Nếu mối quan hệ là hàm thì = 1. Trong trường hợp này, phương sai của nhóm có nghĩa là bằng tổng phương sai (), tức là không có biến thể trong nhóm. Điều này có nghĩa là đặc điểm nhóm hoàn toàn xác định sự biến đổi của đối tượng địa lý kết quả đang được nghiên cứu.
Giá trị của mối quan hệ tương quan càng gần với một, thì sự phụ thuộc hàm, mối quan hệ giữa các đối tượng địa lý càng gần nhau hơn.
Để đánh giá định tính mức độ gần gũi của mối liên hệ giữa các dấu hiệu, quan hệ Chaddock được sử dụng.

Trong ví dụ , chỉ ra mối quan hệ chặt chẽ giữa năng suất của người lao động và trình độ của họ.

Cùng với việc nghiên cứu sự biến đổi của một tính trạng trong toàn bộ quần thể nói chung, cần phải theo dõi những thay đổi về số lượng của tính trạng trong các nhóm mà quần thể được phân chia, cũng như giữa các nhóm. Nghiên cứu về sự thay đổi này được thực hiện bằng cách tính toán và phân tích các loại phương sai khác nhau.
Phân biệt giữa phân tán tổng số, giữa các nhóm và trong nhóm.
Tổng phương sai σ 2đo lường sự biến đổi của một tính trạng trên toàn bộ quần thể dưới tác động của tất cả các yếu tố gây ra sự biến đổi này ,.

Phương sai giữa các nhóm (δ) đặc trưng cho sự thay đổi có hệ thống, tức là sự khác biệt về mức độ của tính trạng đang nghiên cứu, phát sinh dưới ảnh hưởng của nhân tố tính trạng cơ bản của việc phân nhóm. Nó được tính theo công thức:
.

Phương sai trong nhóm (σ) phản ánh sự biến đổi ngẫu nhiên, tức là một phần của sự biến đổi xảy ra dưới ảnh hưởng của các yếu tố không được tính toán và không phụ thuộc vào yếu tố đặc điểm cơ bản của việc phân nhóm. Nó được tính theo công thức:
.

Trung bình của các phương sai trong nhóm: .

Có một quy luật liên kết 3 loại phân tán. Tổng phương sai bằng tổng giá trị trung bình của phương sai trong nhóm và giữa các nhóm: .
Tỷ lệ này được gọi là quy tắc cộng phương sai.

Trong phân tích, một thước đo được sử dụng rộng rãi, đó là tỷ lệ phương sai giữa các nhóm trong tổng phương sai. Nó mang tên Hệ số xác định thực nghiệm (η 2): .
Căn bậc hai của hệ số xác định thực nghiệm được gọi là tỷ lệ tương quan thực nghiệm (η):
.
Nó đặc trưng cho ảnh hưởng của thuộc tính nằm trong nhóm đối với sự biến đổi của thuộc tính kết quả. Tỷ lệ tương quan thực nghiệm thay đổi từ 0 đến 1.
Chúng tôi sẽ chỉ ra công dụng thực tế của nó trong ví dụ sau (Bảng 1).

Ví dụ 1. Bảng 1 - Năng suất lao động của hai nhóm công nhân thuộc một trong các phân xưởng của NPO "Cyclone"

Tính toán tổng và trung bình nhóm và phương sai:




Dữ liệu ban đầu để tính giá trị trung bình của sự phân tán trong nhóm và giữa các nhóm được trình bày trong Bảng. 2.
ban 2
Tính toán và δ 2 cho hai nhóm công nhân.


Nhóm công nhân
Số lượng công nhân, cá nhân. Trung bình, det./shift. Sự phân tán

Đã qua đào tạo kỹ thuật

5 95 42,0

Không được đào tạo kỹ thuật

5 81 231,2

Tất cả công nhân

10 88 185,6
Hãy tính điểm số. Trung bình của các phương sai trong nhóm:
.
Phương sai giữa các nhóm

Tổng phương sai:
Như vậy, tỷ lệ tương quan thực nghiệm :.

Cùng với sự biến đổi của các tính trạng số lượng, sự biến đổi của các tính trạng chất lượng cũng có thể được quan sát thấy. Nghiên cứu về sự thay đổi này được thực hiện bằng cách tính toán các loại phương sai sau:

Phương sai chia sẻ nội bộ nhóm được xác định theo công thức

ở đâu n tôi- số lượng đơn vị trong các nhóm riêng biệt.
Tỷ lệ các tính trạng nghiên cứu trong toàn bộ quần thể, được xác định theo công thức:
Ba dạng phân tán có liên quan với nhau như sau:
.

Tỷ lệ phương sai này được gọi là định lý cộng phương sai chia sẻ đặc trưng.

Lý thuyết xác suất là một nhánh toán học đặc biệt chỉ được học bởi sinh viên của các cơ sở giáo dục đại học. Bạn yêu thích các phép tính và công thức? Bạn không sợ triển vọng làm quen với phân phối chuẩn, entropy của tập hợp, kỳ vọng toán học và phương sai của một biến ngẫu nhiên rời rạc? Thì môn học này sẽ được nhiều bạn quan tâm. Chúng ta hãy làm quen với một số khái niệm cơ bản quan trọng nhất của phần khoa học này.

Hãy nhớ những điều cơ bản

Ngay cả khi bạn nhớ những khái niệm đơn giản nhất của lý thuyết xác suất, đừng bỏ bê những đoạn đầu tiên của bài báo. Thực tế là nếu không hiểu rõ những điều cơ bản, bạn sẽ không thể làm việc với các công thức được thảo luận dưới đây.

Vì vậy, có một số sự kiện ngẫu nhiên, một số thử nghiệm. Kết quả của các hành động đã thực hiện, chúng ta có thể nhận được một số kết quả - một số trong số đó phổ biến hơn, những kết quả khác ít phổ biến hơn. Xác suất của một sự kiện là tỷ số giữa số kết quả thực tế thu được của một loại trên tổng số kết quả có thể xảy ra. Chỉ khi biết định nghĩa cổ điển của khái niệm này, bạn có thể bắt đầu nghiên cứu kỳ vọng toán học và sự phân tán của các biến ngẫu nhiên liên tục.

Trung bình

Trở lại trường học, trong các bài học toán học, bạn bắt đầu làm việc với trung bình cộng. Khái niệm này được sử dụng rộng rãi trong lý thuyết xác suất, và do đó nó không thể bị bỏ qua. Điều chính đối với chúng tôi lúc này là chúng tôi sẽ gặp nó trong các công thức cho kỳ vọng toán học và phương sai của một biến ngẫu nhiên.

Chúng ta có một dãy số và muốn tìm giá trị trung bình cộng. Tất cả những gì cần thiết của chúng ta là tính tổng mọi thứ có sẵn và chia cho số phần tử trong dãy. Giả sử chúng ta có các số từ 1 đến 9. Tổng các phần tử sẽ là 45, và chúng ta sẽ chia giá trị này cho 9. Đáp số: - 5.

Sự phân tán

Theo thuật ngữ khoa học, phương sai là bình phương trung bình của độ lệch của các giá trị đặc trưng thu được từ giá trị trung bình số học. Một được ký hiệu bằng một chữ cái Latinh viết hoa D. Cần gì để tính toán nó? Đối với mỗi phần tử của dãy, chúng tôi tính toán sự khác biệt giữa số có sẵn và trung bình cộng và bình phương nó. Sẽ có chính xác nhiều giá trị nhất có thể mang lại kết quả cho sự kiện mà chúng ta đang xem xét. Tiếp theo, chúng tôi tóm tắt mọi thứ nhận được và chia cho số phần tử trong dãy. Nếu chúng ta có năm kết quả có thể xảy ra, thì hãy chia cho năm.

Phương sai cũng có những tính chất mà bạn cần nhớ để áp dụng khi giải toán. Ví dụ, nếu biến ngẫu nhiên được tăng lên X lần, thì phương sai sẽ tăng lên X nhân với bình phương (tức là X * X). Nó không bao giờ nhỏ hơn 0 và không phụ thuộc vào việc dịch chuyển các giá trị theo một giá trị bằng nhau lên hoặc xuống. Ngoài ra, đối với các thử nghiệm độc lập, phương sai của tổng bằng tổng phương sai.

Bây giờ chúng ta chắc chắn cần xem xét các ví dụ về phương sai của một biến ngẫu nhiên rời rạc và kỳ vọng toán học.

Giả sử chúng tôi chạy 21 thử nghiệm và nhận được 7 kết quả khác nhau. Chúng tôi quan sát từng người trong số họ lần lượt là 1,2,2,3,4,4 và 5 lần. Phương sai sẽ là gì?

Đầu tiên, chúng ta tính trung bình cộng: tất nhiên, tổng các phần tử là 21. Chúng ta chia nó cho 7, được 3. Bây giờ chúng ta trừ 3 cho mỗi số trong dãy ban đầu, bình phương mỗi giá trị và cộng các kết quả lại với nhau. . Hóa ra là 12. Bây giờ chúng ta vẫn phải chia số cho số phần tử, và dường như chỉ có vậy. Nhưng có một nhược điểm! Hãy thảo luận về nó.

Sự phụ thuộc vào số lượng thử nghiệm

Hóa ra là khi tính phương sai, mẫu số có thể là một trong hai số: N hoặc N-1. Ở đây N là số thí nghiệm được thực hiện hoặc số phần tử trong dãy (về cơ bản là cùng một thứ). Nó phụ thuộc vào cái gì?

Nếu số phép thử đo bằng hàng trăm thì ta phải đặt N ở mẫu số, nếu tính theo đơn vị thì N-1. Các nhà khoa học quyết định vẽ đường biên một cách khá tượng trưng: ngày nay nó chạy dọc theo số 30. Nếu chúng tôi tiến hành ít hơn 30 thí nghiệm, thì chúng tôi sẽ chia số tiền cho N-1, và nếu nhiều hơn, thì cho N.

Một nhiệm vụ

Hãy quay lại ví dụ của chúng ta về việc giải bài toán phương sai và kỳ vọng. Chúng ta có một số trung gian là 12, số này phải chia cho N hoặc N-1. Vì chúng tôi đã thực hiện 21 thí nghiệm, nhỏ hơn 30, chúng tôi sẽ chọn tùy chọn thứ hai. Vì vậy, câu trả lời là: phương sai là 12/2 = 2.

Gia trị được ki vọng

Hãy chuyển sang khái niệm thứ hai, mà chúng ta phải xem xét trong bài viết này. Kỳ vọng toán học là kết quả của việc cộng tất cả các kết quả có thể nhân với các xác suất tương ứng. Điều quan trọng là phải hiểu rằng giá trị kết quả, cũng như kết quả của việc tính toán phương sai, chỉ nhận được một lần cho toàn bộ nhiệm vụ, bất kể nó có xem xét bao nhiêu kết quả.

Công thức kỳ vọng toán học khá đơn giản: chúng tôi lấy kết quả, nhân nó với xác suất của nó, cộng với kết quả thứ hai, thứ ba, v.v. Mọi thứ liên quan đến khái niệm này đều dễ dàng tính toán. Ví dụ, tổng các kỳ vọng toán học bằng kỳ vọng toán học của tổng. Điều này cũng đúng với tác phẩm. Không phải mọi đại lượng trong lý thuyết xác suất đều cho phép thực hiện các phép toán đơn giản như vậy. Hãy thực hiện một nhiệm vụ và tính giá trị của hai khái niệm chúng ta đã nghiên cứu cùng một lúc. Ngoài ra, chúng tôi đã bị phân tâm bởi lý thuyết - đã đến lúc thực hành.

Thêm một ví dụ nữa

Chúng tôi đã chạy 50 thử nghiệm và nhận được 10 loại kết quả - số từ 0 đến 9 - xuất hiện với các tỷ lệ phần trăm khác nhau. Lần lượt là: 2%, 10%, 4%, 14%, 2%, 18%, 6%, 16%, 10%, 18%. Nhớ lại rằng để có các xác suất, bạn cần chia các giá trị phần trăm cho 100. Như vậy, chúng ta nhận được 0,02; 0,1, v.v. Chúng ta hãy trình bày một ví dụ về việc giải bài toán về phương sai của một biến ngẫu nhiên và kỳ vọng toán học.

Chúng tôi tính trung bình cộng bằng cách sử dụng công thức mà chúng tôi nhớ từ trường tiểu học: 50/10 = 5.

Bây giờ chúng ta hãy chuyển các xác suất thành số kết quả "theo từng phần" để thuận tiện hơn trong việc đếm. Chúng ta nhận được 1, 5, 2, 7, 1, 9, 3, 8, 5 và 9. Lấy mỗi giá trị thu được trừ trung bình cộng, sau đó chúng ta bình phương từng kết quả thu được. Hãy xem cách thực hiện điều này với phần tử đầu tiên như một ví dụ: 1 - 5 = (-4). Hơn nữa: (-4) * (-4) = 16. Đối với các giá trị khác, hãy tự thực hiện các thao tác này. Nếu bạn đã làm đúng mọi thứ, thì sau khi thêm mọi thứ, bạn sẽ nhận được 90.

Hãy tiếp tục tính phương sai và giá trị trung bình bằng cách chia 90 cho N. Tại sao chúng ta chọn N chứ không phải N-1? Đúng vậy, vì số thí nghiệm thực hiện vượt quá 30. Vậy: 90/10 = 9. Ta có độ phân tán. Nếu bạn nhận được một số khác, đừng thất vọng. Rất có thể, bạn đã mắc một lỗi nhỏ trong các phép tính. Kiểm tra kỹ những gì bạn đã viết, và chắc chắn mọi thứ sẽ đúng vị trí.

Cuối cùng, hãy nhớ lại công thức kỳ vọng toán học. Chúng tôi sẽ không đưa ra tất cả các phép tính, chúng tôi sẽ chỉ viết câu trả lời mà bạn có thể kiểm tra sau khi hoàn thành tất cả các thủ tục cần thiết. Giá trị kỳ vọng sẽ là 5,48. Chúng tôi chỉ nhắc lại cách thực hiện các hoạt động, bằng cách sử dụng ví dụ về các phần tử đầu tiên: 0 * 0.02 + 1 * 0.1 ... và v.v. Như bạn có thể thấy, chúng ta chỉ cần nhân giá trị của kết quả với xác suất của nó.

Độ lệch

Một khái niệm khác có liên quan chặt chẽ đến sự phân tán và kỳ vọng toán học là độ lệch chuẩn. Nó được biểu thị bằng các chữ cái Latinh sd, hoặc bằng chữ thường Hy Lạp "sigma". Khái niệm này cho biết trung bình các giá trị lệch khỏi đối tượng địa lý trung tâm như thế nào. Để tìm giá trị của nó, bạn cần tính căn bậc hai của phương sai.

Nếu bạn vẽ một phân phối chuẩn và muốn xem độ lệch bình phương trực tiếp trên nó, điều này có thể được thực hiện trong một số bước. Lấy một nửa hình ảnh ở bên trái hoặc bên phải của chế độ (giá trị trung tâm), vẽ vuông góc với trục hoành sao cho diện tích của các hình thu được bằng nhau. Giá trị của đoạn giữa giữa phân phối và hình chiếu kết quả trên trục hoành sẽ là độ lệch chuẩn.

Phần mềm

Như có thể thấy từ các mô tả của các công thức và các ví dụ được trình bày, tính toán phương sai và kỳ vọng toán học không phải là thủ tục dễ dàng nhất theo quan điểm số học. Để không lãng phí thời gian, bạn nên sử dụng chương trình được sử dụng trong giáo dục đại học - nó được gọi là "R". Nó có các chức năng cho phép bạn tính toán giá trị cho nhiều khái niệm từ thống kê và lý thuyết xác suất.

Ví dụ, bạn xác định một vectơ giá trị. Điều này được thực hiện như sau:<-c(1,5,2…). Теперь, когда вам потребуется посчитать какие-либо значения для этого вектора, вы пишете функцию и задаете его в качестве аргумента. Для нахождения дисперсии вам нужно будет использовать функцию var. Пример её использования: var(vector). Далее вы просто нажимаете «ввод» и получаете результат.

Cuối cùng

Không có sự phân tán và kỳ vọng toán học, rất khó để tính toán bất cứ điều gì trong tương lai. Trong quá trình giảng dạy chính ở các trường đại học, họ được coi là đã ở trong những tháng đầu tiên của việc nghiên cứu môn học. Chính vì thiếu hiểu biết về những khái niệm đơn giản này và không có khả năng tính toán chúng mà nhiều sinh viên ngay lập tức bị tụt lại trong chương trình và sau đó bị điểm kém vào cuối buổi học, khiến họ bị tước học bổng.

Thực hành ít nhất một tuần trong nửa giờ mỗi ngày, giải quyết các nhiệm vụ tương tự như những nhiệm vụ được trình bày trong bài viết này. Sau đó, trong bất kỳ bài kiểm tra lý thuyết xác suất nào, bạn sẽ đối phó với các ví dụ mà không có các mẹo và bảng gian lận không liên quan.

Các chỉ số tổng quát chính của sự biến động trong thống kê là độ phân tán và độ lệch chuẩn.

Sự phân tán nó trung bình cộng độ lệch bình phương của từng giá trị đối tượng so với tổng giá trị trung bình. Phương sai thường được gọi là bình phương trung bình của độ lệch và được ký hiệu là  2. Tùy thuộc vào dữ liệu ban đầu, phương sai có thể được tính từ giá trị trung bình cộng, đơn giản hoặc có trọng số:

 phân tán không trọng lượng (đơn giản);

 phương sai có trọng số.

Độ lệch chuẩn là một đặc điểm tổng quát của kích thước tuyệt đối các biến thể đặc điểm trong tổng hợp. Nó được thể hiện bằng các đơn vị tương tự như dấu hiệu (mét, tấn, phần trăm, hecta, v.v.).

Độ lệch chuẩn là căn bậc hai của phương sai và được ký hiệu là :

 độ lệch chuẩn không trọng số;

 độ lệch chuẩn có trọng số.

Độ lệch chuẩn là thước đo độ tin cậy của giá trị trung bình. Độ lệch chuẩn càng nhỏ, giá trị trung bình số học phản ánh toàn bộ tổng thể được đại diện càng tốt.

Việc tính toán độ lệch chuẩn được thực hiện trước việc tính toán phương sai.

Quy trình tính phương sai có trọng số như sau:

1) xác định giá trị trung bình cộng:

2) tính toán độ lệch của các tùy chọn so với mức trung bình:

3) bình phương độ lệch của mỗi tùy chọn so với giá trị trung bình:

4) nhân độ lệch bình phương với trọng số (tần số):

5) tóm tắt các tác phẩm đã nhận:

6) số tiền thu được chia cho tổng trọng số:

Ví dụ 2.1

Tính giá trị trung bình cộng:

Các giá trị của độ lệch so với giá trị trung bình và bình phương của chúng được trình bày trong bảng. Hãy xác định phương sai:

Độ lệch chuẩn sẽ bằng:

Nếu dữ liệu nguồn được trình bày dưới dạng khoảng thời gian loạt phân phối , thì trước tiên bạn cần xác định giá trị rời rạc của đối tượng, rồi áp dụng phương pháp được mô tả.

Ví dụ 2.2

Hãy để chúng tôi hiển thị phép tính phương sai cho chuỗi khoảng thời gian trên dữ liệu về sự phân bố diện tích gieo hạt của trang trại tập thể theo năng suất lúa mì.

Trung bình cộng là:

Hãy tính phương sai:

6.3. Tính toán độ phân tán theo công thức cho dữ liệu riêng lẻ

Kỹ thuật tính toán sự phân tán phức tạp và đối với các giá trị lớn của các tùy chọn và tần số có thể cồng kềnh. Các tính toán có thể được đơn giản hóa bằng cách sử dụng các thuộc tính phân tán.

Sự phân tán có các tính chất sau.

1. Sự giảm hoặc tăng trọng số (tần số) của một đối tượng địa lý biến đổi một số lần nhất định không làm thay đổi độ phân tán.

2. Giảm hoặc tăng từng giá trị tính năng theo cùng một giá trị không đổi NHƯNGđộ phân tán không thay đổi.

3. Giảm hoặc tăng từng giá trị tính năng lên một số lần nhất định k tương ứng làm giảm hoặc tăng phương sai trong k 2 lần độ lệch chuẩn  trong k Một lần.

4. Phương sai của một đối tượng so với một giá trị tùy ý luôn lớn hơn phương sai so với giá trị trung bình cộng bình phương của hiệu giữa giá trị trung bình và giá trị tùy ý:

Nếu một NHƯNG 0, khi đó chúng ta đạt đến đẳng thức sau:

nghĩa là, phương sai của một đối tượng địa lý bằng hiệu giữa bình phương trung bình của các giá trị đối tượng địa lý và bình phương giá trị trung bình.

Mỗi thuộc tính có thể được sử dụng một mình hoặc kết hợp với các thuộc tính khác khi tính phương sai.

Quy trình tính toán phương sai rất đơn giản:

1) xác định trung bình cộng :

2) bình phương trung bình số học:

3) bình phương độ lệch của mỗi biến thể của chuỗi:

X tôi 2 .

4) tìm tổng bình phương của các lựa chọn:

5) chia tổng bình phương của các lựa chọn cho số của chúng, tức là xác định bình phương trung bình:

6) xác định sự khác biệt giữa bình phương trung bình của đối tượng địa lý và bình phương trung bình:

Ví dụ 3.1 Chúng tôi có dữ liệu sau đây về năng suất của người lao động:

Hãy thực hiện các phép tính sau: