Tiểu sử Đặc điểm Phân tích

Hàm phân phối nhị thức. Phương sai phân phối nhị thức


Tất nhiên, khi tính toán hàm phân phối tích lũy, người ta nên sử dụng mối quan hệ đã đề cập giữa phân phối nhị thức và beta. Phương pháp này chắc chắn tốt hơn tính tổng trực tiếp khi n> 10.

Trong các sách giáo khoa cổ điển về thống kê, để có được các giá trị của phân phối nhị thức, người ta thường sử dụng các công thức dựa trên các định lý giới hạn (chẳng hạn như công thức Moivre-Laplace). Cần lưu ý rằng từ quan điểm tính toán thuần túy giá trị của các định lý này gần bằng 0, đặc biệt là bây giờ, khi hầu hết các bảng đều có một máy tính mạnh. Nhược điểm chính của các phép gần đúng trên là độ chính xác hoàn toàn không đủ của chúng đối với các giá trị của n điển hình cho hầu hết các ứng dụng. Một nhược điểm không kém là không có bất kỳ khuyến nghị rõ ràng nào về khả năng áp dụng của một hoặc một cách gần đúng khác (chỉ các công thức tiệm cận được đưa ra trong các văn bản tiêu chuẩn, chúng không đi kèm với các ước lượng chính xác và do đó, ít được sử dụng). Tôi sẽ nói rằng cả hai công thức chỉ hợp lệ cho n< 200 и для совсем грубых, ориентировочных расчетов, причем делаемых “вручную” с помощью статистических таблиц. А вот связь между биномиальным распределением и бета-распределением позволяет вычислять биномиальное распределение достаточно экономно.

Ở đây tôi không xem xét vấn đề tìm các lượng tử: đối với các phân bố rời rạc, điều đó là nhỏ nhặt, và trong những vấn đề mà các phân bố đó phát sinh, thì nó, như một quy luật, không có liên quan. Nếu vẫn cần các lượng tử, tôi khuyên bạn nên định dạng lại vấn đề theo cách làm việc với các giá trị p (ý nghĩa quan sát được). Đây là một ví dụ: khi thực hiện một số thuật toán liệt kê, ở mỗi bước, nó được yêu cầu kiểm tra giả thuyết thống kê về một biến ngẫu nhiên nhị thức. Dựa theo cách tiếp cận cổ điểnở mỗi bước, cần tính toán thống kê tiêu chí và so sánh giá trị của nó với ranh giới của tập hợp tới hạn. Tuy nhiên, vì thuật toán là kiểu liệt kê, nên cần phải xác định ranh giới của tập tới hạn mỗi lần một lần (xét cho cùng, kích thước mẫu thay đổi từ bước này sang bước khác), điều này làm tăng chi phí thời gian một cách không hiệu quả. Cách tiếp cận hiện đại khuyến nghị tính toán ý nghĩa quan sát được và so sánh nó với mức độ tự tin, tiết kiệm cho việc tìm kiếm lượng tử.

Do đó, các mã sau đây không tính hàm nghịch đảo, thay vào đó, hàm rev_binomialDF được cung cấp, tính xác suất thành công p trong một thử nghiệm đơn lẻ với số lần thử n, số m thành công trong đó và giá trị y xác suất nhận được m thành công này. Điều này sử dụng mối quan hệ đã nói ở trên giữa phân phối nhị thức và beta.

Trên thực tế, chức năng này cho phép bạn nhận được ranh giới của các khoảng tin cậy. Thật vậy, giả sử chúng ta nhận được m thành công trong n phép thử nhị thức. Như bạn đã biết, đường viền bên trái của hai mặt khoảng tin cậyđối với tham số p với mức độ tin cậy là 0 nếu m = 0 và for là nghiệm của phương trình . Tương tự, giới hạn bên phải là 1 nếu m = n, và for là một nghiệm của phương trình . Điều này ngụ ý rằng để tìm ranh giới bên trái, chúng ta phải giải phương trình và để tìm kiếm đúng - phương trình . Chúng được giải quyết trong các hàm binom_leftCI và binom_rightCI, trả về giới hạn trên và giới hạn dưới của khoảng tin cậy hai phía, tương ứng.

Tôi muốn lưu ý rằng nếu không cần độ chính xác tuyệt đối đáng kinh ngạc, thì đối với n đủ lớn, bạn có thể sử dụng ước lượng gần đúng sau [B.L. van der Waerden, Thống kê toán học. M: IL, 1960, Ch. 2 giây. 7]: , trong đó g là lượng tử phân phối bình thường. Giá trị của phép gần đúng này là có những phép gần đúng rất đơn giản cho phép bạn tính các lượng tử của phân phối chuẩn (xem văn bản về cách tính phân phối chuẩn và phần tương ứng của tài liệu tham khảo này). Trong thực tế của tôi (chủ yếu cho n> 100), xấp xỉ này cho khoảng 3-4 chữ số, theo quy luật, là khá đủ.

Các phép tính với các mã sau đây yêu cầu các tệp betaDF.h, betaDF.cpp (xem phần về phân phối beta), cũng như logGamma.h, logGamma.cpp (xem phụ lục A). Bạn cũng có thể xem một ví dụ về việc sử dụng các hàm.

tệp binomialDF.h

#ifndef __BINOMIAL_H__ #include "betaDF.h" double binomialDF (thử nghiệm kép, thành công kép, p kép); / * * Hãy để có "thử nghiệm" của các quan sát độc lập * với xác suất "p" thành công trong mỗi lần. * Tính xác suất B (thành công | thử nghiệm, p) mà số * thành công nằm trong khoảng từ 0 đến "thành công" (bao gồm cả). * / double rev_binomialDF (thử nghiệm kép, thành công kép, y kép); / * * Hãy biết xác suất y của ít nhất m thành công * trong các thử nghiệm của sơ đồ Bernoulli. Hàm tìm xác suất thành công p * trong một lần thử duy nhất. * * Quan hệ sau được sử dụng trong các phép tính * * 1 - p = rev_Beta (lần thử-thành công | thành công + 1, y). * / double binom_leftCI (thử nghiệm kép, thành công kép, cấp độ kép); / * Giả sử có "thử nghiệm" các quan sát độc lập * với xác suất thành công là "p" trong mỗi * và số lần thành công là "thành công". * Giới hạn bên trái của khoảng tin cậy hai phía * được tính với mức ý nghĩa. * / double binom_rightCI (gấp đôi n, gấp đôi thành công, mức gấp đôi); / * Giả sử có "thử nghiệm" các quan sát độc lập * với xác suất thành công là "p" trong mỗi * và số lần thành công là "thành công". * Giới hạn bên phải của khoảng tin cậy hai phía * được tính với mức ý nghĩa. * / #endif / * Kết thúc #ifndef __BINOMIAL_H__ * /

tệp binomialDF.cpp

/ ************************************************* **** ********** / / * Phân phối nhị thức * / / **************************** **** *************************** / #include #bao gồm #include "betaDF.h" NHẬP nhị thức képDF (double n, double m, double p) / * * Để có "n" quan sát độc lập * với xác suất "p" thành công trong mỗi quan sát. * Tính xác suất B (m | n, p) để số lần thành công là * trong khoảng từ 0 đến "m" (bao gồm cả), tức là * số lượng xác suất nhị thức từ 0 đến m: * * m * - (n) j n-j *> () p (1-p) * - (j) * j = 0 * * Các phép tính không ngụ ý tính tổng cùn - sử dụng * liên kết sau đến phân phối beta trung tâm: * * B (m | n, p) = Beta (1-p | n-m, m + 1). * * Các đối số phải là số dương, bằng 0<= p <= 1. */ { assert((n >0) && (p> = 0) && (p<= 1)); if (m < 0) return 0; else if (m == 0) return pow(1-p, n); else if (m >= n) trả về 1; khác trả về BetaDF (n-m, m + 1) .value (1-p); ) / * binomialDF * / ENTRY double rev_binomialDF (double n, double m, double y) / * * Cho xác suất y của ít nhất m thành công * được biết trong n phép thử của lược đồ Bernoulli. Hàm tìm xác suất thành công p * trong một lần thử duy nhất. * * Quan hệ sau được sử dụng trong các phép tính * * 1 - p = rev_Beta (y | n-m, m + 1). * / (khẳng định ((n> 0) && (m> = 0) && (m<= n) && (y >= 0) && (y<= 1)); return 1-BetaDF(n-m, m+1).inv(y); }/*rev_binomialDF*/ ENTRY double binom_leftCI(double n, double m, double y) /* Пусть имеется "n" независимых наблюдений * с вероятностью "p" успеха в каждом * и количество успехов равно "m". * Вычисляется левая граница двухстороннего доверительного интервала * с уровнем значимости y. */ { assert((n >0) && (m> = 0) && (m<= n) && (y >= 0,5) && (y< 1)); return BetaDF(m, n-m+1).inv((1-y)/2); }/*binom_leftCI*/ ENTRY double binom_rightCI(double n, double m, double y) /* Пусть имеется "n" независимых наблюдений * с вероятностью "p" успеха в каждом * и количество успехов равно "m". * Вычисляется правая граница доверительного интервала * с уровнем значимости y. */ { assert((n >0) && (m> = 0) && (m<= n) && (y >= 0,5) && (y< 1)); return BetaDF(m+1, n-m).inv((1+y)/2); }/*binom_rightCI*/

Xem xét phân phối Nhị thức, tính kỳ vọng toán học, phương sai, chế độ của nó. Sử dụng hàm MS EXCEL BINOM.DIST (), chúng ta sẽ vẽ đồ thị hàm phân phối và đồ thị mật độ xác suất. Hãy để chúng tôi ước tính tham số phân phối p, kỳ vọng toán học phân phối và độ lệch chuẩn. Cũng xem xét phân phối Bernoulli.

Sự định nghĩa. Hãy để chúng được giữ N thử nghiệm, trong mỗi thử nghiệm chỉ có 2 sự kiện có thể xảy ra: sự kiện "thành công" với một xác suất P hoặc sự kiện "thất bại" với xác suất q = 1-p (cái gọi là Đề án Bernoulli,Bernoullithử nghiệm).

Xác suất nhận được chính xác x thành công trong những N các bài kiểm tra tương đương với:

Số lần thành công trong mẫu x là một biến ngẫu nhiên có Phân phối nhị thức(Tiếng Anh) Nhị thứcphân bổ) PN là các tham số của phân phối này.

Nhớ lại điều đó để áp dụng Đề án Bernoulli và tương ứng phân phối nhị thức, các điều kiện sau phải được đáp ứng:

  • mỗi thử nghiệm phải có đúng hai kết quả, có điều kiện gọi là "thành công" và "thất bại".
  • kết quả của mỗi thử nghiệm không được phụ thuộc vào kết quả của các thử nghiệm trước đó (tính độc lập của thử nghiệm).
  • tỉ lệ thành công P nên không đổi cho tất cả các thử nghiệm.

Phân phối nhị thức trong MS EXCEL

Trong MS EXCEL, bắt đầu từ phiên bản 2010, cho Phân phối nhị thức có một hàm BINOM.DIST (), Tiêu đề tiếng anh- BINOM.DIST (), cho phép bạn tính xác suất mẫu sẽ chính xác X"thành công" (tức là hàm mật độ xác suất p (x), xem công thức ở trên), và hàm phân phối tích phân(xác suất rằng mẫu sẽ có x hoặc ít hơn "thành công", bao gồm cả 0).

Trước MS EXCEL 2010, EXCEL có hàm BINOMDIST (), cũng cho phép bạn tính toán Chức năng phân phốimật độ xác suất p (x). BINOMDIST () được để lại trong MS EXCEL 2010 để tương thích.

Tệp ví dụ chứa đồ thị mật độ phân phối xác suất.

Phân phối nhị thức có chỉ định B(N; P) .

Ghi chú: Đối với tòa nhà hàm phân phối tích phân loại biểu đồ phù hợp hoàn hảo Lịch trình, vì mật độ phân phốiBiểu đồ có phân nhóm. Để biết thêm thông tin về cách xây dựng biểu đồ, hãy đọc bài viết Các loại biểu đồ chính.

Ghi chú: Để thuận tiện cho việc viết công thức trong tệp ví dụ, Tên cho các tham số đã được tạo Phân phối nhị thức: n và p.

Tệp ví dụ hiển thị các phép tính xác suất khác nhau bằng cách sử dụng các hàm MS EXCEL:

Như đã thấy trong hình trên, người ta giả định rằng:

  • Tập hợp vô hạn mà từ đó mẫu được tạo ra chứa 10% (hoặc 0,1) phần tử tốt (tham số P, đối số hàm thứ ba = BINOM.DIST ())
  • Để tính xác suất trong một mẫu có 10 phần tử (tham số N, đối số thứ hai của hàm) sẽ có đúng 5 phần tử hợp lệ (đối số thứ nhất), bạn cần viết công thức: = BINOM.DIST (5, 10, 0,1, FALSE)
  • Phần tử cuối cùng, thứ tư được đặt = FALSE, tức là giá trị hàm được trả về mật độ phân phối.

Nếu giá trị của đối số thứ tư = TRUE, thì hàm BINOM.DIST () trả về giá trị hàm phân phối tích phân hoặc đơn giản Chức năng phân phối. Trong trường hợp này, chúng ta có thể tính xác suất để số phần tử tốt trong mẫu sẽ là phạm vi nhất định, ví dụ: 2 hoặc ít hơn (bao gồm cả 0).

Để làm điều này, bạn cần viết công thức:
= BINOM.DIST (2, 10, 0,1, TRUE)

Ghi chú: Với giá trị không nguyên của x,. Ví dụ: các công thức sau sẽ trả về cùng một giá trị:
= BINOM.DIST ( 2 ; mười; 0,1; THẬT)
= BINOM.DIST ( 2,9 ; mười; 0,1; THẬT)

Ghi chú: Trong tệp ví dụ mật độ xác suấtChức năng phân phối cũng được tính bằng cách sử dụng định nghĩa và hàm COMBIN ().

Các chỉ số phân phối

TẠI tập tin ví dụ trên trang tính Ví dụ có các công thức tính toán một số chỉ tiêu phân phối:

  • = n * p;
  • (độ lệch chuẩn bình phương) = n * p * (1-p);
  • = (n + 1) * p;
  • = (1-2 * p) * ROOT (n * p * (1-p)).

Chúng tôi rút ra công thức kỳ vọng toán học Phân phối nhị thức sử dụng Đề án Bernoulli.

Theo định nghĩa giá trị ngẫu nhiên X trong Đề án Bernoulli(Biến ngẫu nhiên Bernoulli) có Chức năng phân phối:

Phân phối này được gọi là Phân phối Bernoulli.

Ghi chú: Phân phối Bernoullitrương hợp đặc biệt Phân phối nhị thức với tham số n = 1.

Hãy tạo 3 mảng gồm 100 số với xác suất khác nhau thành công: 0,1; 0,5 và 0,9. Để làm điều này, trong cửa sổ Tạo số ngẫu nhiên bộ các tùy chọn sau với mỗi xác suất p:

Ghi chú: Nếu bạn đặt tùy chọn Phân tán ngẫu nhiên (Hạt giống ngẫu nhiên), sau đó bạn có thể chọn một tập hợp ngẫu nhiên số được tạo. Ví dụ: bằng cách đặt tùy chọn này = 25, bạn có thể tạo các bộ số ngẫu nhiên giống nhau trên các máy tính khác nhau (tất nhiên nếu các tham số phân phối khác giống nhau). Giá trị tùy chọn có thể nhận các giá trị nguyên từ 1 đến 32,767. Tên tùy chọn Phân tán ngẫu nhiên có thể nhầm lẫn. Sẽ tốt hơn nếu dịch nó thành Đặt số với các số ngẫu nhiên.

Kết quả là chúng ta sẽ có 3 cột gồm 100 số, dựa vào đó, chẳng hạn, chúng ta có thể ước lượng xác suất thành công P theo công thức: Số lần thành công / 100(cm. trang tệp ví dụ Tạo Bernoulli).

Ghi chú: Vì Bản phân phối Bernoulli với p = 0,5, bạn có thể sử dụng công thức = RANDBETWEEN (0; 1), tương ứng với.

Sinh số ngẫu nhiên. Phân phối nhị thức

Giả sử có 7 mặt hàng bị lỗi trong mẫu. Điều này có nghĩa là "rất có thể" tỷ lệ sản phẩm bị lỗi đã thay đổi. P, đó là một đặc điểm của quy trình sản xuất của chúng tôi. Mặc dù tình huống này là "rất có thể xảy ra", nhưng có khả năng xảy ra (rủi ro alpha, lỗi loại 1, "báo động sai") P không thay đổi, và số lượng sản phẩm bị lỗi tăng lên là do lấy mẫu ngẫu nhiên.

Như có thể thấy trong hình dưới đây, 7 là số sản phẩm bị lỗi có thể chấp nhận được cho một quá trình với p = 0,21 ở cùng một giá trị Alpha. Điều này minh họa rằng khi vượt quá ngưỡng các mặt hàng bị lỗi trong một mẫu, P"Có thể" tăng lên. Cụm từ "nhiều khả năng" có nghĩa là chỉ có 10% cơ hội (100% -90%) rằng độ lệch của tỷ lệ phần trăm sản phẩm bị lỗi trên ngưỡng chỉ là do các nguyên nhân ngẫu nhiên.

Do đó, việc vượt quá ngưỡng số lượng sản phẩm bị lỗi trong mẫu có thể coi như một tín hiệu cho thấy quá trình đã trở nên khó khăn và bắt đầu tạo ra b Về tỷ lệ sản phẩm bị lỗi cao hơn.

Ghi chú: Trước MS EXCEL 2010, EXCEL có một hàm CRITBINOM (), tương đương với BINOM.INV (). CRITBINOM () được để lại trong MS EXCEL 2010 trở lên để tương thích.

Mối quan hệ của phân phối Nhị thức với các phân phối khác

Nếu tham số N Phân phối nhị thức có xu hướng vô cùng và P có xu hướng về 0, thì trong trường hợp này Phân phối nhị thức có thể được gần đúng.
Có thể hình thành các điều kiện khi tính gần đúng Phân phối Poisson hoạt động tốt:

  • P<0,1 (ít P và nhiều hơn nữa N, ước tính càng chính xác);
  • P>0,9 (xem xét điều đó q=1- P, các phép tính trong trường hợp này phải được thực hiện bằng cách sử dụng q(một X cần được thay thế bằng N- x). Do đó, càng ít q và nhiều hơn nữa N, ước tính càng chính xác).

Tại 0,1<=p<=0,9 и n*p>10 Phân phối nhị thức có thể được gần đúng.

Đến lượt nó, Phân phối nhị thức có thể đóng vai trò là một phép gần đúng tốt khi quy mô dân số là N Phân bố siêu đo lớn hơn nhiều so với cỡ mẫu n (tức là N >> n hoặc n / N<<1).

Bạn có thể đọc thêm về mối quan hệ của các phân phối trên trong bài viết. Các ví dụ về tính gần đúng cũng được đưa ra ở đó, và các điều kiện được giải thích khi nào có thể và với độ chính xác.

LỜI KHUYÊN: Bạn có thể đọc về các bản phân phối khác của MS EXCEL trong bài viết.

Xin kính chào tất cả độc giả!

Phân tích thống kê, như bạn đã biết, liên quan đến việc thu thập và xử lý dữ liệu thực. Nó hữu ích và thường mang lại lợi nhuận, bởi vì. kết luận đúng cho phép bạn tránh những sai lầm và mất mát trong tương lai, và đôi khi đoán chính xác chính tương lai này. Dữ liệu thu thập được phản ánh trạng thái của một số hiện tượng quan sát được. Dữ liệu thường (nhưng không phải luôn luôn) ở dạng số và có thể được điều khiển bằng các thao tác toán học khác nhau để trích xuất thông tin bổ sung.

Tuy nhiên, không phải tất cả các hiện tượng đều được đo lường trong một thang định lượng như 1, 2, 3 ... 100500 ... Không phải lúc nào hiện tượng cũng có thể diễn ra vô hạn hoặc một số lượng lớn các trạng thái khác nhau. Ví dụ, giới tính của một người có thể là M hoặc F. Người bắn trúng mục tiêu hoặc bắn trượt. Bạn có thể bỏ phiếu “Cho” hoặc “Chống lại”, v.v. vân vân. Nói cách khác, dữ liệu đó phản ánh trạng thái của một thuộc tính thay thế - hoặc là "có" (sự kiện đã xảy ra) hoặc "không" (sự kiện chưa xảy ra). Sự kiện sắp tới (kết quả tích cực) còn được gọi là “thành công”. Những hiện tượng như vậy cũng có thể rất lớn và ngẫu nhiên. Do đó, chúng có thể được đo lường và có thể rút ra các kết luận hợp lệ về mặt thống kê.

Các thử nghiệm với dữ liệu như vậy được gọi là Đề án Bernoulli, để vinh danh nhà toán học Thụy Sĩ nổi tiếng, người đã phát hiện ra rằng với một số lượng lớn các thử nghiệm, tỷ lệ kết quả tích cực trên tổng số thử nghiệm có xu hướng theo xác suất sự kiện này xảy ra.

Biến tính năng thay thế

Để sử dụng công cụ toán học trong phân tích, kết quả của những quan sát đó phải được viết ra dưới dạng số. Để làm điều này, kết quả tích cực được gán là số 1, kết quả âm - 0. Nói cách khác, chúng ta đang xử lý một biến chỉ có thể nhận hai giá trị: 0 hoặc 1.

Lợi ích nào có thể thu được từ việc này? Trong thực tế, không ít hơn từ dữ liệu thông thường. Vì vậy, thật dễ dàng để đếm số lượng kết quả tích cực - nó đủ để tổng tất cả các giá trị, tức là tất cả 1 (thành công). Bạn có thể đi xa hơn, nhưng đối với điều này, bạn cần phải giới thiệu một vài ký hiệu.

Điều đầu tiên cần lưu ý là các kết quả tích cực (bằng 1) có một số xác suất xảy ra. Ví dụ: ngửa khi tung đồng xu là ½ hoặc 0,5. Xác suất này theo truyền thống được biểu thị bằng chữ cái Latinh P. Do đó, xác suất của một sự kiện thay thế xảy ra là 1-p, cũng được ký hiệu là q, đó là q = 1 - p. Các ký hiệu này có thể được hệ thống hóa một cách trực quan dưới dạng một tấm phân phối biến đổi X.

Bây giờ chúng ta có một danh sách các giá trị có thể có và xác suất của chúng. Bạn có thể bắt đầu tính toán các đặc điểm tuyệt vời của một biến ngẫu nhiên như gia trị được ki vọngsự phân tán. Tôi xin nhắc bạn rằng kỳ vọng toán học được tính bằng tổng tích của tất cả các giá trị có thể có và xác suất tương ứng của chúng:

Hãy tính giá trị mong đợi bằng cách sử dụng ký hiệu trong các bảng trên.

Nó chỉ ra rằng kỳ vọng toán học của một dấu hiệu thay thế bằng với xác suất của sự kiện này - P.

Bây giờ chúng ta hãy xác định phương sai của một đối tượng địa lý thay thế là gì. Tôi cũng nhắc bạn rằng phương sai là bình phương độ lệch trung bình so với kỳ vọng toán học. Công thức chung (cho dữ liệu rời rạc) là:

Do đó, phương sai của đối tượng địa lý thay thế:

Dễ dàng nhận thấy rằng độ phân tán này có cực đại là 0,25 (ở p = 0,5).

Độ lệch chuẩn - gốc của phương sai:

Giá trị lớn nhất không vượt quá 0,5.

Như bạn có thể thấy, cả kỳ vọng toán học và phương sai của dấu hiệu thay thế đều có dạng rất nhỏ gọn.

Phân phối nhị thức của một biến ngẫu nhiên

Bây giờ hãy xem xét tình huống từ một góc độ khác. Thật vậy, ai quan tâm rằng số đầu bị mất trung bình trên một lần tung là 0,5? Nó thậm chí không thể tưởng tượng được. Sẽ thú vị hơn khi đặt ra câu hỏi về số lượng đầu sắp xuất hiện đối với một số lần tung nhất định.

Nói cách khác, nhà nghiên cứu thường quan tâm đến xác suất xảy ra một số sự kiện thành công nhất định. Đây có thể là số sản phẩm bị lỗi trong lô được thử nghiệm (1 - bị lỗi, 0 - tốt) hoặc số lượng phục hồi (1 - khỏe mạnh, 0 - bị bệnh), v.v. Số lần "thành công" như vậy sẽ bằng tổng tất cả các giá trị của biến X, I E. số lượng kết quả đơn lẻ.

Giá trị ngẫu nhiên Bđược gọi là nhị thức và nhận các giá trị từ 0 đến N(tại B= 0 - tất cả các bộ phận đều tốt, với B = N- tất cả các bộ phận bị lỗi). Giả định rằng tất cả các giá trị xđộc lập với nhau. Hãy xem xét các đặc điểm chính của biến nhị thức, đó là chúng ta sẽ thiết lập kỳ vọng toán học, phương sai và phân phối của nó.

Kỳ vọng của một biến nhị thức là rất dễ dàng để có được. Nhớ lại rằng có một tổng các kỳ vọng toán học của mỗi giá trị gia tăng và nó giống nhau đối với tất cả mọi người, do đó:

Ví dụ, kỳ vọng số đầu trên 100 lần tung là 100 × 0,5 = 50.

Bây giờ chúng ta suy ra công thức cho phương sai của biến nhị thức. là tổng của các phương sai. Từ đây

Độ lệch chuẩn, tương ứng

Đối với 100 lần tung đồng xu, độ lệch chuẩn là

Và cuối cùng, hãy xem xét phân phối của đại lượng nhị thức, tức là xác suất mà biến ngẫu nhiên B sẽ nhận các giá trị khác nhau k, ở đâu 0≤k≤n. Đối với một đồng xu, vấn đề này có thể giống như sau: xác suất để có 40 đầu trong 100 lần tung là bao nhiêu?

Để hiểu phương pháp tính toán, chúng ta hãy tưởng tượng rằng đồng xu chỉ được tung 4 lần. Mỗi bên có thể rơi ra ngoài mỗi lần. Chúng tôi tự hỏi: xác suất để có được 2 đầu trong số 4 lần tung. Mỗi lần ném là độc lập với nhau. Điều này có nghĩa là xác suất nhận được bất kỳ sự kết hợp nào sẽ bằng tích các xác suất của một kết quả nhất định cho mỗi lần ném riêng lẻ. Gọi O là đầu và P là đuôi. Sau đó, ví dụ: một trong những kết hợp phù hợp với chúng tôi có thể trông giống như OOPP, đó là:

Xác suất của sự kết hợp như vậy bằng tích của hai xác suất xuất hiện đầu và thêm hai xác suất không xuất hiện đầu (trường hợp ngược lại được tính là 1-p), I E. 0,5 × 0,5 × (1-0,5) × (1-0,5) = 0,0625. Đây là xác suất của một trong các kết hợp phù hợp với chúng tôi. Nhưng câu hỏi là về tổng số đại bàng, chứ không phải về bất kỳ thứ tự cụ thể nào. Sau đó, bạn cần thêm xác suất của tất cả các kết hợp trong đó có đúng 2 con đại bàng. Rõ ràng là chúng đều giống nhau (sản phẩm không thay đổi từ việc thay đổi vị trí của các yếu tố). Do đó, bạn cần tính toán số của chúng, rồi nhân với xác suất của bất kỳ kết hợp nào như vậy. Hãy đếm tất cả các tổ hợp 4 lần ném của 2 con đại bàng: RROO, RORO, ROOR, ORRO, OROR, OORR. Chỉ có 6 tùy chọn.

Do đó, xác suất mong muốn nhận được 2 đầu sau 4 lần ném là 6 × 0,0625 = 0,375.

Tuy nhiên, đếm theo cách này thật tẻ nhạt. Đã có 10 xu, sẽ rất khó để có được tổng số tùy chọn bằng tính bạo lực. Do đó, những người thông minh đã phát minh ra một công thức cách đây rất lâu, với sự trợ giúp của họ tính toán số lượng các kết hợp khác nhau của N các yếu tố của k, ở đâu N là tổng số phần tử, k là số phần tử mà các tùy chọn sắp xếp được tính toán. Công thức kết hợp của N các yếu tố của k Là:

Những điều tương tự cũng diễn ra trong phần thi tổ hợp. Tôi gửi tất cả những người muốn nâng cao kiến ​​thức của họ đến đó. Do đó, nhân tiện, tên của phân phối nhị thức (công thức ở trên là hệ số trong khai triển của nhị thức Newton).

Công thức xác định xác suất có thể dễ dàng tổng quát hóa thành bất kỳ số nào Nk. Kết quả là, công thức phân phối nhị thức có dạng như sau.

Nói cách khác: nhân số lượng kết hợp phù hợp với xác suất của một trong số chúng.

Để sử dụng thực tế, chỉ cần biết công thức phân phối nhị thức là đủ. Và có thể bạn chưa biết - dưới đây là cách xác định xác suất bằng Excel. Nhưng tốt hơn là nên biết.

Hãy sử dụng công thức này để tính xác suất nhận được 40 cái đầu trong 100 lần tung:

Hoặc chỉ 1,08%. Để so sánh, xác suất kỳ vọng toán học của thí nghiệm này, tức là 50 con, là 7,96%. Xác suất lớn nhất của một giá trị nhị thức thuộc về giá trị tương ứng với kỳ vọng toán học.

Tính xác suất của phân phối nhị thức trong Excel

Nếu bạn chỉ sử dụng giấy và máy tính, thì các phép tính sử dụng công thức phân phối nhị thức, mặc dù không có tích phân, là khá khó khăn. Ví dụ: giá trị 100! - có hơn 150 ký tự. Không thể tính toán điều này theo cách thủ công. Trước đây, và thậm chí bây giờ, các công thức gần đúng đã được sử dụng để tính các đại lượng như vậy. Hiện tại, bạn nên sử dụng phần mềm đặc biệt, chẳng hạn như MS Excel. Do đó, bất kỳ người dùng nào (ngay cả một nhà nhân văn học) đều có thể dễ dàng tính toán xác suất giá trị của một biến ngẫu nhiên có phân phối nhị thức.

Để tổng hợp tài liệu, chúng tôi sẽ sử dụng Excel trong thời gian này như một máy tính thông thường, tức là Hãy thực hiện tính toán từng bước bằng cách sử dụng công thức phân phối nhị thức. Ví dụ, hãy tính toán xác suất nhận được 50 cái đầu. Dưới đây là hình ảnh với các bước tính toán và kết quả cuối cùng.

Như bạn có thể thấy, các kết quả trung gian có quy mô đến mức chúng không vừa với ô, mặc dù các hàm đơn giản của loại được sử dụng ở mọi nơi: FACTOR (tính giai thừa), POWER (nâng một số lên lũy thừa), như các toán tử nhân và chia. Hơn nữa, phép tính này khá cồng kềnh, trong mọi trường hợp, nó không gọn nhẹ, vì nhiều tế bào tham gia. Và vâng, thật khó để tìm ra nó.

Nói chung, Excel cung cấp một hàm tạo sẵn để tính toán xác suất của phân phối nhị thức. Hàm được gọi là BINOM.DIST.

Số lần thành công là số lần thử nghiệm thành công. Chúng tôi có 50 người trong số họ.

Số lần thử nghiệm- số lần tung: 100 lần.

Xác suất thành công- xác suất có các đầu của một lần tung là 0,5.

Tích phân- 1 hoặc 0 được chỉ ra. Nếu 0, thì xác suất được tính P (B = k); nếu 1, thì hàm phân phối nhị thức được tính, tức là tổng của tất cả các xác suất từ B = 0 trước B = k bao gồm.

Chúng tôi nhấn OK và chúng tôi nhận được kết quả tương tự như trên, chỉ mọi thứ được tính toán bởi một hàm.

Rất thoải mái. Để phục vụ cho việc thử nghiệm, thay vì tham số cuối cùng là 0, chúng tôi đặt 1. Chúng tôi nhận được 0,5398. Điều này có nghĩa là trong 100 lần tung đồng xu, xác suất nhận được đầu từ 0 đến 50 là gần 54%. Và lúc đầu, có vẻ như nó phải là 50%. Nói chung, các phép tính được thực hiện dễ dàng và nhanh chóng.

Một nhà phân tích thực sự phải hiểu cách hoạt động của hàm (phân phối của nó là gì), vì vậy hãy tính xác suất cho tất cả các giá trị từ 0 đến 100. Nghĩa là, chúng ta hãy tự hỏi: xác suất mà không một con đại bàng nào rơi ra là bao nhiêu. , 1 con đại bàng đó sẽ rơi, 2, 3, 50, 90 hoặc 100. Phép tính được thể hiện trong bức tranh tự động sau đây. Đường màu xanh lam là phân phối nhị thức, chấm màu đỏ là xác suất cho một số lần thành công cụ thể k.

Người ta có thể hỏi, không phải phân phối nhị thức tương tự như ... Đúng, rất giống. Ngay cả De Moivre (năm 1733) nói rằng với các mẫu lớn, cách tiếp cận phân phối nhị thức (tôi không biết lúc đó nó được gọi là gì), nhưng không ai nghe ông ta. Chỉ có Gauss, và sau đó là Laplace, 60-70 năm sau, đã khám phá lại và nghiên cứu cẩn thận luật phân phối chuẩn. Biểu đồ trên cho thấy rõ ràng rằng xác suất tối đa rơi vào kỳ vọng toán học và khi nó đi chệch khỏi nó, nó sẽ giảm mạnh. Cũng giống như luật thông thường.

Phân phối nhị thức có tầm quan trọng thực tế rất lớn, nó xảy ra khá thường xuyên. Sử dụng Excel, các phép tính được thực hiện dễ dàng và nhanh chóng. Vì vậy, hãy thoải mái sử dụng nó.

Về điều này, tôi đề nghị nói lời tạm biệt cho đến cuộc họp tiếp theo. Chúc mọi điều tốt lành, hãy luôn khỏe mạnh!

Chương 7

Các quy luật cụ thể về phân phối của các biến ngẫu nhiên

Các dạng luật phân phối biến ngẫu nhiên rời rạc

Để một biến ngẫu nhiên rời rạc nhận các giá trị X 1 , X 2 , …, x n,…. Xác suất của các giá trị này có thể được tính bằng nhiều công thức khác nhau, ví dụ, sử dụng các định lý cơ bản của lý thuyết xác suất, công thức Bernoulli hoặc một số công thức khác. Đối với một số công thức này, luật phân phối có tên riêng.

Các luật phân phối phổ biến nhất của một biến ngẫu nhiên rời rạc là luật phân phối nhị thức, hình học, siêu phương, Poisson.

Luật phân phối nhị thức

Hãy để nó được sản xuất N các thử nghiệm độc lập, trong mỗi thử nghiệm một sự kiện có thể xảy ra hoặc không NHƯNG. Xác suất xảy ra sự kiện này trong mỗi lần thử là không đổi, không phụ thuộc vào số lần thử và bằng R=R(NHƯNG). Do đó xác suất sự kiện sẽ không xảy ra NHƯNG trong mỗi bài kiểm tra cũng không đổi và bằng q=1–R. Xem xét một biến ngẫu nhiên X bằng số lần xuất hiện của sự kiện NHƯNG Trong N các bài kiểm tra. Rõ ràng là các giá trị của đại lượng này bằng

X 1 = 0 - sự kiện NHƯNG Trong N các bài kiểm tra không xuất hiện;

X 2 = 1 - sự kiện NHƯNG Trong N các thử nghiệm đã xuất hiện một lần;

X 3 = 2 - sự kiện NHƯNG Trong N các thử nghiệm xuất hiện hai lần;

…………………………………………………………..

x n +1 = N- Sự kiện NHƯNG Trong N kiểm tra xuất hiện tất cả mọi thứ N Một lần.

Xác suất của các giá trị này có thể được tính bằng công thức Bernoulli (4.1):

ở đâu đến=0, 1, 2, …,N .

Luật phân phối nhị thức X bằng số lần thành công trong N Thử nghiệm Bernoulli, với xác suất thành công R.

Vì vậy, một biến ngẫu nhiên rời rạc có phân phối nhị thức (hoặc được phân phối theo luật nhị thức) nếu các giá trị có thể có của nó là 0, 1, 2,…, N, và các xác suất tương ứng được tính theo công thức (7.1).

Phân phối nhị thức phụ thuộc vào hai thông số RN.

Dãy số phân phối của một biến ngẫu nhiên có phân phối theo luật nhị thức có dạng:

X k N
R

Thí dụ 7.1 . Ba phát độc lập được bắn vào mục tiêu. Xác suất bắn trúng mỗi lần bắn là 0,4. Giá trị ngẫu nhiên X- số lần bắn trúng mục tiêu. Xây dựng chuỗi phân phối của nó.

Dung dịch. Các giá trị có thể có của một biến ngẫu nhiên XX 1 =0; X 2 =1; X 3 =2; X 4 = 3. Tìm xác suất tương ứng bằng công thức Bernoulli. Dễ dàng cho thấy rằng việc áp dụng công thức này ở đây là hoàn toàn chính đáng. Lưu ý rằng xác suất bắn không trúng mục tiêu của một lần bắn sẽ bằng 1-0,4 = 0,6. Lấy

Chuỗi phân phối có dạng sau:

X
R 0,216 0,432 0,288 0,064

Dễ dàng kiểm tra rằng tổng tất cả các xác suất đều bằng 1. Bản thân biến ngẫu nhiên X phân phối theo luật nhị thức. ■

Hãy tìm kỳ vọng toán học và phương sai của một biến ngẫu nhiên có phân phối theo luật nhị thức.

Khi giải ví dụ 6.5, người ta chỉ ra rằng kỳ vọng toán học về số lần xuất hiện của một sự kiện NHƯNG Trong N kiểm tra độc lập, nếu xác suất xảy ra NHƯNG trong mỗi bài kiểm tra là không đổi và bằng nhau R, bằng N· R

Trong ví dụ này, một biến ngẫu nhiên đã được sử dụng, được phân phối theo luật nhị thức. Do đó, lời giải của Ví dụ 6.5 trên thực tế là một bằng chứng của định lý sau.

Định lý 7.1. Kỳ vọng toán học của một biến ngẫu nhiên rời rạc được phân phối theo luật nhị thức bằng tích của số lần thử và xác suất "thành công", tức là M(X)=N· R.

Định lý 7.2. Phương sai của một biến ngẫu nhiên rời rạc được phân phối theo luật nhị thức bằng tích của số lần thử theo xác suất "thành công" và xác suất "thất bại", tức là D(X)=npq.

Độ xiên và độ lệch của một biến ngẫu nhiên được phân phối theo luật nhị thức được xác định bởi các công thức

Các công thức này có thể thu được bằng cách sử dụng khái niệm mômen đầu và mômen trung tâm.

Luật phân phối nhị thức làm cơ sở cho nhiều tình huống thực tế. Đối với các giá trị lớn N phân phối nhị thức có thể được xấp xỉ bởi các phân phối khác, đặc biệt là phân phối Poisson.

Phân phối Poisson

Để đó đi N Thử nghiệm Bernoulli, với số lượng thử nghiệm Nđủ lớn. Trước đây, người ta đã chỉ ra rằng trong trường hợp này (nếu, ngoài ra, xác suất R sự phát triển NHƯNG rất nhỏ) để tìm xác suất mà một sự kiện NHƯNG xuất hiện t một lần trong các bài kiểm tra, bạn có thể sử dụng công thức Poisson (4.9). Nếu biến ngẫu nhiên X có nghĩa là số lần xuất hiện của sự kiện NHƯNG Trong N Thử nghiệm Bernoulli, sau đó xác suất X sẽ mang ý nghĩa k có thể được tính bằng công thức

, (7.2)

ở đâu λ = nr.

Luật phân phối Poissonđược gọi là phân phối của một biến ngẫu nhiên rời rạc X, trong đó các giá trị có thể là số nguyên không âm và xác suất p t các giá trị này được tìm thấy bằng công thức (7.2).

Giá trị λ = nr gọi là tham số Phân phối Poisson.

Một biến ngẫu nhiên được phân phối theo định luật Poisson có thể nhận vô số giá trị. Vì đối với phân phối này, xác suất R sự xuất hiện của một sự kiện trong mỗi thử nghiệm là nhỏ, khi đó sự phân bố này đôi khi được gọi là quy luật của hiện tượng hiếm.

Dãy số phân phối của một biến ngẫu nhiên có phân phối theo định luật Poisson có dạng

X t
R

Dễ dàng xác minh rằng tổng xác suất của hàng thứ hai bằng 1. Để làm được điều này, chúng ta cần nhớ rằng hàm có thể được mở rộng trong một chuỗi Maclaurin, chuỗi này hội tụ cho bất kỳ X. Trong trường hợp này, chúng tôi có

. (7.3)

Như đã lưu ý, luật Poisson trong một số trường hợp giới hạn nhất định sẽ thay thế luật nhị thức. Một ví dụ là một biến ngẫu nhiên X, các giá trị này bằng số lần hỏng hóc trong một thời gian nhất định khi sử dụng nhiều lần thiết bị kỹ thuật. Người ta cho rằng thiết bị này có độ tin cậy cao, tức là xác suất thất bại trong một ứng dụng là rất nhỏ.

Ngoài những trường hợp giới hạn như vậy, trong thực tế có những biến ngẫu nhiên được phân phối theo định luật Poisson, không liên quan đến phân phối nhị thức. Ví dụ, phân phối Poisson thường được sử dụng khi xử lý số lượng sự kiện xảy ra trong một khoảng thời gian (số lượng cuộc gọi đến tổng đài điện thoại trong giờ, số lượng xe đến rửa xe trong ngày, số lần dừng máy mỗi tuần, v.v.). Tất cả những sự kiện này phải tạo thành cái gọi là dòng sự kiện, là một trong những khái niệm cơ bản của lý thuyết xếp hàng. Tham số λ đặc trưng cho cường độ trung bình của dòng sự kiện.

Phân phối nhị thức là một trong những phân phối xác suất quan trọng nhất đối với một biến ngẫu nhiên thay đổi liên tục. Phân phối nhị thức là phân phối xác suất của một số m Sự kiện NHƯNG Trong N quan sát độc lập lẫn nhau. Thường là một sự kiện NHƯNGđược gọi là "thành công" của quan sát, và sự kiện ngược lại - "thất bại", nhưng sự chỉ định này rất có điều kiện.

Các điều khoản của phân phối nhị thức:

  • thực hiện tổng thể N thử nghiệm trong đó sự kiện NHƯNG có thể xảy ra hoặc không;
  • Sự kiện NHƯNG trong mỗi thử nghiệm có thể xảy ra với cùng một xác suất P;
  • các bài kiểm tra độc lập lẫn nhau.

Xác suất mà trong N sự kiện thử nghiệm NHƯNG một cách chính xác m thời gian, có thể được tính bằng công thức Bernoulli:

,

ở đâu P- xác suất của sự kiện xảy ra NHƯNG;

q = 1 - P là xác suất xảy ra sự kiện ngược lại.

Hãy tìm ra nó tại sao phân phối nhị thức có liên quan đến công thức Bernoulli theo cách được mô tả ở trên . Sự kiện - số lần thành công tại N các bài kiểm tra được chia thành một số tùy chọn, mỗi tùy chọn sẽ đạt được thành công trong m thử nghiệm và thất bại - trong N - m các bài kiểm tra. Hãy xem xét một trong những lựa chọn sau - B1 . Theo quy tắc cộng xác suất, chúng ta nhân xác suất của các sự kiện ngược lại:

,

và nếu chúng ta biểu thị q = 1 - P, sau đó

.

Xác suất tương tự sẽ có bất kỳ lựa chọn nào khác trong đó m thành công và N - m những thất bại. Số lượng các lựa chọn như vậy bằng số cách mà nó có thể từ N kiểm tra nhận được m thành công.

Tổng các xác suất của tất cả m số sự kiện NHƯNG(các số từ 0 đến N) bằng một:

trong đó mỗi số hạng là một số hạng của nhị thức Newton. Do đó, phân phối đang xét được gọi là phân phối nhị thức.

Trong thực tế, thường phải tính toán xác suất "nhiều nhất là m thành công trong N kiểm tra "hoặc" ít nhất m thành công trong N Kiểm tra ". Đối với điều này, các công thức sau được sử dụng.

Hàm tích phân, đó là xác suất F(m) mà trong N sự kiện quan sát NHƯNG sẽ không đến nữa m Một lần, có thể được tính bằng công thức:

Đến lượt nó xác suất F(≥m) mà trong N sự kiện quan sát NHƯNGđến ít nhất m Một lần, được tính theo công thức:

Đôi khi, việc tính toán xác suất mà trong N sự kiện quan sát NHƯNG sẽ không đến nữa m lần, thông qua xác suất của sự kiện ngược lại:

.

Công thức nào sẽ sử dụng tùy thuộc vào công thức nào chứa ít thuật ngữ hơn.

Các đặc điểm của phân phối nhị thức được tính bằng các công thức sau .

Gia trị được ki vọng: .

sự phân tán:.

Độ lệch chuẩn: .

Phân phối nhị thức và tính toán trong MS Excel

Xác suất phân phối nhị thức P N ( m) và giá trị của hàm tích phân F(m) có thể được tính bằng hàm BINOM.DIST trong MS Excel. Cửa sổ cho phép tính tương ứng được hiển thị bên dưới (nhấp chuột trái để phóng to).


MS Excel yêu cầu bạn nhập dữ liệu sau:

  • số lần thành công;
  • số lần kiểm tra;
  • xác suất thành công;
  • tích phân - giá trị logic: 0 - nếu bạn cần tính xác suất P N ( m) và 1 - nếu xác suất F(m).

ví dụ 1 Người quản lý của công ty đã tổng hợp thông tin về số lượng máy ảnh đã bán được trong hơn 100 ngày qua. Bảng tóm tắt thông tin và tính toán xác suất mà một số lượng máy ảnh nhất định sẽ được bán mỗi ngày.

Ngày kết thúc với lợi nhuận nếu bán được 13 máy ảnh trở lên. Xác suất để ngày đó sẽ làm việc có lãi:

Xác suất để ngày đó sẽ được làm việc mà không có lợi nhuận:

Đặt xác suất để ngày đó kinh doanh có lãi là không đổi và bằng 0,61, và số máy ảnh bán được trong ngày không phụ thuộc vào ngày. Sau đó, bạn có thể sử dụng phân phối nhị thức, trong đó sự kiện NHƯNG- ngày sẽ được thực hiện với lợi nhuận, - không có lợi nhuận.

Xác suất để trong 6 ngày làm việc tất cả đều có lãi:

.

Chúng tôi nhận được kết quả tương tự bằng cách sử dụng hàm MS Excel BINOM.DIST (giá trị của giá trị tích phân là 0):

P 6 (6 ) = BINOM.DIST (6; 6; 0,61; 0) = 0,052.

Xác suất để trong 6 ngày, 4 ngày trở lên sẽ làm việc có lãi:

ở đâu ,

,

Sử dụng hàm BINOM.DIST trong MS Excel, chúng tôi tính xác suất để trong 6 ngày, không quá 3 ngày sẽ hoàn thành với lợi nhuận (giá trị của giá trị tích phân là 1):

P 6 (≤3 ) = BINOM.DIST (3, 6, 0,61, 1) = 0,435.

Xác suất để trong 6 ngày xử lý hết tất cả các khoản lỗ:

,

Chúng tôi tính toán chỉ số tương tự bằng cách sử dụng hàm MS Excel BINOM.DIST:

P 6 (0 ) = BINOM.DIST (0; 6; 0,61; 0) = 0,0035.

Tự giải quyết vấn đề và sau đó xem giải pháp

Ví dụ 2 Một lọ đựng 2 viên bi trắng và 3 bi đen. Một quả bóng được lấy ra khỏi bình, màu sắc được thiết lập và đặt lại. Nỗ lực được lặp lại 5 lần. Số lần xuất hiện bóng trắng là một biến ngẫu nhiên rời rạc X, phân phối theo luật nhị thức. Soạn luật phân phối của một biến ngẫu nhiên. Xác định phương thức, kỳ vọng toán học và phương sai.

Chúng tôi tiếp tục giải quyết vấn đề cùng nhau

Ví dụ 3 Từ dịch vụ chuyển phát nhanh đến các đối tượng N= 5 giao thông viên. Mỗi chuyển phát nhanh với một xác suất P= 0,3 là trễ đối với đối tượng không phụ thuộc vào các đối tượng khác. Biến ngẫu nhiên rời rạc X- số lượng người chuyển phát muộn. Xây dựng một chuỗi phân phối của biến ngẫu nhiên này. Tìm kỳ vọng toán học, phương sai, độ lệch chuẩn của nó. Tìm xác suất để có ít nhất hai người giao hàng đến trễ đối với các đối tượng.