Tiểu sử Đặc trưng Phân tích

Kiểm tra độ phù hợp của Pearson χ2 (Chi-square). Kiểm tra độ phù hợp được sử dụng để kiểm tra các giả thuyết thống kê

các giả thuyết thống kê. Tiêu chí về sự đồng ý.

Vô giá trị(nền tảng) gọi giả thuyết đưa ra về dạng của phân phối chưa biết hoặc về các tham số của phân bố đã biết. cạnh tranh (thay thế)được gọi là giả thuyết mâu thuẫn với giá trị rỗng.

Ví dụ: nếu giả thuyết rỗng là giả thiết rằng biến ngẫu nhiên Xđược phân phối theo quy luật, khi đó giả thuyết cạnh tranh có thể bao gồm giả thiết rằng biến ngẫu nhiên Xđược phân phối theo một quy luật khác.

Tiêu chí thống kê(hoặc đơn giản tiêu chuẩn) được gọi là một số biến ngẫu nhiên Đến, dùng để kiểm tra giả thuyết vô hiệu.

Sau khi chọn một tiêu chí nhất định, chẳng hạn như tiêu chí, tập hợp tất cả các giá trị có thể có của nó được chia thành hai tập hợp con không chồng chéo: một trong số chúng chứa các giá trị tiêu chí mà theo đó giả thuyết rỗng bị bác bỏ và tập hợp còn lại - dưới mà nó được chấp nhận.

Khu vực quan trọng là tập hợp các giá trị kiểm tra mà giả thuyết rỗng bị bác bỏ. Khu vực chấp nhận giả thuyết được gọi là tập hợp các giá trị của tiêu chí mà giả thuyết được chấp nhận. điểm quan trọng các điểm tách vùng tới hạn khỏi vùng chấp nhận giả thuyết rỗng được gọi.

Ví dụ của chúng ta, với giá trị là, giá trị tính được từ mẫu tương ứng với vùng chấp nhận giả thuyết: biến ngẫu nhiên được phân phối theo quy luật. Nếu giá trị được tính toán, thì nó rơi vào vùng tới hạn, tức là giả thuyết về sự phân bố của một biến ngẫu nhiên theo quy luật bị bác bỏ.

Trong trường hợp có phân phối, vùng tới hạn được xác định bởi bất đẳng thức, vùng chấp nhận của giả thuyết rỗng được xác định bởi bất đẳng thức.

2.6.3. Tiêu chí về lòng tốt Lề.

Một trong những nhiệm vụ của kỹ thuật động vật và di truyền thú y là lai tạo các giống và loài mới với các đặc tính cần thiết. Ví dụ, tăng khả năng miễn dịch, kháng bệnh hoặc thay đổi màu sắc của lông.

Trong thực tế, khi phân tích kết quả, người ta thường cho rằng kết quả thực tế ít nhiều tương ứng với một số quy luật phân phối lý thuyết. Cần phải đánh giá mức độ tương ứng giữa dữ liệu thực tế (thực nghiệm) và dữ liệu lý thuyết (giả định). Để làm điều này, hãy đưa ra một giả thuyết không: dân số kết quả được phân phối theo luật "A". Việc xác minh giả thuyết về luật phân phối được đề xuất được thực hiện bằng cách sử dụng một biến ngẫu nhiên được lựa chọn đặc biệt - tiêu chí mức độ phù hợp.

Tiêu chí phù hợpđược gọi là tiêu chuẩn để kiểm tra giả thuyết về quy luật phân phối chưa biết.

Có một số tiêu chí phù hợp: Pearson, Kolmogorov, Smirnov, v.v. Thử nghiệm về độ phù hợp của Pearson được sử dụng phổ biến nhất.

Hãy xem xét việc áp dụng tiêu chí Pearson vào ví dụ kiểm định giả thuyết về quy luật phân phối chuẩn của dân số chung. Để đạt được điều này, chúng tôi sẽ so sánh các tần số thực nghiệm và lý thuyết (được tính theo sự tiếp tục của phân phối chuẩn).

Thường có một số khác biệt giữa tần số lý thuyết và thực nghiệm. Ví dụ:

Tần số thực nghiệm 7 15 41 93 113 84 25 13 5

Các tần số lý thuyết 5 13 36 89 114 91 29 14 6

Hãy xem xét hai trường hợp:

Sự khác biệt giữa tần số lý thuyết và thực nghiệm là ngẫu nhiên (không đáng kể), tức là có thể đưa ra đề xuất về sự phân bố tần số thực nghiệm theo quy luật thông thường;

Sự khác biệt giữa tần số lý thuyết và thực nghiệm không phải là ngẫu nhiên (đáng kể), tức là các tần số lý thuyết được tính toán dựa trên giả thuyết sai về phân phối chuẩn của dân số chung.

Với sự trợ giúp của tiêu chí về độ phù hợp của Pearson, có thể tình cờ xác định được sự khác biệt giữa tần số lý thuyết và tần số thực nghiệm, tức là với một xác suất tin cậy cho trước để xác định xem tổng thể có phân bố theo quy luật thông thường hay không.

Vì vậy, hãy để phân phối thực nghiệm thu được cho một mẫu có kích thước n:

Tùy chọn……

Các tần số thực nghiệm …….

Chúng ta hãy giả sử rằng, theo giả định của một phân phối chuẩn, các tần số lý thuyết được tính toán. Với mức ý nghĩa, yêu cầu kiểm định giả thuyết không: quần thể phân bố bình thường.

Như một tiêu chí để kiểm tra giả thuyết rỗng, chúng tôi lấy một biến ngẫu nhiên

(*)

Giá trị này là ngẫu nhiên, vì trong các thử nghiệm khác nhau, giá trị này nhận các giá trị khác nhau, trước đây chưa biết. Rõ ràng là tần số thực nghiệm và lý thuyết càng ít khác nhau, thì giá trị của tiêu chí càng nhỏ và do đó, nó đặc trưng ở một mức độ nhất định về mức độ gần gũi của các phân phối thực nghiệm và lý thuyết.

Chứng minh rằng tại, quy luật phân phối của biến ngẫu nhiên (*), bất kể quy luật phân phối nào mà quần thể nói chung tuân theo, đều hướng đến quy luật phân phối theo bậc tự do. Do đó, biến ngẫu nhiên (*) được ký hiệu là, và bản thân tiêu chí được gọi là phép thử độ phù hợp “chi-square”.

Hãy để chúng tôi biểu thị giá trị của tiêu chí được tính toán từ dữ liệu quan sát là. Các giá trị tới hạn được lập bảng của tiêu chí cho một mức ý nghĩa nhất định và số bậc tự do biểu thị. Trong trường hợp này, số bậc tự do được xác định từ bình đẳng, trong đó số nhóm (khoảng riêng phần) của mẫu hoặc các lớp; - số lượng các tham số của phân phối được đề xuất. Phân phối chuẩn có hai tham số - kỳ vọng toán học và độ lệch chuẩn. Do đó, số bậc tự do cho một phân phối chuẩn được tìm thấy từ đẳng thức

Nếu giá trị tính toán và giá trị bảng thỏa mãn bất đẳng thức , giả thuyết vô hiệu về phân phối chuẩn của dân số chung được chấp nhận. Nếu , giả thuyết vô hiệu bị bác bỏ và giả thuyết thay thế cho nó được chấp nhận (dân số chung không phân bố theo quy luật bình thường).

Nhận xét. Khi sử dụng phép thử độ phù hợp của Pearson, cỡ mẫu ít nhất phải là 30. Mỗi nhóm phải có ít nhất 5 lựa chọn. Nếu có ít hơn 5 tần số trong các nhóm, chúng được kết hợp với các nhóm lân cận.

Nói chung, số bậc tự do cho phân phối chi bình phương được định nghĩa là tổng số giá trị mà từ đó các số đo tương ứng được tính, trừ đi số lượng các điều kiện liên kết các giá trị này, tức là giảm khả năng biến dị giữa chúng. Trong những trường hợp đơn giản nhất, khi tính toán, số bậc tự do sẽ bằng số hạng, giảm đi một. Vì vậy, ví dụ, với phép tách dihybrid, thu được 4 lớp, nhưng chỉ thu được lớp đầu tiên là không liên quan, các lớp tiếp theo đã được liên kết với các lớp trước đó. Do đó, đối với phép tách dihybrid, số bậc tự do là.



ví dụ 1 Xác định mức độ tương ứng giữa sự phân bố thực tế của các nhóm về số lượng bò mắc bệnh lao và mức dự kiến ​​về mặt lý thuyết, được tính toán khi xem xét phân phối chuẩn. Dữ liệu ban đầu được tóm tắt trong bảng:

Quyết định.

Theo mức ý nghĩa và số bậc tự do từ bảng các điểm phân bố tới hạn (xem Phụ lục 4), ta tìm được giá trị . Trong chừng mực , chúng ta có thể kết luận rằng sự khác biệt giữa tần số lý thuyết và thực tế là ngẫu nhiên. Như vậy, sự phân bố thực tế của các nhóm theo số lượng bò mắc bệnh lao tương ứng với dự kiến ​​về mặt lý thuyết.

Ví dụ 2 Tỉ lệ phân bố kiểu hình theo lý thuyết của các cá thể thu được ở thế hệ thứ hai khi lai giữa các cá thể thỏ theo định luật Mendel là 9: 3: 3: 1. Cần tính tỉ lệ phân bố theo kinh nghiệm của các cá thể thỏ lai với các cá thể lông đen có lông bình thường. với động vật sương mai - bạch tạng. Khi lai ở thế hệ thứ hai, người ta thu được 120 đời con, trong đó có 45 con đen lông ngắn, 30 con lông đen, 25 con lông trắng lông ngắn, 20 con lông tơ trắng.

Quyết định. Sự phân li theo lý thuyết được mong đợi ở đời con phải tương ứng với tỷ lệ 4 kiểu hình (9: 3: 3: 1). Tính tần suất lý thuyết (số bàn thắng) cho mỗi lớp:

9 + 3 + 3 + 1 = 16, vì vậy chúng ta có thể mong đợi những người da đen sẽ là ; sương mai đen - ; lông ngắn màu trắng ; sương mai trắng -.

Sự phân bố kiểu hình theo kinh nghiệm (thực tế) như sau 45; ba mươi; 25; 20.

Hãy tóm tắt tất cả dữ liệu này trong bảng sau:

Sử dụng kiểm tra độ phù hợp của Pearson, chúng tôi tính toán giá trị của:

Số bậc tự do trong một chéo dihybrid. Đối với mức ý nghĩa tìm giá trị . Trong chừng mực , chúng ta có thể kết luận rằng sự khác biệt giữa tần số lý thuyết và thực tế không phải là ngẫu nhiên. Do đó, nhóm thỏ thu được sẽ sai lệch về sự phân bố các kiểu hình so với định luật Mendel trong quá trình lai tạp và phản ánh ảnh hưởng của một số yếu tố làm thay đổi kiểu hình phân li ở thế hệ lai thứ hai.

Phép thử độ phù hợp chi bình phương của Pearson cũng có thể được sử dụng để so sánh hai phân phối thực nghiệm đồng nhất với nhau, tức là những người có cùng ranh giới giai cấp. Giả thuyết rỗng là giả thuyết rằng hai hàm phân phối chưa biết là bằng nhau. Phép thử chi bình phương trong những trường hợp như vậy được xác định bằng công thức

(**)

khối lượng của các bản phân phối được so sánh ở đâu và ở đâu; và là tần số của các lớp tương ứng.

Hãy xem xét sự so sánh của hai phân phối thực nghiệm bằng cách sử dụng ví dụ sau.

Ví dụ 3 Chiều dài của trứng chim cu gáy được đo trong hai vùng lãnh thổ. Trong khu vực đầu tiên, một mẫu gồm 76 trứng () được kiểm tra, trong khu vực thứ hai là 54 (). Các kết quả sau thu được:

Chiều dài (mm)
Tần suất
Tần suất - - -

Với mức ý nghĩa, yêu cầu kiểm định giả thuyết vô hiệu rằng cả hai mẫu trứng đều thuộc cùng một quần thể chim cu gáy.

BỘ GIÁO DỤC VÀ KHOA HỌC UKRAINE

VIỆN QUẢN LÝ KHU VỰC AZOV

ĐẠI HỌC KỸ THUẬT QUỐC GIA ZAPORIZHIA

Khoa Toán

CÔNG VIỆC KHÓA HỌC

H môn "THỐNG KÊ"

Về chủ đề: "TIÊU CHÍ CỦA SỰ ĐỒNG Ý"

Sinh viên năm 2

Nhóm 207 Khoa Quản trị

Batura Tatyana Olegovna

người giám sát

Phó giáo sư Kosenkov O.I.

Berdyansk - 2009


GIỚI THIỆU

1.2 Mức độ phù hợp χ 2 của Pearson đối với một giả thuyết đơn giản

1.3 Mức độ phù hợp cho giả thuyết phức tạp

1.4 Kiểm định độ phù hợp của Fisher's χ 2 cho một giả thuyết phức tạp

1.5 Các tiêu chí đồng ý khác. Sự phù hợp cho việc phân phối Poisson

MỤC II. ỨNG DỤNG THỰC TẾ CỦA TIÊU CHÍ ĐỒNG Ý

ỨNG DỤNG

DANH SÁCH TÀI LIỆU ĐÃ SỬ DỤNG


GIỚI THIỆU

Khóa học này mô tả sự tốt đẹp phổ biến nhất của các tiêu chí phù hợp - omega-square, chi-square, Kolmogorov và Kolmogorov-Smirnov. Đặc biệt chú ý trong trường hợp cần kiểm tra xem phân phối dữ liệu có thuộc một họ tham số nào đó hay không, chẳng hạn, thông thường. Do tính phức tạp của nó, tình trạng này, rất phổ biến trong thực tế, chưa được nghiên cứu đầy đủ và không được phản ánh đầy đủ trong các tài liệu tham khảo và giáo dục.

Tiêu chí phù hợp được gọi là thử nghiệm thống kê được thiết kế để kiểm tra sự thống nhất giữa dữ liệu thực nghiệm và mô hình lý thuyết. Câu hỏi này được thiết kế tốt nhất nếu các quan sát đại diện cho một mẫu ngẫu nhiên. Mô hình lý thuyết trong trường hợp này mô tả luật phân phối.

Phân phối lý thuyết là phân phối xác suất chi phối lựa chọn ngẫu nhiên. Không chỉ lý thuyết mới có thể đưa ra ý tưởng về nó. Truyền thống, kinh nghiệm trong quá khứ và những quan sát trước đây có thể là nguồn kiến ​​thức ở đây. Chúng tôi chỉ cần nhấn mạnh rằng phân phối này phải được chọn bất kể dữ liệu mà chúng tôi sẽ kiểm tra. Nói cách khác, không thể chấp nhận được việc đầu tiên “điều chỉnh” một số luật phân phối trên một mẫu, sau đó cố gắng kiểm tra sự phù hợp với luật đã thu được cho cùng một mẫu.

Các giả thuyết đơn giản và phức tạp. Phát biểu về quy luật phân phối lý thuyết, mà các phần tử của một mẫu nhất định phải tuân theo giả thuyết, chúng ta phải phân biệt giữa giả thuyết đơn giản và phức tạp về định luật này:

Một giả thuyết đơn giản trực tiếp chỉ ra một quy luật xác suất cụ thể nhất định (phân phối xác suất) mà theo đó các giá trị mẫu phát sinh;

Một giả thuyết phức tạp chỉ ra một phân phối duy nhất và một số trong số chúng (ví dụ, một họ tham số).

Tiêu chí về mức độ phù hợp dựa trên việc sử dụng các thước đo khác nhau về khoảng cách giữa phân bố thực nghiệm đã phân tích và hàm phân phối của một đối tượng địa lý trong tổng thể nói chung.

Các phép thử phi tham số thỏa thuận Kolmogorov, Smirnov, omega vuông được sử dụng rộng rãi. Tuy nhiên, chúng cũng có liên quan đến các sai sót phổ biến trong việc áp dụng các phương pháp thống kê.

Thực tế là các tiêu chí được liệt kê đã được phát triển để kiểm tra sự thỏa thuận với một phân phối lý thuyết đã biết đầy đủ. Các công thức tính toán, bảng phân bố và giá trị tới hạn được sử dụng rộng rãi. Ý tưởng chính của Kolmogorov, bình phương omega và các tiêu chí tương tự là để đo khoảng cách giữa hàm phân phối thực nghiệm và hàm phân phối lý thuyết. Các tiêu chí này khác nhau ở dạng khoảng cách trong không gian của các chức năng phân phối.

Bắt đầu thực hiện khóa học này, tôi đặt cho mình một mục tiêu là tìm ra những tiêu chí đồng ý nào tồn tại, để tìm ra lý do tại sao chúng lại cần thiết. Để đạt được mục tiêu này, bạn phải hoàn thành các nhiệm vụ sau:

1. Tiết lộ bản chất của khái niệm “tiêu chí đồng ý”;

2. Xác định những tiêu chí đồng ý nào tồn tại, nghiên cứu chúng một cách riêng biệt;

3. Rút ra kết luận về những công việc đã làm.


PHẦN I. CƠ SỞ LÝ THUYẾT VỀ TIÊU CHÍ CỦA SỰ ĐỒNG Ý

1.1 Tiêu chí Kolmogorov về độ phù hợp và bình phương omega trong trường hợp một giả thuyết đơn giản

Giả thuyết đơn giản. Hãy xem xét một tình huống trong đó dữ liệu được đo là các con số, hay nói cách khác là các biến ngẫu nhiên một chiều. Sự phân bố của các biến ngẫu nhiên một chiều có thể được mô tả đầy đủ bằng cách xác định các hàm phân phối của chúng. Và nhiều bài kiểm tra mức độ phù hợp dựa trên việc kiểm tra tính gần gũi của các hàm phân phối (mẫu) lý thuyết và thực nghiệm.

Giả sử chúng ta có một mẫu n. Chúng ta hãy biểu thị hàm phân phối thực, mà các quan sát là đối tượng, G (x), hàm phân phối thực nghiệm (mẫu) - F n (x) và hàm phân phối giả thiết - F (x). Khi đó giả thuyết H rằng hàm phân phối đúng là F (x) được viết là H: G (·) = F (·).

Làm thế nào để kiểm tra giả thuyết H? Nếu H là đúng, thì F n và F sẽ cho thấy một sự giống nhau nhất định và sự khác biệt giữa chúng sẽ giảm khi n tăng lên. Do định lý Bernoulli, F n (x) → F (x) as n → ∞. Nhiều phương pháp khác nhau được sử dụng để định lượng độ giống nhau của các hàm F n và F.

Để thể hiện sự giống nhau của các chức năng, có thể sử dụng khoảng cách này hoặc khoảng cách khác giữa các chức năng này. Ví dụ, người ta có thể so sánh F n và F trong số liệu thống nhất, tức là xem xét giá trị:

(1.1)

Số liệu thống kê D n được gọi là số liệu thống kê Kolmogorov.

Rõ ràng, D n là một biến ngẫu nhiên, vì giá trị của nó phụ thuộc vào đối tượng ngẫu nhiên F n. Nếu giả thiết H 0 đúng và n → ∞ thì F n (x) → F (x) với x bất kỳ. Do đó, điều tự nhiên là trong các điều kiện này D n → 0. Nếu giả thuyết H 0 là sai, thì F n → G và G ≠ F, và do đó sup -∞

Như mọi khi khi kiểm tra một giả thuyết, chúng ta lập luận như thể giả thuyết đó là đúng. Rõ ràng là phải bác bỏ H 0 nếu giá trị của thống kê D n thu được trong thí nghiệm có vẻ lớn đến mức khó tin. Nhưng đối với điều này, bạn cần biết cách thống kê D n được phân phối theo giả thuyết H: F = G cho n và G cho trước.

Một tính chất đáng chú ý của D n là nếu G = F, tức là nếu phân phối giả thiết được xác định đúng, thì luật phân phối của thống kê D n hóa ra là giống nhau đối với tất cả các hàm liên tục G. Nó chỉ phụ thuộc vào cỡ mẫu n.

Việc chứng minh điều này dựa trên thực tế là thống kê không thay đổi giá trị của nó dưới các phép biến đổi đơn điệu của trục x. Bằng phép biến đổi như vậy, mọi phân phối liên tục G đều có thể được biến thành phân phối đều trên khoảng. Trong trường hợp này, F n (x) sẽ chuyển vào hàm phân phối của mẫu từ phân phối đều này.

Với n nhỏ, đối với thống kê D n theo giả thuyết H 0, các bảng điểm phần trăm được biên soạn. Đối với n lớn, phân phối D n (theo giả thuyết H 0) được chỉ ra bởi định lý giới hạn được tìm thấy vào năm 1933 bởi A.N. Kolmogorov. Cô ấy nói về số liệu thống kê

(vì bản thân giá trị D n → 0 tại H 0, cần phải nhân nó với một giá trị tăng vô hạn để phân phối ổn định). Định lý Kolmogorov phát biểu rằng nếu H 0 đúng và nếu G liên tục:
(1.2)

Số tiền này rất dễ tính trong Maple. Để kiểm tra giả thuyết đơn giản H 0: G = F, cần tính giá trị thống kê D n từ mẫu ban đầu. Một công thức đơn giản phù hợp với điều này.

Định nghĩa 51. Tiêu chí giúp bạn có thể đánh giá liệu các giá trị có đồng ý hay không X 1 , X 2 ,…, x n biến ngẫu nhiên X với giả thuyết về hàm phân phối của nó, được gọi là tiêu chí đồng ý.

Ý tưởng sử dụng tiêu chí phù hợp

Trên cơ sở tài liệu thống kê này, cần phải kiểm tra giả thuyết H, trong đó thực tế là SW X tuân theo một số luật phân phối xác định. Luật này có thể được đưa ra dưới dạng một hàm phân phối F(x), hoặc ở dạng mật độ phân phối f(x), hoặc dưới dạng một tập hợp các xác suất số Pi. Vì tất cả các dạng này, hàm phân phối F(x) là cái chung nhất (nó tồn tại cho cả DSW và NSW) và xác định bất kỳ cái nào khác, chúng tôi sẽ hình thành giả thuyết H, vì thực tế là số lượng X có chức năng phân phối F(x).

Để chấp nhận hoặc bác bỏ một giả thuyết H, xem xét một số số lượng Uđặc trưng cho mức độ khác biệt (độ lệch) của các phân bố lý thuyết và thống kê. Giá trịU có thể được chọn theo nhiều cách khác nhau: 1) tổng các độ lệch bình phương của các xác suất lý thuyết số Pi từ các tần số tương ứng, 2) tổng các bình phương giống nhau với một số hệ số (trọng số), 3) độ lệch lớn nhất của hàm phân phối thống kê (thực nghiệm) so với lý thuyết F(x).

Hãy để giá trị Uđược chọn theo cách này hay cách khác. Rõ ràng, đây là một số biến ngẫu nhiên. luật phân phối U phụ thuộc vào luật phân phối của biến ngẫu nhiên X, về những thử nghiệm đã được thực hiện và về số lượng thử nghiệm N. Nếu giả thuyết Hđúng, thì luật phân phối lượng Uđược xác định bởi quy luật phân phối lượng X(hàm số F(x)) và số N.

Giả sử rằng luật phân phối này đã biết. Kết quả của loạt thử nghiệm này, người ta nhận thấy rằng thước đo sự khác biệt đã chọn U nhận một số giá trị u. Câu hỏi: điều này có thể được giải thích bởi các nguyên nhân ngẫu nhiên hoặc sự khác biệt này là quá lớn và chỉ ra sự khác biệt đáng kể giữa phân bố lý thuyết và thống kê (thực nghiệm) và do đó, tính không phù hợp của giả thuyết H? Để trả lời câu hỏi này, giả sử rằng giả thuyết H là đúng, và theo giả định này, chúng tôi tính xác suất do các nguyên nhân ngẫu nhiên liên quan đến lượng vật liệu thí nghiệm không đủ, nên thước đo sai lệch U sẽ không thấp hơn giá trị quan sát được bằng thực nghiệm u, nghĩa là, chúng tôi tính xác suất của sự kiện:.

Nếu xác suất này nhỏ, thì giả thuyết H nên bị bác bỏ là khó chính đáng, nhưng nếu xác suất này là đáng kể, thì chúng tôi kết luận rằng dữ liệu thực nghiệm không mâu thuẫn với giả thuyết H.

Câu hỏi được đặt ra: nên lựa chọn thước đo độ lệch (độ lệch) như thế nào? U? Nó chỉ ra rằng đối với một số cách chọn nó, quy luật phân phối số lượng U có thuộc tính rất đơn giản và đủ lớn N thực tế độc lập với chức năng F(x). Chính các phép đo chênh lệch đó được sử dụng trong thống kê toán học như là tiêu chí để thống nhất.

Định nghĩa 51 /. Tiêu chí phù hợp là tiêu chí để kiểm tra giả thuyết về luật giả định của phân phối chưa biết.

Đối với dữ liệu định lượng có phân phối gần với mức bình thường, hãy sử dụng tham số phương pháp dựa trên các chỉ số như kỳ vọng toán học và độ lệch chuẩn. Đặc biệt, để xác định độ tin cậy của sự khác biệt giữa các phương tiện đối với hai mẫu, phương pháp (tiêu chí) của Học sinh được sử dụng và để đánh giá sự khác biệt giữa ba hoặc nhiều mẫu, bài kiểm tra F, hoặc phân tích phương sai. Nếu chúng ta đang xử lý dữ liệu không định lượng hoặc mẫu quá nhỏ để chắc chắn rằng các quần thể mà chúng được lấy theo phân phối chuẩn, thì hãy sử dụng phi tham số phương pháp - tiêu chí χ 2(chi-square) hoặc Pearson cho dữ liệu định tính và tiêu chí cho dấu hiệu, cấp bậc, Mann-Whitney, Wilcoxon, v.v. cho dữ liệu thứ tự.

Ngoài ra, việc lựa chọn phương pháp thống kê phụ thuộc vào việc các mẫu có giá trị trung bình đang được so sánh có sống độc lập(ví dụ: lấy từ hai nhóm đối tượng khác nhau) hoặc phụ thuộc(nghĩa là phản ánh kết quả của cùng một nhóm đối tượng trước và sau khi phơi sáng hoặc sau hai lần phơi sáng khác nhau).

Pp. 1. Thử nghiệm của Pearson (- chi-square)

Hãy để sản xuất N các thí nghiệm độc lập, trong mỗi thí nghiệm mà biến ngẫu nhiên X nhận một giá trị nhất định, nghĩa là, một mẫu quan sát về một biến ngẫu nhiên được đưa ra X(dân số chung) khối lượng N. Xét bài toán kiểm tra độ gần của hàm phân phối lý thuyết và thực nghiệm đối với phân phối rời rạc, tức là phải kiểm tra xem số liệu thực nghiệm có phù hợp với giả thuyết hay không. H 0 nói rằng biến ngẫu nhiên X có luật phân phối F(x) ở mức ý nghĩa α . Hãy gọi định luật này là "lý thuyết".

Khi có được một tiêu chí phù hợp để kiểm tra một giả thuyết, một biện pháp được xác định Dđộ lệch của hàm phân phối thực nghiệm của một mẫu nhất định so với hàm phân phối giả định (lý thuyết) F(x).

Biện pháp thường được sử dụng nhất là biện pháp do Pearson giới thiệu. Chúng ta hãy xem xét biện pháp này. Chúng tôi tách tập hợp các giá trị của biến ngẫu nhiên X trên r bộ - nhóm S 1 , S 2 ,…, S r, không có điểm chung. Trong thực tế, một phân vùng như vậy được thực hiện bằng cách sử dụng ( r- 1) số c 1 < c 2 < … < r-một . Trong trường hợp này, phần cuối của mỗi khoảng được loại trừ khỏi nhóm tương ứng và phần bên trái được bao gồm.

S 1 S 2 S 3 …. S r -1 S r

c 1 c 2 c 3 r -1

Để cho được số Pi, - xác suất mà SW X thuộc bộ Si(chắc chắn ). Để cho được n tôi,, - số lượng giá trị (biến thể) từ số lượng vật thể quan sát thuộc tập hợp Si(tần số thực nghiệm). Sau đó, tần suất tương đối của lần truy cập SW X nhiều Si tại N quan sát. Hiển nhiên là , .

Đối với phần trên, số Pi có một sự gia tăng F(x) trên bộ Si, và số gia trên cùng một tập hợp. Chúng tôi đưa kết quả của các thí nghiệm vào một bảng dưới dạng một chuỗi thống kê được nhóm lại.

Ranh giới nhóm Tần số tương đối
S 1:x 1 – x 2
S 2: x 2 – x 3
S r: x rx r +1

Biết luật phân phối lý thuyết, người ta có thể tìm xác suất lý thuyết của một biến ngẫu nhiên rơi vào mỗi nhóm: R 1 , R 2 , …, p r. Kiểm tra tính nhất quán của các phân phối lý thuyết và thực nghiệm (thống kê), chúng tôi sẽ tiến hành từ sự khác biệt giữa các xác suất lý thuyết số Pi và các tần số quan sát được.

Để đo lường D sự khác biệt (độ lệch) của hàm phân phối thực nghiệm so với lý thuyết lấy tổng bình phương độ lệch của các xác suất lý thuyết số Pi từ các tần số tương ứng được lấy với một số "trọng số" c tôi: .

Tỷ lệ cược c tôiđược đưa ra bởi vì, trong trường hợp chung, độ lệch liên quan đến các nhóm khác nhau không thể được coi là có ý nghĩa như nhau: độ lệch của cùng một giá trị tuyệt đối có thể có ý nghĩa nhỏ nếu chính xác suất số Pi là lớn, và rất đáng chú ý nếu nó là nhỏ. Do đó, tự nhiên "tạ" c tôi tỷ lệ nghịch với xác suất. Làm thế nào để chọn tỷ lệ này?

K. Pearson đã chỉ ra rằng nếu chúng ta đặt, thì N luật phân phối số lượng U có các thuộc tính rất đơn giản: nó thực tế không phụ thuộc vào chức năng phân phối F(x) và về số lượng thử nghiệm N, nhưng chỉ phụ thuộc vào số lượng nhóm r, cụ thể là, luật này với ngày càng tăng N tiếp cận cái gọi là phân phối chi bình phương .

Nếu bạn cần tài liệu bổ sung về chủ đề này, hoặc bạn không tìm thấy những gì bạn đang tìm kiếm, chúng tôi khuyên bạn nên sử dụng tìm kiếm trong cơ sở dữ liệu của chúng tôi về các tác phẩm:

Chúng tôi sẽ làm gì với tài liệu nhận được:

Nếu tài liệu này hữu ích cho bạn, bạn có thể lưu nó vào trang của mình trên mạng xã hội:

Để kiểm tra giả thuyết về sự tương ứng của phân phối thực nghiệm với quy luật phân phối lý thuyết, các chỉ số thống kê đặc biệt được sử dụng - tiêu chí phù hợp (hoặc tiêu chí tuân thủ). Chúng bao gồm các tiêu chí của Pearson, Kolmogorov, Romanovsky, Yastremsky, v.v ... Hầu hết mức độ tốt của tiêu chí phù hợp dựa trên việc sử dụng độ lệch của tần số thực nghiệm so với lý thuyết. Rõ ràng, những sai lệch này càng nhỏ thì phân phối lý thuyết càng khớp (hoặc mô tả) thực nghiệm.

Tiêu chí về sự đồng ý- đây là các tiêu chí để kiểm tra các giả thuyết về sự tương ứng của phân phối thực nghiệm với phân phối xác suất lý thuyết. Các tiêu chí như vậy được chia thành hai loại: chung và đặc biệt. Tiêu chí về mức độ phù hợp chung áp dụng cho công thức tổng quát nhất của giả thuyết, cụ thể là, cho giả thuyết rằng các kết quả quan sát đồng ý với bất kỳ phân phối xác suất được giả định trước nào. Kiểm tra độ phù hợp đặc biệt ngụ ý các giả thuyết rỗng đặc biệt hình thành sự đồng ý với một dạng phân phối xác suất nhất định.

Các tiêu chí thỏa thuận, dựa trên luật phân phối đã thiết lập, có thể thiết lập thời điểm chênh lệch giữa tần số lý thuyết và thực nghiệm nên được thừa nhận là không đáng kể (ngẫu nhiên) và khi nào - đáng kể (không ngẫu nhiên). Từ đó xuất hiện tiêu chí phù hợp khiến chúng ta có thể bác bỏ hoặc xác nhận tính đúng đắn của giả thuyết được đưa ra khi san bằng chuỗi về bản chất của phân phối trong chuỗi thực nghiệm và để trả lời liệu có thể chấp nhận một mô hình được thể hiện bởi một số luật phân phối lý thuyết cho một phân phối thực nghiệm cho trước.

Kiểm tra độ tốt của Pearson c 2 (chi-square) là một trong những tiêu chí chính về độ phù hợp. Được đề xuất bởi nhà toán học người Anh Karl Pearson (1857-1936) để đánh giá tính ngẫu nhiên (ý nghĩa) của sự khác biệt giữa tần số của phân bố thực nghiệm và lý thuyết:

Phương án áp dụng tiêu chí c 2 để đánh giá tính nhất quán của các phân bố lý thuyết và thực nghiệm như sau:

1. Đo lường sự khác biệt được tính toán được xác định.

2. Số bậc tự do được xác định.

3. Số bậc tự do n được xác định bằng cách sử dụng một bảng đặc biệt.

4. Nếu, với mức ý nghĩa cho trước α và số bậc tự do n, thì giả thuyết về tính không đáng kể (tính ngẫu nhiên) của các sai lệch bị bác bỏ. Nếu không, giả thuyết có thể được công nhận là không mâu thuẫn với dữ liệu thực nghiệm thu được và với xác suất (1 - α), có thể lập luận rằng sự khác biệt giữa tần số lý thuyết và thực nghiệm là ngẫu nhiên.

Mức độ đáng kể là xác suất bác bỏ sai giả thuyết đã đưa ra, tức là xác suất giả thuyết đúng sẽ bị bác bỏ. Trong các nghiên cứu thống kê, tùy thuộc vào mức độ quan trọng và trách nhiệm của các nhiệm vụ được giải quyết, ba mức ý nghĩa sau được sử dụng:

1) a = 0,1, thì R = 0,9;

2) a = 0,05 thì R = 0,95;

3) a = 0,01, thì R = 0,99.

Sử dụng tiêu chí phù hợp c 2, các điều kiện sau phải được tuân thủ:

1. Khối lượng của quần thể nghiên cứu phải đủ lớn ( N≥ 50), trong khi tần số hoặc kích thước của nhóm phải ít nhất là 5. Nếu điều kiện này bị vi phạm, trước tiên cần phải hợp nhất các tần số nhỏ (nhỏ hơn 5).

2. Phân phối theo kinh nghiệm phải bao gồm dữ liệu thu được do lựa chọn ngẫu nhiên, tức là họ phải độc lập.

Nhược điểm của tiêu chí về mức độ phù hợp của Pearson là mất một số thông tin ban đầu liên quan đến việc phải nhóm các kết quả quan sát thành các khoảng và kết hợp các khoảng riêng lẻ với một số lượng nhỏ các quan sát. Về vấn đề này, nên bổ sung việc xác minh sự tương ứng của các phân bố theo tiêu chí với 2 tiêu chí khác. Điều này đặc biệt cần thiết khi kích thước mẫu tương đối nhỏ ( N ≈ 100).

Trong thống kê Tiêu chí về sự phù hợp của Kolmogorov(còn được gọi là kiểm định độ phù hợp Kolmogorov-Smirnov) được sử dụng để xác định xem hai phân phối thực nghiệm có tuân theo cùng một quy luật hay không hoặc để xác định xem liệu phân phối kết quả có tuân theo mô hình đề xuất hay không. Tiêu chí Kolmogorov dựa trên việc xác định sự khác biệt lớn nhất giữa các tần số tích lũy hoặc tần số của các phân bố theo kinh nghiệm hoặc lý thuyết. Tiêu chí Kolmogorov được tính theo công thức sau:

ở đâu Dd- tương ứng, sự khác biệt lớn nhất giữa các tần số tích lũy ( ff¢) và giữa các tần số tích lũy ( PP¢) chuỗi phân phối theo kinh nghiệm và lý thuyết; N- số lượng đơn vị trong quần thể.

Sau khi tính toán giá trị của λ, một bảng đặc biệt xác định xác suất mà có thể lập luận rằng độ lệch của tần số thực nghiệm so với tần số lý thuyết là ngẫu nhiên. Nếu dấu hiệu nhận các giá trị lên đến 0,3, thì điều này có nghĩa là có sự trùng hợp hoàn toàn về tần số. Với một số lượng lớn các quan sát, thử nghiệm Kolmogorov có thể phát hiện bất kỳ sai lệch nào so với giả thuyết. Điều này có nghĩa là bất kỳ sự khác biệt nào trong phân bố mẫu so với lý thuyết sẽ được phát hiện với sự trợ giúp của nó nếu có nhiều quan sát. Ý nghĩa thực tế của tính chất này là không đáng kể, vì trong hầu hết các trường hợp, rất khó để tính vào việc thu được một số lượng lớn các quan sát trong các điều kiện không đổi, ý tưởng lý thuyết về luật phân phối mà mẫu phải tuân theo luôn là gần đúng, và độ chính xác của các kiểm tra thống kê không được vượt quá độ chính xác của mô hình đã chọn.

Tiêu chí về sự phù hợp của Romanovsky dựa trên việc sử dụng tiêu chí Pearson, tức là các giá trị đã được tìm thấy c 2 và số bậc tự do:

với n là số bậc tự do biến thiên.

Tiêu chí Romanovsky là thuận tiện trong trường hợp không cần bàn. Nếu một< 3, то расхождения распределений случайны, если же >3, thì chúng không phải là ngẫu nhiên và phân phối lý thuyết không thể dùng làm mô hình cho phân phối thực nghiệm đang nghiên cứu.

B. S. Yastremsky sử dụng tiêu chí thỏa thuận không phải là số bậc tự do mà là số lượng nhóm ( k), một giá trị đặc biệt q tùy thuộc vào số lượng nhóm và một giá trị chi-bình phương. Tiêu chí thỏa thuận của Yastremsky có cùng ý nghĩa với tiêu chí Romanovsky và được thể hiện bằng công thức

trong đó c 2 - Tiêu chí thỏa thuận của Pearson; - số lượng nhóm; q - hệ số, đối với số nhóm nhỏ hơn 20 bằng 0,6.

Nếu một L Thực tế> 3, sự khác biệt giữa phân phối lý thuyết và thực nghiệm không phải là ngẫu nhiên, tức là phân phối thực nghiệm không đáp ứng các yêu cầu của phân phối chuẩn. Nếu một L thực tế< 3, расхождения между эмпирическим и теоретическим распределениями считаются случайными.

Giả thuyết đang được kiểm định thường được gọi là giả thuyết vô hiệu. H0, quy tắc mà giả thuyết được chấp nhận hoặc bị bác bỏ được gọi là tiêu thức thống kê. Những thứ kia. các tiêu chí thỏa thuận thiết lập khi sự khác biệt thực tế giữa phân bố lý thuyết và thực nghiệm được cho là: không đáng kể - ngẫu nhiên và khi có ý nghĩa - không ngẫu nhiên.

Hãy xem xét một biến ngẫu nhiên đặc trưng cho loại hoặc hàm của sự khác biệt giữa phân bố lý thuyết và thực nghiệm được cho là của đặc điểm, sau đó, theo phân phối thực nghiệm hiện có, bạn có thể xác định giá trị một, mà biến ngẫu nhiên đã nhận, nếu biết luật phân phối của nó, thì không khó để tìm xác suất để biến ngẫu nhiên nhận một giá trị không nhỏ hơn một. Nếu giá trị một thu được do quan sát một biến ngẫu nhiên x, I E. khi phân phối thuộc tính đang xét, theo luật lý thuyết đề xuất, thì xác suất không được nhỏ. Nếu xác suất hóa ra là nhỏ, thì điều này là do giá trị thực sự thu được không phải là một biến ngẫu nhiên x và một số khác có luật phân phối khác, tức là tính trạng được nghiên cứu phân bố không theo quy luật mong đợi. Do đó, trong trường hợp sự khác biệt giữa phân bố thực nghiệm và lý thuyết là không nhỏ, nó phải được công nhận là không có ý nghĩa - ngẫu nhiên, và phân bố thực nghiệm và lý thuyết không mâu thuẫn nhau, tức là nhất quán với nhau.

Nếu xác suất thấp, thì sự khác biệt giữa phân bố thực nghiệm và lý thuyết là đáng kể, chúng không thể được giải thích một cách tình cờ và giả thuyết về sự phân bố của tính trạng theo quy luật lý thuyết được cho là không được xác nhận, nó không đồng ý. với dữ liệu thử nghiệm. Cần thiết, sau khi nghiên cứu cẩn thận các dữ liệu thực nghiệm, để cố gắng tìm ra một quy luật mới về chất lượng của đối tượng được đề xuất, điều này sẽ phản ánh tốt hơn, đầy đủ hơn các đặc điểm của phân phối thực nghiệm, những xác suất như vậy được coi là nhỏ và chúng không được coi là vượt quá 0,1.

Pearson tốt về tiêu chí phù hợp hoặc tiêu chíc 2.

Để việc phân tích dữ liệu thực nghiệm dẫn đến việc lựa chọn luật phân phối nhất định làm luật phân phối giả định cho đối tượng được xem xét và theo dữ liệu thực nghiệm là kết quả của n lần quan sát, các tham số được tìm thấy (nếu chúng không được biết trước đó ). Biểu thị bởi n tôi- tần số thực nghiệm của một biến ngẫu nhiên x.

n × P i-các tần số lý thuyết đại diện cho tích số của số lần quan sát N về xác suất Số Pi- tính theo phân phối lý thuyết giả định. Tiêu chí về sự đồng ý c 2 như một thước đo sự khác biệt giữa chuỗi tần số lý thuyết và thực nghiệm, lấy giá trị


;

c 2- một đại lượng được gọi là c 2 phân phối hoặc phân phối Pearson. Giá trị này chỉ bằng 0 khi tất cả các tần số thực nghiệm và lý thuyết trùng nhau, trong các trường hợp khác, nó khác 0 và càng lớn thì sự khác biệt giữa các tần số được chỉ ra càng lớn. Nó được chứng minh rằng đặc tính được chọn c 2 hoặc thống kê cho n® ¥ có phân phối Pearson với bậc tự do

k = m-s- 1.

ở đâu m- số khoảng phân bố theo kinh nghiệm của chuỗi biến thiên hoặc số nhóm.

S- số lượng các tham số phân phối lý thuyết được xác định từ dữ liệu thực nghiệm (ví dụ, trong trường hợp phân phối chuẩn, số lượng các tham số ước tính từ mẫu là 2).

Đề án áp dụng tiêu chí như sau:

1. Theo dữ liệu thực nghiệm, luật phân phối của thuộc tính được chọn như mong đợi và các tham số của nó được tìm thấy.

2. Sử dụng phân bố thu được, các tần số lý thuyết tương ứng với các tần số thực nghiệm được xác định.

3. Một vài tần số thực nghiệm, nếu có, được kết hợp với các tần số lân cận, thì giá trị được xác định theo công thức c 2 .

4. Xác định số bậc tự do k .

5. Từ các bảng ứng dụng cho mức ý nghĩa đã chọn một tìm giá trị tới hạn khi số bậc tự do bằng k .

6. Chúng tôi đưa ra kết luận, được hướng dẫn bởi nguyên tắc chung của việc áp dụng độ tốt của tiêu chí phù hợp, cụ thể là, nếu xác suất> 0,01, thì sự chênh lệch hiện có giữa tần số lý thuyết và thực nghiệm được coi là không đáng kể.

Nếu giá trị quan sát thực tế lớn hơn giá trị tới hạn, thì H0 bị bác bỏ nếu giả thuyết không mâu thuẫn với dữ liệu thực nghiệm. Tiêu chuẩn c 2 cho kết quả khả quan nếu có đủ số lượng quan sát trong mỗi khoảng phân nhóm n tôi .

Lưu ý: Nếu trong một khoảng thời gian nào đó số lần quan sát<5, то имеет смысл объединить соседние интервалы с тем, чтобы в объединенных интервалах n tôi không nhỏ hơn 5. Trong trường hợp này, khi tính số bậc tự do k như m- một số khoảng giảm tương ứng được thực hiện.

Phân bổ 100 công nhân cửa hàng sau đây đã được nhận cho sản xuất trong năm báo cáo

(tính bằng% so với năm trước).