Βιογραφίες Χαρακτηριστικά Ανάλυση

Παραδείγματα διανομής Pearson. Έλεγχος της υπόθεσης για την κανονική κατανομή του πληθυσμού με το κριτήριο Pearson

Εξετάστε την εφαρμογή στοΚυρίαΠΡΟΕΧΩPearson chi-square test για τον έλεγχο απλών υποθέσεων.

Μετά τη λήψη πειραματικών δεδομένων (δηλαδή όταν υπάρχουν κάποια δείγμα) συνήθως επιλέγεται ένας νόμος κατανομής που περιγράφει καλύτερα την τυχαία μεταβλητή που αντιπροσωπεύεται από ένα δεδομένο δειγματοληψία. Ο έλεγχος του πόσο καλά περιγράφονται τα πειραματικά δεδομένα από τον επιλεγμένο νόμο θεωρητικής κατανομής πραγματοποιείται χρησιμοποιώντας κριτήρια συμφωνίας. Μηδενική υπόθεση, συνήθως υπάρχει μια υπόθεση για την ισότητα κατανομής τυχαία μεταβλητήγια κάποιους θεωρητικό δίκαιο.

Ας δούμε πρώτα την εφαρμογή Τεστ καλής προσαρμογής του Pearson X 2 (χι-τετράγωνο)σε σχέση με απλές υποθέσεις (οι παράμετροι της θεωρητικής κατανομής θεωρούνται γνωστές). Στη συνέχεια - , όταν καθορίζεται μόνο το σχήμα της κατανομής και οι παράμετροι αυτής της κατανομής και η τιμή στατιστική Χ 2 αξιολογούνται/υπολογίζονται με βάση τα ίδια δείγματα.

Σημείωση: Στην αγγλόφωνη βιβλιογραφία, η διαδικασία αίτησης Δοκιμή καλής προσαρμογής Pearson Χ 2 έχει όνομα Το τεστ χι-τετράγωνο καλής προσαρμογής.

Ας θυμηθούμε τη διαδικασία για τον έλεγχο των υποθέσεων:

  • με βάση δείγματαυπολογίζεται η τιμή στατιστική, που αντιστοιχεί στον τύπο της υπόθεσης που ελέγχεται. Για παράδειγμα, για μεταχειρισμένο t-στατιστική(αν δεν είναι γνωστό)
  • υπόκειται στην αλήθεια μηδενική υπόθεση, η διανομή αυτού στατιστικήείναι γνωστό και μπορεί να χρησιμοποιηθεί για τον υπολογισμό των πιθανοτήτων (για παράδειγμα, για t-στατιστικήΑυτό );
  • υπολογίζεται με βάση δείγματαέννοια στατιστικήσε σύγκριση με την κρίσιμη τιμή για μια δεδομένη τιμή ();
  • μηδενική υπόθεσηαπόρριψη εάν τιμή στατιστικήμεγαλύτερο από το κρίσιμο (ή εάν η πιθανότητα να ληφθεί αυτή η τιμή στατιστική() πιο λιγο επίπεδο σημασίας, που είναι μια ισοδύναμη προσέγγιση).

Ας πραγματοποιήσουμε δοκιμή υποθέσεωνγια διάφορες διανομές.

Διακριτή θήκη

Ας υποθέσουμε ότι δύο άτομα παίζουν ζάρια. Κάθε παίκτης έχει το δικό του σετ ζαριών. Οι παίκτες ρίχνουν εναλλάξ 3 ζάρια ταυτόχρονα. Κάθε γύρος κερδίζεται από αυτόν που ρίχνει τα περισσότερα εξάρια κάθε φορά. Τα αποτελέσματα καταγράφονται. Μετά από 100 γύρους, ένας από τους παίκτες υποψιάστηκε ότι τα ζάρια του αντιπάλου του ήταν ασύμμετρα, επειδή συχνά κερδίζει (συχνά ρίχνει εξάρες). Αποφάσισε να αναλύσει πόσο πιθανό ήταν ένας τέτοιος αριθμός εχθρικών αποτελεσμάτων.

Σημείωση: Επειδή Υπάρχουν 3 κύβοι, τότε μπορείτε να κυλήσετε 0 τη φορά. 1; 2 ή 3 εξάρια, δηλ. μια τυχαία μεταβλητή μπορεί να πάρει 4 τιμές.

Από τη θεωρία των πιθανοτήτων γνωρίζουμε ότι αν τα ζάρια είναι συμμετρικά, τότε η πιθανότητα να πάρουμε εξάρια υπακούει. Επομένως, μετά από 100 γύρους, οι συχνότητες των έξι μπορούν να υπολογιστούν χρησιμοποιώντας τον τύπο
=BINOM.DIST(A7,3,1/6,FALSE)*100

Ο τύπος υποθέτει ότι στο κελί Α7 περιέχει τον αντίστοιχο αριθμό των έξι που έλαβαν σε έναν γύρο.

Σημείωση: Δίνονται οι υπολογισμοί παράδειγμα αρχείου στο Διακριτό φύλλο.

Για σύγκριση παρατηρήθηκε(Παρατηρήθηκε) και θεωρητικές συχνότητες(Αναμενόμενο) βολικό στη χρήση.

Εάν οι παρατηρούμενες συχνότητες αποκλίνουν σημαντικά από τη θεωρητική κατανομή, μηδενική υπόθεση σχετικά με την κατανομή μιας τυχαίας μεταβλητής σύμφωνα με έναν θεωρητικό νόμο θα πρέπει να απορριφθεί. Αν δηλαδή ζάριαο αντίπαλος είναι ασύμμετρος, τότε οι παρατηρούμενες συχνότητες θα είναι «σημαντικά διαφορετικές» από διωνυμική κατανομή.

Στην περίπτωσή μας, εκ πρώτης όψεως, οι συχνότητες είναι αρκετά κοντινές και χωρίς υπολογισμούς είναι δύσκολο να εξαχθεί ένα ξεκάθαρο συμπέρασμα. Εφαρμόσιμος Τεστ καλής προσαρμογής του Pearson X 2, έτσι ώστε αντί για την υποκειμενική δήλωση «ουσιαστικά διαφορετική», η οποία μπορεί να γίνει με βάση τη σύγκριση ιστογράμματα, χρησιμοποιήστε μια μαθηματικά σωστή πρόταση.

Χρησιμοποιούμε το γεγονός ότι λόγω νόμος μεγάλοι αριθμοί παρατηρούμενη συχνότητα (Παρατηρήθηκε) με αύξηση του όγκου δείγματαΤο n τείνει στην πιθανότητα που αντιστοιχεί στον θεωρητικό νόμο (στην περίπτωσή μας, διωνυμικός νόμος). Στην περίπτωσή μας, το μέγεθος δείγματος n είναι 100.

Ας εισαγάγουμε δοκιμή στατιστική, το οποίο συμβολίζουμε με X 2:

όπου O l είναι η παρατηρούμενη συχνότητα των γεγονότων που η τυχαία μεταβλητή πήρε ορισμένα έγκυρες τιμές, E l είναι η αντίστοιχη θεωρητική συχνότητα (Αναμενόμενη). L είναι ο αριθμός των τιμών που μπορεί να λάβει μια τυχαία μεταβλητή (στην περίπτωσή μας είναι 4).

Όπως φαίνεται από τον τύπο, αυτό στατιστικήείναι ένα μέτρο της εγγύτητας των παρατηρούμενων συχνοτήτων με τις θεωρητικές, δηλ. μπορεί να χρησιμοποιηθεί για την εκτίμηση των «αποστάσεων» μεταξύ αυτών των συχνοτήτων. Εάν το άθροισμα αυτών των «αποστάσεων» είναι «πολύ μεγάλες», τότε αυτές οι συχνότητες είναι «σημαντικά διαφορετικές». Είναι σαφές ότι αν ο κύβος μας είναι συμμετρικός (δηλ. ισχύει διωνυμικός νόμος), τότε η πιθανότητα το άθροισμα των «αποστάσεων» να είναι «πολύ μεγάλες» θα είναι μικρή. Για να υπολογίσουμε αυτή την πιθανότητα πρέπει να γνωρίζουμε την κατανομή στατιστική X 2 ( στατιστική X 2 υπολογίστηκε με βάση την τυχαία δείγματα, επομένως είναι μια τυχαία μεταβλητή και, επομένως, έχει τη δική της κατανομή πιθανοτήτων).

Από το πολυδιάστατο ανάλογο ολοκληρωτικό θεώρημα Moivre-Laplaceείναι γνωστό ότι για n->∞ η τυχαία μεταβλητή μας X 2 είναι ασυμπτωτικά με L - 1 βαθμούς ελευθερίας.

Αν λοιπόν η υπολογιζόμενη τιμή στατιστική X 2 (το άθροισμα των «αποστάσεων» μεταξύ των συχνοτήτων) θα είναι μεγαλύτερο από μια ορισμένη οριακή τιμή, τότε θα έχουμε λόγο να απορρίψουμε μηδενική υπόθεση. Το ίδιο με τον έλεγχο παραμετρικές υποθέσεις, η οριακή τιμή ορίζεται μέσω επίπεδο σημασίας. Εάν η πιθανότητα ότι η στατιστική X 2 θα λάβει τιμή μικρότερη ή ίση με την υπολογιζόμενη ( Π-έννοια), θα είναι λιγότερο επίπεδο σημασίας, Οτι μηδενική υπόθεσημπορεί να απορριφθεί.

Στην περίπτωσή μας, η στατιστική τιμή είναι 22.757. Η πιθανότητα ότι η στατιστική X2 θα λάβει τιμή μεγαλύτερη ή ίση με 22,757 είναι πολύ μικρή (0,000045) και μπορεί να υπολογιστεί χρησιμοποιώντας τους τύπους
=CHI2.DIST.PH(22.757,4-1)ή
=CHI2.TEST(Παρατηρήθηκε; Αναμενόταν)

Σημείωση: Η συνάρτηση CHI2.TEST() έχει σχεδιαστεί ειδικά για να ελέγχει τη σχέση μεταξύ δύο κατηγορικών μεταβλητών (βλ.).

Η πιθανότητα 0,000045 είναι σημαντικά μικρότερη από το συνηθισμένο επίπεδο σημασίας 0,05. Έτσι, ο παίκτης έχει κάθε λόγο να υποπτεύεται τον αντίπαλό του για ανεντιμότητα ( μηδενική υπόθεσηη ειλικρίνειά του αρνείται).

Οταν χρησιμοποιείτε κριτήριο Χ 2είναι απαραίτητο να διασφαλιστεί ότι ο όγκος δείγματαΤο n ήταν αρκετά μεγάλο, διαφορετικά η προσέγγιση κατανομής δεν θα ήταν έγκυρη στατιστικά Χ 2. Συνήθως πιστεύεται ότι για αυτό αρκεί οι παρατηρούμενες συχνότητες (Παρατηρηθείσες) να είναι μεγαλύτερες από 5. Εάν δεν συμβαίνει αυτό, τότε οι μικρές συχνότητες συνδυάζονται σε μία ή προστίθενται σε άλλες συχνότητες και η συνδυασμένη τιμή εκχωρείται συνολικά πιθανότητα και, κατά συνέπεια, μειώνεται ο αριθμός των βαθμών ελευθερίας Χ 2 διανομές.

Προκειμένου να βελτιωθεί η ποιότητα της εφαρμογής κριτήριο Χ 2(), είναι απαραίτητο να μειωθούν τα διαστήματα διαμερισμάτων (αύξηση L και, κατά συνέπεια, αύξηση του αριθμού βαθμοί ελευθερίας), ωστόσο, αυτό αποτρέπεται από τον περιορισμό του αριθμού των παρατηρήσεων που περιλαμβάνονται σε κάθε διάστημα (db>5).

Συνεχής υπόθεση

Δοκιμή καλής προσαρμογής Pearson Χ 2 μπορεί επίσης να εφαρμοστεί σε περίπτωση .

Ας εξετάσουμε ένα συγκεκριμένο δείγμα, που αποτελείται από 200 τιμές. Μηδενική υπόθεσηδηλώνει ότι δείγμακατασκευασμένα από .

Σημείωση: Τυχαίες μεταβλητές σε παράδειγμα αρχείου στο φύλλο Continuousπου δημιουργείται χρησιμοποιώντας τον τύπο =NORM.ST.INV(RAND()). Επομένως, νέες αξίες δείγματαδημιουργούνται κάθε φορά που επανυπολογίζεται το φύλλο.

Το εάν το υπάρχον σύνολο δεδομένων είναι κατάλληλο μπορεί να αξιολογηθεί οπτικά.

Όπως φαίνεται από το διάγραμμα, οι τιμές του δείγματος ταιριάζουν αρκετά καλά στην ευθεία γραμμή. Ωστόσο, όπως για δοκιμή υποθέσεωνεφαρμόσιμος Pearson X 2 test goodness-of-fit.

Για να γίνει αυτό, διαιρούμε το εύρος μεταβολής της τυχαίας μεταβλητής σε διαστήματα με βήμα 0,5. Ας υπολογίσουμε τις παρατηρούμενες και τις θεωρητικές συχνότητες. Υπολογίζουμε τις παρατηρούμενες συχνότητες χρησιμοποιώντας τη συνάρτηση FREQUENCY() και τις θεωρητικές χρησιμοποιώντας τη συνάρτηση NORM.ST.DIST().

Σημείωση: Το ίδιο και για διακριτή θήκη, είναι απαραίτητο να διασφαλιστεί ότι δείγμαήταν αρκετά μεγάλο και το διάστημα περιελάμβανε >5 τιμές.

Ας υπολογίσουμε τη στατιστική Χ2 και ας τη συγκρίνουμε με την κρίσιμη τιμή για ένα δεδομένο επίπεδο σημασίας(0,05). Επειδή χωρίσαμε το εύρος μεταβολής μιας τυχαίας μεταβλητής σε 10 διαστήματα, τότε ο αριθμός των βαθμών ελευθερίας είναι 9. Η κρίσιμη τιμή μπορεί να υπολογιστεί χρησιμοποιώντας τον τύπο
=CHI2.OBR.PH(0.05;9) ή
=CHI2.OBR(1-0,05;9)

Το παραπάνω διάγραμμα δείχνει ότι η στατιστική τιμή είναι 8,19, η οποία είναι σημαντικά υψηλότερη κρίσιμη αξίαμηδενική υπόθεσηδεν απορρίπτεται.

Παρακάτω είναι πού δείγμαπήρε απίθανη σημασία και με βάση κριτήρια Συναίνεση Pearson X 2η μηδενική υπόθεση απορρίφθηκε (παρόλο που τυχαίες τιμέςδημιουργήθηκαν χρησιμοποιώντας τον τύπο =NORM.ST.INV(RAND()), παρέχοντας δείγμααπό τυπική κανονική κατανομή).

Μηδενική υπόθεσηαπορρίφθηκε, αν και οπτικά τα δεδομένα βρίσκονται αρκετά κοντά σε μια ευθεία γραμμή.

Ας πάρουμε επίσης ως παράδειγμα δείγμααπό U(-3; 3). Σε αυτή την περίπτωση, ακόμη και από το γράφημα είναι προφανές ότι μηδενική υπόθεσηπρέπει να απορριφθεί.

Κριτήριο Συναίνεση Pearson X 2το επιβεβαιώνει επίσης μηδενική υπόθεσηπρέπει να απορριφθεί.

ΕΑΒΤο κριτήριο για τον έλεγχο της υπόθεσης σχετικά με τον υποτιθέμενο νόμο μιας άγνωστης κατανομής ονομάζεται κριτήριο καλής προσαρμογής.

Υπάρχουν αρκετές δοκιμές καλής προσαρμογής: $\chi ^2$ (chi-square) των K. Pearson, Kolmogorov, Smirnov, κ.λπ.

Τυπικά, οι θεωρητικές και οι εμπειρικές συχνότητες διαφέρουν. Η περίπτωση της ασυμφωνίας μπορεί να μην είναι τυχαία, πράγμα που σημαίνει ότι εξηγείται από το γεγονός ότι η υπόθεση δεν επιλέχθηκε σωστά. Το κριτήριο Pearson απαντά στο ερώτημα που τίθεται, αλλά όπως κάθε κριτήριο δεν αποδεικνύει τίποτα, αλλά αποδεικνύει μόνο τη συμφωνία ή τη διαφωνία του με δεδομένα παρατήρησης στο αποδεκτό επίπεδο σημασίας.

ΕΑΒΜια αρκετά μικρή πιθανότητα στην οποία ένα γεγονός μπορεί να θεωρηθεί πρακτικά αδύνατο ονομάζεται επίπεδο σημαντικότητας.

Στην πράξη, τα επίπεδα σημαντικότητας συνήθως λαμβάνονται μεταξύ 0,01 και 0,05, το $\alpha =0,05$ είναι το επίπεδο σημαντικότητας $5 ( \% ) $.

Ως κριτήριο για τον έλεγχο της υπόθεσης, θα πάρουμε την τιμή \begin(equation) \label ( eq1 ) \chi ^2=\sum ( \frac ( (( n_i -n_i" ))^2 ) (n_i" ) ) \qquad (1) \ end (εξίσωση)

εδώ $n_i -$ εμπειρικές συχνότητες που λαμβάνονται από το δείγμα, $n_i" -$ θεωρητικές συχνότητες που βρέθηκαν θεωρητικά.

Έχει αποδειχθεί ότι για $n\to \infty $ ο νόμος κατανομής της τυχαίας μεταβλητής ( 1 ) ανεξάρτητα από το νόμο με τον οποίο κατανέμεται πληθυσμός, τείνει στον νόμο $\chi ^2$ (χι-τετράγωνο) με $k$ βαθμούς ελευθερίας.

ΕΑΒΟ αριθμός των βαθμών ελευθερίας βρίσκεται από την ισότητα $k=S-1-r$ όπου $S-$ είναι ο αριθμός των ομάδων διαστήματος, $r-$ είναι ο αριθμός των παραμέτρων.

1) ομοιόμορφη κατανομή: $r=2, k=S-3 $

2) κανονική κατανομή: $r=2, k=S-3 $

3) εκθετική κατανομή: $r=1, k=S-2$.

Κανόνας . Έλεγχος της υπόθεσης χρησιμοποιώντας το τεστ Pearson.

  1. Για να ελέγξετε την υπόθεση, υπολογίστε τις θεωρητικές συχνότητες και βρείτε $\chi _ ( obs ) ^2 =\sum ( \frac ( ( ( n_i -n_i" ))^2 ) ( n_i" ) ) $
  2. Σύμφωνα με τον πίνακα κρίσιμα σημείαΟι κατανομές του $\chi ^2$ για ένα δεδομένο επίπεδο σημασίας $\alpha $ και ο αριθμός των βαθμών ελευθερίας $k$ βρίσκονται $\chi _ ( cr ) ^2 (( \alpha ,k ))$.
  3. Αν $\chi _ ( obs ) ^2<\chi _ { кр } ^2 $ то нет оснований отвергать гипотезу, если не выполняется данное условие - то отвергают.

ΣχόλιοΓια να ελέγξετε τους υπολογισμούς, χρησιμοποιήστε τον τύπο για $\chi ^2$ με τη μορφή $\chi _ (παρατηρήθηκε) ^2 =\sum ( \frac ( n_i^2 ) ( n_i" ) -n ) $

Έλεγχος της Υπόθεσης Ομοιόμορφης Κατανομής

Η συνάρτηση πυκνότητας της ομοιόμορφης κατανομής της ποσότητας $X$ έχει τη μορφή $f(x)=\frac ( 1 ) ( b-a ) x\in \left[ ( a,b )\right]$.

Για να ελεγχθεί η υπόθεση ότι μια συνεχής τυχαία μεταβλητή κατανέμεται σύμφωνα με έναν ενιαίο νόμο στο επίπεδο σημαντικότητας $\alpha $, απαιτείται:

1) Βρείτε τη μέση τιμή του δείγματος $\overline ( x_b ) $ και $\sigma _b =\sqrt ( D_b ) $ από μια δεδομένη εμπειρική κατανομή. Πάρτε ως εκτίμηση των παραμέτρων $a$ και $b$ τις ποσότητες

$a = \overline x _b -\sqrt 3 \sigma _b $, $b = \overline x _b +\sqrt 3 \sigma _b $

2) Βρείτε την πιθανότητα μια τυχαία μεταβλητή $X$ να πέσει σε μερικά διαστήματα $(( x_i ,x_ ( i+1 ) ))$ χρησιμοποιώντας τον τύπο $ P_i =P(( x_i

3) Βρείτε τις θεωρητικές (ισοπεδωτικές) συχνότητες χρησιμοποιώντας τον τύπο $n_i" =np_i $.

4) Λαμβάνοντας τον αριθμό των βαθμών ελευθερίας $k=S-3$ και το επίπεδο σημασίας $\alpha =0,05$ από τους πίνακες $\chi ^2$ βρίσκουμε $\chi _ ( cr ) ^2 $ για το δεδομένο $\alpha $ και $k$, $\chi _ ( kr ) ^2 (( \alpha ,k ))$.

5) Χρησιμοποιώντας τον τύπο $\chi _ (παρατηρήθηκε) ^2 =\sum ( \frac ( (( n_i -n_i" ))^2 ) ( n_i" ) ) $ όπου $n_i -$ είναι εμπειρικές συχνότητες, βρίσκουμε το παρατηρούμενη τιμή $\ chi _ ( obs ) ^2 $.

6) Αν $\chi _ ( obs ) ^2<\chi _ { кр } ^2 -$ нет оснований, отвергать гипотезу.

Ας ελέγξουμε την υπόθεση χρησιμοποιώντας το παράδειγμά μας.

1) $\overline x _b =13,00\,\,\sigma _b =\sqrt ( D_b ) = 6,51$

2) $a=13,00-\sqrt 3 \cdot 6,51=13,00-1,732\cdot 6,51=1,72468$

$b=13,00+1,732\cdot 6,51=24,27532$

$b-a=24,27532-1,72468=22,55064$

3) $P_i =P(( x_i

$P_2 =(( 3

$P_3 =(( 7

$P_4 =(( 11

$P_5 =(( 15

$P_6 =(( 19

Σε μια ομοιόμορφη κατανομή, αν το μήκος του διαστήματος είναι το ίδιο, τότε το $P_i -$ είναι το ίδιο.

4) Βρείτε $n_i" =np_i $.

5) Βρείτε το $\sum ( \frac ( (( n_i -n_i" ))^2 ) ( n_i" ) ) $ και βρείτε το $\chi _ ( obs ) ^2 $.

Ας εισάγουμε όλες τις λαμβανόμενες τιμές στον πίνακα

\begin(array) ( |l|l|l|l|l|l|l| ) \hline i& n_i & n_i" =np_i & n_i -n_i" & (( n_i -n_i" ))^2& \frac ( (( n_i -n_i" ))^2) (n_i" ) & Control~ \frac (n_i^2) (n_i" ) \\ \hline 1& 1& 4.43438& -3.43438& 11.7950& 2.651\\25&line 6& 4,43438& 1,56562& 2,45117& 0,552765& 8,11838 \\ \hline 3& 3& 4,43438& -1,43438& 2,05744& 4,3&4, 3&4, 3&4, 4&4, 3& 4, 4, 4, 4, 4, 4, 4, 4, 4, 3, 4, 4, 4, 4, 4, 4, 4, 4, 4, 3, 4, 3, 3, 4, 4 & -1,43438& 2,05744& 0,471463& 2,0296 \\ \hline 5& 6& 4,43438 & 1,56562& 2,45117& 0,552765& 8,11838 \\ \hline 6& 6& 4,43438& 1,56562& 2, 45117& 0,552765& 8,11838 = 8,11838 \\ & h 1119 & \chi _ ( obs ) ^2 =\sum ( \frac ( n_i^2 ) ( n_i" ) -n ) =3.63985 \\ \hline \end(πίνακας)

$\chi _ ( cr ) ^2 (( 0.05.3 ))=7.8$

$\chi _ ( obs ) ^2<\chi _ { кр } ^2 =3,26<7,8$

συμπέρασμαδεν υπάρχει λόγος να απορριφθεί η υπόθεση.

Σκοπός του κριτηρίου χ 2 - το κριτήριο Pearson Το κριτήριο χ 2 χρησιμοποιείται για δύο σκοπούς: 1) για τη σύγκριση της εμπειρικής κατανομής ενός χαρακτηριστικού με το θεωρητικό - ομοιόμορφο, κανονικό ή κάποιο άλλο. 2) να συγκρίνουν δύο, τρεις ή περισσότερες εμπειρικές κατανομές του ίδιου χαρακτηριστικού. Περιγραφή του κριτηρίου Το κριτήριο χ 2 απαντά στο ερώτημα εάν διαφορετικές τιμές ενός χαρακτηριστικού εμφανίζονται με ίση συχνότητα σε εμπειρικές και θεωρητικές κατανομές ή σε δύο ή περισσότερες εμπειρικές κατανομές. Το πλεονέκτημα της μεθόδου είναι ότι επιτρέπει σε κάποιον να συγκρίνει τις κατανομές των χαρακτηριστικών που παρουσιάζονται σε οποιαδήποτε κλίμακα, ξεκινώντας από την κλίμακα των ονομάτων. Στην απλούστερη περίπτωση μιας εναλλακτικής διανομής «ναι - όχι», «επιτρεπόταν ένα ελάττωμα - δεν επέτρεψε ένα ελάττωμα», «λύθηκε ένα πρόβλημα - δεν έλυσε ένα πρόβλημα» κ.λπ., μπορούμε ήδη να εφαρμόσουμε το κριτήριο χ 2. Όσο μεγαλύτερη είναι η απόκλιση μεταξύ των δύο συγκρίσιμων κατανομών, τόσο μεγαλύτερη είναι η εμπειρική τιμή του χ 2 . Αυτόματος υπολογισμός του χ 2 - Κριτήριο Pearson Για να εκτελέσετε αυτόματο υπολογισμό του χ 2 - κριτήριο Pearson, πρέπει να εκτελέσετε δύο βήματα: Βήμα 1. Καθορίστε τον αριθμό των εμπειρικών κατανομών (από 1 έως 10). Βήμα 2. Εισαγάγετε εμπειρικές συχνότητες στον πίνακα. Βήμα 3. Λάβετε απάντηση.

Το πλεονέκτημα του κριτηρίου Pearson είναι η καθολικότητά του: μπορεί να χρησιμοποιηθεί για τον έλεγχο υποθέσεων σχετικά με διάφορους νόμους διανομής.

1. Έλεγχος της υπόθεσης της κανονικής κατανομής.

Αφήστε να ληφθεί ένα αρκετά μεγάλο δείγμα Πμε πολλές διαφορετικές σημασίες επιλογή. Για τη διευκόλυνση της επεξεργασίας του, διαιρούμε το διάστημα από τη μικρότερη στη μεγαλύτερη τιμή της επιλογής σε μικρόίσα μέρη και θα υποθέσουμε ότι οι τιμές των επιλογών που εμπίπτουν σε κάθε διάστημα είναι περίπου ίσες με τον αριθμό που καθορίζει το μέσο του διαστήματος. Μετρώντας τον αριθμό των επιλογών που εμπίπτουν σε κάθε διάστημα, θα δημιουργήσουμε ένα λεγόμενο ομαδοποιημένο δείγμα:

επιλογές……….. Χ 1 Χ 2 … x s

συχνότητες…………. Π 1 Π 2 … n s ,

Οπου x iείναι οι τιμές των μεσαίων σημείων των διαστημάτων, και n i– αριθμός επιλογών που περιλαμβάνονται σε Εγώ-διάστημα (εμπειρικές συχνότητες).



Από τα δεδομένα που ελήφθησαν, μπορείτε να υπολογίσετε τη μέση τιμή δείγματος και την τυπική απόκλιση του δείγματος σ Β. Ας ελέγξουμε την υπόθεση ότι ο πληθυσμός κατανέμεται σύμφωνα με έναν κανονικό νόμο με παραμέτρους Μ(Χ) = , ρε(Χ) = . Στη συνέχεια, μπορείτε να βρείτε τον αριθμό των αριθμών από το μέγεθος του δείγματος Π, το οποίο θα πρέπει να εμφανίζεται σε κάθε διάστημα με αυτήν την υπόθεση (δηλαδή θεωρητικές συχνότητες). Για να γίνει αυτό, χρησιμοποιώντας τον πίνακα τιμών της συνάρτησης Laplace, βρίσκουμε την πιθανότητα να μπούμε Εγώτο διάστημα:

,

Οπου και εγώΚαι β i- όρια Εγώ-ο μεσοδιάστημα. Πολλαπλασιάζοντας τις λαμβανόμενες πιθανότητες με το μέγεθος του δείγματος n, βρίσκουμε τις θεωρητικές συχνότητες: p i =n·p iΣτόχος μας είναι να συγκρίνουμε τις εμπειρικές και τις θεωρητικές συχνότητες, οι οποίες φυσικά διαφέρουν μεταξύ τους, και να διαπιστώσουμε αν αυτές οι διαφορές είναι ασήμαντες και δεν αναιρούν την υπόθεση της κανονικής κατανομής της υπό μελέτη τυχαίας μεταβλητής ή αν είναι τόσο μεγάλες που έρχονται σε αντίθεση με αυτήν την υπόθεση. Για το σκοπό αυτό χρησιμοποιείται ένα κριτήριο με τη μορφή τυχαίας μεταβλητής

. (20.1)

Το νόημά του είναι προφανές: αθροίζονται τα μέρη που αποτελούν τα τετράγωνα των αποκλίσεων εμπειρικών συχνοτήτων από τις θεωρητικές από τις αντίστοιχες θεωρητικές συχνότητες. Μπορεί να αποδειχθεί ότι, ανεξάρτητα από τον πραγματικό νόμο κατανομής του πληθυσμού, ο νόμος κατανομής της τυχαίας μεταβλητής (20.1) τείνει στον νόμο κατανομής (βλ. διάλεξη 12) με τον αριθμό των βαθμών ελευθερίας k = s – 1 – r, Οπου r– ο αριθμός των παραμέτρων της αναμενόμενης κατανομής που εκτιμάται από τα δεδομένα του δείγματος. Επομένως, η κανονική κατανομή χαρακτηρίζεται από δύο παραμέτρους k = s – 3. Για το επιλεγμένο κριτήριο, κατασκευάζεται μια κρίσιμη περιοχή δεξιάς, που καθορίζεται από την συνθήκη

(20.2)

Οπου α - επίπεδο σημασίας. Κατά συνέπεια, η κρίσιμη περιοχή δίνεται από την ανισότητα και η περιοχή αποδοχής της υπόθεσης είναι .

Έτσι, για να ελέγξουμε τη μηδενική υπόθεση Ν 0: ο πληθυσμός κατανέμεται κανονικά - πρέπει να υπολογίσετε την παρατηρούμενη τιμή του κριτηρίου από το δείγμα:

, (20.1`)

και χρησιμοποιώντας τον πίνακα των κρίσιμων σημείων της κατανομής χ 2, βρείτε το κρίσιμο σημείο χρησιμοποιώντας γνωστές τιμές των α και k = s – 3. Εάν - η μηδενική υπόθεση γίνει αποδεκτή, εάν απορριφθεί.

2. Έλεγχος της υπόθεσης της ομοιόμορφης κατανομής.

Όταν χρησιμοποιείτε το τεστ Pearson για να ελέγξετε την υπόθεση ότι ο πληθυσμός είναι ομοιόμορφα κατανεμημένος με την εκτιμώμενη πυκνότητα πιθανότητας

Είναι απαραίτητο, έχοντας υπολογίσει την τιμή από το διαθέσιμο δείγμα, να εκτιμηθούν οι παράμετροι ΕΝΑΚαι σισύμφωνα με τους τύπους:

Οπου ΕΝΑ*Και σι*- αξιολογήσεις ΕΝΑΚαι σι. Πράγματι, για ομοιόμορφη διανομή Μ(Χ) = , , όπου μπορείτε να λάβετε ένα σύστημα για τον προσδιορισμό ΕΝΑ*Και σι*: , η λύση του οποίου είναι οι εκφράσεις (20.3).

Στη συνέχεια, υποθέτοντας ότι , μπορείτε να βρείτε τις θεωρητικές συχνότητες χρησιμοποιώντας τους τύπους

Εδώ μικρό– τον ​​αριθμό των διαστημάτων στα οποία χωρίζεται το δείγμα.

Η παρατηρούμενη τιμή του κριτηρίου Pearson υπολογίζεται χρησιμοποιώντας τον τύπο (20.1`) και η κρίσιμη τιμή υπολογίζεται χρησιμοποιώντας τον πίνακα, λαμβάνοντας υπόψη το γεγονός ότι ο αριθμός των βαθμών ελευθερίας k = s – 3. Μετά από αυτό, τα όρια της κρίσιμης περιοχής καθορίζονται με τον ίδιο τρόπο όπως για τον έλεγχο της υπόθεσης μιας κανονικής κατανομής.

3. Έλεγχος της υπόθεσης για την εκθετική κατανομή.

Σε αυτήν την περίπτωση, έχοντας χωρίσει το υπάρχον δείγμα σε διαστήματα ίσου μήκους, εξετάζουμε την ακολουθία των επιλογών, σε ίση απόσταση μεταξύ τους (υποθέτουμε ότι όλες οι επιλογές που εμπίπτουν σε Εγώ- το διάστημα, πάρτε μια τιμή που συμπίπτει με τη μέση του) και τις αντίστοιχες συχνότητές τους n i(αριθμός δειγμάτων επιλογών που περιλαμβάνονται Εγώ– ο μεσοδιάστημα). Ας υπολογίσουμε από αυτά τα δεδομένα και πάρουμε ως εκτίμηση της παραμέτρου λ Μέγεθος. Στη συνέχεια υπολογίζονται οι θεωρητικές συχνότητες χρησιμοποιώντας τον τύπο

Στη συνέχεια συγκρίνονται η παρατηρούμενη και η κρίσιμη τιμή του κριτηρίου Pearson, λαμβάνοντας υπόψη το γεγονός ότι ο αριθμός των βαθμών ελευθερίας k = s – 2.

Δοκιμή καλής προσαρμογής Pearson:

Παράδειγμα 1. Χρησιμοποιώντας το τεστ Pearson, σε επίπεδο σημαντικότητας 0,05, ελέγξτε εάν η υπόθεση σχετικά με την κανονική κατανομή του πληθυσμού X είναι συνεπής με την εμπειρική κατανομή του μεγέθους του δείγματος n = 200.

Λύσηβρείτε χρησιμοποιώντας μια αριθμομηχανή.

x iΠοσότητα, f ix i * f iΣυσσωρευμένη συχνότητα, S(x - x μέσος όρος) * στ(x - x μέσος όρος) 2 * f(x - x μέσος όρος) 3 * fΣυχνότητα, f i /n
5 15 75 15 114.45 873.25 -6662.92 0.075
7 26 182 41 146.38 824.12 -4639.79 0.13
9 25 225 66 90.75 329.42 -1195.8 0.13
11 30 330 96 48.9 79.71 -129.92 0.15
13 26 338 122 9.62 3.56 1.32 0.13
15 21 315 143 49.77 117.95 279.55 0.11
17 24 408 167 104.88 458.33 2002.88 0.12
19 20 380 187 127.4 811.54 5169.5 0.1
21 13 273 200 108.81 910.74 7622.89 0.065
200 2526 800.96 4408.62 2447.7 1

.
Σταθμισμένος μέσος όρος


Δείκτες διακύμανσης.
.

R = X max - X min
R = 21 - 5 = 16
Διασπορά


Αμερόληπτος εκτιμητής διασποράς


Τυπική απόκλιση.

Κάθε τιμή της σειράς διαφέρει από τη μέση τιμή των 12,63 κατά όχι περισσότερο από 4,7
.

.
κανονικός νόμος




n = 200, h=2 (πλάτος διαστήματος), σ = 4,7, x av = 12,63

Εγώx iu iφ in*i
1 5 -1.63 0,1057 9.01
2 7 -1.2 0,1942 16.55
3 9 -0.77 0,2943 25.07
4 11 -0.35 0,3752 31.97
5 13 0.0788 0,3977 33.88
6 15 0.5 0,3503 29.84
7 17 0.93 0,2565 21.85
8 19 1.36 0,1582 13.48
9 21 1.78 0,0804 6.85
Εγώn in*in i -n* i(n i -n* i) 2(n i -n* i) 2 /n* i
1 15 9.01 -5.99 35.94 3.99
2 26 16.55 -9.45 89.39 5.4
3 25 25.07 0.0734 0.00539 0.000215
4 30 31.97 1.97 3.86 0.12
5 26 33.88 7.88 62.14 1.83
6 21 29.84 8.84 78.22 2.62
7 24 21.85 -2.15 4.61 0.21
8 20 13.48 -6.52 42.53 3.16
9 13 6.85 -6.15 37.82 5.52
200 200 22.86



Το όριό του K kp = χ 2 (k-r-1;α) βρίσκεται χρησιμοποιώντας τους πίνακες κατανομής χ-τετράγωνο και τις δεδομένες τιμές των σ, k = 9, r=2 (οι παράμετροι x cp και σ υπολογίζονται από το δείγμα ).
Kkp(0,05;6) = 12,59159; Kobbl = 22,86
Η παρατηρούμενη τιμή της στατιστικής Pearson εμπίπτει στην κρίσιμη περιοχή: Knabl > Kkp, επομένως υπάρχει λόγος να απορριφθεί η κύρια υπόθεση. Διανεμήθηκαν δείγματα δεδομένων όχι σύμφωνα με τον κανονικό νόμο. Με άλλα λόγια, οι εμπειρικές και οι θεωρητικές συχνότητες διαφέρουν σημαντικά.

Παράδειγμα 2. Χρησιμοποιώντας το τεστ Pearson, σε επίπεδο σημαντικότητας 0,05, ελέγξτε εάν η υπόθεση σχετικά με την κανονική κατανομή του πληθυσμού X είναι συνεπής με την εμπειρική κατανομή του μεγέθους του δείγματος n = 200.
Λύση.
Πίνακας υπολογισμού δεικτών.

x iΠοσότητα, f ix i * f iΣυσσωρευμένη συχνότητα, S(x - x μέσος όρος) * στ(x - x μέσος όρος) 2 * f(x - x μέσος όρος) 3 * fΣυχνότητα, f i /n
0.3 6 1.8 6 5.77 5.55 -5.34 0.03
0.5 9 4.5 15 6.86 5.23 -3.98 0.045
0.7 26 18.2 41 14.61 8.21 -4.62 0.13
0.9 25 22.5 66 9.05 3.28 -1.19 0.13
1.1 30 33 96 4.86 0.79 -0.13 0.15
1.3 26 33.8 122 0.99 0.0375 0.00143 0.13
1.5 21 31.5 143 5 1.19 0.28 0.11
1.7 24 40.8 167 10.51 4.6 2.02 0.12
1.9 20 38 187 12.76 8.14 5.19 0.1
2.1 8 16.8 195 6.7 5.62 4.71 0.04
2.3 5 11.5 200 5.19 5.39 5.59 0.025
200 252.4 82.3 48.03 2.54 1

Ενδείξεις κέντρου διανομής.
Σταθμισμένος μέσος όρος


Δείκτες διακύμανσης.
Απόλυτες παραλλαγές.
Το εύρος διακύμανσης είναι η διαφορά μεταξύ της μέγιστης και της ελάχιστης τιμής του κύριου χαρακτηριστικού σειράς.
R = X max - X min
R = 2,3 - 0,3 = 2
Διασπορά- χαρακτηρίζει το μέτρο της διασποράς γύρω από τη μέση τιμή του (ένα μέτρο διασποράς, δηλ. απόκλιση από το μέσο όρο).


Αμερόληπτος εκτιμητής διασποράς- συνεπής εκτίμηση της διακύμανσης.


Τυπική απόκλιση.

Κάθε τιμή της σειράς διαφέρει από τη μέση τιμή του 1,26 κατά όχι περισσότερο από 0,49
Εκτίμηση τυπικής απόκλισης.

Έλεγχος υποθέσεων σχετικά με το είδος της κατανομής.
1. Ας ελέγξουμε την υπόθεση ότι το Χ είναι κατανεμημένο κανονικός νόμοςχρησιμοποιώντας το τεστ καλής προσαρμογής Pearson.

όπου n* i είναι οι θεωρητικές συχνότητες:

Ας υπολογίσουμε τις θεωρητικές συχνότητες, λαμβάνοντας υπόψη ότι:
n = 200, h=0,2 (πλάτος διαστήματος), σ = 0,49, xav = 1,26

Εγώx iu iφ in*i
1 0.3 -1.96 0,0573 4.68
2 0.5 -1.55 0,1182 9.65
3 0.7 -1.15 0,2059 16.81
4 0.9 -0.74 0,3034 24.76
5 1.1 -0.33 0,3765 30.73
6 1.3 0.0775 0,3977 32.46
7 1.5 0.49 0,3538 28.88
8 1.7 0.89 0,2661 21.72
9 1.9 1.3 0,1691 13.8
10 2.1 1.71 0,0909 7.42
11 2.3 2.12 0,0422 3.44

Ας συγκρίνουμε εμπειρικές και θεωρητικές συχνότητες. Ας δημιουργήσουμε έναν πίνακα υπολογισμού από τον οποίο βρίσκουμε την παρατηρούμενη τιμή του κριτηρίου:

21.72 -2.28 5.2 0.24 9 20 13.8 -6.2 38.41 2.78 10 8 7.42 -0.58 0.34 0.0454 11 5 3.44 -1.56 2.42 0.7 ∑ 200 200 12.67

Ας προσδιορίσουμε το όριο της κρίσιμης περιοχής. Εφόσον η στατιστική Pearson μετρά τη διαφορά μεταξύ της εμπειρικής και της θεωρητικής κατανομής, όσο μεγαλύτερη είναι η παρατηρούμενη τιμή K obs, τόσο ισχυρότερο είναι το επιχείρημα κατά της κύριας υπόθεσης.
Επομένως, η κρίσιμη περιοχή για αυτά τα στατιστικά στοιχεία είναι πάντα δεξιόχειρας :)