Βιογραφίες Χαρακτηριστικά Ανάλυση

Συντελεστής συσχέτισης στο excel. Πώς γίνεται η συσχέτιση στο Excel; Matrix of Pairwise Correlation Coefficients στο Excel

Ποσοτικό χαρακτηριστικόΟι σχέσεις μπορούν να ληφθούν με τον υπολογισμό του συντελεστή συσχέτισης.

Ανάλυση συσχέτισης στο Excel

Η ίδια η λειτουργία έχει γενική μορφή CORREL(πίνακας1, πίνακας2). Στο πεδίο "Array1", εισαγάγετε τις συντεταγμένες του εύρους των κελιών μιας από τις τιμές, η εξάρτηση της οποίας πρέπει να καθοριστεί. Όπως μπορείτε να δείτε, ο συντελεστής συσχέτισης με τη μορφή αριθμού εμφανίζεται στο κελί που έχουμε επιλέξει προηγουμένως. Ανοίγει ένα παράθυρο με παραμέτρους ανάλυσης συσχέτισης. Σε αντίθεση με την προηγούμενη μέθοδο, στο πεδίο «Input interval» εισάγουμε το διάστημα όχι για κάθε στήλη ξεχωριστά, αλλά για όλες τις στήλες που συμμετέχουν στην ανάλυση. Όπως μπορείτε να δείτε, η εφαρμογή Excel προσφέρει δύο μεθόδους ανάλυσης συσχέτισης ταυτόχρονα.

γράφημα συσχέτισης στο excel

6) Το πρώτο στοιχείο του τελικού πίνακα θα εμφανιστεί στο επάνω αριστερό κελί της επιλεγμένης περιοχής. Επομένως, η υπόθεση H0 απορρίπτεται, δηλαδή οι παράμετροι παλινδρόμησης και ο συντελεστής συσχέτισης δεν διαφέρουν τυχαία από το μηδέν, αλλά είναι στατιστικά σημαντικοί. 7. Οι λαμβανόμενες εκτιμήσεις της εξίσωσης παλινδρόμησης μας επιτρέπουν να τη χρησιμοποιήσουμε για πρόβλεψη.

Πώς να υπολογίσετε τον συντελεστή συσχέτισης στο Excel

Εάν ο συντελεστής είναι 0, αυτό σημαίνει ότι δεν υπάρχει σχέση μεταξύ των τιμών. Για να βρείτε τη σχέση μεταξύ των μεταβλητών και του y, χρησιμοποιήστε την ενσωματωμένη συνάρτηση του Microsoft Excel "CORREL". Για παράδειγμα, για το "Array1" επιλέξτε τις τιμές y και για το "Array2" επιλέξτε τις τιμές x. Ως αποτέλεσμα, θα λάβετε τον συντελεστή συσχέτισης που υπολογίζεται από το πρόγραμμα. Στη συνέχεια, πρέπει να υπολογίσετε τη διαφορά μεταξύ κάθε x και xav και yav. Στα επιλεγμένα κελιά γράψτε τύποι x-x, υ-. Μην ξεχάσετε να καρφιτσώσετε κελιά με μέσες τιμές. Το αποτέλεσμα που προκύπτει θα είναι ο επιθυμητός συντελεστής συσχέτισης.

Ο παραπάνω τύπος για τον υπολογισμό του συντελεστή Pearson δείχνει πόσο επίπονη είναι αυτή η διαδικασία εάν γίνει χειροκίνητα. Δεύτερον, προτείνετε τι είδους ανάλυση συσχέτισης μπορεί να χρησιμοποιηθεί για διαφορετικά δείγματα με μεγάλη διασπορά δεδομένων; Πώς μπορώ να αποδείξω στατιστικά τη διαφορά μεταξύ της ομάδας άνω των 60 ετών και όλων των άλλων;

Κάντο μόνος σου: Υπολογισμός συσχετίσεων νομισμάτων με χρήση του Excel

Εμείς, για παράδειγμα, χρησιμοποιούμε το Microsoft Excel, αλλά οποιοδήποτε άλλο πρόγραμμα μπορεί να χρησιμοποιήσει τον τύπο συσχέτισης θα το κάνει. 7. Μετά από αυτό, επιλέξτε τα κελιά με δεδομένα σε EUR/USD. 9.Πατήστε Enter για να υπολογίσετε τον συντελεστή συσχέτισης για EUR/USD και USD/JPY. Δεν αξίζει να ενημερώνετε τους αριθμούς κάθε μέρα (καλά, εκτός κι αν έχετε εμμονή με τους συσχετισμούς νομισμάτων).

Έχετε ήδη αντιμετωπίσει την ανάγκη να υπολογίσετε τον βαθμό σχέσης μεταξύ δύο στατιστικήκαι να προσδιορίσετε τον τύπο με τον οποίο συσχετίζονται; Για να το κάνω αυτό, χρησιμοποίησα τη συνάρτηση CORREL (CORREL) - υπάρχουν λίγες πληροφορίες σχετικά με αυτό εδώ. Επιστρέφει τον βαθμό συσχέτισης μεταξύ δύο περιοχών δεδομένων. Θεωρητικά, η συνάρτηση συσχέτισης μπορεί να βελτιωθεί μετατρέποντάς την από γραμμική σε εκθετική ή λογαριθμική. Η ανάλυση δεδομένων και τα γραφήματα συσχέτισης μπορούν να βελτιώσουν την αξιοπιστία τους πολύ σημαντικά.

Ας υποθέσουμε ότι το κελί Β2 περιέχει τον ίδιο τον συντελεστή συσχέτισης, το κελί Β3 περιέχει τον αριθμό των πλήρων παρατηρήσεων. Έχετε ρωσόφωνο γραφείο Παρεμπιπτόντως, βρήκα και ένα λάθος - η σημασία δεν υπολογίζεται για αρνητικούς συσχετισμούς. Αν και οι δύο μεταβλητές είναι μετρικές και έχουν κανονική κατανομή, τότε η επιλογή είναι σωστή. Και, είναι δυνατόν να χαρακτηριστεί το κριτήριο της ομοιότητας των καμπυλών χρησιμοποιώντας μόνο ένα QC; Δεν έχετε την ομοιότητα των "καμπυλών", αλλά την ομοιότητα δύο σειρών, οι οποίες, καταρχήν, μπορούν να περιγραφούν με μια καμπύλη.

Έχετε ήδη αντιμετωπίσει την ανάγκη να υπολογίσετε τον βαθμό σχέσης μεταξύ δύο στατιστικών μεγεθών και να καθορίσετε τον τύπο με τον οποίο συσχετίζονται; Κανονικός άνθρωποςθα μπορούσε κανείς να ρωτήσει γιατί αυτό μπορεί να είναι καθόλου απαραίτητο. Παραδόξως, αυτό είναι πραγματικά απαραίτητο. Η γνώση αξιόπιστων συσχετίσεων μπορεί να σας βοηθήσει να κάνετε μια περιουσία εάν είστε, για παράδειγμα, έμπορος μετοχών. Το πρόβλημα είναι ότι για κάποιο λόγο κανείς δεν αποκαλύπτει αυτούς τους συσχετισμούς (έκπληξη, έτσι δεν είναι;).

Ας τα μετρήσουμε μόνοι μας! Για παράδειγμα, αποφάσισα να προσπαθήσω να υπολογίσω τη συσχέτιση του ρουβλίου έναντι του δολαρίου μέσω του ευρώ. Ας δούμε πώς γίνεται αυτό λεπτομερώς.

Αυτό το άρθρο έχει σχεδιαστεί για προχωρημένο επίπεδο γνώσης του Microsoft Excel. Εάν δεν έχετε χρόνο να διαβάσετε ολόκληρο το άρθρο, μπορείτε να κατεβάσετε το αρχείο και να το αντιμετωπίσετε μόνοι σας.

Εάν συχνά βρίσκετε τον εαυτό σας να χρειάζεται να κάνετε κάτι τέτοιοΣυνιστώ ανεπιφύλακτα να σκεφτείτε να αγοράσετε το βιβλίο. Στατιστικοί υπολογισμοί στο Excel.

Τι είναι σημαντικό να γνωρίζετε για τις συσχετίσεις

Για τον υπολογισμό μιας αξιόπιστης συσχέτισης, είναι απαραίτητο να έχουμε ένα αξιόπιστο δείγμα, όσο μεγαλύτερο είναι, τόσο πιο αξιόπιστο θα είναι το αποτέλεσμα. Για τους σκοπούς αυτού του παραδείγματος, έχω λάβει ένα καθημερινό δείγμα συναλλαγματικών ισοτιμιών για 10 χρόνια. Τα δεδομένα είναι ελεύθερα διαθέσιμα, τα πήρα από το site http://oanda.com.

Τι έκανα στην πραγματικότητα

(1) Όταν είχα τα αρχικά μου δεδομένα, ξεκίνησα ελέγχοντας τον βαθμό συσχέτισης μεταξύ των δύο συνόλων δεδομένων. Για να το κάνω αυτό, χρησιμοποίησα τη συνάρτηση CORREL (CORREL) - υπάρχουν λίγες πληροφορίες σχετικά με αυτήν. Επιστρέφει τον βαθμό συσχέτισης μεταξύ δύο περιοχών δεδομένων. Το αποτέλεσμα, ειλικρινά, δεν ήταν ιδιαίτερα εντυπωσιακό (μόνο περίπου 70%). Γενικά, ο βαθμός συσχέτισης μεταξύ δύο τιμών θεωρείται ότι είναι το τετράγωνο αυτής της τιμής, δηλαδή, η συσχέτιση αποδείχθηκε αξιόπιστη κατά περίπου 49%. Αυτό είναι πολύ λίγο!

(2) Μου φάνηκε πολύ περίεργο. Ποια σφάλματα θα μπορούσαν να έχουν εισχωρήσει στους υπολογισμούς μου; Έτσι αποφάσισα να φτιάξω ένα γράφημα και να δω τι θα μπορούσε να συμβεί. Το γράφημα διατηρήθηκε απλό επίτηδες, κατανεμημένο ανά χρόνια, ώστε να μπορείτε να δείτε οπτικά πού σπάει ο συσχετισμός. Το γράφημα μοιάζει με αυτό

(3) Από το διάγραμμα, είναι προφανές ότι στο εύρος των 35 ρούβλια περίπου ανά ευρώ, ο συσχετισμός αρχίζει να σπάει σε δύο μέρη. Εξαιτίας αυτού, αποδείχθηκε αναξιόπιστη. Ήταν απαραίτητο να καθοριστεί σε σχέση με το τι συμβαίνει.

(4) Το χρώμα δείχνει ότι αυτά τα δεδομένα αναφέρονται στα 2007, 2008, 2009. Φυσικά! Οι περίοδοι οικονομικών κορυφών και ύφεσης συνήθως δεν είναι στατιστικά αξιόπιστες, κάτι που συνέβη το αυτή η υπόθεση. Επομένως, προσπάθησα να εξαιρέσω αυτές τις περιόδους από τα δεδομένα (καλά, για επαλήθευση, έλεγξα τον βαθμό συσχέτισης των δεδομένων σε αυτήν την περίοδο). Ο βαθμός συσχέτισης μόνο αυτών των δεδομένων είναι 0,01%, δηλαδή απουσιάζει καταρχήν. Αλλά χωρίς αυτά, τα δεδομένα συσχετίζονται κατά περίπου 81%. Αυτή είναι ήδη μια αρκετά αξιόπιστη συσχέτιση. Εδώ είναι ένα γράφημα με μια συνάρτηση.

Επόμενα βήματα

Θεωρητικά, η συνάρτηση συσχέτισης μπορεί να βελτιωθεί μετατρέποντάς την από γραμμική σε εκθετική ή λογαριθμική. Εν στατιστική εγκυρότηταο συσχετισμός αυξάνεται κατά περίπου ένα τοις εκατό, αλλά η πολυπλοκότητα της εφαρμογής του τύπου αυξάνεται πάρα πολύ. Ως εκ τούτου, για τον εαυτό μου, θέτω το ερώτημα: είναι πραγματικά απαραίτητο; Εσείς αποφασίζετε - για κάθε συγκεκριμένη περίπτωση.

Ειδοποίηση!Η λύση στο συγκεκριμένο πρόβλημά σας θα μοιάζει παρόμοια αυτό το παράδειγμα, συμπεριλαμβανομένων όλων των πινάκων και των επεξηγηματικών κειμένων παρακάτω, αλλά λαμβάνοντας υπόψη τα αρχικά σας δεδομένα...

Μια εργασία:
Υπάρχει ένα σχετικό δείγμα 26 ζευγών τιμών (x k , y k ):

κ 1 2 3 4 5 6 7 8 9 10
x k 25.20000 26.40000 26.00000 25.80000 24.90000 25.70000 25.70000 25.70000 26.10000 25.80000
y k 30.80000 29.40000 30.20000 30.50000 31.40000 30.30000 30.40000 30.50000 29.90000 30.40000

κ 11 12 13 14 15 16 17 18 19 20
x k 25.90000 26.20000 25.60000 25.40000 26.60000 26.20000 26.00000 22.10000 25.90000 25.80000
y k 30.30000 30.50000 30.60000 31.00000 29.60000 30.40000 30.70000 31.60000 30.50000 30.60000

κ 21 22 23 24 25 26
x k 25.90000 26.30000 26.10000 26.00000 26.40000 25.80000
y k 30.70000 30.10000 30.60000 30.50000 30.70000 30.80000

Απαιτείται ο υπολογισμός/κατασκευή:
- συντελεστής συσχέτισης;
- ελέγξτε την υπόθεση της εξάρτησης των τυχαίων μεταβλητών X και Y, σε επίπεδο σημαντικότητας α = 0,05.
- συντελεστές εξίσωσης γραμμικής παλινδρόμησης;
- διάγραμμα διασποράς (πεδίο συσχέτισης) και γραμμικό γράφημα παλινδρόμησης.

ΛΥΣΗ:

1. Υπολογίστε τον συντελεστή συσχέτισης.

Ο συντελεστής συσχέτισης είναι ένας δείκτης της αμοιβαίας πιθανολογικής επιρροής δύο τυχαίων μεταβλητών. Συντελεστής συσχέτισης Rμπορεί να πάρει τιμές από -1 πριν +1 . Αν η απόλυτη τιμή είναι πιο κοντά στο 1 , τότε αυτό είναι απόδειξη ισχυρή σύνδεσημεταξύ των τιμών, και αν είναι πιο κοντά σε 0 - τότε, αυτό δείχνει μια αδύναμη σύνδεση ή την απουσία της. Αν η απόλυτη τιμή Rίσο με ένα, τότε μπορούμε να μιλήσουμε για μια συναρτησιακή σχέση μεταξύ των ποσοτήτων, δηλαδή, μια ποσότητα μπορεί να εκφραστεί σε όρους μιας άλλης χρησιμοποιώντας μια μαθηματική συνάρτηση.


Μπορείτε να υπολογίσετε τον συντελεστή συσχέτισης χρησιμοποιώντας τους ακόλουθους τύπους:
n
Σ
k = 1
(x k -M x) 2, y 2 =
Μχ =
1
n
n
Σ
k = 1
x k , Μ υ =

ή σύμφωνα με τον τύπο

Rx,y =
M xy - M x M y
SxSy
(1.4), όπου:
Μχ =
1
n
n
Σ
k = 1
x k , Μ υ =
1
n
n
Σ
k = 1
y k , Mxy =
1
n
n
Σ
k = 1
x k y k (1,5)
S x 2 =
1
n
n
Σ
k = 1
x k 2 - M x 2, Σ και 2 =
1
n
n
Σ
k = 1
y k 2 - M y 2 (1,6)

Στην πράξη, ο τύπος (1.4) χρησιμοποιείται συχνότερα για τον υπολογισμό του συντελεστή συσχέτισης, αφού απαιτεί λιγότερους υπολογισμούς. Ωστόσο, εάν η συνδιακύμανση είχε υπολογιστεί προηγουμένως cov(X,Y), τότε είναι πιο πλεονεκτικό να χρησιμοποιηθεί ο τύπος (1.1), επειδή εκτός από την πραγματική τιμή της συνδιακύμανσης, μπορείτε επίσης να χρησιμοποιήσετε τα αποτελέσματα των ενδιάμεσων υπολογισμών.

1.1 Υπολογίστε τον συντελεστή συσχέτισης χρησιμοποιώντας τον τύπο (1.4), για αυτό υπολογίζουμε τις τιμές x k 2 , y k 2 και x k y k και τις εισάγουμε στον πίνακα 1.

Τραπέζι 1


κ
x k y k x k 2 y k 2 x ky k
1 2 3 4 5 6
1 25.2 30.8 635.04000 948.64000 776.16000
2 26.4 29.4 696.96000 864.36000 776.16000
3 26.0 30.2 676.00000 912.04000 785.20000
4 25.8 30.5 665.64000 930.25000 786.90000
5 24.9 31.4 620.01000 985.96000 781.86000
6 25.7 30.3 660.49000 918.09000 778.71000
7 25.7 30.4 660.49000 924.16000 781.28000
8 25.7 30.5 660.49000 930.25000 783.85000
9 26.1 29.9 681.21000 894.01000 780.39000
10 25.8 30.4 665.64000 924.16000 784.32000
11 25.9 30.3 670.81000 918.09000 784.77000
12 26.2 30.5 686.44000 930.25000 799.10000
13 25.6 30.6 655.36000 936.36000 783.36000
14 25.4 31 645.16000 961.00000 787.40000
15 26.6 29.6 707.56000 876.16000 787.36000
16 26.2 30.4 686.44000 924.16000 796.48000
17 26 30.7 676.00000 942.49000 798.20000
18 22.1 31.6 488.41000 998.56000 698.36000
19 25.9 30.5 670.81000 930.25000 789.95000
20 25.8 30.6 665.64000 936.36000 789.48000
21 25.9 30.7 670.81000 942.49000 795.13000
22 26.3 30.1 691.69000 906.01000 791.63000
23 26.1 30.6 681.21000 936.36000 798.66000
24 26 30.5 676.00000 930.25000 793.00000
25 26.4 30.7 696.96000 942.49000 810.48000
26 25.8 30.8 665.64000 948.64000 794.64000


1.2. Υπολογίζουμε το M x με τον τύπο (1.5).

1.2.1. x k

x 1 + x 2 + ... + x 26 = 25,20000 + 26,40000 + ... + 25,80000 = 669,500000

1.2.2.

669.50000 / 26 = 25.75000

M x = 25,750000

1.3. Ομοίως, υπολογίζουμε το M y.

1.3.1. Ας προσθέσουμε όλα τα στοιχεία με τη σειρά y k

y 1 + y 2 + … + y 26 = 30,80000 + 29,40000 + ... + 30,80000 = 793,000000

1.3.2. Διαιρέστε το άθροισμα που προκύπτει με τον αριθμό των στοιχείων του δείγματος

793.00000 / 26 = 30.50000

M y = 30,500000

1.4. Ομοίως, υπολογίζουμε το M xy.

1.4.1. Προσθέτουμε διαδοχικά όλα τα στοιχεία της 6ης στήλης του πίνακα 1

776.16000 + 776.16000 + ... + 794.64000 = 20412.830000

1.4.2. Διαιρέστε το άθροισμα που προκύπτει με τον αριθμό των στοιχείων

20412.83000 / 26 = 785.10885

M xy = 785,108846

1.5. Υπολογίστε την τιμή του S x 2 χρησιμοποιώντας τον τύπο (1.6.).

1.5.1. Προσθέτουμε διαδοχικά όλα τα στοιχεία της 4ης στήλης του πίνακα 1

635.04000 + 696.96000 + ... + 665.64000 = 17256.910000

1.5.2. Διαιρέστε το άθροισμα που προκύπτει με τον αριθμό των στοιχείων

17256.91000 / 26 = 663.72731

1.5.3. Αφαιρούμε από τον τελευταίο αριθμό το τετράγωνο της τιμής M x παίρνουμε την τιμή για το S x 2

S x 2 = 663.72731 - 25.75000 2 = 663.72731 - 663.06250 = 0.66481

1.6. Υπολογίστε την τιμή του S y 2 με τον τύπο (1.6.).

1.6.1. Προσθέτουμε διαδοχικά όλα τα στοιχεία της 5ης στήλης του πίνακα 1

948.64000 + 864.36000 + ... + 948.64000 = 24191.840000

1.6.2. Διαιρέστε το άθροισμα που προκύπτει με τον αριθμό των στοιχείων

24191.84000 / 26 = 930.45538

1.6.3. Αφαιρούμε από τον τελευταίο αριθμό το τετράγωνο του M y , παίρνουμε την τιμή για το S y 2

Σ και 2 = 930.45538 - 30.50000 2 = 930.45538 - 930.25000 = 0.20538

1.7. Ας υπολογίσουμε το γινόμενο των S x 2 και S y 2.

S x 2 S y 2 = 0,66481 0,20538 = 0,136541

1.8. Εξάγετε τον τελευταίο αριθμό Τετραγωνική ρίζα, παίρνουμε την τιμή S x S y.

S x S y = 0,36951

1.9. Υπολογίστε την τιμή του συντελεστή συσχέτισης σύμφωνα με τον τύπο (1.4.).

R = (785,10885 - 25,75000 30,50000) / 0,36951 = (785,10885 - 785,37500) / 0,36951 = -0,72028

ΑΠΑΝΤΗΣΗ: Rx,y = -0,720279

2. Ελέγχουμε τη σημασία του συντελεστή συσχέτισης (ελέγχουμε την υπόθεση της εξάρτησης).

Δεδομένου ότι η εκτίμηση του συντελεστή συσχέτισης υπολογίζεται σε ένα πεπερασμένο δείγμα και επομένως μπορεί να αποκλίνει από τη γενική του τιμή, είναι απαραίτητο να ελεγχθεί η σημασία του συντελεστή συσχέτισης. Ο έλεγχος γίνεται με το κριτήριο t:

t =
Rx,y
n - 2
1 - R 2 x,y
(2.1)

Τυχαία τιμή tακολουθεί την κατανομή t του Student και σύμφωνα με τον πίνακα κατανομής t είναι απαραίτητο να βρεθεί η κρίσιμη τιμή του κριτηρίου (t cr.α) σε ένα δεδομένο επίπεδο σημασίας α. Εάν το modulo t που υπολογίζεται από τον τύπο (2.1) αποδειχθεί μικρότερο από t cr.α, τότε οι εξαρτήσεις μεταξύ τυχαίες μεταβλητέςΤα Χ και Υ δεν είναι. Διαφορετικά, τα πειραματικά δεδομένα δεν έρχονται σε αντίθεση με την υπόθεση για την εξάρτηση των τυχαίων μεταβλητών.


2.1. Υπολογίστε την τιμή του κριτηρίου t σύμφωνα με τον τύπο (2.1) παίρνουμε:
t =
-0.72028
26 - 2
1 - (-0.72028) 2
= -5.08680

2.2. Ας προσδιορίσουμε την κρίσιμη τιμή της παραμέτρου t cr.α από τον πίνακα κατανομής t

Η επιθυμητή τιμή t kr.a βρίσκεται στην τομή της σειράς που αντιστοιχεί στον αριθμό των βαθμών ελευθερίας και της στήλης που αντιστοιχεί σε ένα δεδομένο επίπεδο σημασίας α.
Στην περίπτωσή μας, ο αριθμός των βαθμών ελευθερίας είναι n - 2 = 26 - 2 = 24 και α = 0.05 , που αντιστοιχεί στην κρίσιμη τιμή του κριτηρίου t cr.α = 2.064 (βλέπε πίνακα 2)

πίνακας 2 t-κατανομή

Αριθμός βαθμών ελευθερίας
(n - 2)
α = 0,1 α = 0,05 α = 0,02 α = 0,01 α = 0,002 α = 0,001
1 6.314 12.706 31.821 63.657 318.31 636.62
2 2.920 4.303 6.965 9.925 22.327 31.598
3 2.353 3.182 4.541 5.841 10.214 12.924
4 2.132 2.776 3.747 4.604 7.173 8.610
5 2.015 2.571 3.365 4.032 5.893 6.869
6 1.943 2.447 3.143 3.707 5.208 5.959
7 1.895 2.365 2.998 3.499 4.785 5.408
8 1.860 2.306 2.896 3.355 4.501 5.041
9 1.833 2.262 2.821 3.250 4.297 4.781
10 1.812 2.228 2.764 3.169 4.144 4.587
11 1.796 2.201 2.718 3.106 4.025 4.437
12 1.782 2.179 2.681 3.055 3.930 4.318
13 1.771 2.160 2.650 3.012 3.852 4.221
14 1.761 2.145 2.624 2.977 3.787 4.140
15 1.753 2.131 2.602 2.947 3.733 4.073
16 1.746 2.120 2.583 2.921 3.686 4.015
17 1.740 2.110 2.567 2.898 3.646 3.965
18 1.734 2.101 2.552 2.878 3.610 3.922
19 1.729 2.093 2.539 2.861 3.579 3.883
20 1.725 2.086 2.528 2.845 3.552 3.850
21 1.721 2.080 2.518 2.831 3.527 3.819
22 1.717 2.074 2.508 2.819 3.505 3.792
23 1.714 2.069 2.500 2.807 3.485 3.767
24 1.711 2.064 2.492 2.797 3.467 3.745
25 1.708 2.060 2.485 2.787 3.450 3.725
26 1.706 2.056 2.479 2.779 3.435 3.707
27 1.703 2.052 2.473 2.771 3.421 3.690
28 1.701 2.048 2.467 2.763 3.408 3.674
29 1.699 2.045 2.462 2.756 3.396 3.659
30 1.697 2.042 2.457 2.750 3.385 3.646
40 1.684 2.021 2.423 2.704 3.307 3.551
60 1.671 2.000 2.390 2.660 3.232 3.460
120 1.658 1.980 2.358 2.617 3.160 3.373
1.645 1.960 2.326 2.576 3.090 3.291


2.2. Ας συγκρίνουμε την απόλυτη τιμή του κριτηρίου t και του t cr.α

Απόλυτη τιμήΤο κριτήριο t δεν είναι μικρότερο από το κρίσιμο t = 5,08680, tcr.α = 2,064, επομένως πειραματικά δεδομένα, με πιθανότητα 0,95(1 - α ), δεν έρχονται σε αντίθεση με την υπόθεσηαπό την εξάρτηση των τυχαίων μεταβλητών X και Y.

3. Υπολογίζουμε τους συντελεστές της εξίσωσης γραμμικής παλινδρόμησης.

Η γραμμική εξίσωση παλινδρόμησης είναι μια εξίσωση μιας ευθείας γραμμής που προσεγγίζει (περιγράφει κατά προσέγγιση) τη σχέση μεταξύ των τυχαίων μεταβλητών X και Y. Αν υποθέσουμε ότι το X είναι ελεύθερο και το Y εξαρτάται από το X, τότε η εξίσωση παλινδρόμησης θα γραφεί ως εξής


Y = a + b X (3.1), όπου:

b=Rx,y
y
σ x
= Rx,y
Sy
S x
(3.2),
a = M y - b M x (3.3)

Ο συντελεστής που υπολογίζεται με τον τύπο (3.2) σιονομάζεται συντελεστής γραμμικής παλινδρόμησης. Σε ορισμένες πηγές έναπου ονομάζεται σταθερός συντελεστήςπαλινδρόμηση και σισύμφωνα με τις μεταβλητές.

Τα σφάλματα πρόβλεψης Y για μια δεδομένη τιμή X υπολογίζονται από τους τύπους:

Ονομάζεται και η τιμή σ y/x (τύπος 3.4). υπολειπόμενη τυπική απόκλιση, χαρακτηρίζει την απομάκρυνση του Y από τη γραμμή παλινδρόμησης που περιγράφεται από την εξίσωση (3.1) σε μια σταθερή (δεδομένη) τιμή του X.

.
S y 2 / S x 2 = 0,20538 / 0,66481 = 0,30894. Εξάγουμε την τετραγωνική ρίζα από τον τελευταίο αριθμό - παίρνουμε:
S y / S x = 0,55582

3.3 Υπολογίστε τον συντελεστή βμε τον τύπο (3.2)

σι = -0.72028 0.55582 = -0.40035

3.4 Υπολογίστε τον συντελεστή αμε τον τύπο (3.3)

ένα = 30.50000 - (-0.40035 25.75000) = 40.80894

3.5 Υπολογίστε τα σφάλματα της εξίσωσης παλινδρόμησης.

3.5.1 Εξάγουμε την τετραγωνική ρίζα από το S y 2 και παίρνουμε:

= 0.31437
3.5.4 Υπολογίζω σχετικό σφάλμαμε τον τύπο (3.5)

δy/x = (0,31437 / 30,50000)100% = 1,03073%

4. Κατασκευάζουμε ένα scatterplot (πεδίο συσχέτισης) και ένα γράφημα της γραμμής παλινδρόμησης.

Το scatterplot είναι γραφική εικόνααντίστοιχα ζεύγη (x k , y k ) με τη μορφή σημείων του επιπέδου, σε ορθογώνιες συντεταγμένεςμε άξονες Χ και Υ. Το πεδίο συσχέτισης είναι ένα από γραφικές παραστάσειςσυνδεδεμένο (ζευγοποιημένο) δείγμα. Στο ίδιο σύστημα συντεταγμένων απεικονίζεται και η γραφική παράσταση της γραμμής παλινδρόμησης. Οι κλίμακες και τα σημεία εκκίνησης στους άξονες πρέπει να επιλέγονται προσεκτικά, ώστε το διάγραμμα να είναι όσο το δυνατόν πιο σαφές.

4.1. Βρίσκουμε ότι το ελάχιστο και μέγιστο στοιχείο του δείγματος X είναι το 18ο και 15ο στοιχείο, αντίστοιχα, x min = 22,10000 και x max = 26,60000.

4.2. Βρίσκουμε το ελάχιστο και μέγιστο στοιχείο του δείγματος Y είναι το 2ο και 18ο στοιχείο, αντίστοιχα, y min = 29,40000 και y max = 31,60000.

4.3. Στον άξονα της τετμημένης επιλέγουμε το σημείο εκκίνησης ακριβώς στα αριστερά του σημείου x 18 = 22,10000 και τέτοια κλίμακα ώστε το σημείο x 15 = 26,60000 να ταιριάζει στον άξονα και να διακρίνονται καθαρά τα άλλα σημεία.

4.4. Στον άξονα y, επιλέγουμε το σημείο εκκίνησης ακριβώς στα αριστερά του σημείου y 2 = 29,40000, και τέτοια κλίμακα ώστε το σημείο y 18 = 31,60000 να ταιριάζει στον άξονα και τα άλλα σημεία να διακρίνονται καθαρά.

4.5. Στον άξονα της τετμημένης τοποθετούμε τις τιμές x k και στον άξονα τεταγμένων τις τιμές y k.

4.6. Βάζουμε σημεία (x 1, y 1), (x 2, y 2), ..., (x 26, y 26 ) επίπεδο συντεταγμένων. Παίρνουμε ένα scatterplot (πεδίο συσχέτισης), που φαίνεται στο παρακάτω σχήμα.

4.7. Ας χαράξουμε μια γραμμή παλινδρόμησης.

Για να γίνει αυτό, βρίσκουμε δύο διάφορα σημείαμε τις συντεταγμένες (x r1 , y r1) και (x r2 , y r2) να ικανοποιούν την εξίσωση (3.6), τις βάζουμε στο επίπεδο συντεταγμένων και τις τραβάμε μια ευθεία. Ας πάρουμε x min = 22,10000 ως τετμημένη του πρώτου σημείου. Αντικαθιστούμε την τιμή του x min στην εξίσωση (3.6), παίρνουμε την τεταγμένη του πρώτου σημείου. Έτσι, έχουμε ένα σημείο με συντεταγμένες (22.10000, 31.96127). Ομοίως, λαμβάνουμε τις συντεταγμένες του δεύτερου σημείου, ορίζοντας την τιμή x max = 26,60000 ως τετμημένη. Το δεύτερο σημείο θα είναι: (26.60000, 30.15970).

Η γραμμή παλινδρόμησης φαίνεται στο παρακάτω σχήμα με κόκκινο χρώμα

Σημειώστε ότι η γραμμή παλινδρόμησης διέρχεται πάντα από το σημείο των μέσων τιμών των X και Y, δηλ. με συντεταγμένες (M x , M y).

ΕΡΓΑΣΤΗΡΙΑΚΕΣ ΕΡΓΑΣΙΕΣ

ΑΝΑΛΥΣΗ ΣΥΣΧΕΤΙΣΗΣ ΣΤΟΠΡΟΕΧΩ

1.1 Ανάλυση συσχέτισηςστο MS Excel

Η ανάλυση συσχέτισης συνίσταται στον προσδιορισμό του βαθμού σύνδεσης μεταξύ δύο τυχαίων μεταβλητών X και Y. Ο συντελεστής συσχέτισης χρησιμοποιείται ως μέτρο μιας τέτοιας σύνδεσης. Ο συντελεστής συσχέτισης υπολογίζεται από ένα δείγμα του όγκου n των σχετικών ζευγών παρατηρήσεων (x i, y i) από τον κοινό γενικό πληθυσμό X και Y. Για να εκτιμηθεί ο βαθμός σχέσης μεταξύ X και Y που μετράται σε ποσοτικές κλίμακες, χρησιμοποιούμε γραμμικός συντελεστής συσχέτισης(συντελεστής Pearson), υποθέτοντας ότι τα δείγματα Χ και Υ κατανέμονται σύμφωνα με τον κανονικό νόμο.

Ο συντελεστής συσχέτισης ποικίλλει από -1 (αυστηρή αντίστροφη γραμμική σχέση) έως 1 (αυστηρή ευθεία αναλογική σχέση). Σε τιμή 0, δεν υπάρχει γραμμική σχέση μεταξύ των δύο δειγμάτων.

Γενική ταξινόμηση των συσχετισμών (σύμφωνα με τον Ivanter E.V., Korosov A.V., 1992):

Υπάρχουν διάφοροι τύποι συντελεστών συσχέτισης, ανάλογα με τις μεταβλητές X και Y, οι οποίοι μπορούν να μετρηθούν σε διαφορετικές κλίμακες. Αυτό είναι το γεγονός που καθορίζει την επιλογή του κατάλληλου συντελεστή συσχέτισης (βλ. Πίνακα 13):

Στο MS Excel, χρησιμοποιείται μια ειδική συνάρτηση για τον υπολογισμό των ζευγαρωμένων γραμμικών συντελεστών συσχέτισης CORREL(πίνακας1; πίνακας2),

υποκείμενα δοκιμής

όπου ο πίνακας1 είναι μια αναφορά στο εύρος των κελιών της πρώτης επιλογής (X).

Παράδειγμα 1:Σε 10 μαθητές δόθηκαν τεστ οπτικής-παραστατικής και λεκτικής σκέψης. Ο μέσος χρόνος για την επίλυση δοκιμαστικών εργασιών μετρήθηκε σε δευτερόλεπτα. Ο ερευνητής ενδιαφέρεται για το ερώτημα: υπάρχει σχέση μεταξύ του χρόνου επίλυσης αυτών των προβλημάτων; Η μεταβλητή X υποδηλώνει το μέσο χρόνο για την επίλυση οπτικο-παραστατικών τεστ και η μεταβλητή Y υποδηλώνει το μέσο χρόνο για την επίλυση λεκτικών εργασιών των τεστ.

R Λύση:Για να προσδιορίσετε τον βαθμό σχέσης, πρώτα απ 'όλα, είναι απαραίτητο να εισαγάγετε δεδομένα στον πίνακα MS Excel (βλ. Πίνακα, Εικ. 1). Στη συνέχεια υπολογίζεται η τιμή του συντελεστή συσχέτισης. Για να το κάνετε αυτό, τοποθετήστε τον κέρσορα στο κελί C1. Στη γραμμή εργαλείων, κάντε κλικ στο κουμπί Εισαγωγή συνάρτησης (fx).

Στο παράθυρο διαλόγου Function Wizard που εμφανίζεται, επιλέξτε μια κατηγορία Στατιστικόςκαι λειτουργία CORREL, μετά κάντε κλικ στο OK. Χρησιμοποιήστε το δείκτη του ποντικιού για να εισαγάγετε το δείγμα περιοχής δεδομένων X στο πεδίο array1 (A1:A10). Στο πεδίο array2, εισαγάγετε το δείγμα περιοχής δεδομένων Y (B1:B10). Κάντε κλικ στο OK. Στο κελί C1, θα εμφανιστεί η τιμή του συντελεστή συσχέτισης - 0,54119. Στη συνέχεια, πρέπει να εξετάσετε τον απόλυτο αριθμό του συντελεστή συσχέτισης και να προσδιορίσετε τον τύπο της σχέσης (στενή, ασθενής, μεσαία κ.λπ.)

Ρύζι. 1. Αποτελέσματα υπολογισμού του συντελεστή συσχέτισης

Έτσι, η σύνδεση μεταξύ του χρόνου επίλυσης οπτικο-παραστατικών και λεκτικών εργασιών του τεστ δεν έχει αποδειχθεί.

Ασκηση 1.Διατίθενται δεδομένα για 20 γεωργικές εκμεταλλεύσεις. Εύρημα συντελεστής συσχέτισηςμεταξύ των αποδόσεων των σιτηρών και της ποιότητας της γης και να αξιολογήσει τη σημασία της. Τα στοιχεία δίνονται στον πίνακα.

Πίνακας 2. Εξάρτηση της απόδοσης των σιτηρών από την ποιότητα της γης

τον αριθμό του σπιτιού

Ποιότητα γης, βαθμολογία

Παραγωγικότητα, c/ha


Εργασία 2.Προσδιορίστε εάν υπάρχει σχέση μεταξύ του χρόνου λειτουργίας ενός αθλητικού μηχανήματος γυμναστικής (χίλιες ώρες) και του κόστους επισκευής του (χιλιάδες ρούβλια):

Χρόνος λειτουργίας προσομοιωτή (χίλιες ώρες)

Κόστος επισκευής (χιλιάδες ρούβλια)

1.2 Πολλαπλή συσχέτιση στο MS Excel

Στο μεγάλοι αριθμοίπαρατηρήσεις, όταν οι συντελεστές συσχέτισης πρέπει να υπολογιστούν διαδοχικά για πολλά δείγματα, για λόγους ευκολίας, οι συντελεστές που προκύπτουν συνοψίζονται σε πίνακες που ονομάζονται πίνακες συσχέτισης.

Πίνακας συσχέτισηςείναι ένας τετράγωνος πίνακας στον οποίο στην τομή των αντίστοιχων γραμμών και στηλών βρίσκεται ο συντελεστής συσχέτισης μεταξύ των αντίστοιχων παραμέτρων.

Στο MS Excel, η διαδικασία χρησιμοποιείται για τον υπολογισμό των πινάκων συσχέτισης συσχέτισηαπό τη συσκευασία Ανάλυση δεδομένων.Η διαδικασία καθιστά δυνατή τη λήψη ενός πίνακα συσχέτισης που περιέχει συντελεστές συσχέτισης μεταξύ διαφορετικών παραμέτρων.

Για να εφαρμόσετε τη διαδικασία, πρέπει:

1. εντολή εκτέλεσης Υπηρεσία - Ανάλυση δεδομένα;

2. στη λίστα που εμφανίζεται Εργαλεία Ανάλυσηςεπιλέξτε σειρά Συσχέτισηκαι πατήστε το κουμπί Εντάξει;

3. Στο παράθυρο διαλόγου που εμφανίζεται, καθορίστε διάστημα εισαγωγής, δηλαδή, εισάγετε έναν σύνδεσμο προς τα κελιά που περιέχουν τα δεδομένα που αναλύθηκαν. Το διάστημα εισαγωγής πρέπει να περιέχει τουλάχιστον δύο στήλες.

4. τμήμα ομαδοποίησηρυθμίστε το διακόπτη σύμφωνα με τα δεδομένα που έχετε εισαγάγει (κατά στήλες ή σειρές).

5. προσδιορίστε ρεπό διάστημα, δηλαδή, εισάγετε μια αναφορά στο κελί, ξεκινώντας από το οποίο θα εμφανίζονται τα αποτελέσματα της ανάλυσης. Το μέγεθος του εύρους εξόδου θα καθοριστεί αυτόματα και θα εμφανιστεί ένα μήνυμα στην οθόνη εάν το εύρος εξόδου μπορεί να επικαλύπτεται με τα δεδομένα προέλευσης. Πιέστε το κουμπί Εντάξει.

Στην περιοχή εξόδου θα εμφανιστεί ένας πίνακας συσχέτισης, στον οποίο στην τομή κάθε γραμμής και στήλης υπάρχει ένας συντελεστής συσχέτισης μεταξύ των αντίστοιχων παραμέτρων. Τα κελιά στην περιοχή εξόδου που έχουν τις ίδιες συντεταγμένες γραμμής και στήλης περιέχουν την τιμή 1 επειδή κάθε στήλη στην περιοχή εισόδου συσχετίζεται πλήρως με τον εαυτό της

Παράδειγμα 2Διατίθενται μηνιαία δεδομένα για παρατηρήσεις καιρικών συνθηκών και επισκέψεις σε μουσεία και πάρκα (βλ. Πίνακα 3). Είναι απαραίτητο να προσδιοριστεί εάν υπάρχει σχέση μεταξύ της κατάστασης του καιρού και της επισκεψιμότητας των μουσείων και των πάρκων.

Πίνακας 3. Αποτελέσματα παρατηρήσεων

Αριθμός καθαρών ημερών

Αριθμός επισκεπτών του μουσείου

Αριθμός επισκεπτών στο πάρκο

Λύση. Για να εκτελέσετε μια ανάλυση συσχέτισης, εισαγάγετε τα αρχικά δεδομένα στην περιοχή A1:G3 (Εικ. 2). Στη συνέχεια, στο μενού Υπηρεσίαεπιλέξτε αντικείμενο Ανάλυση δεδομένακαι μετά προσθέστε τη γραμμή Συσχέτιση. Στο παράθυρο διαλόγου που εμφανίζεται, πληκτρολογήστε διάστημα εισαγωγής(A2:C7). Καθορίστε ότι τα δεδομένα εξετάζονται με στήλες. Καθορίστε το εύρος εξόδου (E1) και πατήστε το κουμπί Εντάξει.

Στο σχ. 33 φαίνεται ότι η συσχέτιση μεταξύ καιρικών συνθηκών και επισκεψιμότητας μουσείων είναι -0,92 και μεταξύ καιρικών συνθηκών και επισκεψιμότητας στο πάρκο - 0,97, μεταξύ επισκεψιμότητας σε πάρκο και μουσείου - 0,92.

Έτσι, ως αποτέλεσμα της ανάλυσης, αποκαλύφθηκαν εξαρτήσεις: μια ισχυρή αντίστροφη γραμμική σχέση μεταξύ της προσέλευσης στο μουσείο και του αριθμού των ηλιόλουστων ημερών και μια σχεδόν γραμμική (πολύ ισχυρή άμεση) σχέση μεταξύ της προσέλευσης στο πάρκο και των καιρικών συνθηκών. Υπάρχει μια ισχυρή αντίστροφη σχέση μεταξύ της συμμετοχής μουσείων και πάρκων.

Ρύζι. 2. Αποτελέσματα υπολογισμού του πίνακα συσχέτισης από το παράδειγμα 2

Εργασία 3. 10 διευθυντικά στελέχη αξιολογήθηκαν σύμφωνα με τη μεθοδολογία των ειδικών αξιολογήσεων των ψυχολογικών χαρακτηριστικών της προσωπικότητας του ηγέτη. 15 ειδικοί αξιολόγησαν κάθε ψυχολογικό χαρακτηριστικό σύμφωνα με ένα σύστημα πέντε σημείων (βλ. Πίνακα 4). Ο ψυχολόγος ενδιαφέρεται για το ερώτημα ποια σχέση έχουν αυτά τα χαρακτηριστικά του ηγέτη μεταξύ τους.

Πίνακας 4. Αποτελέσματα της μελέτης

Θέματα p / p

λεπτότητα

αυστηρότητα

κρισιμότητα

Με συσχέτισηη ίδια τιμή του ενός χαρακτηριστικού αντιστοιχεί σε διαφορετικές τιμές του άλλου. Για παράδειγμα: υπάρχει συσχέτιση μεταξύ ύψους και βάρους, μεταξύ της συχνότητας εμφάνισης κακοήθων νεοπλασμάτων και της ηλικίας κ.λπ.

Υπάρχουν 2 μέθοδοι για τον υπολογισμό του συντελεστή συσχέτισης: η μέθοδος των τετραγώνων (Pearson), η μέθοδος των βαθμών (Spearman).

Η πιο ακριβής είναι η μέθοδος των τετραγώνων (Pearson), στην οποία ο συντελεστής συσχέτισης καθορίζεται από τον τύπο: , όπου

r xy είναι ο συντελεστής συσχέτισης μεταξύ των στατιστικών σειρών X και Y.

d x είναι η απόκλιση καθενός από τους αριθμούς της στατιστικής σειράς X από τον αριθμητικό μέσο όρο της.

d y είναι η απόκλιση καθενός από τους αριθμούς της στατιστικής σειράς Y από τον αριθμητικό μέσο όρο της.

Ανάλογα με την ισχύ της σύνδεσης και την κατεύθυνσή της, ο συντελεστής συσχέτισης μπορεί να κυμαίνεται από 0 έως 1 (-1). Ένας συντελεστής συσχέτισης 0 υποδηλώνει πλήρη έλλειψη σύνδεσης. Όσο πιο κοντά είναι το επίπεδο του συντελεστή συσχέτισης στο 1 ή (-1), τόσο μεγαλύτερη, αντίστοιχα, τόσο πιο κοντά είναι η άμεση ή η ανάδραση που μετράται από αυτόν. Με συντελεστή συσχέτισης ίσο με 1 ή (-1), η σύνδεση είναι πλήρης, λειτουργική.

Σχέδιο για την εκτίμηση της ισχύος της συσχέτισης με τον συντελεστή συσχέτισης

Ισχύς σύνδεσης

Η τιμή του συντελεστή συσχέτισης, εάν υπάρχει

απευθείας σύνδεση (+)

ανατροφοδότηση (-)

Χωρίς σύνδεση

Η επικοινωνία είναι μικρή (αδύναμη)

από 0 έως +0,29

0 έως -0,29

Μέσος όρος επικοινωνίας (μέτρια)

+0,3 έως +0,69

-0,3 έως -0,69

Μεγάλη επικοινωνία (ισχυρή)

+0,7 έως +0,99

-0,7 έως -0,99

Η επικοινωνία ολοκληρώθηκε

(λειτουργικός)

Για τον υπολογισμό του συντελεστή συσχέτισης με τη μέθοδο των τετραγώνων, συντάσσεται ένας πίνακας 7 στηλών. Ας αναλύσουμε τη διαδικασία υπολογισμού χρησιμοποιώντας ένα παράδειγμα:

ΚΑΘΟΡΙΣΤΕ ΤΗΝ ΔΥΝΑΜΗ ΚΑΙ ΤΗ ΦΥΣΗ ΤΗΣ ΣΧΕΣΗΣ ΜΕΤΑΞΥ

Είναι ώρα-

ness

βρογχοκήλη

(V y )

ρε x= V ΧΜ Χ

ρε y= V yΜ y

ρε Χ ρε y

ρε Χ 2

ρε y 2

Σ -1345 ,0

Σ 13996 ,0

Σ 313 , 47

1. Προσδιορίστε τη μέση περιεκτικότητα σε ιώδιο στο νερό (σε mg / l).

χλστγρ / λίτρο

2. Προσδιορίστε τη μέση επίπτωση της βρογχοκήλης σε%.

3. Να προσδιορίσετε την απόκλιση κάθε V x από το M x, δηλ. d x .

201–138=63; 178–138=40 κ.λπ.

4. Ομοίως προσδιορίζουμε την απόκλιση κάθε V y από το M y, δηλ. ρε

0,2–3,8=-3,6; 0,6–38=-3,2 κ.λπ.

5. Καθορίζουμε τα γινόμενα των αποκλίσεων. Το προκύπτον προϊόν συνοψίζεται και λαμβάνεται.

6. Τετράγωνο d x και συνοψίζουμε τα αποτελέσματα, παίρνουμε.

7. Ομοίως, τετραγωνίζουμε το d y, συνοψίζουμε τα αποτελέσματα, παίρνουμε

8. Τέλος, αντικαθιστούμε όλα τα ποσά που ελήφθησαν στον τύπο:

Για την επίλυση του ζητήματος της αξιοπιστίας του συντελεστή συσχέτισης, προσδιορίζεται μέσο σφάλμασύμφωνα με τον τύπο:

(Αν ο αριθμός των παρατηρήσεων είναι μικρότερος από 30, τότε ο παρονομαστής είναι n-1).

Στο παράδειγμά μας

Η τιμή του συντελεστή συσχέτισης θεωρείται αξιόπιστη εάν είναι τουλάχιστον 3 φορές μεγαλύτερη από το μέσο σφάλμα του.

Στο παράδειγμά μας

Έτσι, ο συντελεστής συσχέτισης δεν είναι αξιόπιστος, γεγονός που καθιστά απαραίτητη την αύξηση του αριθμού των παρατηρήσεων.

Ο συντελεστής συσχέτισης μπορεί να προσδιοριστεί με έναν κάπως λιγότερο ακριβή, αλλά πολύ πιο εύκολο τρόπο, τη μέθοδο κατάταξης (Spearman).

Μέθοδος Spearman: P=1-(6∑d 2 /n-(n 2 -1))

δημιουργήστε δύο σειρές ζευγαρωμένων συγκριτικών χαρακτηριστικών, προσδιορίζοντας την πρώτη και τη δεύτερη σειρά, αντίστοιχα, x και y. Ταυτόχρονα, παρουσιάστε την πρώτη σειρά του χαρακτηριστικού σε φθίνουσα ή αύξουσα σειρά και τοποθετήστε τις αριθμητικές τιμές της δεύτερης σειράς απέναντι από τις τιμές της πρώτης σειράς στις οποίες αντιστοιχούν

η τιμή του χαρακτηριστικού σε κάθε μία από τις συγκρίσιμες σειρές θα πρέπει να αντικατασταθεί από έναν σειριακό αριθμό (κατάταξη). Οι τάξεις ή οι αριθμοί υποδεικνύουν τις θέσεις των δεικτών (τιμών) της πρώτης και της δεύτερης σειράς. Εν αριθμητικές τιμέςτου δεύτερου χαρακτηριστικού, οι τάξεις πρέπει να αντιστοιχιστούν με την ίδια σειρά που υιοθετήθηκε κατά τη διανομή τους στις τιμές του πρώτου χαρακτηριστικού. Με τις ίδιες τιμές του χαρακτηριστικού στη σειρά, οι βαθμίδες θα πρέπει να καθορίζονται ως ο μέσος αριθμός από το άθροισμα των τακτικών αριθμών αυτών των τιμών

προσδιορίστε τη διαφορά στις τάξεις μεταξύ x και y (d): d = x - y

τετράγωνο της διαφοράς κατάταξης που προκύπτει (d 2)

πάρτε το άθροισμα των τετραγώνων της διαφοράς (Σ d 2) και αντικαταστήστε τις λαμβανόμενες τιμές στον τύπο:

Παράδειγμα:χρησιμοποιώντας τη μέθοδο κατάταξης για τον καθορισμό της κατεύθυνσης και της ισχύος της σχέσης μεταξύ της διάρκειας υπηρεσίας σε χρόνια και της συχνότητας των τραυματισμών, εάν ληφθούν τα ακόλουθα δεδομένα:

Το σκεπτικό για την επιλογή της μεθόδου:για να λυθεί το πρόβλημα, μπορεί να επιλεγεί μόνο η μέθοδος συσχέτιση κατάταξης, επειδή η πρώτη σειρά του χαρακτηριστικού "εργασιακή εμπειρία σε χρόνια" έχει ανοιχτές επιλογές (εργασιακή εμπειρία έως 1 έτος και 7 ή περισσότερα χρόνια), που δεν επιτρέπει τη χρήση μιας πιο ακριβούς μεθόδου - της μεθόδου των τετραγώνων - για τη δημιουργία σχέσης μεταξύ των συγκρίθηκαν χαρακτηριστικά.

Λύση. Η σειρά των υπολογισμών περιγράφεται στο κείμενο, τα αποτελέσματα παρουσιάζονται στον Πίνακα. 2.

πίνακας 2

Εργασιακή εμπειρία σε χρόνια

Αριθμός τραυματισμών

Τακτικοί αριθμοί (βαθμοί)

Διαφορά κατάταξης

διαφορά κατάταξης στο τετράγωνο

d(x-y)

ρε 2

Κάθε μία από τις σειρές των ζευγαρωμένων σημείων συμβολίζεται με "x" και με "y" (στήλες 1-2).

Η τιμή καθενός από τα σημεία αντικαθίσταται από έναν αριθμό κατάταξης (σειριακό). Η σειρά κατανομής των βαθμών στη σειρά "x" έχει ως εξής: στην ελάχιστη τιμή του χαρακτηριστικού (εμπειρία έως 1 έτος) εκχωρείται ο αύξων αριθμός "1", οι επόμενες παραλλαγές της ίδιας σειράς του χαρακτηριστικού, αντίστοιχα , με αύξουσα σειρά του 2ου, 3ου, 4ου και 5ου σειριακού αριθμού - βαθμών (βλ. στήλη 3). Παρόμοια σειρά παρατηρείται κατά την κατανομή βαθμίδων στο δεύτερο χαρακτηριστικό "y" (στήλη 4). Σε εκείνες τις περιπτώσεις όπου υπάρχουν πολλές παραλλαγές του ίδιου μεγέθους (για παράδειγμα, στην τυπική εργασία, αυτοί είναι 12 και 12 τραυματισμοί ανά 100 εργαζόμενους με εμπειρία 3-4 ετών και 5-6 ετών), υποδεικνύεται ο σειριακός αριθμός με τον μέσο αριθμό από το άθροισμα των σειριακών αριθμών τους Αυτά τα δεδομένα για τον αριθμό των τραυματισμών (12 τραυματισμοί) στην κατάταξη θα πρέπει να καταλαμβάνουν τη 2η και την 3η θέση, άρα ο μέσος αριθμός τους είναι (2 + 3) / 2 = 2,5. ) θα πρέπει να διανέμει τους ίδιους αριθμούς κατάταξης - "2,5" (στήλη 4).

Προσδιορίστε τη διαφορά στις τάξεις d = (x - y) - (στήλη 5)

Τετραγωνισμός της διαφοράς στις τάξεις (d 2) και λήψη του αθροίσματος των τετραγώνων της διαφοράς στις τάξεις Σ d 2 (στήλη 6).

Υπολογίστε τον συντελεστή συσχέτισης κατάταξης χρησιμοποιώντας τον τύπο:

όπου n είναι ο αριθμός των ταιριασμένων ζευγών επιλογών στη σειρά "x" και τη σειρά "y"