Βιογραφίες Χαρακτηριστικά Ανάλυση

Μέθοδοι ανάλυσης παλινδρόμησης. Ανάλυση παλινδρόμησης - μια στατιστική μέθοδος για τη μελέτη της εξάρτησης μιας τυχαίας μεταβλητής από μεταβλητές

Παρουσία συσχέτισης μεταξύ παράγοντα και προκύπτοντων σημείων, οι γιατροί συχνά πρέπει να προσδιορίσουν κατά πόσο μπορεί να αλλάξει η τιμή ενός σημείου όταν ένα άλλο αλλάζει από μια μονάδα μέτρησης που είναι γενικά αποδεκτή ή καθορίζεται από τον ίδιο τον ερευνητή.

Για παράδειγμα, πώς θα αλλάξει το σωματικό βάρος των μαθητών της Α' τάξης (κορίτσια ή αγόρια) εάν το ύψος τους αυξηθεί κατά 1 εκ. Για το σκοπό αυτό χρησιμοποιείται η μέθοδος ανάλυσης παλινδρόμησης.

Τις περισσότερες φορές, η μέθοδος ανάλυσης παλινδρόμησης χρησιμοποιείται για την ανάπτυξη κανονιστικών κλιμάκων και προτύπων για τη φυσική ανάπτυξη.

  1. Ορισμός παλινδρόμησης. Η παλινδρόμηση είναι μια συνάρτηση που επιτρέπει, με βάση τη μέση τιμή ενός χαρακτηριστικού, να προσδιορίσει τη μέση τιμή ενός άλλου χαρακτηριστικού που συσχετίζεται με το πρώτο.

    Για το σκοπό αυτό, χρησιμοποιείται ο συντελεστής παλινδρόμησης και μια σειρά από άλλες παραμέτρους. Για παράδειγμα, μπορείτε να υπολογίσετε τον αριθμό των κρυολογημάτων κατά μέσο όρο σε ορισμένες τιμές της μέσης μηνιαίας θερμοκρασίας του αέρα την περίοδο φθινοπώρου-χειμώνα.

  2. Ορισμός του συντελεστή παλινδρόμησης. Ο συντελεστής παλινδρόμησης είναι η απόλυτη τιμή κατά την οποία η τιμή ενός χαρακτηριστικού αλλάζει κατά μέσο όρο όταν ένα άλλο χαρακτηριστικό που σχετίζεται με αυτό αλλάζει κατά την καθορισμένη μονάδα μέτρησης.
  3. Τύπος συντελεστή παλινδρόμησης. R y / x \u003d r xy x (σ y / σ x)
    όπου R y / x - συντελεστής παλινδρόμησης.
    r xy - συντελεστής συσχέτισης μεταξύ των χαρακτηριστικών x και y.
    (σ y και σ x) - τυπικές αποκλίσεις των χαρακτηριστικών x και y.

    Στο παράδειγμά μας.
    σ x = 4,6 (τυπική απόκλιση της θερμοκρασίας του αέρα την περίοδο φθινοπώρου-χειμώνα.
    σ y = 8,65 (τυπική απόκλιση του αριθμού των λοιμωδών κρυολογημάτων).
    Έτσι, το R y/x είναι ο συντελεστής παλινδρόμησης.
    R y / x \u003d -0,96 x (4,6 / 8,65) \u003d 1,8, π.χ. με μείωση της μέσης μηνιαίας θερμοκρασίας αέρα (x) κατά 1 βαθμό, ο μέσος αριθμός μολυσματικών κρυολογημάτων (y) την περίοδο φθινοπώρου-χειμώνα θα αλλάξει κατά 1,8 περιπτώσεις.

  4. Εξίσωση παλινδρόμησης. y \u003d M y + R y / x (x - M x)
    όπου y είναι η μέση τιμή του χαρακτηριστικού, η οποία πρέπει να προσδιορίζεται όταν αλλάζει η μέση τιμή ενός άλλου χαρακτηριστικού (x).
    x - γνωστή μέση τιμή άλλου χαρακτηριστικού.
    R y/x - συντελεστής παλινδρόμησης;
    M x, M y - γνωστές μέσες τιμές των χαρακτηριστικών x και y.

    Για παράδειγμα, ο μέσος αριθμός μολυσματικών κρυολογημάτων (y) μπορεί να προσδιοριστεί χωρίς ειδικές μετρήσεις σε οποιαδήποτε μέση τιμή της μέσης μηνιαίας θερμοκρασίας αέρα (x). Έτσι, αν x \u003d - 9 °, R y / x \u003d 1,8 ασθένειες, M x \u003d -7 °, M y \u003d 20 ασθένειες, τότε y \u003d 20 + 1,8 x (9-7) \u003d 20 + 3 ,6 = 23,6 ασθένειες.
    Αυτή η εξίσωση εφαρμόζεται στην περίπτωση μιας ευθύγραμμης σχέσης μεταξύ δύο χαρακτηριστικών (x και y).

  5. Σκοπός της εξίσωσης παλινδρόμησης. Η εξίσωση παλινδρόμησης χρησιμοποιείται για να σχεδιάσει τη γραμμή παλινδρόμησης. Το τελευταίο επιτρέπει, χωρίς ειδικές μετρήσεις, να προσδιοριστεί οποιαδήποτε μέση τιμή (y) ενός χαρακτηριστικού, εάν αλλάξει η τιμή (x) ενός άλλου χαρακτηριστικού. Με βάση αυτά τα δεδομένα, δημιουργείται ένα γράφημα - γραμμή παλινδρόμησης, το οποίο μπορεί να χρησιμοποιηθεί για τον προσδιορισμό του μέσου αριθμού κρυολογημάτων σε οποιαδήποτε τιμή της μέσης μηνιαίας θερμοκρασίας εντός του εύρους μεταξύ των υπολογισμένων τιμών του αριθμού των κρυολογημάτων.
  6. Σίγμα παλινδρόμησης (τύπος).
    όπου σ Ru/x - σίγμα (τυπική απόκλιση) της παλινδρόμησης.
    σ y είναι η τυπική απόκλιση του χαρακτηριστικού y.
    r xy - συντελεστής συσχέτισης μεταξύ των χαρακτηριστικών x και y.

    Άρα, αν σ y είναι η τυπική απόκλιση του αριθμού των κρυολογημάτων = 8,65; r xy - ο συντελεστής συσχέτισης μεταξύ του αριθμού των κρυολογημάτων (y) και της μέσης μηνιαίας θερμοκρασίας του αέρα την περίοδο φθινοπώρου-χειμώνα (x) είναι - 0,96, τότε

  7. Σκοπός της παλινδρόμησης σίγμα. Δίνει ένα χαρακτηριστικό του μέτρου της ποικιλομορφίας του προκύπτοντος χαρακτηριστικού (y).

    Για παράδειγμα, χαρακτηρίζει την ποικιλομορφία του αριθμού των κρυολογημάτων σε μια ορισμένη τιμή της μέσης μηνιαίας θερμοκρασίας του αέρα την περίοδο φθινοπώρου-χειμώνα. Έτσι, ο μέσος αριθμός κρυολογημάτων σε θερμοκρασία αέρα x 1 \u003d -6 ° μπορεί να κυμαίνεται από 15,78 ασθένειες έως 20,62 ασθένειες.
    Σε x 2 = -9°, ο μέσος αριθμός κρυολογημάτων μπορεί να κυμαίνεται από 21,18 ασθένειες έως 26,02 ασθένειες κ.λπ.

    Το σίγμα παλινδρόμησης χρησιμοποιείται στην κατασκευή μιας κλίμακας παλινδρόμησης, η οποία αντανακλά την απόκλιση των τιμών του ενεργού χαρακτηριστικού από τη μέση τιμή του που απεικονίζεται στη γραμμή παλινδρόμησης.

  8. Δεδομένα που απαιτούνται για τον υπολογισμό και τη γραφική παράσταση της κλίμακας παλινδρόμησης
    • συντελεστής παλινδρόμησης - Ry/x;
    • εξίσωση παλινδρόμησης - y \u003d M y + R y / x (x-M x);
    • παλινδρόμηση σίγμα - σ Rx/y
  9. Η ακολουθία των υπολογισμών και η γραφική αναπαράσταση της κλίμακας παλινδρόμησης.
    • προσδιορίστε τον συντελεστή παλινδρόμησης με τον τύπο (βλ. παράγραφο 3). Για παράδειγμα, θα πρέπει να καθορίσει κανείς πόσο θα αλλάξει κατά μέσο όρο το σωματικό βάρος (σε μια συγκεκριμένη ηλικία ανάλογα με το φύλο) εάν το μέσο ύψος αλλάξει κατά 1 cm.
    • σύμφωνα με τον τύπο της εξίσωσης παλινδρόμησης (βλ. παράγραφο 4), προσδιορίστε ποιος θα είναι ο μέσος όρος, για παράδειγμα, το σωματικό βάρος (y, y 2, y 3 ...) * για μια ορισμένη τιμή ανάπτυξης (x, x 2, x 3 ...) .
      ________________
      * Η τιμή του "y" θα πρέπει να υπολογίζεται για τουλάχιστον τρεις γνωστές τιμές του "x".

      Ταυτόχρονα, είναι γνωστές οι μέσες τιμές σωματικού βάρους και ύψους (M x, και M y) για μια συγκεκριμένη ηλικία και φύλο.

    • υπολογίστε το σίγμα της παλινδρόμησης, γνωρίζοντας τις αντίστοιχες τιμές των σ y και r xy και αντικαθιστώντας τις τιμές τους στον τύπο (βλ. παράγραφο 6).
    • με βάση τις γνωστές τιμές x 1, x 2, x 3 και τις αντίστοιχες μέσες τιμές τους y 1, y 2 y 3, καθώς και τη μικρότερη (y - σ ru / x) και τη μεγαλύτερη (y + σ ru / x) οι τιμές (y) κατασκευάζουν μια κλίμακα παλινδρόμησης.

      Για μια γραφική αναπαράσταση της κλίμακας παλινδρόμησης, οι τιμές x, x 2, x 3 (άξονας y) σημειώνονται πρώτα στο γράφημα, δηλ. δημιουργείται μια γραμμή παλινδρόμησης, για παράδειγμα, η εξάρτηση του σωματικού βάρους (y) από το ύψος (x).

      Στη συνέχεια, στα αντίστοιχα σημεία y 1 , y 2 , y 3 σημειώνονται οι αριθμητικές τιμές του σίγμα παλινδρόμησης, δηλ. στο γράφημα βρείτε τις μικρότερες και μεγαλύτερες τιμές των y 1 , y 2 , y 3 .

  10. Πρακτική χρήση της κλίμακας παλινδρόμησης. Αναπτύσσονται κανονιστικές κλίμακες και πρότυπα, ιδίως για τη φυσική ανάπτυξη. Σύμφωνα με την τυπική κλίμακα, είναι δυνατό να δοθεί μια ατομική αξιολόγηση της ανάπτυξης των παιδιών. Ταυτόχρονα, η σωματική ανάπτυξη αξιολογείται ως αρμονική εάν, για παράδειγμα, σε ένα ορισμένο ύψος, το σωματικό βάρος του παιδιού είναι εντός ενός σίγμα παλινδρόμησης στη μέση υπολογισμένη μονάδα βάρους σώματος - (y) για ένα δεδομένο ύψος (x) ( y ± 1 σ Ry / x).

    Η σωματική ανάπτυξη θεωρείται δυσαρμονική ως προς το σωματικό βάρος εάν το σωματικό βάρος του παιδιού για ένα ορισμένο ύψος βρίσκεται εντός του δεύτερου σίγμα παλινδρόμησης: (y ± 2 σ Ry/x)

    Η φυσική ανάπτυξη θα είναι έντονα δυσαρμονική τόσο λόγω υπερβολικού όσο και ανεπαρκούς σωματικού βάρους εάν το σωματικό βάρος για ένα ορισμένο ύψος είναι εντός του τρίτου σίγμα της παλινδρόμησης (y ± 3 σ Ry/x).

Σύμφωνα με τα αποτελέσματα μιας στατιστικής μελέτης της σωματικής ανάπτυξης αγοριών 5 ετών, είναι γνωστό ότι το μέσο ύψος τους (x) είναι 109 cm και το μέσο σωματικό τους βάρος (y) είναι 19 κιλά. Ο συντελεστής συσχέτισης μεταξύ ύψους και σωματικού βάρους είναι +0,9, οι τυπικές αποκλίσεις παρουσιάζονται στον πίνακα.

Απαιτείται:

  • Υπολογίστε τον συντελεστή παλινδρόμησης.
  • χρησιμοποιώντας την εξίσωση παλινδρόμησης, προσδιορίστε ποιο θα είναι το αναμενόμενο σωματικό βάρος των αγοριών 5 ετών με ύψος ίσο με x1 = 100 cm, x2 = 110 cm, x3 = 120 cm.
  • Υπολογίστε το σίγμα της παλινδρόμησης, δημιουργήστε μια κλίμακα παλινδρόμησης, παρουσιάστε τα αποτελέσματα της επίλυσής της γραφικά.
  • βγάλει τα κατάλληλα συμπεράσματα.

Η κατάσταση του προβλήματος και τα αποτελέσματα της επίλυσής του παρουσιάζονται στον συνοπτικό πίνακα.

Τραπέζι 1

Συνθήκες του προβλήματος Αποτελέσματα επίλυσης προβλημάτων
εξίσωση παλινδρόμησης παλινδρόμηση σίγμα κλίμακα παλινδρόμησης (αναμενόμενο σωματικό βάρος (σε kg))
Μ σ r xy R y/x Χ Στο σRx/y y - σ Rу/х y + σ Rу/х
1 2 3 4 5 6 7 8 9 10
Ύψος (x) 109 εκ ± 4,4 εκ +0,9 0,16 100 εκ 17,56 κιλά ± 0,35 kg 17,21 κιλά 17,91 κιλά
Σωματικό βάρος (y) 19 κιλά ± 0,8 kg 110 εκ 19,16 κιλά 18,81 κιλά 19,51 κιλά
120 cm 20,76 κιλά 20,41 κιλά 21,11 κιλά

Λύση.

Συμπέρασμα.Έτσι, η κλίμακα παλινδρόμησης εντός των υπολογισμένων τιμών του σωματικού βάρους σας επιτρέπει να την προσδιορίσετε για οποιαδήποτε άλλη τιμή ανάπτυξης ή να αξιολογήσετε την ατομική ανάπτυξη του παιδιού. Για να το κάνετε αυτό, επαναφέρετε την κάθετη στη γραμμή παλινδρόμησης.

  1. Vlasov V.V. Επιδημιολογία. - Μ.: GEOTAR-MED, 2004. - 464 σελ.
  2. Lisitsyn Yu.P. Δημόσια υγεία και υγειονομική περίθαλψη. Το εγχειρίδιο για τα λύκεια. - Μ.: GEOTAR-MED, 2007. - 512 σελ.
  3. Medik V.A., Yuriev V.K. Μάθημα διαλέξεων για τη δημόσια υγεία και την υγειονομική περίθαλψη: Μέρος 1. Δημόσια υγεία. - Μ.: Ιατρική, 2003. - 368 σελ.
  4. Minyaev V.A., Vishnyakov N.I. και άλλα.Οργάνωση κοινωνικής ιατρικής και υγειονομικής περίθαλψης (Οδηγός σε 2 τόμους). - Αγία Πετρούπολη, 1998. -528 σελ.
  5. Kucherenko V.Z., Agarkov N.M. και άλλοι Κοινωνική υγιεινή και οργάνωση της υγειονομικής περίθαλψης (Φροντιστήριο) - Μόσχα, 2000. - 432 σελ.
  6. S. Glantz. Ιατροβιολογικές στατιστικές. Per από τα αγγλικά. - M., Practice, 1998. - 459 p.

Α) Γραφική ανάλυση απλής γραμμικής παλινδρόμησης.

Απλή γραμμική εξίσωση παλινδρόμησης y=a+bx. Εάν υπάρχει συσχέτιση μεταξύ των τυχαίων μεταβλητών Y και X, τότε η τιμή y = ý + ,

όπου ý είναι η θεωρητική τιμή του y που προκύπτει από την εξίσωση ý = f(x),

 είναι το σφάλμα απόκλισης της θεωρητικής εξίσωσης ý από τα πραγματικά (πειραματικά) δεδομένα.

Η εξίσωση για την εξάρτηση της μέσης τιμής του ý από το x, δηλαδή ý = f (x) ονομάζεται εξίσωση παλινδρόμησης. Η ανάλυση παλινδρόμησης αποτελείται από τέσσερα βήματα:

1) ορισμός της εργασίας και καθορισμός των λόγων της σύνδεσης.

2) περιορισμός του αντικειμένου έρευνας, συλλογή στατιστικών πληροφοριών.

3) επιλογή της εξίσωσης σύνδεσης με βάση την ανάλυση και τη φύση των συλλεγόμενων δεδομένων.

4) υπολογισμός αριθμητικών τιμών, χαρακτηριστικά συσχέτισης.

Εάν δύο μεταβλητές συσχετίζονται με τέτοιο τρόπο ώστε μια αλλαγή σε μια μεταβλητή αντιστοιχεί σε συστηματική αλλαγή στην άλλη μεταβλητή, τότε η ανάλυση παλινδρόμησης χρησιμοποιείται για την εκτίμηση και την επιλογή της εξίσωσης σχέσης μεταξύ τους, εάν αυτές οι μεταβλητές είναι γνωστές. Σε αντίθεση με την ανάλυση παλινδρόμησης, η ανάλυση συσχέτισης χρησιμοποιείται για την ανάλυση της στενότητας της σχέσης μεταξύ X και Y.

Εξετάστε το ενδεχόμενο να βρείτε μια ευθεία γραμμή στην ανάλυση παλινδρόμησης:

Θεωρητική εξίσωση παλινδρόμησης.

Ο όρος «απλή παλινδρόμηση» υποδηλώνει ότι το μέγεθος μιας μεταβλητής εκτιμάται με βάση τη γνώση μιας άλλης μεταβλητής. Σε αντίθεση με την απλή πολυμεταβλητή παλινδρόμηση, χρησιμοποιείται για την εκτίμηση μιας μεταβλητής με βάση τη γνώση δύο, τριών ή περισσότερων μεταβλητών. Εξετάστε μια γραφική ανάλυση μιας απλής γραμμικής παλινδρόμησης.

Ας υποθέσουμε ότι έχουμε τα αποτελέσματα των τεστ προσυμπτωματικού ελέγχου προ της απασχόλησης και παραγωγικότητας της εργασίας.

Αποτελέσματα επιλογής (100 βαθμοί), x

Απόδοση (20 βαθμοί), y

Βάζοντας τα σημεία στο γράφημα, παίρνουμε ένα διάγραμμα σκέδασης (πεδίο). Το χρησιμοποιούμε για να αναλύσουμε τα αποτελέσματα των δοκιμών επιλογής και την παραγωγικότητα της εργασίας.

Ας αναλύσουμε τη γραμμή παλινδρόμησης χρησιμοποιώντας το διάγραμμα διασποράς. Στην ανάλυση παλινδρόμησης, καθορίζονται πάντα τουλάχιστον δύο μεταβλητές. Μια συστηματική αλλαγή σε μια μεταβλητή συνδέεται με μια αλλαγή σε μια άλλη. Πρωταρχικός στόχος ανάλυση παλινδρόμησηςείναι η εκτίμηση της τιμής μιας μεταβλητής εάν η τιμή της άλλης μεταβλητής είναι γνωστή. Για μια ολοκληρωμένη εργασία, η αξιολόγηση της παραγωγικότητας της εργασίας είναι σημαντική.

Ανεξάρτητη μεταβλητήστην ανάλυση παλινδρόμησης, μια ποσότητα χρησιμοποιείται ως βάση για την ανάλυση μιας άλλης μεταβλητής. Σε αυτή την περίπτωση, αυτά είναι τα αποτελέσματα των δοκιμών επιλογής (κατά μήκος του άξονα Χ).

εξαρτημένη μεταβλητήονομάζεται εκτιμώμενη τιμή (κατά μήκος του άξονα Υ). Σε μια ανάλυση παλινδρόμησης, μπορεί να υπάρχει μόνο μία εξαρτημένη μεταβλητή και πολλές ανεξάρτητες μεταβλητές.

Για μια απλή ανάλυση παλινδρόμησης, η εξάρτηση μπορεί να αναπαρασταθεί σε ένα σύστημα δύο συντεταγμένων (x και y), κατά μήκος του άξονα x - μια ανεξάρτητη μεταβλητή, κατά μήκος του άξονα y - εξαρτάται. Σχεδιάζουμε τα σημεία τομής με τέτοιο τρόπο ώστε να παρουσιάζεται ένα ζεύγος μεγεθών στο γράφημα. Το γράφημα ονομάζεται διάγραμμα διασποράς. Η κατασκευή του είναι το δεύτερο στάδιο της ανάλυσης παλινδρόμησης, αφού το πρώτο είναι η επιλογή των αναλυόμενων τιμών και η συλλογή δειγματοληπτικών δεδομένων. Έτσι, η ανάλυση παλινδρόμησης εφαρμόζεται για στατιστική ανάλυση. Η σχέση μεταξύ των δειγματοληπτικών δεδομένων του γραφήματος είναι γραμμική.

Για να εκτιμηθεί η τιμή της μεταβλητής y με βάση τη μεταβλητή x, είναι απαραίτητο να προσδιοριστεί η θέση της γραμμής που αντιπροσωπεύει καλύτερα τη σχέση μεταξύ x και y με βάση τη θέση των σημείων διασποράς. Στο παράδειγμά μας, αυτή είναι η ανάλυση απόδοσης. Η γραμμή που χαράσσεται μέσα από τα σημεία διασποράς - γραμμή παλινδρόμησης. Ένας τρόπος για να δημιουργήσετε μια γραμμή παλινδρόμησης με βάση την οπτική εμπειρία είναι η μέθοδος ελεύθερου χεριού. Η γραμμή παλινδρόμησής μας μπορεί να χρησιμοποιηθεί για τον προσδιορισμό της παραγωγικότητας της εργασίας. Κατά την εύρεση της εξίσωσης της γραμμής παλινδρόμησης

Συχνά χρησιμοποιείται η δοκιμή ελαχίστων τετραγώνων. Η πιο κατάλληλη γραμμή είναι αυτή όπου το άθροισμα των τετραγωνικών αποκλίσεων είναι ελάχιστο.

Η μαθηματική εξίσωση της γραμμής ανάπτυξης αντιπροσωπεύει τον νόμο της αύξησης στην αριθμητική πρόοδο:

στο = ένασιΧ.

Υ = ένα + σιΧ– η ανηγμένη εξίσωση με μία παράμετρο είναι η απλούστερη μορφή της εξίσωσης περιορισμού. Είναι αποδεκτό για μέσες τιμές. Για να εκφράσουμε καλύτερα τη σχέση μεταξύ Χκαι στο, εισάγεται πρόσθετος συντελεστής αναλογικότητας σι, που δείχνει την κλίση της γραμμής παλινδρόμησης.

Β) Κατασκευή θεωρητικής γραμμής παλινδρόμησης.

Η διαδικασία εύρεσης της συνίσταται στην επιλογή και αιτιολόγηση του τύπου της καμπύλης και στον υπολογισμό των παραμέτρων ένα, σι, Μεκαι τα λοιπά. Η διαδικασία κατασκευής ονομάζεται ισοπέδωση, και το απόθεμα των καμπυλών που προσφέρει το χαλάκι. ανάλυση, ποικίλη. Τις περισσότερες φορές, σε οικονομικά προβλήματα, χρησιμοποιείται μια οικογένεια καμπυλών, εξισώσεις που εκφράζονται με πολυώνυμα ακέραιων θετικών βαθμών.

1)
- εξίσωση ευθείας γραμμής,

2)
είναι η εξίσωση της υπερβολής,

3)
είναι η εξίσωση της παραβολής,

όπου ý είναι οι τεταγμένες της θεωρητικής γραμμής παλινδρόμησης.

Έχοντας επιλέξει τον τύπο της εξίσωσης, είναι απαραίτητο να βρούμε τις παραμέτρους από τις οποίες εξαρτάται αυτή η εξίσωση. Για παράδειγμα, η φύση της θέσης των σημείων στο πεδίο διασποράς έδειξε ότι η θεωρητική γραμμή παλινδρόμησης είναι ευθεία.

Το διάγραμμα διασποράς σας επιτρέπει να αναπαραστήσετε την παραγωγικότητα της εργασίας χρησιμοποιώντας ανάλυση παλινδρόμησης. Στα οικονομικά, η ανάλυση παλινδρόμησης προβλέπει πολλά χαρακτηριστικά που επηρεάζουν το τελικό προϊόν (λαμβάνοντας υπόψη την τιμολόγηση).

Γ) Το κριτήριο των μικρότερων πλαισίων για την εύρεση ευθείας.

Ένα από τα κριτήρια που θα μπορούσαμε να εφαρμόσουμε για μια κατάλληλη γραμμή παλινδρόμησης σε ένα διάγραμμα διασποράς βασίζεται στην επιλογή μιας γραμμής για την οποία το άθροισμα των τετραγωνικών σφαλμάτων θα είναι ελάχιστο.

Η εγγύτητα των σημείων σκέδασης στην ευθεία μετράται από τις τεταγμένες των τμημάτων. Οι αποκλίσεις αυτών των σημείων μπορεί να είναι θετικές ή αρνητικές, αλλά το άθροισμα των τετραγωνικών αποκλίσεων της θεωρητικής γραμμής από την πειραματική γραμμή είναι πάντα θετικό και θα πρέπει να είναι ελάχιστο. Το γεγονός ότι όλα τα σημεία διασποράς δεν συμπίπτουν με τη θέση της γραμμής παλινδρόμησης υποδηλώνει την ύπαρξη ασυμφωνίας μεταξύ των πειραματικών και των θεωρητικών δεδομένων. Έτσι, μπορεί να ειπωθεί ότι καμία άλλη γραμμή παλινδρόμησης, εκτός από αυτή που βρέθηκε, δεν μπορεί να δώσει μικρότερο άθροισμα αποκλίσεων μεταξύ πειραματικών και πειραματικών δεδομένων. Επομένως, έχοντας βρει τη θεωρητική εξίσωση ý και τη γραμμή παλινδρόμησης, ικανοποιούμε την απαίτηση ελαχίστων τετραγώνων.

Αυτό γίνεται χρησιμοποιώντας την εξίσωση περιορισμού
, χρησιμοποιώντας τύπους για την εύρεση παραμέτρων ένακαι σι. Λαμβάνοντας τη θεωρητική αξία
και δηλώνοντας την αριστερή πλευρά της εξίσωσης μέσω φά, παίρνουμε τη συνάρτηση
από άγνωστες παραμέτρους ένακαι σι. Αξίες ένακαι σιθα ικανοποιήσει το ελάχιστο της συνάρτησης φάκαι βρίσκονται από τις μερικές διαφορικές εξισώσεις
και
. το απαραίτητη προϋπόθεση, ωστόσο, για θετική τετραγωνική συνάρτηση, είναι και αυτή επαρκής συνθήκη για εύρεση ένακαι σι.

Ας αντλήσουμε από τις εξισώσεις των μερικών παραγώγων τους τύπους για τις παραμέτρους ένακαι σι:



παίρνουμε ένα σύστημα εξισώσεων:

όπου
– λάθη αριθμητικού μέσου όρου.

Αντικαθιστώντας αριθμητικές τιμές, βρίσκουμε τις παραμέτρους ένακαι σι.

Υπάρχει μια έννοια
. Αυτός είναι ο παράγοντας προσέγγισης.

Αν ένα μι < 33%, то модель приемлема для дальнейшего анализа;

Αν ένα μι> 33%, τότε παίρνουμε μια υπερβολή, μια παραβολή κ.λπ. Αυτό δίνει το δικαίωμα ανάλυσης σε διάφορες καταστάσεις.

Συμπέρασμα: σύμφωνα με το κριτήριο του συντελεστή προσέγγισης, η καταλληλότερη γραμμή είναι αυτή για την οποία

, και καμία άλλη γραμμή παλινδρόμησης για το πρόβλημά μας δεν δίνει ελάχιστες αποκλίσεις.

Δ) Τετραγωνικό σφάλμα εκτίμησης, επαλήθευση της τυπικότητάς τους.

Για πληθυσμό με λιγότερες από 30 παραμέτρους μελέτης ( n < 30), для проверки типичности параметров уравнения регрессии используется t-Κριτήριο μαθητή. Αυτό υπολογίζει την πραγματική τιμή t-κριτήρια:

Από εδώ

όπου είναι το υπολειπόμενο μέσο τετραγωνικό σφάλμα ρίζας. Ελήφθη t ένακαι t σισε σύγκριση με την κριτική t καπό τον πίνακα του Μαθητή, λαμβάνοντας υπόψη το αποδεκτό επίπεδο σημαντικότητας ( = 0,01 = 99% ή  = 0,05 = 95%). Π = φά = κ 1 = Μείναι ο αριθμός των παραμέτρων της υπό μελέτη εξίσωσης (βαθμός ελευθερίας). Για παράδειγμα, εάν y = ένα + bx; Μ = 2, κ 2 = φά 2 = Π 2 = n – (Μ+ 1), όπου n- τον αριθμό των μελετημένων χαρακτηριστικών.

t ένα < t κ < t σι .

συμπέρασμα: σύμφωνα με τις παραμέτρους της εξίσωσης παλινδρόμησης που ελέγχονται για τυπικότητα, κατασκευάζεται ένα μαθηματικό μοντέλο της σύνδεσης
. Στην περίπτωση αυτή, οι παράμετροι της μαθηματικής συνάρτησης που χρησιμοποιούνται στην ανάλυση (γραμμική, υπερβολή, παραβολή) λαμβάνουν τις αντίστοιχες ποσοτικές τιμές. Το σημασιολογικό περιεχόμενο των μοντέλων που λαμβάνονται με αυτόν τον τρόπο είναι ότι χαρακτηρίζουν τη μέση τιμή του αποτελεσματικού χαρακτηριστικού
από ένα χαρακτηριστικό παράγοντα Χ.

Ε) Καμπυλόγραμμη παλινδρόμηση.

Αρκετά συχνά υπάρχει μια καμπυλόγραμμη σχέση, όταν δημιουργείται μια μεταβαλλόμενη σχέση μεταξύ των μεταβλητών. Η ένταση της αύξησης (μείωσης) εξαρτάται από το επίπεδο εύρεσης του Χ. Η καμπυλόγραμμη εξάρτηση μπορεί να είναι διαφόρων τύπων. Για παράδειγμα, εξετάστε τη σχέση μεταξύ απόδοσης και βροχοπτώσεων. Με αύξηση της βροχόπτωσης υπό ίσες φυσικές συνθήκες, εντατική αύξηση της απόδοσης, αλλά μέχρι ένα ορισμένο όριο. Μετά το κρίσιμο σημείο, οι βροχοπτώσεις είναι περιττές, και η απόδοση πέφτει καταστροφικά. Το παράδειγμα δείχνει ότι στην αρχή η σχέση ήταν θετική και μετά αρνητική. Κρίσιμο σημείο - το βέλτιστο επίπεδο του χαρακτηριστικού X, το οποίο αντιστοιχεί στη μέγιστη ή ελάχιστη τιμή του χαρακτηριστικού Υ.

Στα οικονομικά, μια τέτοια σχέση παρατηρείται μεταξύ τιμής και κατανάλωσης, παραγωγικότητας και διάρκειας υπηρεσίας.

παραβολική εξάρτηση.

Εάν τα δεδομένα δείχνουν ότι μια αύξηση στο χαρακτηριστικό παράγοντα οδηγεί σε αύξηση του προκύπτοντος χαρακτηριστικού, τότε η εξίσωση δεύτερης τάξης (παραβολή) λαμβάνεται ως εξίσωση παλινδρόμησης.

. Οι συντελεστές a,b,c βρίσκονται από τις μερικές διαφορικές εξισώσεις:

Παίρνουμε ένα σύστημα εξισώσεων:

Τύποι καμπυλόγραμμων εξισώσεων:

,

,

Είναι λογικό να υποθέσουμε ότι υπάρχει μια καμπυλόγραμμη σχέση μεταξύ της παραγωγικότητας της εργασίας και των βαθμολογιών του τεστ επιλογής. Αυτό σημαίνει ότι με την ανάπτυξη του συστήματος βαθμολόγησης, η απόδοση θα αρχίσει να μειώνεται σε κάποιο επίπεδο, επομένως το άμεσο μοντέλο μπορεί να αποδειχθεί καμπυλόγραμμο.

Το τρίτο μοντέλο θα είναι μια υπερβολή και σε όλες τις εξισώσεις, αντί για τη μεταβλητή x, θα υπάρχει μια έκφραση.

Στις προηγούμενες σημειώσεις, η εστίαση ήταν συχνά σε μια μεμονωμένη αριθμητική μεταβλητή, όπως οι επιστροφές αμοιβαίων κεφαλαίων, ο χρόνος φόρτωσης ιστοσελίδας ή η κατανάλωση αναψυκτικών. Σε αυτήν και στις επόμενες σημειώσεις, θα εξετάσουμε μεθόδους για την πρόβλεψη των τιμών μιας αριθμητικής μεταβλητής ανάλογα με τις τιμές μιας ή περισσότερων άλλων αριθμητικών μεταβλητών.

Το υλικό θα επεξηγηθεί με ένα διαμπερές παράδειγμα. Πρόβλεψη όγκου πωλήσεων σε κατάστημα ρούχων.Η αλυσίδα καταστημάτων εκπτωτικών ρούχων Sunflowers επεκτείνεται συνεχώς εδώ και 25 χρόνια. Ωστόσο, η εταιρεία δεν έχει επί του παρόντος συστηματική προσέγγιση για την επιλογή νέων καταστημάτων. Η τοποθεσία όπου η εταιρεία σκοπεύει να ανοίξει ένα νέο κατάστημα καθορίζεται με βάση υποκειμενικούς λόγους. Τα κριτήρια επιλογής είναι οι ευνοϊκές συνθήκες ενοικίασης ή η ιδέα του διευθυντή για την ιδανική τοποθεσία του καταστήματος. Φανταστείτε ότι είστε επικεφαλής του Τμήματος Ειδικών Έργων και Προγραμματισμού. Σας έχει ανατεθεί να αναπτύξετε ένα στρατηγικό σχέδιο για το άνοιγμα νέων καταστημάτων. Αυτό το σχέδιο θα πρέπει να περιέχει μια πρόβλεψη ετήσιων πωλήσεων σε καταστήματα που άνοιξαν πρόσφατα. Πιστεύετε ότι η πώληση χώρου σχετίζεται άμεσα με τα έσοδα και θέλετε να συνυπολογίσετε αυτό το γεγονός στη διαδικασία λήψης αποφάσεων. Πώς αναπτύσσετε ένα στατιστικό μοντέλο που προβλέπει ετήσιες πωλήσεις με βάση το νέο μέγεθος καταστήματος;

Συνήθως, η ανάλυση παλινδρόμησης χρησιμοποιείται για την πρόβλεψη των τιμών μιας μεταβλητής. Στόχος του είναι να αναπτύξει ένα στατιστικό μοντέλο που προβλέπει τις τιμές της εξαρτημένης μεταβλητής ή της απόκρισης, από τις τιμές μιας τουλάχιστον ανεξάρτητης ή επεξηγηματικής μεταβλητής. Σε αυτή τη σημείωση, θα εξετάσουμε μια απλή γραμμική παλινδρόμηση - μια στατιστική μέθοδο που σας επιτρέπει να προβλέψετε τις τιμές της εξαρτημένης μεταβλητής Υαπό τις τιμές της ανεξάρτητης μεταβλητής Χ. Οι ακόλουθες σημειώσεις θα περιγράψουν ένα μοντέλο πολλαπλής παλινδρόμησης που έχει σχεδιαστεί για να προβλέπει τις τιμές της ανεξάρτητης μεταβλητής Υαπό τις τιμές πολλών εξαρτημένων μεταβλητών ( X 1 , X 2 , …, X k).

Λήψη σημείωσης σε ή μορφή, παραδείγματα σε μορφή

Τύποι μοντέλων παλινδρόμησης

όπου ρ 1 είναι ο συντελεστής αυτοσυσχέτισης. αν ρ 1 = 0 (χωρίς αυτοσυσχέτιση), ρε≈ 2; αν ρ 1 ≈ 1 (θετική αυτοσυσχέτιση), ρε≈ 0; αν ρ 1 = -1 (αρνητική αυτοσυσχέτιση), ρε ≈ 4.

Στην πράξη, η εφαρμογή του κριτηρίου Durbin-Watson βασίζεται σε σύγκριση της τιμής ρεμε κρίσιμες θεωρητικές αξίες δ Λκαι δ Uγια δεδομένο αριθμό παρατηρήσεων n, τον αριθμό των ανεξάρτητων μεταβλητών του μοντέλου κ(για απλή γραμμική παλινδρόμηση κ= 1) και επίπεδο σημαντικότητας α. Αν ένα ρε< d L , η υπόθεση της ανεξαρτησίας των τυχαίων αποκλίσεων απορρίπτεται (επομένως, υπάρχει θετική αυτοσυσχέτιση). αν D > d U, η υπόθεση δεν απορρίπτεται (δηλαδή δεν υπάρχει αυτοσυσχέτιση). αν δ Λ< D < d U δεν υπάρχει αρκετός λόγος για να πάρεις μια απόφαση. Όταν η υπολογιζόμενη τιμή ρευπερβαίνει το 2, λοιπόν δ Λκαι δ Uδεν είναι ο ίδιος ο συντελεστής που συγκρίνεται ρεκαι η έκφραση (4 – ρε).

Για να υπολογίσουμε τα στατιστικά στοιχεία Durbin-Watson στο Excel, στραφούμε στον κάτω πίνακα στο Σχ. δεκατέσσερα Ανάληψη υπολοίπου. Ο αριθμητής στην παράσταση (10) υπολογίζεται χρησιμοποιώντας τη συνάρτηση = SUMMQDIFF(πίνακας1, πίνακας2) και τον παρονομαστή = SUMMQ(πίνακας) (Εικ. 16).

Ρύζι. 16. Τύποι υπολογισμού στατιστικών Durbin-Watson

Στο παράδειγμά μας ρε= 0,883. Το κύριο ερώτημα είναι: ποια τιμή της στατιστικής Durbin-Watson πρέπει να θεωρηθεί αρκετά μικρή ώστε να συμπεράνουμε ότι υπάρχει θετική αυτοσυσχέτιση; Είναι απαραίτητο να συσχετιστεί η τιμή του D με τις κρίσιμες τιμές ( δ Λκαι δ U) ανάλογα με τον αριθμό των παρατηρήσεων nκαι επίπεδο σημαντικότητας α (Εικ. 17).

Ρύζι. 17. Κρίσιμες τιμές στατιστικών Durbin-Watson (τεμάχιο πίνακα)

Έτσι, στο πρόβλημα του όγκου των πωλήσεων σε ένα κατάστημα που παραδίδει αγαθά στο σπίτι σας, υπάρχει μία ανεξάρτητη μεταβλητή ( κ= 1), 15 παρατηρήσεις ( n= 15) και επίπεδο σημαντικότητας α = 0,05. Συνεπώς, δ Λ= 1,08 και ρεU= 1,36. Επειδή η ρε = 0,883 < δ Λ= 1,08, υπάρχει θετική αυτοσυσχέτιση μεταξύ των υπολειμμάτων, δεν μπορεί να εφαρμοστεί η μέθοδος των ελαχίστων τετραγώνων.

Έλεγχος υποθέσεων σχετικά με την κλίση και τον συντελεστή συσχέτισης

Η παραπάνω παλινδρόμηση εφαρμόστηκε αποκλειστικά για πρόβλεψη. Για τον προσδιορισμό των συντελεστών παλινδρόμησης και την πρόβλεψη της τιμής μιας μεταβλητής Υγια μια δεδομένη τιμή μεταβλητής Χχρησιμοποιήθηκε η μέθοδος των ελαχίστων τετραγώνων. Επιπλέον, εξετάσαμε το τυπικό σφάλμα της εκτίμησης και τον συντελεστή μικτής συσχέτισης. Εάν η υπολειπόμενη ανάλυση επιβεβαιώσει ότι δεν παραβιάζονται οι συνθήκες εφαρμογής της μεθόδου των ελαχίστων τετραγώνων και ότι το μοντέλο απλής γραμμικής παλινδρόμησης είναι επαρκές, με βάση τα δεδομένα του δείγματος, μπορεί να υποστηριχθεί ότι υπάρχει γραμμική σχέση μεταξύ των μεταβλητών στον πληθυσμό.

Εφαρμογήt -κριτήρια για την κλίση.Ελέγχοντας εάν η κλίση του πληθυσμού β 1 είναι ίση με μηδέν, μπορεί κανείς να καθορίσει εάν υπάρχει στατιστικά σημαντική σχέση μεταξύ των μεταβλητών Χκαι Υ. Εάν αυτή η υπόθεση απορριφθεί, μπορεί να υποστηριχθεί ότι μεταξύ των μεταβλητών Χκαι Υυπάρχει μια γραμμική σχέση. Η μηδενική και η εναλλακτική υπόθεση διατυπώνονται ως εξής: H 0: β 1 = 0 (χωρίς γραμμική σχέση), H1: β 1 ≠ 0 (υπάρχει γραμμική σχέση). Εξ ορισμού t-το στατιστικό είναι ίσο με τη διαφορά μεταξύ της κλίσης του δείγματος και της υποθετικής κλίσης του πληθυσμού, διαιρούμενη με το τυπικό σφάλμα της εκτίμησης της κλίσης:

(11) t = (σι 1 β 1 ) / Sb 1

όπου σι 1 είναι η κλίση της άμεσης παλινδρόμησης με βάση τα δεδομένα του δείγματος, β1 είναι η υποθετική κλίση του άμεσου γενικού πληθυσμού, και στατιστικά δοκιμών tΕχει t- διανομή με n - 2βαθμοί ελευθερίας.

Ας ελέγξουμε αν υπάρχει στατιστικά σημαντική σχέση μεταξύ του μεγέθους του καταστήματος και των ετήσιων πωλήσεων στο α = 0,05. t-τα κριτήρια εμφανίζονται μαζί με άλλες παραμέτρους κατά τη χρήση Πακέτο ανάλυσης(επιλογή Οπισθοδρόμηση). Τα πλήρη αποτελέσματα του πακέτου ανάλυσης φαίνονται στην Εικ. 4, ένα θραύσμα που σχετίζεται με τη στατιστική t - στο σχ. δεκαοχτώ.

Ρύζι. 18. Αποτελέσματα αιτήσεων t

Επειδή ο αριθμός των καταστημάτων n= 14 (βλ. Εικ. 3), κρίσιμη τιμή t-τα στατιστικά σε επίπεδο σημαντικότητας α = 0,05 μπορούν να βρεθούν από τον τύπο: t L=STUDENT.INV(0,025;12) = -2,1788 όπου 0,025 είναι το μισό του επιπέδου σημαντικότητας και 12 = n – 2; t U\u003d STUDENT.INV (0,975, 12) \u003d +2,1788.

Επειδή η t-statistics = 10,64 > t U= 2,1788 (Εικ. 19), μηδενική υπόθεση H 0απορρίπτεται. Αφ 'ετέρου, R-τιμή για Χ\u003d 10,6411, που υπολογίζεται με τον τύπο \u003d 1-STUDENT.DIST (D3, 12, TRUE), είναι περίπου ίσο με μηδέν, επομένως η υπόθεση H 0απορρίπτεται ξανά. Το γεγονός οτι R-Η τιμή είναι σχεδόν μηδενική, πράγμα που σημαίνει ότι αν δεν υπήρχε πραγματική γραμμική σχέση μεταξύ του μεγέθους του καταστήματος και των ετήσιων πωλήσεων, θα ήταν σχεδόν αδύνατο να βρεθεί χρησιμοποιώντας γραμμική παλινδρόμηση. Επομένως, υπάρχει μια στατιστικά σημαντική γραμμική σχέση μεταξύ των μέσων ετήσιων πωλήσεων καταστήματος και του μεγέθους του καταστήματος.

Ρύζι. 19. Έλεγχος της υπόθεσης για την κλίση του γενικού πληθυσμού σε επίπεδο σημαντικότητας 0,05 και 12 βαθμών ελευθερίας

Εφαρμογήφά -κριτήρια για την κλίση.Μια εναλλακτική προσέγγιση για τον έλεγχο υποθέσεων σχετικά με την κλίση μιας απλής γραμμικής παλινδρόμησης είναι να χρησιμοποιηθεί φά-κριτήρια. Θυμηθείτε ότι φά-Το κριτήριο χρησιμοποιείται για τον έλεγχο της σχέσης μεταξύ δύο διακυμάνσεων (βλ. λεπτομέρειες). Κατά τον έλεγχο της υπόθεσης της κλίσης, το μέτρο των τυχαίων σφαλμάτων είναι η διακύμανση σφάλματος (το άθροισμα των τετραγωνικών σφαλμάτων διαιρούμενο με τον αριθμό των βαθμών ελευθερίας), άρα φά-Το τεστ χρησιμοποιεί τον λόγο της διακύμανσης που εξηγείται από την παλινδρόμηση (δηλαδή τις τιμές SSRδιαιρούμενο με τον αριθμό των ανεξάρτητων μεταβλητών κ), στη διακύμανση σφάλματος ( MSE=ΣΥΧ 2 ).

Εξ ορισμού φά-το στατιστικό είναι ίσο με τις μέσες τετραγωνικές αποκλίσεις λόγω παλινδρόμησης (MSR) διαιρεμένες με τη διακύμανση σφάλματος (MSE): φά = MSR/ MSE, όπου MSR=SSR / κ, MSE =SSE/(n– k – 1), kείναι ο αριθμός των ανεξάρτητων μεταβλητών στο μοντέλο παλινδρόμησης. Στατιστικά τεστ φάΕχει φά- διανομή με κκαι n– k – 1βαθμοί ελευθερίας.

Για ένα δεδομένο επίπεδο σημαντικότητας α, ο κανόνας απόφασης διατυπώνεται ως εξής: αν F > FU, η μηδενική υπόθεση απορρίπτεται. διαφορετικά, δεν απορρίπτεται. Τα αποτελέσματα, που παρουσιάζονται με τη μορφή συνοπτικού πίνακα της ανάλυσης διασποράς, φαίνονται στο σχήμα. είκοσι.

Ρύζι. 20. Πίνακας ανάλυσης διασποράς για τον έλεγχο της υπόθεσης της στατιστικής σημασίας του συντελεστή παλινδρόμησης

Ομοίως t-κριτήριο φά-τα κριτήρια εμφανίζονται στον πίνακα κατά τη χρήση Πακέτο ανάλυσης(επιλογή Οπισθοδρόμηση). Πλήρη αποτελέσματα της εργασίας Πακέτο ανάλυσηςφαίνεται στο σχ. 4, θραύσμα που σχετίζεται με φά- στατιστικά - στο σχ. 21.

Ρύζι. 21. Αποτελέσματα αιτήσεων φά- Κριτήρια που λαμβάνονται με χρήση του Excel Analysis ToolPack

Η στατιστική F είναι 113,23 και R-τιμή κοντά στο μηδέν (κελί Σημασίαφά). Εάν το επίπεδο σημαντικότητας α είναι 0,05, προσδιορίστε την κρίσιμη τιμή φά-κατανομές με έναν και 12 βαθμούς ελευθερίας μπορούν να ληφθούν από τον τύπο F U\u003d F. OBR (1-0,05; 1; 12) \u003d 4,7472 (Εικ. 22). Επειδή η φά = 113,23 > F U= 4,7472, και R-τιμή κοντά στο 0< 0,05, нулевая гипотеза H 0παρεκκλίνει, δηλ. Το μέγεθος ενός καταστήματος σχετίζεται στενά με τον ετήσιο όγκο πωλήσεών του.

Ρύζι. 22. Έλεγχος της υπόθεσης για την κλίση του γενικού πληθυσμού σε επίπεδο σημαντικότητας 0,05, με έναν και 12 βαθμούς ελευθερίας

Διάστημα εμπιστοσύνης που περιέχει κλίση β 1 .Για να ελέγξετε την υπόθεση της ύπαρξης γραμμικής σχέσης μεταξύ των μεταβλητών, μπορείτε να δημιουργήσετε ένα διάστημα εμπιστοσύνης που να περιέχει την κλίση β 1 και να βεβαιωθείτε ότι η υποθετική τιμή β 1 = 0 ανήκει σε αυτό το διάστημα. Το κέντρο του διαστήματος εμπιστοσύνης που περιέχει την κλίση β 1 είναι η κλίση του δείγματος σι 1 , και τα όριά του είναι οι ποσότητες b 1 ±t n –2 Sb 1

Όπως φαίνεται στο σχ. δεκαοχτώ, σι 1 = +1,670, n = 14, Sb 1 = 0,157. t 12 \u003d STUDENT.OBR (0,975, 12) \u003d 2,1788. Συνεπώς, b 1 ±t n –2 Sb 1 = +1,670 ± 2,1788 * 0,157 = +1,670 ± 0,342, ή + 1,328 ≤ β 1 ≤ +2,012. Έτσι, η κλίση του πληθυσμού με πιθανότητα 0,95 κυμαίνεται από +1.328 έως +2.012 (δηλαδή από 1.328.000 $ έως 2.012.000 $). Επειδή αυτές οι τιμές είναι μεγαλύτερες από το μηδέν, υπάρχει μια στατιστικά σημαντική γραμμική σχέση μεταξύ των ετήσιων πωλήσεων και της περιοχής καταστήματος. Εάν το διάστημα εμπιστοσύνης περιείχε μηδέν, δεν θα υπήρχε σχέση μεταξύ των μεταβλητών. Επιπλέον, το διάστημα εμπιστοσύνης σημαίνει ότι κάθε 1.000 τ. πόδια οδηγεί σε αύξηση των μέσων πωλήσεων από 1.328.000 $ έως 2.012.000 $.

Χρήσηt -κριτήρια για τον συντελεστή συσχέτισης.εισήχθη ο συντελεστής συσχέτισης r, το οποίο είναι ένα μέτρο της σχέσης μεταξύ δύο αριθμητικών μεταβλητών. Μπορεί να χρησιμοποιηθεί για να προσδιοριστεί εάν υπάρχει στατιστικά σημαντική σχέση μεταξύ δύο μεταβλητών. Ας υποδηλώσουμε τον συντελεστή συσχέτισης μεταξύ των πληθυσμών και των δύο μεταβλητών με το σύμβολο ρ. Οι μηδενικές και οι εναλλακτικές υποθέσεις διατυπώνονται ως εξής: H 0: ρ = 0 (χωρίς συσχέτιση), H 1: ρ ≠ 0 (υπάρχει συσχέτιση). Έλεγχος ύπαρξης συσχέτισης:

όπου r = + , αν σι 1 > 0, r = – , αν σι 1 < 0. Тестовая статистика tΕχει t- διανομή με n - 2βαθμοί ελευθερίας.

Στο πρόβλημα της αλυσίδας καταστημάτων Sunflowers r2= 0,904 και β 1- +1.670 (βλ. Εικ. 4). Επειδή η β 1> 0, ο συντελεστής συσχέτισης μεταξύ των ετήσιων πωλήσεων και του μεγέθους του καταστήματος είναι r= +√0,904 = +0,951. Ας ελέγξουμε τη μηδενική υπόθεση ότι δεν υπάρχει συσχέτιση μεταξύ αυτών των μεταβλητών χρησιμοποιώντας t- στατιστικά:

Σε επίπεδο σημαντικότητας α = 0,05, η μηδενική υπόθεση θα πρέπει να απορριφθεί γιατί t= 10,64 > 2,1788. Έτσι, μπορεί να υποστηριχθεί ότι υπάρχει στατιστικά σημαντική σχέση μεταξύ των ετήσιων πωλήσεων και του μεγέθους του καταστήματος.

Όταν συζητούνται συμπεράσματα σχετικά με τις πλαγιές του πληθυσμού, τα διαστήματα εμπιστοσύνης και τα κριτήρια για τον έλεγχο των υποθέσεων είναι εναλλάξιμα εργαλεία. Ωστόσο, ο υπολογισμός του διαστήματος εμπιστοσύνης που περιέχει τον συντελεστή συσχέτισης αποδεικνύεται πιο δύσκολος, δεδομένου ότι η μορφή της δειγματοληπτικής κατανομής της στατιστικής rεξαρτάται από τον πραγματικό συντελεστή συσχέτισης.

Εκτίμηση μαθηματικής προσδοκίας και πρόβλεψη επιμέρους τιμών

Αυτή η ενότητα εξετάζει μεθόδους για την εκτίμηση της αναμενόμενης απόκρισης Υκαι προβλέψεις ατομικών αξιών Υγια δεδομένες τιμές της μεταβλητής Χ.

Κατασκευή διαστήματος εμπιστοσύνης.Στο παράδειγμα 2 (βλ. παραπάνω ενότητα Μέθοδος ελάχιστου τετραγώνου) η εξίσωση παλινδρόμησης κατέστησε δυνατή την πρόβλεψη της τιμής της μεταβλητής Υ Χ. Στο πρόβλημα της επιλογής τοποθεσίας για ένα κατάστημα λιανικής, οι μέσες ετήσιες πωλήσεις σε ένα κατάστημα με έκταση 4000 τ. πόδια ήταν ίσο με 7,644 εκατομμύρια δολάρια.Ωστόσο, αυτή η εκτίμηση της μαθηματικής προσδοκίας του γενικού πληθυσμού είναι ένα σημείο. για την εκτίμηση της μαθηματικής προσδοκίας του γενικού πληθυσμού, προτάθηκε η έννοια του διαστήματος εμπιστοσύνης. Ομοίως, μπορεί κανείς να εισαγάγει την έννοια διάστημα εμπιστοσύνης για τη μαθηματική προσδοκία της απάντησηςγια μια δεδομένη τιμή μιας μεταβλητής Χ:

όπου , = σι 0 + σι 1 X i– μεταβλητή προβλεπόμενης τιμής Υστο Χ = X i, Σ ΥΧείναι το μέσο τετραγωνικό σφάλμα, nείναι το μέγεθος του δείγματος, ΧΕγώ- τη δεδομένη τιμή της μεταβλητής Χ, µ Υ|Χ = ΧΕγώ– μαθηματική προσδοκία μιας μεταβλητής Υστο Χ = Χ i,SSX=

Η ανάλυση του τύπου (13) δείχνει ότι το πλάτος του διαστήματος εμπιστοσύνης εξαρτάται από διάφορους παράγοντες. Σε ένα δεδομένο επίπεδο σημασίας, μια αύξηση στο πλάτος των διακυμάνσεων γύρω από τη γραμμή παλινδρόμησης, που μετράται χρησιμοποιώντας το μέσο τετραγωνικό σφάλμα, οδηγεί σε αύξηση του πλάτους του διαστήματος. Από την άλλη πλευρά, όπως ήταν αναμενόμενο, η αύξηση του μεγέθους του δείγματος συνοδεύεται από στένωση του διαστήματος. Επιπλέον, το πλάτος του διαστήματος αλλάζει ανάλογα με τις τιμές ΧΕγώ. Αν η τιμή της μεταβλητής Υπροβλεπόμενη για τις ποσότητες Χ, κοντά στη μέση τιμή , το διάστημα εμπιστοσύνης αποδεικνύεται πιο στενό από ό,τι κατά την πρόβλεψη της απόκρισης για τιμές μακριά από το μέσο όρο.

Ας πούμε ότι όταν επιλέγουμε μια τοποθεσία για ένα κατάστημα, θέλουμε να δημιουργήσουμε ένα διάστημα εμπιστοσύνης 95% για τις μέσες ετήσιες πωλήσεις σε όλα τα καταστήματα με επιφάνεια 4000 τετραγωνικών μέτρων. πόδια:

Επομένως, ο μέσος ετήσιος όγκος πωλήσεων σε όλα τα καταστήματα με επιφάνεια ​​4.000 τετραγωνικών μέτρων. πόδια, με πιθανότητα 95% να κυμαίνεται από 6,971 έως 8,317 εκατομμύρια δολάρια.

Υπολογίστε το διάστημα εμπιστοσύνης για την προβλεπόμενη τιμή.Εκτός από το διάστημα εμπιστοσύνης για τη μαθηματική προσδοκία της απόκρισης για μια δεδομένη τιμή της μεταβλητής Χ, είναι συχνά απαραίτητο να γνωρίζουμε το διάστημα εμπιστοσύνης για την προβλεπόμενη τιμή. Αν και ο τύπος για τον υπολογισμό ενός τέτοιου διαστήματος εμπιστοσύνης είναι πολύ παρόμοιος με τον τύπο (13), αυτό το διάστημα περιέχει μια προβλεπόμενη τιμή και όχι μια εκτίμηση της παραμέτρου. Διάστημα για την προβλεπόμενη απόκριση ΥΧ = Xiγια μια συγκεκριμένη τιμή της μεταβλητής ΧΕγώκαθορίζεται από τον τύπο:

Ας υποθέσουμε ότι όταν επιλέγουμε μια τοποθεσία για ένα κατάστημα λιανικής, θέλουμε να δημιουργήσουμε ένα διάστημα εμπιστοσύνης 95% για τον προβλεπόμενο ετήσιο όγκο πωλήσεων σε ένα κατάστημα με έκταση 4000 τετραγωνικών μέτρων. πόδια:

Επομένως, ο προβλεπόμενος ετήσιος όγκος πωλήσεων για 4.000 τ. πόδια, με πιθανότητα 95% κυμαίνεται από 5,433 έως 9,854 εκατομμύρια δολάρια Όπως μπορείτε να δείτε, το διάστημα εμπιστοσύνης για την προβλεπόμενη τιμή απόκρισης είναι πολύ μεγαλύτερο από το διάστημα εμπιστοσύνης για τη μαθηματική προσδοκία. Αυτό συμβαίνει επειδή η μεταβλητότητα στην πρόβλεψη μεμονωμένων τιμών είναι πολύ μεγαλύτερη από την εκτίμηση της αναμενόμενης τιμής.

Παγίδες και ηθικά ζητήματα που σχετίζονται με τη χρήση της παλινδρόμησης

Δυσκολίες που σχετίζονται με την ανάλυση παλινδρόμησης:

  • Αγνοώντας τις προϋποθέσεις εφαρμογής της μεθόδου των ελαχίστων τετραγώνων.
  • Εσφαλμένη εκτίμηση των προϋποθέσεων εφαρμογής της μεθόδου των ελαχίστων τετραγώνων.
  • Λανθασμένη επιλογή εναλλακτικών μεθόδων κατά παράβαση των προϋποθέσεων εφαρμογής της μεθόδου των ελαχίστων τετραγώνων.
  • Εφαρμογή ανάλυσης παλινδρόμησης χωρίς εις βάθος γνώση του αντικειμένου μελέτης.
  • Παρέκταση της παλινδρόμησης πέρα ​​από το εύρος της επεξηγηματικής μεταβλητής.
  • Σύγχυση μεταξύ στατιστικών και αιτιακών σχέσεων.

Η ευρεία χρήση υπολογιστικών φύλλων και στατιστικού λογισμικού έχει εξαλείψει τα υπολογιστικά προβλήματα που εμπόδισαν τη χρήση της ανάλυσης παλινδρόμησης. Ωστόσο, αυτό οδήγησε στο γεγονός ότι η ανάλυση παλινδρόμησης άρχισε να χρησιμοποιείται από χρήστες που δεν έχουν επαρκή προσόντα και γνώσεις. Πώς γνωρίζουν οι χρήστες για εναλλακτικές μεθόδους εάν πολλοί από αυτούς δεν έχουν ιδέα για τις προϋποθέσεις εφαρμογής της μεθόδου των ελαχίστων τετραγώνων και δεν ξέρουν πώς να ελέγξουν την εφαρμογή τους;

Ο ερευνητής δεν πρέπει να παρασύρεται από τη λείανση αριθμών - υπολογίζοντας τη μετατόπιση, την κλίση και τον μικτό συντελεστή συσχέτισης. Χρειάζεται βαθύτερη γνώση. Ας το ερμηνεύσουμε αυτό με ένα κλασικό παράδειγμα από σχολικά βιβλία. Ο Anscombe έδειξε ότι και τα τέσσερα σύνολα δεδομένων που φαίνονται στο Σχ. 23 έχουν τις ίδιες παραμέτρους παλινδρόμησης (Εικ. 24).

Ρύζι. 23. Τέσσερα σύνολα τεχνητών δεδομένων

Ρύζι. 24. Ανάλυση παλινδρόμησης τεσσάρων συνόλων τεχνητών δεδομένων. τελείωσα με Πακέτο ανάλυσης(κάντε κλικ στην εικόνα για να μεγεθύνετε την εικόνα)

Έτσι, από την άποψη της ανάλυσης παλινδρόμησης, όλα αυτά τα σύνολα δεδομένων είναι εντελώς πανομοιότυπα. Αν η ανάλυση τελείωνε εκεί, θα χάναμε πολλές χρήσιμες πληροφορίες. Αυτό αποδεικνύεται από τα διαγράμματα διασποράς (Εικ. 25) και τα υπολειμματικά διαγράμματα (Εικ. 26) που κατασκευάστηκαν για αυτά τα σύνολα δεδομένων.

Ρύζι. 25. Διαγράμματα διασποράς για τέσσερα σύνολα δεδομένων

Τα διαγράμματα διασποράς και τα υπολειμματικά διαγράμματα δείχνουν ότι αυτά τα δεδομένα είναι διαφορετικά μεταξύ τους. Το μόνο σύνολο που κατανέμεται κατά μήκος μιας ευθείας γραμμής είναι το σύνολο Α. Η γραφική παράσταση των υπολειμμάτων που υπολογίζεται από το σύνολο Α δεν έχει μοτίβο. Δεν μπορεί να ειπωθεί το ίδιο για τα σύνολα B, C και D. Η γραφική παράσταση διασποράς για το σύνολο B δείχνει ένα έντονο τετραγωνικό μοτίβο. Αυτό το συμπέρασμα επιβεβαιώνεται από το οικόπεδο των υπολειμμάτων, το οποίο έχει παραβολικό σχήμα. Το διάγραμμα διασποράς και το υπολειπόμενο διάγραμμα δείχνουν ότι το σύνολο δεδομένων Β περιέχει μια ακραία τιμή. Σε αυτήν την περίπτωση, είναι απαραίτητο να εξαιρεθεί η ακραία τιμή από το σύνολο δεδομένων και να επαναληφθεί η ανάλυση. Η τεχνική για τον εντοπισμό και την εξάλειψη των ακραίων στοιχείων από τις παρατηρήσεις ονομάζεται ανάλυση επιρροής. Μετά την εξάλειψη της ακραίας τιμής, το αποτέλεσμα της επαναξιολόγησης του μοντέλου μπορεί να είναι εντελώς διαφορετικό. Ένα διάγραμμα διασποράς που σχεδιάστηκε από το σύνολο δεδομένων D απεικονίζει μια ασυνήθιστη κατάσταση στην οποία το εμπειρικό μοντέλο εξαρτάται σε μεγάλο βαθμό από μια μεμονωμένη απόκριση ( Χ 8 = 19, Υ 8 = 12,5). Τέτοια μοντέλα παλινδρόμησης πρέπει να υπολογίζονται ιδιαίτερα προσεκτικά. Έτσι, τα διαγράμματα διασποράς και τα υπολειμματικά διαγράμματα είναι ένα ουσιαστικό εργαλείο για την ανάλυση παλινδρόμησης και θα πρέπει να αποτελούν αναπόσπαστο μέρος της. Χωρίς αυτές, η ανάλυση παλινδρόμησης δεν είναι αξιόπιστη.

Ρύζι. 26. Οικόπεδα υπολειμμάτων για τέσσερα σύνολα δεδομένων

Πώς να αποφύγετε παγίδες στην ανάλυση παλινδρόμησης:

  • Ανάλυση της πιθανής σχέσης μεταξύ μεταβλητών Χκαι Υξεκινάτε πάντα με ένα scatterplot.
  • Πριν ερμηνεύσετε τα αποτελέσματα μιας ανάλυσης παλινδρόμησης, ελέγξτε τις προϋποθέσεις για την εφαρμογή της.
  • Σχεδιάστε τα υπολείμματα έναντι της ανεξάρτητης μεταβλητής. Αυτό θα επιτρέψει τον προσδιορισμό του τρόπου με τον οποίο το εμπειρικό μοντέλο αντιστοιχεί στα αποτελέσματα της παρατήρησης και θα εντοπίσει παραβίαση της σταθερότητας της διακύμανσης.
  • Χρησιμοποιήστε ιστογράμματα, διαγράμματα μίσχων και φύλλων, διαγράμματα πλαισίου και διαγράμματα κανονικής κατανομής για να ελέγξετε την υπόθεση της κανονικής κατανομής σφαλμάτων.
  • Εάν δεν πληρούνται οι προϋποθέσεις εφαρμογής της μεθόδου των ελαχίστων τετραγώνων, χρησιμοποιήστε εναλλακτικές μεθόδους (για παράδειγμα, μοντέλα τετραγωνικής ή πολλαπλής παλινδρόμησης).
  • Εάν πληρούνται οι προϋποθέσεις εφαρμογής της μεθόδου των ελαχίστων τετραγώνων, είναι απαραίτητο να ελεγχθεί η υπόθεση σχετικά με τη στατιστική σημασία των συντελεστών παλινδρόμησης και να κατασκευαστούν διαστήματα εμπιστοσύνης που περιέχουν τη μαθηματική προσδοκία και την προβλεπόμενη τιμή απόκρισης.
  • Αποφύγετε την πρόβλεψη τιμών της εξαρτημένης μεταβλητής εκτός του εύρους της ανεξάρτητης μεταβλητής.
  • Λάβετε υπόψη ότι οι στατιστικές εξαρτήσεις δεν είναι πάντα αιτιολογικές. Να θυμάστε ότι η συσχέτιση μεταξύ των μεταβλητών δεν σημαίνει ότι υπάρχει αιτιώδης σχέση μεταξύ τους.

Περίληψη.Όπως φαίνεται στο μπλοκ διάγραμμα (Εικ. 27), η σημείωση περιγράφει ένα απλό μοντέλο γραμμικής παλινδρόμησης, τις προϋποθέσεις για την εφαρμογή του και τρόπους δοκιμής αυτών των συνθηκών. Λαμβάνονται υπόψη t-κριτήριο ελέγχου της στατιστικής σημασίας της κλίσης της παλινδρόμησης. Χρησιμοποιήθηκε ένα μοντέλο παλινδρόμησης για την πρόβλεψη των τιμών της εξαρτημένης μεταβλητής. Ένα παράδειγμα θεωρείται σχετικό με την επιλογή θέσης για ένα κατάστημα λιανικής, στο οποίο μελετάται η εξάρτηση του ετήσιου όγκου πωλήσεων από την περιοχή του καταστήματος. Οι πληροφορίες που λαμβάνονται σάς επιτρέπουν να επιλέξετε με μεγαλύτερη ακρίβεια μια τοποθεσία για το κατάστημα και να προβλέψετε τις ετήσιες πωλήσεις του. Στις επόμενες σημειώσεις, θα συνεχιστεί η συζήτηση της ανάλυσης παλινδρόμησης, καθώς και των πολλαπλών μοντέλων παλινδρόμησης.

Ρύζι. 27. Μπλοκ διάγραμμα μιας σημείωσης

Χρησιμοποιούνται υλικά από το βιβλίο Levin et al Στατιστικά για μάνατζερ. - Μ.: Williams, 2004. - Σελ. 792–872

Εάν η εξαρτημένη μεταβλητή είναι κατηγορική, θα πρέπει να εφαρμοστεί λογιστική παλινδρόμηση.

Η ανάλυση παλινδρόμησης είναι μια από τις πιο δημοφιλείς μεθόδους στατιστικής έρευνας. Μπορεί να χρησιμοποιηθεί για τον προσδιορισμό του βαθμού επιρροής των ανεξάρτητων μεταβλητών στην εξαρτημένη μεταβλητή. Η λειτουργικότητα του Microsoft Excel διαθέτει εργαλεία σχεδιασμένα για τη διεξαγωγή αυτού του τύπου ανάλυσης. Ας ρίξουμε μια ματιά σε τι είναι και πώς να τα χρησιμοποιήσετε.

Όμως, για να χρησιμοποιήσετε τη συνάρτηση που σας επιτρέπει να πραγματοποιήσετε ανάλυση παλινδρόμησης, πρώτα απ 'όλα, πρέπει να ενεργοποιήσετε το Πακέτο Ανάλυσης. Μόνο τότε τα απαραίτητα εργαλεία για αυτήν τη διαδικασία θα εμφανιστούν στην κορδέλα του Excel.


Τώρα όταν πάμε στην καρτέλα "Δεδομένα", στην κορδέλα στην εργαλειοθήκη "Ανάλυση"θα δούμε ένα νέο κουμπί - "Ανάλυση δεδομένων".

Τύποι ανάλυσης παλινδρόμησης

Υπάρχουν διάφοροι τύποι παλινδρόμησης:

  • παραβολικός;
  • εξουσία;
  • λογαριθμική?
  • εκθετικός;
  • επίδειξη;
  • υπερβολικός;
  • γραμμικής παλινδρόμησης.

Θα μιλήσουμε λεπτομερέστερα για την υλοποίηση του τελευταίου τύπου ανάλυσης παλινδρόμησης στο Excel αργότερα.

Γραμμική παλινδρόμηση στο Excel

Παρακάτω, για παράδειγμα, είναι ένας πίνακας που δείχνει τη μέση ημερήσια θερμοκρασία αέρα στο δρόμο και τον αριθμό των πελατών του καταστήματος για την αντίστοιχη εργάσιμη ημέρα. Ας μάθουμε με τη βοήθεια της ανάλυσης παλινδρόμησης πώς ακριβώς οι καιρικές συνθήκες με τη μορφή της θερμοκρασίας του αέρα μπορούν να επηρεάσουν τη συμμετοχή σε ένα κατάστημα λιανικής.

Η γενική εξίσωση γραμμικής παλινδρόμησης μοιάζει με αυτό: Y = a0 + a1x1 + ... + axk. Σε αυτή τη φόρμουλα Υσημαίνει τη μεταβλητή της οποίας την επιρροή προσπαθούμε να μελετήσουμε. Στην περίπτωσή μας, αυτός είναι ο αριθμός των αγοραστών. Εννοια Χείναι οι διάφοροι παράγοντες που επηρεάζουν τη μεταβλητή. Επιλογές έναείναι οι συντελεστές παλινδρόμησης. Δηλαδή, καθορίζουν τη σημασία ενός συγκεκριμένου παράγοντα. Δείκτης κδηλώνει τον συνολικό αριθμό αυτών των ίδιων παραγόντων.


Ανάλυση αποτελεσμάτων ανάλυσης

Τα αποτελέσματα της ανάλυσης παλινδρόμησης εμφανίζονται με τη μορφή πίνακα στη θέση που καθορίζεται στις ρυθμίσεις.

Ένας από τους κύριους δείκτες είναι R-τετράγωνο. Δείχνει την ποιότητα του μοντέλου. Στην περίπτωσή μας, αυτός ο συντελεστής είναι 0,705 ή περίπου 70,5%. Αυτό είναι ένα αποδεκτό επίπεδο ποιότητας. Μια σχέση μικρότερη από 0,5 είναι κακή.

Ένας άλλος σημαντικός δείκτης βρίσκεται στο κελί στη διασταύρωση της γραμμής "Υ-τομή"και στήλη "Συντελεστές". Εδώ υποδεικνύεται ποια τιμή θα έχει το Υ και στην περίπτωσή μας αυτός είναι ο αριθμός των αγοραστών, με όλους τους άλλους παράγοντες ίσους με μηδέν. Σε αυτόν τον πίνακα, αυτή η τιμή είναι 58,04.

Τιμή στην τομή του γραφήματος "Μεταβλητή X1"και "Συντελεστές"δείχνει το επίπεδο εξάρτησης του Υ από το Χ. Στην περίπτωσή μας, αυτό είναι το επίπεδο εξάρτησης του αριθμού των πελατών του καταστήματος από τη θερμοκρασία. Ο συντελεστής 1,31 θεωρείται αρκετά υψηλός δείκτης επιρροής.

Όπως μπορείτε να δείτε, είναι αρκετά εύκολο να δημιουργήσετε έναν πίνακα ανάλυσης παλινδρόμησης χρησιμοποιώντας το Microsoft Excel. Όμως, μόνο ένα εκπαιδευμένο άτομο μπορεί να εργαστεί με τα δεδομένα που λαμβάνονται στην έξοδο και να κατανοήσει την ουσία τους.

Διάλεξη 3

Ανάλυση παλινδρόμησης.

1) Αριθμητικά χαρακτηριστικά παλινδρόμησης

2) Γραμμική παλινδρόμηση

3) Μη γραμμική παλινδρόμηση

4) Πολλαπλή παλινδρόμηση

5) Χρήση του MS EXCEL για την εκτέλεση ανάλυσης παλινδρόμησης

Εργαλείο ελέγχου και αξιολόγησης - εργασίες δοκιμής

1. Αριθμητικά χαρακτηριστικά παλινδρόμησης

Η ανάλυση παλινδρόμησης είναι μια στατιστική μέθοδος για τη μελέτη της επιρροής μιας ή περισσότερων ανεξάρτητων μεταβλητών σε μια εξαρτημένη μεταβλητή. Οι ανεξάρτητες μεταβλητές ονομάζονται αλλιώς παλινδρομητές ή προγνωστικοί παράγοντες και οι εξαρτημένες μεταβλητές ονομάζονται κριτήρια. Η ορολογία των εξαρτημένων και ανεξάρτητων μεταβλητών αντικατοπτρίζει μόνο τη μαθηματική εξάρτηση των μεταβλητών και όχι τη σχέση αιτίας και αποτελέσματος.

Στόχοι ανάλυσης παλινδρόμησης

  • Προσδιορισμός του βαθμού ντετερμινισμού της διακύμανσης της μεταβλητής κριτηρίου (εξαρτώμενη) από προγνωστικούς παράγοντες (ανεξάρτητες μεταβλητές).
  • Πρόβλεψη της τιμής της εξαρτημένης μεταβλητής χρησιμοποιώντας τις ανεξάρτητες μεταβλητές.
  • Προσδιορισμός της συμβολής μεμονωμένων ανεξάρτητων μεταβλητών στη διακύμανση της εξαρτημένης.

Η ανάλυση παλινδρόμησης δεν μπορεί να χρησιμοποιηθεί για να προσδιοριστεί εάν υπάρχει σχέση μεταξύ των μεταβλητών, καθώς η ύπαρξη μιας τέτοιας σχέσης αποτελεί προϋπόθεση για την εφαρμογή της ανάλυσης.

Για να πραγματοποιήσετε ανάλυση παλινδρόμησης, πρέπει πρώτα να εξοικειωθείτε με τις βασικές έννοιες της στατιστικής και της θεωρίας πιθανοτήτων.

Βασικά αριθμητικά χαρακτηριστικά διακριτών και συνεχών τυχαίων μεταβλητών: μαθηματική προσδοκία, διακύμανση και τυπική απόκλιση.

Οι τυχαίες μεταβλητές χωρίζονται σε δύο τύπους:

  • Διακριτή, η οποία μπορεί να λάβει μόνο συγκεκριμένες, προκαθορισμένες τιμές (για παράδειγμα, τις τιμές των αριθμών στην επάνω όψη ενός πεταμένου ζαριού ή τις τακτικές τιμές του τρέχοντος μήνα).
  • · συνεχής (τις περισσότερες φορές - οι τιμές ορισμένων φυσικών μεγεθών: βάρη, αποστάσεις, θερμοκρασίες κ.λπ.), οι οποίες, σύμφωνα με τους νόμους της φύσης, μπορούν να λάβουν οποιεσδήποτε τιμές, τουλάχιστον σε ένα ορισμένο διάστημα.

Ο νόμος κατανομής μιας τυχαίας μεταβλητής είναι η αντιστοιχία μεταξύ των πιθανών τιμών μιας διακριτής τυχαίας μεταβλητής και των πιθανοτήτων της, που συνήθως γράφονται σε έναν πίνακα:

Ο στατιστικός ορισμός της πιθανότητας εκφράζεται ως προς τη σχετική συχνότητα ενός τυχαίου γεγονότος, δηλαδή, βρίσκεται ως ο λόγος του αριθμού των τυχαίων μεταβλητών προς τον συνολικό αριθμό των τυχαίων μεταβλητών.

Μαθηματική προσδοκία μιας διακριτής τυχαίας μεταβλητήςΧονομάζεται το άθροισμα των γινομένων των τιμών της ποσότητας Χσχετικά με την πιθανότητα αυτών των τιμών. Η μαθηματική προσδοκία συμβολίζεται με ή Μ(Χ) .

n

= Μ(Χ) = Χ 1 Π 1 + Χ 2 Π 2 +… + x n p n = μικρό x i πι

Εγώ=1

Η διασπορά μιας τυχαίας μεταβλητής σε σχέση με τη μαθηματική της προσδοκία προσδιορίζεται χρησιμοποιώντας ένα αριθμητικό χαρακτηριστικό που ονομάζεται διασπορά. Με απλά λόγια, η διακύμανση είναι η εξάπλωση μιας τυχαίας μεταβλητής γύρω από τον μέσο όρο. Για να κατανοήσετε την ουσία της διασποράς, εξετάστε ένα παράδειγμα. Ο μέσος μισθός στη χώρα είναι περίπου 25 χιλιάδες ρούβλια. Από πού προέρχεται αυτός ο αριθμός; Πιθανότατα, όλοι οι μισθοί αθροίζονται και διαιρούνται με τον αριθμό των εργαζομένων. Σε αυτή την περίπτωση, υπάρχει πολύ μεγάλη διασπορά (ο ελάχιστος μισθός είναι περίπου 4 χιλιάδες ρούβλια και ο μέγιστος είναι περίπου 100 χιλιάδες ρούβλια). Αν όλοι είχαν τον ίδιο μισθό, τότε η διασπορά θα ήταν μηδενική, και δεν θα υπήρχε spread.

Διασπορά μιας διακριτής τυχαίας μεταβλητήςΧονομάζεται η μαθηματική προσδοκία του τετραγώνου της διαφοράς μιας τυχαίας μεταβλητής και η μαθηματική της προσδοκία:

D = M [ ((X - M (X)) 2 ]

Χρησιμοποιώντας τον ορισμό της μαθηματικής προσδοκίας για τον υπολογισμό της διακύμανσης, λαμβάνουμε τον τύπο:

D \u003d S (x i - M (X)) 2 p i

Η διακύμανση έχει τη διάσταση του τετραγώνου μιας τυχαίας μεταβλητής. Σε περιπτώσεις όπου είναι απαραίτητο να υπάρχει ένα αριθμητικό χαρακτηριστικό της διασποράς των πιθανών τιμών στην ίδια διάσταση με την ίδια την τυχαία μεταβλητή, χρησιμοποιείται η τυπική απόκλιση.

Τυπική απόκλισητυχαία μεταβλητή ονομάζεται τετραγωνική ρίζα της διακύμανσής της.

Η μέση τετραγωνική απόκλιση είναι ένα μέτρο της διασποράς των τιμών μιας τυχαίας μεταβλητής γύρω από τις μαθηματικές προσδοκίες της.

Παράδειγμα.

Ο νόμος κατανομής μιας τυχαίας μεταβλητής Χ δίνεται από τον παρακάτω πίνακα:

Βρείτε τη μαθηματική προσδοκία, τη διακύμανση και την τυπική απόκλιση .

Χρησιμοποιούμε τους παραπάνω τύπους:

M (X) \u003d 1 0,1 + 2 0,4 + 4 0,4 ​​+ 5 0,1 \u003d 3

D \u003d (1-3) 2 0,1 + (2 - 3) 2 0,4 + (4 - 3) 2 0,4 + (5 - 3) 2 0,1 \u003d 1,6

Παράδειγμα.

Στην κλήρωση μετρητών παίζονται 1 νίκη των 1000 ρούβλια, 10 νίκες 100 ρούβλια και 100 νίκες από 1 ρούβλι η καθεμία με συνολικό αριθμό εισιτηρίων 10.000. Κάντε έναν νόμο διανομής για μια τυχαία νίκη Χ για τον κάτοχο ενός λαχνού και προσδιορίστε τη μαθηματική προσδοκία, τη διακύμανση και την τυπική απόκλιση μιας τυχαίας μεταβλητής.

X 1 \u003d 1000, X 2 \u003d 100, X 3 \u003d 1, X 4 \u003d 0,

P 1 = 1/10000 = 0,0001, P 2 = 10/10000 = 0,001, P 3 = 100/10000 = 0,01, P 4 = 1 - (P 1 + P 2 + P 3) = 0,9889 .

Βάζουμε τα αποτελέσματα σε έναν πίνακα:

Μαθηματική προσδοκία - το άθροισμα των ζευγαρωμένων προϊόντων της τιμής μιας τυχαίας μεταβλητής με την πιθανότητα τους. Για αυτό το πρόβλημα, συνιστάται να το υπολογίσετε με τον τύπο

1000 0,0001 + 100 0,001 + 1 0,01 + 0 0,9889 = 0,21 ρούβλια.

Πήραμε μια πραγματική «δίκαιη» τιμή εισιτηρίου.

D \u003d S (x i - M (X)) 2 p i \u003d (1000 - 0,21) 2 0,0001 + (100 - 0,21) 2 0,001 +

+ (1 - 0,21) 2 0,01 + (0 - 0,21) 2 0,9889 ≈ 109,97

Συνάρτηση κατανομής συνεχών τυχαίων μεταβλητών

Η τιμή, η οποία ως αποτέλεσμα της δοκιμής θα λάβει μία πιθανή τιμή (δεν είναι γνωστό εκ των προτέρων ποια), ονομάζεται τυχαία μεταβλητή. Όπως αναφέρθηκε παραπάνω, οι τυχαίες μεταβλητές είναι διακριτές (ασυνεχείς) και συνεχείς.

Μια διακριτή μεταβλητή είναι μια τυχαία μεταβλητή που παίρνει ξεχωριστές πιθανές τιμές με ορισμένες πιθανότητες που μπορούν να αριθμηθούν.

Μια συνεχής μεταβλητή είναι μια τυχαία μεταβλητή που μπορεί να λάβει όλες τις τιμές από κάποιο πεπερασμένο ή άπειρο διάστημα.

Μέχρι αυτό το σημείο, περιοριζόμασταν σε μία μόνο «ποικιλία» τυχαίων μεταβλητών - διακριτές, δηλ. λαμβάνοντας πεπερασμένες τιμές.

Αλλά η θεωρία και η πρακτική των στατιστικών απαιτούν τη χρήση της έννοιας μιας συνεχούς τυχαίας μεταβλητής - επιτρέποντας οποιεσδήποτε αριθμητικές τιμές από οποιοδήποτε διάστημα.

Ο νόμος κατανομής μιας συνεχούς τυχαίας μεταβλητής καθορίζεται εύκολα χρησιμοποιώντας τη λεγόμενη συνάρτηση πυκνότητας πιθανότητας. f(x). Πιθανότητα P(a< X < b) того, что значение, принятое случайной величиной Х, попадет в промежуток (a; b), определяется равенством

Π (α< X < b) = ∫ φά(Χ) dx

Η γραφική παράσταση της συνάρτησης f (x) ονομάζεται καμπύλη κατανομής. Γεωμετρικά, η πιθανότητα μιας τυχαίας μεταβλητής να πέσει στο διάστημα (a; b) είναι ίση με το εμβαδόν του αντίστοιχου καμπυλόγραμμου τραπεζοειδούς, που οριοθετείται από την καμπύλη κατανομής, τον άξονα Ox και τις ευθείες x = a, x = b .

P(a£X

Εάν ένα πεπερασμένο ή μετρήσιμο σύνολο αφαιρεθεί από ένα μιγαδικό γεγονός, η πιθανότητα ενός νέου γεγονότος θα παραμείνει αμετάβλητη.

Συνάρτηση f(x) - μια αριθμητική βαθμωτή συνάρτηση ενός πραγματικού ορίσματος x ονομάζεται πυκνότητα πιθανότητας και υπάρχει σε ένα σημείο x εάν υπάρχει ένα όριο σε αυτό το σημείο:

Ιδιότητες πυκνότητας πιθανότητας:

  1. Η πυκνότητα πιθανότητας είναι μια μη αρνητική συνάρτηση, δηλαδή f(x) ≥ 0

(αν όλες οι τιμές της τυχαίας μεταβλητής X βρίσκονται στο διάστημα (a;b), τότε η τελευταία

η ισότητα μπορεί να γραφτεί ως ∫ f (x) dx = 1).

Θεωρήστε τώρα τη συνάρτηση F(x) = P(X< х). Эта функция называется функцией распределения вероятности случайной величины Х. Функция F(х) существует как для дискретных, так и для непрерывных случайных величин. Если f (x) - функция плотности распределения вероятности

συνεχής τυχαία μεταβλητή X, μετά F (x) = ∫ f(x) dx = 1).

Από την τελευταία ισότητα προκύπτει ότι f (x) = F" (x)

Μερικές φορές η συνάρτηση f(x) ονομάζεται συνάρτηση κατανομής διαφορικής πιθανότητας και η συνάρτηση F(x) ονομάζεται συνάρτηση αθροιστικής κατανομής πιθανότητας.

Σημειώνουμε τις πιο σημαντικές ιδιότητες της συνάρτησης κατανομής πιθανότητας:

  1. Η F(x) είναι μια μη φθίνουσα συνάρτηση.
  2. F(-∞)=0.
  3. F (+∞) = 1.

Η έννοια της συνάρτησης κατανομής είναι κεντρική στη θεωρία των πιθανοτήτων. Χρησιμοποιώντας αυτή την έννοια, μπορεί κανείς να δώσει έναν άλλο ορισμό μιας συνεχούς τυχαίας μεταβλητής. Μια τυχαία μεταβλητή ονομάζεται συνεχής εάν η συνάρτηση ολοκλήρωσης κατανομής της F(x) είναι συνεχής.

Αριθμητικά χαρακτηριστικά συνεχών τυχαίων μεταβλητών

Η μαθηματική προσδοκία, η διακύμανση και άλλες παράμετροι οποιωνδήποτε τυχαίων μεταβλητών υπολογίζονται σχεδόν πάντα χρησιμοποιώντας τύπους που προκύπτουν από τον νόμο κατανομής.

Για μια συνεχή τυχαία μεταβλητή, η μαθηματική προσδοκία υπολογίζεται από τον τύπο:

M(X) = ∫ x f(Χ) dx

Διασπορά:

D(X) = ∫ ( Χ-Μ (Χ)) 2 φά(Χ) dx ή D(X) = ∫ Χ 2 φά(Χ) dx - (Μ (Χ)) 2

2. Γραμμική παλινδρόμηση

Έστω εξαρτώμενα τα συστατικά X και Y μιας δισδιάστατης τυχαίας μεταβλητής (X, Y). Θα υποθέσουμε ότι ένα από αυτά μπορεί να αναπαρασταθεί περίπου ως γραμμική συνάρτηση του άλλου, για παράδειγμα

Y ≈ g(X) = α + βΧ και προσδιορίστε τις παραμέτρους α και β χρησιμοποιώντας τη μέθοδο των ελαχίστων τετραγώνων.

Ορισμός. Καλείται η συνάρτηση g(X) = α + βΧ καλύτερη προσέγγιση Y με την έννοια της μεθόδου των ελαχίστων τετραγώνων, εάν η μαθηματική προσδοκία M(Y - g(X)) 2 παίρνει τη μικρότερη δυνατή τιμή. καλείται η συνάρτηση g(X). μέση τετραγωνική παλινδρόμησηΥ έως Χ.

ΘεώρημαΗ γραμμική μέση τετραγωνική παλινδρόμηση του Y στο X είναι:

πού είναι ο συντελεστής συσχέτισης X και Y.

Συντελεστές της εξίσωσης.

Μπορεί κανείς να ελέγξει ότι για αυτές τις τιμές η συνάρτηση συνάρτησης F(α, β)

φά(α, β ) = Μ(Υ - α - βΧΤο )² έχει ένα ελάχιστο, το οποίο αποδεικνύει τον ισχυρισμό του θεωρήματος.

Ορισμός. Ο συντελεστής ονομάζεται Συντελεστής παλινδρόμησης Υ στο Χκαι η ευθεία - - άμεση μέση τετραγωνική παλινδρόμηση του Y στο X.

Αντικαθιστώντας τις συντεταγμένες του ακίνητου σημείου στην ισότητα, μπορούμε να βρούμε την ελάχιστη τιμή της συνάρτησης F(α, β) ίση με Αυτή η τιμή ονομάζεται υπολειμματική διασποράΤο Y σε σχέση με το X και χαρακτηρίζει το μέγεθος του σφάλματος που επιτρέπεται κατά την αντικατάσταση του Y με

g(X) = α + βΧ. Στο , η υπολειπόμενη διακύμανση είναι 0, δηλαδή η ισότητα δεν είναι κατά προσέγγιση, αλλά ακριβής. Επομένως, όταν τα Υ και Χ συνδέονται με μια γραμμική συναρτησιακή εξάρτηση. Ομοίως, μπορείτε να λάβετε μια ευθεία γραμμή παλινδρόμησης ρίζας μέσου τετραγώνου του X στο Y:

και η υπολειπόμενη διακύμανση του Χ ως προς το Υ. Και οι δύο άμεσες παλινδρομήσεις συμπίπτουν. Συγκρίνοντας τις εξισώσεις παλινδρόμησης Y στο X και X στο Y και λύνοντας το σύστημα εξισώσεων, μπορείτε να βρείτε το σημείο τομής των γραμμών παλινδρόμησης - ένα σημείο με συντεταγμένες (t x, t y), που ονομάζεται το κέντρο της κοινής κατανομής των τιμών Χ και Υ.

Θα εξετάσουμε τον αλγόριθμο για τη σύνταξη εξισώσεων παλινδρόμησης από το σχολικό βιβλίο του V. E. Gmurman «Θεωρία Πιθανοτήτων και Μαθηματική Στατιστική» σελ. 256.

1) Συντάξτε έναν πίνακα υπολογισμού στον οποίο θα καταγράφονται οι αριθμοί των δειγματοληπτικών στοιχείων, οι επιλογές δειγμάτων, τα τετράγωνά τους και το γινόμενο.

2) Υπολογίστε το άθροισμα σε όλες τις στήλες εκτός από τον αριθμό.

3) Υπολογίστε τις μέσες τιμές για κάθε ποσότητα, διασπορά και τυπικές αποκλίσεις.

5) Ελέγξτε την υπόθεση για την ύπαρξη σχέσης μεταξύ Χ και Υ.

6) Να συνθέσετε τις εξισώσεις και των δύο γραμμών παλινδρόμησης και να σχεδιάσετε τα γραφήματα αυτών των εξισώσεων.

Η κλίση της ευθείας παλινδρόμησης Y στο X είναι ο συντελεστής παλινδρόμησης του δείγματος

Συντελεστής b=

Λαμβάνουμε την επιθυμητή εξίσωση της γραμμής παλινδρόμησης Y στο X:

Y \u003d 0,202 X + 1,024

Ομοίως, η εξίσωση παλινδρόμησης X στο Y:

Η κλίση της ευθύγραμμης παλινδρόμησης Y στο X είναι ο συντελεστής παλινδρόμησης του δείγματος pxy:

Συντελεστής b=

X \u003d 4,119 Y - 3,714

3. Μη γραμμική παλινδρόμηση

Εάν υπάρχουν μη γραμμικές σχέσεις μεταξύ των οικονομικών φαινομένων, τότε αυτές εκφράζονται χρησιμοποιώντας τις αντίστοιχες μη γραμμικές συναρτήσεις.

Υπάρχουν δύο κατηγορίες μη γραμμικών παλινδρομήσεων:

1. Παλινδρομήσεις που είναι μη γραμμικές ως προς τις επεξηγηματικές μεταβλητές που περιλαμβάνονται στην ανάλυση, αλλά γραμμικές ως προς τις εκτιμώμενες παραμέτρους, για παράδειγμα:

Πολυώνυμα διαφόρων βαθμών

Ισόπλευρη υπερβολή - ;

Ημιλογαριθμική συνάρτηση - .

2. Παλινδρομήσεις που είναι μη γραμμικές ως προς τις εκτιμώμενες παραμέτρους, για παράδειγμα:

Εξουσία - ;

Επιδεικτικό -;

Εκθετική - .

Οι μη γραμμικές παλινδρομήσεις στις συμπεριλαμβανόμενες μεταβλητές μειώνονται σε γραμμική μορφή με μια απλή αλλαγή των μεταβλητών και η περαιτέρω εκτίμηση των παραμέτρων πραγματοποιείται χρησιμοποιώντας τη μέθοδο των ελαχίστων τετραγώνων. Ας εξετάσουμε μερικές λειτουργίες.

Η παραβολή του δεύτερου βαθμού ανάγεται σε γραμμική μορφή χρησιμοποιώντας την αντικατάσταση: . Ως αποτέλεσμα, φτάνουμε σε μια εξίσωση δύο παραγόντων, η εκτίμηση των παραμέτρων της οποίας χρησιμοποιώντας τη μέθοδο των ελαχίστων τετραγώνων οδηγεί στο σύστημα των εξισώσεων:

Μια παραβολή δεύτερου βαθμού χρησιμοποιείται συνήθως σε περιπτώσεις όπου, για ένα ορισμένο διάστημα τιμών παραγόντων, η φύση της σχέσης των υπό εξέταση χαρακτηριστικών αλλάζει: μια άμεση σχέση αλλάζει σε αντίστροφη ή μια αντίστροφη σε άμεση.

Μια ισόπλευρη υπερβολή μπορεί να χρησιμοποιηθεί για να χαρακτηρίσει τη σχέση μεταξύ του ειδικού κόστους των πρώτων υλών, των υλικών, των καυσίμων και του όγκου της παραγωγής, του χρόνου κυκλοφορίας των αγαθών και της αξίας του κύκλου εργασιών. Το κλασικό της παράδειγμα είναι η καμπύλη Phillips, η οποία χαρακτηρίζει τη μη γραμμική σχέση μεταξύ του ποσοστού ανεργίας Χκαι ποσοστιαία αύξηση των μισθών y.

Η υπερβολή ανάγεται σε γραμμική εξίσωση με απλή αντικατάσταση: . Μπορείτε επίσης να χρησιμοποιήσετε τη μέθοδο των ελάχιστων τετραγώνων για να δημιουργήσετε ένα σύστημα γραμμικών εξισώσεων.

Με παρόμοιο τρόπο, οι εξαρτήσεις μειώνονται σε γραμμική μορφή: , και άλλα.

Μια ισόπλευρη υπερβολή και μια ημι-λογαριθμική καμπύλη χρησιμοποιούνται για να περιγράψουν την καμπύλη Engel (μια μαθηματική περιγραφή της σχέσης μεταξύ του μεριδίου των δαπανών για διαρκή αγαθά και των συνολικών δαπανών (ή εισοδήματος)). Οι εξισώσεις στις οποίες περιλαμβάνονται χρησιμοποιούνται σε μελέτες παραγωγικότητας, έντασης εργασίας της αγροτικής παραγωγής.

4. Πολλαπλή παλινδρόμηση

Πολλαπλή παλινδρόμηση - μια εξίσωση σύνδεσης με πολλαπλές ανεξάρτητες μεταβλητές:

πού είναι η εξαρτημένη μεταβλητή (σύμβολο που προκύπτει);

Ανεξάρτητες μεταβλητές (παράγοντες).

Για τη δημιουργία μιας εξίσωσης πολλαπλής παλινδρόμησης, χρησιμοποιούνται συχνότερα οι ακόλουθες συναρτήσεις:

γραμμικός -

εξουσία -

εκθέτης -

υπερβολή - .

Μπορείτε να χρησιμοποιήσετε άλλες συναρτήσεις που μπορούν να μειωθούν σε γραμμική μορφή.

Για την εκτίμηση των παραμέτρων της εξίσωσης πολλαπλής παλινδρόμησης, χρησιμοποιείται η μέθοδος των ελαχίστων τετραγώνων (LSM). Για γραμμικές εξισώσεις και μη γραμμικές εξισώσεις που μπορούν να αναχθούν σε γραμμικές, κατασκευάζεται το ακόλουθο σύστημα κανονικών εξισώσεων, η λύση του οποίου καθιστά δυνατή τη λήψη εκτιμήσεων των παραμέτρων παλινδρόμησης:

Για την επίλυσή του, μπορεί να εφαρμοστεί η μέθοδος των οριζόντων:

πού είναι ο καθοριστικός παράγοντας του συστήματος;

Ιδιωτικοί προσδιοριστικοί παράγοντες; τα οποία προκύπτουν αντικαθιστώντας την αντίστοιχη στήλη του πίνακα της ορίζουσας του συστήματος με τα δεδομένα της αριστερής πλευράς του συστήματος.

Ένας άλλος τύπος εξίσωσης πολλαπλής παλινδρόμησης είναι η τυποποιημένη εξίσωση παλινδρόμησης κλίμακας, το LSM μπορεί να εφαρμοστεί στην εξίσωση πολλαπλής παλινδρόμησης σε τυποποιημένη κλίμακα.

5. ΧρήσηΚυρίαΠΡΟΕΧΩγια την εκτέλεση ανάλυσης παλινδρόμησης

Η ανάλυση παλινδρόμησης καθορίζει τη μορφή της σχέσης μεταξύ της τυχαίας μεταβλητής Y (εξαρτώμενη) και των τιμών μιας ή περισσότερων μεταβλητών (ανεξάρτητων) και οι τιμές των τελευταίων θεωρούνται ότι έχουν δοθεί ακριβώς. Αυτή η εξάρτηση συνήθως καθορίζεται από κάποιο μαθηματικό μοντέλο (εξίσωση παλινδρόμησης) που περιέχει πολλές άγνωστες παραμέτρους. Κατά τη διάρκεια της ανάλυσης παλινδρόμησης, με βάση δειγματοληπτικά δεδομένα, εντοπίζονται εκτιμήσεις αυτών των παραμέτρων, προσδιορίζονται στατιστικά σφάλματα εκτιμήσεων ή όρια διαστημάτων εμπιστοσύνης και ελέγχεται η συμμόρφωση (καταλληλότητα) του αποδεκτού μαθηματικού μοντέλου με τα πειραματικά δεδομένα.

Στην ανάλυση γραμμικής παλινδρόμησης, η σχέση μεταξύ τυχαίων μεταβλητών θεωρείται ότι είναι γραμμική. Στην απλούστερη περίπτωση, σε ένα μοντέλο ζευγαρωμένης γραμμικής παλινδρόμησης, υπάρχουν δύο μεταβλητές X και Y. Και απαιτείται για n ζεύγη παρατηρήσεων (X1, Y1), (X2, Y2), ..., (Xn, Yn) για να δημιουργήσετε (επιλέξετε) μια ευθεία γραμμή, που ονομάζεται γραμμή παλινδρόμησης, η οποία "καλύτερα" προσεγγίζει τις παρατηρούμενες τιμές. Η εξίσωση αυτής της ευθείας y=ax+b είναι εξίσωση παλινδρόμησης. Χρησιμοποιώντας μια εξίσωση παλινδρόμησης, μπορείτε να προβλέψετε την αναμενόμενη τιμή της εξαρτημένης μεταβλητής y που αντιστοιχεί σε μια δεδομένη τιμή της ανεξάρτητης μεταβλητής x. Στην περίπτωση που λαμβάνεται υπόψη η εξάρτηση μεταξύ μιας εξαρτημένης μεταβλητής Y και πολλών ανεξάρτητων μεταβλητών X1, X2, ..., Xm, μιλάμε για πολλαπλή γραμμική παλινδρόμηση.

Σε αυτή την περίπτωση, η εξίσωση παλινδρόμησης έχει τη μορφή

y = a 0 +a 1 x 1 +a 2 x 2 +…+a m x m,

όπου a0, a1, a2, …, am είναι οι συντελεστές παλινδρόμησης που πρέπει να προσδιοριστούν.

Οι συντελεστές της εξίσωσης παλινδρόμησης προσδιορίζονται με τη μέθοδο των ελαχίστων τετραγώνων, επιτυγχάνοντας το ελάχιστο δυνατό άθροισμα των τετραγωνικών διαφορών μεταξύ των πραγματικών τιμών της μεταβλητής Y και εκείνων που υπολογίζονται χρησιμοποιώντας την εξίσωση παλινδρόμησης. Έτσι, για παράδειγμα, μια εξίσωση γραμμικής παλινδρόμησης μπορεί να κατασκευαστεί ακόμη και όταν δεν υπάρχει γραμμική συσχέτιση.

Ένα μέτρο της αποτελεσματικότητας του μοντέλου παλινδρόμησης είναι ο συντελεστής προσδιορισμού R2 (R-τετράγωνο). Ο συντελεστής προσδιορισμού μπορεί να πάρει τιμές μεταξύ 0 και 1 καθορίζει με ποιο βαθμό ακρίβειας η προκύπτουσα εξίσωση παλινδρόμησης περιγράφει (προσεγγίζει) τα αρχικά δεδομένα. Η σημασία του μοντέλου παλινδρόμησης διερευνάται επίσης χρησιμοποιώντας το κριτήριο F (Fisher) και η αξιοπιστία της διαφοράς μεταξύ των συντελεστών a0, a1, a2, ..., am από το μηδέν ελέγχεται με τη χρήση του Student's t-test.

Στο Excel, τα πειραματικά δεδομένα προσεγγίζονται με μια γραμμική εξίσωση μέχρι την 16η τάξη:

y = a0+a1x1+a2x2+…+a16x16

Για την απόκτηση συντελεστών γραμμικής παλινδρόμησης, μπορεί να χρησιμοποιηθεί η διαδικασία "Παλινδρόμηση" από το πακέτο ανάλυσης. Επίσης, η συνάρτηση LINEST παρέχει πλήρεις πληροφορίες για την εξίσωση γραμμικής παλινδρόμησης. Επιπλέον, οι συναρτήσεις SLOPE και INTERCEPT μπορούν να χρησιμοποιηθούν για τη λήψη των παραμέτρων της εξίσωσης παλινδρόμησης και οι συναρτήσεις TREND και FORECAST μπορούν να χρησιμοποιηθούν για να ληφθούν οι προβλεπόμενες τιμές Y στα απαιτούμενα σημεία (για παλινδρόμηση κατά ζεύγη).

Ας εξετάσουμε λεπτομερώς την εφαρμογή της συνάρτησης LINEST (γνωστά_y, [γνωστά_x], [σταθερά], [στατιστικά]): γνωστό_y - το εύρος των γνωστών τιμών της εξαρτημένης παραμέτρου Y. Στην ανάλυση παλινδρόμησης κατά ζεύγη, μπορεί να έχει οποιαδήποτε μορφή? στον πληθυντικό, πρέπει να είναι είτε γραμμή είτε στήλη. γνωστό_x είναι το εύρος των γνωστών τιμών μιας ή περισσότερων ανεξάρτητων παραμέτρων. Πρέπει να έχει το ίδιο σχήμα με το εύρος Y (για πολλαπλές παραμέτρους, πολλές στήλες ή σειρές, αντίστοιχα). σταθερό - λογικό όρισμα. Εάν, με βάση το πρακτικό νόημα της εργασίας ανάλυσης παλινδρόμησης, είναι απαραίτητο η γραμμή παλινδρόμησης να περάσει από την αρχή, δηλαδή ο ελεύθερος συντελεστής είναι ίσος με 0, η τιμή αυτού του ορίσματος θα πρέπει να οριστεί ίση με 0 (ή " ψευδής"). Εάν η τιμή οριστεί σε 1 (ή "αληθής") ή παραλειφθεί, τότε ο ελεύθερος συντελεστής υπολογίζεται με τον συνήθη τρόπο. Η στατιστική είναι ένα λογικό επιχείρημα. Εάν η τιμή οριστεί σε 1 (ή "true"), τότε επιστρέφεται μια πρόσθετη στατιστική παλινδρόμησης (βλ. πίνακα), που χρησιμοποιείται για την αξιολόγηση της αποτελεσματικότητας και της σημασίας του μοντέλου. Στη γενική περίπτωση, για παλινδρόμηση κατά ζεύγη y=ax+b, το αποτέλεσμα της εφαρμογής της συνάρτησης LINEST μοιάζει με αυτό:

Τραπέζι. Εύρος εξόδου του LINEST για Ανάλυση Παλινδρόμησης κατά Ζεύγη

Στην περίπτωση ανάλυσης πολλαπλής παλινδρόμησης για την εξίσωση y=a0+a1x1+a2x2+…+amxm, οι συντελεστές am,…,a1,a0 εμφανίζονται στην πρώτη γραμμή και τα τυπικά σφάλματα για αυτούς τους συντελεστές εμφανίζονται στη δεύτερη γραμμή . Οι σειρές 3-5, εκτός από τις δύο πρώτες στήλες που είναι γεμάτες με στατιστικά παλινδρόμησης, θα αποδώσουν #N/A.

Η συνάρτηση LINEST πρέπει να εισαχθεί ως τύπος πίνακα, επιλέγοντας πρώτα έναν πίνακα με το επιθυμητό μέγεθος για το αποτέλεσμα (m+1 στήλες και 5 σειρές εάν απαιτούνται στατιστικά παλινδρόμησης) και ολοκληρώνοντας την καταχώριση του τύπου πατώντας CTRL+SHIFT+ENTER.

Το αποτέλεσμα για το παράδειγμά μας:

Επιπλέον, το πρόγραμμα έχει μια ενσωματωμένη λειτουργία - Ανάλυση δεδομένων στην καρτέλα Δεδομένα.

Μπορεί επίσης να χρησιμοποιηθεί για την εκτέλεση ανάλυσης παλινδρόμησης:

Στη διαφάνεια - το αποτέλεσμα της ανάλυσης παλινδρόμησης που πραγματοποιήθηκε με χρήση της ανάλυσης δεδομένων.

ΑΠΟΤΕΛΕΣΜΑΤΑ

Στατιστικά παλινδρόμησης

Πολλαπλά R

R-τετράγωνο

Κανονικοποιημένο τετράγωνο R

τυπικό σφάλμα

Παρατηρήσεις

Ανάλυση της διακύμανσης

Σημασία ΣΤ

Οπισθοδρόμηση

Πιθανότητα

τυπικό σφάλμα

t-statistic

P-Τιμή

κάτω 95%

Κορυφαίο 95%

Χαμηλότερο 95,0%

Κορυφαίο 95,0%

Υ-τομή

Μεταβλητή X 1

Οι εξισώσεις παλινδρόμησης που εξετάσαμε νωρίτερα είναι επίσης ενσωματωμένες στο MS Excel. Για να τις εκτελέσετε, πρώτα δημιουργείται μια γραφική παράσταση διασποράς και, στη συνέχεια, μέσω του μενού περιβάλλοντος, επιλέξτε - Προσθήκη γραμμής τάσης. Στο νέο παράθυρο, επιλέξτε τα πλαίσια - Εμφάνιση της εξίσωσης στο διάγραμμα και τοποθετήστε την τιμή της αξιοπιστίας προσέγγισης (R ^ 2) στο διάγραμμα.

Βιβλιογραφία:

  1. Θεωρία Πιθανοτήτων και Μαθηματική Στατιστική. Gmurman V. E. Εγχειρίδιο για τα πανεπιστήμια. - Εκδ. 10ος, sr. - Μ.: Πιο ψηλά. σχολείο, 2010. - 479s.
  2. Ανώτερα μαθηματικά σε ασκήσεις και εργασίες. Εγχειρίδιο για πανεπιστήμια / Danko P. E., Popov A. G., Kozhevnikova T. Ya., Danko S. P. Σε 2 ώρες - Εκδ. 6ος, sr. - M .: Oniks Publishing House LLC: Mir and Education Publishing House LLC, 2007. - 416 p.
    1. 3. http://www.machinelearning.ru/wiki/index.php?title=%D0%A0%D0%B5%D0%B3%D1%80%D0%B5%D1%81%D1%81%D0%B8 %D1%8F - μερικές πληροφορίες σχετικά με την ανάλυση παλινδρόμησης