Βιογραφίες Χαρακτηριστικά Ανάλυση

Πρόβλεψη με εξίσωση γραμμικής παλινδρόμησης. Πρόβλεψη μοντέλου πολλαπλής παλινδρόμησης

Η γραμμική παλινδρόμηση είναι ο πιο συχνά χρησιμοποιούμενος τύπος ανάλυσης παλινδρόμησης. Ακολουθούν οι τρεις κύριες εργασίες που επιλύονται στην έρευνα μάρκετινγκ χρησιμοποιώντας γραμμική ανάλυση παλινδρόμησης.

1. Προσδιορισμός των συγκεκριμένων παραμέτρων του προϊόντος που επηρεάζουν γενική εντύπωσηκαταναλωτές από αυτό το προϊόν. Καθορίζοντας την κατεύθυνση και τη δύναμη αυτής της επιρροής. Υπολογισμός της τιμής της παραμέτρου που προκύπτει για ορισμένες τιμές συγκεκριμένων παραμέτρων. Για παράδειγμα, απαιτείται να καθοριστεί πώς η ηλικία του ερωτώμενου και το μέσο μηνιαίο εισόδημά του επηρεάζουν τη συχνότητα αγορών τυροπήγματος με υαλοπίνακες.

2. Προσδιορισμός των ιδιαίτερων χαρακτηριστικών του προϊόντος που επηρεάζουν τη συνολική εντύπωση των καταναλωτών από αυτό το προϊόν (κατασκευή ενός συστήματος επιλογής προϊόντος από τους καταναλωτές). Καθιέρωση σχέσης μεταξύ διαφόρων ιδιαίτερων παραμέτρων ως προς τη δύναμη και την κατεύθυνση επιρροής στη συνολική εντύπωση. Για παράδειγμα, υπάρχουν εκτιμήσεις των ερωτηθέντων για δύο χαρακτηριστικά των επίπλων του κατασκευαστή Χ - τιμή και ποιότητα - καθώς και συνολική βαθμολογίαέπιπλα από αυτόν τον κατασκευαστή. Απαιτείται να καθοριστεί ποια από τις δύο παραμέτρους είναι η πιο σημαντική για τους αγοραστές όταν επιλέγουν έναν κατασκευαστή επίπλων και σε ποια συγκεκριμένη αναλογία είναι η σημασία για τους αγοραστές αυτών των δύο παραγόντων (η παράμετρος Τιμή είναι x φορές πιο σημαντική για τους αγοραστές όταν επιλέγουν έπιπλα από η παράμετρος Ποιότητα).

3. Γραφική πρόβλεψη της συμπεριφοράς μιας μεταβλητής ανάλογα με την αλλαγή σε μια άλλη (χρησιμοποιείται μόνο για δύο μεταβλητές). Κατά κανόνα, ο σκοπός της διεξαγωγής ανάλυσης παλινδρόμησης σε αυτή η υπόθεσηδεν είναι τόσο ο υπολογισμός της εξίσωσης, αλλά η κατασκευή μιας τάσης (δηλαδή μια προσεγγιστική καμπύλη που δείχνει γραφικά τη σχέση μεταξύ των μεταβλητών). Σύμφωνα με την εξίσωση που προκύπτει, είναι δυνατό να προβλεφθεί ποια θα είναι η τιμή μιας μεταβλητής όταν αλλάζει (αυξάνεται ή μειώνεται) μια άλλη. Για παράδειγμα, απαιτείται να προσδιοριστεί η φύση της σχέσης μεταξύ του μεριδίου των ερωτηθέντων που γνωρίζουν διάφορες μάρκες τυροπήγματος γλασέ και του μεριδίου των ερωτηθέντων που αγοράζουν αυτές τις μάρκες. Απαιτείται επίσης να υπολογιστεί πόσο θα αυξηθεί το μερίδιο των αγοραστών της μάρκας τυριού x με αύξηση της ευαισθητοποίησης των καταναλωτών κατά 10% (ως αποτέλεσμα μιας διαφημιστικής καμπάνιας).

Ανάλογα με τον τύπο του προβλήματος που επιλύεται, επιλέγεται ο τύπος της ανάλυσης γραμμικής παλινδρόμησης. Στις περισσότερες περιπτώσεις (1 και 2), χρησιμοποιείται πολλαπλή γραμμική παλινδρόμηση, η οποία εξετάζει την επίδραση πολλών ανεξάρτητων μεταβλητών σε μία εξαρτημένη μεταβλητή. Στην περίπτωση 3, εφαρμόζεται μόνο απλή γραμμική παλινδρόμηση, στην οποία συμμετέχουν μόνο μία ανεξάρτητη και μία εξαρτημένη μεταβλητή. Αυτό οφείλεται στο γεγονός ότι το κύριο αποτέλεσμα της ανάλυσης στην περίπτωση 3 είναι η γραμμή τάσης, η οποία μπορεί να ερμηνευτεί λογικά μόνο σε δισδιάστατο χώρο. ΣΤΟ γενική περίπτωσητο αποτέλεσμα της ανάλυσης παλινδρόμησης είναι η κατασκευή μιας εξίσωσης παλινδρόμησης της μορφής: y = a + b, x, + b2x2 + ... + bn xn, η οποία σας επιτρέπει να υπολογίσετε την τιμή της εξαρτημένης μεταβλητής για διαφορετικές τιμές ​των ανεξάρτητων μεταβλητών.

Στον πίνακα. Το 4.6 παρουσιάζει τα κύρια χαρακτηριστικά των μεταβλητών που εμπλέκονται στην ανάλυση.

Πίνακας 4.6. Κύρια χαρακτηριστικά των μεταβλητών που εμπλέκονται στην ανάλυση γραμμικής παλινδρόμησης

Λόγω του γεγονότος ότι τόσο πολλαπλά όσο και απλή παλινδρόμησηκατασκευάζονται στο SPSS με τον ίδιο τρόπο, εξετάστε τη γενική περίπτωση του πολλαπλού γραμμικής παλινδρόμησηςως η πιο πλήρως αποκαλυπτική της ουσίας της περιγραφόμενης στατιστικής μεθόδου. Ας δούμε πώς να σχεδιάσουμε μια γραμμή τάσης για τους σκοπούς της στατιστικής πρόβλεψης.

Αρχικά δεδομένα:

Σε μια έρευνα, οι ερωτηθέντες που πετούσαν σε μία από τις τρεις κατηγορίες (First, Business ή Economy) κλήθηκαν να βαθμολογήσουν σε μια κλίμακα πέντε βαθμών - από 1 (πολύ κακή) έως 5 (άριστη) - τα ακόλουθα χαρακτηριστικά της υπηρεσίας στην αεροπορική εταιρεία X αεροσκάφος: άνεση καμπίνας, αεροσυνοδοί, γεύματα κατά την πτήση, τιμές εισιτηρίων, αλκοολούχα ποτά, κιτ ανέσεων, προγράμματα ήχου, προγράμματα βίντεο και Τύπος. Ζητήθηκε επίσης από τους ερωτηθέντες να δώσουν μια συνολική (τελική) αξιολόγηση της υπηρεσίας στο αεροσκάφος μιας δεδομένης αεροπορικής εταιρείας.

Κάθε κατηγορία πτήσης απαιτεί:

1) Προσδιορίστε τις πιο σημαντικές παραμέτρους υπηρεσίας επί του σκάφους για τους ερωτηθέντες.

2) Καθορίστε τον αντίκτυπο των αξιολογήσεων ιδιωτικών υπηρεσιών επί του αεροσκάφους στη συνολική εμπειρία των επιβατών μιας πτήσης.

Ανοίξτε το παράθυρο διαλόγου Γραμμική παλινδρόμηση χρησιμοποιώντας το μενού Ανάλυση γραμμικής παλινδρόμησης. Από τη λίστα στα αριστερά, επιλέξτε την εξαρτημένη μεταβλητή για ανάλυση. Αυτή θα είναι η συνολική βαθμολογία της υπηρεσίας στο πλοίο. Τοποθετήστε το στην περιοχή Εξαρτημένη. Στη συνέχεια, στην αριστερή λίστα, επιλέξτε τις ανεξάρτητες μεταβλητές προς ανάλυση: ιδιωτικές παραμέτρους υπηρεσίας ενσωματωμένου αυτοκινήτου - και τοποθετήστε τις στην περιοχή Ανεξάρτητες.

Υπάρχουν διάφορες μέθοδοι για τη διεξαγωγή της ανάλυσης παλινδρόμησης: enter, stepwise, forward και backward. Χωρίς να υπεισέλθουμε σε στατιστικές λεπτότητες, θα πραγματοποιήσουμε μια ανάλυση παλινδρόμησης χρησιμοποιώντας βήμα προς βήμα μέθοδοως το πιο καθολικό και σχετικό για όλα τα παραδείγματα έρευνας μάρκετινγκ.

Εφόσον η εργασία ανάλυσης περιέχει την απαίτηση διεξαγωγής ανάλυσης παλινδρόμησης στο πλαίσιο τριών κατηγοριών πτήσης, επιλέξτε τη μεταβλητή που δηλώνει την κλάση (q5) στην αριστερή λίστα και μετακινήστε την στην περιοχή Μεταβλητή επιλογής. Στη συνέχεια, κάντε κλικ στο κουμπί Κανόνας για να ορίσετε μια συγκεκριμένη τιμή για αυτήν τη μεταβλητή για την ανάλυση παλινδρόμησης. Πρέπει να σημειωθεί ότι σε μία επανάληψη είναι δυνατή η δημιουργία παλινδρόμησης μόνο στο πλαίσιο μιας ενιαίας κατηγορίας πτήσης. Στο μέλλον, όλα τα βήματα θα πρέπει να επαναλαμβάνονται πρώτα από τον αριθμό των τάξεων (3), κάθε φορά επιλέγοντας την επόμενη τάξη.

Εάν δεν χρειάζεται να πραγματοποιήσετε ανάλυση παλινδρόμησης σε οποιαδήποτε ενότητα, αφήστε κενό το πεδίο Μεταβλητή επιλογής.

Έτσι, ανοίγει το πλαίσιο διαλόγου Set Rule στην οθόνη, στο οποίο πρέπει να καθορίσετε για ποια κατηγορία πτήσης θέλετε να δημιουργήσετε ένα μοντέλο παλινδρόμησης. Επιλέξτε την οικονομική θέση με κωδικό 3 (Εικόνα 4.26).

Σε περισσότερα δύσκολες περιπτώσεις, όταν απαιτείται η κατασκευή ενός μοντέλου παλινδρόμησης στο πλαίσιο τριών ή περισσότερων μεταβλητών, θα πρέπει να χρησιμοποιήσετε την επιλογή δεδομένων υπό όρους (βλ. Ενότητα 1.5.1). Για παράδειγμα, εάν, εκτός από την κατηγορία πτήσης, υπάρχει επίσης ανάγκη να κατασκευαστεί ξεχωριστά ένα μοντέλο παλινδρόμησης για τους ερωτηθέντες (άνδρες και γυναίκες), είναι απαραίτητο να επιλέξετε υπό όρους ερωτηματολόγια από άνδρες ερωτηθέντες πριν ανοίξετε το πλαίσιο διαλόγου Γραμμική παλινδρόμηση. Περαιτέρω, πραγματοποιείται ανάλυση παλινδρόμησης σύμφωνα με το περιγραφόμενο σχήμα. Για να δημιουργήσετε μια παλινδρόμηση για τις γυναίκες, θα πρέπει να επαναλάβετε όλα τα βήματα από την αρχή: πρώτα, επιλέξτε μόνο τα ερωτηματολόγια των γυναικών που απάντησαν και στη συνέχεια δημιουργήστε ένα μοντέλο παλινδρόμησης για αυτές.

Κάνοντας κλικ στο κουμπί Συνέχεια στο παράθυρο διαλόγου Ορισμός κανόνα θα επιστρέψετε στο κύριο παράθυρο διαλόγου Γραμμικής παλινδρόμησης. Το τελευταίο βήμα πριν από την έναρξη της διαδικασίας για τη δημιουργία ενός μοντέλου παλινδρόμησης είναι να επιλέξετε το στοιχείο Διαγνωστικά Συγγραμμικότητας στο πλαίσιο διαλόγου που εμφανίζεται όταν κάνετε κλικ στο κουμπί Στατιστικά στοιχεία (Εικ. 4.27). Η θέσπιση απαίτησης για τη διάγνωση της παρουσίας συγγραμμικότητας μεταξύ ανεξάρτητων μεταβλητών αποφεύγει την επίδραση της πολυσυγγραμμικότητας, στην οποία πολλές ανεξάρτητες μεταβλητές μπορούν να έχουν τόσο ισχυρή συσχέτιση που στο μοντέλο παλινδρόμησης σημαίνουν, κατ' αρχήν, το ίδιο πράγμα (αυτό είναι απαράδεκτο) .


Ας εξετάσουμε τα κύρια στοιχεία της αναφοράς δημιουργίας μοντέλου παλινδρόμησης (παράθυρο SPSS Viewer), τα οποία περιέχουν τα πιο σημαντικά δεδομένα για τον ερευνητή. Θα πρέπει να σημειωθεί ότι όλοι οι πίνακες που παρουσιάζονται στην αναφορά Output περιέχουν πολλά μπλοκ που αντιστοιχούν στον αριθμό των βημάτων του SPSS κατά την κατασκευή του μοντέλου. Σε κάθε βήμα, με την προς τα πίσω μέθοδο που χρησιμοποιείται, από πλήρης λίσταΑνεξάρτητες μεταβλητές που εισάγονται στο μοντέλο αρχικά, χρησιμοποιώντας τους μικρότερους συντελεστές μερικής συσχέτισης, οι μεταβλητές αποκλείονται διαδοχικά - έως ότου ο αντίστοιχος συντελεστής παλινδρόμησης δεν είναι σημαντικός (Sig > 0,05). Στο παράδειγμά μας, οι πίνακες αποτελούνται από τρία μπλοκ (η παλινδρόμηση χτίστηκε σε τρία βήματα). Κατά την ερμηνεία των αποτελεσμάτων της ανάλυσης παλινδρόμησης, θα πρέπει να δοθεί προσοχή μόνο στο τελευταίο μπλοκ (στην περίπτωσή μας, 3).

Το πρώτο πράγμα που πρέπει να κοιτάξετε είναι ο πίνακας ANOVA (Εικόνα 4.29). Στο τρίτο βήμα, η στατιστική σημασία (στήλη Sig) πρέπει να είναι μικρότερη ή ίση με 0,05.

Στη συνέχεια, εξετάστε τον πίνακα Περίληψη Μοντέλου, ο οποίος περιέχει σημαντικές πληροφορίες για το ενσωματωμένο μοντέλο (Εικόνα 4.30). Ο συντελεστής προσδιορισμού R είναι χαρακτηριστικό της ισχύος του συνόλου γραμμική σύνδεσημεταξύ μεταβλητών στο μοντέλο παλινδρόμησης. Δείχνει πόσο καλά οι επιλεγμένες ανεξάρτητες μεταβλητές είναι σε θέση να καθορίσουν τη συμπεριφορά της εξαρτημένης μεταβλητής. Όσο υψηλότερος είναι ο συντελεστής προσδιορισμού (που κυμαίνεται από 0 έως 1), τόσο καλύτερες είναι οι επιλεγμένες ανεξάρτητες μεταβλητές στον προσδιορισμό της συμπεριφοράς της εξαρτημένης μεταβλητής. Οι απαιτήσεις για τον συντελεστή R είναι οι ίδιες με τον συντελεστή συσχέτισης (βλ. Πίνακα 4.4): στη γενική περίπτωση, πρέπει να υπερβαίνει τουλάχιστον το 0,5. Στο παράδειγμά μας, R = 0,66, που είναι μια αποδεκτή τιμή.



Επίσης σημαντικό χαρακτηριστικότο μοντέλο παλινδρόμησης είναι ο συντελεστής R2, που δείχνει ποια αναλογία της συνολικής διακύμανσης στην εξαρτημένη μεταβλητή περιγράφεται από το επιλεγμένο σύνολο ανεξάρτητων μεταβλητών. Η τιμή του R2 κυμαίνεται από 0 έως 1. Κατά κανόνα, αυτός ο δείκτης πρέπει να υπερβαίνει το 0,5 (όσο υψηλότερος είναι, τόσο πιο ενδεικτικό είναι το κατασκευασμένο μοντέλο παλινδρόμησης). Στο παράδειγμά μας, R2 =■ 0,43 - αυτό σημαίνει ότι το μοντέλο παλινδρόμησης περιγράφει μόνο το 43% των περιπτώσεων (διακυμάνσεις στην τελική εκτίμηση πτήσης). Έτσι, κατά την ερμηνεία των αποτελεσμάτων της ανάλυσης παλινδρόμησης, θα πρέπει να έχουμε συνεχώς υπόψη έναν σημαντικό περιορισμό: το κατασκευασμένο μοντέλο ισχύει μόνο για το 43% των περιπτώσεων.

Ο τρίτος πρακτικά σημαντικός δείκτης που καθορίζει την ποιότητα του μοντέλου παλινδρόμησης είναι η τιμή του τυπικού σφάλματος των υπολογισμών (στήλη Std. Error of the Estimate). Αυτός ο δείκτης κυμαίνεται από 0 έως 1. Όσο μικρότερος είναι, τόσο πιο αξιόπιστο είναι το μοντέλο (γενικά, ο δείκτης πρέπει να είναι μικρότερος από 0,5). Στο παράδειγμά μας, το σφάλμα είναι 0,42, το οποίο είναι ένα υπερεκτιμημένο αλλά γενικά αποδεκτό αποτέλεσμα.

Με βάση τους πίνακες AN OVA και Model Summary, μπορεί κανείς να κρίνει την πρακτική καταλληλότητα του κατασκευασμένου μοντέλου παλινδρόμησης. Λαμβάνοντας υπόψη ότι το AN OVA δείχνει πολύ υψηλή σημασία (λιγότερο από 0,001), ο συντελεστής προσδιορισμού υπερβαίνει το 0,6 και το τυπικό σφάλμα υπολογισμών είναι μικρότερο από 0,5, μπορούμε να συμπεράνουμε ότι, λαμβάνοντας υπόψη τον περιορισμό, το μοντέλο περιγράφει το 43% του η συνολική διακύμανση, δηλαδή το κατασκευασμένο μοντέλο παλινδρόμησης είναι στατιστικά σημαντική και πρακτικά αποδεκτή.


Αφού έχουμε δηλώσει ένα αποδεκτό επίπεδο ποιότητας του μοντέλου παλινδρόμησης, μπορούμε να αρχίσουμε να ερμηνεύουμε τα αποτελέσματά του. Τα κύρια πρακτικά αποτελέσματα της παλινδρόμησης περιέχονται στον πίνακα Συντελεστών (Εικ. 4.31). Κάτω από τον πίνακα, μπορείτε να δείτε ποια μεταβλητή ήταν η εξαρτημένη μεταβλητή (συνολική βαθμολογία υπηρεσίας στο αεροσκάφος) και για ποια κατηγορία πτήσης δημιουργήθηκε το μοντέλο παλινδρόμησης (οικονομική θέση). Στον πίνακα Συντελεστών, τέσσερις δείκτες είναι πρακτικά σημαντικοί: VIF, Beta, B και Std. λάθος. Ας εξετάσουμε διαδοχικά πώς πρέπει να ερμηνεύονται.

Πρώτα απ 'όλα, είναι απαραίτητο να αποκλειστεί η πιθανότητα μιας κατάστασης πολυσυγγραμμικότητας (βλ. παραπάνω), στην οποία πολλές μεταβλητές μπορούν να υποδηλώνουν σχεδόν το ίδιο πράγμα. Για να το κάνετε αυτό, πρέπει να δείτε την τιμή VIF δίπλα σε κάθε ανεξάρτητη μεταβλητή. Εάν η τιμή αυτού του δείκτη είναι μικρότερη από 10, τότε η επίδραση της πολυσυγγραμμικότητας δεν παρατηρείται και το μοντέλο παλινδρόμησης είναι αποδεκτό για περαιτέρω ερμηνεία. Όσο υψηλότερη είναι η βαθμολογία, τόσο πιο σχετικές είναι οι μεταβλητές. Εάν οποιαδήποτε μεταβλητή υπερβαίνει το 10 VIF, η παλινδρόμηση θα πρέπει να υπολογιστεί ξανά χωρίς αυτήν την ανεξάρτητη μεταβλητή. ΣΤΟ αυτό το παράδειγμαη τιμή του R2 θα μειωθεί αυτόματα και η τιμή του ελεύθερου όρου (σταθερά) θα αυξηθεί, ωστόσο, παρόλα αυτά, το νέο μοντέλο παλινδρόμησης θα είναι πρακτικά πιο αποδεκτό από το πρώτο.

Η πρώτη στήλη του πίνακα Συντελεστών περιέχει τις ανεξάρτητες μεταβλητές που συνθέτουν την εξίσωση παλινδρόμησης (ικανοποιώντας την απαίτηση της στατιστικής σημαντικότητας). Στην περίπτωσή μας, το μοντέλο παλινδρόμησης περιλαμβάνει όλα τα ιδιαίτερα χαρακτηριστικά της υπηρεσίας στο αεροσκάφος, εκτός από τα ηχητικά προγράμματα. Οι εξαιρούμενες μεταβλητές περιέχονται στον πίνακα Εξαιρούμενες μεταβλητές (δεν εμφανίζεται εδώ). Έτσι, μπορούμε να καταλήξουμε στο πρώτο συμπέρασμα ότι η συνολική εμπειρία των επιβατών αεροπορικών μεταφορών από την πτήση επηρεάζεται από επτά παραμέτρους: άνεση καμπίνας, εργασία των αεροσυνοδών, φαγητό κατά τη διάρκεια της πτήσης, αλκοολούχα ποτά, κιτ ευεξίας, προγράμματα βίντεο και Τύπος.

Αφού προσδιορίσουμε τη σύνθεση των παραμέτρων που σχηματίζουν την τελική εντύπωση της πτήσης, μπορούμε να προσδιορίσουμε την κατεύθυνση και την ισχύ της επιρροής κάθε συγκεκριμένης παραμέτρου σε αυτήν. Αυτό σας επιτρέπει να δημιουργήσετε μια στήλη Beta που περιέχει τους τυποποιημένους συντελεστές παλινδρόμησης. Αυτοί οι συντελεστές καθιστούν επίσης δυνατή τη σύγκριση της ισχύος της επιρροής των παραμέτρων μεταξύ τους. Το πρόσημο (+ ή -) μπροστά από τον συντελεστή - δείχνει την κατεύθυνση της σχέσης μεταξύ της ανεξάρτητης και της εξαρτημένης μεταβλητής. Οι θετικοί συντελεστές δείχνουν ότι μια αύξηση στην τιμή αυτής της ιδιωτικής παραμέτρου αυξάνει την εξαρτημένη μεταβλητή (στην περίπτωσή μας, όλες οι ανεξάρτητες μεταβλητές συμπεριφέρονται με παρόμοιο τρόπο). Οι αρνητικοί συντελεστές σημαίνουν ότι όσο αυξάνεται η συγκεκριμένη παράμετρος, η συνολική βαθμολογία μειώνεται. Κατά κανόνα, κατά τον προσδιορισμό της σχέσης μεταξύ εκτιμήσεων παραμέτρων, αυτό υποδεικνύει σφάλμα και σημαίνει, για παράδειγμα, ότι το δείγμα είναι πολύ μικρό.

Για παράδειγμα, εάν ο συντελεστής της παραμέτρου απόδοσης αεροσυνοδού προηγείται του πρόσημου -, θα πρέπει να ερμηνεύεται ως εξής: όσο χειρότερα εργάζονται οι αεροσυνοδοί, τόσο καλύτερη γίνεται η συνολική εμπειρία των επιβατών από την πτήση. Μια τέτοια ερμηνεία δεν έχει νόημα και δεν αντικατοπτρίζει την πραγματική κατάσταση πραγμάτων, δηλαδή ψευδή. Σε αυτήν την περίπτωση, είναι καλύτερο να υπολογίσετε ξανά την παλινδρόμηση χωρίς αυτήν την παράμετρο. τότε η αναλογία διακύμανσης στην τελική βαθμολογία που περιγράφεται από την εξαιρούμενη παράμετρο θα αποδοθεί στη σταθερά (αυξάνοντάς την). Αντίστοιχα, το ποσοστό της συνολικής διακύμανσης που περιγράφεται από το μοντέλο παλινδρόμησης (τιμή R2) θα μειωθεί επίσης. Ωστόσο, αυτό θα αποκαταστήσει τη σημασιολογική συνάφεια.

Τονίζουμε για άλλη μια φορά ότι η παρατήρηση που έγινε ισχύει για την περίπτωσή μας (εκτιμήσεις παραμέτρων). Αρνητικό - οι συντελεστές μπορεί να είναι αληθείς και να αντικατοπτρίζουν σημασιολογικές πραγματικότητες σε άλλες περιπτώσεις. Για παράδειγμα, όταν μια μείωση του εισοδήματος των ερωτηθέντων οδηγεί σε αύξηση της συχνότητας αγορών φθηνών αγαθών. Στον πίνακα μπορείτε να δείτε ότι δύο παράμετροι επηρεάζουν τη συνολική εντύπωση των επιβατών από την πτήση στο μέγιστο βαθμό: η εργασία των αεροσυνοδών και η άνεση της καμπίνας (- συντελεστές 0,21 η καθεμία). Αντίθετα, ο σχηματισμός της τελικής αξιολόγησης της υπηρεσίας επί του πλοίου επέρχεται στο μικρότερο βαθμό λόγω της εντύπωσης εξυπηρέτησης με αλκοολούχα ποτά (0,08). Ταυτόχρονα, οι δύο πρώτες παράμετροι έχουν σχεδόν τρεις φορές περισσότερες ισχυρή επιρροήστην τελική αξιολόγηση της πτήσης παρά

Αλκοολούχα ποτά. Με βάση τυποποιημένους (συντελεστές παλινδρόμησης 3), είναι δυνατό να δημιουργηθεί μια αξιολόγηση της επιρροής των παραμέτρων ιδιωτικής υπηρεσίας στο αεροσκάφος στη συνολική εντύπωση των επιβατών αεροπορικών μεταφορών από την πτήση, χωρίζοντάς τους σε τρεις ομάδες ανάλογα με την ισχύ επιρροής:

■ οι πιο σημαντικές παράμετροι.

■ παράμετροι μέσης σημασίας.

■ παράμετροι που έχουν μικρή σημασία για τους ερωτηθέντες (Εικ. 4.32).

Η πιο δεξιά στήλη περιέχει - συντελεστές πολλαπλασιασμένους επί 100 - για να διευκολυνθεί η σύγκριση των παραμέτρων μεταξύ τους.



Αυτή η βαθμολογία μπορεί επίσης να ερμηνευθεί ως αξιολόγηση σημαντικής για τους ερωτηθέντες με διάφορες παραμέτρους υπηρεσίας επί του σκάφους (στη γενική περίπτωση, ένα σχήμα επιλογής). Ναι, τα περισσότερα σημαντικούς παράγοντεςείναι οι δύο πρώτοι (1-2). Οι ακόλουθες τρεις παράμετροι (3-5) έχουν μέση σημασία για τους επιβάτες. Οι δύο τελευταίοι παράγοντες (6-7) έχουν σχετικά μικρή σημασία.

Η ανάλυση παλινδρόμησης σάς επιτρέπει να προσδιορίσετε τα αληθινά, βαθιά κίνητρα των ερωτηθέντων στο σχηματισμό μιας γενικής εντύπωσης ενός προϊόντος. Όπως δείχνει η πρακτική, αυτό το επίπεδο προσέγγισης δεν μπορεί να επιτευχθεί με συμβατικές μεθόδους - για παράδειγμα, απλώς ρωτώντας τους ερωτηθέντες: Ποιος από τους παρακάτω παράγοντες έχει τη μεγαλύτερη επίδραση στη συνολική εμπειρία σας από τις πτήσεις με την αεροπορική μας εταιρεία; Επιπλέον, η ανάλυση παλινδρόμησης καθιστά δυνατή την ακριβή αξιολόγηση του τρόπου με τον οποίο μια παράμετρος είναι περισσότερο ή λιγότερο σημαντική για τους ερωτηθέντες από μια άλλη, και σε αυτή τη βάση ταξινομεί τις παραμέτρους ως κρίσιμες, μέτριας σημασίας και μικρής σημασίας.

Η στήλη Β του πίνακα Συντελεστές περιέχει τους συντελεστές παλινδρόμησης (μη τυποποιημένοι). Χρησιμεύουν για να σχηματίσουν την ίδια την εξίσωση παλινδρόμησης, σύμφωνα με την οποία είναι δυνατός ο υπολογισμός της τιμής της εξαρτημένης μεταβλητής στο διαφορετικές έννοιεςανεξάρτητος.

Η ειδική συμβολοσειρά Constant περιέχει σημαντικές πληροφορίεςσχετικά με το ληφθέν μοντέλο παλινδρόμησης: η τιμή της εξαρτημένης μεταβλητής στο μηδενικές τιμέςανεξάρτητες μεταβλητές. Όσο μεγαλύτερη είναι η τιμή της σταθεράς, τόσο χειρότερη είναι η επιλεγμένη λίστα ανεξάρτητων μεταβλητών κατάλληλη για την περιγραφή της συμπεριφοράς της εξαρτημένης μεταβλητής. Στη γενική περίπτωση, πιστεύεται ότι η σταθερά δεν πρέπει να είναι ο μεγαλύτερος συντελεστής στην εξίσωση παλινδρόμησης (ο συντελεστής για τουλάχιστον μία μεταβλητή πρέπει να είναι μεγαλύτερος από τη σταθερά). Ωστόσο, στην πρακτική της έρευνας μάρκετινγκ, ο δωρεάν όρος συχνά αποδεικνύεται μεγαλύτερος από όλους τους συντελεστές μαζί. Αυτό οφείλεται κυρίως στα σχετικά μικρά μεγέθη δειγμάτων με τα οποία πρέπει να εργαστούν οι έμποροι, καθώς και στην ανακριβή συμπλήρωση ερωτηματολογίων (ορισμένοι ερωτηθέντες μπορεί να μην αξιολογήσουν καμία παράμετρο). Στην περίπτωσή μας, η τιμή της σταθεράς είναι μικρότερη από 1, που είναι ένα πολύ καλό αποτέλεσμα.

Έτσι, ως αποτέλεσμα της κατασκευής ενός μοντέλου παλινδρόμησης, μπορούμε να σχηματίσουμε την ακόλουθη εξίσωση παλινδρόμησης:

SB \u003d 0,78 + 0,20K + 0,20B + 0,08PP + 0,07C + 0D0N + 0,08V + 0D2P, όπου

■ SB - γενική αξιολόγηση της υπηρεσίας επί του πλοίου.

■ K - άνεση καμπίνας.

■ Β - εργασία αεροσυνοδών.

■ PP - γεύματα κατά τη διάρκεια της πτήσης.

■ Γ - αλκοολούχα ποτά.

■ H - κιτ δρόμου.

■ B - πρόγραμμα βίντεο.

■ P - πιέστε.

Ο τελευταίος δείκτης στον οποίο συνιστάται να προσέχετε κατά την ερμηνεία των αποτελεσμάτων της ανάλυσης παλινδρόμησης είναι το τυπικό σφάλμα που υπολογίζεται για κάθε συντελεστή στην εξίσωση παλινδρόμησης (στήλη Std. Error). στο 95% επίπεδο αυτοπεποίθησηςκάθε συντελεστής μπορεί να αποκλίνει από το B κατά ±2 x Std. λάθος. Αυτό σημαίνει ότι, για παράδειγμα, ο συντελεστής για την παράμετρο άνεσης καμπίνας (ίσος με 0,202) στο 95% των περιπτώσεων μπορεί να αποκλίνει από δεδομένη αξίακατά ±2 x 0,016 ή κατά ±0,032. Η ελάχιστη τιμή του συντελεστή θα είναι 0,202 - 0,032 = 0,17. και το μέγιστο είναι 0,202 + 0,032 = 0,234. Έτσι, στο 95% των περιπτώσεων, ο συντελεστής για την παράμετρο «άνεση καμπίνας» κυμαίνεται από 0,17 έως 0,234 (με μέση τιμή 0,202). Σε αυτό το σημείο, η ερμηνεία των αποτελεσμάτων της ανάλυσης παλινδρόμησης μπορεί να θεωρηθεί πλήρης. Στην περίπτωσή μας, θα πρέπει να επαναλάβετε όλα τα βήματα ξανά: πρώτα για επαγγελματικούς λόγους και μετά για οικονομική θέση.

Ας εξετάσουμε τώρα μια άλλη περίπτωση όπου πρέπει να αναπαραστήσουμε γραφικά τη σχέση μεταξύ δύο μεταβλητών (μία εξαρτημένη και μια ανεξάρτητη) χρησιμοποιώντας ανάλυση παλινδρόμησης. Για παράδειγμα, εάν πάρουμε την τελική βαθμολογία της πτήσης από την αεροπορική εταιρεία X το 2001 ως εξαρτημένη μεταβλητή S, και το ίδιο σχήμα το 2000 με την ανεξάρτητη μεταβλητή So, τότε για να κατασκευάσουμε την εξίσωση τάσης (ή την εξίσωση παλινδρόμησης), θα χρειαστούμε για τον προσδιορισμό των παραμέτρων της σχέσης S, = a + b x So. Έχοντας χτίσει δεδομένη εξίσωση, είναι επίσης δυνατό να δημιουργηθεί μια γραμμή παλινδρόμησης και, γνωρίζοντας την αρχική τελική εκτίμηση της πτήσης, να προβλέψουμε την τιμή αυτής της παραμέτρου για το επόμενο έτος.

Αυτή η λειτουργία θα πρέπει να ξεκινήσει με την κατασκευή μιας εξίσωσης παλινδρόμησης. Για να το κάνετε αυτό, επαναλάβετε όλα τα παραπάνω βήματα για δύο μεταβλητές: την εξαρτημένη τελική εκτίμηση 2001 και την ανεξάρτητη τελική εκτίμηση 2000. Θα λάβετε συντελεστές με τους οποίους μπορείτε αργότερα να δημιουργήσετε μια γραμμή τάσης (τόσο στο SPSS όσο και με οποιοδήποτε άλλο μέσο). Στην περίπτωσή μας, η εξίσωση παλινδρόμησης που προκύπτει είναι: S( = 0,18 + 0,81 x So. Τώρα ας δημιουργήσουμε την εξίσωση γραμμής τάσης στο SPSS.


Το πλαίσιο διαλόγου Γραμμική παλινδρόμηση έχει ένα ενσωματωμένο εργαλείο σχεδίασης - το κουμπί Plots. Ωστόσο, αυτό το εργαλείο, δυστυχώς, δεν επιτρέπει τη γραφική παράσταση δύο μεταβλητών σε ένα γράφημα: S και So - Για να δημιουργήσετε μια τάση, πρέπει να χρησιμοποιήσετε το μενού Graphs Scatter. Στην οθόνη θα εμφανιστεί το πλαίσιο διαλόγου Scatterplot (Εικ. 4.32), το οποίο χρησιμεύει για την επιλογή του τύπου του γραφήματος. Επιλέξτε την Απλή προβολή. Ο μέγιστος δυνατός αριθμός ανεξάρτητων μεταβλητών που μπορούν να εμφανιστούν γραφικά είναι 2. Επομένως, εάν είναι απαραίτητο να σχεδιάσουμε γραφικά την εξάρτηση μιας μεταβλητής (εξαρτώμενη) από δύο ανεξάρτητες (για παράδειγμα, αν είχαμε δεδομένα όχι για δύο, αλλά για τρία χρόνια), στο παράθυρο το Scatterplot θα πρέπει να είναι 3-D. Το σχήμα για την κατασκευή ενός τρισδιάστατου διαγράμματος διασποράς δεν διαφέρει σημαντικά από την περιγραφόμενη μέθοδο για την κατασκευή ενός δισδιάστατου διαγράμματος.

Αφού κάνετε κλικ στο κουμπί Ορισμός, θα εμφανιστεί ένα νέο πλαίσιο διαλόγου στην οθόνη, που φαίνεται στην Εικ. 4.34. Τοποθετήστε την εξαρτημένη μεταβλητή (Τελική εκτίμηση 2001) στο πλαίσιο Άξονας Υ και την ανεξάρτητη μεταβλητή (Τελική εκτίμηση 2000) στο πλαίσιο Άξονας Χ. Κάντε κλικ στο κουμπί 0 K για να σχεδιάσετε ένα διάγραμμα διασποράς.

Για να δημιουργήσετε μια γραμμή τάσης, κάντε διπλό κλικ στο γράφημα που προκύπτει. ανοίγει το παράθυρο επεξεργασίας γραφημάτων SPSS. Σε αυτό το παράθυρο, επιλέξτε το στοιχείο μενού Επιλογές γραφήματος. στη συνέχεια το στοιχείο Σύνολο στην περιοχή Fit Line. κάντε κλικ στο κουμπί Fit Options. Θα ανοίξει το πλαίσιο διαλόγου Fit Line, επιλέξτε τον τύπο γραμμής προσαρμογής (στην περίπτωσή μας, Γραμμική παλινδρόμηση) και το στοιχείο Εμφάνιση R-square στο υπόμνημα. Μετά το κλείσιμο του παραθύρου επεξεργασίας γραφημάτων SPSS, θα εμφανιστεί μια γραμμική τάση στο παράθυρο του SPSS Viewer, προσεγγίζοντας τις παρατηρήσεις μας χρησιμοποιώντας τη μέθοδο ελάχιστα τετράγωνα. Επίσης, το διάγραμμα θα αντικατοπτρίζει την τιμή του R2, η οποία, όπως προαναφέρθηκε, υποδεικνύει το μερίδιο της σωρευτικής διακύμανσης που περιγράφεται από αυτό το μοντέλο (Εικ. 4.35). Στο παράδειγμά μας, είναι 53%.

Αυτός ο συντελεστής εισάγεται στην έρευνα μάρκετινγκ για τη διευκόλυνση της σύγκρισης της ελκυστικότητας των αναλυόμενων προϊόντων/εμπορικών σημάτων για τους ερωτηθέντες. Το ερωτηματολόγιο θα πρέπει να περιλαμβάνει ερωτήσεις όπως Βαθμολογήστε τις παρουσιαζόμενες παραμέτρους του προϊόντος/μάρκας X, στις οποίες ζητείται από τους ερωτηθέντες να βαθμολογήσουν συγκεκριμένες παραμέτρους του προϊόντος ή της μάρκας Χ σε, ας πούμε, μια κλίμακα πέντε βαθμών (από 1 - πολύ κακή έως 5 - εξαιρετική ). Στο τέλος της λίστας των αξιολογούμενων ιδιωτικών παραμέτρων, οι ερωτώμενοι πρέπει να βάλουν την τελική αξιολόγηση του προϊόντος/μάρκας X. Κατά την ανάλυση των απαντήσεων που ελήφθησαν κατά τη διάρκεια της έρευνας, με βάση τις εκτιμήσεις των ερωτηθέντων, διαμορφώνονται τα εξής:

2 στο υψηλό επίπεδοβαθμοί (σταθμισμένος μέσος όρος βαθμολογίας ≥ 4,5)

1 στο μέσο επίπεδο αξιολόγησης (σταθμισμένος μέσος όρος βαθμολογίας ≥4,0 και< 4,5)

1 για χαμηλή βαθμολογία (σταθμισμένη μέση βαθμολογία ≥3,0 και< 4,0)

2 με μη ικανοποιητική αξιολόγηση (σταθμισμένος μέσος όρος< 3,0)

Ο συντελεστής CA που υπολογίζεται για κάθε ανταγωνιστικό προϊόν/μάρκα δείχνει τη σχετική θέση του/της στη δομή των προτιμήσεων των καταναλωτών. Αυτός ο ολοκληρωμένος δείκτης λαμβάνει υπόψη το επίπεδο των αξιολογήσεων για κάθε παράμετρο, προσαρμοσμένο για τη σημασία τους. Ταυτόχρονα, μπορεί να ποικίλλει από -1 (η χειρότερη σχετική θέση μεταξύ όλων των εξεταζόμενων προϊόντων/εμπορικών σημάτων) έως 1 ( καλύτερη θέση) 0 σημαίνει ότι αυτό το προϊόν/μάρκα δεν ξεχωρίζει με κανέναν τρόπο στα μάτια των ερωτηθέντων.

Ολοκληρώνουμε την εξέταση της συνειρμικής ανάλυσης. Αυτή η ομάδα στατιστικών μεθόδων χρησιμοποιείται σήμερα ευρέως σε εγχώριες εταιρείες (ειδικά για διανομές). Ταυτόχρονα, θα θέλαμε να τονίσουμε ότι οι συνειρμικές μέθοδοι δεν περιορίζονται μόνο σε διασταυρούμενες διανομές. Για τη διεξαγωγή πραγματικά σε βάθος ανάλυσης, το φάσμα των εφαρμοζόμενων τεχνικών θα πρέπει να επεκταθεί με τις μεθόδους που περιγράφονται σε αυτό το κεφάλαιο.


Στους προγνωστικούς υπολογισμούς, η εξίσωση παλινδρόμησης καθορίζει το προβλεπόμενο τιμή ως πρόβλεψη σημείου στο , δηλαδή με αντικατάσταση στην εξίσωση παλινδρόμησης αντίστοιχη αξία Χ.Ωστόσο, η πρόβλεψη δεν είναι σαφώς ρεαλιστική. Επομένως, συμπληρώνεται από τον υπολογισμό του τυπικού σφάλματος, δηλ. και, κατά συνέπεια, μια ενδιάμεση εκτίμηση της προβλεπόμενης τιμής (y*)

Για να κατανοήσετε πώς δημιουργείται ο τύπος για τον προσδιορισμό των τιμών του μέσου τετραγώνου σφάλματος, Ας στραφούμε στην εξίσωση παλινδρόμησης γραμμικού ζεύγους:

Με γνωστό τρόπο, βρίσκουμε τη διακύμανση του μοντέλου ζευγαρωμένης γραμμικής παλινδρόμησης:

(3.29)

Λαμβάνοντας υπόψη τις εκφράσεις (3.24) και (3.25), γράφουμε πρώτα:

Μετά από απλούς μετασχηματισμούς, τελικά παίρνουμε:

(3.30)

Από εδώ προχωράμε στο μέσο τετραγωνικό σφάλμα του μοντέλου ζευγαρωμένης γραμμικής παλινδρόμησης:

Ο εξεταζόμενος τύπος είναι το ριζικό μέσο τετραγωνικό σφάλμα του προβλεπόμενου μέσου όρου y στο καθορισμένη τιμή χαρακτηρίζει το σφάλμα θέσης της γραμμής παλινδρόμησης. Τυπική τιμή σφάλματος , όπως φαίνεται από τον τύπο, φτάνει στο ελάχιστο στο , και αυξάνεται καθώς απομακρύνεται από προς οποιαδήποτε κατεύθυνση. Με άλλα λόγια, τόσο μεγαλύτερη είναι η διαφορά μεταξύ και Χ, τόσο μεγαλύτερο είναι το σφάλμα με την οποία προβλέπεται η μέση τιμή yΓιακαθορισμένη τιμή. Μπορείτε να περιμένετε τα καλύτερα αποτελέσματα πρόβλεψης εάν ο παράγοντας πρόσημο Χβρίσκεται στο κέντρο της περιοχής παρατήρησης Χκαι δεν μπορεί κανείς να περιμένει καλά αποτελέσματα πρόβλεψης κατά την αφαίρεση από . Εάν η τιμή είναι έξω από τις παρατηρούμενες τιμές Χ,χρησιμοποιείται στην κατασκευή μιας γραμμικής παλινδρόμησης, τότε τα αποτελέσματα της πρόβλεψης επιδεινώνονται ανάλογα με το πόσο αποκλίνει από την περιοχή των παρατηρούμενων τιμών του παράγοντα Χ.

Για το παράδειγμά μας θα είναι:

Για την προβλεπόμενη τιμή, 95% διαστήματα εμπιστοσύνης για ένα δεδομένο ορίζονται από την έκφραση

Για 95% πιθανότητα τότε 26.04.

Στο , προβλεπόμενη τιμή yθα είναι:

που είναι σημειακή πρόβλεψη.

Η πρόβλεψη της γραμμής παλινδρόμησης στο διάστημα θα είναι:

Ωστόσο, οι πραγματικές αξίες στοποικίλλουν γύρω από το μέσο όρο. Ατομικές αξίες στομπορεί να αποκλίνει από με το ποσό του τυχαίου σφάλματος , η διακύμανση του οποίου εκτιμάται ως υπολειμματική διασποράένας βαθμός ελευθερίας . Επομένως, η προβλεπόμενη ατομική αξία y πρέπει να περιλαμβάνει όχι μόνο τυπικό σφάλμα, αλλά και τυχαίο σφάλμα μικρό.

Μέσο σφάλμα της προβλεπόμενης μεμονωμένης τιμής y θα είναι:

Σύμφωνα με το παραπάνω παράδειγμα, παίρνουμε:

Διαστήματα εμπιστοσύνης για την πρόβλεψη μεμονωμένων τιμών yμε πιθανότητα 0,95 θα είναι:, ή 141,57, αυτό σημαίνει ότι.

Το διάστημα είναι αρκετά μεγάλο, κυρίως λόγω του μικρού όγκου των παρατηρήσεων.

Κατά την πρόβλεψη με βάση την εξίσωση παλινδρόμησης, θα πρέπει να θυμόμαστε ότι το μέγεθος της πρόβλεψης δεν εξαρτάται μόνο από το τυπικό σφάλμα της μεμονωμένης τιμής y,αλλά και στην ακρίβεια της πρόβλεψης της τιμής του συντελεστή Χ.Η τιμή του μπορεί να οριστεί με βάση μια ανάλυση άλλων μοντέλων με βάση μια συγκεκριμένη κατάσταση, καθώς και μια ανάλυση της δυναμικής αυτού του παράγοντα.

Ο εξεταζόμενος τύπος για το μέσο σφάλμα της μεμονωμένης τιμής του χαρακτηριστικού y μπορεί επίσης να χρησιμοποιηθεί για την αξιολόγηση της σημασίας της διαφοράς στην προβλεπόμενη τιμή με βάση το μοντέλο παλινδρόμησης και την υποθετική υπόθεση της εξέλιξης των γεγονότων.

Ας υποθέσουμε ότι στο παράδειγμά μας με τη συνάρτηση κόστους, υποτίθεται ότι το επόμενο έτος, λόγω της σταθεροποίησης της οικονομίας με παραγωγή 8 χιλιάδων μονάδων. το κόστος παραγωγής δεν θα υπερβαίνει τα 250 εκατομμύρια ρούβλια. Αυτό σημαίνει πραγματικά μια αλλαγή στο μοτίβο που βρέθηκε ή αυτή η τιμή κόστους αντιστοιχεί στο μοντέλο παλινδρόμησης;

Για να απαντήσουμε σε αυτήν την ερώτηση, βρίσκουμε μια πρόβλεψη σημείων για Χ= 8, δηλ.

Η εκτιμώμενη αξία κόστους, με βάση την οικονομική κατάσταση, είναι 250,0. Για να εκτιμήσουμε τη σημασία της διαφοράς μεταξύ αυτών των τιμών, προσδιορίζουμε το μέσο σφάλμα της προβλεπόμενης μεμονωμένης τιμής:

Ας το συγκρίνουμε με την αξία της αναμενόμενης μείωσης του κόστους παραγωγής, δηλαδή:

Εφόσον αξιολογείται η σημασία μόνο των μειώσεων του κόστους, χρησιμοποιείται ένα μονόπλευρο Student's t-test. Με σφάλμα 5% με πέντε βαθμούς ελευθερίας. Ως εκ τούτου, η εκτιμώμενη μείωση του κόστους είναι σημαντικά διαφορετική από αυτή που προβλέπει το μοντέλο στο επίπεδο εμπιστοσύνης 95%. Ωστόσο, εάν η πιθανότητα αυξηθεί στο 99%, με σφάλμα 1%, η πραγματική τιμή του κριτηρίου αποδεικνύεται χαμηλότερη από την τιμή του πίνακα των 3,365 και η εξεταζόμενη διαφορά στο ποσό του κόστους δεν είναι στατιστικά σημαντική.

Η πρόβλεψη σύμφωνα με την εξίσωση παλινδρόμησης είναι μια αντικατάσταση στην εξίσωση παλινδρόμησης της αντίστοιχης τιμής Χ . Μια τέτοια πρόβλεψη που ονομάζεται σημείο.Δεν είναι ακριβές, επομένως συμπληρώνεται από τον υπολογισμό του τυπικού σφάλματος ; αποδεικνύεται εκτίμηση διαστήματοςπροβλεπόμενη τιμή:

Ας μετατρέψουμε την εξίσωση παλινδρόμησης:

το σφάλμα εξαρτάται από το σφάλμα και σφάλματα συντελεστή παλινδρόμησης σι , δηλ. .

Είναι γνωστό από τη δειγματοληπτική θεωρία ότι .

Χρησιμοποιούμε την υπολειπόμενη διακύμανση ανά ένα βαθμό ελευθερίας S 2 ως εκτίμηση s 2 , παίρνουμε: .

Σφάλμα συντελεστή παλινδρόμησης από τον τύπο (15):

Έτσι, στο x=x k παίρνουμε:

(31)

Όπως φαίνεται από τον τύπο, η τιμή φτάνει στο ελάχιστο και αυξάνεται με την απόσταση από οποιαδήποτε κατεύθυνση.

Για το παράδειγμά μας, αυτή η τιμή θα είναι:

στις , Στο x k = 4

Για την προβλεπόμενη τιμή 95% διαστήματα εμπιστοσύνηςδεδομένος x kορίζεται από την έκφραση:

εκείνοι. στο x k=4 ±2,57-3,34 ή ±8,58. Στο x k=4 η προβλεπόμενη τιμή θα είναι

στη σελ\u003d -5,79 + 36,84 4 \u003d 141,57 - αυτή είναι μια πρόβλεψη σημείου.

Η πρόβλεψη της γραμμής παλινδρόμησης βρίσκεται στο διάστημα: 132,99 150,15.

Έχουμε εξετάσει τα διαστήματα εμπιστοσύνης για μέση τιμή στοδεδομένος Χ.Ωστόσο, οι πραγματικές αξίες στο ποικίλλουν γύρω από το μέσο όρο , μπορούν να αποκλίνουν κατά το ποσό του τυχαίου σφάλματος μι , η διακύμανση της οποίας υπολογίζεται ως η υπολειπόμενη διακύμανση ανά ένα βαθμό ελευθερίας S2.Επομένως, το σφάλμα πρόβλεψης ξεχωριστό νόημα στο θα πρέπει να περιλαμβάνει όχι μόνο τυπικό αλλά και τυχαίο σφάλμα μικρό . Έτσι, το μέσο σφάλμα πρόβλεψης μιας μεμονωμένης τιμής yθα είναι:

(33)

Για παράδειγμα:

Διάστημα Εμπιστοσύνης Πρόβλεψης ατομικές αξίες στοστο x k\u003d 4 με πιστότητα 0,95 θα είναι:. 141,57 ±2,57 8,01 ή 120,98 ≤ y r ≤ 162,16.

Ας υποθέσει το παράδειγμα με τη συνάρτηση κόστους ότι το επόμενο έτος, λόγω της σταθεροποίησης της οικονομίας, το κόστος παραγωγής 8 χιλιάδων μονάδων. τα προϊόντα δεν θα υπερβαίνουν τα 250 εκατομμύρια ρούβλια. Αλλάζει αυτό το μοτίβο που βρέθηκε ή το κόστος ταιριάζει με το μοντέλο παλινδρόμησης;

Σημειακή πρόβλεψη: = -5,79 + 36,84 8 = 288,93. Η εκτιμώμενη τιμή είναι 250. Μέσο σφάλμαπρογνωστική ατομική αξία:

Συγκρίνετε το με την αναμενόμενη μείωση του κόστους παραγωγής, δηλ. 250-288,93= -38,93:

Εφόσον αξιολογείται μόνο η σημασία των μειώσεων κόστους, χρησιμοποιείται μια μονόδρομη προσέγγιση. t~Κριτήριο μαθητή. Με σφάλμα 5% με n-2=5 τραπέζι t=2,015, επομένως η εκτιμώμενη μείωση του κόστους είναι σημαντικά διαφορετική από την προβλεπόμενη τιμή στο επίπεδο εμπιστοσύνης 95%. Ωστόσο, αν αυξήσουμε την πιθανότητα στο 99%, με σφάλμα 1%, η πραγματική τιμή t-το κριτήριο είναι κάτω από τον πίνακα 3.365 και η διαφορά στο κόστος δεν είναι στατιστικά σημαντική, δηλ. το κόστος είναι συνεπές με το προτεινόμενο μοντέλο παλινδρόμησης.

Μη γραμμική παλινδρόμηση

Μέχρι στιγμής έχουμε σκεφτεί μόνο γραμμικόςμοντέλο παλινδρόμησης στο από Χ (3). Ταυτόχρονα, πολλοί σημαντικοί κρίκοι στην οικονομία είναι μη γραμμικό.Παραδείγματα αυτού του είδους μοντέλων παλινδρόμησης είναι οι συναρτήσεις παραγωγής (εξαρτήσεις μεταξύ του όγκου της παραγωγής και των κύριων συντελεστών παραγωγής - εργασία, κεφάλαιο, κ.λπ.) και οι συναρτήσεις ζήτησης (εξαρτήσεις μεταξύ της ζήτησης για οποιοδήποτε είδος αγαθών ή υπηρεσιών, από το ένα από το χέρι, και το εισόδημα και τις τιμές για αυτό και άλλα αγαθά - από την άλλη).

Κατά την ανάλυση των εξαρτήσεων μη γραμμικής παλινδρόμησης, τα περισσότερα σημαντικό θέμαΗ εφαρμογή των κλασικών ελαχίστων τετραγώνων είναι ένας τρόπος γραμμικοποίησής τους. Στην περίπτωση γραμμικοποίησης μιας μη γραμμικής εξάρτησης, λαμβάνουμε μια εξίσωση γραμμικής παλινδρόμησης του τύπου (3), οι παράμετροι της οποίας υπολογίζονται από τα συνηθισμένα ελάχιστα τετράγωνα, μετά την οποία μπορεί να γραφεί η αρχική μη γραμμική σχέση.

Κάπως διαφορετικό από αυτή την έννοια είναι το πολυωνυμικό μοντέλο αυθαίρετου βαθμού:

στα οποία μπορούν να εφαρμοστούν συμβατικά ελάχιστα τετράγωνα χωρίς προηγούμενη γραμμικοποίηση.

Θεωρήστε αυτή τη διαδικασία όπως εφαρμόζεται σε μια παραβολή δεύτερου βαθμού:

(35)

Μια τέτοια εξάρτηση είναι κατάλληλη εάν, για ένα ορισμένο εύρος τιμών παραγόντων, μια αυξανόμενη εξάρτηση μεταβάλλεται σε φθίνουσα ή αντίστροφα. Σε αυτή την περίπτωση, είναι δυνατό να προσδιοριστεί η τιμή του παράγοντα στον οποίο το μέγιστο ή ελάχιστη τιμήαποτελεσματικό σημάδι. Εάν τα αρχικά δεδομένα δεν δείχνουν αλλαγή στην κατεύθυνση της σύνδεσης, οι παράμετροι της παραβολής γίνονται δύσκολο να ερμηνευτούν και είναι προτιμότερο να αντικατασταθεί η μορφή της σύνδεσης με άλλα μη γραμμικά μοντέλα.

Η χρήση των ελαχίστων τετραγώνων για την εκτίμηση των παραμέτρων μιας παραβολής δεύτερου βαθμού περιορίζεται στη διαφοροποίηση του αθροίσματος των τετραγώνων των υπολειμμάτων παλινδρόμησης για καθεμία από τις εκτιμώμενες παραμέτρους και στην εξίσωση των παραστάσεων που προκύπτουν στο μηδέν. Αποδεικνύεται το σύστημα κανονικές εξισώσεις, ο αριθμός των οποίων είναι ίσος με τον αριθμό των εκτιμώμενων παραμέτρων, δηλ. τρία:

(36)

Αυτό το σύστημα μπορεί να επιλυθεί με οποιονδήποτε τρόπο, ιδίως με τη μέθοδο των προσδιοριστικών παραγόντων.

Η ακραία τιμή της συνάρτησης παρατηρείται στην τιμή του παράγοντα ίση με:

Αν ένα b>0, s<0, υπάρχει μέγιστο, δηλ. η εξάρτηση πρώτα αυξάνεται και μετά μειώνεται. Αυτό το είδος εξάρτησης παρατηρείται στα οικονομικά της εργασίας κατά τη μελέτη μισθοίεργάτες, όταν η ηλικία είναι ένας παράγοντας. Στο σι<0, с>0 η παραβολή έχει ένα ελάχιστο, το οποίο συνήθως εκδηλώνεται στο κόστος παραγωγής ανά μονάδα ανάλογα με τον όγκο της παραγωγής.

Σε μη γραμμικές εξαρτήσεις που δεν είναι κλασικά πολυώνυμα, πραγματοποιείται αναγκαστικά μια προκαταρκτική γραμμικοποίηση, η οποία συνίσταται στον μετασχηματισμό είτε μεταβλητών είτε παραμέτρων μοντέλου είτε σε συνδυασμό αυτών των μετασχηματισμών. Ας εξετάσουμε μερικές κατηγορίες τέτοιων εξαρτήσεων.

Οι εξαρτήσεις υπερβολικού τύπου έχουν τη μορφή:

(37)

Ένα παράδειγμα τέτοιας εξάρτησης είναι η καμπύλη Phillips, η οποία δηλώνει την αντίστροφη σχέση μεταξύ του ποσοστού αύξησης των μισθών και του ποσοστού ανεργίας. Σε αυτήν την περίπτωση, η τιμή της παραμέτρου σι θα είναι μεγαλύτερο από το μηδέν. Ένα άλλο παράδειγμα εξάρτησης (37) είναι οι καμπύλες Engel, οι οποίες διατυπώνουν το ακόλουθο μοτίβο: με την αύξηση του εισοδήματος, το μερίδιο του εισοδήματος που δαπανάται για τρόφιμα μειώνεται και το μερίδιο του εισοδήματος που δαπανάται σε μη τρόφιμα θα αυξηθεί. Σε αυτήν την περίπτωση σι<0 , και το χαρακτηριστικό που προκύπτει στο (37) δείχνει το μερίδιο των δαπανών για μη εδώδιμα προϊόντα.

Η γραμμικοποίηση της εξίσωσης (37) ανάγεται στην αντικατάσταση του παράγοντα z=1/x , και η εξίσωση παλινδρόμησης έχει τη μορφή (3), στην οποία αντί για τον παράγοντα Χ χρησιμοποιήστε τον παράγοντα z:

Στο ίδιο γραμμική εξίσωσηη ημι-λογαριθμική καμπύλη μειώνεται:

(39)

που μπορεί να χρησιμοποιηθεί για να περιγράψει τις καμπύλες Engel. Εδώ 1p(x) αντικαθίσταται από z , και προκύπτει η εξίσωση (38).

Μια αρκετά ευρεία κατηγορία οικονομικών δεικτών χαρακτηρίζεται από περίπου σταθερό ρυθμό σχετικής ανάπτυξης με την πάροδο του χρόνου. Αυτό αντιστοιχεί σε εξαρτήσεις εκθετικού (εκθετικού) τύπου, οι οποίες γράφονται ως:

ή στη μορφή

Είναι δυνατή η ακόλουθη εξάρτηση:

Σε παλινδρομήσεις τύπου (40) - (42), χρησιμοποιείται η ίδια μέθοδος γραμμικοποίησης - λογάριθμος. Η εξίσωση (40) ανάγεται στη μορφή:

(43)

Μεταβλητή αντικατάσταση Υ= Σε υτο μειώνει σε γραμμική μορφή:

(44)

όπου . Αν ένα μιικανοποιεί τις συνθήκες Gauss-Markov, οι παράμετροι της εξίσωσης (40) υπολογίζονται με τα ελάχιστα τετράγωνα από την εξίσωση (44). Η εξίσωση (41) ανάγεται στη μορφή:

που διαφέρει από το (43) μόνο με τη μορφή του ελεύθερου όρου και η γραμμική εξίσωση μοιάζει με αυτό:

Υ=Α+βχ+Ε(46)

όπου Α= ln ένα. Επιλογές ΑΛΛΑκαι σιλαμβάνονται από τα συνηθισμένα ελάχιστα τετράγωνα και μετά την παράμετρο ένα στην εξάρτηση (41) λαμβάνεται ως αντιλογάριθμος ΑΛΛΑ.Όταν παίρνουμε τον λογάριθμο (42), λαμβάνουμε μια γραμμική εξάρτηση:

Υ=Α+Βχ+Ε(47)

όπου σι=ln σι, και η υπόλοιπη σημείωση είναι η ίδια με την παραπάνω. Εδώ, το LSM εφαρμόζεται επίσης στα μετασχηματισμένα δεδομένα και στην παράμετρο σι για το (42) λαμβάνεται ως ο αντιλογάριθμος του συντελεστή ΣΤΟ.

Πλατύς κοινόςστην πρακτική της κοινωνικοοικονομικής έρευνας, εξαρτήσεις εξουσίας. Χρησιμοποιούνται για την κατασκευή και ανάλυση συναρτήσεων παραγωγής. Στις λειτουργίες προβολής:

ιδιαίτερα πολύτιμο είναι το γεγονός ότι η παράμετρος σι είναι ίσος με τον συντελεστή ελαστικότητας του προκύπτοντος χαρακτηριστικού από τον παράγοντα Χ . Μετασχηματίζοντας το (48) παίρνοντας έναν λογάριθμο, λαμβάνουμε μια γραμμική παλινδρόμηση:

Υ=Α+βΧ+Ε (49)

όπου Υ= ln y,Α= ln α, Χ= ln x, E= ln ε .

Ένας άλλος τύπος μη γραμμικότητας, που ανάγεται σε γραμμική μορφή, είναι η αντίστροφη σχέση:

(50)

Πραγματοποίηση αντικατάστασης και=1/έτος, παίρνουμε:

(51)

Τέλος, πρέπει να σημειωθεί η εξάρτηση του τύπου logistic:

(52)

Το γράφημα της συνάρτησης (52) είναι η λεγόμενη «καμπύλη κορεσμού», η οποία έχει δύο οριζόντιες ασύμπτωτες y=0και y=1/aκαι σημείο καμπής x= ln (β/α), y=1/(2α), καθώς και το σημείο τομής με τον άξονα y y=1/(a+b):

Η εξίσωση (52) ανάγεται σε γραμμική μορφή με την αλλαγή των μεταβλητών u=1/y, z=e - x.

Οποιαδήποτε μη γραμμική εξίσωση παλινδρόμησης, καθώς και μια γραμμική σχέση, συμπληρώνεται από έναν δείκτη συσχέτισης, ο οποίος σε αυτή την περίπτωση ονομάζεται δείκτης συσχέτισης:

(53)

Εδώ είναι η συνολική διακύμανση αποτελεσματικόςσημάδι στο , υπολειπόμενη διακύμανση, που προσδιορίζεται από την εξίσωση μη γραμμικής παλινδρόμησης . Θα πρέπει να σημειωθεί ότι οι διαφορές στα αντίστοιχα ποσά και λαμβάνονται όχι στις μετατρεπόμενες, αλλά στις αρχικές τιμές του ενεργού χαρακτηριστικού. Με άλλα λόγια, κατά τον υπολογισμό αυτών των αθροισμάτων, δεν πρέπει να χρησιμοποιηθούν οι μετασχηματισμένες (γραμμικοποιημένες) εξαρτήσεις, αλλά οι αρχικές μη γραμμικές εξισώσεις παλινδρόμησης. Με άλλο τρόπο, το (53) μπορεί να γραφτεί ως εξής:

(54)

αξία Rείναι εντός 0 ≤ R≤ 1, και όσο πιο κοντά είναι στην ενότητα, τόσο στενότερη σύνδεσηθεωρούνται χαρακτηριστικά, τόσο πιο αξιόπιστη είναι η εξίσωση παλινδρόμησης που βρέθηκε. Σε αυτή την περίπτωση, ο δείκτης συσχέτισης συμπίπτει με τον συντελεστή γραμμικής συσχέτισης στην περίπτωση που ο μετασχηματισμός των μεταβλητών προκειμένου να γραμμικοποιηθεί η εξίσωση παλινδρόμησης δεν πραγματοποιείται με τις τιμές του προκύπτοντος χαρακτηριστικού. Αυτό συμβαίνει με την ημι-λογαριθμική και πολυωνυμική παλινδρόμηση, καθώς και με την ισόπλευρη υπερβολή (37). Έχοντας καθορίσει τον συντελεστή γραμμικής συσχέτισης για γραμμικές εξισώσεις, για παράδειγμα, στο πακέτο Excel χρησιμοποιώντας τη συνάρτηση LINEST, μπορείτε επίσης να τον χρησιμοποιήσετε για μια μη γραμμική σχέση.

Η κατάσταση είναι διαφορετική στην περίπτωση που ο μετασχηματισμός πραγματοποιείται επίσης με την τιμή στο , για παράδειγμα, λαμβάνοντας το αντίστροφο μιας τιμής ή λαμβάνοντας έναν λογάριθμο. Στη συνέχεια η τιμή R,που υπολογίζεται από την ίδια συνάρτηση LINEST θα αναφέρεται στη γραμμική εξίσωση παλινδρόμησης και όχι στην αρχική μη γραμμική εξίσωση και οι τιμές των διαφορών κάτω από τα αθροίσματα στο (54) θα αναφέρονται στις μετασχηματισμένες τιμές και όχι στις αυθεντικά, που δεν είναι το ίδιο πράγμα. Παράλληλα, όπως προαναφέρθηκε, προκειμένου να υπολογίσουμε RΘα πρέπει να χρησιμοποιηθεί η έκφραση (54) που υπολογίζεται από την αρχική μη γραμμική εξίσωση.

Εφόσον ο δείκτης συσχέτισης υπολογίζεται χρησιμοποιώντας την αναλογία των παραγοντικών και των συνολικών τυπικών αποκλίσεων, τότε R2έχει την ίδια σημασία με τον συντελεστή προσδιορισμού. Σε ειδικές μελέτες η αξία R2για μη γραμμικές συνδέσεις ονομάζεται δείκτης προσδιορισμού.

Η αξιολόγηση της σημαντικότητας του δείκτη συσχέτισης πραγματοποιείται με τον ίδιο τρόπο όπως η αξιολόγηση της αξιοπιστίας του συντελεστή συσχέτισης.

Ο δείκτης προσδιορισμού χρησιμοποιείται για τον έλεγχο της σημασίας της εξίσωσης μη γραμμικής παλινδρόμησης γενικά από ΦΑ-Το κριτήριο του Fisher:

(55)

όπου n - αριθμός παρατηρήσεων, Μ -αριθμός παραμέτρων για μεταβλητές Χ . Σε όλες τις περιπτώσεις που εξετάζουμε, εκτός από την πολυωνυμική παλινδρόμηση, Μ=1, για πολυώνυμα (34) m=k, δηλ. μοίρες του πολυωνύμου. αξία t χαρακτηρίζει τον αριθμό των βαθμών ελευθερίας για την παραγοντική τυπική απόκλιση και (p-t-1) -αριθμός βαθμών ελευθερίας για το υπολειπόμενο RMS.

Δείκτης προσδιορισμού R2 μπορεί να συγκριθεί με τον συντελεστή προσδιορισμού r2 για να δικαιολογήσει τη δυνατότητα χρήσης γραμμικής συνάρτησης. Όσο μεγαλύτερη είναι η καμπυλότητα της γραμμής παλινδρόμησης, τόσο μεγαλύτερη είναι η διαφορά μεταξύ τους R2 και r2 . Η εγγύτητα αυτών των δεικτών σημαίνει ότι η μορφή της εξίσωσης παλινδρόμησης δεν πρέπει να είναι περίπλοκη και μπορεί να χρησιμοποιηθεί μια γραμμική συνάρτηση. Στην πράξη, εάν η αξία (R2-r2)δεν υπερβαίνει το 0,1, λοιπόν γραμμική εξάρτησηθεωρείται δικαιολογημένη. Σε αντίθετη περίπτωση, γίνεται αξιολόγηση της σημασίας της διαφοράς στους δείκτες προσδιορισμού, που υπολογίζονται από τα ίδια δεδομένα, μέσω t-Κριτήριο μαθητή:

Εδώ στον παρονομαστή είναι το σφάλμα της διαφοράς (R 2 -r 2),καθορίζεται από τον τύπο:

Αν ένα t >t πίνακας (α; n-m-1),τότε οι διαφορές μεταξύ των δεικτών συσχέτισης είναι σημαντικές και η αντικατάσταση της μη γραμμικής παλινδρόμησης με μια γραμμική είναι ακατάλληλη.

Συμπερασματικά, παρουσιάζουμε τους τύπους για τον υπολογισμό των συντελεστών ελαστικότητας για τις πιο κοινές εξισώσεις παλινδρόμησης.

Στις προηγούμενες σημειώσεις, η εστίαση ήταν συχνά σε μια μεμονωμένη αριθμητική μεταβλητή, όπως οι επιστροφές αμοιβαίων κεφαλαίων, ο χρόνος φόρτωσης ιστοσελίδας ή η κατανάλωση αναψυκτικών. Σε αυτήν και στις επόμενες σημειώσεις, θα εξετάσουμε μεθόδους για την πρόβλεψη των τιμών μιας αριθμητικής μεταβλητής ανάλογα με τις τιμές μιας ή περισσότερων άλλων αριθμητικών μεταβλητών.

Το υλικό θα επεξηγηθεί με ένα διαμπερές παράδειγμα. Πρόβλεψη όγκου πωλήσεων σε κατάστημα ρούχων.Η αλυσίδα καταστημάτων εκπτωτικών ρούχων Sunflowers επεκτείνεται συνεχώς εδώ και 25 χρόνια. Ωστόσο, η εταιρεία δεν έχει επί του παρόντος συστηματική προσέγγιση για την επιλογή νέων καταστημάτων. Η τοποθεσία όπου η εταιρεία σκοπεύει να ανοίξει ένα νέο κατάστημα καθορίζεται με βάση υποκειμενικούς λόγους. Τα κριτήρια επιλογής είναι οι ευνοϊκές συνθήκες ενοικίασης ή η ιδέα του διευθυντή για την ιδανική τοποθεσία του καταστήματος. Φανταστείτε ότι είστε επικεφαλής του Τμήματος Ειδικών Έργων και Προγραμματισμού. Σας έχει ανατεθεί να αναπτύξετε ένα στρατηγικό σχέδιο για το άνοιγμα νέων καταστημάτων. Αυτό το σχέδιο θα πρέπει να περιέχει μια πρόβλεψη ετήσιων πωλήσεων σε καταστήματα που άνοιξαν πρόσφατα. Πιστεύετε ότι η πώληση χώρου σχετίζεται άμεσα με τα έσοδα και θέλετε να συνυπολογίσετε αυτό το γεγονός στη διαδικασία λήψης αποφάσεων. Πώς αναπτύσσετε ένα στατιστικό μοντέλο που προβλέπει ετήσιες πωλήσεις με βάση το νέο μέγεθος καταστήματος;

Συνήθως, η ανάλυση παλινδρόμησης χρησιμοποιείται για την πρόβλεψη των τιμών μιας μεταβλητής. Στόχος του είναι να αναπτύξει ένα στατιστικό μοντέλο που προβλέπει τις τιμές της εξαρτημένης μεταβλητής ή της απόκρισης, από τις τιμές μιας τουλάχιστον ανεξάρτητης ή επεξηγηματικής μεταβλητής. Σε αυτή τη σημείωση, θα εξετάσουμε μια απλή γραμμική παλινδρόμηση - μια στατιστική μέθοδο που σας επιτρέπει να προβλέψετε τις τιμές της εξαρτημένης μεταβλητής Υαπό τις τιμές της ανεξάρτητης μεταβλητής Χ. Οι ακόλουθες σημειώσεις θα περιγράψουν το μοντέλο πολλαπλή παλινδρόμηση, σχεδιασμένο να προβλέπει τις τιμές της ανεξάρτητης μεταβλητής Υαπό τις τιμές πολλών εξαρτημένων μεταβλητών ( X 1 , X 2 , …, X k).

Λήψη σημείωσης σε ή μορφή, παραδείγματα σε μορφή

Τύποι μοντέλων παλινδρόμησης

όπου ρ 1 είναι ο συντελεστής αυτοσυσχέτισης. αν ρ 1 = 0 (χωρίς αυτοσυσχέτιση), ρε≈ 2; αν ρ 1 ≈ 1 (θετική αυτοσυσχέτιση), ρε≈ 0; αν ρ 1 = -1 (αρνητική αυτοσυσχέτιση), ρε ≈ 4.

Στην πράξη, η εφαρμογή του κριτηρίου Durbin-Watson βασίζεται σε σύγκριση της τιμής ρεμε κρίσιμες θεωρητικές αξίες dLκαι δ Uγια δεδομένο αριθμό παρατηρήσεων n, τον αριθμό των ανεξάρτητων μεταβλητών του μοντέλου κ(για απλή γραμμική παλινδρόμηση κ= 1) και επίπεδο σημαντικότητας α. Αν ένα ρε< d L , η υπόθεση της ανεξαρτησίας των τυχαίων αποκλίσεων απορρίπτεται (επομένως, υπάρχει θετική αυτοσυσχέτιση) αν D > dU, η υπόθεση δεν απορρίπτεται (δηλαδή δεν υπάρχει αυτοσυσχέτιση). αν dL< D < d U δεν υπάρχει αρκετός λόγος για να πάρεις μια απόφαση. Όταν η υπολογιζόμενη τιμή ρευπερβαίνει το 2, λοιπόν dLκαι δ Uδεν είναι ο ίδιος ο συντελεστής που συγκρίνεται ρεκαι η έκφραση (4 – ρε).

Για να υπολογίσουμε τα στατιστικά στοιχεία Durbin-Watson στο Excel, στραφούμε στον κάτω πίνακα στο Σχ. δεκατέσσερα Ανάληψη υπολοίπου. Ο αριθμητής στην παράσταση (10) υπολογίζεται χρησιμοποιώντας τη συνάρτηση = SUMMQDIFF(πίνακας1, πίνακας2) και τον παρονομαστή = SUMMQ(πίνακας) (Εικ. 16).

Ρύζι. 16. Τύποι υπολογισμού στατιστικών Durbin-Watson

Στο παράδειγμά μας ρε= 0,883. Το κύριο ερώτημα είναι: ποια τιμή της στατιστικής Durbin-Watson πρέπει να θεωρηθεί αρκετά μικρή ώστε να συμπεράνουμε ότι υπάρχει θετική αυτοσυσχέτιση; Είναι απαραίτητο να συσχετιστεί η τιμή του D με τις κρίσιμες τιμές ( dLκαι δ U) ανάλογα με τον αριθμό των παρατηρήσεων nκαι επίπεδο σημαντικότητας α (Εικ. 17).

Ρύζι. 17. Κρίσιμες τιμές στατιστικών Durbin-Watson (τεμάχιο πίνακα)

Έτσι, στο πρόβλημα του όγκου των πωλήσεων σε ένα κατάστημα που παραδίδει αγαθά στο σπίτι σας, υπάρχει μία ανεξάρτητη μεταβλητή ( κ= 1), 15 παρατηρήσεις ( n= 15) και επίπεδο σημαντικότητας α = 0,05. Συνεπώς, dL= 1,08 και ρεU= 1,36. Επειδή η ρε = 0,883 < dL= 1,08, υπάρχει θετική αυτοσυσχέτιση μεταξύ των υπολειμμάτων, δεν μπορεί να εφαρμοστεί η μέθοδος των ελαχίστων τετραγώνων.

Έλεγχος υποθέσεων σχετικά με την κλίση και τον συντελεστή συσχέτισης

Η παραπάνω παλινδρόμηση εφαρμόστηκε αποκλειστικά για πρόβλεψη. Για τον προσδιορισμό των συντελεστών παλινδρόμησης και την πρόβλεψη της τιμής μιας μεταβλητής Υστο δεδομένη αξίαμεταβλητός Χχρησιμοποιήθηκε η μέθοδος των ελαχίστων τετραγώνων. Επιπλέον, εξετάσαμε το τυπικό σφάλμα της εκτίμησης και τον συντελεστή μικτής συσχέτισης. Εάν η ανάλυση των υπολειμμάτων επιβεβαιώσει ότι δεν παραβιάζονται οι συνθήκες εφαρμογής της μεθόδου των ελαχίστων τετραγώνων και το μοντέλο της απλής γραμμικής παλινδρόμησης είναι επαρκές, με βάση τα δεδομένα του δείγματος, μπορεί να υποστηριχθεί ότι μεταξύ των μεταβλητών σε πληθυσμόςυπάρχει μια γραμμική σχέση.

Εφαρμογήt -κριτήρια για την κλίση.Ελέγχοντας εάν η κλίση του πληθυσμού β 1 είναι ίση με μηδέν, μπορεί κανείς να καθορίσει εάν υπάρχει στατιστικά σημαντική σχέση μεταξύ των μεταβλητών Χκαι Υ. Εάν αυτή η υπόθεση απορριφθεί, μπορεί να υποστηριχθεί ότι μεταξύ των μεταβλητών Χκαι Υυπάρχει μια γραμμική σχέση. Η μηδενική και η εναλλακτική υπόθεση διατυπώνονται ως εξής: H 0: β 1 = 0 (χωρίς γραμμική σχέση), H1: β 1 ≠ 0 (υπάρχει γραμμική σχέση). Εξ ορισμού t-το στατιστικό είναι ίσο με τη διαφορά μεταξύ της κλίσης του δείγματος και της υποθετικής κλίσης του πληθυσμού, διαιρούμενη με το τυπικό σφάλμα της εκτίμησης της κλίσης:

(11) t = (σι 1 β 1 ) / Sb 1

όπου σι 1 είναι η κλίση της άμεσης παλινδρόμησης με βάση τα δεδομένα του δείγματος, β1 είναι η υποθετική κλίση του άμεσου γενικού πληθυσμού, και στατιστικά δοκιμών tΕχει t- διανομή με n - 2βαθμοί ελευθερίας.

Ας ελέγξουμε αν υπάρχει στατιστικά σημαντική σχέση μεταξύ του μεγέθους του καταστήματος και των ετήσιων πωλήσεων στο α = 0,05. t-τα κριτήρια εμφανίζονται μαζί με άλλες παραμέτρους κατά τη χρήση Πακέτο ανάλυσης(επιλογή Οπισθοδρόμηση). Τα πλήρη αποτελέσματα του πακέτου ανάλυσης φαίνονται στην Εικ. 4, ένα θραύσμα που σχετίζεται με τη στατιστική t - στο σχ. δεκαοχτώ.

Ρύζι. 18. Αποτελέσματα αιτήσεων t

Επειδή ο αριθμός των καταστημάτων n= 14 (βλ. Εικ. 3), κρίσιμη τιμή t-τα στατιστικά σε επίπεδο σημαντικότητας α = 0,05 μπορούν να βρεθούν από τον τύπο: t L=STUDENT.INV(0,025;12) = -2,1788 όπου 0,025 είναι το μισό του επιπέδου σημαντικότητας και 12 = n – 2; t U\u003d STUDENT.INV (0,975, 12) \u003d +2,1788.

Επειδή η t-statistics = 10,64 > t U= 2,1788 (Εικ. 19), μηδενική υπόθεση H 0απορρίπτεται. Αφ 'ετέρου, R-τιμή για Χ\u003d 10,6411, που υπολογίζεται με τον τύπο \u003d 1-STUDENT.DIST (D3, 12, TRUE), είναι περίπου ίσο με μηδέν, επομένως η υπόθεση H 0απορρίπτεται ξανά. Το γεγονός οτι R-Η τιμή είναι σχεδόν μηδενική, πράγμα που σημαίνει ότι αν δεν υπήρχε πραγματική γραμμική σχέση μεταξύ του μεγέθους του καταστήματος και των ετήσιων πωλήσεων, θα ήταν σχεδόν αδύνατο να βρεθεί χρησιμοποιώντας γραμμική παλινδρόμηση. Επομένως, υπάρχει μια στατιστικά σημαντική γραμμική σχέση μεταξύ των μέσων ετήσιων πωλήσεων καταστήματος και του μεγέθους του καταστήματος.

Ρύζι. 19. Έλεγχος της υπόθεσης για την κλίση του γενικού πληθυσμού σε επίπεδο σημαντικότητας 0,05 και 12 βαθμών ελευθερίας

Εφαρμογήφά -κριτήρια για την κλίση.Μια εναλλακτική προσέγγιση για τον έλεγχο υποθέσεων σχετικά με την κλίση μιας απλής γραμμικής παλινδρόμησης είναι να χρησιμοποιηθεί φά-κριτήρια. Θυμηθείτε ότι φά-Το κριτήριο χρησιμοποιείται για τον έλεγχο της σχέσης μεταξύ δύο διακυμάνσεων (βλ. λεπτομέρειες). Κατά τον έλεγχο της υπόθεσης της κλίσης με ένα μέτρο τυχαία σφάλματαείναι η διακύμανση σφάλματος (άθροισμα τετραγωνικών σφαλμάτων διαιρεμένο με τον αριθμό των βαθμών ελευθερίας), άρα φά-Το τεστ χρησιμοποιεί τον λόγο της διακύμανσης που εξηγείται από την παλινδρόμηση (δηλαδή τις τιμές SSRδιαιρούμενο με τον αριθμό των ανεξάρτητων μεταβλητών κ), στη διακύμανση σφάλματος ( MSE=S ΥΧ 2 ).

Εξ ορισμού φά-το στατιστικό είναι ίσο με τις μέσες τετραγωνικές αποκλίσεις λόγω παλινδρόμησης (MSR) διαιρεμένες με τη διακύμανση σφάλματος (MSE): φά = MSR/ MSE, όπου MSR=SSR / κ, MSE =SSE/(n– k – 1), kείναι ο αριθμός των ανεξάρτητων μεταβλητών στο μοντέλο παλινδρόμησης. Στατιστικά τεστ φάΕχει φά- διανομή με κκαι n– k – 1βαθμοί ελευθερίας.

Για ένα δεδομένο επίπεδο σημασίας α κανόνας απόφασηςδιατυπώνεται ως εξής: αν F > FU, η μηδενική υπόθεση απορρίπτεται. διαφορετικά, δεν απορρίπτεται. Τα αποτελέσματα, που παρουσιάζονται με τη μορφή συνοπτικού πίνακα της ανάλυσης διασποράς, φαίνονται στο σχήμα. είκοσι.

Ρύζι. 20. Πίνακας ANOVA για να ελέγξετε την υπόθεση σχετικά στατιστική σημασίασυντελεστής παλινδρόμησης

Ομοίως t-κριτήριο φά-τα κριτήρια εμφανίζονται στον πίνακα κατά τη χρήση Πακέτο ανάλυσης(επιλογή Οπισθοδρόμηση). Πλήρη αποτελέσματα της εργασίας Πακέτο ανάλυσηςφαίνεται στο σχ. 4, θραύσμα που σχετίζεται με φά-στατιστικά - στο σχ. 21.

Ρύζι. 21. Αποτελέσματα αιτήσεων φά- Κριτήρια που λαμβάνονται με χρήση του Excel Analysis ToolPack

Η στατιστική F είναι 113,23 και R-τιμή κοντά στο μηδέν (κελί Σημασίαφά). Εάν το επίπεδο σημαντικότητας α είναι 0,05, προσδιορίστε την κρίσιμη τιμή φά-κατανομές με έναν και 12 βαθμούς ελευθερίας μπορούν να ληφθούν από τον τύπο F U\u003d F. OBR (1-0,05; 1; 12) \u003d 4,7472 (Εικ. 22). Επειδή η φά = 113,23 > F U= 4,7472, και R-τιμή κοντά στο 0< 0,05, нулевая гипотеза H 0παρεκκλίνει, δηλ. Το μέγεθος ενός καταστήματος σχετίζεται στενά με τον ετήσιο όγκο πωλήσεών του.

Ρύζι. 22. Έλεγχος της υπόθεσης για την κλίση του γενικού πληθυσμού σε επίπεδο σημαντικότητας 0,05, με έναν και 12 βαθμούς ελευθερίας

Διάστημα εμπιστοσύνης που περιέχει κλίση β 1 .Για να ελέγξετε την υπόθεση της ύπαρξης γραμμικής σχέσης μεταξύ των μεταβλητών, μπορείτε να δημιουργήσετε ένα διάστημα εμπιστοσύνης που να περιέχει την κλίση β 1 και να βεβαιωθείτε ότι η υποθετική τιμή β 1 = 0 ανήκει σε αυτό το διάστημα. Το κέντρο του διαστήματος εμπιστοσύνης που περιέχει την κλίση β 1 είναι η κλίση του δείγματος σι 1 , και τα όριά του είναι οι ποσότητες b 1 ±t n –2 Sb 1

Όπως φαίνεται στο σχ. δεκαοχτώ, σι 1 = +1,670, n = 14, Sb 1 = 0,157. t 12 \u003d STUDENT.OBR (0,975, 12) \u003d 2,1788. Συνεπώς, b 1 ±t n –2 Sb 1 = +1,670 ± 2,1788 * 0,157 = +1,670 ± 0,342, ή + 1,328 ≤ β 1 ≤ +2,012. Έτσι, η κλίση του πληθυσμού με πιθανότητα 0,95 κυμαίνεται από +1.328 έως +2.012 (δηλαδή από 1.328.000 $ έως 2.012.000 $). Επειδή αυτές οι τιμές είναι μεγαλύτερες από το μηδέν, υπάρχει μια στατιστικά σημαντική γραμμική σχέση μεταξύ των ετήσιων πωλήσεων και της περιοχής καταστήματος. Εάν το διάστημα εμπιστοσύνης περιείχε μηδέν, δεν θα υπήρχε σχέση μεταξύ των μεταβλητών. Επιπλέον, το διάστημα εμπιστοσύνης σημαίνει ότι κάθε 1.000 τ. πόδια οδηγεί σε αύξηση των μέσων πωλήσεων από 1.328.000 $ έως 2.012.000 $.

Χρήσηt -κριτήρια για τον συντελεστή συσχέτισης.εισήχθη ο συντελεστής συσχέτισης r, το οποίο είναι ένα μέτρο της σχέσης μεταξύ δύο αριθμητικών μεταβλητών. Μπορεί να χρησιμοποιηθεί για να προσδιοριστεί εάν υπάρχει στατιστικά σημαντική σχέση μεταξύ δύο μεταβλητών. Ας υποδηλώσουμε τον συντελεστή συσχέτισης μεταξύ των πληθυσμών και των δύο μεταβλητών με το σύμβολο ρ. Οι μηδενικές και οι εναλλακτικές υποθέσεις διατυπώνονται ως εξής: H 0: ρ = 0 (χωρίς συσχέτιση), H 1: ρ ≠ 0 (υπάρχει συσχέτιση). Έλεγχος ύπαρξης συσχέτισης:

όπου r = + , αν σι 1 > 0, r = – , αν σι 1 < 0. Тестовая статистика tΕχει t- διανομή με n - 2βαθμοί ελευθερίας.

Στο πρόβλημα της αλυσίδας καταστημάτων Sunflowers r2= 0,904 και β 1- +1.670 (βλ. Εικ. 4). Επειδή η β 1> 0, ο συντελεστής συσχέτισης μεταξύ των ετήσιων πωλήσεων και του μεγέθους του καταστήματος είναι r= +√0,904 = +0,951. Ας ελέγξουμε μηδενική υπόθεσηδηλώνοντας ότι δεν υπάρχει συσχέτιση μεταξύ αυτών των μεταβλητών, χρησιμοποιώντας t- στατιστικά:

Σε επίπεδο σημαντικότητας α = 0,05, η μηδενική υπόθεση θα πρέπει να απορριφθεί γιατί t= 10,64 > 2,1788. Έτσι, μπορεί να υποστηριχθεί ότι υπάρχει στατιστικά σημαντική σχέση μεταξύ των ετήσιων πωλήσεων και του μεγέθους του καταστήματος.

Όταν συζητούνται συμπεράσματα σχετικά με τις πλαγιές του πληθυσμού, τα διαστήματα εμπιστοσύνης και τα κριτήρια για τον έλεγχο των υποθέσεων είναι εναλλάξιμα εργαλεία. Ωστόσο, ο υπολογισμός του διαστήματος εμπιστοσύνης που περιέχει τον συντελεστή συσχέτισης αποδεικνύεται πιο δύσκολος, δεδομένου ότι η μορφή της δειγματοληπτικής κατανομής της στατιστικής rεξαρτάται από τον πραγματικό συντελεστή συσχέτισης.

Εκτίμηση μαθηματικής προσδοκίας και πρόβλεψη επιμέρους τιμών

Αυτή η ενότητα εξετάζει μεθόδους για την εκτίμηση της αναμενόμενης απόκρισης Υκαι προβλέψεις ατομικών αξιών Υγια δεδομένες τιμές της μεταβλητής Χ.

Κατασκευή διαστήματος εμπιστοσύνης.Στο παράδειγμα 2 (βλ. παραπάνω ενότητα Μέθοδος ελάχιστου τετραγώνου) η εξίσωση παλινδρόμησης κατέστησε δυνατή την πρόβλεψη της τιμής της μεταβλητής Υ Χ. Στο πρόβλημα της επιλογής τοποθεσίας για ένα κατάστημα λιανικής, οι μέσες ετήσιες πωλήσεις σε ένα κατάστημα με έκταση 4000 τ. πόδια ήταν ίσο με 7,644 εκατομμύρια δολάρια.Ωστόσο, αυτή η εκτίμηση της μαθηματικής προσδοκίας του γενικού πληθυσμού είναι ένα σημείο. για την εκτίμηση της μαθηματικής προσδοκίας του γενικού πληθυσμού, προτάθηκε η έννοια του διαστήματος εμπιστοσύνης. Ομοίως, μπορεί κανείς να εισαγάγει την έννοια διάστημα εμπιστοσύνης για τη μαθηματική προσδοκία της απάντησηςγια μια δεδομένη τιμή μιας μεταβλητής Χ:

όπου , = σι 0 + σι 1 X i– μεταβλητή προβλεπόμενης τιμής Υστο Χ = X i, Σ ΥΧείναι το μέσο τετραγωνικό σφάλμα, nείναι το μέγεθος του δείγματος, ΧΕγώ- τη δεδομένη τιμή της μεταβλητής Χ, µ Υ|Χ = ΧΕγώαναμενόμενη αξίαμεταβλητός Υστο Χ = Χ i,SSX=

Η ανάλυση του τύπου (13) δείχνει ότι το πλάτος του διαστήματος εμπιστοσύνης εξαρτάται από διάφορους παράγοντες. Σε ένα δεδομένο επίπεδο σημασίας, μια αύξηση στο πλάτος των διακυμάνσεων γύρω από τη γραμμή παλινδρόμησης, που μετράται χρησιμοποιώντας το μέσο τετραγωνικό σφάλμα, οδηγεί σε αύξηση του πλάτους του διαστήματος. Από την άλλη πλευρά, όπως ήταν αναμενόμενο, η αύξηση του μεγέθους του δείγματος συνοδεύεται από στένωση του διαστήματος. Επιπλέον, το πλάτος του διαστήματος αλλάζει ανάλογα με τις τιμές ΧΕγώ. Αν η τιμή της μεταβλητής Υπροβλεπόμενη για τις ποσότητες Χ, κοντά στη μέση τιμή , το διάστημα εμπιστοσύνης αποδεικνύεται πιο στενό από ό,τι κατά την πρόβλεψη της απόκρισης για τιμές μακριά από το μέσο όρο.

Ας πούμε ότι όταν επιλέγουμε μια τοποθεσία για ένα κατάστημα, θέλουμε να δημιουργήσουμε ένα διάστημα εμπιστοσύνης 95% για τις μέσες ετήσιες πωλήσεις σε όλα τα καταστήματα με επιφάνεια 4000 τετραγωνικών μέτρων. πόδια:

Επομένως, ο μέσος ετήσιος όγκος πωλήσεων σε όλα τα καταστήματα με επιφάνεια ​​4.000 τετραγωνικών μέτρων. πόδια, με πιθανότητα 95% να κυμαίνεται από 6,971 έως 8,317 εκατομμύρια δολάρια.

Υπολογίστε το διάστημα εμπιστοσύνης για την προβλεπόμενη τιμή.Εκτός από το διάστημα εμπιστοσύνης για τη μαθηματική προσδοκία της απόκρισης για μια δεδομένη τιμή της μεταβλητής Χ, είναι συχνά απαραίτητο να γνωρίζουμε το διάστημα εμπιστοσύνης για την προβλεπόμενη τιμή. Αν και ο τύπος για τον υπολογισμό ενός τέτοιου διαστήματος εμπιστοσύνης είναι πολύ παρόμοιος με τον τύπο (13), αυτό το διάστημα περιέχει μια προβλεπόμενη τιμή και όχι μια εκτίμηση της παραμέτρου. Διάστημα για την προβλεπόμενη απόκριση ΥΧ = Xiγια μια συγκεκριμένη τιμή της μεταβλητής ΧΕγώκαθορίζεται από τον τύπο:

Ας υποθέσουμε ότι όταν επιλέγουμε μια τοποθεσία για ένα κατάστημα λιανικής, θέλουμε να δημιουργήσουμε ένα διάστημα εμπιστοσύνης 95% για τον προβλεπόμενο ετήσιο όγκο πωλήσεων σε ένα κατάστημα με έκταση 4000 τετραγωνικών μέτρων. πόδια:

Επομένως, ο προβλεπόμενος ετήσιος όγκος πωλήσεων για 4.000 τ. πόδια, με πιθανότητα 95% κυμαίνεται από 5,433 έως 9,854 εκατομμύρια δολάρια Όπως μπορείτε να δείτε, το διάστημα εμπιστοσύνης για την προβλεπόμενη τιμή απόκρισης είναι πολύ μεγαλύτερο από το διάστημα εμπιστοσύνης για τη μαθηματική προσδοκία. Αυτό συμβαίνει επειδή η μεταβλητότητα στην πρόβλεψη μεμονωμένων τιμών είναι πολύ μεγαλύτερη από την εκτίμηση της αναμενόμενης τιμής.

Παγίδες και ηθικά ζητήματαπου σχετίζονται με την εφαρμογή της παλινδρόμησης

Δυσκολίες που σχετίζονται με την ανάλυση παλινδρόμησης:

  • Αγνοώντας τις προϋποθέσεις εφαρμογής της μεθόδου των ελαχίστων τετραγώνων.
  • Εσφαλμένη εκτίμηση των προϋποθέσεων εφαρμογής της μεθόδου των ελαχίστων τετραγώνων.
  • Λανθασμένη επιλογή εναλλακτικών μεθόδων κατά παράβαση των προϋποθέσεων εφαρμογής της μεθόδου των ελαχίστων τετραγώνων.
  • Εφαρμογή ανάλυσης παλινδρόμησης χωρίς εις βάθος γνώση του αντικειμένου μελέτης.
  • Παρέκταση της παλινδρόμησης πέρα ​​από το εύρος της επεξηγηματικής μεταβλητής.
  • Σύγχυση μεταξύ στατιστικών και αιτιακών σχέσεων.

Ευρεία χρήση ΥΠΟΛΟΓΙΣΤΙΚΑ ΦΥΛΛΑκαι λογισμικόγια τους στατιστικούς υπολογισμούς εξαλείφθηκαν τα υπολογιστικά προβλήματα που εμπόδιζαν τη χρήση της ανάλυσης παλινδρόμησης. Ωστόσο, αυτό οδήγησε στο γεγονός ότι η ανάλυση παλινδρόμησης άρχισε να χρησιμοποιείται από χρήστες που δεν έχουν επαρκή προσόντα και γνώσεις. Πώς γνωρίζουν οι χρήστες για εναλλακτικές μεθόδους εάν πολλοί από αυτούς δεν έχουν ιδέα για τις προϋποθέσεις εφαρμογής της μεθόδου των ελαχίστων τετραγώνων και δεν ξέρουν πώς να ελέγξουν την εφαρμογή τους;

Ο ερευνητής δεν πρέπει να παρασύρεται από τη λείανση αριθμών - υπολογίζοντας τη μετατόπιση, την κλίση και τον μικτό συντελεστή συσχέτισης. Χρειάζεται βαθύτερη γνώση. Ας το δείξουμε αυτό κλασικό παράδειγμαπαρμένο από σχολικά βιβλία. Ο Anscombe έδειξε ότι και τα τέσσερα σύνολα δεδομένων που φαίνονται στο Σχ. 23 έχουν τις ίδιες παραμέτρους παλινδρόμησης (Εικ. 24).

Ρύζι. 23. Τέσσερα σύνολα τεχνητών δεδομένων

Ρύζι. 24. Ανάλυση παλινδρόμησης τεσσάρων συνόλων τεχνητών δεδομένων. τελείωσα με Πακέτο ανάλυσης(κάντε κλικ στην εικόνα για να μεγεθύνετε την εικόνα)

Έτσι, από την άποψη της ανάλυσης παλινδρόμησης, όλα αυτά τα σύνολα δεδομένων είναι εντελώς πανομοιότυπα. Αν τελείωνε η ​​ανάλυση σε αυτό, θα είχαμε χάσει πολλά ΧΡΗΣΙΜΕΣ ΠΛΗΡΟΦΟΡΙΕΣ. Αυτό αποδεικνύεται από τα διαγράμματα διασποράς (Εικ. 25) και τα υπολειμματικά διαγράμματα (Εικ. 26) που κατασκευάστηκαν για αυτά τα σύνολα δεδομένων.

Ρύζι. 25. Διαγράμματα διασποράς για τέσσερα σύνολα δεδομένων

Τα διαγράμματα διασποράς και τα υπολειμματικά διαγράμματα δείχνουν ότι αυτά τα δεδομένα είναι διαφορετικά μεταξύ τους. Το μόνο σύνολο που κατανέμεται κατά μήκος μιας ευθείας γραμμής είναι το σύνολο Α. Η γραφική παράσταση των υπολειμμάτων που υπολογίζεται από το σύνολο Α δεν έχει μοτίβο. Δεν μπορεί να ειπωθεί το ίδιο για τα σύνολα B, C και D. Η γραφική παράσταση διασποράς για το σύνολο B δείχνει ένα έντονο τετραγωνικό μοτίβο. Αυτό το συμπέρασμα επιβεβαιώνεται από το οικόπεδο των υπολειμμάτων, το οποίο έχει παραβολικό σχήμα. Το διάγραμμα διασποράς και το υπολειπόμενο διάγραμμα δείχνουν ότι το σύνολο δεδομένων Β περιέχει μια ακραία τιμή. Σε αυτήν την περίπτωση, είναι απαραίτητο να εξαιρεθεί η ακραία τιμή από το σύνολο δεδομένων και να επαναληφθεί η ανάλυση. Η τεχνική για τον εντοπισμό και την εξάλειψη των ακραίων στοιχείων από τις παρατηρήσεις ονομάζεται ανάλυση επιρροής. Μετά την εξάλειψη της ακραίας τιμής, το αποτέλεσμα της επαναξιολόγησης του μοντέλου μπορεί να είναι εντελώς διαφορετικό. Απεικονίζει ένα διάγραμμα διασποράς που κατασκευάστηκε χρησιμοποιώντας δεδομένα από το σύνολο D ασυνήθιστη κατάσταση, στο οποίο το εμπειρικό μοντέλο εξαρτάται σημαντικά από την ατομική απόκριση ( Χ 8 = 19, Υ 8 = 12,5). Τέτοια μοντέλα παλινδρόμησης πρέπει να υπολογίζονται ιδιαίτερα προσεκτικά. Έτσι, τα διαγράμματα διασποράς και τα υπολειμματικά διαγράμματα είναι ένα ουσιαστικό εργαλείο για την ανάλυση παλινδρόμησης και θα πρέπει να αποτελούν αναπόσπαστο μέρος της. Χωρίς αυτές, η ανάλυση παλινδρόμησης δεν είναι αξιόπιστη.

Ρύζι. 26. Οικόπεδα υπολειμμάτων για τέσσερα σύνολα δεδομένων

Πώς να αποφύγετε παγίδες στην ανάλυση παλινδρόμησης:

  • Ανάλυση της πιθανής σχέσης μεταξύ μεταβλητών Χκαι Υξεκινάτε πάντα με ένα scatterplot.
  • Πριν ερμηνεύσετε τα αποτελέσματα μιας ανάλυσης παλινδρόμησης, ελέγξτε τις προϋποθέσεις για την εφαρμογή της.
  • Σχεδιάστε τα υπολείμματα έναντι της ανεξάρτητης μεταβλητής. Αυτό θα επιτρέψει τον προσδιορισμό του τρόπου με τον οποίο το εμπειρικό μοντέλο αντιστοιχεί στα αποτελέσματα της παρατήρησης και θα εντοπίσει παραβίαση της σταθερότητας της διακύμανσης.
  • Για να ελέγξετε την υπόθεση για κανονική κατανομήλάθη, χρησιμοποιήστε ιστογράμματα, διαγράμματα στελέχους και φύλλων, διαγράμματα πλαισίου και γραφικές παραστάσεις κανονικής κατανομής.
  • Εάν δεν πληρούνται οι προϋποθέσεις εφαρμογής της μεθόδου των ελαχίστων τετραγώνων, χρησιμοποιήστε εναλλακτικές μεθόδους (για παράδειγμα, μοντέλα τετραγωνικής ή πολλαπλής παλινδρόμησης).
  • Εάν πληρούνται οι προϋποθέσεις εφαρμογής της μεθόδου των ελαχίστων τετραγώνων, είναι απαραίτητο να ελεγχθεί η υπόθεση σχετικά με τη στατιστική σημασία των συντελεστών παλινδρόμησης και να κατασκευαστούν διαστήματα εμπιστοσύνης που περιέχουν τη μαθηματική προσδοκία και την προβλεπόμενη τιμή απόκρισης.
  • Αποφύγετε την πρόβλεψη τιμών της εξαρτημένης μεταβλητής εκτός του εύρους της ανεξάρτητης μεταβλητής.
  • Εχε στο νου σου οτι στατιστικές εξαρτήσειςδεν είναι πάντα αιτιώδεις. Να θυμάστε ότι η συσχέτιση μεταξύ των μεταβλητών δεν σημαίνει ότι υπάρχει αιτιώδης σχέση μεταξύ τους.

Περίληψη.Όπως φαίνεται στο μπλοκ διάγραμμα (Εικ. 27), η σημείωση περιγράφει ένα απλό μοντέλο γραμμικής παλινδρόμησης, τις προϋποθέσεις για την εφαρμογή του και τρόπους δοκιμής αυτών των συνθηκών. Λαμβάνονται υπόψη t-κριτήριο ελέγχου της στατιστικής σημασίας της κλίσης της παλινδρόμησης. Χρησιμοποιήθηκε ένα μοντέλο παλινδρόμησης για την πρόβλεψη των τιμών της εξαρτημένης μεταβλητής. Ένα παράδειγμα θεωρείται σχετικό με την επιλογή θέσης για ένα κατάστημα λιανικής, στο οποίο μελετάται η εξάρτηση του ετήσιου όγκου πωλήσεων από την περιοχή του καταστήματος. Οι πληροφορίες που λαμβάνονται σάς επιτρέπουν να επιλέξετε με μεγαλύτερη ακρίβεια μια τοποθεσία για το κατάστημα και να προβλέψετε τις ετήσιες πωλήσεις του. Στις επόμενες σημειώσεις, θα συνεχιστεί η συζήτηση της ανάλυσης παλινδρόμησης, καθώς και των πολλαπλών μοντέλων παλινδρόμησης.

Ρύζι. 27. Δομικό σχήμασημειώσεις

Χρησιμοποιούνται υλικά από το βιβλίο Levin et al Στατιστικά για μάνατζερ. - Μ.: Williams, 2004. - Σελ. 792–872

Εάν η εξαρτημένη μεταβλητή είναι κατηγορική, θα πρέπει να εφαρμοστεί λογιστική παλινδρόμηση.

Σημειακή πρόβλεψηείναι να αποκτήσετε μια προγνωστική τιμή Ναι, η οποία προσδιορίζεται αντικαθιστώντας την αντίστοιχη (πρόβλεψη) τιμή στην εξίσωση παλινδρόμησης xp:

yp = a + b * xp

Πρόβλεψη διαστήματοςείναι η οικοδόμηση ενός διαστήματος εμπιστοσύνης της πρόβλεψης, δηλαδή των κατώτερων και ανώτερων ορίων upmin, ανώτατοδιάστημα που περιέχει την ακριβή τιμή για την προβλεπόμενη τιμή υπ (ypmin< yp < ypmin ) με δεδομένη πιθανότητα.

Κατά την κατασκευή του διαστήματος εμπιστοσύνης της πρόβλεψης, χρησιμοποιούμε τυπικό λάθος της πρόβλεψης :

Οπου

υπό κατασκευή διάστημα εμπιστοσύνης πρόβλεψης:

Ανάλυση πολλαπλής παλινδρόμησης

(διαφάνεια 1)Η πολλαπλή παλινδρόμηση χρησιμοποιείται σε καταστάσεις όπου είναι αδύνατο να ξεχωρίσουμε έναν κυρίαρχο παράγοντα από μια ποικιλία παραγόντων που επηρεάζουν το προκύπτον χαρακτηριστικό και είναι απαραίτητο να ληφθεί υπόψη η επίδραση πολλών παραγόντων. Για παράδειγμα, ο όγκος της παραγωγής καθορίζεται από την αξία του πάγιου κεφαλαίου και του κεφαλαίου κίνησης, τον αριθμό του προσωπικού, το επίπεδο διαχείρισης κ.λπ., το επίπεδο ζήτησης εξαρτάται όχι μόνο από την τιμή, αλλά και από τα κεφάλαια που είναι διαθέσιμα στους πληθυσμός.

Ο κύριος στόχος της πολλαπλής παλινδρόμησης είναι η οικοδόμηση ενός μοντέλου με πολλούς παράγοντες και ταυτόχρονα ο προσδιορισμός της επιρροής κάθε παράγοντα ξεχωριστά, καθώς και η συνδυαστική τους επίδραση στον υπό μελέτη δείκτη.

Έτσι, η πολλαπλή παλινδρόμηση είναι μια εξίσωση σχέσης με πολλές ανεξάρτητες μεταβλητές:

(διαφάνεια 2)Δημιουργία εξίσωσης πολλαπλής παλινδρόμησης

1. Δήλωση του προβλήματος

Σύμφωνα με πληροφορίες nπαρατηρήσεις (Πίνακας 3.1) για κοινή αλλαγή Π+1 παράμετρος y και xjκαι (( yi,xj,i); ι=1, 2, ..., Π; Εγώ=1, 2, ..., n) είναι απαραίτητο να προσδιοριστεί η αναλυτική εξάρτηση ŷ = f(x1,x2,...,xp)που περιγράφει καλύτερα τα δεδομένα παρατήρησης.

Πίνακας 3.1

Δεδομένα παρατήρησης

x11

x12

x1n

Χ2 n

Κάθε σειρά του πίνακα αντιπροσωπεύει το αποτέλεσμα μιας παρατήρησης. Οι παρατηρήσεις διαφέρουν ως προς την εφαρμογή τους.

Το ερώτημα ποια εξάρτηση πρέπει να θεωρείται η καλύτερη αποφασίζεται με βάση κάποιο κριτήριο. Ως τέτοιο κριτήριο, συνήθως χρησιμοποιείται το ελάχιστο άθροισμα των τετραγωνικών αποκλίσεων των υπολογισμένων τιμών του ενεργού δείκτη. ŷiαπό τις παρατηρούμενες τιμές yi:

2. Προδιαγραφές μοντέλου

(διαφάνεια 3)Η προδιαγραφή του μοντέλου περιλαμβάνει την επίλυση δύο εργασιών:

– επιλογή παραγόντων που θα συμπεριληφθούν στο μοντέλο·

– επιλογή της μορφής της εξίσωσης παλινδρόμησης.

2.1. Επιλογή παραγόντων στην κατασκευή πολλαπλής παλινδρόμησης

Η συμπερίληψη ενός ή άλλου συνόλου παραγόντων στην εξίσωση πολλαπλής παλινδρόμησης συνδέεται κυρίως με τις ιδέες του ερευνητή σχετικά με τη φύση της σχέσης μεταξύ του μοντελοποιημένου δείκτη και άλλων οικονομικών φαινομένων.

Οι παράγοντες που περιλαμβάνονται στο μοντέλο είναι οι εξής: απαιτήσεις:

1. Οι παράγοντες πρέπει να είναι ποσοτικοποιήσιμοι.Η συμπερίληψη ενός παράγοντα στο μοντέλο θα πρέπει να οδηγήσει σε σημαντική αύξηση του μεριδίου του εξηγούμενου μέρους στη συνολική διακύμανση της εξαρτημένης μεταβλητής. Αφού αυτή η τιμή χαρακτηρίζεται συντελεστή προσδιορισμού, η συμπερίληψη ενός νέου παράγοντα στο μοντέλο θα πρέπει να οδηγήσει σε αισθητή αλλαγή του συντελεστή. Εάν αυτό δεν συμβεί, τότε ο παράγοντας που περιλαμβάνεται στην ανάλυση δεν βελτιώνει το μοντέλο και είναι περιττός.

Για παράδειγμα, εάν για μια παλινδρόμηση που περιλαμβάνει 5 παράγοντες, ο συντελεστής προσδιορισμού ήταν 0,85 και η συμπερίληψη του έκτου παράγοντα έδωσε συντελεστή προσδιορισμού 0,86, τότε δεν είναι σκόπιμο να συμπληρωθεί το μοντέλο με αυτόν τον παράγοντα.

Εάν είναι απαραίτητο να συμπεριληφθεί στο μοντέλο ένας ποιοτικός παράγοντας που δεν έχει ποσοτική εκτίμηση, τότε είναι απαραίτητο να του δοθεί μια ποσοτική βεβαιότητα. Στην περίπτωση αυτή, το μοντέλο περιλαμβάνει το αντίστοιχο "ψευδομεταβλητή, το οποίο έχει έναν πεπερασμένο αριθμό τυπικά αριθμητικών τιμών που αντιστοιχούν στις διαβαθμίσεις του ποιοτικού παράγοντα (βαθμολογία, κατάταξη).

Για παράδειγμα, εάν πρέπει να λάβετε υπόψη τον αντίκτυπο του επιπέδου εκπαίδευσης (στο ύψος των μισθών), τότε μπορείτε να συμπεριλάβετε μια μεταβλητή στην εξίσωση παλινδρόμησης που παίρνει τις τιμές: 0 - με πρωτοβάθμια εκπαίδευση, 1 - στο μέσο όρο, 2 - στο υψηλότερο.

Παρά το γεγονός ότι, θεωρητικά, το μοντέλο παλινδρόμησης σας επιτρέπει να λάβετε υπόψη οποιονδήποτε αριθμό παραγόντων, στην πράξη αυτό δεν είναι απαραίτητο, γιατί. Η αδικαιολόγητη αύξησή τους οδηγεί σε δυσκολίες στην ερμηνεία του μοντέλου και στη μείωση της αξιοπιστίας των αποτελεσμάτων.

2. Οι παράγοντες δεν πρέπει να αλληλοσυσχετίζονταικαι, επιπλέον, να είναι σε ακριβή λειτουργική σύνδεση. Η παρουσία υψηλού βαθμού συσχέτισης μεταξύ παραγόντων μπορεί να οδηγήσει σε αστάθεια και αναξιοπιστία των εκτιμήσεων των συντελεστών παλινδρόμησης, καθώς και σε αδυναμία απομόνωσης της μεμονωμένης επίδρασης παραγόντων στον δείκτη απόδοσης. Ως αποτέλεσμα, οι παράμετροι παλινδρόμησης αποδεικνύονται μη ερμηνεύσιμες.

Παράδειγμα. Εξετάστε την παλινδρόμηση του μοναδιαίου κόστους παραγωγής ( στο) από τους μισθούς του υπαλλήλου ( Χ) και παραγωγικότητα εργασίας ανά ώρα ( z).

Συντελεστής παλινδρόμησης για μεταβλητή zδείχνει ότι με την αύξηση της παραγωγικότητας της εργασίας κατά 1 μονάδα ανά ώρα, το μοναδιαίο κόστος παραγωγής μειώνεται κατά μέσο όρο 10 ρούβλια. σε σταθερό επίπεδο μισθών.

Και η παράμετρος στο Χδεν μπορεί να ερμηνευθεί ως μείωση του μοναδιαίου κόστους παραγωγής λόγω αύξησης των μισθών. Η αρνητική τιμή του συντελεστή παλινδρόμησης σε αυτή την περίπτωση οφείλεται στην υψηλή συσχέτιση μεταξύ Χκαι z (0,95).

(διαφάνεια 4)Υποτίθεται ότι δύο μεταβλητές σαφώς συγγραμμική , δηλ. σχετίζονται γραμμικά μεταξύ τους αν συντελεστής αλληλοσυσχέτισης (συσχετίσεις μεταξύ δύο επεξηγηματικών μεταβλητών) ≥ 0,7. Εάν οι παράγοντες είναι σαφώς συγγραμμικοί, τότε αντιγράφουν ο ένας τον άλλον και συνιστάται να εξαιρεθεί ένας από αυτούς από την εξίσωση. Στην περίπτωση αυτή, προτιμάται όχι ο παράγοντας που σχετίζεται στενότερα με το αποτέλεσμα, αλλά αυτός που, με επαρκώς στενή σχέση με το αποτέλεσμα, έχει τη μικρότερη στενότητα σύνδεσης με άλλους παράγοντες.

Αυτή η απαίτηση αποκαλύπτει την ιδιαιτερότητα της πολλαπλής παλινδρόμησης ως μέθοδος μελέτης της πολύπλοκης επίδρασης παραγόντων σε συνθήκες ανεξαρτησίας μεταξύ τους.

Μαζί με τη συγγραμμικότητα κατά ζεύγη, μπορεί να υπάρχει μια γραμμική σχέση μεταξύ περισσότερων από δύο μεταβλητών − πολυσυγγραμμικότητα , δηλ. η συνδυασμένη επίδραση παραγόντων μεταξύ τους.

Η παρουσία της πολυσυγγραμμικότητας των παραγόντων μπορεί να σημαίνει ότι ορισμένοι παράγοντες θα ενεργούν πάντα από κοινού. Ως αποτέλεσμα, η διακύμανση στα αρχικά δεδομένα δεν θα είναι πλέον εντελώς ανεξάρτητη, γεγονός που δεν θα επιτρέπει την αξιολόγηση της επίδρασης κάθε παράγοντα ξεχωριστά. Όσο ισχυρότερη είναι η πολυσυγγραμμικότητα των παραγόντων, τόσο λιγότερο αξιόπιστη είναι η εκτίμηση της κατανομής του αθροίσματος της εξηγούμενης διακύμανσης σε μεμονωμένους παράγοντες χρησιμοποιώντας τη μέθοδο των ελαχίστων τετραγώνων.

(διαφάνεια 5)Η συμπερίληψη πολυσυγγραμμικών παραγόντων στο μοντέλο είναι ανεπιθύμητη για τους ακόλουθους λόγους. αιτιολογικό:

    είναι δύσκολο να ερμηνευθούν οι παράμετροι της πολλαπλής παλινδρόμησης. Οι παράμετροι γραμμικής παλινδρόμησης χάνουν την οικονομική τους σημασία.

    Οι εκτιμήσεις παραμέτρων δεν είναι αξιόπιστες, έχουν μεγάλα τυπικά σφάλματα και αλλάζουν ανάλογα με τον αριθμό των παρατηρήσεων (όχι μόνο σε μέγεθος, αλλά και σε πρόσημο), γεγονός που καθιστά το μοντέλο ακατάλληλο για ανάλυση και πρόβλεψη.

(διαφάνεια 6)Για να αξιολογήσουμε την πολυσυγγραμμικότητα, χρησιμοποιούμε ορίζουσα του πίνακα των συντελεστών αλληλοσυσχέτισης κατά ζεύγη :

(!) Αν οι παράγοντες δεν συσχετίζονται μεταξύ τους, τότε ο πίνακας των συντελεστών διασυσχέτισης είναι μονάδα, αφού σε αυτή την περίπτωση όλα τα στοιχεία εκτός διαγώνιου είναι ίσα με 0. Για παράδειγμα, για μια εξίσωση τριών μεταβλητών, ο πίνακας των συντελεστών διασυσχέτισης θα έχει μια ορίζουσα ίση με 1, αφού
και
.

(διαφάνεια 7)

(!) Αν υπάρχει πλήρης γραμμική σχέση μεταξύ των παραγόντωνκαι όλοι οι συντελεστές συσχέτισης είναι ίσοι με 1, τότε η ορίζουσα ενός τέτοιου πίνακα είναι 0 (Εάν δύο σειρές του πίνακα είναι ίδιες, τότε η ορίζουσα του είναι μηδέν).

Όσο πιο κοντά στο 0ο προσδιοριστής του πίνακα των συντελεστών διασυσχέτισης, τόσο ισχυρότερη είναι η πολυσυγγραμμικότητα και τόσο πιο αναξιόπιστα είναι τα αποτελέσματα της πολλαπλής παλινδρόμησης.

Όσο πιο κοντά στο 1προσδιοριστικό του πίνακα των συντελεστών διασυσχέτισης, η λιγότερη πολυσυγγραμμικότητα των παραγόντων.

(διαφάνεια 8)Τρόποι υπέρβασης της πολυσυγγραμμικότητας των παραγόντων :

1) εξαίρεση από το μοντέλο ενός ή περισσότερων παραγόντων·

2) μετάβαση σε συνδυασμένες εξισώσεις παλινδρόμησης, δηλ. σε εξισώσεις που αντικατοπτρίζουν όχι μόνο την επίδραση των παραγόντων, αλλά και την αλληλεπίδρασή τους. Για παράδειγμα, εάν
, τότε μπορούμε να κατασκευάσουμε την ακόλουθη συνδυασμένη εξίσωση:;

3) μετάβαση σε εξισώσεις ανηγμένης μορφής (ο εξεταζόμενος παράγοντας που εκφράζεται από μια άλλη εξίσωση αντικαθίσταται στην εξίσωση παλινδρόμησης).

(διαφάνεια 9)2.2. Επιλέγοντας τη μορφή της εξίσωσης παλινδρόμησης

Υπάρχουν τα εξής τύποι εξισώσεων πολλαπλής παλινδρόμησης:

    γραμμικός,

    μη γραμμικό, αναγόμενο σε γραμμικό,

    μη γραμμικό, μη αναγώγιμο σε γραμμικό (εγγενώς μη γραμμικό).

Στις δύο πρώτες περιπτώσεις, χρησιμοποιούνται οι μέθοδοι της κλασσικής γραμμικής ανάλυσης παλινδρόμησης για την εκτίμηση των παραμέτρων του μοντέλου. Στην περίπτωση εγγενώς μη γραμμικών εξισώσεων, χρησιμοποιούνται μέθοδοι μη γραμμικής βελτιστοποίησης για την εκτίμηση των παραμέτρων.

Η κύρια απαίτηση για τις εξισώσεις παλινδρόμησης είναι η παρουσία μιας ξεκάθαρης οικονομικής ερμηνείας του μοντέλου και των παραμέτρων του. Με βάση αυτές τις εκτιμήσεις, οι γραμμικές εξαρτήσεις και οι εξαρτήσεις ισχύος χρησιμοποιούνται συχνότερα.

Η γραμμική πολλαπλή παλινδρόμηση έχει τη μορφή:

Επιλογές διςμε παράγοντες xiπου ονομάζεται συντελεστές «καθαρής» παλινδρόμησης . Δείχνουν με πόσες μονάδες το ενεργό χαρακτηριστικό θα αλλάξει κατά μέσο όρο λόγω αλλαγής του αντίστοιχου παράγοντα κατά μία, με την τιμή των άλλων παραγόντων να είναι σταθερή στο μέσο επίπεδο αμετάβλητη.

(διαφάνεια 10)Για παράδειγμα, η εξάρτηση της ζήτησης για ένα προϊόν (Qd) από την τιμή (P) και το εισόδημα (I) χαρακτηρίζεται από την ακόλουθη εξίσωση:

Qd \u003d 2,5 - 0,12P + 0,23 I.

Οι συντελεστές αυτής της εξίσωσης δείχνουν ότι με αύξηση της τιμής ανά μονάδα, η ζήτηση θα μειωθεί κατά μέσο όρο κατά 0,12 μονάδες και με αύξηση του εισοδήματος ανά μονάδα, η ζήτηση θα αυξηθεί κατά μέσο όρο 0,23 μονάδες.

Παράμετρος έναμπορεί να μην ερμηνεύεται πάντα με νόημα.

Η πολλαπλή παλινδρόμηση ισχύος έχει τη μορφή:

Επιλογές bj(βαθμοί παραγόντων xi) είναι οι συντελεστές ελαστικότητας. Δείχνουν πόσο % κατά μέσο όρο θα αλλάξει το αποτελεσματικό χαρακτηριστικό λόγω αλλαγής του αντίστοιχου παράγοντα κατά 1% με την τιμή των άλλων παραγόντων αμετάβλητη.

Αυτός ο τύπος εξίσωσης παλινδρόμησης έχει λάβει την ευρύτερη εφαρμογή στις συναρτήσεις παραγωγής, καθώς και στη μελέτη της ζήτησης και της κατανάλωσης.

Για παράδειγμα, η εξάρτηση του προϊόντος Y από το κόστος του κεφαλαίου K και της εργασίας L:
λέει ότι μια αύξηση στο κόστος του κεφαλαίου Κ κατά 1% με σταθερό κόστος εργασίας προκαλεί αύξηση της παραγωγής Υ κατά 0,23%. Μια αύξηση στο κόστος εργασίας L κατά 1% με σταθερό κόστος κεφαλαίου K προκαλεί αύξηση της παραγωγής Y κατά 0,81%.

Άλλες γραμμικοποιήσιμες συναρτήσεις είναι επίσης δυνατές για την κατασκευή μιας εξίσωσης πολλαπλής παλινδρόμησης:


Όσο πιο περίπλοκη είναι η συνάρτηση, τόσο λιγότερο ερμηνεύσιμες είναι οι παράμετροί της. Επιπλέον, είναι απαραίτητο να έχουμε κατά νου τη σχέση μεταξύ του αριθμού των παρατηρήσεων και του αριθμού των παραγόντων στο μοντέλο. Άρα, για την ανάλυση ενός μοντέλου τριών παραγόντων, θα πρέπει να γίνουν τουλάχιστον 21 παρατηρήσεις.

(διαφάνεια 11)3. Εκτίμηση παραμέτρων μοντέλου

Οι παράμετροι της εξίσωσης πολλαπλής παλινδρόμησης εκτιμώνται, όπως στην παλινδρόμηση κατά ζεύγη, ελάχιστα τετράγωνα, σύμφωνα με την οποία θα πρέπει κανείς να επιλέξει τέτοιες τιμές παραμέτρων ένακαι δις, στο οποίο το άθροισμα των τετραγωνικών αποκλίσεων των πραγματικών τιμών του ενεργού χαρακτηριστικού yiαπό θεωρητικές αξίες ŷ είναι ελάχιστο, δηλαδή:

Αν τότε μικρόείναι συνάρτηση άγνωστων παραμέτρων ένα, δις:

Για να βρείτε το ελάχιστο μιας συνάρτησης, πρέπει να βρείτε τις μερικές παραγώγους σε σχέση με κάθε μία από τις παραμέτρους και να τις εξισώσετε με 0:

Από εδώ παίρνουμε το σύστημα των εξισώσεων:

(διαφάνεια 12)Η επίλυσή του μπορεί να πραγματοποιηθεί με τη μέθοδο των καθοριστικών παραγόντων:

,

όπου – καθοριστικός παράγοντας συστήματος.

ένα, ∆ σι1, ∆ bp– μερικοί προσδιοριστικοί παράγοντες ( ι).

– καθοριστικός παράγοντας συστήματος,

ι– ιδιωτικές ορίζουσες που λαμβάνονται από την κύρια ορίζουσα αντικαθιστώντας τη στήλη j με μια στήλη ελεύθερων μελών .

Όταν χρησιμοποιείτε αυτήν τη μέθοδο, ενδέχεται να προκύψουν οι ακόλουθες καταστάσεις:

1) εάν ο κύριος καθοριστικός παράγοντας του συστήματος Δ ισούται με μηδέν και όλες οι ορίζουσες Δjείναι επίσης ίσα με μηδέν, λοιπόν αυτό το σύστημαέχει άπειρο αριθμό λύσεων.

2) εάν ο κύριος καθοριστικός παράγοντας του συστήματος Δ ισούται με μηδέν και τουλάχιστον μία από τις ορίζουσες Δjισούται επίσης με μηδέν, τότε το σύστημα λύσεων έχει αρ.

(διαφάνεια 13)Εκτός από τα κλασικά ελάχιστα τετράγωνα, για τον προσδιορισμό των άγνωστων παραμέτρων του γραμμικού μοντέλου πολλαπλής παλινδρόμησης, η μέθοδος εκτίμησης των παραμέτρων μέσω β -συντελεστές είναι τυποποιημένοι συντελεστές παλινδρόμησης.

Κτίριο πολλαπλά μοντέλα παλινδρόμησης σε τυποποιημένη ή κανονικοποιημένη κλίμακα σημαίνει ότι όλες οι μεταβλητές που περιλαμβάνονται στο μοντέλο παλινδρόμησης τυποποιούνται χρησιμοποιώντας ειδικούς τύπους.

Στο ευθυγραμμία παλινδρομήσεις σε τυποποιημένη κλίμακα:

όπου
,
- Τυποποιημένες μεταβλητές.

- τυποποιημένοι συντελεστές παλινδρόμησης.

Εκείνοι. μέσω της διαδικασίας τυποποίησης, το σημείο αναφοράς για κάθε κανονικοποιημένη μεταβλητή ορίζεται στη μέση τιμή της σύμφωνα με πλαίσιο δειγματοληψίας. Ταυτόχρονα, ως μονάδα μέτρησης της τυποποιημένης μεταβλητής λαμβάνεται η τυπική απόκλιση σ .

β - οι συντελεστές δείχνουν, κατά πόσα σίγμα (τυπικές αποκλίσεις) θα αλλάξει κατά μέσο όρο το αποτέλεσμα λόγω αλλαγής του αντίστοιχου παράγοντα xiανά σίγμα με το μέσο επίπεδο άλλων παραγόντων αμετάβλητο.

Τυποποιημένοι Συντελεστές Παλινδρόμησης βiείναι συγκρίσιμα μεταξύ τους, γεγονός που καθιστά δυνατή την κατάταξη των παραγόντων ανάλογα με την ισχύ της επίδρασής τους στο αποτέλεσμα. Μεγαλύτερος σχετικός αντίκτυπος στην αλλαγή στη μεταβλητή αποτελέσματος yαποδίδει τον παράγοντα, ο οποίος αντιστοιχεί στη μεγαλύτερη τιμή συντελεστή του συντελεστή βi. Σε αυτόκύριο πλεονέκτημα των τυποποιημένων συντελεστών παλινδρόμησης , σε αντίθεση με τους συντελεστές «καθαρής» παλινδρόμησης, που δεν είναι συγκρίσιμοι μεταξύ τους.

(διαφάνεια 14)Σχέση μεταξύ «καθαρών» συντελεστών παλινδρόμησης διςμε συντελεστές βiπεριγράφεται από την αναλογία:

, ή

Παράμετρος έναοριζεται ως .

Οι συντελεστές β προσδιορίζονται χρησιμοποιώντας το LSM από επόμενο σύστημαεξισώσεις με τη μέθοδο προσδιορισμού:

Για την αξιολόγηση των παραμέτρων μη γραμμικόΟι πολλαπλές εξισώσεις παλινδρόμησης μετατρέπονται πρώτα σε γραμμική μορφή (χρησιμοποιώντας μια αλλαγή μεταβλητών) και χρησιμοποιείται η μέθοδος των ελαχίστων τετραγώνων για την εύρεση των παραμέτρων της γραμμικής εξίσωσης πολλαπλής παλινδρόμησης στις μετασχηματισμένες μεταβλητές. Πότε εγγενώς μη γραμμικόεξαρτήσεων, για την εκτίμηση των παραμέτρων, είναι απαραίτητο να εφαρμοστούν μέθοδοι μη γραμμικής βελτιστοποίησης.

(διαφάνεια 1)4. Έλεγχος της ποιότητας της εξίσωσης παλινδρόμησης

Η πρακτική σημασία της εξίσωσης πολλαπλής παλινδρόμησης αξιολογείται χρησιμοποιώντας τον δείκτη πολλαπλής συσχέτισης και το τετράγωνό του - τον συντελεστή προσδιορισμού.

Βαθμολογία πολλαπλής συσχέτισης χαρακτηρίζει την εγγύτητα της σύνδεσης του υπό εξέταση συνόλου παραγόντων με το υπό μελέτη χαρακτηριστικό, δηλ. αξιολογεί την εγγύτητα της κοινής επίδρασης παραγόντων στο αποτέλεσμα.

Ανεξάρτητα από τη μορφή επικοινωνίας βαθμολογία πολλαπλής συσχέτισηςυπολογίζεται με τον τύπο:

Ο πολλαπλός συντελεστής συσχέτισης παίρνει τιμές στην περιοχή 0 ≤ R ≤ 1. Όσο πιο κοντά είναι στο 1, τόσο πιο στενή είναι η σχέση του αποτελεσματικού χαρακτηριστικού με ολόκληρο το σύνολο των παραγόντων υπό μελέτη.

Με μια γραμμική εξάρτηση χαρακτηριστικών, ο τύπος για τον δείκτη πολλαπλής συσχέτισης μπορεί να γραφτεί ως:

,

όπου - τυποποιημένοι συντελεστές παλινδρόμησης,

- ζευγαρωμένοι συντελεστές συσχέτισης του αποτελέσματος με κάθε παράγοντα.

Αυτός ο τύπος ονομάζεται γραμμικός συντελεστής πολλαπλής συσχέτισης, ή αθροιστικό συντελεστή συσχέτισης.

Ο δείκτης προσδιορισμού για μη γραμμικές συναρτήσεις σε σχέση με τις εκτιμώμενες παραμέτρους συνήθως ονομάζεται "οιονεί
».
Για να το προσδιορίσετε με συναρτήσεις χρησιμοποιώντας λογαριθμικούς μετασχηματισμούς (ισχύς, εκθέτης), πρέπει πρώτα να βρείτε τις θεωρητικές τιμές του ln y, στη συνέχεια να τις μετατρέψετε μέσω αντιλογαρίθμων (αντιλογάριθμος ln y = y) και στη συνέχεια να ορίσετε τον δείκτη προσδιορισμού ως «οιονεί
σύμφωνα με τον τύπο:

.

Οιονεί
» δεν θα συμπίπτει με τον αθροιστικό συντελεστή συσχέτισης, ο οποίος μπορεί να υπολογιστεί για μια γραμμική εξίσωση πολλαπλής παλινδρόμησης σε λογάριθμους, επειδή στον τελευταίο αποσυντίθεται σε παραγοντικό και υπολειπόμενο ποσόχωρίς τετράγωνα
, ένα
.

(διαφάνεια 2)Χρησιμοποιώντας τον πολλαπλό συντελεστή προσδιορισμού
για την αξιολόγηση της ποιότητας του μοντέλου έχει το μειονέκτημα ότι η συμπερίληψη ενός νέου παράγοντα στο μοντέλο (έστω και ασήμαντου) αυξάνει αυτόματα την τιμή
.
Επομένως, όταν σε μεγάλους αριθμούςπαράγοντες, είναι προτιμότερο να χρησιμοποιηθεί το λεγόμενο προσαρμοσμένος (βελτιωμένος) συντελεστής πολλαπλού προσδιορισμού
, που καθορίζεται από την αναλογία:

όπου nείναι ο αριθμός των παρατηρήσεων,

Μείναι ο αριθμός των παραμέτρων για τις μεταβλητές Χ(όσο μεγαλύτερη είναι η τιμή του m, τόσο ισχυρότερες είναι οι διαφορές μεταξύ του συνόλου των πολλαπλών προσδιορισμών
και διορθώθηκε
).

Με δεδομένο όγκο παρατηρήσεων και άλλα πράγματα να είναι ίσα, με αύξηση του αριθμού των ανεξάρτητων μεταβλητών (παραμέτρων), το προσαρμοσμένο σύνολο πολλαπλασιαστών. η αποφασιστικότητα μειώνεται. Η τιμή του μπορεί επίσης να γίνει αρνητική αδύναμους δεσμούςαποτέλεσμα με παράγοντες. Με μικρό αριθμό παρατηρήσεων, η μη διορθωμένη τιμή του τείνει να υπερεκτιμά το μερίδιο της διακύμανσης στο προκύπτον χαρακτηριστικό που σχετίζεται με την επίδραση των παραγόντων που περιλαμβάνονται στο μοντέλο παλινδρόμησης. Όσο μεγαλύτερος είναι ο πληθυσμός για τον οποίο υπολογίζεται η παλινδρόμηση, τόσο μικρότερη είναι η διαφορά
και
.

Σημειώστε ότι η χαμηλή τιμή του συντελεστή πολλαπλής συσχέτισης και του συντελεστή πολλαπλού προσδιορισμού μπορεί να οφείλεται στα ακόλουθα αιτιολογικό:

– σημαντικοί παράγοντες δεν περιλαμβάνονται στο μοντέλο παλινδρόμησης.

- η μορφή της αναλυτικής εξάρτησης έχει επιλεγεί λανθασμένα, η οποία δεν αντικατοπτρίζει τις πραγματικές σχέσεις μεταξύ των μεταβλητών που περιλαμβάνονται στο μοντέλο.

(διαφάνεια 3)Η σημασία της εξίσωσης πολλαπλής παλινδρόμησης στο σύνολό της αξιολογείται χρησιμοποιώντας φά - Το κριτήριο του Fisher :

Η προβαλλόμενη "μηδενική" υπόθεση H0 σχετικά με τη στατιστική ασήμαντη εξίσωση της παλινδρόμησης απορρίπτεται όταν η συνθήκη φά> φάΚρήτη, όπου φάΤο crit καθορίζεται από τους πίνακες φά- Το κριτήριο του Fisher για δύο βαθμούς ελευθερίας κ1 = Μ, κ2= n-Μ- 1 και δεδομένου επιπέδου σημασίας α.

Η σημασία του ίδιου παράγοντα μπορεί να είναι διαφορετική ανάλογα με τη σειρά εισαγωγής του στο μοντέλο.

(διαφάνεια 4)Το μέτρο για την αξιολόγηση της συμπερίληψης ενός παράγοντα στο μοντέλο είναι ιδιωτικός φά -κριτήριο (αξιολογεί τη στατιστική σημασία της παρουσίας καθενός από τους παράγοντες στην εξίσωση):

,

όπου
- πολλαπλασιαστής προσδιορισμός για ένα μοντέλο με πλήρη

ένα σύνολο παραγόντων?

- τον ίδιο δείκτη, αλλά χωρίς να περιλαμβάνεται ο παράγοντας στο μοντέλο x1;

n είναι ο αριθμός των παρατηρήσεων.

m είναι ο αριθμός των παραμέτρων για τις μεταβλητές x.

Εάν η πραγματική τιμή του F υπερβαίνει την τιμή του πίνακα, τότε επιπλέον συμπερίληψη στο μοντέλο του παράγοντα xiστατιστικά αιτιολογημένη και ο καθαρός συντελεστής παλινδρόμησης διςμε έναν παράγοντα xiστατιστικά σημαντικό.

Εάν η πραγματική τιμή του F είναι μικρότερη από την τιμή του πίνακα, τότε δεν είναι σκόπιμο να συμπεριληφθεί ένας πρόσθετος παράγοντας στο μοντέλο, καθώς δεν αυξάνει σημαντικά το μερίδιο της επεξηγημένης διακύμανσης του αποτελέσματος και ο συντελεστής παλινδρόμησης για αυτόν τον παράγοντα δεν είναι στατιστικά σημαντικό.

(διαφάνεια 5)Το μερικό F-test αξιολογεί τη σημασία των καθαρών συντελεστών παλινδρόμησης. Γνωρίζοντας το μέγεθος , είναι δυνατό να προσδιοριστεί t -Κριτήριο μαθητή :

ή

όπου Μ διςείναι το ριζικό μέσο τετραγωνικό σφάλμα του συντελεστή παλινδρόμησης σι Εγώ, μπορεί να προσδιοριστεί από τον τύπο:

.

Η τιμή του τυπικού σφάλματος, μαζί με την κατανομή t του Student για n-m-1Οι βαθμοί ελευθερίας χρησιμοποιούνται για τον έλεγχο της σημασίας του συντελεστή παλινδρόμησης και για τον υπολογισμό του διαστήματος εμπιστοσύνης του.