Βιογραφίες Χαρακτηριστικά Ανάλυση

Παράδειγμα πολλαπλής παλινδρόμησης. Εισαγωγή στην Πολλαπλή Παλινδρόμηση

Το υλικό θα επεξηγηθεί με ένα ενδεικτικό παράδειγμα: πρόβλεψη πωλήσεων για το OmniPower.Φανταστείτε ότι είστε ο διευθυντής μάρκετινγκ για μια μεγάλη εθνική αλυσίδα παντοπωλείων. ΣΤΟ τα τελευταία χρόνιαΘρεπτικές μπάρες που περιέχουν ένας μεγάλος αριθμός απόλίπη, υδατάνθρακες και θερμίδες. Σας επιτρέπουν να επαναφέρετε γρήγορα τα αποθέματα ενέργειας που ξοδεύουν δρομείς, ορειβάτες και άλλοι αθλητές σε εξαντλητικές προπονήσεις και αγώνες. Τα τελευταία χρόνια, οι πωλήσεις των food bar έχουν εκτιναχθεί και η διοίκηση της OmniPower έχει καταλήξει στο συμπέρασμα ότι αυτό το τμήμα της αγοράς είναι πολλά υποσχόμενο. Πριν από την εισαγωγή ενός νέου τύπου μπαρ στην εθνική αγορά, η εταιρεία θα ήθελε να αξιολογήσει τον αντίκτυπο του κόστους και του κόστους διαφήμισης στις πωλήσεις. Επιλέχθηκαν 34 καταστήματα για έρευνα μάρκετινγκ. Πρέπει να δημιουργήσετε ένα μοντέλο παλινδρόμησης που σας επιτρέπει να αναλύσετε τα δεδομένα που ελήφθησαν κατά τη διάρκεια της μελέτης. Είναι δυνατόν να χρησιμοποιηθεί το μοντέλο απλής γραμμικής παλινδρόμησης που συζητήθηκε στην προηγούμενη σημείωση για αυτό; Πώς πρέπει να αλλάξει;

Μοντέλο πολλαπλής παλινδρόμησης

Για έρευνα αγοράς, η OmniPower δημιούργησε ένα δείγμα 34 καταστημάτων με περίπου τον ίδιο όγκο πωλήσεων. Εξετάστε δύο ανεξάρτητες μεταβλητές - την τιμή μιας ράβδου OmniPower σε σεντ ( Χ 1) και μηνιαίο προϋπολογισμό διαφημιστική καμπάνιαπου διατηρείται στο κατάστημα, εκφρασμένο σε δολάρια ( Χ 2). Ο προϋπολογισμός αυτός περιλαμβάνει το κόστος σήμανσης και βιτρινών καταστημάτων, καθώς και τη διανομή κουπονιών και δωρεάν δειγμάτων. Εξαρτημένη μεταβλητή Υαντιπροσωπεύει τον αριθμό των ράβδων OmniPower που πωλούνται ανά μήνα (Εικόνα 1).

Ρύζι. 1. Μηνιαίος όγκος πωλήσεων των ράβδων OmniPower, η τιμή τους και το κόστος διαφήμισης

Λήψη σημείωσης σε ή μορφή, παραδείγματα σε μορφή

Ερμηνεία συντελεστών παλινδρόμησης.Εάν ένα πρόβλημα εξετάζει πολλαπλές επεξηγηματικές μεταβλητές, το μοντέλο απλής γραμμικής παλινδρόμησης μπορεί να επεκταθεί υποθέτοντας ότι υπάρχει κενό μεταξύ της απόκρισης και καθεμιάς από τις επεξηγηματικές μεταβλητές. γραμμική εξάρτηση. Για παράδειγμα, αν υπάρχει κΣτις επεξηγηματικές μεταβλητές, το μοντέλο πολλαπλής γραμμικής παλινδρόμησης έχει τη μορφή:

(1) Y i = β 0 + β 1 X 1i + β 2 X 2i + … + β k X ki + ε i

όπου β 0 - βάρδια, β 1 - ευθεία κλίση Υ, ανάλογα με τη μεταβλητή Χ 1αν οι μεταβλητές X 2 , X 3 , … , X kείναι σταθερές β 2 - ευθεία κλίση Υ, ανάλογα με τη μεταβλητή Χ 2αν οι μεταβλητές X 1 , X 3 , … , X kείναι σταθερές β κ- ευθεία κλίση Υ, ανάλογα με τη μεταβλητή Χ καν οι μεταβλητές X 1 , X 2 , … , X k-1είναι σταθερές ε Εγώ Υσε Εγώ m παρατήρηση.

Συγκεκριμένα, ένα μοντέλο πολλαπλής παλινδρόμησης με δύο επεξηγηματικές μεταβλητές:

(2) Y i = β 0 + β 1 Χ 1 Εγώ + β 2 Χ 2 Εγώ + ε i

όπου β 0 - βάρδια, β 1 - ευθεία κλίση Υ, ανάλογα με τη μεταβλητή Χ 1αν η μεταβλητή Χ 2είναι μια σταθερά, β 2 - ευθεία κλίση Υ, ανάλογα με τη μεταβλητή Χ 2αν η μεταβλητή Χ 1είναι μια σταθερά, ε Εγώ- τυχαίο σφάλμα μεταβλητής Υσε Εγώ m παρατήρηση.

Ας συγκρίνουμε αυτό το μοντέλο πολλαπλής γραμμικής παλινδρόμησης και ένα απλό μοντέλο γραμμικής παλινδρόμησης: Y i = β 0 + β 1 X i + ε i. Σε ένα απλό μοντέλο γραμμικής παλινδρόμησης, η κλίση β 1 Υόταν η τιμή της μεταβλητής Χ αλλάζει κατά ένα και δεν λαμβάνει υπόψη την επίδραση άλλων παραγόντων. Σε ένα μοντέλο πολλαπλής παλινδρόμησης με δύο ανεξάρτητες μεταβλητές (2), η κλίση β 1 αντιπροσωπεύει τη μεταβολή στη μέση τιμή της μεταβλητής Υόταν αλλάζετε την τιμή μιας μεταβλητής x1ανά μονάδα, λαμβάνοντας υπόψη την επίδραση της μεταβλητής Χ 2. Αυτή η τιμή ονομάζεται συντελεστής καθαρής παλινδρόμησης (ή μερικής παλινδρόμησης).

Όπως σε ένα απλό μοντέλο γραμμικής παλινδρόμησης, οι συντελεστές παλινδρόμησης του δείγματος σι 0 , σι 1 , και σι 2 είναι εκτιμήσεις των παραμέτρων του αντίστοιχου γενικού πληθυσμού β 0 , β 1 και β 2 .

Εξίσωση πολλαπλής παλινδρόμησης με δύο ανεξάρτητες μεταβλητές:

(3) = σι 0 + σι 1 Χ 1 Εγώ + σι 2 Χ 2 Εγώ

Για τον υπολογισμό των συντελεστών παλινδρόμησης χρησιμοποιείται η μέθοδος ελάχιστα τετράγωνα. Στο Excel, μπορείτε να χρησιμοποιήσετε Πακέτο ανάλυσης, επιλογή Οπισθοδρόμηση. Σε αντίθεση με τη δημιουργία μιας γραμμικής παλινδρόμησης, ορίστε απλώς ως Διάστημα εισαγωγής Χπεριοχή που περιλαμβάνει όλες τις ανεξάρτητες μεταβλητές (Εικ. 2). Στο παράδειγμά μας, αυτό είναι $C$1:$D$35.

Ρύζι. 2. Παράθυρο παλινδρόμησης παρτίδας Ανάλυση Excel

Τα αποτελέσματα του πακέτου ανάλυσης φαίνονται στην εικ. 3. Όπως βλέπουμε, σι 0 = 5 837,52, σι 1 = -53.217 και σι 2 = 3.163. Συνεπώς, = 5 837,52 –53,217 Χ 1 Εγώ + 3,163 Χ 2 Εγώ, όπου Ŷ Εγώ- προβλεπόμενες πωλήσεις των ράβδων διατροφής OmniPower σε Εγώ-m κατάστημα (τεμάχια), Χ 1Εγώ- τιμή ράβδου (σε σεντ) σε Εγώ-m κατάστημα, X 2i- μηνιαία διαφημιστική δαπάνη Εγώκατάστημα (σε δολάρια).

Ρύζι. 3. Μελέτη πολλαπλής παλινδρόμησης του όγκου πωλήσεων της γραμμής OmniPower

Επιλεκτική κλίση σι 0 είναι 5.837,52 και είναι μια εκτίμηση του μέσου αριθμού OmniPower Bars που πωλούνται ανά μήνα σε μηδενική τιμή και χωρίς κόστος διαφήμισης. Δεδομένου ότι αυτές οι συνθήκες δεν έχουν νόημα, σε αυτήν την κατάσταση η αξία της κλίσης β 0δεν έχει λογική ερμηνεία.

Επιλεκτική κλίση σι 1 είναι -53.217. Αυτό σημαίνει ότι για ένα δεδομένο μηνιαίο ποσό διαφημιστικής δαπάνης, μια αύξηση κατά ένα σεντ στην τιμή μιας ράβδου θα είχε ως αποτέλεσμα μείωση των αναμενόμενων πωλήσεων κατά 53.217 μονάδες. Ομοίως, η κλίση δειγματοληψίας σι 2 , ίσο με 3.613, σημαίνει ότι όταν σταθερή τιμήμια αύξηση 1 $ στη μηνιαία διαφημιστική δαπάνη συνοδεύεται από αύξηση των αναμενόμενων πωλήσεων ράβδων κατά 3.613. Αυτές οι εκτιμήσεις παρέχουν καλύτερη κατανόηση της επίδρασης της τιμής και της διαφήμισης στις πωλήσεις. Για παράδειγμα, με ένα σταθερό ποσό διαφημιστικής δαπάνης, μια μείωση 10 σεντ στην τιμή μιας ράβδου θα αυξήσει τις πωλήσεις κατά 532.173 μονάδες και με μια σταθερή τιμή μιας ράβδου, μια αύξηση 100 $ στο κόστος διαφήμισης θα αυξήσει τις πωλήσεις κατά 361,31 μονάδες .

Ερμηνεία κλίσεων σε μοντέλο πολλαπλής παλινδρόμησης.Οι συντελεστές σε ένα μοντέλο πολλαπλής παλινδρόμησης ονομάζονται καθαροί συντελεστές παλινδρόμησης. Εκτιμούν τη μέση μεταβολή στην απόκριση Υκατά την αλλαγή της τιμής Χανά μονάδα εάν όλες οι άλλες επεξηγηματικές μεταβλητές είναι «παγωμένες». Για παράδειγμα, στο πρόβλημα της γραμμής OmniPower, ένα κατάστημα με σταθερό ποσό διαφημιστικών δαπανών ανά μήνα θα πουλήσει 53.217 λιγότερες μπάρες εάν αυξήσει την τιμή του κατά ένα σεντ. Μια άλλη ερμηνεία αυτών των συντελεστών είναι δυνατή. Φανταστείτε τα ίδια καταστήματα με το ίδιο ποσό διαφημιστικών δαπανών. Εάν η τιμή μιας ράβδου μειωθεί κατά ένα σεντ, οι πωλήσεις σε αυτά τα καταστήματα θα αυξηθούν κατά 53.217 μπάρες. Σκεφτείτε τώρα δύο καταστήματα όπου τα μπαρ κοστίζουν το ίδιο, αλλά το κόστος διαφήμισης είναι διαφορετικό. Εάν αυτά τα κόστη αυξηθούν κατά ένα δολάριο, ο όγκος πωλήσεων σε αυτά τα καταστήματα θα αυξηθεί κατά 3.613 μονάδες. Όπως μπορούμε να δούμε, μια λογική ερμηνεία των κλίσεων είναι δυνατή μόνο υπό ορισμένους περιορισμούς που επιβάλλονται στις επεξηγηματικές μεταβλητές.

Πρόβλεψη των τιμών της εξαρτημένης μεταβλητής Y.Μόλις διαπιστώσουμε ότι τα συσσωρευμένα δεδομένα μας επιτρέπουν να χρησιμοποιήσουμε ένα μοντέλο πολλαπλής παλινδρόμησης, μπορούμε να προβλέψουμε τις μηνιαίες πωλήσεις των ράβδων OmniPower και να δημιουργήσουμε διαστήματα εμπιστοσύνης για τον μέσο όρο και τις προβλεπόμενες πωλήσεις. Για να προβλέψετε τις μέσες μηνιαίες πωλήσεις των 79 λεπτών OmniPower Bars σε ένα κατάστημα που ξοδεύει 400 $ το μήνα για διαφημίσεις, χρησιμοποιήστε την εξίσωση πολλαπλής παλινδρόμησης: Y = 5.837,53 – 53,2173*79 + 3,6131*400 = 3,079. Επομένως, ο αναμενόμενος όγκος πωλήσεων καταστημάτων Η πώληση ράβδων OmniPower με τιμή 79 σεντς και η δαπάνη 400 $ ανά μήνα για διαφήμιση είναι 3.079.

Υπολογισμός της τιμής Υκαι αξιολογώντας τα υπολείμματα, μπορεί κανείς να κατασκευάσει διαστήματα εμπιστοσύνης που περιέχουν αναμενόμενη αξίακαι την προβλεπόμενη τιμή απόκρισης. εξετάσαμε αυτή τη διαδικασία στο πλαίσιο ενός απλού μοντέλου γραμμικής παλινδρόμησης. Ωστόσο, η κατασκευή παρόμοιων εκτιμήσεων για το μοντέλο πολλαπλής παλινδρόμησης συνδέεται με μεγάλες υπολογιστικές δυσκολίες και δεν παρουσιάζεται εδώ.

Πολλαπλός μικτός συντελεστής συσχέτισης.Θυμηθείτε ότι το μοντέλο παλινδρόμησης σας επιτρέπει να υπολογίσετε τον συντελεστή μικτής συσχέτισης r2. Επειδή υπάρχουν τουλάχιστον δύο επεξηγηματικές μεταβλητές σε ένα μοντέλο πολλαπλής παλινδρόμησης, ο πολλαπλός μικτός συντελεστής συσχέτισης είναι το κλάσμα της διακύμανσης της μεταβλητής Υ, που εξηγείται από ένα δεδομένο σύνολο επεξηγηματικών μεταβλητών:

όπου SSRείναι το άθροισμα των τετραγώνων της παλινδρόμησης, SSTσυνολικό ποσότετράγωνα.

Για παράδειγμα, στο πρόβλημα της πώλησης μιας γραμμής OmniPower SSR = 39 472 731, SST= 52 093 677 και k = 2. Έτσι,

Αυτό σημαίνει ότι το 75,8% της διακύμανσης στον όγκο των πωλήσεων οφείλεται σε αλλαγές τιμών και διακυμάνσεις στις διαφημιστικές δαπάνες.

Υπολειμματική ανάλυση για ένα μοντέλο πολλαπλής παλινδρόμησης

Η υπολειμματική ανάλυση σάς επιτρέπει να προσδιορίσετε εάν μπορεί να εφαρμοστεί ένα μοντέλο πολλαπλής παλινδρόμησης με δύο (ή περισσότερες) επεξηγηματικές μεταβλητές. Συνήθως πραγματοποιείται τους παρακάτω τύπουςανάλυση υπολειμμάτων:

Το πρώτο γράφημα (Εικ. 4α) μας επιτρέπει να αναλύσουμε την κατανομή των υπολειμμάτων ανάλογα με τις προβλεπόμενες τιμές του . Εάν η τιμή των υπολειμμάτων δεν εξαρτάται από τις προβλεπόμενες τιμές και παίρνει και θετικές και αρνητικές τιμές(όπως στο παράδειγμά μας), η συνθήκη για τη γραμμική εξάρτηση της μεταβλητής Υκαι στις δύο επεξηγηματικές μεταβλητές ικανοποιείται. Δυστυχώς, σε Πακέτο ανάλυσηςΓια κάποιο λόγο αυτό το γράφημα δεν δημιουργείται. Μπορεί να είναι στο παράθυρο Οπισθοδρόμηση(βλ. εικ. 2) ενεργοποιήστε Λείψανα. Αυτό θα σας επιτρέψει να εμφανίσετε έναν πίνακα με τα υπόλοιπα, και να δημιουργήσετε ήδη πάνω του διάγραμμα διασποράς(Εικ. 4).

Ρύζι. 4. Εξάρτηση των υπολειμμάτων από την προβλεπόμενη τιμή

Το δεύτερο και το τρίτο γράφημα δείχνουν την εξάρτηση των υπολειμμάτων από τις επεξηγηματικές μεταβλητές. Αυτά τα οικόπεδα μπορούν να αποκαλύψουν ένα τετραγωνικό αποτέλεσμα. Σε αυτήν την περίπτωση, είναι απαραίτητο να προστεθεί μια τετράγωνη επεξηγηματική μεταβλητή στο μοντέλο πολλαπλής παλινδρόμησης. Αυτά τα διαγράμματα εμφανίζονται από το Πακέτο Ανάλυσης (βλ. Εικ. 2) εάν ενεργοποιήσετε την επιλογή Υπόλοιπο Γράφημα (Εικ. 5).

Ρύζι. 5. Εξάρτηση των υπολειμμάτων από την τιμή και το κόστος διαφήμισης

Έλεγχος της σημασίας ενός μοντέλου πολλαπλής παλινδρόμησης.

Αφού επιβεβαιωθεί, χρησιμοποιώντας υπολειμματική ανάλυση, ότι το γραμμικό μοντέλο πολλαπλής παλινδρόμησης είναι επαρκές, μπορεί να προσδιοριστεί εάν υπάρχει στατιστικά σημαντική σχέση μεταξύ της εξαρτημένης μεταβλητής και του συνόλου των επεξηγηματικών μεταβλητών. Δεδομένου ότι το μοντέλο περιλαμβάνει πολλές επεξηγηματικές μεταβλητές, η μηδενική και η εναλλακτική υπόθεση διατυπώνονται ως εξής: H 0: β 1 = β 2 = ... = β k = 0 (δεν υπάρχει γραμμική σχέση μεταξύ της απόκρισης και των επεξηγηματικών μεταβλητών), H 1: υπάρχει τουλάχιστον μία τιμή β j ≠ 0 (υπάρχει γραμμική εξάρτηση μεταξύ της απόκρισης και τουλάχιστον μίας επεξηγηματικής μεταβλητής).

Για να ελέγξουμε τη μηδενική υπόθεση, χρησιμοποιούμε φά-κριτήριο - τεστ φά-το στατιστικό ισούται με το μέσο τετράγωνο παλινδρόμησης (MSR) διαιρούμενο με τη διακύμανση σφάλματος (MSE):

όπου φά φά- διανομή με κκαι n–k–1βαθμοί ελευθερίας κ-ο αριθμός των ανεξάρτητων μεταβλητών στο μοντέλο παλινδρόμησης.

Ο κανόνας απόφασης μοιάζει με αυτό: σε επίπεδο σημαντικότητας α, η μηδενική υπόθεση H 0απορρίπτεται εάν F > F U(k,n – k – 1), διαφορετικά η υπόθεση H 0 δεν απορρίπτεται (Εικ. 6).

Ρύζι. 6. Συνοπτικός πίνακας ανάλυσης διασποράς για να ελεγχθεί η υπόθεση σχετικά στατιστική σημασίαπολλαπλούς συντελεστές παλινδρόμησης

Ο συνοπτικός πίνακας ANOVA συμπληρώθηκε με χρήση Πακέτο ανάλυσηςΤο Excel κατά την επίλυση του προβλήματος της πώλησης ράβδων OmniPower φαίνεται στην εικ. 3 (βλ. περιοχή A10:F14). Εάν το επίπεδο σημαντικότητας είναι 0,05, η κρίσιμη τιμή φά-κατανομές με δύο και 31 βαθμούς ελευθερίας FU(2.31)\u003d F. OBR (1-0,05; 2; 31) \u003d ίσο με 3,305 (Εικ. 7).

Ρύζι. 7. Έλεγχος της υπόθεσης για τη σημασία των συντελεστών παλινδρόμησης στο επίπεδο σημαντικότητας α = 0,05, με 2 και 31 βαθμούς ελευθερίας

Όπως φαίνεται στο σχ. 3, η στατιστική F είναι 48.477 > FU(2.31)= 3.305, και Π-αξία κοντά στο 0.000< 0,05. Следовательно, нулевая гипотеза Н 0 отклоняется, и объем продаж линейно связан хотя бы с одной из объясняющих переменных (ценой и/или затратами на рекламу).

Στατιστικά συμπεράσματα σχετικά με τον πληθυσμό των συντελεστών παλινδρόμησης

Να προσδιορίσει μια στατιστικά σημαντική σχέση μεταξύ των μεταβλητών Χκαι Υσε ένα απλό μοντέλο γραμμικής παλινδρόμησης, πραγματοποιήθηκε δοκιμή υπόθεσης κλίσης. Επιπλέον, για να υπολογίσουμε την κλίση του γενικού πληθυσμού, κατασκευάσαμε διάστημα εμπιστοσύνης(εκ. ).

Έλεγχος υποθέσεων.Για να ελεγχθεί η υπόθεση ότι η κλίση του πληθυσμού β 1 σε ένα απλό μοντέλο γραμμικής παλινδρόμησης είναι μηδέν, χρησιμοποιείται ο τύπος t = (b 1 – β 1)/S b 1. Μπορεί να επεκταθεί σε ένα μοντέλο πολλαπλής παλινδρόμησης:

όπου tείναι μια στατιστική δοκιμή που έχει t- διανομή με n–k–1βαθμοί ελευθερίας bj- η κλίση της μεταβλητής Χιως προς τη μεταβλητή Υεάν όλες οι άλλες επεξηγηματικές μεταβλητές είναι σταθερές, Sbjείναι το ριζικό μέσο τετραγωνικό σφάλμα του συντελεστή παλινδρόμησης bj, κ- ο αριθμός των επεξηγηματικών μεταβλητών στην εξίσωση παλινδρόμησης, β j - η υποθετική κλίση του πληθυσμού των απαντήσεων ι-ο σε σχέση με μια μεταβλητή όταν όλες οι άλλες μεταβλητές είναι σταθερές.

Στο σχ. 3 (κάτω πίνακας) δείχνει τα αποτελέσματα της αίτησης t-κριτήρια (που λαμβάνονται με χρήση Πακέτο ανάλυσης) για καθεμία από τις ανεξάρτητες μεταβλητές που περιλαμβάνονται στο μοντέλο παλινδρόμησης. Έτσι, εάν είναι απαραίτητο να προσδιοριστεί εάν μια μεταβλητή έχει Χ 2(κόστος διαφήμισης) σημαντικό αντίκτυπο στις πωλήσεις σε σταθερή τιμή μιας γραμμής OmniPower, διατυπώνονται οι μηδενικές και εναλλακτικές υποθέσεις: H 0: β2 = 0, H 1: β2 ≠ 0. Σύμφωνα με τον τύπο (6), λαμβάνουμε :

Εάν το επίπεδο σημαντικότητας είναι 0,05, οι κρίσιμες τιμές t-οι κατανομές με 31 βαθμούς ελευθερίας είναι t L = STUDENT.OBR(0.025;31) = –2.0395 και t U = STUDENT.OBR(0.975;31) = 2.0395 (Εικ. 8). R-τιμή =1-STUDENT.DIST(5.27;31;TRUE) και είναι κοντά στο 0.0000. Με βάση μια από τις ανισότητες t= 5,27 > 2,0395 ή R = 0,0000 < 0,05 нулевая гипотеза H 0απορρίπτεται. Επομένως, σε μια σταθερή τιμή μιας ράβδου μεταξύ της μεταβλητής Χ 2(κόστος διαφήμισης) και όγκος πωλήσεων, υπάρχει στατιστικά σημαντική σχέση. Έτσι, υπάρχει μια εξαιρετικά μικρή πιθανότητα απόρριψης μηδενική υπόθεσηεάν δεν υπάρχει γραμμική σχέση μεταξύ του κόστους διαφήμισης και του όγκου των πωλήσεων.

Ρύζι. 8. Έλεγχος της υπόθεσης για τη σημασία των συντελεστών παλινδρόμησης σε επίπεδο σημαντικότητας α = 0,05, με 31 βαθμούς ελευθερίας

Ο έλεγχος της σημασίας συγκεκριμένων συντελεστών παλινδρόμησης είναι στην πραγματικότητα έλεγχος της υπόθεσης σχετικά με τη σημασία μιας συγκεκριμένης μεταβλητής που περιλαμβάνεται στο μοντέλο παλινδρόμησης μαζί με άλλες. Συνεπώς, t-το κριτήριο για τον έλεγχο της υπόθεσης σχετικά με τη σημασία του συντελεστή παλινδρόμησης είναι ισοδύναμο με τον έλεγχο της υπόθεσης σχετικά με την επιρροή καθεμιάς από τις επεξηγηματικές μεταβλητές.

Διαστήματα εμπιστοσύνης.Αντί να δοκιμάσετε την υπόθεση για την κλίση του πληθυσμού, μπορείτε να υπολογίσετε την αξία αυτής της κλίσης. Σε ένα μοντέλο πολλαπλής παλινδρόμησης, ο ακόλουθος τύπος χρησιμοποιείται για την οικοδόμηση ενός διαστήματος εμπιστοσύνης:

(7) bj ± t nκ –1 Sbj

Χρησιμοποιούμε αυτόν τον τύπο για να κατασκευάσουμε ένα διάστημα εμπιστοσύνης 95% που περιέχει την κλίση του πληθυσμού β 1 (η επίδραση της τιμής x1στον όγκο πωλήσεων Υμε ένα σταθερό ποσό διαφημιστικού κόστους Χ 2). Σύμφωνα με τον τύπο (7) παίρνουμε: σι 1 ± t nκ –1 Sb 1 . Επειδή η σι 1 = –53,2173 (βλ. Εικ. 3), Sb 1 = 6,8522, κρίσιμη τιμή t- στατιστικά στο 95% επίπεδο αυτοπεποίθησηςκαι 31 βαθμούς ελευθερίας t nκ –1 \u003d STUDENT.OBR (0,975; 31) \u003d 2,0395, παίρνουμε:

–53,2173 ± 2,0395*6,8522

–53,2173 ± 13,9752

–67,1925 ≤ β 1 ≤ –39,2421

Έτσι, λαμβάνοντας υπόψη την επίδραση του κόστους διαφήμισης, μπορεί να υποστηριχθεί ότι με αύξηση της τιμής της ράβδου κατά ένα σεντ, ο όγκος πωλήσεων μειώνεται κατά ένα ποσό που κυμαίνεται από 39,2 έως 67,2 μονάδες. Υπάρχει 95% πιθανότητα αυτό το διάστημα να εκτιμήσει σωστά τη σχέση μεταξύ των δύο μεταβλητών. Δεδομένου ότι αυτό το διάστημα εμπιστοσύνης δεν περιέχει μηδέν, μπορεί να υποστηριχθεί ότι ο συντελεστής παλινδρόμησης β 1 έχει στατιστικά σημαντική επίδραση στις πωλήσεις.

Εκτίμηση της Σημασίας των Επεξηγηματικών Μεταβλητών σε ένα Μοντέλο Πολλαπλής Παλινδρόμησης

Ένα μοντέλο πολλαπλής παλινδρόμησης θα πρέπει να περιλαμβάνει μόνο εκείνες τις επεξηγηματικές μεταβλητές που προβλέπουν με ακρίβεια την τιμή της εξαρτημένης μεταβλητής. Εάν κάποια από τις επεξηγηματικές μεταβλητές δεν πληροί αυτήν την απαίτηση, πρέπει να αφαιρεθεί από το μοντέλο. Ως εναλλακτική μέθοδος εκτίμησης της συνεισφοράς της επεξηγηματικής μεταβλητής, κατά κανόνα, μια ιδιωτική φά-κριτήριο. Συνίσταται στην αξιολόγηση της μεταβολής στο άθροισμα των τετραγώνων της παλινδρόμησης μετά τη συμπερίληψη της επόμενης μεταβλητής στο μοντέλο. Μια νέα μεταβλητή περιλαμβάνεται στο μοντέλο μόνο όταν οδηγεί σε σημαντική αύξηση της ακρίβειας της πρόβλεψης.

Προκειμένου να εφαρμοστεί μια μερική δοκιμή F στο πρόβλημα πωλήσεων της γραμμής OmniPower, είναι απαραίτητο να αξιολογηθεί η συνεισφορά της μεταβλητής Χ 2(κόστος διαφήμισης) αφού συμπεριληφθεί η μεταβλητή στο μοντέλο x1(τιμή ράβδου). Εάν το μοντέλο περιλαμβάνει πολλαπλές επεξηγηματικές μεταβλητές, η συμβολή της επεξηγηματικής μεταβλητής Χιμπορεί να προσδιοριστεί εξαιρώντας το από το μοντέλο και αξιολογώντας το άθροισμα της παλινδρόμησης των τετραγώνων (SSR) που υπολογίζεται στις υπόλοιπες μεταβλητές. Εάν το μοντέλο περιλαμβάνει δύο μεταβλητές, η συνεισφορά καθεμιάς από αυτές καθορίζεται από τους τύπους:

Εκτίμηση της συνεισφοράς μιας μεταβλητής Χ 1 Χ 2:

(8a) SSR(X 1 |X 2) = SSR(X 1 και X 2) – SSR(X 2)

Εκτίμηση της συνεισφοράς μιας μεταβλητής Χ 2με την προϋπόθεση ότι η μεταβλητή περιλαμβάνεται στο μοντέλο Χ 1:

(8β) SSR(X 2 |X 1) = SSR(X 1 και X 2) – SSR(X 1)

Ποσότητες SSR(X2)και SSR(X 1) είναι, αντίστοιχα, τα αθροίσματα των τετραγώνων της παλινδρόμησης που υπολογίζονται μόνο για μία από τις επεξηγούμενες μεταβλητές (Εικ. 9).

Ρύζι. 9. Οι συντελεστές ενός μοντέλου απλής γραμμικής παλινδρόμησης, λαμβάνοντας υπόψη: (α) τον όγκο των πωλήσεων και την τιμή της ράβδου - SSR(X 1); (β) όγκος πωλήσεων και κόστος διαφήμισης - SSR(X2)(λήφθηκε χρησιμοποιώντας το πακέτο εργαλείων ανάλυσης Excel)

Μηδενικές και εναλλακτικές υποθέσεις για τη συνεισφορά μιας μεταβλητής Χ 1διατυπώνονται ως εξής: H 0- ενεργοποίηση μεταβλητής Χ 1δεν οδηγεί σε σημαντική αύξηση της ακρίβειας του μοντέλου, το οποίο λαμβάνει υπόψη τη μεταβλητή Χ 2; H 1- ενεργοποίηση μεταβλητής Χ 1οδηγεί σε σημαντική αύξηση της ακρίβειας του μοντέλου, το οποίο λαμβάνει υπόψη τη μεταβλητή Χ 2. Τα στατιστικά στοιχεία στα οποία βασίζεται το πηλίκο φά-κριτήριο για δύο μεταβλητές, που υπολογίζεται με τον τύπο:

όπου MSEείναι η διακύμανση του σφάλματος (υπολειπόμενο) για δύο παράγοντες ταυτόχρονα. Εξ ορισμού φά-η στατιστική έχει φά-διανομή από ένα και n-κ-1βαθμοί ελευθερίας.

Ετσι, SSR(X2)= 14 915 814 (Εικ. 9), SSR(X 1 και X 2)= 39 472 731 (Εικ. 3, κελί C12). Επομένως, σύμφωνα με τον τύπο (8α), λαμβάνουμε: SSR (X 1 | X 2) \u003d SSR (X 1 και X 2) - SSR (X 2) \u003d 39 472 731 - 14 915 814 = 24 556 917. Έτσι, για SSR(X 1 |X 2) = 24 556 917 και MSE (Χ 1 και Χ 2) = 407 127 (Εικ. 3, κελί D13), χρησιμοποιώντας τον τύπο (9), λαμβάνουμε: φά= 24.556.917 / 407.127 = 60,32. Εάν το επίπεδο σημαντικότητας είναι 0,05, τότε η κρίσιμη τιμή φά-κατανομές με ένα και 31 βαθμούς ελευθερίας = F. OBR (0,95; 1; 31) = 4,16 (Εικ. 10).

Ρύζι. 10. Έλεγχος της υπόθεσης για τη σημασία των συντελεστών παλινδρόμησης σε επίπεδο σημαντικότητας 0,05, με έναν και 31 βαθμούς ελευθερίας

Δεδομένου ότι η υπολογιζόμενη τιμή φά-στατιστικές περισσότερο από κρίσιμες (60,32 > 4,17), υπόθεση H 0απορρίπτεται, επομένως λογιστικοποιείται η μεταβλητή Χ 1(τιμές) βελτιώνει σημαντικά ένα μοντέλο παλινδρόμησης που περιλαμβάνει ήδη τη μεταβλητή Χ 2(κόστος διαφήμισης).

Ομοίως, μπορεί κανείς να αξιολογήσει την επιρροή της μεταβλητής Χ 2(κόστος διαφήμισης) ανά μοντέλο που περιλαμβάνει ήδη τη μεταβλητή Χ 1(τιμή). Κάντε τους υπολογισμούς μόνοι σας. Η συνθήκη απόφασης προκαλεί 27,8 > 4,17, και ως εκ τούτου η συμπερίληψη της μεταβλητής Χ 2οδηγεί επίσης σε σημαντική αύξηση της ακρίβειας του μοντέλου, το οποίο λαμβάνει υπόψη τη μεταβλητή X 1 . Έτσι, η συμπερίληψη καθεμιάς από τις μεταβλητές βελτιώνει την ακρίβεια του μοντέλου. Επομένως, και οι δύο μεταβλητές πρέπει να περιλαμβάνονται στο μοντέλο πολλαπλής παλινδρόμησης: τιμή και κόστος διαφήμισης.

Περιέργως, η αξία t-στατιστικά που υπολογίζονται με τον τύπο (6), και την αξία του ιδιωτικού φά-στατιστική, δεδομένης φόρμουλας(9) είναι μοναδικά διασυνδεδεμένα:

όπου έναείναι ο αριθμός των βαθμών ελευθερίας.

Προσωπικά μοντέλα παλινδρόμησης μεταβλητής και εφέ αλληλεπίδρασης

Όταν συζητάμε πολλαπλά μοντέλα παλινδρόμησης, έχουμε υποθέσει ότι κάθε ανεξάρτητη μεταβλητή είναι ένας αριθμός. Ωστόσο, σε πολλές περιπτώσεις είναι απαραίτητο να συμπεριληφθούν στο μοντέλο κατηγορικές μεταβλητές. Για παράδειγμα, στο πρόβλημα πωλήσεων της γραμμής OmniPower, το κόστος τιμής και διαφήμισης χρησιμοποιήθηκε για την πρόβλεψη των μέσων μηνιαίων πωλήσεων. Εκτός από αυτές τις αριθμητικές μεταβλητές, μπορείτε να προσπαθήσετε να λάβετε υπόψη στο μοντέλο τη θέση των αγαθών μέσα στο κατάστημα (για παράδειγμα, στη βιτρίνα ή όχι). Για να ληφθούν υπόψη οι κατηγορικές μεταβλητές στο μοντέλο παλινδρόμησης, πρέπει να συμπεριληφθούν εικονικές μεταβλητές σε αυτό. Για παράδειγμα, εάν μια κατηγορική επεξηγηματική μεταβλητή έχει δύο κατηγορίες, μια εικονική μεταβλητή αρκεί για να τις αναπαραστήσει Χρε: XD= 0 εάν η παρατήρηση ανήκει στην πρώτη κατηγορία, XD= 1 αν η παρατήρηση ανήκει στη δεύτερη κατηγορία.

Για να επεξηγήσετε τις εικονικές μεταβλητές, εξετάστε ένα μοντέλο για την πρόβλεψη της μέσης εκτιμώμενης αξίας της ακίνητης περιουσίας με βάση ένα δείγμα 15 κατοικιών. Ως επεξηγηματικές μεταβλητές επιλέγουμε το σαλόνι του σπιτιού (χιλιάδες τετραγωνικά πόδια) και την παρουσία τζακιού (Εικ. 11). Ψευδομεταβλητή Χ 2(παρουσία τζακιού) ορίζεται ως εξής: Χ 2= 0 εάν δεν υπάρχει τζάκι στο σπίτι, Χ 2= 1 αν το σπίτι έχει τζάκι.

Ρύζι. 11. Εκτιμώμενη αξία που προβλέπεται από τον χώρο διαβίωσης και την παρουσία τζακιού

Ας υποθέσουμε ότι η κλίση της εκτιμώμενης αξίας, ανάλογα με την περιοχή διαβίωσης, είναι ίδια για σπίτια με και χωρίς τζάκι. Τότε το μοντέλο πολλαπλής παλινδρόμησης μοιάζει με αυτό:

Y i = β 0 + β 1 X 1i + β 2 X 2i + ε i

όπου Y i- εκτιμώμενη αξία Εγώ-ος οίκος, μετρημένος σε χιλιάδες δολάρια, β 0 - μετατόπιση απόκρισης, x1Εγώ,- ζωτικός χώρος Εγώ-πάω σπίτι, μετρημένο σε χιλιάδες τετραγωνικά μέτρα. πόδια, β 1 - η κλίση της εκτιμώμενης τιμής, ανάλογα με την περιοχή διαβίωσης του σπιτιού με σταθερή τιμή της εικονικής μεταβλητής, x1Εγώ, είναι μια εικονική μεταβλητή που υποδεικνύει την παρουσία ή την απουσία τζακιού, β 1 - η κλίση της εκτιμώμενης τιμής, ανάλογα με την περιοχή διαβίωσης του σπιτιού με σταθερή τιμή της εικονικής μεταβλητής β 2 - το αποτέλεσμα της αύξησης της εκτιμώμενης αξίας του σπιτιού, ανάλογα με την παρουσία τζακιού όταν σταθερή τιμήκαθιστικό, ε Εγώ– ένα τυχαίο σφάλμα στην εκτιμώμενη τιμή Εγώτο σπίτι. Τα αποτελέσματα του υπολογισμού του μοντέλου παλινδρόμησης φαίνονται στο σχήμα. 12.

Ρύζι. 12. Αποτελέσματα υπολογισμού του μοντέλου παλινδρόμησης για την εκτιμώμενη αξία των κατοικιών. αποκτήθηκε με Πακέτο ανάλυσηςστο Excel? Για τον υπολογισμό χρησιμοποιήθηκε ένας πίνακας παρόμοιος με το Σχ. 1. 11, με μόνη αλλαγή: το "Ναι" αντικαθίσταται από ένα και το "Όχι" με μηδενικά

Σε αυτό το μοντέλο, οι συντελεστές παλινδρόμησης ερμηνεύονται ως εξής:

  1. Εάν η εικονική μεταβλητή είναι σταθερή, μια αύξηση του ζωτικού χώρου ανά 1.000 τ. πόδια οδηγεί σε αύξηση 16,2 χιλιάδων $ στην προβλεπόμενη μέση εκτιμώμενη αξία.
  2. Εάν ο χώρος διαβίωσης είναι σταθερός, το τζάκι αυξάνει τη μέση αξία του σπιτιού κατά 3.900 $.

Δώστε προσοχή (Εικ. 12), t-το στατιστικό που αντιστοιχεί στον χώρο διαβίωσης είναι 6,29 και R- η τιμή είναι σχεδόν μηδενική. Ταυτοχρονα t-το στατιστικό που αντιστοιχεί στην εικονική μεταβλητή είναι 3.1 και Π-αξία - 0,009. Έτσι, καθεμία από αυτές τις δύο μεταβλητές συμβάλλει σημαντικά στο μοντέλο εάν το επίπεδο σημαντικότητας είναι 0,01. Επιπλέον, ο πολλαπλός μικτός συντελεστής συσχέτισης σημαίνει ότι το 81,1% της διακύμανσης της εκτιμώμενης αξίας οφείλεται στη μεταβλητότητα του χώρου διαβίωσης του σπιτιού και στην παρουσία τζακιού.

Επίδραση αλληλεπίδρασης.Σε όλα τα μοντέλα παλινδρόμησης που συζητήθηκαν παραπάνω, η επίδραση της απόκρισης στην επεξηγηματική μεταβλητή θεωρήθηκε ότι ήταν στατιστικά ανεξάρτητη από την επίδραση της απόκρισης σε άλλες επεξηγηματικές μεταβλητές. Εάν αυτή η προϋπόθεση δεν πληρούται, υπάρχει αλληλεπίδραση μεταξύ των εξαρτημένων μεταβλητών. Για παράδειγμα, είναι πιθανό η διαφήμιση να έχει μεγάλο αντίκτυπο στις πωλήσεις προϊόντων σε χαμηλές τιμές. Ωστόσο, εάν η τιμή ενός προϊόντος είναι πολύ υψηλή, η αύξηση των διαφημιστικών δαπανών δεν μπορεί να αυξήσει σημαντικά τις πωλήσεις. Σε αυτή την περίπτωση, υπάρχει αλληλεπίδραση μεταξύ της τιμής του προϊόντος και του κόστους της διαφήμισής του. Με άλλα λόγια, δεν μπορεί κανείς να κάνει γενικές δηλώσεις για την εξάρτηση των πωλήσεων από το κόστος διαφήμισης. Η επίδραση του διαφημιστικού κόστους στις πωλήσεις εξαρτάται από την τιμή. Αυτή η επιρροή λαμβάνεται υπόψη στο μοντέλο πολλαπλής παλινδρόμησης χρησιμοποιώντας το φαινόμενο αλληλεπίδρασης. Για να επεξηγήσουμε αυτήν την έννοια, ας επιστρέψουμε στο πρόβλημα του κόστους των σπιτιών.

Στο μοντέλο παλινδρόμησης που αναπτύξαμε, υποτέθηκε ότι η επίδραση του μεγέθους του σπιτιού στην αξία του δεν εξαρτάται από το αν το σπίτι έχει τζάκι. Με άλλα λόγια, πιστευόταν ότι η κλίση της εκτιμώμενης αξίας, ανάλογα με το χώρο διαβίωσης του σπιτιού, ήταν η ίδια για σπίτια με και χωρίς τζάκι. Εάν αυτές οι πλαγιές διαφέρουν μεταξύ τους, υπάρχει αλληλεπίδραση μεταξύ του μεγέθους του σπιτιού και της παρουσίας τζακιού.

Ο έλεγχος της υπόθεσης των ίσων κλίσεων καταλήγει στην εκτίμηση της συμβολής που έχει το γινόμενο της επεξηγηματικής μεταβλητής στο μοντέλο παλινδρόμησης x1και μια εικονική μεταβλητή Χ 2. Εάν αυτή η συνεισφορά είναι στατιστικά σημαντική, το αρχικό μοντέλο παλινδρόμησης δεν μπορεί να εφαρμοστεί. Αποτελέσματα ανάλυσης παλινδρόμησης που περιλαμβάνει μεταβλητές Χ 1, Χ 2και X 3 \u003d X 1 * X 2φαίνεται στο σχ. 13.

Ρύζι. 13. Αποτελέσματα που ελήφθησαν με Πακέτο ανάλυσης Excel για ένα μοντέλο παλινδρόμησης που λαμβάνει υπόψη τον χώρο διαβίωσης, την παρουσία τζακιού και την αλληλεπίδρασή τους

Για να ελεγχθεί η μηδενική υπόθεση H 0: β 3 = 0 και η εναλλακτική υπόθεση H 1: β 3 ≠ 0, χρησιμοποιώντας τα αποτελέσματα που φαίνονται στο Σχ. 13, σημειώστε ότι t-στατιστική που αντιστοιχεί στην επίδραση της αλληλεπίδρασης των μεταβλητών είναι ίση με 1,48. Επειδή η R-η τιμή είναι 0,166 > 0,05, η μηδενική υπόθεση δεν απορρίπτεται. Επομένως, η αλληλεπίδραση των μεταβλητών δεν έχει σημαντική επίδραση στο μοντέλο παλινδρόμησης, το οποίο λαμβάνει υπόψη τον χώρο διαβίωσης και την παρουσία τζακιού.

Περίληψη. Αυτή η σημείωση δείχνει πώς ένας διευθυντής μάρκετινγκ μπορεί να χρησιμοποιήσει πολλαπλή γραμμική ανάλυση για να προβλέψει τον όγκο πωλήσεων με βάση την τιμή και τις διαφημιστικές δαπάνες. Εξετάζονται διάφορα μοντέλα πολλαπλής παλινδρόμησης, συμπεριλαμβανομένων τετραγωνικών μοντέλων, μοντέλων με εικονικές μεταβλητές και μοντέλων με εφέ αλληλεπίδρασης (Εικ. 14).

Ρύζι. δεκατέσσερα. Δομικό σχήμασημειώσεις

Χρησιμοποιούνται υλικά από το βιβλίο Levin et al Στατιστικά για μάνατζερ. - Μ.: Williams, 2004. - Σελ. 873–936

Ας υποθέσουμε ότι ένας προγραμματιστής αξιολογεί μια ομάδα μικρών κτιρίων γραφείων σε μια παραδοσιακή επιχειρηματική περιοχή.

Ένας προγραμματιστής μπορεί να χρησιμοποιήσει ανάλυση πολλαπλής παλινδρόμησης για να εκτιμήσει την τιμή ενός κτιρίου γραφείων σε μια δεδομένη περιοχή με βάση τις ακόλουθες μεταβλητές.

y είναι η εκτιμώμενη τιμή ενός κτιρίου γραφείων.

x 1 - συνολική επιφάνεια σε τετραγωνικά μέτρα.

x 2 - αριθμός γραφείων.

x 3 - ο αριθμός των εισόδων (0,5 είσοδος σημαίνει είσοδο μόνο για την παράδοση της αλληλογραφίας).

x 4 - χρόνος λειτουργίας του κτιρίου σε χρόνια.

Αυτό το παράδειγμα υποθέτει ότι υπάρχει μια γραμμική σχέση μεταξύ κάθε ανεξάρτητης μεταβλητής (x 1 , x 2 , x 3 και x 4) και της εξαρτημένης μεταβλητής (y), δηλαδή της τιμής ενός κτιρίου γραφείων σε μια δεδομένη περιοχή. Τα αρχικά δεδομένα φαίνονται στο σχήμα.

Οι ρυθμίσεις για την επίλυση της εργασίας φαίνονται στο σχήμα του παραθύρου " Οπισθοδρόμηση". Τα αποτελέσματα του υπολογισμού τοποθετούνται σε ξεχωριστό φύλλο σε τρεις πίνακες

Ως αποτέλεσμα, πήραμε τα εξής μαθηματικό μοντέλο:

y = 52318 + 27,64*x1 + 12530*x2 + 2553*x3 - 234,24*x4.

Ο προγραμματιστής μπορεί τώρα να καθορίσει την εκτιμώμενη αξία ενός κτιρίου γραφείων στην ίδια περιοχή. Εάν αυτό το κτίριο έχει έκταση 2500 τετραγωνικά μέτρα, τρία γραφεία, δύο εισόδους και διάρκεια ζωής 25 ετών, μπορείτε να υπολογίσετε την αξία του χρησιμοποιώντας τον ακόλουθο τύπο:

y \u003d 27,64 * 2500 + 12530 * 3 + 2553 * 2 - 234,24 * 25 + 52318 \u003d 158 261 c.u.

Στην ανάλυση παλινδρόμησης, τα πιο σημαντικά αποτελέσματα είναι:

  • συντελεστές για μεταβλητές και Y-τομή, που είναι οι επιθυμητές παράμετροι του μοντέλου.
  • πολλαπλό R που χαρακτηρίζει την ακρίβεια του μοντέλου για τα διαθέσιμα δεδομένα εισόδου.
  • Fisher F-test(στο εξεταζόμενο παράδειγμα, υπερβαίνει σημαντικά την κρίσιμη τιμή ίση με 4,06).
  • t-statistic– τιμές που χαρακτηρίζουν τον βαθμό σημαντικότητας των επιμέρους συντελεστών του μοντέλου.

Ιδιαίτερη προσοχή πρέπει να δοθεί στα t-statistics. Πολύ συχνά, κατά την κατασκευή ενός μοντέλου παλινδρόμησης, δεν είναι γνωστό εάν αυτός ή εκείνος ο παράγοντας x επηρεάζει το y. Η συμπερίληψη στο μοντέλο παραγόντων που δεν επηρεάζουν την τιμή εξόδου υποβαθμίζει την ποιότητα του μοντέλου. Ο υπολογισμός της στατιστικής t βοηθά στον εντοπισμό τέτοιων παραγόντων. Μια κατά προσέγγιση εκτίμηση μπορεί να γίνει ως εξής: εάν για το n>>k η απόλυτη τιμή της στατιστικής t είναι σημαντικά μεγαλύτερη από το τρία, ο αντίστοιχος συντελεστής θα πρέπει να θεωρείται σημαντικός και ο παράγοντας πρέπει να περιλαμβάνεται στο μοντέλο, διαφορετικά αποκλείεται από το μοντέλο. Έτσι, είναι δυνατόν να προταθεί μια τεχνολογία για την κατασκευή ενός μοντέλου παλινδρόμησης, που αποτελείται από δύο στάδια:

1) επεξεργαστείτε το πακέτο " Οπισθοδρόμηση"όλα τα διαθέσιμα δεδομένα, αναλύστε τις τιμές στατιστικής t.

2) αφαιρέστε από τον πίνακα των στηλών αρχικών δεδομένων με αυτούς τους παράγοντες για τους οποίους οι συντελεστές είναι ασήμαντοι και επεξεργαστείτε με το πακέτο " Οπισθοδρόμηση"νέο τραπέζι.

Στις προηγούμενες σημειώσεις, η εστίαση ήταν συχνά σε μια μεμονωμένη αριθμητική μεταβλητή, όπως οι επιστροφές αμοιβαίων κεφαλαίων, ο χρόνος φόρτωσης ιστοσελίδας ή η κατανάλωση αναψυκτικών. Σε αυτήν και στις επόμενες σημειώσεις, θα εξετάσουμε μεθόδους για την πρόβλεψη των τιμών μιας αριθμητικής μεταβλητής ανάλογα με τις τιμές μιας ή περισσότερων άλλων αριθμητικών μεταβλητών.

Το υλικό θα επεξηγηθεί με ένα διαμπερές παράδειγμα. Πρόβλεψη όγκου πωλήσεων σε κατάστημα ρούχων.Η αλυσίδα καταστημάτων εκπτωτικών ρούχων Sunflowers επεκτείνεται συνεχώς εδώ και 25 χρόνια. Ωστόσο, η εταιρεία δεν έχει επί του παρόντος συστηματική προσέγγιση για την επιλογή νέων καταστημάτων. Η τοποθεσία όπου η εταιρεία σκοπεύει να ανοίξει ένα νέο κατάστημα καθορίζεται με βάση υποκειμενικούς λόγους. Τα κριτήρια επιλογής είναι οι ευνοϊκές συνθήκες ενοικίασης ή η ιδέα του διευθυντή για την ιδανική τοποθεσία του καταστήματος. Φανταστείτε ότι είστε επικεφαλής του Τμήματος Ειδικών Έργων και Προγραμματισμού. Σας έχει ανατεθεί η ανάπτυξη στρατηγικό σχέδιοάνοιγμα νέων καταστημάτων. Αυτό το σχέδιο θα πρέπει να περιέχει μια πρόβλεψη ετήσιων πωλήσεων σε καταστήματα που άνοιξαν πρόσφατα. Νομίζεις ότι περιοχή συναλλαγώνσχετίζεται άμεσα με το ποσό των εσόδων και θέλετε να λάβετε αυτό το γεγονός υπόψη στη διαδικασία λήψης αποφάσεων. Πώς να αναπτυχθεί στατιστικό μοντέλονα προβλέψει τις ετήσιες πωλήσεις με βάση το νέο μέγεθος καταστήματος;

Συνήθως, η ανάλυση παλινδρόμησης χρησιμοποιείται για την πρόβλεψη των τιμών μιας μεταβλητής. Στόχος του είναι να αναπτύξει ένα στατιστικό μοντέλο που προβλέπει τις τιμές της εξαρτημένης μεταβλητής ή της απόκρισης, από τις τιμές μιας τουλάχιστον ανεξάρτητης ή επεξηγηματικής μεταβλητής. Σε αυτή τη σημείωση, θα εξετάσουμε μια απλή γραμμική παλινδρόμηση - στατιστική μέθοδος, επιτρέποντας την πρόβλεψη των τιμών της εξαρτημένης μεταβλητής Υαπό τις τιμές της ανεξάρτητης μεταβλητής Χ. Οι ακόλουθες σημειώσεις θα περιγράψουν ένα μοντέλο πολλαπλής παλινδρόμησης που έχει σχεδιαστεί για να προβλέπει τις τιμές της ανεξάρτητης μεταβλητής Υαπό τις τιμές πολλών εξαρτημένων μεταβλητών ( X 1 , X 2 , …, X k).

Λήψη σημείωσης σε ή μορφή, παραδείγματα σε μορφή

Τύποι μοντέλων παλινδρόμησης

όπου ρ 1 είναι ο συντελεστής αυτοσυσχέτισης. αν ρ 1 = 0 (χωρίς αυτοσυσχέτιση), ρε≈ 2; αν ρ 1 ≈ 1 (θετική αυτοσυσχέτιση), ρε≈ 0; αν ρ 1 = -1 (αρνητική αυτοσυσχέτιση), ρε ≈ 4.

Στην πράξη, η εφαρμογή του κριτηρίου Durbin-Watson βασίζεται σε σύγκριση της τιμής ρεμε κρίσιμες θεωρητικές αξίες δ Λκαι δ Uγια δεδομένο αριθμό παρατηρήσεων n, αριθμοί ανεξάρτητων μεταβλητές μοντέλου κ(για απλή γραμμική παλινδρόμηση κ= 1) και επίπεδο σημαντικότητας α. Αν ένα ρε< d L , υπόθεση ανεξαρτησίας τυχαίες αποκλίσειςαπορρίφθηκε (άρα υπάρχει θετική αυτοσυσχέτιση). αν D > d U, η υπόθεση δεν απορρίπτεται (δηλαδή δεν υπάρχει αυτοσυσχέτιση). αν dL< D < d U δεν υπάρχει αρκετός λόγος για να πάρεις μια απόφαση. Όταν η υπολογιζόμενη τιμή ρευπερβαίνει το 2, λοιπόν δ Λκαι δ Uδεν είναι ο ίδιος ο συντελεστής που συγκρίνεται ρεκαι η έκφραση (4 – ρε).

Για να υπολογίσουμε τα στατιστικά στοιχεία Durbin-Watson στο Excel, στραφούμε στον κάτω πίνακα στο Σχ. δεκατέσσερα Ανάληψη υπολοίπου. Ο αριθμητής στην παράσταση (10) υπολογίζεται χρησιμοποιώντας τη συνάρτηση = SUMMQDIFF(πίνακας1, πίνακας2) και τον παρονομαστή = SUMMQ(πίνακας) (Εικ. 16).

Ρύζι. 16. Τύποι υπολογισμού στατιστικών Durbin-Watson

Στο παράδειγμά μας ρε= 0,883. Το κύριο ερώτημα είναι: ποια τιμή της στατιστικής Durbin-Watson πρέπει να θεωρηθεί αρκετά μικρή ώστε να συμπεράνουμε ότι υπάρχει θετική αυτοσυσχέτιση; Είναι απαραίτητο να συσχετιστεί η τιμή του D με τις κρίσιμες τιμές ( δ Λκαι δ U) ανάλογα με τον αριθμό των παρατηρήσεων nκαι επίπεδο σημαντικότητας α (Εικ. 17).

Ρύζι. 17. Κρίσιμες τιμές στατιστικών Durbin-Watson (τεμάχιο πίνακα)

Έτσι, στο πρόβλημα του όγκου των πωλήσεων σε ένα κατάστημα που παραδίδει αγαθά στο σπίτι σας, υπάρχει μία ανεξάρτητη μεταβλητή ( κ= 1), 15 παρατηρήσεις ( n= 15) και επίπεδο σημαντικότητας α = 0,05. Συνεπώς, δ Λ= 1,08 και ρεU= 1,36. Επειδή η ρε = 0,883 < δ Λ= 1,08, υπάρχει θετική αυτοσυσχέτιση μεταξύ των υπολειμμάτων, δεν μπορεί να εφαρμοστεί η μέθοδος των ελαχίστων τετραγώνων.

Έλεγχος υποθέσεων σχετικά με την κλίση και τον συντελεστή συσχέτισης

Η παραπάνω παλινδρόμηση εφαρμόστηκε αποκλειστικά για πρόβλεψη. Για τον προσδιορισμό των συντελεστών παλινδρόμησης και την πρόβλεψη της τιμής μιας μεταβλητής Υστο δεδομένη αξίαμεταβλητός Χχρησιμοποιήθηκε η μέθοδος των ελαχίστων τετραγώνων. Επιπλέον, εξετάσαμε το τυπικό σφάλμα της εκτίμησης και τον συντελεστή μικτής συσχέτισης. Εάν η υπολειπόμενη ανάλυση επιβεβαιώσει ότι δεν παραβιάζονται οι συνθήκες εφαρμογής της μεθόδου των ελαχίστων τετραγώνων και ότι το μοντέλο απλής γραμμικής παλινδρόμησης είναι επαρκές, με βάση τα δεδομένα του δείγματος, μπορεί να υποστηριχθεί ότι υπάρχει γραμμική σχέση μεταξύ των μεταβλητών στον πληθυσμό.

Εφαρμογήt -κριτήρια για την κλίση.Ελέγχοντας εάν η κλίση του πληθυσμού β 1 είναι ίση με μηδέν, μπορεί κανείς να καθορίσει εάν υπάρχει στατιστικά σημαντική σχέση μεταξύ των μεταβλητών Χκαι Υ. Εάν αυτή η υπόθεση απορριφθεί, μπορεί να υποστηριχθεί ότι μεταξύ των μεταβλητών Χκαι Υυπάρχει μια γραμμική σχέση. Η μηδενική και η εναλλακτική υπόθεση διατυπώνονται ως εξής: H 0: β 1 = 0 (χωρίς γραμμική σχέση), H1: β 1 ≠ 0 (υπάρχει γραμμική σχέση). Εξ ορισμού t-το στατιστικό είναι ίσο με τη διαφορά μεταξύ της κλίσης του δείγματος και της υποθετικής κλίσης του πληθυσμού, διαιρούμενη με το τυπικό σφάλμα της εκτίμησης της κλίσης:

(11) t = (σι 1 β 1 ) / Sb 1

όπου σι 1 είναι η κλίση της άμεσης παλινδρόμησης με βάση τα δεδομένα του δείγματος, β1 είναι η υποθετική κλίση του άμεσου γενικού πληθυσμού, και στατιστικά δοκιμών tΕχει t- διανομή με n - 2βαθμοί ελευθερίας.

Ας ελέγξουμε αν υπάρχει στατιστικά σημαντική σχέση μεταξύ του μεγέθους του καταστήματος και των ετήσιων πωλήσεων στο α = 0,05. t-τα κριτήρια εμφανίζονται μαζί με άλλες παραμέτρους κατά τη χρήση Πακέτο ανάλυσης(επιλογή Οπισθοδρόμηση). Τα πλήρη αποτελέσματα του πακέτου ανάλυσης φαίνονται στην Εικ. 4, ένα θραύσμα που σχετίζεται με τη στατιστική t - στο σχ. δεκαοχτώ.

Ρύζι. 18. Αποτελέσματα αιτήσεων t

Επειδή ο αριθμός των καταστημάτων n= 14 (βλ. Εικ. 3), κρίσιμη τιμή t-τα στατιστικά σε επίπεδο σημαντικότητας α = 0,05 μπορούν να βρεθούν από τον τύπο: t L=STUDENT.INV(0,025;12) = -2,1788 όπου 0,025 είναι το μισό του επιπέδου σημαντικότητας και 12 = n – 2; t U\u003d STUDENT.INV (0,975, 12) \u003d +2,1788.

Επειδή η t-statistics = 10,64 > t U= 2,1788 (Εικ. 19), μηδενική υπόθεση H 0απορρίπτεται. Αφ 'ετέρου, R-τιμή για Χ\u003d 10,6411, που υπολογίζεται με τον τύπο \u003d 1-STUDENT.DIST (D3, 12, TRUE), είναι περίπου ίσο με μηδέν, επομένως η υπόθεση H 0απορρίπτεται ξανά. Το γεγονός οτι R-Η τιμή είναι σχεδόν μηδενική, πράγμα που σημαίνει ότι αν δεν υπήρχε πραγματική γραμμική σχέση μεταξύ του μεγέθους του καταστήματος και των ετήσιων πωλήσεων, θα ήταν σχεδόν αδύνατο να βρεθεί χρησιμοποιώντας γραμμική παλινδρόμηση. Επομένως, υπάρχει μια στατιστικά σημαντική γραμμική σχέση μεταξύ των μέσων ετήσιων πωλήσεων καταστήματος και του μεγέθους του καταστήματος.

Ρύζι. 19. Έλεγχος της υπόθεσης για την κλίση του γενικού πληθυσμού σε επίπεδο σημαντικότητας 0,05 και 12 βαθμών ελευθερίας

Εφαρμογήφά -κριτήρια για την κλίση.Μια εναλλακτική προσέγγιση για τον έλεγχο υποθέσεων σχετικά με την κλίση μιας απλής γραμμικής παλινδρόμησης είναι να χρησιμοποιηθεί φά-κριτήρια. Θυμηθείτε ότι φά-Το κριτήριο χρησιμοποιείται για τον έλεγχο της σχέσης μεταξύ δύο διακυμάνσεων (βλ. λεπτομέρειες). Κατά τον έλεγχο της υπόθεσης της κλίσης με ένα μέτρο τυχαία σφάλματαείναι η διακύμανση σφάλματος (άθροισμα τετραγωνικών σφαλμάτων διαιρεμένο με τον αριθμό των βαθμών ελευθερίας), άρα φά-Το τεστ χρησιμοποιεί τον λόγο της διακύμανσης που εξηγείται από την παλινδρόμηση (δηλαδή τις τιμές SSRδιαιρούμενο με τον αριθμό των ανεξάρτητων μεταβλητών κ), στη διακύμανση σφάλματος ( MSE=ΣΥΧ 2 ).

Εξ ορισμού φά-το στατιστικό είναι ίσο με τις μέσες τετραγωνικές αποκλίσεις λόγω παλινδρόμησης (MSR) διαιρεμένες με τη διακύμανση σφάλματος (MSE): φά = MSR/ MSE, όπου MSR=SSR / κ, MSE =SSE/(n– k – 1), kείναι ο αριθμός των ανεξάρτητων μεταβλητών στο μοντέλο παλινδρόμησης. Στατιστικά τεστ φάΕχει φά- διανομή με κκαι n– k – 1βαθμοί ελευθερίας.

Για ένα δεδομένο επίπεδο σημασίας α κανόνας απόφασηςδιατυπώνεται ως εξής: αν F > FU, η μηδενική υπόθεση απορρίπτεται. διαφορετικά, δεν απορρίπτεται. Τα αποτελέσματα, που παρουσιάζονται με τη μορφή συνοπτικού πίνακα της ανάλυσης διασποράς, φαίνονται στο σχήμα. είκοσι.

Ρύζι. 20. Πίνακας ανάλυσης διασποράς για τον έλεγχο της υπόθεσης της στατιστικής σημασίας του συντελεστή παλινδρόμησης

Ομοίως t-κριτήριο φά-τα κριτήρια εμφανίζονται στον πίνακα κατά τη χρήση Πακέτο ανάλυσης(επιλογή Οπισθοδρόμηση). Πλήρη αποτελέσματα της εργασίας Πακέτο ανάλυσηςφαίνεται στο σχ. 4, θραύσμα που σχετίζεται με φά- στατιστικά - στο σχ. 21.

Ρύζι. 21. Αποτελέσματα αιτήσεων φά- Κριτήρια που λαμβάνονται με χρήση του Excel Analysis ToolPack

Η στατιστική F είναι 113,23 και R-τιμή κοντά στο μηδέν (κελί Σημασίαφά). Εάν το επίπεδο σημαντικότητας α είναι 0,05, προσδιορίστε την κρίσιμη τιμή φά-κατανομές με έναν και 12 βαθμούς ελευθερίας μπορούν να ληφθούν από τον τύπο F U\u003d F. OBR (1-0,05; 1; 12) \u003d 4,7472 (Εικ. 22). Επειδή η φά = 113,23 > F U= 4,7472, και R-τιμή κοντά στο 0< 0,05, нулевая гипотеза H 0παρεκκλίνει, δηλ. Το μέγεθος ενός καταστήματος σχετίζεται στενά με τον ετήσιο όγκο πωλήσεών του.

Ρύζι. 22. Έλεγχος της υπόθεσης για την κλίση του γενικού πληθυσμού σε επίπεδο σημαντικότητας 0,05, με έναν και 12 βαθμούς ελευθερίας

Διάστημα εμπιστοσύνης που περιέχει κλίση β 1 .Για να ελέγξετε την υπόθεση της ύπαρξης γραμμικής σχέσης μεταξύ των μεταβλητών, μπορείτε να δημιουργήσετε ένα διάστημα εμπιστοσύνης που να περιέχει την κλίση β 1 και να βεβαιωθείτε ότι η υποθετική τιμή β 1 = 0 ανήκει σε αυτό το διάστημα. Το κέντρο του διαστήματος εμπιστοσύνης που περιέχει την κλίση β 1 είναι η κλίση του δείγματος σι 1 , και τα όριά του είναι οι ποσότητες b 1 ±t n –2 Sb 1

Όπως φαίνεται στο σχ. δεκαοχτώ, σι 1 = +1,670, n = 14, Sb 1 = 0,157. t 12 \u003d STUDENT.OBR (0,975, 12) \u003d 2,1788. Συνεπώς, b 1 ±t n –2 Sb 1 = +1,670 ± 2,1788 * 0,157 = +1,670 ± 0,342, ή + 1,328 ≤ β 1 ≤ +2,012. Έτσι, η κλίση του πληθυσμού με πιθανότητα 0,95 κυμαίνεται από +1.328 έως +2.012 (δηλαδή από 1.328.000 $ έως 2.012.000 $). Επειδή αυτές οι τιμές είναι μεγαλύτερες από το μηδέν, υπάρχει μια στατιστικά σημαντική γραμμική σχέση μεταξύ των ετήσιων πωλήσεων και της περιοχής καταστήματος. Εάν το διάστημα εμπιστοσύνης περιείχε μηδέν, δεν θα υπήρχε σχέση μεταξύ των μεταβλητών. Επιπλέον, το διάστημα εμπιστοσύνης σημαίνει ότι κάθε 1.000 τ. πόδια οδηγεί σε αύξηση των μέσων πωλήσεων από 1.328.000 $ έως 2.012.000 $.

Χρήσηt -κριτήρια για τον συντελεστή συσχέτισης.εισήχθη ο συντελεστής συσχέτισης r, το οποίο είναι ένα μέτρο της σχέσης μεταξύ δύο αριθμητικών μεταβλητών. Μπορεί να χρησιμοποιηθεί για να προσδιοριστεί εάν υπάρχει στατιστικά σημαντική σχέση μεταξύ δύο μεταβλητών. Ας υποδηλώσουμε τον συντελεστή συσχέτισης μεταξύ των πληθυσμών και των δύο μεταβλητών με το σύμβολο ρ. Οι μηδενικές και οι εναλλακτικές υποθέσεις διατυπώνονται ως εξής: H 0: ρ = 0 (χωρίς συσχέτιση), H 1: ρ ≠ 0 (υπάρχει συσχέτιση). Έλεγχος ύπαρξης συσχέτισης:

όπου r = + , αν σι 1 > 0, r = – , αν σι 1 < 0. Тестовая статистика tΕχει t- διανομή με n - 2βαθμοί ελευθερίας.

Στο πρόβλημα της αλυσίδας καταστημάτων Sunflowers r2= 0,904 και β 1- +1.670 (βλ. Εικ. 4). Επειδή η β 1> 0, ο συντελεστής συσχέτισης μεταξύ των ετήσιων πωλήσεων και του μεγέθους του καταστήματος είναι r= +√0,904 = +0,951. Ας ελέγξουμε τη μηδενική υπόθεση ότι δεν υπάρχει συσχέτιση μεταξύ αυτών των μεταβλητών χρησιμοποιώντας t- στατιστικά:

Σε επίπεδο σημαντικότητας α = 0,05, η μηδενική υπόθεση θα πρέπει να απορριφθεί γιατί t= 10,64 > 2,1788. Έτσι, μπορεί να υποστηριχθεί ότι υπάρχει στατιστικά σημαντική σχέση μεταξύ των ετήσιων πωλήσεων και του μεγέθους του καταστήματος.

Όταν συζητούνται συμπεράσματα σχετικά με τις πλαγιές του πληθυσμού, τα διαστήματα εμπιστοσύνης και τα κριτήρια για τον έλεγχο των υποθέσεων είναι εναλλάξιμα εργαλεία. Ωστόσο, ο υπολογισμός του διαστήματος εμπιστοσύνης που περιέχει τον συντελεστή συσχέτισης αποδεικνύεται πιο δύσκολος, δεδομένου ότι η μορφή της δειγματοληπτικής κατανομής της στατιστικής rεξαρτάται από τον πραγματικό συντελεστή συσχέτισης.

Εκτίμηση και Πρόβλεψη Προσδοκιών ατομικές αξίες

Αυτή η ενότητα εξετάζει μεθόδους για την εκτίμηση της αναμενόμενης απόκρισης Υκαι προβλέψεις ατομικών αξιών Υγια δεδομένες τιμές της μεταβλητής Χ.

Κατασκευή διαστήματος εμπιστοσύνης.Στο παράδειγμα 2 (βλ. παραπάνω ενότητα Μέθοδος ελάχιστου τετραγώνου) η εξίσωση παλινδρόμησης κατέστησε δυνατή την πρόβλεψη της τιμής της μεταβλητής Υ Χ. Στο πρόβλημα της επιλογής τοποθεσίας για ένα κατάστημα λιανικής, οι μέσες ετήσιες πωλήσεις σε ένα κατάστημα με έκταση 4000 τ. πόδια ήταν ίσο με 7,644 εκατομμύρια δολάρια.Ωστόσο, αυτή η εκτίμηση της μαθηματικής προσδοκίας του γενικού πληθυσμού είναι ένα σημείο. για την εκτίμηση της μαθηματικής προσδοκίας του γενικού πληθυσμού, προτάθηκε η έννοια του διαστήματος εμπιστοσύνης. Ομοίως, μπορεί κανείς να εισαγάγει την έννοια διάστημα εμπιστοσύνης για τη μαθηματική προσδοκία της απάντησηςστο καθορισμένη τιμήμεταβλητός Χ:

όπου , = σι 0 + σι 1 X i– μεταβλητή προβλεπόμενης τιμής Υστο Χ = X i, Σ ΥΧείναι το μέσο τετραγωνικό σφάλμα, nείναι το μέγεθος του δείγματος, ΧΕγώ- τη δεδομένη τιμή της μεταβλητής Χ, µ Υ|Χ = ΧΕγώ– μαθηματική προσδοκία μιας μεταβλητής Υστο Χ = Χ i,SSX=

Η ανάλυση του τύπου (13) δείχνει ότι το πλάτος του διαστήματος εμπιστοσύνης εξαρτάται από διάφορους παράγοντες. Σε ένα δεδομένο επίπεδο σημασίας, μια αύξηση στο πλάτος των διακυμάνσεων γύρω από τη γραμμή παλινδρόμησης, που μετράται χρησιμοποιώντας το μέσο τετραγωνικό σφάλμα, οδηγεί σε αύξηση του πλάτους του διαστήματος. Από την άλλη πλευρά, όπως ήταν αναμενόμενο, η αύξηση του μεγέθους του δείγματος συνοδεύεται από στένωση του διαστήματος. Επιπλέον, το πλάτος του διαστήματος αλλάζει ανάλογα με τις τιμές ΧΕγώ. Αν η τιμή της μεταβλητής Υπροβλεπόμενη για τις ποσότητες Χ, κοντά στη μέση τιμή , το διάστημα εμπιστοσύνης αποδεικνύεται πιο στενό από ό,τι κατά την πρόβλεψη της απόκρισης για τιμές μακριά από το μέσο όρο.

Ας πούμε ότι όταν επιλέγουμε μια τοποθεσία για ένα κατάστημα, θέλουμε να δημιουργήσουμε ένα διάστημα εμπιστοσύνης 95% για τις μέσες ετήσιες πωλήσεις σε όλα τα καταστήματα με επιφάνεια 4000 τετραγωνικών μέτρων. πόδια:

Επομένως, ο μέσος ετήσιος όγκος πωλήσεων σε όλα τα καταστήματα με επιφάνεια ​​4.000 τετραγωνικών μέτρων. πόδια, με πιθανότητα 95% να κυμαίνεται από 6,971 έως 8,317 εκατομμύρια δολάρια.

Υπολογίστε το διάστημα εμπιστοσύνης για την προβλεπόμενη τιμή.Εκτός από το διάστημα εμπιστοσύνης για τη μαθηματική προσδοκία της απόκρισης για μια δεδομένη τιμή της μεταβλητής Χ, είναι συχνά απαραίτητο να γνωρίζουμε το διάστημα εμπιστοσύνης για την προβλεπόμενη τιμή. Αν και ο τύπος για τον υπολογισμό ενός τέτοιου διαστήματος εμπιστοσύνης είναι πολύ παρόμοιος με τον τύπο (13), αυτό το διάστημα περιέχει μια προβλεπόμενη τιμή και όχι μια εκτίμηση της παραμέτρου. Διάστημα για την προβλεπόμενη απόκριση ΥΧ = Xiγια μια συγκεκριμένη τιμή της μεταβλητής ΧΕγώκαθορίζεται από τον τύπο:

Ας υποθέσουμε ότι όταν επιλέγουμε μια τοποθεσία για ένα κατάστημα λιανικής, θέλουμε να δημιουργήσουμε ένα διάστημα εμπιστοσύνης 95% για τον προβλεπόμενο ετήσιο όγκο πωλήσεων σε ένα κατάστημα με έκταση 4000 τετραγωνικών μέτρων. πόδια:

Επομένως, ο προβλεπόμενος ετήσιος όγκος πωλήσεων για 4.000 τ. πόδια, με πιθανότητα 95% κυμαίνεται από 5,433 έως 9,854 εκατομμύρια δολάρια Όπως μπορείτε να δείτε, το διάστημα εμπιστοσύνης για την προβλεπόμενη τιμή απόκρισης είναι πολύ μεγαλύτερο από το διάστημα εμπιστοσύνης για τη μαθηματική προσδοκία. Αυτό συμβαίνει επειδή η μεταβλητότητα στην πρόβλεψη μεμονωμένων τιμών είναι πολύ μεγαλύτερη από την εκτίμηση της αναμενόμενης τιμής.

Παγίδες και ηθικά ζητήματα που σχετίζονται με τη χρήση της παλινδρόμησης

Δυσκολίες που σχετίζονται με την ανάλυση παλινδρόμησης:

  • Αγνοώντας τις προϋποθέσεις εφαρμογής της μεθόδου των ελαχίστων τετραγώνων.
  • Εσφαλμένη εκτίμηση των προϋποθέσεων εφαρμογής της μεθόδου των ελαχίστων τετραγώνων.
  • Λανθασμένη επιλογή εναλλακτικών μεθόδων κατά παράβαση των προϋποθέσεων εφαρμογής της μεθόδου των ελαχίστων τετραγώνων.
  • Εφαρμογή ανάλυσης παλινδρόμησης χωρίς εις βάθος γνώση του αντικειμένου μελέτης.
  • Παρέκταση της παλινδρόμησης πέρα ​​από το εύρος της επεξηγηματικής μεταβλητής.
  • Σύγχυση μεταξύ στατιστικών και αιτιακών σχέσεων.

Η διάδοση των υπολογιστικών φύλλων και λογισμικόγια τους στατιστικούς υπολογισμούς εξαλείφθηκαν τα υπολογιστικά προβλήματα που εμπόδιζαν τη χρήση της ανάλυσης παλινδρόμησης. Ωστόσο, αυτό οδήγησε στο γεγονός ότι η ανάλυση παλινδρόμησης άρχισε να χρησιμοποιείται από χρήστες που δεν έχουν επαρκή προσόντα και γνώσεις. Πώς γνωρίζουν οι χρήστες για εναλλακτικές μεθόδους εάν πολλοί από αυτούς δεν έχουν ιδέα για τις προϋποθέσεις εφαρμογής της μεθόδου των ελαχίστων τετραγώνων και δεν ξέρουν πώς να ελέγξουν την εφαρμογή τους;

Ο ερευνητής δεν πρέπει να παρασύρεται από τη λείανση αριθμών - υπολογίζοντας τη μετατόπιση, την κλίση και τον μικτό συντελεστή συσχέτισης. Χρειάζεται βαθύτερη γνώση. Ας το δείξουμε αυτό κλασικό παράδειγμαπαρμένο από σχολικά βιβλία. Ο Anscombe έδειξε ότι και τα τέσσερα σύνολα δεδομένων που φαίνονται στο Σχ. 23 έχουν τις ίδιες παραμέτρους παλινδρόμησης (Εικ. 24).

Ρύζι. 23. Τέσσερα σύνολα τεχνητών δεδομένων

Ρύζι. 24. Ανάλυση παλινδρόμησης τεσσάρων συνόλων τεχνητών δεδομένων. τελείωσα με Πακέτο ανάλυσης(κάντε κλικ στην εικόνα για να μεγεθύνετε την εικόνα)

Έτσι, από την άποψη της ανάλυσης παλινδρόμησης, όλα αυτά τα σύνολα δεδομένων είναι εντελώς πανομοιότυπα. Αν τελείωνε η ​​ανάλυση σε αυτό, θα είχαμε χάσει πολλά ΧΡΗΣΙΜΕΣ ΠΛΗΡΟΦΟΡΙΕΣ. Αυτό αποδεικνύεται από τα διαγράμματα διασποράς (Εικ. 25) και τα υπολειμματικά διαγράμματα (Εικ. 26) που κατασκευάστηκαν για αυτά τα σύνολα δεδομένων.

Ρύζι. 25. Διαγράμματα διασποράς για τέσσερα σύνολα δεδομένων

Τα διαγράμματα διασποράς και τα υπολειμματικά διαγράμματα δείχνουν ότι αυτά τα δεδομένα είναι διαφορετικά μεταξύ τους. Το μόνο σύνολο που κατανέμεται κατά μήκος μιας ευθείας γραμμής είναι το σύνολο Α. Η γραφική παράσταση των υπολειμμάτων που υπολογίζεται από το σύνολο Α δεν έχει μοτίβο. Δεν μπορεί να ειπωθεί το ίδιο για τα σύνολα B, C και D. Η γραφική παράσταση διασποράς για το σύνολο B δείχνει ένα έντονο τετραγωνικό μοτίβο. Αυτό το συμπέρασμα επιβεβαιώνεται από το οικόπεδο των υπολειμμάτων, το οποίο έχει παραβολικό σχήμα. Το διάγραμμα διασποράς και το υπολειπόμενο διάγραμμα δείχνουν ότι το σύνολο δεδομένων Β περιέχει μια ακραία τιμή. Σε αυτήν την περίπτωση, είναι απαραίτητο να εξαιρεθεί η ακραία τιμή από το σύνολο δεδομένων και να επαναληφθεί η ανάλυση. Η τεχνική για τον εντοπισμό και την εξάλειψη των ακραίων στοιχείων από τις παρατηρήσεις ονομάζεται ανάλυση επιρροής. Μετά την εξάλειψη της ακραίας τιμής, το αποτέλεσμα της επαναξιολόγησης του μοντέλου μπορεί να είναι εντελώς διαφορετικό. Απεικονίζει ένα διάγραμμα διασποράς που κατασκευάστηκε χρησιμοποιώντας δεδομένα από το σύνολο D ασυνήθιστη κατάσταση, στο οποίο το εμπειρικό μοντέλο εξαρτάται σημαντικά από την ατομική απόκριση ( Χ 8 = 19, Υ 8 = 12,5). Τέτοια μοντέλα παλινδρόμησης πρέπει να υπολογίζονται ιδιαίτερα προσεκτικά. Έτσι, τα διαγράμματα διασποράς και τα υπολειμματικά διαγράμματα είναι ένα ουσιαστικό εργαλείο για την ανάλυση παλινδρόμησης και θα πρέπει να αποτελούν αναπόσπαστο μέρος της. Χωρίς αυτές, η ανάλυση παλινδρόμησης δεν είναι αξιόπιστη.

Ρύζι. 26. Οικόπεδα υπολειμμάτων για τέσσερα σύνολα δεδομένων

Πώς να αποφύγετε παγίδες στην ανάλυση παλινδρόμησης:

  • Ανάλυση της πιθανής σχέσης μεταξύ μεταβλητών Χκαι Υξεκινάτε πάντα με ένα scatterplot.
  • Πριν ερμηνεύσετε τα αποτελέσματα μιας ανάλυσης παλινδρόμησης, ελέγξτε τις προϋποθέσεις για την εφαρμογή της.
  • Σχεδιάστε τα υπολείμματα έναντι της ανεξάρτητης μεταβλητής. Αυτό θα επιτρέψει τον προσδιορισμό του τρόπου με τον οποίο το εμπειρικό μοντέλο αντιστοιχεί στα αποτελέσματα της παρατήρησης και θα εντοπίσει παραβίαση της σταθερότητας της διακύμανσης.
  • Χρησιμοποιήστε ιστογράμματα, διαγράμματα μίσχων και φύλλων, διαγράμματα πλαισίου και διαγράμματα κανονικής κατανομής για να ελέγξετε την υπόθεση της κανονικής κατανομής σφαλμάτων.
  • Εάν δεν πληρούνται οι προϋποθέσεις εφαρμογής της μεθόδου των ελαχίστων τετραγώνων, χρησιμοποιήστε εναλλακτικές μεθόδους (για παράδειγμα, μοντέλα τετραγωνικής ή πολλαπλής παλινδρόμησης).
  • Εάν πληρούνται οι προϋποθέσεις εφαρμογής της μεθόδου των ελαχίστων τετραγώνων, είναι απαραίτητο να ελεγχθεί η υπόθεση σχετικά με τη στατιστική σημασία των συντελεστών παλινδρόμησης και να κατασκευαστούν διαστήματα εμπιστοσύνης που περιέχουν τη μαθηματική προσδοκία και την προβλεπόμενη τιμή απόκρισης.
  • Αποφύγετε την πρόβλεψη τιμών της εξαρτημένης μεταβλητής εκτός του εύρους της ανεξάρτητης μεταβλητής.
  • Εχε στο νου σου οτι στατιστικές εξαρτήσειςδεν είναι πάντα αιτιώδεις. Να θυμάστε ότι η συσχέτιση μεταξύ των μεταβλητών δεν σημαίνει ότι υπάρχει αιτιώδης σχέση μεταξύ τους.

Περίληψη.Όπως φαίνεται στο μπλοκ διάγραμμα (Εικ. 27), η σημείωση περιγράφει ένα απλό μοντέλο γραμμικής παλινδρόμησης, τις προϋποθέσεις για την εφαρμογή του και τρόπους δοκιμής αυτών των συνθηκών. Λαμβάνονται υπόψη t-κριτήριο ελέγχου της στατιστικής σημασίας της κλίσης της παλινδρόμησης. Για να προβλέψουμε τις τιμές της εξαρτημένης μεταβλητής, χρησιμοποιήσαμε μοντέλο παλινδρόμησης. Ένα παράδειγμα θεωρείται σχετικό με την επιλογή θέσης για ένα κατάστημα λιανικής, στο οποίο μελετάται η εξάρτηση του ετήσιου όγκου πωλήσεων από την περιοχή του καταστήματος. Οι πληροφορίες που λαμβάνονται σάς επιτρέπουν να επιλέξετε με μεγαλύτερη ακρίβεια μια τοποθεσία για το κατάστημα και να προβλέψετε τις ετήσιες πωλήσεις του. Στις επόμενες σημειώσεις, θα συνεχιστεί η συζήτηση της ανάλυσης παλινδρόμησης, καθώς και των πολλαπλών μοντέλων παλινδρόμησης.

Ρύζι. 27. Μπλοκ διάγραμμα μιας σημείωσης

Χρησιμοποιούνται υλικά από το βιβλίο Levin et al Στατιστικά για μάνατζερ. - Μ.: Williams, 2004. - Σελ. 792–872

Εάν η εξαρτημένη μεταβλητή είναι κατηγορική, θα πρέπει να εφαρμοστεί λογιστική παλινδρόμηση.

Ο σκοπός της πολλαπλής παλινδρόμησης είναι να αναλύσει τη σχέση μεταξύ μιας εξαρτημένης και πολλών ανεξάρτητων μεταβλητών.

Παράδειγμα: Υπάρχουν δεδομένα σχετικά με το κόστος μιας θέσης (κατά την αγορά 50 θέσεων) για διάφορα συστήματα PDM. Απαιτείται: να αξιολογηθεί η σχέση μεταξύ της τιμής ενός χώρου εργασίας συστήματος PDM και του αριθμού των χαρακτηριστικών που εφαρμόζονται σε αυτό, όπως φαίνεται στον Πίνακα 2.

Πίνακας 2 - Χαρακτηριστικά συστημάτων PDM

Αριθμός αντικειμένου Σύστημα PDM Τιμή Διαχείριση διαμόρφωσης προϊόντος Μοντέλα προϊόντων ΟΜΑΔΙΚΗ ΔΟΥΛΕΙΑ Διαχείριση αλλαγής προϊόντος Ροή εγγράφων Αρχεία Αναζήτηση εγγράφων Προγραμματισμός Έργου Διαχείριση Παραγωγής Προϊόντων
είμαι ενας Ναί Ναί
PartY Plus Ναί Ναί
Σουίτα PDM STEP Ναί Ναί
Αναζήτηση Ναί Ναί
Ψυχρός άνεμος Ναί Ναί
Διαχειριστής Πυξίδας Ναί Ναί
Έγγραφα T-Flex Ναί Ναί
TechnoPro Δεν Δεν

Η αριθμητική τιμή των χαρακτηριστικών (εκτός από το «Κόστος», «Μοντέλα προϊόντων» και «Ομαδική εργασία») σημαίνει τον αριθμό των εφαρμοζόμενων απαιτήσεων κάθε χαρακτηριστικού.

Ας δημιουργήσουμε και ας συμπληρώσουμε ένα υπολογιστικό φύλλο με αρχικά δεδομένα (Εικόνα 27).

Η τιμή "1" των μεταβλητών "Mod. εκδ. " και «Συλλέξτε. r-ta." αντιστοιχεί στην τιμή "Ναι" των δεδομένων προέλευσης και η τιμή "0" στην τιμή "Όχι" των δεδομένων προέλευσης.

Ας οικοδομήσουμε μια παλινδρόμηση μεταξύ της εξαρτημένης μεταβλητής «Κόστος» και των ανεξάρτητων μεταβλητών «Εξ. conf., Mod. εκδ., Συλλογή. ρ-τα», «Εξ. rev., «Doc.», «Archives», «Search», «Plan-e», «Ex. έκανε.

Για να ξεκινήσετε τη στατιστική ανάλυση των αρχικών δεδομένων, καλέστε την ενότητα "Πολλαπλή παλινδρόμηση" (Εικόνα 22).

Στο παράθυρο διαλόγου που εμφανίζεται (Εικόνα 23), καθορίστε τις μεταβλητές για τις οποίες θα γίνει η στατιστική ανάλυση.

Εικόνα 27 - Αρχικά δεδομένα

Για να το κάνετε αυτό, πατήστε το κουμπί Variables και στο πλαίσιο διαλόγου που εμφανίζεται (Εικόνα 28) στο τμήμα που αντιστοιχεί σε εξαρτημένες μεταβλητές (Dependent var.) επιλέξτε "1-Cost" και στο τμήμα που αντιστοιχεί σε ανεξάρτητες μεταβλητές (Independent variable list ) επιλέξτε όλες τις άλλες μεταβλητές. Η επιλογή πολλών μεταβλητών από τη λίστα πραγματοποιείται χρησιμοποιώντας τα πλήκτρα "Ctrl" ή "Shift" ή καθορίζοντας τους αριθμούς (εύρος αριθμών) των μεταβλητών στο αντίστοιχο πεδίο.



Εικόνα 28 - Πλαίσιο διαλόγου για τη ρύθμιση μεταβλητών για στατιστική ανάλυση

Αφού επιλεγούν οι μεταβλητές, κάντε κλικ στο κουμπί "OK" στο πλαίσιο διαλόγου για τη ρύθμιση των παραμέτρων της ενότητας "Πολλαπλή παλινδρόμηση". Στο παράθυρο που εμφανίζεται με την επιγραφή «No of indep. vars. >=(Ν-1); δεν μπορεί να αντιστραφεί το corr. μήτρα." (Εικόνα 29) πατήστε το κουμπί "OK".

Αυτό το μήνυμα εμφανίζεται όταν το σύστημα δεν μπορεί να δημιουργήσει μια παλινδρόμηση για όλες τις δηλωμένες ανεξάρτητες μεταβλητές, επειδή ο αριθμός των μεταβλητών είναι μεγαλύτερος ή ίσος με τον αριθμό των εμφανίσεων μείον 1.

Στο παράθυρο που εμφανίζεται (Εικόνα 30), στην καρτέλα «Για προχωρημένους», μπορείτε να αλλάξετε τη μέθοδο κατασκευής της εξίσωσης παλινδρόμησης.

Εικόνα 29 - Μήνυμα σφάλματος

Για να το κάνετε αυτό, στο πεδίο "Method" (μέθοδος), επιλέξτε "Forward stepwise" (βήμα προς βήμα με συμπερίληψη).

Εικόνα 30 - Παράθυρο για την επιλογή μιας μεθόδου και τη ρύθμιση παραμέτρων για την κατασκευή μιας εξίσωσης παλινδρόμησης

Η μέθοδος της σταδιακής παλινδρόμησης συνίσταται στο γεγονός ότι σε κάθε βήμα κάποια ανεξάρτητη μεταβλητή συμπεριλαμβάνεται ή αποκλείεται στο μοντέλο. Έτσι, ξεχωρίζεται ένα σύνολο από τις πιο «σημαντικές» μεταβλητές. Αυτό μειώνει τον αριθμό των μεταβλητών που περιγράφουν την εξάρτηση.

Βηματική ανάλυση με μια εξαίρεση ("Πίσω βήμα προς τα πίσω"). Σε αυτήν την περίπτωση, όλες οι μεταβλητές θα συμπεριληφθούν πρώτα στο μοντέλο και, στη συνέχεια, σε κάθε βήμα, οι μεταβλητές που συμβάλλουν ελάχιστα στις προβλέψεις θα εξαλειφθούν. Στη συνέχεια, ως αποτέλεσμα μιας επιτυχημένης ανάλυσης, μπορούν να αποθηκευτούν μόνο οι «σημαντικές» μεταβλητές στο μοντέλο, δηλαδή εκείνες οι μεταβλητές των οποίων η συμβολή στη διάκριση είναι μεγαλύτερη από τις άλλες.

Σταδιακή ανάλυση με συμπερίληψη ("Forward stepwise"). Όταν χρησιμοποιείται αυτή η μέθοδος, οι ανεξάρτητες μεταβλητές περιλαμβάνονται διαδοχικά στην εξίσωση παλινδρόμησης έως ότου η εξίσωση περιγράφει ικανοποιητικά τα αρχικά δεδομένα. Η συμπερίληψη των μεταβλητών προσδιορίζεται χρησιμοποιώντας το κριτήριο F. Σε κάθε βήμα, εξετάζονται όλες οι μεταβλητές και βρίσκεται αυτή που συμβάλλει περισσότερο στη διαφορά μεταξύ των συνόλων. Αυτή η μεταβλητή πρέπει να περιλαμβάνεται στο μοντέλο για αυτό το βήμακαι προχωρήστε στο επόμενο βήμα.

Στο πεδίο "Intercept" (όρος ελεύθερης παλινδρόμησης), μπορείτε να επιλέξετε εάν θα το συμπεριλάβετε στην εξίσωση ("Include in model") ή να το αγνοήσετε και να το θεωρήσετε ίσο με μηδέν ("Set to zero").

Η παράμετρος "Ανοχή" είναι η ανοχή των μεταβλητών. Ορίζεται ως 1 μείον το τετράγωνο του συντελεστή πολλαπλή συσχέτισηαυτή η μεταβλητή με όλες τις άλλες ανεξάρτητες μεταβλητές στην εξίσωση παλινδρόμησης. Επομένως, όσο μικρότερη είναι η ανοχή μιας μεταβλητής, τόσο πιο περιττή είναι η συνεισφορά της στην εξίσωση παλινδρόμησης. Εάν η ανοχή οποιασδήποτε από τις μεταβλητές στην εξίσωση παλινδρόμησης είναι ίση ή κοντά στο μηδέν, τότε η εξίσωση παλινδρόμησης δεν μπορεί να αξιολογηθεί. Επομένως, είναι επιθυμητό να ρυθμίσετε την παράμετρο ανοχής σε 0,05 ή 0,1.

Η παράμετρος "Ridge regression; λάμδα:" χρησιμοποιείται όταν οι ανεξάρτητες μεταβλητές είναι πολύ αλληλοσυσχετισμένες και δεν μπορούν να ληφθούν αξιόπιστες εκτιμήσεις για τους συντελεστές της εξίσωσης παλινδρόμησης μέσω ελαχίστων τετραγώνων. Η καθορισμένη σταθερά (λάμδα) θα προστεθεί στη διαγώνιο του πίνακα συσχέτισης, ο οποίος στη συνέχεια θα κανονικοποιηθεί εκ νέου (έτσι ώστε όλα τα διαγώνια στοιχεία να είναι ίσα με 1,0). Με άλλα λόγια, αυτή η παράμετρος μειώνει τεχνητά τους συντελεστές συσχέτισης έτσι ώστε να μπορούν να υπολογιστούν πιο ισχυρές (αλλά μεροληπτικές) εκτιμήσεις των παραμέτρων παλινδρόμησης. Στην περίπτωσή μας, αυτή η παράμετρος δεν χρησιμοποιείται.

Η επιλογή "Μαζική επεξεργασία/εκτύπωση" χρησιμοποιείται όταν είναι απαραίτητο να προετοιμαστούν αμέσως αρκετοί πίνακες για την αναφορά, που να αντικατοπτρίζουν τα αποτελέσματα και τη διαδικασία της ανάλυσης παλινδρόμησης. Αυτή η επιλογή είναι πολύ χρήσιμη όταν θέλετε να εκτυπώσετε ή να αναλύσετε τα αποτελέσματα μιας σταδιακής ανάλυσης παλινδρόμησης σε κάθε βήμα.

Στην καρτέλα "Stepwise" (Εικόνα 31), μπορείτε να ορίσετε τις παραμέτρους των συνθηκών συμπερίληψης ("F to enter") ή αποκλεισμού ("F to remove") για μεταβλητές κατά την κατασκευή της εξίσωσης παλινδρόμησης, καθώς και τον αριθμό των βήματα για την κατασκευή της εξίσωσης («Αριθμός βημάτων»).

Εικόνα 31 - Καρτέλα "Βήμα" του παραθύρου για την επιλογή μιας μεθόδου και τη ρύθμιση παραμέτρων για την κατασκευή μιας εξίσωσης παλινδρόμησης

F είναι η τιμή του κριτηρίου F.

Εάν κατά τη σταδιακή ανάλυση με συμπερίληψη είναι απαραίτητο να συμπεριληφθούν όλες ή σχεδόν όλες οι μεταβλητές στην εξίσωση παλινδρόμησης, τότε είναι απαραίτητο να ορίσετε την τιμή "F to enter" στο ελάχιστο (0,0001) και να ορίσετε το "F για αφαίρεση". αξία επίσης στο ελάχιστο.

Εάν, κατά τη σταδιακή ανάλυση με εξαίρεση, είναι απαραίτητο να αφαιρεθούν όλες οι μεταβλητές (μία προς μία) από την εξίσωση παλινδρόμησης, τότε είναι απαραίτητο να ορίσετε την τιμή του "F to enter" πολύ μεγάλη, για παράδειγμα 999, και να ορίσετε την τιμή "F για αφαίρεση" κοντά στο "F για εισαγωγή".

Θα πρέπει να θυμόμαστε ότι η τιμή της παραμέτρου "F to remove" πρέπει πάντα να είναι μικρότερη από "F to enter".

Η επιλογή "Εμφάνιση αποτελεσμάτων" έχει δύο επιλογές:

2) Σε κάθε βήμα - εμφανίστε τα αποτελέσματα της ανάλυσης σε κάθε βήμα.

Αφού κάνετε κλικ στο κουμπί "OK" στο παράθυρο επιλογής μεθόδων ανάλυσης παλινδρόμησης, θα εμφανιστεί ένα παράθυρο με τα αποτελέσματα της ανάλυσης (Εικόνα 32).

Εικόνα 32 - Παράθυρο αποτελεσμάτων ανάλυσης

Σχήμα 33 - Σύνοψη των αποτελεσμάτων της ανάλυσης παλινδρόμησης

Σύμφωνα με τα αποτελέσματα της ανάλυσης, ο συντελεστής προσδιορισμού . Αυτό σημαίνει ότι η κατασκευασμένη παλινδρόμηση εξηγεί το 99,987% της εξάπλωσης των τιμών σε σχέση με τον μέσο όρο, δηλ. εξηγεί σχεδόν όλη τη μεταβλητότητα των μεταβλητών.

Μεγάλης σημασίαςκαι το επίπεδο σημαντικότητάς του δείχνουν ότι η κατασκευασμένη παλινδρόμηση είναι εξαιρετικά σημαντική.

Για να δείτε συνοπτικά αποτελέσματα παλινδρόμησης, κάντε κλικ στο κουμπί "Σύνοψη: Αποτέλεσμα παλινδρόμησης". Θα εμφανιστεί η οθόνη υπολογιστικό φύλλομε τα αποτελέσματα της ανάλυσης (Εικόνα 33).

Η τρίτη στήλη ("B") εμφανίζει εκτιμήσεις των άγνωστων παραμέτρων του μοντέλου, δηλ. συντελεστές της εξίσωσης παλινδρόμησης.

Έτσι, η απαιτούμενη παλινδρόμηση μοιάζει με:

Μια ποιοτικά κατασκευασμένη εξίσωση παλινδρόμησης μπορεί να ερμηνευτεί ως εξής:

1) Το κόστος ενός συστήματος PDM αυξάνεται με την αύξηση του αριθμού των εφαρμοζόμενων λειτουργιών για τη διαχείριση αλλαγών, τη ροή εργασιών και τον προγραμματισμό, καθώς και εάν η λειτουργία υποστήριξης μοντέλου προϊόντος περιλαμβάνεται στο σύστημα.

2) Το κόστος ενός συστήματος PDM μειώνεται με την αύξηση των λειτουργιών διαχείρισης διαμόρφωσης που εφαρμόζονται και με την αύξηση των δυνατοτήτων αναζήτησης.

Το καθήκον της πολλαπλής γραμμικής παλινδρόμησης είναι να χτίσει ένα γραμμικό μοντέλο της σχέσης μεταξύ ενός συνόλου συνεχών προγνωστικών και μιας συνεχούς εξαρτημένης μεταβλητής. Συχνά χρησιμοποιείται η ακόλουθη εξίσωση παλινδρόμησης:

Εδώ ένα i- συντελεστές παλινδρόμησης, β 0- δωρεάν μέλος (εάν χρησιμοποιείται), μι- ένα μέλος που περιέχει ένα σφάλμα - γίνονται διάφορες υποθέσεις σχετικά με αυτό, οι οποίες, ωστόσο, μειώνονται συχνότερα στην κανονικότητα της κατανομής με μηδενικό διανυσματικό ματ. Πίνακας προσδοκίας και συσχέτισης.

Τέτοιος γραμμικό μοντέλοπολλές εργασίες περιγράφονται καλά σε διάφορα θεματικές περιοχέςπχ οικονομία, βιομηχανία, ιατρική. Αυτό συμβαίνει επειδή ορισμένες εργασίες έχουν γραμμικό χαρακτήρα.

Ας πάρουμε ένα απλό παράδειγμα. Ας απαιτείται η πρόβλεψη του κόστους της χάραξης ενός δρόμου σύμφωνα με τις γνωστές του παραμέτρους. Ταυτόχρονα, έχουμε δεδομένα για ήδη στρωμένους δρόμους, που υποδεικνύουν το μήκος, το βάθος του ραντίσματος, την ποσότητα του υλικού εργασίας, τον αριθμό των εργαζομένων κ.λπ.

Είναι σαφές ότι το κόστος του δρόμου θα γίνει τελικά ίσο με το άθροισματις τιμές όλων αυτών των παραγόντων χωριστά. Θα πάρει μια ορισμένη ποσότητα, για παράδειγμα, θρυμματισμένη πέτρα, με γνωστό κόστος ανά τόνο, μια ορισμένη ποσότητα ασφάλτου, επίσης με γνωστό κόστος.

Είναι πιθανό ότι η δασοκομία θα πρέπει να περικοπεί για ωοτοκία, γεγονός που θα οδηγήσει επίσης σε πρόσθετο κόστος. Όλα αυτά μαζί θα δώσουν το κόστος δημιουργίας του δρόμου.

Σε αυτή την περίπτωση, το μοντέλο θα περιλαμβάνει ένα δωρεάν μέλος, το οποίο, για παράδειγμα, θα είναι υπεύθυνο για τα οργανωτικά έξοδα (τα οποία είναι περίπου τα ίδια για όλες τις εργασίες κατασκευής και εγκατάστασης δεδομένο επίπεδο) ή φόρους.

Το σφάλμα θα περιλαμβάνει παράγοντες που δεν λάβαμε υπόψη κατά την κατασκευή του μοντέλου (για παράδειγμα, ο καιρός κατά την κατασκευή - δεν μπορεί να ληφθεί καθόλου υπόψη).

Παράδειγμα: Ανάλυση πολλαπλής παλινδρόμησης

Για αυτό το παράδειγμα, θα αναλυθούν αρκετές πιθανές συσχετίσεις των ποσοστών φτώχειας και μια δύναμη που προβλέπει το ποσοστό των οικογενειών κάτω από το όριο της φτώχειας. Ως εκ τούτου, θα θεωρήσουμε τη μεταβλητή που χαρακτηρίζει το ποσοστό των οικογενειών κάτω από το όριο της φτώχειας ως εξαρτημένη μεταβλητή και τις υπόλοιπες μεταβλητές ως συνεχείς προγνωστικούς παράγοντες.

Συντελεστές παλινδρόμησης

Για να βρούμε ποια από τις επεξηγηματικές μεταβλητές συμβάλλει περισσότερο στην πρόβλεψη της φτώχειας, εξετάζουμε τους τυποποιημένους συντελεστές (ή Βήτα) της παλινδρόμησης.

Ρύζι. 1. Εκτιμήσεις των παραμέτρων των συντελεστών παλινδρόμησης.

Οι συντελεστές Beta είναι οι συντελεστές που θα λαμβάνατε εάν προσαρμόζατε όλες τις μεταβλητές σε μέσο όρο 0 και τυπική απόκλιση 1. Επομένως, το μέγεθος αυτών των συντελεστών Beta σας επιτρέπει να συγκρίνετε τη σχετική συνεισφορά κάθε ανεξάρτητης μεταβλητής με την εξαρτημένη μεταβλητή . Όπως φαίνεται από τον παραπάνω πίνακα, ο πληθυσμός αλλάζει από το 1960 (POP_CHING), το ποσοστό του πληθυσμού που ζει στο χωριό (PT_RURAL) και ο αριθμός των ατόμων που απασχολούνται στο γεωργία(N_Empld) είναι οι σημαντικότεροι παράγοντες πρόβλεψης των ποσοστών φτώχειας, όπως μόνο που είναι στατιστικά σημαντικές (το διάστημα εμπιστοσύνης τους 95% δεν περιλαμβάνει το 0). Ο συντελεστής παλινδρόμησης της πληθυσμιακής αλλαγής από το 1960 (Pop_Chng) είναι αρνητικός, επομένως όσο μικρότερη είναι η πληθυσμιακή αύξηση, τόσο περισσότερες οικογένειεςπου ζουν κάτω από το όριο της φτώχειας στον αντίστοιχο νομό. Ο συντελεστής παλινδρόμησης για τον πληθυσμό (%) που ζει στο χωριό (Pt_Rural) είναι θετικός, δηλαδή όσο μεγαλύτερο είναι το ποσοστό χωρικοί, Θέματα περισσότερο επίπεδοφτώχεια.

Σημασία των προγνωστικών επιδράσεων

Ας δούμε τον Πίνακα με τα κριτήρια σπουδαιότητας.

Ρύζι. 2. Ταυτόχρονα αποτελέσματα για κάθε δεδομένη μεταβλητή.

Όπως δείχνει αυτός ο πίνακας, μόνο οι επιδράσεις 2 μεταβλητών είναι στατιστικά σημαντικές: η αλλαγή του πληθυσμού από το 1960 (Pop_Chng) και το ποσοστό του πληθυσμού που ζει στο χωριό (Pt_Rural), p.< .05.

Ανάλυση υπολειμμάτων. Μετά την προσαρμογή μιας εξίσωσης παλινδρόμησης, είναι σχεδόν πάντα απαραίτητο να ελέγχονται οι προβλεπόμενες τιμές και τα υπολείμματα. Για παράδειγμα, οι μεγάλες ακραίες τιμές μπορούν να παραμορφώσουν πολύ τα αποτελέσματα και να οδηγήσουν σε λανθασμένα συμπεράσματα.

Γραμμικό γράφημα εκπομπών

Συνήθως είναι απαραίτητο να ελέγξετε τα αρχικά ή τα τυποποιημένα υπολείμματα για μεγάλες ακραίες τιμές.

Ρύζι. 3. Αριθμοί παρατηρήσεων και υπολειμμάτων.

Κλίμακα κάθετος άξοναςαυτού του γραφήματος απεικονίζεται ως σίγμα, δηλ. τυπική απόκλισηαποφάγια. Εάν μία ή περισσότερες παρατηρήσεις δεν εμπίπτουν στο ±3 φορές το σίγμα, τότε ίσως αξίζει να εξαιρεθούν αυτές οι παρατηρήσεις (αυτό μπορεί να γίνει εύκολα μέσω των συνθηκών επιλογής για παρατηρήσεις) και να εκτελέσετε ξανά την ανάλυση για να βεβαιωθείτε ότι τα αποτελέσματα δεν αλλάζουν με αυτές οι ακραίες τιμές.

Αποστάσεις Μαχαλανόμπης

Τα περισσότερα στατιστικά εγχειρίδια αφιερώνουν πολύ χρόνο σε ακραίες τιμές και υπολείμματα στην εξαρτημένη μεταβλητή. Ωστόσο, ο ρόλος των ακραίων τιμών στους προγνωστικούς παράγοντες παραμένει συχνά απροσδιόριστος. Στο πλάι της μεταβλητής πρόβλεψης, υπάρχει μια λίστα μεταβλητών που συμμετέχουν με διαφορετικά βάρη (συντελεστές παλινδρόμησης) στην πρόβλεψη της εξαρτημένης μεταβλητής. Μπορείτε να σκεφτείτε τις ανεξάρτητες μεταβλητές ως έναν πολυδιάστατο χώρο στον οποίο μπορεί να αναβληθεί οποιαδήποτε παρατήρηση. Για παράδειγμα, εάν έχετε δύο ανεξάρτητες μεταβλητές με ίσες πιθανότητεςπαλινδρόμηση, θα ήταν δυνατό να κατασκευαστεί ένα διάγραμμα διασποράς αυτών των δύο μεταβλητών και να τοποθετηθεί κάθε παρατήρηση σε αυτό το διάγραμμα. Στη συνέχεια θα μπορούσε κανείς να σημειώσει τη μέση τιμή σε αυτό το γράφημα και να υπολογίσει τις αποστάσεις από κάθε παρατήρηση σε αυτόν τον μέσο όρο (το λεγόμενο κέντρο βάρους) σε δισδιάστατο χώρο. Αυτή είναι η κύρια ιδέα πίσω από τον υπολογισμό της απόστασης Mahalanobis. Τώρα κοιτάξτε το ιστόγραμμα της μεταβλητής αλλαγής πληθυσμού από το 1960.

Ρύζι. 4. Ιστόγραμμα κατανομής αποστάσεων Mahalanobis.

Από το γράφημα προκύπτει ότι υπάρχει μία ακραία τιμή στις αποστάσεις Mahalanobis.

Ρύζι. 5. Παρατηρημένες, προβλεπόμενες και υπολειμματικές τιμές.

Παρατηρήστε πώς η κομητεία Shelby (στην πρώτη σειρά) ξεχωρίζει από τις υπόλοιπες κομητείες. Αν κοιτάξετε τα αρχικά δεδομένα, θα διαπιστώσετε ότι στην πραγματικότητα η Shelby County έχει τα περισσότερα μεγάλος αριθμόςάτομα που απασχολούνται στη γεωργία (μεταβλητή N_Empld). Ίσως θα ήταν πιο σοφό να το εκφράσουμε ως ποσοστό και όχι ως απόλυτους αριθμούς, οπότε η απόσταση Mahalanobis της κομητείας Shelby πιθανότατα δεν θα ήταν τόσο μεγάλη σε σύγκριση με άλλες κομητείες. Σαφώς, η κομητεία Shelby είναι ακραία.

Αφαιρέθηκαν υπολείμματα

Ένα άλλο πολύ σημαντικό στατιστικό που επιτρέπει σε κάποιον να μετρήσει τη σοβαρότητα του ακραίου προβλήματος είναι τα αφαιρούμενα υπολείμματα. Αυτά είναι τα τυποποιημένα υπολείμματα για τις αντίστοιχες περιπτώσεις, τα οποία προκύπτουν με την αφαίρεση αυτής της περίπτωσης από την ανάλυση. Θυμηθείτε ότι η διαδικασία πολλαπλής παλινδρόμησης προσαρμόζει την επιφάνεια παλινδρόμησης για να δείξει τη σχέση μεταξύ της εξαρτημένης μεταβλητής και του προγνωστικού δείκτη. Εάν μια παρατήρηση είναι ακραία (όπως η κομητεία Shelby), τότε υπάρχει μια τάση να «τραβήξουμε» την επιφάνεια παλινδρόμησης προς αυτή την ακραία τιμή. Ως αποτέλεσμα, εάν αφαιρεθεί η αντίστοιχη παρατήρηση, θα ληφθεί μια άλλη επιφάνεια (και συντελεστές Βήτα). Επομένως, εάν τα αφαιρούμενα υπολείμματα είναι πολύ διαφορετικά από τα τυποποιημένα υπολείμματα, τότε θα έχετε λόγο να υποθέσετε ότι ανάλυση παλινδρόμησηςδιαστρεβλώθηκε σοβαρά από τη σχετική παρατήρηση. Σε αυτό το παράδειγμα, τα υπολείμματα που αφαιρέθηκαν για την κομητεία Shelby δείχνουν ότι αυτό είναι ένα ακραίο στοιχείο που παραμορφώνει σοβαρά την ανάλυση. Το scatterplot δείχνει ξεκάθαρα το outlier.

Ρύζι. 6. Μεταβλητή Initial Residuals and Displaced Residuals που υποδεικνύει το ποσοστό των οικογενειών που ζουν κάτω από το όριο της φτώχειας.

Τα περισσότερα από αυτά έχουν λίγο πολύ σαφείς ερμηνείες, ωστόσο, ας στραφούμε σε γραφήματα κανονικών πιθανοτήτων.

Όπως αναφέρθηκε ήδη, η πολλαπλή παλινδρόμηση προϋποθέτει ότι υπάρχει μια γραμμική σχέση μεταξύ των μεταβλητών στην εξίσωση και μια κανονική κατανομή των υπολειμμάτων. Εάν παραβιαστούν αυτές οι υποθέσεις, τότε το συμπέρασμα μπορεί να είναι ανακριβές. Ένα κανονικό διάγραμμα πιθανοτήτων υπολειμμάτων θα σας πει εάν υπάρχουν σοβαρές παραβιάσεις αυτών των παραδοχών ή όχι.

Ρύζι. 7. Γράφημα κανονικών πιθανοτήτων. πρωτότυπα υπολείμματα.

Αυτό το γράφημα κατασκευάστηκε με τον ακόλουθο τρόπο. Πρώτον, τα τυποποιημένα υπολείμματα ταξινομούνται με τη σειρά. Από αυτές τις τάξεις, μπορείτε να υπολογίσετε z-values ​​(δηλαδή, τυπικές τιμές κανονικής κατανομής) με βάση την υπόθεση ότι τα δεδομένα ακολουθούν μια κανονική κατανομή. Αυτές οι τιμές z απεικονίζονται κατά μήκος του άξονα y στο γράφημα.

Εάν τα παρατηρούμενα υπολείμματα (που σχεδιάζονται κατά μήκος του άξονα x) είναι κανονικά κατανεμημένα, τότε όλες οι τιμές θα βρίσκονται σε μια ευθεία γραμμή στο γράφημα. Στο γράφημά μας, όλα τα σημεία είναι πολύ κοντά σε σχέση με την καμπύλη. Εάν τα υπολείμματα δεν κατανέμονται κανονικά, τότε αποκλίνουν από αυτή τη γραμμή. Οι ακραίες τιμές γίνονται επίσης αισθητές σε αυτό το γράφημα.

Εάν υπάρχει απώλεια συμφωνίας και τα δεδομένα φαίνεται να σχηματίζουν μια σαφή καμπύλη (π.χ. σε σχήμα S) γύρω από τη γραμμή, τότε η εξαρτημένη μεταβλητή μπορεί να μετασχηματιστεί με κάποιο τρόπο (π.χ. λογαριθμικός μετασχηματισμόςνα «μειώσει» την ουρά της διανομής κ.λπ.). Μια συζήτηση αυτής της μεθόδου βρίσκεται εκτός του πλαισίου αυτού του παραδείγματος (Neter, Wasserman, and Kutner, 1985, σελ. 134-141, παρουσιάζεται μια συζήτηση μετασχηματισμών που αφαιρούν τη μη κανονικότητα και τη μη γραμμικότητα των δεδομένων). Ωστόσο, οι ερευνητές πολύ συχνά απλώς διεξάγουν αναλύσεις απευθείας χωρίς να δοκιμάζουν τις σχετικές υποθέσεις, οδηγώντας σε λανθασμένα συμπεράσματα.