Βιογραφίες Χαρακτηριστικά Ανάλυση

Παράδειγμα πολλαπλής γραμμικής παλινδρόμησης. Λύση με χρήση υπολογιστικού φύλλου Excel

Έχω ένα μεγάλο ράφι με πολλά βιβλία χωρισμένα σε πολλές ποικιλίες. Στο επάνω ράφι υπάρχουν θρησκευτικά βιβλία όπως βιβλία Fiqh, βιβλία Tauhid, βιβλία Tasawuf, βιβλία Nahwu κ.λπ. Είναι παρατεταγμένα τακτοποιημένα σε πολλές σειρές και μερικές από αυτές είναι παραταγμένες τακτοποιημένα σύμφωνα με τους γράφοντες. Στο δεύτερο επίπεδο βρίσκονται τα φιλομαθή βιβλία μου όπως βιβλία γραμματικής, βιβλία συγγραφής, βιβλία TOEFL κ.λπ. Αυτά τακτοποιούνται με βάση τα μεγέθη. Στο επόμενο ράφι υπάρχουν πολλά είδη επιστημονική καιβιβλία με γνώσεις? για παράδειγμα, Φιλοσοφίες, Πολιτικές, Ιστορίες κ.λπ. Υπάρχουν τρία επίπεδα για αυτά. Τελικά, στο κάτω μέρος της βιβλιοθήκης μου υπάρχουν λεξικά, είναι αραβικά λεξικά και αγγλικά λεξικά καθώς και λεξικά Ινδονησίας. Πράγματι, υπάρχουν έξι επίπεδα στο μεγάλο μου ράφι και είναι παραταγμένα σε πολλές σειρές. Το πρώτο επίπεδο περιλαμβάνει θρησκευτικά βιβλία, το δεύτερο επίπεδο περιλαμβάνει τα μελετητικά βιβλία μου, το επίπεδο που έχει τρία επίπεδα περιλαμβάνει πολλά είδη επιστημονικών και γνωσιακών βιβλίων και το τελευταίο επίπεδο περιλαμβάνει λεξικά. Με λίγα λόγια, λατρεύω το ράφι μου.

Από συγκεκριμένη προς γενική παραγγελία

Οι δεξιότητες που απαιτούνται για τη γραφή κυμαίνονται από τη δημιουργία των κατάλληλων γραφικών σημαδιών, μέσω της χρήσης των πόρων της επιλεγμένης γλώσσας, έως την πρόβλεψη των αντιδράσεων των επιδιωκόμενων αναγνωστών. Ο πρώτος τομέας δεξιοτήτων περιλαμβάνει την απόκτηση ενός συστήματος γραφής, το οποίο μπορεί να είναι αλφαβητικό (όπως στις ευρωπαϊκές γλώσσες) ή μη αλφαβητικό (όπως σε πολλές ασιατικές γλώσσες). Ο δεύτερος τομέας δεξιοτήτων απαιτεί την επιλογή της κατάλληλης γραμματικής και λεξιλογίου για να σχηματιστούν αποδεκτές προτάσεις και, στη συνέχεια, η τακτοποίησή τους σε παραγράφους. Τρίτον, η γραφή περιλαμβάνει σκέψη σχετικά με το σκοπό του κειμένου που πρόκειται να συντεθεί και σχετικά με τις πιθανές επιπτώσεις του στο επιδιωκόμενο αναγνωστικό κοινό. Μια σημαντική πτυχή αυτού του τελευταίου χαρακτηριστικού είναι η επιλογή του κατάλληλου στυλ. Σε αντίθεση με την ομιλία, η γραφή είναι μια περίπλοκη κοινωνικογνωστική διαδικασία που πρέπει να αποκτηθεί μέσω ετών εκπαίδευσης ή εκπαίδευσης. (Swales and Feak, 1994, σελ. 34)

Σειρά από γενική σε συγκεκριμένη

"Η μερική απασχόληση ως ταμίας στο Piggly Wiggly μου έδωσε μια μεγάλη ευκαιρία να παρατηρήσω την ανθρώπινη συμπεριφορά. Μερικές φορές σκέφτομαι τους αγοραστές ως λευκούς αρουραίους σε ένα εργαστηριακό πείραμα και τους διαδρόμους ως λαβύρινθο που σχεδιάστηκε από έναν ψυχολόγο. Τα περισσότερα οι αρουραίοι--πελάτες, εννοώ--ακολουθούν ένα μοτίβο ρουτίνας, κάνουν βόλτες πάνω-κάτω στους διαδρόμους, ελέγχοντας το αυλάκι μου και μετά δραπετεύουν από την καταπακτή εξόδου. αφύσικος πελάτης: ο αμνησιακός, ο σούπερ αγοραστής και ο λάτρης. . ."

Υπάρχουν πολλοί παράγοντες που συμβάλλουν στην επιτυχία των μαθητών στο κολέγιο. Ο πρώτος παράγοντας είναι να έχετε κατά νου έναν στόχο πριν ξεκινήσετε ένα πρόγραμμα σπουδών. Ο στόχος μπορεί να είναι τόσο γενικός όσο να θέλει κανείς να εκπαιδεύσει καλύτερα τον εαυτό του για το μέλλον. Ένας πιο συγκεκριμένος στόχος θα ήταν η απόκτηση πιστοποιητικού διδασκαλίας. Ένας δεύτερος παράγοντας που σχετίζεται με την επιτυχία των μαθητών είναι η αυτοπαρακίνηση και η δέσμευση. Ένας μαθητής που θέλει να πετύχει και εργάζεται προς αυτή την επιθυμία θα βρει επιτυχία εύκολα ως φοιτητής κολεγίου. Ένας τρίτος παράγοντας που συνδέεται με την επιτυχία των μαθητών είναι η χρήση των υπηρεσιών κολεγίου. Οι περισσότεροι αρχάριοι φοιτητές αποτυγχάνουν να συνειδητοποιήσουν πόσο σημαντικό μπορεί να είναι να δουν έναν σύμβουλο ή να συμβουλευτούν έναν βιβλιοθηκονόμο ή έναν υπεύθυνο οικονομικής βοήθειας.

Υπάρχουν τρεις λόγοι για τους οποίους ο Καναδάς είναι ένας από τους το καλύτεροχώρες στον κόσμο. Πρώτον, ο Καναδάς έχει μια εξαιρετική υπηρεσία υγειονομικής περίθαλψης. Όλοι οι Καναδοί έχουν πρόσβαση σε ιατρικές υπηρεσίες σε λογική τιμή. Δεύτερον, ο Καναδάς έχει υψηλό επίπεδο εκπαίδευσης. Οι μαθητές διδάσκονται να είναι καλά εκπαιδευμένοι δάσκαλοι και ενθαρρύνονται να συνεχίσουν τις σπουδές τους στο πανεπιστήμιο. Τέλος, οι πόλεις του Καναδά είναι καθαρές και αποτελεσματικά οργανωμένες. Οι καναδικές πόλεις έχουν πολλά πάρκα και πολλούς χώρους για να ζήσουν οι άνθρωποι. Ως αποτέλεσμα, ο Καναδάς είναι ένα επιθυμητό μέρος για να ζεις.

Ο Γιορκ χρεώθηκε από έξι Γερμανούς στρατιώτες που ήρθαν εναντίον του με σταθερές ξιφολόγχες. Έσυρε μια χάντρα στον έκτο άνδρα, πυροβόλησε και μετά στον πέμπτο. Δούλεψε τον δρόμο του προς τα κάτω και πριν το καταλάβει, ο πρώτος άνθρωπος ήταν μόνος του. Ο Γιορκ τον σκότωσε με ένα μόνο πυροβολισμό.

Καθώς κοίταξε γύρω από την πανεπιστημιούπολη, η οποία είχε σχεδόν αλλάξει, ο Χέλι ανακούφισε τις στιγμές που είχε περάσει με τη Νάνσυ. Θυμήθηκε πώς κάθονταν οι δυο τους δίπλα στη λίμνη, κουβεντιάζοντας ατελείωτα καθώς τάιζαν τα ψάρια και επίσης πώς θα έκαναν βόλτες μαζί, χαμένοι στον δικό τους κόσμο. Ναι, η Νάνσυ ήταν μια από τις λίγες φίλες που είχε ποτέ. ….Ξαφνικά γέμισε νοσταλγία καθώς θυμόταν εκείνο το απόγευμα που είχε αποχαιρετήσει τη Νάνσυ. Μύρισε δυνατά καθώς τα μάτια του γέμισαν δάκρυα.

Παραδείγματα επίλυσης προβλημάτων με πολλαπλή παλινδρόμηση

Παράδειγμα 1Η εξίσωση παλινδρόμησης, που βασίζεται σε 17 παρατηρήσεις, έχει τη μορφή:

Τακτοποιήστε τις τιμές που λείπουν και δημιουργήστε ένα διάστημα εμπιστοσύνης για β 2με πιθανότητα 0,99.

Λύση.Οι τιμές που λείπουν προσδιορίζονται χρησιμοποιώντας τους τύπους:

Έτσι, η εξίσωση παλινδρόμησης με στατιστικά χαρακτηριστικά μοιάζει με αυτό:

Διάστημα εμπιστοσύνης για β 2κατασκευή σύμφωνα με τον αντίστοιχο τύπο. Εδώ το επίπεδο σημαντικότητας είναι 0,01 και ο αριθμός των βαθμών ελευθερίας είναι nΠ– 1 = 17 – 3 – 1 = 13, όπου n= 17 – μέγεθος δείγματος, Π= 3 είναι ο αριθμός των παραγόντων στην εξίσωση παλινδρόμησης. Από εδώ

ή . Αυτό το διάστημα εμπιστοσύνης καλύπτει την πραγματική τιμή της παραμέτρου με πιθανότητα 0,99.

Παράδειγμα 2Η εξίσωση παλινδρόμησης σε τυποποιημένες μεταβλητές μοιάζει με αυτό:

Σε αυτήν την περίπτωση, οι παραλλαγές όλων των μεταβλητών είναι ίσες με τις ακόλουθες τιμές:

Συγκρίνετε τους παράγοντες ανάλογα με τον βαθμό επιρροής στο προκύπτον χαρακτηριστικό και προσδιορίστε τις τιμές των συντελεστών μερικής ελαστικότητας.

Λύση.Οι τυποποιημένες εξισώσεις παλινδρόμησης σάς επιτρέπουν να συγκρίνετε παράγοντες με βάση την ισχύ της επιρροής τους στο αποτέλεσμα. Ταυτόχρονα, όσο μεγαλύτερη είναι η απόλυτη τιμή του συντελεστή της τυποποιημένης μεταβλητής, τόσο ισχυρότερος αυτός ο παράγοντας επηρεάζει το χαρακτηριστικό που προκύπτει. Στην εξίσωση που εξετάζουμε, ο παράγοντας που έχει τη μεγαλύτερη επιρροή στο αποτέλεσμα είναι x 1, που έχει συντελεστή 0,82, ο πιο αδύναμος είναι ο παράγοντας x 3με συντελεστή ίσο με - 0,43.

Σε ένα γραμμικό μοντέλο πολλαπλής παλινδρόμησης, ο γενικευμένος (μέσος) συντελεστής μερικής ελαστικότητας προσδιορίζεται από μια έκφραση που περιλαμβάνει τις μέσες τιμές των μεταβλητών και τον συντελεστή στον αντίστοιχο παράγοντα της εξίσωσης παλινδρόμησης φυσικής κλίμακας. Στις συνθήκες του προβλήματος αυτές οι ποσότητες δεν προσδιορίζονται. Επομένως, χρησιμοποιούμε τις εκφράσεις για παραλλαγή σε σχέση με μεταβλητές:

Πιθανότητα β ιπου συνδέονται με τυποποιημένους συντελεστές β jτην αντίστοιχη αναλογία, την οποία αντικαθιστούμε στον τύπο για τον μέσο συντελεστή ελαστικότητας:

.

Σε αυτή την περίπτωση, το πρόσημο του συντελεστή ελαστικότητας θα συμπίπτει με το πρόσημο β j:

Παράδειγμα 3Με βάση 32 παρατηρήσεις, προέκυψαν τα ακόλουθα δεδομένα:

Προσδιορίστε τις τιμές του προσαρμοσμένου συντελεστή προσδιορισμού, των μερικών συντελεστών ελαστικότητας και της παραμέτρου ένα.

Λύση.Η τιμή του προσαρμοσμένου συντελεστή προσδιορισμού καθορίζεται από έναν από τους τύπους για τον υπολογισμό του:

Οι μερικοί συντελεστές ελαστικότητας (μέσος όρος επί του πληθυσμού) υπολογίζονται χρησιμοποιώντας τους κατάλληλους τύπους:

Δεδομένου ότι η γραμμική εξίσωση της πολλαπλής παλινδρόμησης εκτελείται αντικαθιστώντας τις μέσες τιμές όλων των μεταβλητών σε αυτήν, προσδιορίζουμε την παράμετρο ένα:

Παράδειγμα 4Για ορισμένες μεταβλητές, είναι διαθέσιμα τα ακόλουθα στατιστικά στοιχεία:

Δημιουργήστε μια εξίσωση παλινδρόμησης σε τυποποιημένες και φυσικές κλίμακες.

Λύση.Δεδομένου ότι οι συντελεστές συσχέτισης ζεύγους μεταξύ των μεταβλητών είναι αρχικά γνωστοί, θα πρέπει να ξεκινήσετε με την κατασκευή μιας εξίσωσης παλινδρόμησης σε μια τυποποιημένη κλίμακα. Για να γίνει αυτό, είναι απαραίτητο να λυθεί το αντίστοιχο σύστημα κανονικών εξισώσεων, το οποίο στην περίπτωση δύο παραγόντων έχει τη μορφή:

ή, μετά την αντικατάσταση των αρχικών δεδομένων:

Επιλύουμε αυτό το σύστημα με οποιονδήποτε τρόπο, παίρνουμε: β1 = 0,3076, β2 = 0,62.

Ας γράψουμε την εξίσωση παλινδρόμησης σε μια τυποποιημένη κλίμακα:

Τώρα ας προχωρήσουμε στην εξίσωση παλινδρόμησης φυσικής κλίμακας, για την οποία χρησιμοποιούμε τους τύπους για τον υπολογισμό των συντελεστών παλινδρόμησης μέσω των συντελεστών βήτα και την ιδιότητα δικαιοσύνης της εξίσωσης παλινδρόμησης για τις μέσες μεταβλητές:

Η εξίσωση παλινδρόμησης φυσικής κλίμακας είναι:

Παράδειγμα 5Κατά την κατασκευή μιας γραμμικής πολλαπλής παλινδρόμησης Για 48 μετρήσεις, ο συντελεστής προσδιορισμού ήταν 0,578. Μετά την εξάλειψη των παραγόντων x 3, x 7και x 8ο συντελεστής προσδιορισμού μειώθηκε στο 0,495. Ήταν δικαιολογημένη η απόφαση αλλαγής της σύνθεσης των μεταβλητών που επηρεάζουν σε επίπεδα σημαντικότητας 0,1, 0,05 και 0,01;

Λύση.Έστω - ο συντελεστής προσδιορισμού της εξίσωσης παλινδρόμησης με το αρχικό σύνολο παραγόντων, - ο συντελεστής προσδιορισμού μετά την εξαίρεση τριών παραγόντων. Καταθέτουμε υποθέσεις:

;

Η κύρια υπόθεση υποδηλώνει ότι η μείωση του μεγέθους δεν ήταν σημαντική και η απόφαση να αποκλειστεί μια ομάδα παραγόντων ήταν σωστή. Η εναλλακτική υπόθεση υποδεικνύει την ορθότητα της απόφασης αποκλεισμού.

Για να ελέγξουμε τη μηδενική υπόθεση, χρησιμοποιούμε τα ακόλουθα στατιστικά στοιχεία:

,

όπου n = 48, Π= 10 - αρχικός αριθμός παραγόντων, κ= 3 - ο αριθμός των εξαιρούμενων παραγόντων. Επειτα

Ας συγκρίνουμε την τιμή που προκύπτει με την κρίσιμη φά(α ; 3; 39) στα επίπεδα 0,1. 0,05 και 0,01:

φά(0,1; 3; 37) = 2,238;

φά(0,05; 3; 37) = 2,86;

φά(0,01; 3; 37) = 4,36.

Στο επίπεδο α = 0,1 F obl > F cr, μηδέν - η υπόθεση απορρίπτεται, ο αποκλεισμός αυτής της ομάδας παραγόντων δεν δικαιολογείται, σε επίπεδα 0,05 0,01 μηδέν - η υπόθεση δεν μπορεί να απορριφθεί και ο αποκλεισμός παραγόντων μπορεί να θεωρηθεί δικαιολογημένος.

Παράδειγμα 6. Με βάση τριμηνιαία στοιχεία από το 2000 έως το 2004, προέκυψε μια εξίσωση. Ταυτόχρονα, ESS=110,3, RSS=21,4 (ESS – εξηγείται RMSE, RSS – υπολειπόμενο RMSE). Τρεις εικονικές μεταβλητές προστέθηκαν στην εξίσωση, που αντιστοιχούν στα τρία πρώτα τρίμηνα του έτους, και η τιμή ESS αυξήθηκε σε 120,2. Υπάρχει εποχικότητα σε αυτή την εξίσωση;

Λύση. Αυτή είναι μια εργασία για τον έλεγχο της εγκυρότητας της συμπερίληψης μιας ομάδας παραγόντων στην εξίσωση πολλαπλής παλινδρόμησης. Τρεις μεταβλητές προστέθηκαν στην αρχική εξίσωση τριών παραγόντων για να αντιπροσωπεύσουν τα πρώτα τρία τρίμηνα του έτους.

Ας προσδιορίσουμε τους συντελεστές προσδιορισμού των εξισώσεων. Η συνολική τυπική απόκλιση ορίζεται ως το άθροισμα των παραγοντικών και των υπολειπόμενων τυπικών αποκλίσεων:

TSS = ESS 1 + RSS 1 = 110,3 + 21,4 = 131,7

Δοκιμάζουμε υποθέσεις. Για να ελέγξουμε τη μηδενική υπόθεση, χρησιμοποιούμε στατιστικά

Εδώ n= 20 (20 τρίμηνα σε διάστημα πέντε ετών - από το 2000 έως το 2004), Π = 6 (σύνολοπαράγοντες στην εξίσωση παλινδρόμησης μετά την συμπερίληψη νέων παραγόντων), κ= 3 (αριθμός παραγόντων που περιλαμβάνονται). Με αυτόν τον τρόπο:

Ας προσδιορίσουμε τις κρίσιμες τιμές των στατιστικών Fisher σε διάφορα επίπεδα σπουδαιότητας:

Σε επίπεδα σημαντικότητας 0,1 και 0,05 F obl> F cr, μηδέν - η υπόθεση απορρίπτεται υπέρ της εναλλακτικής και δικαιολογείται η εποχικότητα στην παλινδρόμηση (η προσθήκη τριών νέων παραγόντων δικαιολογείται) και στο επίπεδο του 0,01 F obl< F cr, και μηδέν - η υπόθεση δεν μπορεί να απορριφθεί. η προσθήκη νέων παραγόντων δεν δικαιολογείται, η εποχικότητα στην παλινδρόμηση δεν είναι σημαντική.

Παράδειγμα 7Κατά την ανάλυση των δεδομένων για ετεροσκεδαστικότητα, ολόκληρο το δείγμα χωρίστηκε σε τρία υποδείγματα μετά από ταξινόμηση με βάση έναν από τους παράγοντες. Στη συνέχεια, με βάση τα αποτελέσματα μιας τριμερούς ανάλυσης παλινδρόμησης, καθορίστηκε ότι η υπολειπόμενη SD στο πρώτο υποδείγμα ήταν 180 και στο τρίτο - 63. Επιβεβαιώνεται η παρουσία ετεροσκεδαστικότητας εάν ο όγκος δεδομένων σε κάθε υποδείγμα είναι 20 ?

Λύση. Υπολογίστε τα στατιστικά στοιχεία για να ελέγξετε τη μηδενική υπόθεση της ομοσκεδαστικότητας χρησιμοποιώντας το τεστ Goldfeld–Quandt:

.

Βρείτε τις κρίσιμες τιμές των στατιστικών Fisher:

Επομένως, σε επίπεδα σημαντικότητας 0,1 και 0,05 F obl> F cr, και λαμβάνει χώρα ετεροσκεδαστικότητα, και στο επίπεδο του 0,01 F obl< F cr, και η υπόθεση της ομοσκεδαστικότητας δεν μπορεί να απορριφθεί.

Παράδειγμα 8. Με βάση τριμηνιαία δεδομένα, προέκυψε μια εξίσωση πολλαπλής παλινδρόμησης για την οποία ESS = 120,32 και RSS = 41,4. Για το ίδιο μοντέλο, οι παλινδρομήσεις πραγματοποιήθηκαν ξεχωριστά με βάση τα ακόλουθα δεδομένα: 1 τρίμηνο 1991 - 1 τρίμηνο 1995 και τρίμηνο 2ο 1995 - 4ο τρίμηνο 1996. Σε αυτές τις παλινδρομήσεις, το υπολειπόμενο RMSE, αντίστοιχα, ήταν 22,25 και 12,32. Ελέγξτε την υπόθεση για την παρουσία δομικών αλλαγών στο δείγμα.

Λύση. Το πρόβλημα της παρουσίας δομικών αλλαγών στο δείγμα επιλύεται χρησιμοποιώντας το τεστ Chow.

Οι υποθέσεις έχουν τη μορφή: , όπου s0, s 1και s2είναι οι υπολειπόμενες τυπικές αποκλίσεις για τη μοναδική εξίσωση για ολόκληρο το δείγμα και οι εξισώσεις παλινδρόμησης για δύο υποδείγματα του συνολικού δείγματος, αντίστοιχα. Η κύρια υπόθεση αρνείται την παρουσία δομικών αλλαγών στο δείγμα. Για να ελεγχθεί η μηδενική υπόθεση, υπολογίζονται τα στατιστικά στοιχεία ( n = 24; Π = 3):

Επειδή το F είναι ένα στατιστικό στοιχείο μικρότερο του ενός, το μηδενικό σημαίνει ότι η υπόθεση δεν μπορεί να απορριφθεί για οποιοδήποτε επίπεδο σημαντικότητας. Για παράδειγμα, για ένα επίπεδο σημαντικότητας 0,05.

Η ανάλυση παλινδρόμησης είναι μια μέθοδος στατιστικής έρευνας που σας επιτρέπει να δείξετε την εξάρτηση μιας παραμέτρου από μία ή περισσότερες ανεξάρτητες μεταβλητές. Στην προ-υπολογιστική εποχή, η χρήση του ήταν αρκετά δύσκολη, ειδικά όταν επρόκειτο για μεγάλους όγκους δεδομένων. Σήμερα, έχοντας μάθει πώς να δημιουργείτε μια παλινδρόμηση στο Excel, μπορείτε να λύσετε σύνθετα στατιστικά προβλήματα σε λίγα μόλις λεπτά. Παρακάτω είναι συγκεκριμένα παραδείγματααπό τον τομέα της οικονομίας.

Τύποι παλινδρόμησης

Η ίδια η έννοια εισήχθη στα μαθηματικά το 1886. Η παλινδρόμηση συμβαίνει:

  • γραμμικός;
  • παραβολικός;
  • εξουσία;
  • εκθετικός;
  • υπερβολικός;
  • εκδηλωτικός;
  • λογαριθμική.

Παράδειγμα 1

Εξετάστε το πρόβλημα του προσδιορισμού της εξάρτησης του αριθμού των συνταξιούχων μελών της ομάδας από τον μέσο μισθό σε 6 βιομηχανικές επιχειρήσεις.

Μια εργασία. Σε έξι επιχειρήσεις, αναλύσαμε τον μέσο μηνιαίο μισθό και τον αριθμό των εργαζομένων που αποχώρησαν λόγω δική του θέληση. Σε μορφή πίνακα έχουμε:

Ο αριθμός των ανθρώπων που έφυγαν

Μισθός

30000 ρούβλια

35000 ρούβλια

40000 ρούβλια

45000 ρούβλια

50000 ρούβλια

55000 ρούβλια

60000 ρούβλια

Για το πρόβλημα του προσδιορισμού της εξάρτησης του αριθμού των συνταξιούχων από τον μέσο μισθό σε 6 επιχειρήσεις, το μοντέλο παλινδρόμησης έχει τη μορφή της εξίσωσης Y = a 0 + a 1 x 1 +…+a k x k , όπου x i είναι οι μεταβλητές που επηρεάζουν , a i είναι οι συντελεστές παλινδρόμησης, a k είναι ο αριθμός των παραγόντων.

Για αυτό το έργο, το Υ είναι ο δείκτης των υπαλλήλων που αποχώρησαν και ο παράγοντας που επηρεάζει είναι ο μισθός, τον οποίο συμβολίζουμε με Χ.

Χρήση των δυνατοτήτων του υπολογιστικού φύλλου "Excel"

Η ανάλυση παλινδρόμησης στο Excel πρέπει να προηγείται από την εφαρμογή ενσωματωμένων συναρτήσεων στα διαθέσιμα δεδομένα πίνακα. Ωστόσο, για αυτούς τους σκοπούς, είναι καλύτερο να χρησιμοποιήσετε το πολύ χρήσιμο πρόσθετο "Analysis Toolkit". Για να το ενεργοποιήσετε χρειάζεστε:

  • από την καρτέλα "Αρχείο", μεταβείτε στην ενότητα "Επιλογές".
  • στο παράθυρο που ανοίγει, επιλέξτε τη γραμμή "Πρόσθετα".
  • κάντε κλικ στο κουμπί "Μετάβαση" που βρίσκεται στο κάτω μέρος, στα δεξιά της γραμμής "Διαχείριση".
  • επιλέξτε το πλαίσιο δίπλα στο όνομα "Πακέτο ανάλυσης" και επιβεβαιώστε τις ενέργειές σας κάνοντας κλικ στο "OK".

Εάν όλα γίνονται σωστά, το επιθυμητό κουμπί θα εμφανιστεί στη δεξιά πλευρά της καρτέλας Δεδομένα, που βρίσκεται πάνω από το φύλλο εργασίας του Excel.

στο Excel

Τώρα που έχουμε στη διάθεσή μας όλα τα απαραίτητα εικονικά εργαλεία για την εκτέλεση οικονομετρικών υπολογισμών, μπορούμε να αρχίσουμε να λύνουμε το πρόβλημά μας. Για αυτό:

  • κάντε κλικ στο κουμπί "Ανάλυση δεδομένων".
  • στο παράθυρο που ανοίγει, κάντε κλικ στο κουμπί "Ανάδρομη".
  • στην καρτέλα που εμφανίζεται, εισαγάγετε το εύρος τιμών για το Y (ο αριθμός των εργαζομένων που παραιτήθηκαν) και για το X (τους μισθούς τους).
  • Επιβεβαιώνουμε τις ενέργειές μας πατώντας το κουμπί "Ok".

Ως αποτέλεσμα, το πρόγραμμα θα συμπληρώσει αυτόματα ένα νέο φύλλο του υπολογιστικού φύλλου με δεδομένα ανάλυσης παλινδρόμησης. Σημείωση! Το Excel έχει τη δυνατότητα να ορίσει με μη αυτόματο τρόπο την τοποθεσία που προτιμάτε για αυτόν τον σκοπό. Για παράδειγμα, θα μπορούσε να είναι το ίδιο φύλλο όπου βρίσκονται οι τιμές Y και X ή ακόμα και Ενα νέο βιβλίο, ειδικά σχεδιασμένο για την αποθήκευση τέτοιων δεδομένων.

Ανάλυση αποτελεσμάτων παλινδρόμησης για R-square

Στο Excel, τα δεδομένα που λαμβάνονται κατά την επεξεργασία των δεδομένων του υπό εξέταση παραδείγματος μοιάζουν με αυτό:

Πρώτα απ 'όλα, θα πρέπει να δώσετε προσοχή στην τιμή του τετραγώνου R. Είναι ο συντελεστής προσδιορισμού. Σε αυτό το παράδειγμα, R-square = 0,755 (75,5%), δηλαδή οι υπολογισμένες παράμετροι του μοντέλου εξηγούν τη σχέση μεταξύ των εξεταζόμενων παραμέτρων κατά 75,5%. Όσο μεγαλύτερη είναι η τιμή του συντελεστή προσδιορισμού, τόσο πιο εφαρμόσιμο είναι το επιλεγμένο μοντέλο για μια συγκεκριμένη εργασία. Πιστεύεται ότι περιγράφει σωστά την πραγματική κατάσταση με τιμή R-τετράγωνο πάνω από 0,8. Εάν το R-τετράγωνο<0,5, то такой анализа регрессии в Excel нельзя считать резонным.

Ανάλυση της αναλογίας

Ο αριθμός 64.1428 δείχνει ποια θα είναι η τιμή του Y εάν όλες οι μεταβλητές xi στο μοντέλο που εξετάζουμε είναι μηδενικές. Με άλλα λόγια, μπορεί να υποστηριχθεί ότι η τιμή της αναλυόμενης παραμέτρου επηρεάζεται επίσης από άλλους παράγοντες που δεν περιγράφονται σε ένα συγκεκριμένο μοντέλο.

Ο επόμενος συντελεστής -0,16285, που βρίσκεται στο κελί B18, δείχνει το βάρος της επιρροής της μεταβλητής X στο Y. Αυτό σημαίνει ότι ο μέσος μηνιαίος μισθός των εργαζομένων στο υπό εξέταση μοντέλο επηρεάζει τον αριθμό των παραιτητών με βάρος -0,16285, π.χ. ο βαθμός της επιρροής του καθόλου μικρός. Το σύμβολο "-" δείχνει ότι ο συντελεστής έχει αρνητική τιμή. Αυτό είναι προφανές, αφού όλοι γνωρίζουν ότι όσο υψηλότερος είναι ο μισθός στην επιχείρηση, τόσο λιγότεροι άνθρωποι εκφράζουν την επιθυμία να τερματίσουν τη σύμβαση εργασίας ή να παραιτηθούν.

Πολλαπλή παλινδρόμηση

Αυτός ο όρος αναφέρεται σε μια εξίσωση σύνδεσης με πολλές ανεξάρτητες μεταβλητές της μορφής:

y \u003d f (x 1 + x 2 + ... x m) + ε, όπου y είναι το αποτελεσματικό χαρακτηριστικό (εξαρτημένη μεταβλητή) και x 1 , x 2 , ... x m είναι οι παράγοντες παραγόντων (ανεξάρτητες μεταβλητές).

Εκτίμηση παραμέτρων

Για πολλαπλή παλινδρόμηση (MR) πραγματοποιείται με τη μέθοδο των ελαχίστων τετραγώνων (OLS). Για γραμμικές εξισώσεις της μορφής Y = a + b 1 x 1 +…+b m x m + ε, κατασκευάζουμε ένα σύστημα κανονικών εξισώσεων (βλ. παρακάτω)

Για να κατανοήσετε την αρχή της μεθόδου, εξετάστε την περίπτωση των δύο παραγόντων. Τότε έχουμε μια κατάσταση που περιγράφεται από τον τύπο

Από εδώ παίρνουμε:

όπου σ είναι η διακύμανση του αντίστοιχου χαρακτηριστικού που αντικατοπτρίζεται στον δείκτη.

Το LSM είναι εφαρμόσιμο στην εξίσωση MP σε τυποποιήσιμη κλίμακα. Σε αυτή την περίπτωση, παίρνουμε την εξίσωση:

όπου t y , t x 1, … t xm είναι τυποποιημένες μεταβλητές για τις οποίες οι μέσες τιμές είναι 0. β i είναι οι τυποποιημένοι συντελεστές παλινδρόμησης και η τυπική απόκλιση είναι 1.

Σημειώστε ότι όλα τα β i σε αυτή την περίπτωση ορίζονται ως κανονικοποιημένα και κεντρικά, επομένως η σύγκρισή τους μεταξύ τους θεωρείται σωστή και παραδεκτή. Επιπλέον, συνηθίζεται να φιλτράρουμε τους παράγοντες, απορρίπτοντας αυτούς με τις μικρότερες τιμές βi.

Πρόβλημα με χρήση της εξίσωσης γραμμικής παλινδρόμησης

Ας υποθέσουμε ότι υπάρχει ένας πίνακας της δυναμικής των τιμών ενός συγκεκριμένου προϊόντος N κατά τους τελευταίους 8 μήνες. Είναι απαραίτητο να ληφθεί απόφαση σχετικά με τη σκοπιμότητα αγοράς της παρτίδας του σε τιμή 1850 ρούβλια/τόνο.

αριθμός μηνός

όνομα μήνα

τιμή του αντικειμένου Ν

1750 ρούβλια ανά τόνο

1755 ρούβλια ανά τόνο

1767 ρούβλια ανά τόνο

1760 ρούβλια ανά τόνο

1770 ρούβλια ανά τόνο

1790 ρούβλια ανά τόνο

1810 ρούβλια ανά τόνο

1840 ρούβλια ανά τόνο

Για να λύσετε αυτό το πρόβλημα στο υπολογιστικό φύλλο του Excel, πρέπει να χρησιμοποιήσετε το εργαλείο ανάλυσης δεδομένων που είναι ήδη γνωστό από το παραπάνω παράδειγμα. Στη συνέχεια, επιλέξτε την ενότητα "Ανάδρομη" και ορίστε τις παραμέτρους. Πρέπει να θυμόμαστε ότι στο πεδίο "Input interval Y" πρέπει να εισαχθεί ένα εύρος τιμών για την εξαρτημένη μεταβλητή (στην περίπτωση αυτή, η τιμή ενός προϊόντος σε συγκεκριμένους μήνες του έτους) και στο "Input διάστημα X" - για την ανεξάρτητη μεταβλητή (αριθμός μήνα). Επιβεβαιώστε την ενέργεια κάνοντας κλικ στο "Ok". Σε ένα νέο φύλλο (εάν υποδεικνύεται έτσι), λαμβάνουμε δεδομένα για παλινδρόμηση.

Με βάση αυτά, κατασκευάζουμε μια γραμμική εξίσωση της μορφής y=ax+b, όπου οι παράμετροι a και b είναι οι συντελεστές της σειράς με το όνομα του αριθμού του μήνα και οι συντελεστές και η σειρά «Y-τομή» από το φύλλο με τα αποτελέσματα της ανάλυσης παλινδρόμησης. Έτσι, η εξίσωση γραμμικής παλινδρόμησης (LE) για το πρόβλημα 3 γράφεται ως:

Τιμή προϊόντος N = 11.714* αριθμός μηνός + 1727.54.

ή σε αλγεβρική σημειογραφία

y = 11,714 x + 1727,54

Ανάλυση αποτελεσμάτων

Για να αποφασίσετε εάν η εξίσωση που προκύπτει είναι επαρκής γραμμικής παλινδρόμησης, χρησιμοποιούνται πολλαπλοί συντελεστές συσχέτισης (MCC) και συντελεστές προσδιορισμού, καθώς και δοκιμασία Fisher και Student. Στον πίνακα του Excel με αποτελέσματα παλινδρόμησης, εμφανίζονται με τα ονόματα πολλαπλών R, R-square, F-statistic και t-statistic, αντίστοιχα.

Το KMC R καθιστά δυνατή την αξιολόγηση της στεγανότητας της πιθανολογικής σχέσης μεταξύ των ανεξάρτητων και των εξαρτημένων μεταβλητών. Η υψηλή του αξία υποδηλώνει μια αρκετά ισχυρή σχέση μεταξύ των μεταβλητών "Αριθμός του μήνα" και "Τιμή αγαθών Ν σε ρούβλια ανά 1 τόνο". Ωστόσο, η φύση αυτής της σχέσης παραμένει άγνωστη.

Το τετράγωνο του συντελεστή προσδιορισμού R 2 (RI) είναι αριθμητικό χαρακτηριστικό του μεριδίου της συνολικής διασποράς και δείχνει τη διασπορά ποιου μέρους των πειραματικών δεδομένων, δηλ. Οι τιμές της εξαρτημένης μεταβλητής αντιστοιχούν στην εξίσωση γραμμικής παλινδρόμησης. Στο εξεταζόμενο πρόβλημα, αυτή η τιμή είναι ίση με 84,8%, δηλαδή τα στατιστικά δεδομένα περιγράφονται με υψηλό βαθμό ακρίβειας από το ληφθέν SD.

Η στατιστική F, που ονομάζεται επίσης τεστ του Fisher, χρησιμοποιείται για την αξιολόγηση της σημασίας μιας γραμμικής σχέσης, διαψεύδοντας ή επιβεβαιώνοντας την υπόθεση της ύπαρξής της.

(κριτήριο μαθητή) βοηθά στην αξιολόγηση της σημασίας του συντελεστή με έναν άγνωστο ή ελεύθερο όρο μιας γραμμικής σχέσης. Αν η τιμή του κριτηρίου t > t cr, τότε η υπόθεση της ασημαντότητας του ελεύθερου όρου γραμμική εξίσωσηαπορρίφθηκε.

Στο εξεταζόμενο πρόβλημα για το ελεύθερο μέλος, χρησιμοποιώντας τα εργαλεία του Excel, προέκυψε ότι t = 169.20903 και p = 2.89E-12, δηλ. έχουμε μηδενική πιθανότητα ότι η σωστή υπόθεση σχετικά με την ασημαντότητα του ελεύθερου μέλους θα είναι απορρίφθηκε. Για τον συντελεστή σε άγνωστο t=5,79405, και p=0,001158. Με άλλα λόγια, η πιθανότητα να απορριφθεί η σωστή υπόθεση για τη μη σημασία του συντελεστή για το άγνωστο είναι 0,12%.

Έτσι, μπορεί να υποστηριχθεί ότι η προκύπτουσα εξίσωση γραμμικής παλινδρόμησης είναι επαρκής.

Το πρόβλημα της σκοπιμότητας αγοράς ενός πακέτου μετοχών

Η πολλαπλή παλινδρόμηση στο Excel εκτελείται χρησιμοποιώντας το ίδιο εργαλείο ανάλυσης δεδομένων. Εξετάστε ένα συγκεκριμένο εφαρμοσμένο πρόβλημα.

Η διοίκηση της NNN πρέπει να αποφασίσει για τη σκοπιμότητα αγοράς του 20% της ΜΜΜ Α.Ε. Το κόστος του πακέτου (JV) είναι 70 εκατομμύρια δολάρια ΗΠΑ. Οι ειδικοί του NNN συνέλεξαν δεδομένα για παρόμοιες συναλλαγές. Αποφασίστηκε να αξιολογηθεί η αξία του πακέτου μετοχών σύμφωνα με τέτοιες παραμέτρους, εκφρασμένες σε εκατομμύρια δολάρια ΗΠΑ, όπως:

Επιπλέον, χρησιμοποιείται η παράμετρος καθυστερήσεις μισθοδοσίας της επιχείρησης (V3 P) σε χιλιάδες δολάρια ΗΠΑ.

Λύση με χρήση υπολογιστικού φύλλου Excel

Πρώτα απ 'όλα, πρέπει να δημιουργήσετε έναν πίνακα αρχικών δεδομένων. Μοιάζει με αυτό:

  • καλέστε το παράθυρο "Ανάλυση δεδομένων".
  • επιλέξτε την ενότητα "Ανάδρομη".
  • στο πλαίσιο "Διάστημα εισαγωγής Y" εισαγάγετε το εύρος τιμών των εξαρτημένων μεταβλητών από τη στήλη G.
  • κάντε κλικ στο εικονίδιο με ένα κόκκινο βέλος στα δεξιά του παραθύρου "Input interval X" και επιλέξτε το εύρος όλων των τιμών​​από τις στήλες B, C, D, F στο φύλλο.

Επιλέξτε "Νέο φύλλο εργασίας" και κάντε κλικ στο "Ok".

Λάβετε την ανάλυση παλινδρόμησης για το δεδομένο πρόβλημα.

Εξέταση των αποτελεσμάτων και συμπερασμάτων

"Συλλέγουμε" από τα στρογγυλεμένα δεδομένα που παρουσιάζονται παραπάνω στο φύλλο υπολογιστικού φύλλου του Excel, την εξίσωση παλινδρόμησης:

SP \u003d 0,103 * SOF + 0,541 * VO - 0,031 * VK + 0,405 * VD + 0,691 * VZP - 265,844.

Στο πιο οικείο μαθηματική μορφήμπορεί να γραφτεί ως:

y = 0,103*x1 + 0,541*x2 - 0,031*x3 +0,405*x4 +0,691*x5 - 265,844

Τα δεδομένα για την JSC "MMM" παρουσιάζονται στον πίνακα:

Αντικαθιστώντας τα στην εξίσωση παλινδρόμησης, παίρνουν ένα νούμερο 64,72 εκατομμυρίων δολαρίων ΗΠΑ. Αυτό σημαίνει ότι οι μετοχές της JSC MMM δεν πρέπει να αγοραστούν, καθώς η αξία τους στα 70 εκατομμύρια δολάρια είναι μάλλον υπερεκτιμημένη.

Όπως μπορείτε να δείτε, η χρήση του υπολογιστικού φύλλου Excel και της εξίσωσης παλινδρόμησης κατέστησαν δυνατή τη λήψη μιας τεκμηριωμένης απόφασης σχετικά με τη σκοπιμότητα μιας πολύ συγκεκριμένης συναλλαγής.

Τώρα ξέρετε τι είναι η παλινδρόμηση. Τα παραδείγματα στο Excel που συζητήθηκαν παραπάνω θα σας βοηθήσουν να λύσετε πρακτικά προβλήματα από τον τομέα της οικονομετρίας.

Ερωτήσεις:

4. Εκτίμηση των παραμέτρων του γραμμικού μοντέλου πολλαπλής παλινδρόμησης.

5. Αξιολόγηση της ποιότητας της πολλαπλής γραμμικής παλινδρόμησης.

6. Ανάλυση και πρόβλεψη με βάση πολυπαραγοντικά μοντέλα.

Η πολλαπλή παλινδρόμηση είναι μια γενίκευση της παλινδρόμησης κατά ζεύγη. Χρησιμοποιείται για να περιγράψει τη σχέση μεταξύ της επεξηγημένης (εξαρτημένης) μεταβλητής Y και των επεξηγηματικών (ανεξάρτητων) μεταβλητών X 1 ,X 2 ,…,X k . Η πολλαπλή παλινδρόμηση μπορεί να είναι είτε γραμμική είτε μη γραμμική, αλλά η γραμμική πολλαπλή παλινδρόμηση είναι η πιο ευρέως χρησιμοποιούμενη στα οικονομικά.

θεωρητικός γραμμικό μοντέλοη πολλαπλή παλινδρόμηση μοιάζει με:

η αντίστοιχη παλινδρόμηση του δείγματος συμβολίζεται με:

Όπως και στην παλινδρόμηση κατά ζεύγη, ο τυχαίος όρος ε πρέπει να ικανοποιεί τις βασικές παραδοχές της ανάλυσης παλινδρόμησης. Στη συνέχεια, με τη βοήθεια του LSM, λαμβάνονται οι καλύτερες αμερόληπτες και αποτελεσματικές εκτιμήσεις των παραμέτρων της θεωρητικής παλινδρόμησης. Επιπλέον, οι μεταβλητές Х 1 ,Х 2 ,…,Х k πρέπει να είναι ασυσχετισμένες (γραμμικά ανεξάρτητες) μεταξύ τους. Για να γράψουμε τους τύπους για την εκτίμηση των συντελεστών παλινδρόμησης (2), που λαμβάνονται με βάση το LSM, εισάγουμε τον ακόλουθο συμβολισμό:

Τότε μπορούμε να γράψουμε σε μορφή διανυσματικού πίνακα θεωρητικό μοντέλο:

και επιλεκτική παλινδρόμηση

Το OLS οδηγεί στον ακόλουθο τύπο για την εκτίμηση του διανύσματος των συντελεστών παλινδρόμηση δείγματος:

(3)

Να εκτιμηθούν πολλαπλοί συντελεστές γραμμικής παλινδρόμησης με δύο ανεξάρτητες μεταβλητές , μπορούμε να λύσουμε το σύστημα των εξισώσεων:

(4)

Όπως και στη ζευγαρωμένη γραμμική παλινδρόμηση, για πολλαπλή παλινδρόμηση, υπολογίζεται το τυπικό σφάλμα παλινδρόμησης S:

(5)

και τυπικά σφάλματα των συντελεστών παλινδρόμησης:

(6)

Η σημασία των συντελεστών ελέγχεται χρησιμοποιώντας το t-test.

έχοντας κατανομή Μαθητή με τον αριθμό των βαθμών ελευθερίας v= n-k-1.

Για την αξιολόγηση της ποιότητας της παλινδρόμησης, χρησιμοποιείται ο συντελεστής (δείκτης) προσδιορισμού:

, (8)

όσο πιο κοντά στο 1, τόσο υψηλότερη είναι η ποιότητα της παλινδρόμησης.

Για τον έλεγχο της σημαντικότητας του συντελεστή προσδιορισμού, χρησιμοποιείται το κριτήριο Fisher ή η στατιστική F.



(9)

Με v1=k, v2=n-k-1 βαθμοί ελευθερίας.

Στην πολυμεταβλητή παλινδρόμηση, η προσθήκη επιπλέον επεξηγηματικών μεταβλητών αυξάνει τον συντελεστή προσδιορισμού. Για να αντισταθμιστεί μια τέτοια αύξηση, εισάγεται ένας προσαρμοσμένος (ή κανονικοποιημένος) συντελεστής προσδιορισμού:

(10)

Εάν η αύξηση στο μερίδιο της παλινδρόμησης που εξηγείται με την προσθήκη μιας νέας μεταβλητής είναι μικρή, τότε μπορεί να μειωθεί. Επομένως, η προσθήκη μιας νέας μεταβλητής είναι ακατάλληλη.

Παράδειγμα 4:

Ας ληφθεί υπόψη η εξάρτηση του κέρδους της επιχείρησης από το κόστος νέου εξοπλισμού και μηχανημάτων και από το κόστος βελτίωσης των δεξιοτήτων των εργαζομένων. Συλλογή στατιστικών στοιχείων για 6 επιχειρήσεις του ίδιου τύπου. Δεδομένα σε εκατομμύρια den. μονάδες δίνονται στον πίνακα 1.

Τραπέζι 1

Σχεδιάστε την αμφίδρομη γραμμική παλινδρόμηση και να αξιολογήσει τη σημασία του. Ας εισάγουμε τη σημειογραφία:

Μεταφέρουμε τον πίνακα X:

Αντιστροφή αυτού του πίνακα:

Έτσι, η εξάρτηση του κέρδους από το κόστος νέου εξοπλισμού και μηχανημάτων και από το κόστος βελτίωσης των δεξιοτήτων των εργαζομένων μπορεί να περιγραφεί με την ακόλουθη παλινδρόμηση:

Χρησιμοποιώντας τον τύπο (5), όπου k=2, υπολογίζουμε το τυπικό σφάλμα παλινδρόμησης S=0,636.

Υπολογίζουμε τα τυπικά σφάλματα των συντελεστών παλινδρόμησης χρησιμοποιώντας τον τύπο (6):

Ομοίως:

Ας ελέγξουμε τη σημασία των συντελεστών παλινδρόμησης a 1 , a 2 . υπολογισμός t υπολ.

Επιλέγουμε το επίπεδο σημαντικότητας, τον αριθμό των βαθμών ελευθερίας

σημαίνει συντελεστής Α'1σημαντικός.

Ας υπολογίσουμε τη σημασία του συντελεστή a 2:

Συντελεστής Α2ασήμαντος.

Ας υπολογίσουμε τον συντελεστή προσδιορισμού σύμφωνα με τον τύπο (7) . Το κέρδος της επιχείρησης κατά 96% εξαρτάται από το κόστος νέου εξοπλισμού και μηχανημάτων και την προηγμένη εκπαίδευση κατά 4% από άλλους και τυχαίους παράγοντες. Ας ελέγξουμε τη σημασία του συντελεστή προσδιορισμού. Υπολογίστε την F υπολογ.:

έπειτα. ο συντελεστής προσδιορισμού είναι σημαντικός, η εξίσωση παλινδρόμησης είναι σημαντική.

Μεγάλη σημασία στην ανάλυση που βασίζεται στην πολυμεταβλητή παλινδρόμηση είναι η σύγκριση της επίδρασης παραγόντων στον εξαρτημένο δείκτη y. Οι συντελεστές παλινδρόμησης δεν χρησιμοποιούνται για το σκοπό αυτό, λόγω διαφορών στις μονάδες μέτρησης και ποικίλους βαθμούςδιακυμάνσεις. Από αυτές τις ελλείψεις, οι συντελεστές ελεύθερης ελαστικότητας είναι:

Η ελαστικότητα δείχνει πόσο τοις εκατό αλλάζει ο εξαρτημένος δείκτης y κατά μέσο όρο όταν η μεταβλητή αλλάζει κατά 1%, με την προϋπόθεση ότι οι τιμές των άλλων μεταβλητών παραμένουν αμετάβλητες. Όσο μεγαλύτερη, τόσο μεγαλύτερη είναι η επιρροή της αντίστοιχης μεταβλητής. Όπως και στη ζευγαρωμένη παλινδρόμηση, για την πολλαπλή παλινδρόμηση, γίνεται διάκριση μεταξύ πρόβλεψης σημείου και πρόβλεψης διαστήματος. Μια πρόβλεψη σημείου (αριθμός) λαμβάνεται αντικαθιστώντας τις προβλεπόμενες τιμές των ανεξάρτητων μεταβλητών στην εξίσωση πολλαπλής παλινδρόμησης. Σημειώστε με:

(12)

διάνυσμα προγνωστικών τιμών ανεξάρτητων μεταβλητών και μετά πρόβλεψη σημείου

τυπικό σφάλμαΗ πρόβλεψη στην περίπτωση πολλαπλής παλινδρόμησης ορίζεται ως εξής:

(15)

Επιλέγουμε το επίπεδο σημαντικότητας α σύμφωνα με τον πίνακα κατανομής του Μαθητή. Για το επίπεδο σημαντικότητας α και τον αριθμό των βαθμών ελευθερίας ν = n-k-1, βρίσκουμε t cr. Τότε η πραγματική τιμή του y p με πιθανότητα 1- α εμπίπτει στο διάστημα:


Θέμα 5:

Χρονική σειρά.

Ερωτήσεις:

4. Βασικές έννοιες χρονοσειρών.

5. Η κύρια αναπτυξιακή τάση είναι μια τάση.

6. Κατασκευή ενός προσθετικού μοντέλου.

Χρονική σειράαντιπροσωπεύουν ένα σύνολο τιμών οποιουδήποτε δείκτη για πολλές διαδοχικές στιγμές ή χρονικές περιόδους.

Η χρονική στιγμή (ή περίοδος) συμβολίζεται με t, και η τιμή του δείκτη τη στιγμή του χρόνου συμβολίζεται με y (t) και ονομάζεται επίπεδο σειράς .

Κάθε επίπεδο της χρονοσειράς διαμορφώνεται υπό την επίδραση ενός μεγάλου αριθμού παραγόντων που μπορούν να χωριστούν σε 3 ομάδες:

Μακροπρόθεσμοι, μόνιμοι παράγοντες που έχουν καθοριστική επίδραση στο υπό μελέτη φαινόμενο και αποτελούν την κύρια τάση της σειράς - την τάση T(t).

Βραχυπρόθεσμοι περιοδικοί παράγοντες που σχηματίζουν εποχιακές διακυμάνσεις της σειράς S(t).

Τυχαίοι παράγοντες που σχηματίζουν τυχαίες αλλαγές στα επίπεδα της σειράς ε(t).

Προσθετικό μοντέλοΗ χρονολογική σειρά είναι ένα μοντέλο στο οποίο κάθε επίπεδο της σειράς αντιπροσωπεύεται από το άθροισμα της τάσης, της εποχιακής και τυχαίο συστατικό:

Πολλαπλασιαστικό μοντέλοείναι ένα μοντέλο στο οποίο κάθε επίπεδο της σειράς είναι το προϊόν των αναγραφόμενων στοιχείων:

Η επιλογή ενός από τα μοντέλα βασίζεται στην ανάλυση της δομής των εποχιακών διακυμάνσεων. Εάν το πλάτος της ταλάντωσης είναι περίπου σταθερό, τότε κατασκευάζεται ένα προσθετικό μοντέλο. Εάν το πλάτος αυξάνεται, τότε το πολλαπλασιαστικό μοντέλο.

Το κύριο καθήκον της οικονομετρικής ανάλυσης είναι να προσδιορίσει καθένα από τα αναφερόμενα συστατικά.

Η κύρια αναπτυξιακή τάση (τάση)ονομάζεται ομαλή και σταθερή αλλαγή στα επίπεδα της σειράς με την πάροδο του χρόνου, απαλλαγμένη από τυχαίες και εποχιακές διακυμάνσεις.

Το καθήκον του προσδιορισμού των κύριων τάσεων ανάπτυξης ονομάζεται ευθυγράμμιση χρονοσειρών .

Οι μέθοδοι ευθυγράμμισης χρονοσειρών περιλαμβάνουν:

1) η μέθοδος μεγέθυνσης των διαστημάτων,

2) μέθοδος κινούμενος μέσος όρος,

3) αναλυτική ευθυγράμμιση.

1) Μεγεθύνονται οι χρονικές περίοδοι στις οποίες αναφέρονται τα επίπεδα της σειράς. Στη συνέχεια, τα επίπεδα της σειράς αθροίζονται στα μεγεθυσμένα διαστήματα. Οι διακυμάνσεις των επιπέδων λόγω τυχαίων αιτιών αλληλοεξουδετερώνονται. Η γενική τάση αποκαλύπτεται πιο ξεκάθαρα.

2) Για να προσδιορίσετε τον αριθμό των πρώτων επιπέδων της σειράς, το μέση αξία. Στη συνέχεια, ο μέσος όρος υπολογίζεται από τον ίδιο αριθμό επιπέδων της σειράς, ξεκινώντας από το δεύτερο επίπεδο κ.ο.κ. η μέση τιμή ολισθαίνει κατά μήκος της σειράς των δυναμικών, προχωρώντας κατά 1 περίοδο (χρονική στιγμή). Ο αριθμός των επιπέδων της σειράς στα οποία υπολογίζεται ο μέσος όρος μπορεί να είναι άρτιος ή περιττός. Για έναν περιττό κινητό μέσο όρο, ανατρέξτε στο μέσο της περιόδου ολίσθησης. Για ζυγή περίοδο, η εύρεση της μέσης τιμής δεν συγκρίνεται με τον ορισμό του t, αλλά εφαρμόζεται μια διαδικασία κεντραρίσματος, δηλ. να υπολογίσετε τον μέσο όρο δύο διαδοχικών κινητών μέσων.

3) Κατασκευή αναλυτική συνάρτησηχαρακτηρίζοντας την εξάρτηση του επιπέδου της σειράς από τον χρόνο. Οι ακόλουθες λειτουργίες χρησιμοποιούνται για τη δημιουργία τάσεων:

Οι παράμετροι τάσης προσδιορίζονται χρησιμοποιώντας τη μέθοδο των ελαχίστων τετραγώνων. Η επιλογή της καλύτερης συνάρτησης πραγματοποιείται με βάση τον συντελεστή R 2 .

Θα δημιουργήσουμε ένα προσθετικό μοντέλο χρησιμοποιώντας ένα παράδειγμα.

Παράδειγμα 7:

Υπάρχουν τριμηνιαία στοιχεία για τον όγκο κατανάλωσης ηλεκτρικής ενέργειας σε μια συγκεκριμένη περιοχή για 4 χρόνια. Δεδομένα σε εκατομμύρια kW στον πίνακα 1.

Τραπέζι 1

Δημιουργήστε ένα μοντέλο χρονοσειράς.

Σε αυτό το παράδειγμα, θεωρούμε τον αριθμό τριμήνου ως ανεξάρτητη μεταβλητή και την τριμηνιαία κατανάλωση ηλεκτρικής ενέργειας ως εξαρτημένη μεταβλητή y(t).

Από το scatterplot, μπορείτε να δείτε ότι η τάση (τάση) είναι γραμμική. Μπορείτε επίσης να δείτε την παρουσία εποχιακών διακυμάνσεων (περίοδος = 4) του ίδιου πλάτους, οπότε θα δημιουργήσουμε ένα προσθετικό μοντέλο.

Η κατασκευή του μοντέλου περιλαμβάνει τα ακόλουθα βήματα:

1. Θα ευθυγραμμίσουμε την αρχική σειρά χρησιμοποιώντας τον κινητό μέσο όρο για 4 τέταρτα και θα εκτελέσουμε το κεντράρισμα:

1.1. Ας αθροίσουμε τα επίπεδα της σειράς διαδοχικά για κάθε 4 τρίμηνα με μετατόπιση 1 σημείου στο χρόνο.

1.2. Διαιρώντας τα προκύπτοντα αθροίσματα με το 4 βρίσκουμε τους κινητούς μέσους όρους.

1.3. Φέρνουμε αυτές τις τιμές σε ευθυγράμμιση με τα πραγματικά χρονικά σημεία, για τα οποία βρίσκουμε τη μέση τιμή δύο διαδοχικών κινητών μέσων - κεντρικών κινητών μέσων.

2. Υπολογίστε την εποχιακή διακύμανση. Εποχιακή διακύμανση (t) = y(t) - κεντρικός κινητός μέσος όρος. Ας φτιάξουμε έναν πίνακα 2.

πίνακας 2

Μέσω του αριθμού μπλοκ t Κατανάλωση ηλεκτρικής ενέργειας Y(t) Κινούμενος μέσος όρος 4 τετάρτων Κεντρικός κινούμενος μέσος όρος Εκτίμηση Εποχικής Διακύμανσης
6,0 - - -
4,4 6,1 - -
5,0 6,4 6,25 -1,25
9,0 6,5 6,45 2,55
7,2 6,75 6,625 0,575
: : : : :
6,6 8,35 8,375 -1,775
7,0 - - -
10,8 - - -

3. Με βάση την εποχική διακύμανση του Πίνακα 3, υπολογίζεται η εποχική συνιστώσα.

δείκτες Ετος Αριθμός τριμήνου στο έτος I II III IV
- - -1,250 2,550
0,575 -2,075 -1,100 2,700
0,550 -2,025 -1,475 2,875
0,675 -1,775 - -
Σύνολο 1,8 -5,875 -3,825 8,125 Αθροισμα
Μέση τιμή 0,6 -1,958 -1,275 2,708 0,075
Εποχιακό συστατικό 0,581 -1,977 -1,294 2,690

4. Εξάλειψη εποχιακό συστατικόαπό τα αρχικά επίπεδα της σειράς:

Συμπέρασμα:

Το προσθετικό μοντέλο εξηγεί το 98,4% γενική παραλλαγήεπίπεδα της αρχικής χρονοσειράς.

Κάνοντας κλικ στο κουμπί "Λήψη αρχείου", θα κατεβάσετε δωρεάν το αρχείο που χρειάζεστε.
Πριν τη λήψη δεδομένο αρχείοθυμηθείτε αυτά τα καλά δοκίμια, έλεγχος, εργασίες περιόδου, διατριβές, άρθρα και άλλα έγγραφα που βρίσκονται αζήτητα στον υπολογιστή σας. Αυτή είναι η δουλειά σας, θα πρέπει να συμμετέχει στην ανάπτυξη της κοινωνίας και να ωφελεί τους ανθρώπους. Βρείτε αυτά τα έργα και στείλτε τα στη βάση γνώσεων.
Εμείς και όλοι οι φοιτητές, μεταπτυχιακοί φοιτητές, νέοι επιστήμονες που χρησιμοποιούν τη βάση γνώσεων στις σπουδές και την εργασία τους θα σας είμαστε πολύ ευγνώμονες.

Για λήψη ενός αρχείου με ένα έγγραφο, εισαγάγετε έναν πενταψήφιο αριθμό στο παρακάτω πεδίο και κάντε κλικ στο κουμπί "Λήψη αρχείου"

###### ## ## ###### ######
## ### ### ## ##
## #### ## ##### ##
## ## ## ## ## ##
## ## ###### ## ## ## ## ##
#### ## ###### #### ####

Εισαγάγετε τον αριθμό που φαίνεται παραπάνω:

Παρόμοια Έγγραφα

    Βασικές αρχές κατασκευής και επάρκειας δοκιμών οικονομικά μοντέλαπολλαπλή παλινδρόμηση, το πρόβλημα της προδιαγραφής τους και τις συνέπειες των σφαλμάτων. Μεθοδική και πληροφοριακή υποστήριξη πολλαπλής παλινδρόμησης. Αριθμητικό παράδειγμαπολλαπλά μοντέλα παλινδρόμησης.

    θητεία, προστέθηκε 02/10/2014

    Η έννοια του μοντέλου πολλαπλής παλινδρόμησης. Η ουσία της μεθόδου των ελαχίστων τετραγώνων, η οποία χρησιμοποιείται για τον προσδιορισμό των παραμέτρων της εξίσωσης πολλαπλής γραμμικής παλινδρόμησης. Αξιολόγηση της ποιότητας της εφαρμογής εξίσωση παλινδρόμησηςστα δεδομένα. Συντελεστής προσδιορισμού.

    θητεία, προστέθηκε 22/01/2015

    Κατασκευή μοντέλου πολλαπλής γραμμικής παλινδρόμησης σύμφωνα με τις δεδομένες παραμέτρους. Αξιολόγηση της ποιότητας του μοντέλου με τους συντελεστές προσδιορισμού και πολλαπλής συσχέτισης. Προσδιορισμός της σημασίας της εξίσωσης παλινδρόμησης με βάση το Fisher's F-test και Student's t-test.

    δοκιμή, προστέθηκε 12/01/2013

    Κατασκευή εξίσωσης πολλαπλής παλινδρόμησης σε γραμμική μορφή με πλήρες σετπαράγοντες, επιλογή πληροφοριακών παραγόντων. Έλεγχος της σημασίας της εξίσωσης παλινδρόμησης με το τεστ Fisher και της στατιστικής σημασίας των παραμέτρων παλινδρόμησης με το τεστ Student.

    εργαστηριακές εργασίες, προστέθηκε 17/10/2009

    Περιγραφή του κλασικού γραμμικού μοντέλου πολλαπλής παλινδρόμησης. Ανάλυση του πίνακα ζευγαρωμένων συντελεστών συσχέτισης για την παρουσία πολυσυγγραμμικότητας. Αξιολόγηση του μοντέλου ζευγαρωμένης παλινδρόμησης με τον σημαντικότερο παράγοντα. Γραφική κατασκευή του διαστήματος πρόβλεψης.

    θητεία, προστέθηκε 17/01/2016

    Παράγοντες που διαμορφώνουν την τιμή των διαμερισμάτων σε σπίτια υπό κατασκευή στην Αγία Πετρούπολη. Σύνταξη πίνακα ζευγαρωμένων συντελεστών συσχέτισης των αρχικών μεταβλητών. Έλεγχος των σφαλμάτων της εξίσωσης πολλαπλής παλινδρόμησης για ετεροσκεδαστικότητα. Τεστ Gelfeld-Quandt.

    δοκιμή, προστέθηκε 14/05/2015

    Εκτίμηση της κατανομής της μεταβλητής Χ1. Μοντελοποίηση της σχέσης μεταξύ των μεταβλητών Υ και Χ1 χρησιμοποιώντας μια γραμμική συνάρτηση και τη μέθοδο της πολλαπλής γραμμικής παλινδρόμησης. Σύγκριση της ποιότητας των κατασκευασμένων μοντέλων. Σχεδιάζοντας μια πρόβλεψη σημείου για δεδομένες τιμές.

    θητεία, προστέθηκε 24/06/2015

Καλησπέρα, αγαπητοί αναγνώστες.
Σε προηγούμενα άρθρα, χρησιμοποιώντας πρακτικά παραδείγματα, έδειξα τον τρόπο επίλυσης προβλημάτων ταξινόμησης (πρόβλημα πιστοληπτικής βαθμολογίας) και τα βασικά στοιχεία της ανάλυσης πληροφοριών κειμένου (πρόβλημα διαβατηρίου). Σήμερα θα ήθελα να θίξω μια άλλη κατηγορία προβλημάτων, δηλαδή την ανάκτηση παλινδρόμησης. Οι εργασίες αυτής της κατηγορίας χρησιμοποιούνται συνήθως στην πρόβλεψη.
Για παράδειγμα επίλυσης ενός προβλήματος πρόβλεψης, πήρα το σύνολο δεδομένων Ενεργειακής απόδοσης από το μεγαλύτερο αποθετήριο UCI. Παραδοσιακά, θα χρησιμοποιούμε Python με pandas και αναλυτικά πακέτα scikit-learn ως εργαλεία.

Περιγραφή του συνόλου δεδομένων και δήλωση προβλήματος

Δίνεται ένα σύνολο δεδομένων που περιγράφει τα ακόλουθα χαρακτηριστικά του δωματίου:

Περιέχει τα χαρακτηριστικά του δωματίου βάσει των οποίων θα πραγματοποιηθεί η ανάλυση και - οι τιμές φορτίου που πρέπει να προβλεφθούν.

Προκαταρκτική ανάλυση δεδομένων

Αρχικά, ας φορτώσουμε τα δεδομένα μας και ας τα δούμε:

Από pandas import read_csv, DataFrame από sklearn.neighbors εισαγωγή KNeighborsRegressor από sklearn.linear_model εισαγωγή LinearRegression, LogisticRegression από sklearn.svm εισαγωγή SVR από sklearn.ensemble importner RandomForestcoreRegressor. /ENB2012_data.csv",";") dataset.head()

Χ1 X2 X3 Χ4 Χ5 Χ6 Χ7 Χ8 Υ1 Υ2
0 0.98 514.5 294.0 110.25 7 2 0 0 15.55 21.33
1 0.98 514.5 294.0 110.25 7 3 0 0 15.55 21.33
2 0.98 514.5 294.0 110.25 7 4 0 0 15.55 21.33
3 0.98 514.5 294.0 110.25 7 5 0 0 15.55 21.33
4 0.90 563.5 318.5 122.50 7 2 0 0 20.84 28.28

Τώρα ας δούμε αν σχετίζονται κάποια χαρακτηριστικά. Αυτό μπορεί να γίνει με τον υπολογισμό των συντελεστών συσχέτισης για όλες τις στήλες. Πώς να το κάνετε αυτό περιγράφηκε σε προηγούμενο άρθρο:

σύνολο δεδομένων.corr()

Χ1 X2 X3 Χ4 Χ5 Χ6 Χ7 Χ8 Υ1 Υ2
Χ1 1.000000e+00 -9.919015e-01 -2,037817e-01 -8,688234e-01 8.277473e-01 0.000000 1,283986e-17 1,764620e-17 0.622272 0.634339
X2 -9.919015e-01 1.000000e+00 1,955016e-01 8.807195e-01 -8,581477e-01 0.000000 1,318356e-16 -3,558613e-16 -0.658120 -0.672999
X3 -2,037817e-01 1,955016e-01 1.000000e+00 -2,923165e-01 2.809757e-01 0.000000 -7,969726e-19 0,000000e+00 0.455671 0.427117
Χ4 -8,688234e-01 8.807195e-01 -2,923165e-01 1.000000e+00 -9,725122e-01 0.000000 -1,381805e-16 -1,079129e-16 -0.861828 -0.862547
Χ5 8.277473e-01 -8,581477e-01 2.809757e-01 -9,725122e-01 1.000000e+00 0.000000 1,861418e-18 0,000000e+00 0.889431 0.895785
Χ6 0,000000e+00 0,000000e+00 0,000000e+00 0,000000e+00 0,000000e+00 1.000000 0,000000e+00 0,000000e+00 -0.002587 0.014290
Χ7 1,283986e-17 1,318356e-16 -7,969726e-19 -1,381805e-16 1,861418e-18 0.000000 1.000000e+00 2.129642e-01 0.269841 0.207505
Χ8 1,764620e-17 -3,558613e-16 0,000000e+00 -1,079129e-16 0,000000e+00 0.000000 2.129642e-01 1.000000e+00 0.087368 0.050525
Υ1 6.222722e-01 -6.581202e-01 4.556712e-01 -8,618283e-01 8.894307e-01 -0.002587 2.698410e-01 8.736759e-02 1.000000 0.975862
Υ2 6.343391e-01 -6,729989e-01 4.271170e-01 -8,625466e-01 8,957852e-01 0.014290 2.075050e-01 5.052512e-02 0.975862 1.000000

Όπως μπορείτε να δείτε από τον πίνακα μας, οι ακόλουθες στήλες συσχετίζονται μεταξύ τους (η τιμή του συντελεστή συσχέτισης είναι μεγαλύτερη από 95%):
  • y1 --> y2
  • x1 --> x2
  • x4 --> x5
Τώρα ας επιλέξουμε ποιες στήλες των ζευγών μας μπορούμε να αφαιρέσουμε από την επιλογή μας. Για να γίνει αυτό, σε κάθε ζεύγος, επιλέγουμε τις στήλες που έχουν μεγαλύτερο αντίκτυπο στις προβλεπόμενες τιμές Υ1και Υ2και αφήστε τα, και διαγράψτε τα υπόλοιπα.
Όπως μπορείτε να δείτε, πίνακες με συντελεστές συσχέτισης σε y1 ,y2 μεγαλύτερη αξίακαθιστώ X2 και Χ5 από το X1 και το X4, ώστε να μπορούμε να αφαιρέσουμε τις τελευταίες στήλες που μπορούμε.

Dataset = dataset.drop(["X1","X4"], axis=1) dataset.head()
Επιπλέον, φαίνεται ότι τα χωράφια Υ1 και Υ2 συσχετίζονται πολύ στενά μεταξύ τους. Αλλά, επειδή πρέπει να προβλέψουμε και τις δύο τιμές, τις αφήνουμε «ως έχουν».

Επιλογή μοντέλου

Διαχωρίστε τις τιμές πρόβλεψης από το δείγμα μας:

Trg = σύνολο δεδομένων[["Y1","Y2"]] trn = σύνολο δεδομένων.drop(["Y1","Y2"], axis=1)
Μετά την επεξεργασία των δεδομένων, μπορείτε να προχωρήσετε στην κατασκευή του μοντέλου. Για να δημιουργήσουμε το μοντέλο, θα χρησιμοποιήσουμε τις ακόλουθες μεθόδους:

Η θεωρία σχετικά με αυτές τις μεθόδους μπορεί να διαβαστεί κατά τη διάρκεια των διαλέξεων του K.V. Vorontsov σχετικά με τη μηχανική μάθηση.
Θα αξιολογήσουμε χρησιμοποιώντας τον συντελεστή προσδιορισμού ( R-τετράγωνο). Αυτός ο συντελεστήςορίζεται ως εξής:

Πού είναι η υπό όρους διακύμανση της εξαρτημένης μεταβλητής στοκατά παράγοντα Χ.
Ο συντελεστής παίρνει μια τιμή στο διάστημα και όσο πιο κοντά είναι στο 1, τόσο ισχυρότερη είναι η εξάρτηση.
Λοιπόν, τώρα μπορείτε να πάτε απευθείας στην κατασκευή ενός μοντέλου και στην επιλογή ενός μοντέλου. Ας βάλουμε όλα τα μοντέλα μας σε μια λίστα για ευκολία περαιτέρω ανάλυσης:

Μοντέλα=
Έτσι τα μοντέλα είναι έτοιμα, τώρα θα χωρίσουμε τα αρχικά μας δεδομένα σε 2 υποδείγματα: δοκιμήκαι εκπαιδευτικός. Όσοι έχουν διαβάσει τα προηγούμενα άρθρα μου γνωρίζουν ότι αυτό μπορεί να γίνει χρησιμοποιώντας τη συνάρτηση train_test_split() από το πακέτο scikit-learn:

Xtrn, Xtest, Ytrn, Ytest = train_test_split(trn, trg, test_size=0,4)
Τώρα, αφού πρέπει να προβλέψουμε 2 παραμέτρους, πρέπει να δημιουργήσουμε μια παλινδρόμηση για καθεμία από αυτές. Επιπλέον, για περαιτέρω ανάλυση, μπορείτε να καταγράψετε τα αποτελέσματα που ελήφθησαν σε ένα προσωρινό Πλαίσιο δεδομένων. Μπορείτε να το κάνετε ως εξής:

#create temporary structures TestModels = DataFrame() tmp = () #for every model from the list for model in models: #get the model model m = str(model) tmp["Model"] = m[:m.index( "( ")] #για κάθε στήλη του συνόλου αποτελεσμάτων για i στο xrange(Ytrn.shape): #train the model model.fit(Xtrn, Ytrn[:,i]) #υπολογίστε τον συντελεστή προσδιορισμού tmp["R2_Y %s"%str(i +1)] = r2_score(Ytest[:,0], model.predict(Xtest)) #write data and final DataFrame TestModels = TestModels.append() #make index με το όνομα μοντέλου TestModels.set_index ("Μοντέλο", inplace= true)
Όπως μπορείτε να δείτε από τον παραπάνω κώδικα, η συνάρτηση r2_score() χρησιμοποιείται για τον υπολογισμό του συντελεστή.
Έτσι, λαμβάνονται τα δεδομένα για ανάλυση. Ας δημιουργήσουμε τώρα γραφήματα και ας δούμε ποιο μοντέλο έδειξε το καλύτερο αποτέλεσμα:

Fig, axes = plt.subplots(ncols=2, figsize=(10,4)) TestModels.R2_Y1.plot(ax=axes, kind="bar", title="(!LANG:R2_Y1") TestModels.R2_Y2.plot(ax=axes, kind="bar", color="green", title="R2_Y2") !}

Ανάλυση αποτελεσμάτων και συμπεράσματα

Από τα παραπάνω γραφήματα, μπορούμε να συμπεράνουμε ότι η μέθοδος αντιμετώπισε την εργασία καλύτερα από άλλες. Τυχαίο Δάσος(τυχαίο δάσος). Οι συντελεστές προσδιορισμού του είναι υψηλότεροι από τους υπόλοιπους και στις δύο μεταβλητές:
Για περαιτέρω ανάλυση, ας επανεκπαιδεύσουμε το μοντέλο μας:

Model = modelsmodel.fit(Xtrn, Ytrn)
Σε πιο προσεκτική εξέταση, μπορεί να προκύψει το ερώτημα γιατί το εξαρτημένο δείγμα χωρίστηκε την τελευταία φορά Υτρνσε μεταβλητές (κατά στήλες), και τώρα δεν το κάνουμε αυτό.
Γεγονός είναι ότι ορισμένες μέθοδοι, όπως π.χ RandomForestRegressor, μπορεί να λειτουργήσει με πολλές προγνωστικές μεταβλητές, ενώ άλλες (για παράδειγμα SVR) μπορεί να λειτουργήσει μόνο με μία μεταβλητή. Επομένως, στην προηγούμενη εκπαίδευση, χρησιμοποιήσαμε μια κατάτμηση ανά στήλες για να αποφύγουμε σφάλματα στη διαδικασία κατασκευής ορισμένων μοντέλων.
Η επιλογή ενός μοντέλου είναι, φυσικά, καλή, αλλά θα ήταν επίσης ωραίο να έχουμε πληροφορίες σχετικά με το πώς κάθε παράγοντας θα επηρεάσει την προβλεπόμενη τιμή. Για να γίνει αυτό, το μοντέλο έχει μια ιδιότητα χαρακτηριστικό_σημανσεις_.
Με αυτό, μπορείτε να δείτε το βάρος κάθε παράγοντα στα τελικά μοντέλα:

Model.feature_importances_
πίνακας([ 0,40717901, 0,11394948, 0,34984766, 0,00751686, 0,09158358,
0.02992342])

Στην περίπτωσή μας, μπορεί να φανεί ότι το συνολικό ύψος και η επιφάνεια επηρεάζουν περισσότερο το φορτίο θέρμανσης και ψύξης. Η συνολική συνεισφορά τους στο προγνωστικό μοντέλο είναι περίπου 72%.
Θα πρέπει επίσης να σημειωθεί ότι σύμφωνα με το παραπάνω σχήμα, μπορείτε να δείτε την επίδραση κάθε παράγοντα ξεχωριστά στη θέρμανση και ξεχωριστά στην ψύξη, αλλά επειδή αυτοί οι παράγοντες συσχετίζονται πολύ στενά μεταξύ τους (), καταλήξαμε σε ένα γενικό συμπέρασμα και για τα δύο τους, που γράφτηκε παραπάνω.

συμπέρασμα

Στο άρθρο, προσπάθησα να δείξω τα κύρια στάδια ανάλυση παλινδρόμησηςδεδομένα με Python και αναλυτικά πακέτα τα πάντακαι scikit-μαθαίνω.
Πρέπει να σημειωθεί ότι το σύνολο δεδομένων επιλέχθηκε ειδικά με τέτοιο τρόπο ώστε να είναι τόσο επισημοποιημένο και πρωτογενής επεξεργασίατα δεδομένα εισόδου θα ήταν ελάχιστα. Κατά τη γνώμη μου, το άρθρο θα είναι χρήσιμο σε όσους μόλις ξεκινούν το ταξίδι τους στην ανάλυση δεδομένων, καθώς και σε όσους έχουν καλή θεωρητική βάση, αλλά επιλέγουν εργαλεία για δουλειά.