Βιογραφίες Χαρακτηριστικά Ανάλυση

Διαστήματα εμπιστοσύνης για παραμέτρους γραμμικού μοντέλου. Διαστήματα εμπιστοσύνης για παραμέτρους μοντέλου ζευγοποίησης παλινδρόμησης

Διαβάστε επίσης:
  1. Απόλυτοι και σχετικοί δείκτες ισχύος σύνδεσης σε εξισώσεις παλινδρόμησης ζεύγους.
  2. Αλγόριθμος για τον έλεγχο της επάρκειας ενός μοντέλου πολλαπλής παλινδρόμησης (η ουσία των σταδίων επαλήθευσης, τύποι υπολογισμού, διατύπωση του συμπεράσματος).
  3. Αλγόριθμος για τον έλεγχο της επάρκειας ενός μοντέλου ζευγαρωμένης παλινδρόμησης.
  4. Ένας αλγόριθμος για τον έλεγχο της σημασίας των παλινδρομητών σε ένα μοντέλο πολλαπλής παλινδρόμησης: μια στατιστική υπόθεση που διατυπώθηκε, μια διαδικασία για τον έλεγχο της, τύποι για τον υπολογισμό της στατιστικής.
  5. Η αλληλεξάρτηση της μορφής εντολής και των κύριων παραμέτρων του υπολογιστή
  6. Σχέση μεταξύ παραμέτρων καθεστώτος και διάρκειας ζωής εργαλείου.

Κατά την κατασκευή εκτιμήσεων διαστήματος, χρησιμοποιούνται ειδικές στατιστικές με γνωστή κατανομή. Για τη δημιουργία διαστημάτων εμπιστοσύνης για τις παραμέτρους του ατμόλουτρου μοντέλο παλινδρόμησηςα και β, σχηματίζονται στατιστικές t, συμπεριλαμβανομένων των βοηθητικών τυχαίες μεταβλητές:

Ας προσθέσουμε στις προϋποθέσεις του κλασικού μοντέλου παλινδρόμησης την προϋπόθεση της κανονικής κατανομής μιας τυχαίας διαταραχής, τότε η στατιστική V έχει την κατανομή , και οι στατιστικολόγοι κατανέμονται κανονικά.

Η κανονικότητα της κατανομής των διαταραχών συνεπάγεται την κανονικότητα της κοινής κατανομής των δεδομένων δείγματος Y t , (t=1,…,n), και εφόσον Οι εκτιμήσεις ελαχίστων τετραγώνων των συντελεστών παλινδρόμησης a^ και b^ είναι γραμμικές συναρτήσεις Y t , τότε η κοινή κατανομή τους είναι επίσης κανονική, και a^ - N(a, σ a ^ ^2), b^ - N(b, σ b ^ ^2).

Κατανομές σφαλμάτων των εκτιμήσεων παραμέτρων: b-b^ - N(0, σ b ^ ^2), a-a^ - N(0, σ a ^ ^2), πραγματικά

E(a-a^)=a-E(a^)=0, E(b-b^)=b-E(b^)=0, επειδή LSM - οι εκτιμήσεις b^ και a^ είναι αμερόληπτες. Διακυμάνσεις: Var(a-a^)=Var(a^)= σ a ^ ^2, Var(b-b^)=Var(b^)= σ b ^ ^2.

Επομένως, οι τυχαίες μεταβλητές Z b =(b-b^)/ σ b ^ και Z a =(a-a^)/ σ a ^ έχουν κανονική κατανομήμε μηδενικό χαλάκι. προσδοκία και μοναδιαία διακύμανση Z a – N(0,1), Z b – N(0,1).

Η στατιστική που σχηματίζεται σύμφωνα με τον κανόνα t=Z/ √V/k, όπου το Z είναι μια τυπική κανονική τυχαία μεταβλητή και το V είναι μια μεταβλητή ανεξάρτητη από το Z, που κατανέμεται σύμφωνα με το νόμο χι-τετράγωνο με k βαθμούς ελευθερίας, έχει ένα ( Student's) t-κατανομή με παράμετρο k. Έτσι, τυχαίες μεταβλητές tb=Zb/√V/(n-2) = Zbσ/√Σet^2/(n-2) = Zbσ/√s^2 = ((b-b^)σ)/ σb^*s ,

ta= Za/√V/(n-2) = Zaσ/√Σet^2/(n-2) = Zaσ/√s^2 = ((b-b^)σ)/ σa^*s.

Είναι t-statistics με παράμετρο n-2. Ας μετατρέψουμε τις εκφράσεις για αυτά τα στατιστικά στοιχεία σε μια φόρμα κατάλληλη για υπολογισμό. Λόγω του γεγονότος ότι σb^/σ=sb^/s και σa^/σ=sa^/s, είναι βολικό να υπολογίσετε τις τιμές των στατιστικών t χρησιμοποιώντας τους τύπους:

t b =(b-b^)/s b^ , t a =(b-b^)/s a^ , όπου s b^ ^2=s^2/Σx t ^2, s a^ ^2=s^2 * ΣX t ^2/nΣx t^2.

Οι εκφράσεις είναι τα κανονικοποιημένα σφάλματα των εκτιμήσεων των παραμέτρων και ονομάζονται κλάσμα Student. Το κλάσμα Student έχει κατανομή Student με (n-2) βαθμούς ελευθερίας. Με δεδομένο ένα ορισμένο επίπεδο σημασίας α, είναι δυνατό να προσδιοριστεί η κρίσιμη τιμή της στατιστικής t cr από τους πίνακες κατανομής t και, χρησιμοποιώντας την τυπική διαδικασία, να κατασκευαστεί διάστημα εμπιστοσύνης, που με επίπεδο αυτοπεποίθησηςΤο 1-α καλύπτει την τιμή της στατιστικής t.

Αρχική > Περίληψη

Διαστήματα εμπιστοσύνης για παραμέτρους γραμμικού μοντέλου.

Για σημαντικούς συντελεστές παλινδρόμησης, τα διαστήματα εμπιστοσύνης μπορούν να κατασκευαστούν χρησιμοποιώντας τον τύπο: Εκτίμηση Διαστήματος στο σημείο που ορίζεται από το διάνυσμα αρχικές συνθήκες x 0, προσδιορίζεται από τον τύπο: , (2.21) όπου = (x 0) t b; x 0 =
- διάνυσμα στήλης αρχικών συνθηκών διάστασης (k+1) t προσδιορίζεται από τον πίνακα κατανομής του Student για το επίπεδο σημαντικότητας  και τον αριθμό των βαθμών ελευθερίας =n -k -1.

Η μέθοδος της σταδιακής παλινδρόμησης θα χρησιμοποιηθεί για την κατασκευή του μοντέλου. Η πολυπλοκότητα της σχέσης των παραγόντων στο μοντέλο που χαρακτηρίζει οικονομικά φαινόμενα, είναι απαραίτητο να απλοποιηθεί για να επισημανθούν οι πιο σημαντικές σχέσεις. Πρέπει να βρεθεί καλύτερη επιλογήένα μοντέλο που αντικατοπτρίζει τα κύρια πρότυπα του υπό μελέτη φαινομένου με επαρκή βαθμό στατιστικής αξιοπιστίας. Το μοντέλο θα πρέπει να περιλαμβάνει όλους τους παράγοντες που, από οικονομική άποψη, έχουν αντίκτυπο στην εξαρτημένη μεταβλητή, ωστόσο, ο αριθμός των παραγόντων που περιλαμβάνονται στο μοντέλο δεν πρέπει να είναι πολύ μεγάλος. Η μη συμμόρφωση με αυτήν την προϋπόθεση θα οδηγήσει σε μια σειρά από δυσκολίες, συμπεριλαμβανομένης της μείωσης της ακρίβειας των εκτιμήσεων, της πολυπλοκότητας της ερμηνείας του μοντέλου και των δυσκολιών της πρακτικής χρήσης του.

Δύο μπορούν να διακριθούν διαφορετικές προσεγγίσειςγια την επίλυση του προβλήματος της μείωσης του αριθμού των αρχικών μεταβλητών. Ένα από αυτά βασίζεται στο γεγονός ότι λιγότερο σημαντικοί παράγοντες εξαλείφονται στη διαδικασία κατασκευής του αρχικού μοντέλου και ο δεύτερος βασίζεται στην αντικατάσταση του αρχικού συνόλου μεταβλητών λιγότεροιισοδύναμοι παράγοντες που λαμβάνονται ως αποτέλεσμα μετασχηματισμών του αρχικού συνόλου. Η διαδικασία για την εξάλειψη ασήμαντων παραγόντων στη διαδικασία κατασκευής ενός μοντέλου παλινδρόμησης ονομάζεται πολλαπλών βημάτων ανάλυση παλινδρόμησης. Αυτή η μέθοδος βασίζεται στον υπολογισμό πολλών ενδιάμεσων εξισώσεων παλινδρόμησης, ως αποτέλεσμα της ανάλυσης των οποίων προκύπτει το τελικό μοντέλο, το οποίο περιλαμβάνει μόνο παράγοντες που έχουν στενή στατιστικά σημαντική επίδραση στην υπό μελέτη εξαρτημένη μεταβλητή. Σε αυτό το πρόβλημα, χρησιμοποίησα μια ανάλυση παλινδρόμησης πολλαπλών σταδίων που βασίζεται στην αξιολόγηση της σημασίας των συντελεστών παλινδρόμησης χρησιμοποιώντας το Student's t-test. Η εξίσωση παλινδρόμησης χτίζεται σύμφωνα με το μέγιστο πιθανός αριθμόςεπεξηγηματικές μεταβλητές που αναμένεται να επηρεάσουν την υπό μελέτη μεταβλητή. Στη συνέχεια, χρησιμοποιώντας ορισμένα κριτήρια, αποκλείονται οι μεταβλητές που έχουν στατιστικά ασήμαντη επίδραση. Το σχήμα για την επιλογή σημαντικών παραγόντων στην εξίσωση παλινδρόμησης χρησιμοποιώντας το τεστ t μοιάζει με αυτό: εάν όλοι οι συντελεστές παλινδρόμησης είναι σημαντικοί, τότε η εξίσωση παλινδρόμησης αναγνωρίζεται ως τελική και λαμβάνεται ως μοντέλο του χαρακτηριστικού υπό μελέτη. Εάν υπάρχουν ασήμαντοι συντελεστές παλινδρόμησης, τότε οι αντίστοιχες επεξηγηματικές μεταβλητές θα πρέπει να εξαιρεθούν από την εξίσωση. Ωστόσο, θα πρέπει πρώτα να ταξινομηθούν οι συντελεστές παλινδρόμησης με την τιμή του t obs και, πρώτα απ 'όλα, να αποκλειστεί ένας τέτοιος παράγοντας για τον οποίο ο συντελεστής παλινδρόμησης είναι ασήμαντος και το t obs έχει μικρότερη τιμήεπί απόλυτη τιμή. Η τιμή της εξίσωσης παλινδρόμησης υπολογίζεται ξανά χωρίς τον εξαιρούμενο παράγοντα και στη συνέχεια οι συντελεστές παλινδρόμησης αξιολογούνται με το t-test. Αυτό επαναλαμβάνεται μέχρι να γίνουν σημαντικοί οι συντελεστές παλινδρόμησης στην εξίσωση. Το απλούστερο κύκλωμαΟ έλεγχος της σημασίας των συντελεστών παλινδρόμησης καταλήγει στην κατασκευή ενός διαστήματος εμπιστοσύνης για καθένα από αυτούς και στον έλεγχο της υπόθεσης εάν το μηδέν βρίσκεται εντός του κατασκευασμένου διαστήματος. Εάν η υπόθεση δεν απορριφθεί, τότε αυτός ο συντελεστής παλινδρόμησης θεωρείται ασήμαντος ή η σημασία του αμφισβητείται και διευκρινίζεται στα επόμενα στάδια της ανάλυσης. Στο αυτή τη μέθοδοσε κάθε βήμα, εκτός από το επίσημο στατιστικός έλεγχοςη σημασία των συντελεστών παλινδρόμησης, είναι επίσης οικονομική ανάλυσηασήμαντους παράγοντες και καθιερώνεται η διαδικασία αποκλεισμού τους. Σε ορισμένες περιπτώσεις, η τιμή του t obs είναι κοντά στο t cr, και από την άποψη της σημασίας του μοντέλου, αυτός ο παράγοντας μπορεί να αφεθεί για μετέπειτα επαλήθευση της σημασίας του σε συνδυασμό με άλλα σύνολα παραγόντων. Η μη σημασία του συντελεστή παλινδρόμησης σύμφωνα με το τεστ t δεν είναι πάντα η βάση για τον αποκλεισμό της μεταβλητής από περαιτέρω ανάλυση. Επομένως, σε ορισμένες περιπτώσεις, είναι απαραίτητο να χρησιμοποιηθούν ορισμένες πρόσθετες εμπειρικές διαδικασίες για να αποκλειστεί μια μεταβλητή από την εξίσωση παλινδρόμησης μόνο εάν το τυπικό σφάλμα του συντελεστή παλινδρόμησης υπερβαίνει το απόλυτο μέγεθος του υπολογισμένου συντελεστή, όταν t παρατηρεί 1,5. 3. Κατασκευή πολυμεταβλητού μοντέλου παλινδρόμησης εισοδήματος για τσίρκο Ρωσική Ομοσπονδία. 3.1 Επιλογή παραγόντων για τη δημιουργία ενός πολυμεταβλητού μοντέλου παλινδρόμησης του εισοδήματος των τσίρκων στη Ρωσική Ομοσπονδία. Για τη δημιουργία ενός πολυμεταβλητού μοντέλου παλινδρόμησης για το εισόδημα των τσίρκων στη Ρωσική Ομοσπονδία, επιλέχθηκαν τσίρκο σε 34 πόλεις της Ρωσικής Ομοσπονδίας. Με βάση τα στατιστικά στοιχεία που παρέχονται από το Ρωσικό Κρατικό Τσίρκο και την Κρατική Στατιστική Επιτροπή της Ρωσικής Ομοσπονδίας, πραγματοποιήθηκε προκαταρκτική ανάλυση των αρχικών δεδομένων. Ως παράγοντες που χαρακτηρίζουν τις δραστηριότητες των τσίρκων θεωρήθηκαν τα εξής: ο πληθυσμός της πόλης, ο αριθμός των θέσεων στο τσίρκο, ο αριθμός των παραστάσεων, ο αριθμός των θεατών που επισκέφθηκαν το τσίρκο, τα έσοδα, τα έξοδα, τα κέρδη και η προσέλευση. Για τη λήψη ενός ομοιογενούς στατιστικού πληθυσμού, πραγματοποιήθηκε ανάλυση συστάδων, ως αποτέλεσμα της οποίας προέκυψαν συστάδες που έχουν επαρκή στατιστική ομοιογένεια για τη δημιουργία ενός πολυμεταβλητού μοντέλου παλινδρόμησης. Η ανάλυση συστάδων διεξήχθη σε 8 δείκτες, ωστόσο, για τη δημιουργία ενός πολυμεταβλητού μοντέλου παλινδρόμησης, δεν μπορούν να χρησιμοποιηθούν όλοι αυτοί οι δείκτες, καθώς το μέγεθος του δείγματος θα πρέπει να είναι σημαντικό περισσότερος αριθμόςπαράγοντες που περιλαμβάνονται στο μοντέλο παλινδρόμησης n>>k .

Παράγοντες όπως ο αριθμός των θεατών, ο αριθμός των θέσεων και ο αριθμός των παραστάσεων περιλαμβάνονται στον τύπο για τον υπολογισμό των αριθμητικών τιμών του συντελεστή προσέλευσης, τύπος (3.1):

Αριθμός θεατών* 100% = % επίσκεψη. (3.1)

Αριθμός θέσεων * αριθμός παραστάσεων

Αυτός ο τύπος χρησιμοποιείται για τον υπολογισμό της συμμετοχής στη λογιστική του Ρωσικού Κρατικού Τσίρκου. Ως εκ τούτου, δεν είναι σκόπιμο να συμπεριληφθεί ο παράγοντας αριθμός θεατών και αριθμός παραστάσεων στο μοντέλο παλινδρόμησης, καθώς υπάρχει κίνδυνος πολυσυγγραμμικότητας και, κατά συνέπεια, στατιστικής αναξιοπιστίας του μοντέλου. Αποφασίστηκε να συμπεριληφθεί ο παράγοντας αριθμός θέσεων στο μοντέλο για οικονομικούς λόγους. Η κατασκευή της εξίσωσης παλινδρόμησης περιλαμβάνει τη λύση δύο κύριων προβλημάτων. Η πρώτη εργασία είναι να επιλέξετε ανεξάρτητες μεταβλητές, στο παράδειγμά μας, έξοδα, αριθμό θέσεων, συμμετοχή, που έχουν σημαντικό αντίκτυπο στην εξαρτημένη μεταβλητή (εισόδημα), καθώς και να καθορίσετε τον τύπο της εξίσωσης παλινδρόμησης. Η δεύτερη εργασία κατασκευής μιας εξίσωσης παλινδρόμησης είναι η εκτίμηση των παραμέτρων της εξίσωσης. Επιλύεται με τη βοήθεια μιας ή άλλης μαθηματικής-στατιστικής μεθόδου επεξεργασίας δεδομένων. Για την ανάλυση των στατιστικών δεδομένων χρησιμοποιήθηκε το πακέτο εφαρμοσμένων προγραμμάτων Statistics 5.0 - PPP “Statistica”. Οι μεταβλητές που θα χρησιμοποιηθούν στην πολυμεταβλητή στατιστική ανάλυση έχουν διαφορετικές μονάδες. Επομένως, πριν από τη διεξαγωγή Στατιστική ανάλυσητα δεδομένα τυποποιήθηκαν, δηλαδή περιορίστηκαν σε μια ενιαία κλίμακα μετρήσεων. Στο πακέτο εφαρμογής Statistics 5.0, η εντολή Standardize Rows Columns σάς επιτρέπει να τυποποιήσετε τις τιμές σε κάθε γραμμή ενός επιλεγμένου μπλοκ. Οι τιμές των μεταβλητών στο μπλοκ αλλάζουν σε τυποποιημένες, οι οποίες υπολογίζονται χρησιμοποιώντας τον ακόλουθο τύπο (3.2): νέα τιμή = (παλιά τιμή - μέσος όρος στην επιλεγμένη γραμμή) / τυπική απόκλιση, t = ΧΧ. (3.2) s Περαιτέρω, για να ληφθούν ομοιογενή στατιστικά μεγέθη, πραγματοποιήθηκε ανάλυση συστάδων. Η ανάλυση συστάδων είναι συνηθισμένο όνομαένα σύνολο υπολογιστικών διαδικασιών που χρησιμοποιούνται για τη δημιουργία μιας ταξινόμησης. Είναι μια πολυμεταβλητή στατιστική διαδικασία που συλλέγει δεδομένα που περιέχουν πληροφορίες για ένα δείγμα αντικειμένων και στη συνέχεια τακτοποιεί τα αντικείμενα σε σχετικά ομοιογενείς ομάδες. Διάφορες αποστάσεις λήφθηκαν ως η απόσταση μεταξύ των αντικειμένων, η συνήθης Ευκλείδεια απόσταση, η σταθμισμένη Ευκλείδεια απόσταση. Όταν συνδυάστηκαν σε ομάδες στην ανάλυση συστάδων, εξετάστηκαν τα δενδογράμματα (Παράρτημα Αρ. 4.), τα οποία έγιναν με δύο ιεραρχικές μεθόδους: τη μέθοδο μακρινός γείτονας(Complete Linkage) και η μέθοδος του Ward. ΓΡΑΦΙΚΗ ΑΝΑΠΑΡΑΣΤΑΣΗΤα αποτελέσματα της ανάλυσης συστάδων θα πραγματοποιηθούν με τη βοήθεια της ΣΔΙΤ «Statistica». Η ανάλυση συστάδων πραγματοποιείται σε ένα από τα στατιστικά πακέτα λογισμικού που συζητήθηκαν παραπάνω. Όλα τα δενδογράμματα παρουσιάζονται στο Παράρτημα Νο. 4. Έτσι, χρησιμοποιώντας αρκετούς αλγόριθμους ανάλυσης συστάδων, θα προτιμήσουμε τον διαχωρισμό σε δύο συστάδες χρησιμοποιώντας τη μέθοδο Ward. Στη μέθοδο "Ward" σε αυτό ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑθα εφαρμοστεί η σταθμισμένη Ευκλείδεια απόσταση. Στο σχ. Το 3.1 δείχνει ένα δενδόγραμμα ταξινόμησης πόλεων με βάση τη σταθμισμένη Ευκλείδεια απόσταση και την αρχή του Ward.

Ρύζι. 3.1. Δενδόγραμμα. Ταξινόμηση πόλεων με βάση τη σταθμισμένη Ευκλείδεια απόσταση και την αρχή του Ward.

Η ταξινόμηση πραγματοποιήθηκε σύμφωνα με διάφορους αλγόριθμους ανάλυσης συστάδων, αλλά τα καλύτερα από άποψη περιεχομένου ήταν τα αποτελέσματα που προέκυψαν με τη μέθοδο Ward όταν χωρίστηκαν σε δύο ομάδες, η πρώτη: αποτελείται από 18 πόλεις και η δεύτερη: από 16 πόλεις. Έτσι, ελήφθησαν δύο στατιστικά ομοιογενείς ομάδες. Στο παράδειγμά μας, θα πρέπει να εστιάσουμε στη χρήση αυτής της συγκεκριμένης μεθόδου ως την καλύτερη επιλογή ταξινόμησης. Τα αποτελέσματα της ανάλυσης συστάδων παρουσιάζονται στον Πίνακα 3.1. Πίνακας Νο. 3.1. Πόλεις που περιλαμβάνονται στην πρώτη και τη δεύτερη συστάδα.

Αρ. p / p 1 σύμπλεγμα Αρ. p / p 2 συστάδα
1 Βλαδιβοστόκ 1 Αστραχάν
2 Βόλγκογκραντ 2 Μπριάνσκ
3

Voronezh

3

Ιβάνοβο

4 Ιρκούτσκ 4 Κεμέροβο
5 Κρασνοντάρ 5 ο Κίροφ
6 Κρασνογιάρσκ 6 Κισλοβόντσκ
7 Tver 7 Κοστρομά
8 Αικατερινούπολη 8 Κουρσκ
9

Σαμαρά

9 Σότσι
10 Νοβοσιμπίρσκ 10 Magnitogorsk
11 Ομσκ 11 Νίζνι Ταγκίλ
12 Πέρμιος 12 Novokuznetsk
13 Ροστόφ Ντον 13 Όρενμπουργκ
14 Ριαζάν 14 Πένζα
15 Σαράτοφ 15 Σταυρούπολη
16 Τούλα 16 Τιουμέν
17 Τσελιάμπινσκ
18 Γιαροσλάβ
3.2. Δημιουργία ενός πολυδιάστατου μοντέλου παλινδρόμησης. Η χρήση της ανάλυσης συστάδων κατέστησε δυνατή την παρουσίαση στατιστικών δεδομένων με τη μορφή δύο στατιστικών ομοιογενείς ομάδες, για να γίνει κατανοητό, είναι σκόπιμο να δημιουργηθεί ένα μοντέλο παλινδρόμησης για το cluster No.
    y - εισόδημα? х1 – αριθμός θέσεων. x2 - κατανάλωση; x3 - επίσκεψη.
Τα αρχικά στατιστικά δεδομένα για την ανάλυση παρουσιάζονται στο Παράρτημα Αρ. 5. Η ανάλυση του πίνακα των ζευγαρωμένων συντελεστών συσχέτισης κατέστησε δυνατή την εκτίμηση της εγγύτητας της σχέσης μεταξύ των παραγόντων που περιλαμβάνονται στο μοντέλο, καθώς και την αξιολόγηση της πιθανότητας πολυσυγγραμμικότητας. Η παρουσία πολυσυγγραμμικότητας σε αυτό το μοντέλο δεν βρέθηκε. Με βάση τα αποτελέσματα της ανάλυσης του πίνακα των ζευγαρωμένων συντελεστών συσχέτισης, συνήχθη το συμπέρασμα ότι χρησιμοποιούνται παράγοντες όπως: αριθμός θέσεων, κατανάλωση, προσέλευση. Ως αποτελεσματικό σημάδι - εισόδημα. Ο Πίνακας Νο. 3.2 παρουσιάζει τα αποτελέσματα της οικοδόμησης ενός μοντέλου παλινδρόμησης του εισοδήματος για το σύμπλεγμα Νο. 1, ανάλογα με τους παράγοντες: τον αριθμό των θέσεων, τα έξοδα, τη συμμετοχή και τα έσοδα. Πίνακας Νο. 3.2. Στατιστική εκτίμηση των παραμέτρων του πολυμεταβλητού μοντέλου παλινδρόμησης εισοδημάτων από τσίρκο για το σύμπλεγμα Νο. 1.
F(3,14)=32,512p<,00000 Std.Error of estimate: ,40801 RІ= ,87447834
Αναχαιτίζω
ΑΡΙΘΜΟΣ ΘΕΣΕΩΝ
ΕΞΟΔΑ
ΕΠΙΣΚΕΨΗ
Durbin-Watson d=2,1974158
Η εφαρμογή του πακέτου εφαρμογής Statistics 5.0 - PPP "Statistica" κατέστησε δυνατή τη δημιουργία ενός μοντέλου παλινδρόμησης εισοδήματος για το σύμπλεγμα Νο. 1: Y = +0,04547-0,04079*X1+0,99053*X2+0,07429*X3. (3.3) Η στατιστική αξιοπιστία του μοντέλου αξιολογήθηκε χρησιμοποιώντας τις ακόλουθες παραμέτρους επάρκειας (πίνακας αρ. 3.2): ο πολλαπλός συντελεστής προσδιορισμού R 2 = 0,87447, που δείχνει ότι το 87,4% της διακύμανσης του εισοδήματος συνδυάζεται με τους δείκτες που περιλαμβάνονται στο μοντέλο (Χ1, Χ2, Χ3), σχετικό σφάλμα προσέγγισης δ = 0,40801, υπολογισμένη τιμή F - κριτήριο Fobs = 32,512. Η εξίσωση παλινδρόμησης είναι σημαντική, αφού F obl = 32,512 > F cr = 3,11, που βρέθηκε από τον πίνακα F - κατανομή σε επίπεδο σημαντικότητας α = 0,05 και βαθμούς ελευθερίας ν 1 =4 και ν 1 =14. Για να ελέγξετε την υπόθεση σχετικά με τη σημασία των επιμέρους συντελεστών παλινδρόμησης H0: θ j = 0, όπου j = 1,2,3, συγκρίνετε την κρίσιμη τιμή tcr =2,145 σε α = 0,05 και τον αριθμό των βαθμών ελευθερίας και ν 1 =14 . Από την εξίσωση προκύπτει ότι μόνο ένας συντελεστής παλινδρόμησης t 2  είναι στατιστικά σημαντικός, αφού η υπολογιζόμενη τιμή t 2  = 8,69883 > tcr = 2,145. Οι υπολογισμένες τιμές t j  για τους υπόλοιπους συντελεστές παλινδρόμησης είναι μικρότερες από tcr =2,145 στο α = 0,05 και ο αριθμός των βαθμών ελευθερίας ν 1 =14. Για να λάβουμε μια παλινδρόμηση με σημαντικούς συντελεστές, χρησιμοποιούμε αλγόριθμος βήμα προς βήμαανάλυση παλινδρόμησης. Αρχικά, χρησιμοποιούμε έναν αλγόριθμο βήμα προς βήμα με την εξάλειψη των μεταβλητών. Ας εξαιρέσουμε από το μοντέλο τη μεταβλητή X1 - τον αριθμό των θέσεων, που αντιστοιχεί στην ελάχιστη απόλυτη τιμή του συντελεστή t 1  = 0,34465. Για τις υπόλοιπες μεταβλητές, θα κατασκευάσουμε ξανά την εξίσωση παλινδρόμησης: Y = +0,03001+0,97113*X2+0,08843*X3. (3.4) Ο Πίνακας Νο. 3.3 παρουσιάζει τα αποτελέσματα της οικοδόμησης ενός μοντέλου παλινδρόμησης του εισοδήματος για το σύμπλεγμα Νο. 1 ανάλογα με τους παράγοντες: έξοδα, συμμετοχή και έσοδα. Πίνακας Νο. 3.3. Στατιστική εκτίμηση των παραμέτρων του πολυμεταβλητού μοντέλου παλινδρόμησης εισοδημάτων από τσίρκο για το σύμπλεγμα Νο. 1.
R= .93456584 RI= .87341332 Προσαρμοσμένο RI= .85653509

F(2,15)=51,748p<,00000 Std.Error of estimate: ,39585

Αναχαιτίζω
ΕΞΟΔΑ
ΕΠΙΣΚΕΨΗ

Durbin-Watson d=2,1400127

Η εξίσωση που προκύπτει είναι σημαντική, αφού F obl = 51,748 > F cr = 3,29 σε επίπεδο σημαντικότητας α = 0,05 και οι αριθμοί βαθμών ελευθερίας ν 1 =3 και ν 1 =15, που βρέθηκαν από τον πίνακα κατανομής F. Ωστόσο, μόνο ένας συντελεστής παλινδρόμησης είναι σημαντικός στην εξίσωση t 2  = 10,11286 σε tcr (0,05;15)=1,753. Η υπολογισμένη τιμή t 3  \u003d 0,95991 είναι μικρότερη από tcr (0,05; 15) \u003d 1,753, που βρέθηκε από τον πίνακα των κατανομών t - στο tcr \u003d 2,145 με α \u003d 0,05 και ν αριθμό μοιρών 1 \u003d 15. Ας εξαιρέσουμε από το μοντέλο τη μεταβλητή X3 - visit, η οποία αντιστοιχεί στην ελάχιστη απόλυτη τιμή του συντελεστή t 3  = 0,95991. Για τις υπόλοιπες μεταβλητές, θα κατασκευάσουμε ξανά την εξίσωση παλινδρόμησης:

Κατά κανόνα, σε γραμμικής παλινδρόμησηςαξιολογείται συνήθως η σημασία όχι μόνο της εξίσωσης στο σύνολό της, αλλά και των επιμέρους παραμέτρων της. Οι δείκτες συσχέτισης που υπολογίζονται για έναν περιορισμένο πληθυσμό (για δείγμα) είναι μόνο εκτιμήσεις του ενός ή του άλλου στατιστικού προτύπου, καθώς οποιαδήποτε παράμετρος διατηρεί ένα στοιχείο ατελώς σβησμένη τυχαιότητα που ενυπάρχει ατομικές αξίεςσημάδια. Επομένως, είναι απαραίτητη μια στατιστική εκτίμηση του βαθμού ακρίβειας και αξιοπιστίας των παραμέτρων συσχέτισης. Η αξιοπιστία εδώ νοείται ως η πιθανότητα η τιμή της ελεγμένης παραμέτρου να μην είναι ίση με μηδέν, να μην περιλαμβάνει τιμές αντίθετων σημείων.

Η πιθανολογική εκτίμηση των παραμέτρων συσχέτισης γίνεται σύμφωνα με γενικοί κανόνεςεπιταγές στατιστικές υποθέσεις, αναπτύχθηκε μαθηματικές στατιστικές, ιδίως συγκρίνοντας την εκτιμώμενη αξία με τον μέσο όρο τυχαίο λάθοςυπολογίζει. Για το συντελεστή παλινδρόμησης ζεύγους σιΤο μέσο σφάλμα εκτίμησης υπολογίζεται ως εξής:

όπου D στάσηυπολειμματική διασποράένας βαθμός ελευθερίας.

Για το παράδειγμά μας, η τιμή του τυπικού σφάλματος του συντελεστή παλινδρόμησης ήταν:

.

Για να εκτιμηθεί πόσο ακριβείς μπορεί να διαφέρουν οι τιμές των δεικτών από τις υπολογιζόμενες, πραγματοποιείται η κατασκευή διαστημάτων εμπιστοσύνης. Καθορίζουν τα όρια εντός των οποίων βρίσκονται οι ακριβείς τιμές των δεικτών που προσδιορίζονται με δεδομένο βαθμό ακρίβειας που αντιστοιχεί σε ένα δεδομένο επίπεδο σημασίας. α (α - η πιθανότητα απόρριψης της σωστής υπόθεσης, υπό την προϋπόθεση ότι είναι αληθής, συνήθως λαμβάνεται ίση με 0,05 ή 0,01 ).

Για ποσοστό στατιστική σημασίασυντελεστής γραμμικής παλινδρόμησης και γραμμικός συντελεστήςσυσχέτιση ζεύγους, καθώς και για τον υπολογισμό των διαστημάτων εμπιστοσύνης σι,εφαρμοσμένος t - Κριτήριο μαθητή.

Για να εκτιμηθεί η σημασία του συντελεστή παλινδρόμησης, η τιμή του συγκρίνεται με το τυπικό σφάλμα του, δηλ. προσδιορίζεται η πραγματική τιμή του Student's t-test: , η οποία στη συνέχεια συγκρίνεται με την τιμή του πίνακα σε ένα ορισμένο επίπεδο σημασίας ένακαι ο αριθμός των βαθμών ελευθερίας ( n- 2).

Σε αυτό το παράδειγμα, η πραγματική τιμή του τεστ t για τον συντελεστή παλινδρόμησης ήταν:

.

Παίρνουμε το ίδιο αποτέλεσμα με εξαγωγή Τετραγωνική ρίζααπό το ευρεθέν κριτήριο F, δηλ.

Πράγματι, η ισότητα είναι αληθινή.

Στο (για ένα κριτήριο δύο όψεων) και ο αριθμός των βαθμών ελευθερίας είναι 13 αξία πίνακα t b = 2.16. Εφόσον η πραγματική τιμή του τεστ t υπερβαίνει την τιμή του πίνακα, επομένως, η υπόθεση ότι ο συντελεστής παλινδρόμησης είναι ασήμαντος μπορεί να απορριφθεί.

Υπολογισμός διαστημάτων εμπιστοσύνης για παραμέτρους ένακαι σιγραμμικές εξισώσεις παλινδρόμησης ορίζουν οριακό σφάλμα για κάθε δείκτη:

∆ a = t καρτέλα m a , ∆ b = t καρτέλα m b .

Οι τύποι για τον υπολογισμό των διαστημάτων εμπιστοσύνης είναι:

γ a = a ± ∆ a γ amin = a - ∆ a γ amin = a + ∆ a

γ b = b ± ∆ b γ bmin = b - ∆ b γ bmin = b + ∆ β

Αν τα όρια του διαστήματος είναι διαφορετικά σημάδια, δηλ. Το μηδέν εμπίπτει σε αυτά τα όρια, τότε η εκτιμώμενη παράμετρος λαμβάνεται ως μηδέν.

Το διάστημα εμπιστοσύνης για τον συντελεστή παλινδρόμησης ορίζεται ως . Για τον συντελεστή παλινδρόμησης σιστο παράδειγμα, τα όρια του 95% θα είναι:

0,022 ± 2,16 0,0026 = 0,022 ± 0,0057, δηλ.

0,016 ≤ b ≤ 0,027.

Δεδομένου ότι ο συντελεστής παλινδρόμησης στις οικονομετρικές μελέτες έχει σαφή οικονομική ερμηνεία, τα όρια εμπιστοσύνης του διαστήματος για τον συντελεστή παλινδρόμησης δεν πρέπει να περιέχουν αντιφατικά αποτελέσματα, για παράδειγμα, -10 ≤ b ≤ 40. Αυτό το είδος καταγραφής το δείχνει πραγματική αξίαο συντελεστής παλινδρόμησης περιέχει ταυτόχρονα θετικά και αρνητικές τιμέςκαι ακόμη και μηδέν, που δεν μπορεί να είναι.

Τυπικό σφάλμα παραμέτρου ένακαθορίζεται από τον τύπο:

Η διαδικασία για την αξιολόγηση της σημασίας αυτής της παραμέτρου δεν διαφέρει από αυτή που εξετάστηκε παραπάνω για τον συντελεστή παλινδρόμησης. Το κριτήριο t υπολογίζεται: , η τιμή του συγκρίνεται με την τιμή του πίνακα όταν df= n- 2 βαθμοί ελευθερίας. Στο παράδειγμά μας μ αανήλθε σε 0,032.

Η σημασία του συντελεστή γραμμικής συσχέτισης ελέγχεται με βάση το μέγεθος του σφάλματος του συντελεστή συσχέτισης κύριος:

Η πραγματική τιμή του Student's t-test ορίζεται ως

Αυτός ο τύπος δείχνει ότι στη ζευγαρωμένη γραμμική παλινδρόμηση, επειδή, όπως ήδη αναφέρθηκε, Επιπλέον, λοιπόν,

Έτσι, ο έλεγχος των υποθέσεων σχετικά με τη σημασία των συντελεστών παλινδρόμησης και συσχέτισης είναι ισοδύναμος με τον έλεγχο της υπόθεσης σχετικά με τη σημασία γραμμική εξίσωσηοπισθοδρόμηση.

Σε αυτό το παράδειγμα t r ταιριάζουν tb. αξία t r =8,37υπερβαίνει σημαντικά την τιμή του πίνακα 2,16 στο a=0,05.Επομένως, ο συντελεστής συσχέτισης είναι σημαντικά διαφορετικός από το μηδέν και η εξάρτηση είναι σημαντική.

Η πρόβλεψη που προκύπτει αντικαθιστώντας την αναμενόμενη τιμή του παράγοντα στην εξίσωση παλινδρόμησης ονομάζεται πρόβλεψη σημείων.Η πιθανότητα ακριβούς υλοποίησης μιας τέτοιας πρόβλεψης είναι εξαιρετικά μικρή. Πρέπει να συνοδεύεται από μια τιμή μέσο σφάλμαπρόβλεψη ή διάστημα εμπιστοσύνης πρόβλεψηςμε αρκετά μεγάλη πιθανότητα.



Η πρόβλεψη σημείων συνίσταται στη λήψη της τιμής πρόβλεψης y p, η οποία προσδιορίζεται με αντικατάσταση στην εξίσωση παλινδρόμησης

αντίστοιχη προβλεπόμενη τιμή xp:

y p = a + b x p .

Η πρόβλεψη διαστήματος συνίσταται στην κατασκευή ενός διαστήματος εμπιστοσύνης της πρόβλεψης, δηλ. άνω και κάτω σύνορα ypmin , ypmaxδιάστημα που περιέχει την ακριβή τιμή για την προβλεπόμενη τιμή
(ypmin< y p < y pmax ) . Το διάστημα εμπιστοσύνης προσδιορίζεται πάντα με μια δεδομένη πιθανότητα που αντιστοιχεί στην αποδεκτή τιμή του επιπέδου σημαντικότητας α.

Προυπολογισμένο τυπικό σφάλμαπρόβλεψη .

Και τότε οικοδομείται το διάστημα εμπιστοσύνης της πρόβλεψης, δηλ. καθορίζονται τα κάτω και τα ανώτερα όρια του διαστήματος πρόβλεψης

, ,

όπου .

Ας υποθέσουμε ότι, στο παράδειγμά μας, είναι απαραίτητο να βρεθεί η προγνωστική αξία του αποτελέσματος, με την προϋπόθεση ότι η προγνωστική τιμή του παράγοντα Χθα αυξηθεί κατά 15% από το μέσο επίπεδό της και προσδιορίστε το διάστημα εμπιστοσύνης της πρόβλεψης.

Αύξηση της προβλεπόμενης τιμής του παράγοντα Χθα δώσει την αξία

Αντικαθιστώντας το στον τύπο, βρίσκουμε

,

προγνωστική αξία του αποτελέσματος υπό μια δεδομένη συνθήκη

y p = a+b∙x p = 6,63+0,022∙149,99 = 9,95.

Οτι. το διάστημα εμπιστοσύνης της πρόβλεψης θα είναι

9,73 < y p <10,18.

Πότε μη γραμμική παλινδρόμησηδιενεργείται η αξιολόγηση της σημαντικότητας του δείκτη συσχέτισης, καθώς και η αξιολόγηση της αξιοπιστίας του συντελεστή συσχέτισης. Ο δείκτης προσδιορισμού χρησιμοποιείται για τον έλεγχο της σημασίας της εξίσωσης μη γραμμικής παλινδρόμησης γενικά σύμφωνα με το κριτήριο F του Fisher:

όπου R2– δείκτης προσδιορισμού·

nείναι ο αριθμός των παρατηρήσεων.

Μείναι ο αριθμός των παραμέτρων για τις μεταβλητές Χ.

αξία Μχαρακτηρίζει τον αριθμό των βαθμών ελευθερίας για το παραγοντικό άθροισμα των τετραγώνων, και ( n-m- 1) είναι ο αριθμός των βαθμών ελευθερίας για το υπολειπόμενο άθροισμα των τετραγώνων.

Για τη λειτουργία ισχύος και φόρμουλα ΣΤ - κριτήριαθα πάρει την ίδια μορφή με μια γραμμική εξάρτηση:

Για παραβολή δεύτερου βαθμού y=a + b x + c x 2 + ε m=2και .

Για την αξιολόγηση της ποιότητας του κατασκευασμένου μοντέλου, χρησιμοποιούμε επίσης μέσο σφάλμα προσέγγισης. Οι πραγματικές τιμές του προκύπτοντος χαρακτηριστικού διαφέρουν από τις θεωρητικές τιμές που υπολογίζονται από την εξίσωση παλινδρόμησης, δηλ. στο και . Όσο μικρότερη είναι αυτή η διαφορά, τόσο πιο κοντά ταιριάζουν οι θεωρητικές τιμές στα εμπειρικά δεδομένα και τόσο καλύτερη είναι η ποιότητα του μοντέλου. Το μέγεθος των αποκλίσεων των πραγματικών και των υπολογισμένων τιμών του ενεργού χαρακτηριστικού ( στο- ) για κάθε παρατήρηση είναι το σφάλμα προσέγγισης. Ο αριθμός τους αντιστοιχεί στον όγκο του πληθυσμού. Σε ορισμένες περιπτώσεις, το σφάλμα προσέγγισης μπορεί να είναι μηδέν. Για σύγκριση, λαμβάνονται οι αποκλίσεις, εκφρασμένες ως ποσοστό των πραγματικών τιμών. Έτσι, αν για την πρώτη παρατήρηση y=20, και για το δεύτερο y=50, το σφάλμα προσέγγισης θα είναι 25% για την πρώτη παρατήρηση και 20% για τη δεύτερη.

Επειδή η ( στο- ) μπορεί να είναι και θετικό και αρνητικό, τότε συνηθίζεται να προσδιορίζονται τα σφάλματα προσέγγισης για κάθε παρατήρηση ως ποσοστιαία συντελεστής.

Για να έχουμε μια γενική κρίση για την ποιότητα του μοντέλου από τις σχετικές αποκλίσεις για κάθε παρατήρηση, το μέσο σφάλμα προσέγγισης ορίζεται ως ο απλός αριθμητικός μέσος όρος:

.

Για το παράδειγμά μας, παρουσιάζουμε τον υπολογισμό του μέσου σφάλματος προσέγγισης στον Πίνακα 4.

2.4. Έλεγχος της επάρκειας του μοντέλου παλινδρόμησης

2.4.1. Συντελεστής προσδιορισμού

Στην κλασική ανάλυση παλινδρόμησης, θεωρείται ότι η συνάρτηση παλινδρόμησης είναι γνωστή (καθορισμένη) μέχρι παραμέτρους, δηλαδή ορίζεται το σύνολο των παλινδρομητών (ανεξάρτητες μεταβλητές). Σε εμπειρικές μελέτες οικονομικών και κοινωνικών διαδικασιών, είναι απαραίτητο να επιλεγεί το πιο κατάλληλο μοντέλο (συνάρτηση παλινδρόμησης) από τις πολλές πιθανές παραλλαγές των εξισώσεων παλινδρόμησης που διαφέρουν στο σύνολο των παλινδρομικών. Ένα τέτοιο μοντέλο εξηγεί καλύτερα τη συμπεριφορά της πραγματικής διαδικασίας. Για την αξιολόγηση της ποιότητας ενός μοντέλου γραμμικής παλινδρόμησης στην κλασική ανάλυση παλινδρόμησης, χρησιμοποιείται ένας δείκτης που ονομάζεται συντελεστή προσδιορισμούR2(ανάγνωση R- τετράγωνο). Ο συντελεστής προσδιορισμού παίζει σημαντικό ρόλο στην ανάλυση παλινδρόμησης. Ακολουθούν τρεις ισοδύναμοι ορισμοί αυτού του δείκτη, οι οποίοι διαφέρουν ως προς τη μορφή καταγραφής και τον τρόπο ερμηνείας.

Ας αναπαραστήσουμε την απόκλιση της εξαρτημένης μεταβλητής από τη μέση τιμή του δείγματος ως

Εξετάστε τον τελευταίο όρο στη δεξιά πλευρά αυτής της έκφρασης. Εχουμε:

το καταλαβαίνουμε

Το άθροισμα στην αριστερή πλευρά αυτής της έκφρασης ονομάζεται πλήρες άθροισμα τετραγώνων, το πρώτο άθροισμα στη δεξιά πλευρά του () ονομάζεται το άθροισμα των τετραγώνων που εξηγείται από το μοντέλο, ονομάζεται το δεύτερο άθροισμα της δεξιάς πλευράς υπολειπόμενο άθροισμα τετραγώνων. Επιπλέον, χρησιμοποιώντας την έκφραση (), μπορούμε να γράψουμε

Εδώ χρησιμοποιήσαμε τις ακόλουθες αναλογίες:

(αυτό προκύπτει από την πρώτη εξίσωση του συστήματος των κανονικών εξισώσεων (2.11 ), (2.12 ), (εδώ χρησιμοποιείται η ιδιότητα (2,20) των υπολειμμάτων). Από το () προκύπτει ότι η συνολική διακύμανση της μεταβλητής y μπορεί να αποσυντεθεί σε δύο συνιστώσες: - αυτό είναι το μέρος της συνολικής διακύμανσης που εξηγείται από την παλινδρόμηση και - το ανεξήγητο μέρος της συνολικής διακύμανσης, που οφείλεται στην τυχαία συστατικό του μοντέλου. Οι επεκτάσεις () και () χρησιμοποιούνται για τον προσδιορισμό του συντελεστή προσδιορισμού.

Η πρώτη παράσταση του συντελεστή προσδιορισμού

Ας ορίσουμε τον συντελεστή προσδιορισμού με την ακόλουθη σχέση

Ο παρονομαστής είναι συνολικό άθροισμα τετραγώνων, θα χρησιμοποιήσουμε τη συντομογραφία TSS για να το δηλώσουμε, έτσι ώστε

Κατά την κατασκευή ενός μοντέλου ζευγαρωμένης γραμμικής παλινδρόμησης, θα πρέπει να διασφαλιστεί ότι η τιμή του συντελεστή προσδιορισμού είναι όσο το δυνατόν πιο κοντά στο ένα. Για να το υπολογίσετε, είναι ευκολότερο και πιο βολικό να χρησιμοποιήσετε τον τύπο ().

Παράδειγμα 2.4.

Υπολογισμός του συντελεστή προσδιορισμού για το μοντέλο του παραδείγματος 2.1. Οι υπολογισμοί που χρησιμοποιούν τον τύπο () δίνουν την ακόλουθη τιμή του συντελεστή προσδιορισμού για το μοντέλο του παραδείγματος 2.1: R2 = 0,9965. Έτσι, ο συντελεστής προσδιορισμού είναι κοντά στη μονάδα, γεγονός που υποδηλώνει καλή ποιότητα προσέγγισης των παρατηρούμενων δεδομένων από το κατασκευασμένο μοντέλο.

Παράδειγμα 2.5.

Υπολογισμός των συντελεστών προσδιορισμού για τα μοντέλα κύκλου εργασιών κλάδων του παραδείγματος 2.2. Για την πρώτη παλινδρόμηση του παραδείγματος 2.2., η οποία περιγράφει την εξάρτηση του κύκλου εργασιών από την περιοχή πώλησης, ο συντελεστής προσδιορισμού R 1 2 \u003d 0,96886. Για τη δεύτερη παλινδρόμηση που περιγράφει την εξάρτηση του κύκλου εργασιών από τη μέση ημερήσια ένταση της ροής των αγοραστών R 2 2 \u003d 0,42433.

Έτσι, οι ληφθέντες αντικειμενικοί δείκτες της ποιότητας των μοντέλων παλινδρόμησης - οι συντελεστές προσδιορισμού, επιβεβαιώνουν την υπόθεση που έγινε νωρίτερα (βλ. παράδειγμα 2.2) ότι η πρώτη παλινδρόμηση εξηγεί καλύτερα τη συμπεριφορά της εξαρτημένης μεταβλητής.

2.4.2. Δημιουργία διαστημάτων εμπιστοσύνης για συντελεστές παλινδρόμησης

Εξεταζόμενος στην προηγούμενη ενότητα, ο δείκτης επάρκειας - ο συντελεστής προσδιορισμού χρησιμοποιείται για την αξιολόγηση της ποιότητας των μοντέλων παλινδρόμησης γενικά, κατά τη σύγκριση εναλλακτικών μοντέλων. Σε αυτήν την ενότητα, εξετάζονται διαδικασίες που επιτρέπουν σε κάποιον να συναγάγει ένα συμπέρασμα σχετικά με την ποιότητα των εκτιμήσεων των πραγματικών τιμών των επιμέρους παραμέτρων της εξίσωσης.

Εκτιμήσεις αποκλίσεων εκτιμήσεων συντελεστών ελαχίστων τετραγώνων

Ένα από τα σημαντικά χαρακτηριστικά της ποιότητας μιας εκτίμησης είναι η διακύμανσή της, ως μέτρο της απόκλισης από την αναμενόμενη τιμή. Οι εξισώσεις (2.22), (2.23) (ή (2.24 )) που ελήφθησαν νωρίτερα για τις διακυμάνσεις των εκτιμήσεων εξαρτώνται από την άγνωστη διακύμανση της τυχαίας συνιστώσας του μοντέλου παλινδρόμησης u. Για να χρησιμοποιηθούν αυτές οι εξισώσεις σε πρακτικούς υπολογισμούς, είναι απαραίτητο να προσδιοριστεί η εκτίμηση της ποσότητας. Αυτή είναι μια άλλη παράμετρος του μοντέλου. Μια αμερόληπτη εκτίμηση της διακύμανσης ενός τυχαίου όρου uείναι μια εκτίμηση της μορφής

Η έκφραση () χρησιμοποιείται για τον υπολογισμό των εκτιμήσεων των αποκλίσεων των εκτιμήσεων ένακαι σισυντελεστές παλινδρόμησης. Για να γίνει αυτό, στις εξισώσεις (2.22 ), (2.23 ), (2.24 ) η θεωρητική διακύμανση αντικαθίσταται από την εκτίμησή της (). Έτσι, οι εκτιμήσεις διασποράς έχουν τη μορφή

Προσδιορισμός διαστημάτων εμπιστοσύνης για εκτιμήσεις παραμέτρων μοντέλου

Οι εκτιμήσεις παραμέτρων και τα μοντέλα που προκύπτουν είναι σημειακά . Οι τύποι (2.13 ), (2.14 ) καθορίζουν εκτιμήσεις με τη μορφή τυχαίων αριθμών ανάλογα με ένα συγκεκριμένο δείγμα παρατηρήσεων. Αυτοί οι αριθμοί ενδέχεται σε ορισμένες περιπτώσεις να αποκλίνουν σημαντικά από τις πραγματικές τιμές των παραμέτρων. Από αυτή την άποψη, τίθεται το ερώτημα - είναι δυνατόν να προσδιοριστεί με επαρκή βαθμό αξιοπιστίας πόσο κοντά είναι οι ληφθείσες εκτιμήσεις στις πραγματικές τιμές των παραμέτρων, ή πιο συγκεκριμένα, να προσδιοριστούν τα διαστήματα εντός των οποίων οι πραγματικές τιμές των παραμέτρων μπορεί να βρίσκεται με δεδομένη πιθανότητα. Αποδεικνύεται ότι τέτοια διαστήματα μπορούν να κατασκευαστούν χρησιμοποιώντας το λεγόμενο t- τεστ. Για το χτίσιμο t-δοκιμές, είναι απαραίτητο να υποθέσουμε την κανονικότητα της τυχαίας συνιστώσας, δηλαδή t- η δοκιμή εφαρμόζεται εντός των παραδοχών κλασική κανονική γραμμική παλινδρόμηση. Με τη βοήθεια των t-test, είναι δυνατός ο έλεγχος υποθέσεων τόσο για μεμονωμένες αριθμητικές τιμές των συντελεστών παλινδρόμησης όσο και για τις τιμές των γραμμικών συνδυασμών τους. Το τελευταίο είναι ιδιαίτερα σημαντικό για την αξιολόγηση της επάρκειας των μοντέλων πολλαπλής γραμμικής παλινδρόμησης. t- οι δοκιμές σας επιτρέπουν επίσης να δημιουργήσετε διαστήματα εμπιστοσύνηςγια τους συντελεστές παλινδρόμησης και τις προγνωστικές τιμές της εξαρτημένης μεταβλητής.

t- οι δοκιμές βασίζονται στην ακόλουθη σημαντική δήλωση: τυχαίες μεταβλητές

υπακούτε στην κεντρική κατανομή του Student (t-κατανομή, εξ ου και το όνομα - t - tests) με (n-2) βαθμούς ελευθερίας.

Μια σημείωση για τους βαθμούς ελευθερίας.

Ο αριθμός των βαθμών ελευθερίας είναι ίσος με τον αριθμό των μεταβλητών παρατηρήσεων μείον τον αριθμό των εκτιμώμενων συντελεστών του μοντέλου. Υπάρχουν μόνο δύο τέτοιοι συντελεστές στο μοντέλο γραμμικής παλινδρόμησης κατά ζεύγη. Η αύξηση του αριθμού των συντελεστών σε ένα μοντέλο παλινδρόμησης με σταθερό μέγεθος δείγματος μειώνει αντίστοιχα τον αριθμό των βαθμών ελευθερίας.

Είναι προφανές ότι τα λάθη των σημειακών εκτιμήσεων των συντελεστών είναι ίσα με , αντίστοιχα. Αυτές είναι τυχαίες μεταβλητές επειδή οι ίδιες οι εκτιμήσεις είναι τυχαίες. Επομένως, η ακρίβεια των εκτιμήσεων (το λάθος τους) μπορεί να κριθεί μόνο με πιθανολογική έννοια. Ορίζουμε το πλάτος του διαστήματος σφάλματος (όχι μια τυχαία μεταβλητή) και ορίζουμε την αξιοπιστία της εκτίμησης ως την πιθανότητα με την οποία το σφάλμα της σημειακής εκτίμησης εμπίπτει σε αυτό το σταθερό διάστημα. Επίσημα, αυτό μπορεί να γραφτεί ως

όπου είναι η πιθανότητα το σφάλμα της σημειακής εκτίμησης να εμπίπτει στο δεδομένο διάστημα. Μπορούμε να πούμε ότι η πιθανότητα χαρακτηρίζει τον βαθμό εμπιστοσύνης σε ένα δεδομένο διάστημα, έτσι ονομάζεται επίπεδο αυτοπεποίθησηςή αξιοπιστία. Το μέγεθος - η πιθανότητα ότι το σφάλμα θα υπερβεί το δεδομένο διάστημα, ονομάζεται επίπεδο σημασίας.

Οι σχέσεις (), () μπορούν να ξαναγραφτούν στη φόρμα

Ερμηνεία των διαστημάτων εμπιστοσύνης.

Οι εκφράσεις (), () ερμηνεύονται ως εξής: η τιμή είναι η πιθανότητα ότι οι εκτιμώμενες μη τυχαίες παράμετροι και καλύπτονται, αντίστοιχα, από τα διαστήματα , με τυχαίες απολήξεις ανάλογα με τυχαίες μεταβλητές - εκτιμήσεις ένακαι σι.

Αυτά τα διαστήματα ονομάζονται διαστήματα εμπιστοσύνης. Ονομάζονται επίσης διαστήματα εμπιστοσύνης εκτιμήσεις διαστήματοςκαι συμπληρώνουν τις σημειακές εκτιμήσεις των παραμέτρων. Οι εκτιμήσεις διαστήματος παρέχουν πρόσθετες, πολύτιμες πληροφορίες σχετικά με την αξιοπιστία των σημειακών εκτιμήσεων και βελτιώνουν την αξιοπιστία των κρίσεων σχετικά με τις σημειακές εκτιμήσεις.

Προσδιορισμός διαστημάτων εμπιστοσύνης.

Τα διαστήματα εμπιστοσύνης προσδιορίζονται χρησιμοποιώντας t- Στατιστικά μαθητών της φόρμας (), (). Για στατιστικές t(έχοντας t-κατανομή), μπορείτε να προσδιορίσετε την τιμή (από τον πίνακα t-κριτήριο) που αντιστοιχεί σε ένα δεδομένο επίπεδο σημασίας και σε έναν δεδομένο αριθμό βαθμών ελευθερίας, (εδώ Π- ο αριθμός των βαθμών ελευθερίας, με δύο παραμέτρους p=2), έτσι ώστε

καλύψτε με πιθανότητα τις άγνωστες αληθινές τιμές των παραμέτρων παλινδρόμησης και . Η θέση και το πλάτος των διαστημάτων εμπιστοσύνης ποικίλλουν από δείγμα σε δείγμα. Πράγματι, η θέση και το πλάτος τους εξαρτώνται τόσο από τις εκτιμήσεις των συντελεστών, που είναι μεταβλητές (τυχαίες μεταβλητές), όσο και από τις τυχαίες τιμές των δειγματοληπτικών εκτιμήσεων των τυπικών αποκλίσεων ΑΝΩΝΥΜΗ ΕΤΑΙΡΙΑκαι sb. Κατά την κατασκευή μοντέλων οικονομετρικής παλινδρόμησης, τα διαστήματα εμπιστοσύνης καθορίζονται συνήθως για δύο επίπεδα σημαντικότητας - και . Κατά συνέπεια, μιλούν για Επίπεδο σημαντικότητας 5%.ή περίπου Επίπεδο σημαντικότητας 1%.. Οι πιθανότητες εμπιστοσύνης (επίπεδα εμπιστοσύνης) σε αυτή την περίπτωση θα είναι ίσες με και . Κατά συνέπεια, μιλούν για 95% ή περίπου 99% επίπεδο εμπιστοσύνης (αξιοπιστία). Τονίζουμε ότι όσο χαμηλότερο είναι το επίπεδο σημαντικότητας (τόσο μεγαλύτερο το επίπεδο εμπιστοσύνης), τόσο μεγαλύτερο είναι το αντίστοιχο διάστημα εμπιστοσύνης (ceteris paribus).

Μπορεί να ειπωθεί ότι σε επίπεδο εμπιστοσύνης 95%, το διάστημα εμπιστοσύνης, κατά μέσο όρο, καλύπτει την πραγματική τιμή της παραμέτρου σε 95 περιπτώσεις από τις 100 και στο 99% - σε 99 περιπτώσεις από τις εκατό.

Παράδειγμα 2.6.

Προσδιορισμός διαστημάτων εμπιστοσύνης για το παράδειγμα μοντέλου 2.1.Ας ορίσουμε τα όρια των διαστημάτων εμπιστοσύνης για τους συντελεστές του μοντέλου του παραδείγματος 2.1. Θα υποθέσουμε ότι ο παλινδρομικός Χδεν είναι τυχαία μεταβλητή. Στη συνέχεια, οι εκτιμήσεις των αποκλίσεων των υπολειμμάτων και των συντελεστών παλινδρόμησης υπολογίζονται με τους τύπους (), (), (). Είναι ίσοι αντίστοιχα: , , . Τιμή πίνακα t- τα στατιστικά στοιχεία για 13 βαθμούς ελευθερίας και το επίπεδο σημαντικότητας είναι 2.160. Χρησιμοποιώντας αυτά τα δεδομένα, είναι εύκολο να υπολογιστούν τα όρια των διαστημάτων εμπιστοσύνης για τους συντελεστές και : ; . Έτσι, μπορεί να υποστηριχθεί ότι οι πραγματικές τιμές των συντελεστών με πιθανότητα 0,95 είναι εντός των καθορισμένων ορίων.

Παράδειγμα 2.7.

Διαστήματα εμπιστοσύνης για μοντέλα του παραδείγματος 2.2.Όπως και στο προηγούμενο παράδειγμα, μπορείτε να ορίσετε τα όρια των διαστημάτων εμπιστοσύνης για τις δύο παλινδρομήσεις του παραδείγματος 2.2. κρίσιμη αξία t- στατιστικές σε επίπεδο σημαντικότητας 0,05 και p=12 - 2=10βαθμοί ελευθερίας είναι 2,228 . Οι εκτιμώμενες τυπικές αποκλίσεις των εκτιμήσεων των συντελεστών της πρώτης παλινδρόμησης είναι s a = 0,2887, s b = 0,2961. Διαστήματα εμπιστοσύνης για συντελεστές: , . Για τη δεύτερη παλινδρόμηση s a = 2,7334, s b = 0,2516. Διαστήματα εμπιστοσύνης: , .

Διαστήματα εμπιστοσύνης γραφήματος για μοντέλα των παραδειγμάτων 2.1, 2.2. στο επίπεδο της σημασίας.

2.4.3. Πρόβλεψη σημείου και διαστήματος της εξαρτημένης μεταβλητής

Ορίζουμε την πρόβλεψη της μέσης τιμής της εξαρτημένης μεταβλητής ως εκτίμηση της θεωρητικής σχέσης χρησιμοποιώντας την εμπειρική (εκτιμώμενη) συνάρτηση παλινδρόμησης

όπου Χ- κάποια τιμή της ανεξάρτητης μεταβλητής, σε γενικές γραμμές, δεν συμπίπτει με τις τιμές των μεταβλητών από το δείγμα, σύμφωνα με την οποία υπολογίζονται οι παράμετροι παλινδρόμησης. Από τις εκτιμήσεις ένακαι σιείναι τυχαίες μεταβλητές, τότε η πρόβλεψη θα είναι τυχαία μεταβλητή.

Σχόλιο. Πρόβλεψη της μέσης τιμής και πρόβλεψη της μεμονωμένης τιμής της εξαρτημένης μεταβλητής.

Είναι απαραίτητο να γίνει διάκριση μεταξύ της πρόβλεψης της μέσης τιμής της παλινδρόμησης και ως εκτίμησης της μαθηματικής προσδοκίας της, λαμβάνοντας υπόψη την υπόθεση M(u i) = 0(η πρώτη συνθήκη Gauss - Markov), και η πρόβλεψη ως εκτίμηση της πιθανής μεμονωμένης τιμής (υλοποίηση) y iπαλινδρόμηση y. Στην περίπτωση αυτή, η πρόβλεψη της τυχαίας συνιστώσας του μοντέλου θα έπρεπε να είχε προστεθεί στην εξίσωση (). Ως προγνωστική τιμή της τυχαίας συνιστώσας, λαμβάνεται η μαθηματική προσδοκία της, η οποία ισούται με μηδέν. Αυτή η διαφορά στην κατανόηση της έννοιας της πρόβλεψης είναι σημαντική, καθώς οι αντίστοιχες αποκλίσεις σφαλμάτων πρόβλεψης και τα διαστήματα εμπιστοσύνης θα είναι διαφορετικά.

Εξετάστε πρώτα την πρόβλεψη της μέσης εξαρτημένης μεταβλητής.

Προβλεπόμενη διακύμανση της μέσης εξαρτημένης μεταβλητής και η εκτίμησή της

Κατά την εξαγωγή εξισώσεων για τη διακύμανση και την εκτίμησή της, θα χρησιμοποιήσουμε τους κανόνες για τον μετασχηματισμό θεωρητικών παραλλαγών (διακυμάνσεων) και συνδιακυμάνσεων τυχαίων μεταβλητών. Αυτοί οι κανόνες είναι οι ίδιοι με τα αντίστοιχα χαρακτηριστικά του δείγματος, τα οποία καθορίστηκαν στην ενότητα 2.3.2. Για να γράψουμε τις θεωρητικές τιμές των παραλλαγών και των συνδιακυμάνσεων, θα χρησιμοποιήσουμε τον συμβολισμό var(,), cov(,).

Λαμβάνουμε μια έκφραση για τη διακύμανση πρόβλεψης. Εχουμε

Έτσι, επιτέλους έχουμε

Σημειώστε ότι στην έκφραση () η μεταβλητή Χείναι η τιμή της παλινδρόμησης (ανεξάρτητη μεταβλητή), για την οποία προσδιορίζεται η πρόβλεψη της μέσης τιμής της εξαρτημένης μεταβλητής (regressand). Εφόσον στο () η θεωρητική τιμή της διακύμανσης της τυχαίας συνιστώσας του μοντέλου είναι άγνωστη, για να λάβουμε μια εκτίμηση της προβλεπόμενης διακύμανσης, θα την αντικαταστήσουμε με μια εκτίμηση χρησιμοποιώντας τον τύπο (). Μετά παίρνουμε

Προσδιορισμός διαστημάτων εμπιστοσύνης για την πρόβλεψη του μέσου όρου της εξαρτημένης μεταβλητής

Ας προσδιορίσουμε το διάστημα εμπιστοσύνης για την πρόβλεψη () της εξαρτημένης μεταβλητής. Αυτό το διάστημα είναι πιθανό να καλύπτει τον μέσο όρο της εξαρτημένης μεταβλητής. Η κατασκευή ενός διαστήματος εμπιστοσύνης βασίζεται στη χρήση στατιστικών t της φόρμας

άνω όριο

Είναι προφανές ότι

Διάστημα εμπιστοσύνης για μεμονωμένες τιμές εξαρτώμενης μεταβλητής

Το διάστημα εμπιστοσύνης για μεμονωμένες τιμές κατασκευάζεται χρησιμοποιώντας t- προβολή στατιστικών στοιχείων

άνω όριο

πού είναι ο αριθμός των βαθμών ελευθερίας p=n-2.

Παράδειγμα 2.8. Όρια εμπιστοσύνης των προβλέψεων του μέσου όρου και των επιμέρους τιμών της εξαρτημένης μεταβλητής στο μοντέλο του παραδείγματος 2.1.

Ας προσδιορίσουμε την πρόβλεψη για την κερδοφορία των μετοχών της εταιρείας προς το παρόν t=3, δηλαδή για την αξία x \u003d x 3 \u003d 0,07και να κατασκευάσουν διαστήματα εμπιστοσύνης για τις προβλέψεις του μέσου όρου και των μεμονωμένων τιμών, υποθέτοντας ότι ο παλινδρομικός Χδεν είναι τυχαία μεταβλητή.

Χρησιμοποιώντας την εξίσωση παλινδρόμησης με εκτιμώμενους συντελεστές (βλ. παράδειγμα 1.1.), παίρνουμε

Για τον προσδιορισμό των διαστημάτων εμπιστοσύνης, είναι απαραίτητο να υπολογιστούν προκαταρκτικά οι εκτιμήσεις των προβλεπόμενων αποκλίσεων της μέσης και των επιμέρους τιμών της εξαρτημένης μεταβλητής. Χρησιμοποιώντας τους τύπους () και (), αντίστοιχα, παίρνουμε: , . Τα όρια για τη μέση τιμή είναι:

πιο χαμηλα

ανώτερος

Σχεδιάστε προβλέψεις διαστήματος των μέσων και μεμονωμένων τιμών της εξαρτημένης μεταβλητής για τις παλινδρομήσεις του Παραδείγματος 2.2.

2.4.4. Έλεγχος στατιστικών υποθέσεων σχετικά με συντελεστές παλινδρόμησης

T-test δύο ουρών
(το t είναι μια δοκιμή ενός ζεύγους υποθέσεων με δύο ουρές)

Εκτός από τον προσδιορισμό των διαστημάτων εμπιστοσύνης για τους συντελεστές, κατά τη δημιουργία μοντέλων παλινδρόμησης, είναι σημαντικό να ελέγχονται υποθέσεις σχετικά με ορισμένες συγκεκριμένες τιμές μεμονωμένων συντελεστών παλινδρόμησης. Ένα τέτοιο ερώτημα τίθεται, για παράδειγμα, εάν είναι απαραίτητο να ελεγχθεί εάν η επίδραση του παλινδρομητή (ανεξάρτητη μεταβλητή) στην παλινδρόμηση και (εξαρτημένη μεταβλητή) είναι στατιστικά σημαντική. Σε αυτή την περίπτωση, μπορούμε να διατυπώσουμε και να προσπαθήσουμε να ελέγξουμε δύο υποθέσεις:

μηδενική υπόθεση

Στη γενική περίπτωση, εάν, με βάση την ανάλυση του αντικειμένου μοντελοποίησης, είναι δυνατό να υποτεθεί (δηλαδή, ακόμη και πριν από τη διεξαγωγή παρατηρήσεων) (να εκφραστεί μια υπόθεση) ότι ο συντελεστής παλινδρόμησης είναι ίσος με μια ορισμένη τιμή, τότε να ελέγξουμε Αυτή η υπόθεση, οι υποθέσεις διατυπώνονται ως εξής:

Ο κανόνας απόφασης που βασίζεται σε στατιστικά στοιχεία () είναι ο εξής: η υπόθεση H 0 απορρίπτεται εάν

(ισοδύναμη σημειογραφία αυτής της συνθήκης).

Η υπόθεση H 0 γίνεται αποδεκτή εάν

(ισοδύναμη σημειογραφία).

Το εύρος τιμών της στατιστικής t που δίνεται από την έκφραση () ονομάζεται περιοχή απόκλισης της υπόθεσης H0, και η περιοχή () είναι η περιοχή για την αποδοχή της υπόθεσης H0, σε επίπεδο σημασίας .

Σφάλματα τύπου I και II.

Κατά τον έλεγχο και την αποδοχή υποθέσεων, υπάρχει κίνδυνος να γίνουν λάθη τύπου I και II. Ένα σφάλμα τύπου Ι εμφανίζεται όταν η μηδενική υπόθεση είναι αληθής αλλά απορρίπτεται. Ένα σφάλμα τύπου II παρουσιάζεται όταν η μηδενική υπόθεση είναι εσφαλμένη, αλλά δεν απορρίπτεται. Επειδή η t- τα στατιστικά είναι μια τυχαία τιμή, τότε μπορεί κατά λάθος να πάρει μια τιμή από την περιοχή απόρριψης μηδενικής υπόθεσης, ακόμα κι αν αυτή η υπόθεση είναι αληθής. Από την πιθανότητα να χτυπήσει t-τα στατιστικά στην περιοχή αποδοχής της υπόθεσης είναι ίσα με , και η πιθανότητα πτώσης στην περιοχή απόκλισης είναι ίση με , τότε το επίπεδο σημαντικότητας θα είναι η πιθανότητα σφάλματος πρώτου είδους. Όσο χαμηλότερο είναι το επίπεδο σημαντικότητας, τόσο περισσότερος λόγος (με μεγαλύτερη αξιοπιστία) μπορεί να γίνει αποδεκτή η μηδενική υπόθεση. Αυτό το επίπεδο σημασίας ονομάζεται υψηλότερο. Ωστόσο, εάν η μηδενική υπόθεση είναι στην πραγματικότητα εσφαλμένη, τότε η πιθανότητα σφάλματος τύπου II αυξάνεται. Εάν, ωστόσο, επιλεγεί ένα επίπεδο χαμηλής σημασίας (αυτό αντιστοιχεί σε μεγαλύτερη τιμή του ), τότε η πιθανότητα σφάλματος Τύπου Ι θα είναι μεγαλύτερη. Στην πράξη, γίνονται συμβιβασμοί και ελέγχονται υποθέσεις για δύο επίπεδα σημαντικότητας: χαμηλό, συνήθως 5% και υψηλό, συνήθως 1%.