ช่วงความเชื่อมั่นสำหรับพารามิเตอร์โมเดลเชิงเส้น ช่วงความเชื่อมั่นของพารามิเตอร์ของแบบจำลองการถดถอยแบบคู่

อ่านเพิ่มเติม:

ตัวบ่งชี้สัมบูรณ์และสัมพัทธ์ของความแรงของการเชื่อมต่อในสมการถดถอยแบบคู่
อัลกอริทึมสำหรับการตรวจสอบความเพียงพอของแบบจำลองการถดถอยพหุคูณ (สาระสำคัญของขั้นตอนการตรวจสอบ สูตรการคำนวณ การจัดทำข้อสรุป)
อัลกอริทึมสำหรับตรวจสอบความเพียงพอของแบบจำลองการถดถอยแบบจับคู่
อัลกอริธึมสำหรับการทดสอบความสำคัญของตัวถดถอยในแบบจำลองการถดถอยพหุคูณ: สมมติฐานทางสถิติที่นำเสนอ ขั้นตอนการทดสอบ สูตรสำหรับการคำนวณสถิติ
ความเชื่อมโยงกันของรูปแบบคำสั่งและพารามิเตอร์พื้นฐานของคอมพิวเตอร์
ความสัมพันธ์ระหว่างพารามิเตอร์การทำงานกับอายุการใช้งานของเครื่องมือ

เมื่อสร้างการประมาณช่วงเวลา จะใช้สถิติพิเศษที่มีการแจกแจงที่ทราบ เพื่อสร้างช่วงความเชื่อมั่นสำหรับพารามิเตอร์ของการจับคู่ แบบจำลองการถดถอยมีการสร้างสถิติ a และ b รวมถึงข้อมูลเสริมด้วย ตัวแปรสุ่ม:

ขอให้เราเพิ่มสถานที่ตั้งของแบบจำลองการถดถอยแบบคลาสสิกซึ่งเป็นสถานที่ตั้งของการแจกแจงแบบปกติของการรบกวนแบบสุ่ม จากนั้นสถิติ V จะมีการแจกแจงและสถิติมีการแจกแจงแบบปกติ

จากภาวะปกติของการกระจายตัวของสัญญาณรบกวนเป็นไปตามภาวะปกติของการกระจายร่วมของข้อมูลตัวอย่าง Y เสื้อ , (t=1,...,n) และเนื่องจาก การประมาณค่า OLS ของสัมประสิทธิ์การถดถอย a^ และ b^ คือ ฟังก์ชันเชิงเส้นใช่ เสื้อ จากนั้นการกระจายข้อต่อของมันก็เป็นเรื่องปกติเช่นกันและ a^ - N(a, σ a ^ ^2), b^ - N(b, σ b ^ ^2)

การแจกแจงข้อผิดพลาดในการประมาณพารามิเตอร์: b-b^ - N(0, σ b ^ ^2), a-a^ - N(0, σ a ^ ^2), ถูกต้อง

E(a-a^)=a-E(a^)=0, E(bb^)=b-E(b^)=0 เพราะ การประมาณค่า OLS ของ b^ และ a^ นั้นเป็นกลาง ความแปรปรวน: Var(a-a^)=Var(a^)= σ a ^ ^2, Var(b-b^)=Var(b^)= σ b ^ ^2

ดังนั้น ตัวแปรสุ่ม Z b =(b-b^)/ σ b ^ และ Z a =(a-a^)/ σ a ^ มี การกระจายตัวแบบปกติด้วยคณิตศาสตร์เป็นศูนย์ ความคาดหวังและความแปรปรวนหน่วย Z a – N (0.1), Z b – N (0.1)

สถิติที่สร้างขึ้นตามกฎ t=Z/ √V/k โดยที่ Z คือตัวแปรสุ่มปกติมาตรฐาน และ V คือค่าที่ไม่ขึ้นอยู่กับ Z ซึ่งกระจายตามกฎไคสแควร์ที่มีดีกรีอิสระ k จะมีค่า t -distribution (เสื้อของนักเรียน) ด้วยพารามิเตอร์ k ดังนั้น ตัวแปรสุ่ม tb=Zb/√V/(n-2) = Zbσ/√Σet^2/(n-2) = Zbσ/√s^2 = ((b-b^)σ)/ σb^*s ,

ta= Zaσ/√V/(n-2) = Zaσ/√Σet^2/(n-2) = Zaσ/√s^2 = ((b-b^)σ)/ σa^*s

เป็นสถิติแบบ t ที่มีพารามิเตอร์ n-2 มาแปลงนิพจน์ของสถิติเหล่านี้ให้อยู่ในรูปแบบที่สะดวกสำหรับการคำนวณกัน เนื่องจากข้อเท็จจริงที่ว่า σb^/σ=sb^/s และ σa^/σ=sa^/s จึงสะดวกในการคำนวณค่าของสถิติ t โดยใช้สูตร:

t b =(b-b^)/s b^ , t a =(b-b^)/s a^ โดยที่ s b^ ^2=s^2/Σx t ^2, s a^ ^2=s^2 * ΣX t ^2/nΣx ที^2.

นิพจน์แสดงถึงข้อผิดพลาดที่ทำให้เป็นมาตรฐานของการประมาณค่าพารามิเตอร์ และเรียกว่าเศษส่วนของนักเรียน เศษส่วนของนักเรียนมีการแจกแจงของนักเรียนโดยมีระดับความเป็นอิสระ (n-2) เมื่อพิจารณาถึงระดับนัยสำคัญ α จากตารางการแจกแจงแบบ t เราสามารถกำหนดค่าวิกฤตของสถิติ t cr และใช้ขั้นตอนมาตรฐานในการสร้าง ช่วงความมั่นใจซึ่งด้วย ความน่าจะเป็นของความมั่นใจ 1-α ครอบคลุมค่าของสถิติ t

หน้าแรก > บทคัดย่อ

ช่วงความเชื่อมั่นสำหรับพารามิเตอร์โมเดลเชิงเส้น

สำหรับค่าสัมประสิทธิ์การถดถอยที่มีนัยสำคัญ ช่วงความเชื่อมั่นสามารถสร้างขึ้นได้โดยใช้สูตร: , (2.20) โดยที่ t หาได้จากตารางการแจกแจงของนักเรียนสำหรับนัยสำคัญ =1- และจำนวนดีกรีอิสระ =n-k-1 การประมาณช่วง ณ จุดที่กำหนดโดยเวกเตอร์ เงื่อนไขเริ่มต้น x 0 ถูกกำหนดโดยสูตร: , (2.21) โดยที่ = (x 0) t b; x 0 =
- เวกเตอร์คอลัมน์ของเงื่อนไขเริ่มต้นของมิติ (k+1) t ถูกกำหนดจากตารางการแจกแจงของนักเรียนสำหรับระดับนัยสำคัญ  และจำนวนดีกรีอิสระ =n -k -1

ในการสร้างแบบจำลอง จะใช้วิธีถดถอยแบบขั้นตอน ความซับซ้อนของความสัมพันธ์ระหว่างปัจจัยในการกำหนดลักษณะแบบจำลอง ปรากฏการณ์ทางเศรษฐกิจจำเป็นต้องทำให้ง่ายขึ้นเพื่อเน้นการเชื่อมต่อที่สำคัญที่สุด จำเป็นต้องค้นหา ตัวเลือกที่ดีที่สุดแบบจำลองที่สะท้อนรูปแบบหลักของปรากฏการณ์ที่กำลังศึกษาโดยมีระดับความน่าเชื่อถือทางสถิติเพียงพอ แบบจำลองควรรวมปัจจัยทั้งหมดที่มีอิทธิพลต่อตัวแปรตามจากมุมมองทางเศรษฐกิจ อย่างไรก็ตาม จำนวนปัจจัยที่รวมอยู่ในแบบจำลองไม่ควรมีขนาดใหญ่มาก การไม่ปฏิบัติตามเงื่อนไขนี้จะนำไปสู่ปัญหาหลายประการ รวมถึงความแม่นยำของการประมาณการที่ลดลง ความยากในการตีความแบบจำลอง และความยากลำบากในการใช้งานจริง

มีอยู่สองคน แนวทางที่แตกต่างกันเพื่อแก้ปัญหาการลดจำนวนตัวแปรเริ่มต้น หนึ่งในนั้นขึ้นอยู่กับข้อเท็จจริงที่ว่าปัจจัยที่มีนัยสำคัญน้อยกว่าจะถูกกำจัดออกไปในกระบวนการการสร้างแบบจำลองดั้งเดิมและประการที่สองนั้นขึ้นอยู่กับการแทนที่ชุดตัวแปรดั้งเดิม น้อยลงปัจจัยที่เทียบเท่าที่ได้รับจากการแปลงชุดดั้งเดิม ขั้นตอนการกำจัดปัจจัยที่ไม่สำคัญในกระบวนการสร้างแบบจำลองการถดถอยเรียกว่าหลายขั้นตอน การวิเคราะห์การถดถอย- วิธีนี้มีพื้นฐานมาจากการคำนวณสมการการถดถอยระดับกลางหลายสมการ ซึ่งการวิเคราะห์จะทำให้เกิดแบบจำลองขั้นสุดท้ายที่รวมเฉพาะปัจจัยที่มีอิทธิพลที่มีนัยสำคัญทางสถิติอย่างใกล้ชิดต่อตัวแปรตามที่กำลังศึกษาอยู่ ในงานนี้ ฉันใช้การวิเคราะห์การถดถอยแบบหลายขั้นตอนโดยอิงจากการประเมินความสำคัญของสัมประสิทธิ์การถดถอยโดยใช้แบบทดสอบนักเรียน สมการถดถอยถูกสร้างขึ้นตามค่าสูงสุด หมายเลขที่เป็นไปได้ตัวแปรอธิบายที่เชื่อว่ามีอิทธิพลต่อตัวแปรที่กำลังศึกษา หลังจากนี้ ตัวแปรเหล่านั้นที่มีผลกระทบไม่มีนัยสำคัญทางสถิติจะถูกยกเว้นโดยใช้เกณฑ์ที่กำหนด รูปแบบการเลือกปัจจัยที่มีนัยสำคัญในสมการการถดถอยโดยใช้การทดสอบทีมีลักษณะดังนี้ หากสัมประสิทธิ์การถดถอยทั้งหมดมีนัยสำคัญ สมการการถดถอยจะถือเป็นที่สิ้นสุดและยอมรับว่าเป็นแบบจำลองของคุณลักษณะที่กำลังศึกษา ถ้าค่าสัมประสิทธิ์การถดถอยมีค่าไม่มีนัยสำคัญ ตัวแปรอธิบายที่เกี่ยวข้องก็ควรแยกออกจากสมการ อย่างไรก็ตาม อันดับแรกคุณควรจัดอันดับค่าสัมประสิทธิ์การถดถอยตามค่าของ t obs และประการแรก ให้แยกปัจจัยดังกล่าวที่ค่าสัมประสิทธิ์การถดถอยไม่มีนัยสำคัญและ t obs มี ค่าที่น้อยที่สุดโดย ค่าสัมบูรณ์- ค่าของสมการการถดถอยจะถูกคำนวณใหม่อีกครั้งโดยไม่มีปัจจัยที่ถูกแยกออก จากนั้นจึงประมาณค่าสัมประสิทธิ์การถดถอยโดยใช้การทดสอบที ทำซ้ำจนกว่าค่าสัมประสิทธิ์การถดถอยในสมการจะมีนัยสำคัญ โครงการที่ง่ายที่สุดการทดสอบความสำคัญของค่าสัมประสิทธิ์การถดถอยลงมาเพื่อสร้างช่วงความเชื่อมั่นสำหรับแต่ละรายการ และทดสอบสมมติฐานว่าศูนย์อยู่ภายในช่วงที่สร้างขึ้นหรือไม่ หากสมมติฐานไม่ถูกปฏิเสธ ค่าสัมประสิทธิ์การถดถอยนี้จะถือว่าไม่มีนัยสำคัญหรือมีการตั้งคำถามและชี้แจงความสำคัญของมันในขั้นตอนต่อไปของการวิเคราะห์ ที่ วิธีนี้ในทุกขั้นตอน ยกเว้นพิธีการ การทดสอบทางสถิติความสำคัญของสัมประสิทธิ์การถดถอยก็ถูกกล่าวถึงเช่นกัน การวิเคราะห์ทางเศรษฐกิจปัจจัยที่ไม่มีนัยสำคัญและมีการกำหนดขั้นตอนสำหรับการยกเว้น ในบางกรณี ค่าของ t obs ใกล้เคียงกับ t cr และจากมุมมองของความหมายของแบบจำลอง ปัจจัยนี้สามารถทิ้งไว้สำหรับการทดสอบนัยสำคัญในภายหลังร่วมกับชุดปัจจัยอื่น ๆ การไม่มีนัยสำคัญของสัมประสิทธิ์การถดถอยตามการทดสอบ t-test ไม่ได้เป็นพื้นฐานในการแยกตัวแปรออกจากการวิเคราะห์เพิ่มเติมเสมอไป ดังนั้น ในบางกรณี มีความจำเป็นต้องใช้ขั้นตอนเชิงประจักษ์เพิ่มเติมเพื่อแยกตัวแปรออกจากสมการการถดถอยเฉพาะในกรณีที่ค่าคลาดเคลื่อนกำลังสองเฉลี่ยของสัมประสิทธิ์การถดถอยเกินขนาดสัมบูรณ์ของสัมประสิทธิ์ที่คำนวณ เมื่อ t obs  1.5. 3. การสร้างแบบจำลองการถดถอยหลายตัวแปรของรายได้สำหรับละครสัตว์ สหพันธรัฐรัสเซีย- 3.1 การเลือกปัจจัยสำหรับการสร้างแบบจำลองการถดถอยหลายตัวแปรของรายได้ของละครสัตว์ในสหพันธรัฐรัสเซีย เพื่อสร้างแบบจำลองการถดถอยหลายตัวแปรของรายได้ของละครสัตว์ในสหพันธรัฐรัสเซีย ละครสัตว์จาก 34 เมืองของสหพันธรัฐรัสเซียได้รับการคัดเลือก จากข้อมูลทางสถิติที่จัดทำโดยคณะละครสัตว์แห่งรัฐรัสเซียและคณะกรรมการสถิติแห่งสหพันธรัฐรัสเซีย การวิเคราะห์เบื้องต้นของแหล่งข้อมูลได้ดำเนินการ ปัจจัยที่กำหนดลักษณะกิจกรรมของละครสัตว์ได้รับการพิจารณา: จำนวนประชากรในเมือง, จำนวนที่นั่งในละครสัตว์, จำนวนการแสดง, จำนวนผู้ชมที่มาเยี่ยมชมละครสัตว์, รายได้, ค่าใช้จ่าย, กำไรและการเข้าร่วม เพื่อให้ได้ประชากรทางสถิติที่เป็นเนื้อเดียวกัน การวิเคราะห์กลุ่มได้ดำเนินการ ซึ่งส่งผลให้กลุ่มมีความเป็นเนื้อเดียวกันทางสถิติเพียงพอที่จะสร้างแบบจำลองการถดถอยหลายตัวแปร การวิเคราะห์คลัสเตอร์ดำเนินการโดยใช้ตัวบ่งชี้ 8 ตัว อย่างไรก็ตาม ตัวบ่งชี้เหล่านี้ทั้งหมดไม่สามารถใช้เพื่อสร้างแบบจำลองการถดถอยหลายตัวแปรได้ เนื่องจากขนาดตัวอย่างต้องมีนัยสำคัญ จำนวนมากขึ้นปัจจัยที่รวมอยู่ในแบบจำลองการถดถอย n>>k

ปัจจัยต่างๆ เช่น จำนวนผู้ชม จำนวนที่นั่ง และจำนวนการแสดง จะรวมอยู่ในสูตรในการคำนวณค่าตัวเลขของปัจจัยการเข้างาน (สูตร (3.1):

จำนวนผู้ดู* 100% = % ของการเข้าชม (3.1)

จำนวนที่นั่ง * จำนวนการแสดง

สูตรนี้ใช้เพื่อคำนวณการเข้าร่วมในการบัญชีของคณะละครสัตว์แห่งรัฐรัสเซีย ด้วยเหตุนี้ จึงไม่แนะนำให้รวมจำนวนปัจจัยของผู้ชมและจำนวนการแสดงในแบบจำลองการถดถอย เนื่องจากมีอันตรายจากความหลากหลายเชิงเส้น และผลที่ตามมาคือความไม่น่าเชื่อถือทางสถิติของแบบจำลอง มีการตัดสินใจที่จะรวมจำนวนปัจจัยของสถานที่ในแบบจำลองด้วยเหตุผลทางเศรษฐกิจ การสร้างสมการการถดถอยเกี่ยวข้องกับการแก้ปัญหาหลักสองประการ ภารกิจแรกคือการเลือกตัวแปรอิสระในตัวอย่างของเรา ปริมาณการใช้ จำนวนสถานที่ การเข้าชม ที่มีผลกระทบอย่างมีนัยสำคัญต่อตัวแปรตาม (รายได้) รวมทั้งกำหนดประเภทของสมการการถดถอย งานที่สองของการสร้างสมการถดถอยคือการประมาณค่าพารามิเตอร์ของสมการ ได้รับการแก้ไขโดยใช้วิธีการประมวลผลข้อมูลทางคณิตศาสตร์และสถิติอย่างใดอย่างหนึ่ง ในการวิเคราะห์ข้อมูลทางสถิติ มีการใช้แพ็คเกจแอปพลิเคชัน Statistics 5.0 - PPP “Statistica” ตัวแปรที่จะใช้ในการวิเคราะห์ทางสถิติหลายตัวแปรมีหน่วยการวัดที่แตกต่างกัน ดังนั้นก่อนที่จะดำเนินการ การวิเคราะห์ทางสถิติข้อมูลได้รับมาตรฐาน กล่าวคือ นำมาสู่มาตราส่วนการวัดเดียว ในสถิติ 5.0 คำสั่ง Standardize Rows Columns ช่วยให้คุณสามารถกำหนดค่ามาตรฐานในแต่ละแถวของบล็อกที่เลือกได้ ค่าของตัวแปรในบล็อกจะเปลี่ยนเป็นค่ามาตรฐานซึ่งคำนวณโดยใช้สูตรต่อไปนี้ (3.2): ค่าใหม่ = (ค่าเก่า - ค่าเฉลี่ยในแถวที่เลือก)/ส่วนเบี่ยงเบนมาตรฐาน, t = x – x- (3.2) s ต่อไป เพื่อให้ได้ประชากรทางสถิติที่เป็นเนื้อเดียวกัน การวิเคราะห์แบบคลัสเตอร์จึงถูกดำเนินการ การวิเคราะห์คลัสเตอร์คือ ชื่อสามัญชุดขั้นตอนการคำนวณที่ใช้ในการสร้างการจำแนกประเภท เป็นขั้นตอนทางสถิติหลายตัวแปรที่รวบรวมข้อมูลที่มีข้อมูลเกี่ยวกับตัวอย่างวัตถุ จากนั้นจัดเรียงวัตถุให้เป็นกลุ่มที่ค่อนข้างเป็นเนื้อเดียวกัน ระยะทางต่างๆ ถูกใช้เป็นระยะห่างระหว่างวัตถุ เช่น ระยะทางแบบยุคลิดตามปกติ และระยะทางแบบยุคลิดแบบถ่วงน้ำหนัก เมื่อรวมเป็นกลุ่มในการวิเคราะห์คลัสเตอร์ จะพิจารณาเดนโดแกรม (ภาคผนวกหมายเลข 4) ที่ทำโดยวิธีลำดับชั้นสองวิธี: วิธี เพื่อนบ้านที่อยู่ห่างไกล(Complete Linkage) และวิธีวอร์ด การแสดงกราฟิกผลลัพธ์ของการวิเคราะห์คลัสเตอร์จะดำเนินการโดยใช้ซอฟต์แวร์ “Statistica” การวิเคราะห์คลัสเตอร์ดำเนินการในแพ็คเกจแอปพลิเคชันเชิงสถิติชุดเดียว ตามที่กล่าวไว้ข้างต้น เดนโดแกรมทั้งหมดถูกนำเสนอในภาคผนวกที่ 4 ดังนั้น เมื่อใช้อัลกอริธึมการวิเคราะห์คลัสเตอร์หลายแบบ เราจะให้ความสำคัญกับการแยกออกเป็นสองคลัสเตอร์โดยใช้วิธี Ward ในวิธีวอร์ดในครั้งนี้ งานประกาศนียบัตรจะใช้ระยะทางแบบยุคลิดถ่วงน้ำหนัก ในรูป รูปที่ 3.1 แสดงเดนโดแกรมสำหรับการจำแนกเมืองต่างๆ ตามระยะทางแบบยุคลิดถ่วงน้ำหนักและหลักการของวอร์ด

ข้าว. 3.1. เดนโดแกรม การจำแนกเมืองตามระยะทางแบบยุคลิดถ่วงน้ำหนักและหลักการของวอร์ด

การจำแนกประเภทดำเนินการโดยใช้อัลกอริธึมการวิเคราะห์คลัสเตอร์ต่างๆ แต่เนื้อหาที่ดีที่สุดในแง่ของเนื้อหาคือผลลัพธ์ที่ได้จากวิธีของวอร์ดเมื่อแบ่งออกเป็นสองกลุ่ม กลุ่มแรกประกอบด้วย 18 เมือง และกลุ่มที่สอง: จาก 16 เมือง ดังนั้นจึงได้กลุ่มที่เป็นเนื้อเดียวกันสองกลุ่มทางสถิติ ในตัวอย่างของเรา เราควรเน้นที่การใช้วิธีนี้เป็นตัวเลือกการจำแนกประเภทที่ดีที่สุด ผลการวิเคราะห์คลัสเตอร์แสดงไว้ในตารางที่ 3.1 ตารางที่ 3.1 เมืองที่รวมอยู่ในกลุ่มที่หนึ่งและสอง

เลขที่	1 คลัสเตอร์	เลขที่	2 คลัสเตอร์
1	วลาดิวอสต็อก	1	แอสตราคาน
2	โวลโกกราด	2	ไบรอันสค์
3	โวโรเนจ	3	อิวาโนโว
4	อีร์คุตสค์	4	เคเมโรโว
5	ครัสโนดาร์	5	คิรอฟ
6	ครัสโนยาสค์	6	คิสโลวอดสค์
7	ตเวียร์	7	โคสโตรมา
8	เอคาเทรินเบิร์ก	8	เคิร์สต์
9	ซามารา	9	โซชิ
10	โนโวซีบีสค์	10	แมกนิโตกอร์สค์
11	ออมสค์	11	นิจนี ทาจิล
12	เพอร์เมียน	12	โนโวคุซเนตสค์
13	รอสตอฟ ดอน	13	โอเรนเบิร์ก
14	ไรซาน	14	เพนซ่า
15	ซาราตอฟ	15	สตาฟโรโปล
16	ตูลา	16	ตูย์เมน
17	เชเลียบินสค์
18	ยาโรสลาฟล์

3.2. การสร้างแบบจำลองการถดถอยหลายตัวแปร การใช้การวิเคราะห์คลัสเตอร์ทำให้สามารถนำเสนอข้อมูลทางสถิติในรูปแบบสองทางสถิติได้ กลุ่มที่เป็นเนื้อเดียวกันเพื่อทำความเข้าใจว่าสิ่งใดแนะนำให้สร้างแบบจำลองการถดถอยสำหรับคลัสเตอร์หมายเลข 1 การใช้วิธีวิเคราะห์สหสัมพันธ์และการถดถอยทำให้สามารถศึกษาการพึ่งพารายได้กับตัวบ่งชี้การผลิตและกิจกรรมทางเศรษฐกิจต่อไปนี้:

y – รายได้; x1 – จำนวนที่นั่ง; x2 – การบริโภค; x3 – เยี่ยมชมข้อมูลทางสถิติเบื้องต้นสำหรับการวิเคราะห์แสดงไว้ในภาคผนวกหมายเลข 5 การวิเคราะห์เมทริกซ์ของค่าสัมประสิทธิ์สหสัมพันธ์คู่ทำให้สามารถประเมินความใกล้ชิดของความสัมพันธ์ระหว่างปัจจัยต่างๆ ที่รวมอยู่ในแบบจำลองได้ เช่นเดียวกับการประเมินความเป็นไปได้ของความเป็นหลายเส้นตรง ตรวจไม่พบการมีอยู่ของหลายคอลลิเนียร์ในโมเดลนี้ จากผลการวิเคราะห์เมทริกซ์ของค่าสัมประสิทธิ์สหสัมพันธ์แบบคู่ สรุปได้ว่าควรใช้ปัจจัยต่างๆ เช่น จำนวนที่นั่ง ปริมาณการใช้ และการเข้าชม คุณลักษณะผลลัพธ์คือรายได้ ตารางที่ 3.2 นำเสนอผลลัพธ์ของการสร้างแบบจำลองการถดถอยของรายได้สำหรับคลัสเตอร์หมายเลข 1 ขึ้นอยู่กับปัจจัย ได้แก่ จำนวนที่นั่ง การบริโภค การเข้าชม และรายได้ ตารางที่ 3.2 การประเมินทางสถิติของพารามิเตอร์ของแบบจำลองการถดถอยหลายตัวแปรของรายได้ละครสัตว์สำหรับคลัสเตอร์หมายเลข 1

ฉ(3,14)=32.512 น<,00000 Std.Error of estimate: ,40801 RІ= ,87447834

สกัดกั้น
จำนวนที่นั่ง
ค่าใช้จ่าย
เยี่ยม
เดอร์บิน-วัตสัน d =2.1974158

การใช้แพ็คเกจแอปพลิเคชัน Statistics 5.0 - PPP “Statistica” ทำให้สามารถสร้างแบบจำลองการถดถอยของรายได้สำหรับคลัสเตอร์หมายเลข 1: Y = +0.04547-0.04079*X1+0.99053*X2+0.07429*X3 (3.3) ความน่าเชื่อถือทางสถิติของแบบจำลองได้รับการประเมินโดยใช้พารามิเตอร์ความเพียงพอต่อไปนี้ (ตารางที่ 3.2): สัมประสิทธิ์การกำหนดหลายค่า R 2 = 0.87447 ซึ่งบ่งชี้ว่า 87.4% ของการเปลี่ยนแปลงรายได้ถูกรวมเข้าด้วยกันโดยตัวบ่งชี้ที่รวมอยู่ในแบบจำลอง ( X1, X2, X3) ข้อผิดพลาดสัมพัทธ์ของการประมาณ δ = 0.40801 ค่าที่คำนวณได้ของ F - เกณฑ์ Fob = 32.512 สมการการถดถอยมีความสำคัญ เนื่องจาก F สังเกต = 32.512 > F cr = 3.11 พบจากตาราง F - การแจกแจงที่ระดับนัยสำคัญ α = 0.05 และจำนวนองศาอิสระ ν 1 = 4 และ ν 1 = 14 เพื่อทดสอบสมมติฐานเกี่ยวกับความสำคัญของสัมประสิทธิ์การถดถอยส่วนบุคคล H0: θ j = 0 โดยที่ j = 1,2,3 ให้เปรียบเทียบค่าวิกฤต tcr =2.145 กับ α = 0.05 และจำนวนดีกรีอิสระ และ ν 1 =14 . จากสมการพบว่าค่าสัมประสิทธิ์การถดถอย t 2  มีนัยสำคัญทางสถิติเพียงค่าเดียว เนื่องจากค่าที่คำนวณได้ t 2  = 8.69883 > tcr = 2.145 ค่าที่คำนวณได้ t j  สำหรับค่าสัมประสิทธิ์การถดถอยที่เหลือน้อยกว่า tcr =2.145 ที่ α = 0.05 และจำนวนองศาอิสระ ν 1 =14 เราใช้เพื่อให้ได้ค่าการถดถอยที่มีค่าสัมประสิทธิ์ที่มีนัยสำคัญ อัลกอริธึมทีละขั้นตอนการวิเคราะห์การถดถอย เริ่มแรกเราใช้อัลกอริธึมทีละขั้นตอนพร้อมการกำจัดตัวแปร ให้เราแยกตัวแปร X1 ออกจากโมเดล - จำนวนตำแหน่งซึ่งสอดคล้องกับค่าสัมบูรณ์ขั้นต่ำของสัมประสิทธิ์ t 1  = 0.34465 สำหรับตัวแปรที่เหลือ เราจะสร้างสมการถดถอยอีกครั้ง: Y = +0.03001+0.97113*X2+0.08843*X3 (3.4) ตารางที่ 3.3 นำเสนอผลลัพธ์ของการสร้างแบบจำลองการถดถอยของรายได้สำหรับคลัสเตอร์หมายเลข 1 ขึ้นอยู่กับปัจจัย: ค่าใช้จ่าย การเยี่ยมชม และรายได้ ตารางที่ 3.3 การประเมินทางสถิติของพารามิเตอร์ของแบบจำลองการถดถอยหลายตัวแปรของรายได้ละครสัตว์สำหรับคลัสเตอร์หมายเลข 1

R= .93456584 RI= .87341332 RI ที่ปรับแล้ว= .85653509
ฉ(2,15)=51.748 น<,00000 Std.Error of estimate: ,39585

สกัดกั้น
ค่าใช้จ่าย
เยี่ยม
เดอร์บิน-วัตสัน d =2.1400127

สมการที่ได้มีนัยสำคัญ เนื่องจาก F สังเกตได้ = 51.748 > F cr = 3.29 ที่ระดับนัยสำคัญ α = 0.05 และจำนวนองศาอิสระ ν 1 = 3 และ ν 1 = 15 ซึ่งพบได้จากตารางการแจกแจง F อย่างไรก็ตาม มีสัมประสิทธิ์การถดถอยเพียงค่าเดียวเท่านั้นที่มีนัยสำคัญในสมการ t 2  = 10.11286 ที่ tcr (0.05;15) = 1.753 ค่าที่คำนวณได้ t 3  = 0.95991 น้อยกว่า tcr (0.05;15) = 1.753 พบจากตารางการแจกแจง t - ที่ tcr = 2.145 โดยมี α = 0.05 และจำนวนองศาอิสระและ ν 1 = 15 ให้เราแยกตัวแปร X3 - การเข้าชมออกจากโมเดลซึ่งสอดคล้องกับค่าสัมบูรณ์ขั้นต่ำของสัมประสิทธิ์ t 3  = 0.95991 สำหรับตัวแปรที่เหลือ เราจะสร้างสมการถดถอยอีกครั้ง:

ตามกฎแล้วใน การถดถอยเชิงเส้นโดยปกติแล้ว ความสำคัญของไม่เพียงแต่สมการโดยรวมเท่านั้น แต่ยังรวมถึงพารามิเตอร์แต่ละตัวด้วย ตัวบ่งชี้สหสัมพันธ์ที่คำนวณจากประชากรที่จำกัด (ตัวอย่าง) เป็นเพียงการประมาณของรูปแบบทางสถิติหนึ่งหรือรูปแบบอื่นเท่านั้น เนื่องจากในพารามิเตอร์ใด ๆ ยังคงมีองค์ประกอบอยู่ ของการดับความบังเอิญที่ไม่สมบูรณ์โดยธรรมชาติ ค่านิยมส่วนบุคคลสัญญาณ ดังนั้นจึงจำเป็นต้องมีการประเมินทางสถิติของระดับความแม่นยำและความน่าเชื่อถือของพารามิเตอร์สหสัมพันธ์ ความน่าเชื่อถือที่นี่หมายถึงความน่าจะเป็นที่ค่าของพารามิเตอร์ที่กำลังทดสอบไม่เป็นศูนย์และไม่รวมค่าของเครื่องหมายตรงกันข้าม

การประเมินความน่าจะเป็นของพารามิเตอร์สหสัมพันธ์จะดำเนินการโดยใช้ กฎทั่วไปเช็ค สมมติฐานทางสถิติ, ที่พัฒนา สถิติทางคณิตศาสตร์โดยเฉพาะโดยการเปรียบเทียบค่าประมาณกับค่าเฉลี่ย ความผิดพลาดแบบสุ่มการประเมิน สำหรับค่าสัมประสิทธิ์การถดถอยแบบคู่ ขข้อผิดพลาดในการประมาณค่าเฉลี่ยคำนวณได้ดังนี้:

ที่ไหน เนื้อเพลง – ความแปรปรวนที่เหลือด้วยอิสรภาพระดับหนึ่ง

สำหรับตัวอย่างของเรา ค่าคลาดเคลื่อนมาตรฐานของสัมประสิทธิ์การถดถอยคือ:

เพื่อประเมินว่าค่าที่แน่นอนของตัวบ่งชี้อาจแตกต่างจากค่าที่คำนวณได้อย่างไร จะมีการสร้างช่วงความเชื่อมั่น พวกเขากำหนดขีด จำกัด ซึ่งค่าที่แน่นอนของตัวบ่งชี้ที่ถูกกำหนดนั้นอยู่ในระดับความแม่นยำที่กำหนดซึ่งสอดคล้องกับระดับนัยสำคัญที่กำหนด α (α – ความน่าจะเป็นที่จะปฏิเสธสมมติฐานที่ถูกต้อง โดยที่เป็นจริง มักจะถือว่ามีค่าเท่ากับ 0,05 หรือ 0,01 ).

สำหรับการประเมินผล นัยสำคัญทางสถิติสัมประสิทธิ์การถดถอยเชิงเส้นและ ค่าสัมประสิทธิ์เชิงเส้นความสัมพันธ์คู่ ตลอดจนการคำนวณช่วงความเชื่อมั่น ขใช้ เสื้อ – การทดสอบของนักเรียน

เพื่อประเมินความสำคัญของสัมประสิทธิ์การถดถอย ค่าของมันจะถูกเปรียบเทียบกับข้อผิดพลาดมาตรฐาน เช่น ค่าที่แท้จริงของการทดสอบทีของนักเรียนจะถูกกำหนด: ซึ่งจะถูกเปรียบเทียบกับค่าตารางในระดับนัยสำคัญที่แน่นอน กและจำนวนองศาอิสระ ( n- 2).

ในตัวอย่างที่อยู่ระหว่างการพิจารณา ค่าที่แท้จริงของการทดสอบทีสำหรับสัมประสิทธิ์การถดถอยคือ:

เราได้รับผลลัพธ์เดียวกันโดยการแตกไฟล์ รากที่สองจากเกณฑ์ F ที่พบคือ

แท้จริงความเท่าเทียมกันนั้นมีจริง

ที่ (สำหรับเกณฑ์สองด้าน) และจำนวนองศาอิสระ 13 ค่าตาราง ที ข = 2.16. เนื่องจากค่าจริงของการทดสอบทีเกินกว่าตารางที่ 1 ดังนั้น สมมติฐานเกี่ยวกับความไม่มีนัยสำคัญของสัมประสิทธิ์การถดถอยจึงสามารถปฏิเสธได้

เพื่อคำนวณช่วงความเชื่อมั่นสำหรับพารามิเตอร์ กและ ขสมการการถดถอยเชิงเส้นถูกกำหนดไว้ ข้อผิดพลาดเล็กน้อย ∆ สำหรับแต่ละตัวบ่งชี้:

∆ a = t แท็บ · m a , ∆ b = t แท็บ · m b

สูตรคำนวณช่วงความเชื่อมั่นคือ:

γ a = a ± ∆ а γ amin = a - ∆ а γ amin = a + ∆ а

γ b = b ± ∆ b γ bmin = b - ∆ b γ bmin = b + ∆ b

หากมีขอบเขตช่วง สัญญาณที่แตกต่างกัน, เช่น. ศูนย์อยู่ภายในขอบเขตเหล่านี้ จากนั้นพารามิเตอร์ที่ประมาณไว้จะถือเป็นศูนย์

ช่วงความเชื่อมั่นสำหรับสัมประสิทธิ์การถดถอยถูกกำหนดเป็น สำหรับค่าสัมประสิทธิ์การถดถอย ขในตัวอย่าง ขีดจำกัด 95% จะเป็น:

0.022 ± 2.16 0.0026 = 0.022 ± 0.0057, เช่น.

0.016 ≤ ข ≤ 0.027

เนื่องจากค่าสัมประสิทธิ์การถดถอยในการศึกษาทางเศรษฐมิติมีการตีความทางเศรษฐศาสตร์ที่ชัดเจน ขีดจำกัดความเชื่อมั่นของช่วงสำหรับค่าสัมประสิทธิ์การถดถอยไม่ควรให้ผลลัพธ์ที่ขัดแย้งกัน เช่น -10 ≤ ข ≤ 40- บันทึกประเภทนี้บ่งบอกว่า ความหมายที่แท้จริงค่าสัมประสิทธิ์การถดถอยประกอบด้วยค่าบวกและ ค่าลบและแม้แต่ศูนย์ซึ่งไม่สามารถเป็นได้

ข้อผิดพลาดของพารามิเตอร์มาตรฐาน กกำหนดโดยสูตร:

ขั้นตอนการประเมินความสำคัญของพารามิเตอร์นี้ไม่แตกต่างจากที่กล่าวไว้ข้างต้นสำหรับค่าสัมประสิทธิ์การถดถอย คำนวณเกณฑ์ t: ค่าของมันจะถูกเปรียบเทียบกับค่าตารางที่ df= n- 2 องศาอิสระ ในตัวอย่างของเรา มมีจำนวน 0,032.

ความสำคัญของค่าสัมประสิทธิ์สหสัมพันธ์เชิงเส้นได้รับการตรวจสอบตามขนาดของข้อผิดพลาดของค่าสัมประสิทธิ์สหสัมพันธ์ ม:

ค่าที่แท้จริงของการทดสอบทีของนักเรียนถูกกำหนดเป็น

สูตรนี้บ่งชี้ว่าในการถดถอยเชิงเส้นคู่ เนื่องจากตามที่ระบุไว้แล้ว นอกจากนี้ ดังนั้น

ดังนั้นการทดสอบสมมติฐานเกี่ยวกับความสำคัญของการถดถอยและสัมประสิทธิ์สหสัมพันธ์จึงเทียบเท่ากับการทดสอบสมมติฐานเกี่ยวกับความสำคัญ สมการเชิงเส้นการถดถอย

ในตัวอย่างที่อยู่ระหว่างการพิจารณา ที r ตรงกับ ทีบี- ขนาด เสื้อ r =8.37เกินค่าตารางอย่างมาก 2,16 ที่ ก=0.05.ดังนั้นค่าสัมประสิทธิ์สหสัมพันธ์จึงแตกต่างอย่างมากจากศูนย์และการพึ่งพาอาศัยกันมีความน่าเชื่อถือ

การพยากรณ์ที่ได้จากการแทนที่ค่าที่คาดหวังของปัจจัยลงในสมการการถดถอยเรียกว่า พยากรณ์จุดโอกาสที่การคาดการณ์ดังกล่าวจะเกิดขึ้นได้อย่างแม่นยำนั้นต่ำมาก มันจะต้องมาพร้อมกับค่า ข้อผิดพลาดโดยเฉลี่ยพยากรณ์หรือ ช่วงความเชื่อมั่นของการพยากรณ์โดยมีความเป็นไปได้ค่อนข้างสูง

การพยากรณ์แบบจุดประกอบด้วยการรับค่าพยากรณ์ y p ซึ่งถูกกำหนดโดยการแทนที่ลงในสมการการถดถอย

ค่าพยากรณ์ที่สอดคล้องกัน เอ็กซ์พี:

y p = a +b x p .

การพยากรณ์ช่วงประกอบด้วยการสร้างช่วงความเชื่อมั่นสำหรับการพยากรณ์ เช่น เส้นขอบบนและล่าง ใช่ pmin และ pmaxช่วงเวลาที่มีค่าที่แน่นอนสำหรับค่าพยากรณ์
(คุณครับ< y p < y pmax ) - ช่วงความเชื่อมั่นจะถูกกำหนดเสมอด้วยความน่าจะเป็นที่กำหนดซึ่งสอดคล้องกับค่าที่ยอมรับของระดับนัยสำคัญ α

คำนวณไว้ล่วงหน้า ข้อผิดพลาดมาตรฐานพยากรณ์

จากนั้นจะมีการสร้างช่วงความเชื่อมั่นสำหรับการพยากรณ์ เช่น มีการกำหนดขีดจำกัดล่างและบนของช่วงการคาดการณ์

, ,

ที่ไหน .

สมมติว่าในตัวอย่างของเรามีความจำเป็นต้องค้นหาค่าที่ทำนายไว้ของผลลัพธ์ โดยมีเงื่อนไขว่าค่าที่ทำนายของปัจจัยนั้น เอ็กซ์จะเพิ่มขึ้นโดย 15% จากระดับเฉลี่ยและกำหนดช่วงความเชื่อมั่นของการพยากรณ์

การเพิ่มค่าทำนายของปัจจัย เอ็กซ์จะให้คุณค่า

เราพบว่าเมื่อแทนที่มันลงในสูตร

ค่าที่คาดการณ์ของผลลัพธ์ภายใต้เงื่อนไขที่กำหนด

y p = a+b∙x p = 6.63+0.022∙149.99 = 9.95

ที่. ช่วงความเชื่อมั่นของการคาดการณ์จะเป็น

9,73 < y p <10,18.

ในกรณีที่ การถดถอยแบบไม่เชิงเส้นการประเมินความสำคัญของดัชนีสหสัมพันธ์จะดำเนินการในลักษณะเดียวกับการประเมินความน่าเชื่อถือของค่าสัมประสิทธิ์สหสัมพันธ์ ดัชนีการกำหนดใช้เพื่อทดสอบความสำคัญของสมการการถดถอยไม่เชิงเส้นโดยรวมโดยใช้การทดสอบ Fisher F:

ที่ไหน ร 2– ดัชนีการกำหนด;

n– จำนวนการสังเกต

ม– จำนวนพารามิเตอร์สำหรับตัวแปร เอ็กซ์.

ขนาด มแสดงลักษณะจำนวนองศาอิสระสำหรับผลรวมตัวประกอบของกำลังสอง และ ( n–m- 1) – จำนวนองศาอิสระสำหรับผลรวมที่เหลือของกำลังสอง

สำหรับฟังก์ชันกำลัง และสูตร F – เกณฑ์จะอยู่ในรูปแบบเดียวกับความสัมพันธ์เชิงเส้น:

สำหรับพาราโบลาของระดับที่สอง y=ก + ข x + ค x 2 + ε ม=2และ .

เพื่อประเมินคุณภาพของแบบจำลองที่สร้างขึ้นก็ใช้เช่นกัน ข้อผิดพลาดในการประมาณค่าเฉลี่ย- ค่าที่แท้จริงของคุณลักษณะผลลัพธ์นั้นแตกต่างจากค่าทางทฤษฎีที่คำนวณโดยใช้สมการการถดถอยเช่น คุณ และ . ยิ่งความแตกต่างนี้น้อยลง ค่าทางทฤษฎีก็จะเข้าใกล้ข้อมูลเชิงประจักษ์มากขึ้น และคุณภาพของแบบจำลองก็จะยิ่งดีขึ้นเท่านั้น ขนาดของการเบี่ยงเบนของค่าจริงและค่าที่คำนวณได้ของลักษณะผลลัพธ์ ( ที่- ) สำหรับการสังเกตแต่ละครั้งแสดงถึงข้อผิดพลาดในการประมาณ จำนวนของพวกเขาสอดคล้องกับปริมาณของประชากร ในบางกรณี ข้อผิดพลาดในการประมาณอาจเท่ากับศูนย์ สำหรับการเปรียบเทียบ จะใช้ค่าเบี่ยงเบนซึ่งแสดงเป็นเปอร์เซ็นต์ของค่าจริง ดังนั้นหากสังเกตครั้งแรก ย=20และประการที่สอง y=50ข้อผิดพลาดในการประมาณจะเป็น 25% สำหรับการสังเกตครั้งแรก และ 20% สำหรับการสังเกตครั้งที่สอง

เนื่องจาก ( ที่- ) อาจเป็นค่าบวกหรือลบก็ได้ ดังนั้นข้อผิดพลาดในการประมาณค่าสำหรับการสังเกตแต่ละครั้งมักจะถูกกำหนดเป็นเปอร์เซ็นต์แบบโมดูโล

เพื่อให้มีการตัดสินโดยทั่วไปเกี่ยวกับคุณภาพของแบบจำลองจากการเบี่ยงเบนสัมพัทธ์ของการสังเกตแต่ละครั้ง ความคลาดเคลื่อนโดยเฉลี่ยของการประมาณจะถูกกำหนดเป็นค่าเฉลี่ยเลขคณิตอย่างง่าย:

สำหรับตัวอย่างของเรา เราจะนำเสนอการคำนวณความคลาดเคลื่อนโดยประมาณโดยเฉลี่ยในตารางที่ 4

2.4. การตรวจสอบความเพียงพอของแบบจำลองการถดถอย

2.4.1. ค่าสัมประสิทธิ์การตัดสินใจ

ในการวิเคราะห์การถดถอยแบบคลาสสิก จะถือว่าฟังก์ชันการถดถอยเป็นที่รู้จัก (ระบุ) จนถึงพารามิเตอร์ นั่นคือ ชุดของตัวถดถอย (ตัวแปรอิสระ) ถูกกำหนดไว้ ในการศึกษาเชิงประจักษ์ของกระบวนการทางเศรษฐกิจและสังคม จากตัวเลือกที่เป็นไปได้มากมายสำหรับสมการการถดถอยที่แตกต่างกันในชุดตัวถดถอย จำเป็นต้องเลือกแบบจำลองที่เหมาะสมที่สุด (ฟังก์ชันการถดถอย) แบบจำลองนี้อธิบายพฤติกรรมของกระบวนการจริงได้ดีที่สุด เพื่อประเมินคุณภาพของแบบจำลองการถดถอยเชิงเส้นในการวิเคราะห์การถดถอยแบบคลาสสิก จะมีการเรียกตัวบ่งชี้ ค่าสัมประสิทธิ์การตัดสินใจร 2(อ่าน ร- สี่เหลี่ยม). ค่าสัมประสิทธิ์การตัดสินใจมีบทบาทสำคัญในการวิเคราะห์การถดถอย ด้านล่างนี้คือคำจำกัดความที่เทียบเท่ากันสามประการของตัวบ่งชี้นี้ ซึ่งประกอบด้วยรูปแบบการบันทึกและวิธีการตีความที่แตกต่างกัน

ให้เราแสดงค่าเบี่ยงเบนของตัวแปรตามจากค่าเฉลี่ยตัวอย่างในรูปแบบ

ลองพิจารณาเทอมสุดท้ายทางด้านขวาของนิพจน์นี้ เรามี:

เราเข้าใจแล้ว

ผลรวมทางด้านซ้ายของนิพจน์นี้เรียกว่า ผลรวมของกำลังสองเรียกว่าผลรวมแรกทางด้านขวา () ผลรวมของกำลังสองที่อธิบายโดยแบบจำลองเรียกว่าผลรวมที่สองของด้านขวา ผลรวมที่เหลือของกำลังสอง- ต่อไปโดยใช้นิพจน์ () เราสามารถเขียนได้

ที่นี่เราใช้อัตราส่วนต่อไปนี้:

(ต่อจากสมการแรกของระบบสมการปกติ (2.11), (2.12) (คุณสมบัติ (2.20) ของสารตกค้างใช้ที่นี่) จาก () ตามมาว่าความแปรผันรวมของตัวแปร y สามารถแบ่งออกเป็นสององค์ประกอบ: - นี่เป็นส่วนหนึ่งของความแปรผันรวมที่อธิบายโดยการถดถอย และ - ส่วนที่อธิบายไม่ได้ของความแปรผันทั้งหมด ซึ่งเกิดจากองค์ประกอบสุ่ม ของโมเดล ส่วนขยาย () และ () ใช้เพื่อกำหนดค่าสัมประสิทธิ์การกำหนด

การแสดงค่าสัมประสิทธิ์การตัดสินใจครั้งแรก

ให้เรากำหนดค่าสัมประสิทธิ์การกำหนดโดยความสัมพันธ์ดังต่อไปนี้

ตัวส่วนคือ ผลรวมของกำลังสองเราจะใช้ตัวย่อ TSS เพื่อแสดงว่าเป็นเช่นนั้น

เมื่อสร้างแบบจำลองการถดถอยเชิงเส้นคู่ คุณควรตรวจสอบให้แน่ใจว่าค่าสัมประสิทธิ์การกำหนดมีค่าใกล้เคียงกับค่าหนึ่งมากที่สุด ในการคำนวณ จะง่ายกว่าและสะดวกกว่าในการใช้สูตร ()

ตัวอย่างที่ 2.4

การคำนวณค่าสัมประสิทธิ์การกำหนดสำหรับแบบจำลองตัวอย่างที่ 2.1- การคำนวณโดยใช้สูตร () ให้ค่าสัมประสิทธิ์การกำหนดต่อไปนี้สำหรับแบบจำลองตัวอย่าง 2.1: R2 = 0.9965- ดังนั้นค่าสัมประสิทธิ์การกำหนดจึงใกล้เคียงกับความสามัคคี ซึ่งบ่งชี้ถึงคุณภาพการประมาณที่ดีของข้อมูลที่สังเกตได้จากแบบจำลองที่สร้างขึ้น

ตัวอย่างที่ 2.5

การคำนวณค่าสัมประสิทธิ์การกำหนดแบบจำลองการหมุนเวียนของสาขาของตัวอย่างที่ 2.2- สำหรับการถดถอยครั้งแรกของตัวอย่าง 2.2. ซึ่งอธิบายการพึ่งพามูลค่าการซื้อขายในพื้นที่ค้าปลีก ค่าสัมประสิทธิ์การกำหนด ร 1 2 = 0.96886- สำหรับการถดถอยครั้งที่สอง ซึ่งอธิบายการพึ่งพามูลค่าการซื้อขายกับความเข้มข้นเฉลี่ยรายวันของกระแสลูกค้า ร 2 2 = 0.42433.

ดังนั้นตัวบ่งชี้วัตถุประสงค์ที่ได้รับของคุณภาพของแบบจำลองการถดถอย - สัมประสิทธิ์การกำหนดยืนยันสมมติฐานที่ทำไว้ก่อนหน้านี้ (ดูตัวอย่าง 2.2) ว่าการถดถอยครั้งแรกอธิบายพฤติกรรมของตัวแปรตามได้ดีกว่า

2.4.2. การสร้างช่วงความเชื่อมั่นสำหรับสัมประสิทธิ์การถดถอย

ตัวบ่งชี้ความเพียงพอที่กล่าวถึงในหัวข้อที่แล้ว ซึ่งก็คือสัมประสิทธิ์การกำหนด ใช้เพื่อประเมินคุณภาพของแบบจำลองการถดถอยโดยทั่วไปเมื่อเปรียบเทียบแบบจำลองทางเลือก ในส่วนนี้กล่าวถึงขั้นตอนที่ช่วยให้เราสามารถสรุปเกี่ยวกับคุณภาพของการประมาณค่าจริงของพารามิเตอร์แต่ละตัวของสมการได้

การประมาณค่าความแปรปรวนของการประมาณค่าสัมประสิทธิ์ของ OLS

ลักษณะสำคัญอย่างหนึ่งของคุณภาพของการประมาณการคือการกระจายตัว ซึ่งเป็นการวัดค่าเบี่ยงเบนสัมพันธ์กับค่าที่คาดหวัง สมการที่ได้รับก่อนหน้านี้ (2.22), (2.23) (หรือ (2.24)) สำหรับความแปรปรวนของการประมาณค่านั้นขึ้นอยู่กับความแปรปรวนที่ไม่ทราบขององค์ประกอบสุ่มของแบบจำลองการถดถอย คุณ- เพื่อให้สมการเหล่านี้นำไปใช้ในการคำนวณเชิงปฏิบัติ จำเป็นต้องประมาณค่า นี่เป็นอีกพารามิเตอร์หนึ่งของโมเดล การประมาณค่าความแปรปรวนของคำสุ่มอย่างเป็นกลาง คุณเป็นการประมาณรูปแบบ

นิพจน์ () ใช้ในการคำนวณการประมาณค่าความแปรปรวนของการประมาณค่า กและ ขค่าสัมประสิทธิ์การถดถอย เมื่อต้องการทำเช่นนี้ ในสมการ (2.22), (2.23), (2.24) การกระจายตัวทางทฤษฎีจะถูกแทนที่ด้วยค่าประมาณ ()

ดังนั้นการประมาณค่าความแปรปรวนจึงมีรูปแบบ

การประมาณพารามิเตอร์และแบบจำลองผลลัพธ์เป็นการประมาณแบบจุด สูตร (2.13), (2.14) กำหนดการประมาณในรูปแบบของตัวเลขสุ่ม ขึ้นอยู่กับตัวอย่างการสังเกตเฉพาะ ในบางกรณีตัวเลขเหล่านี้อาจเบี่ยงเบนไปจากค่าที่แท้จริงของพารามิเตอร์อย่างมาก ในเรื่องนี้คำถามเกิดขึ้น: เป็นไปได้หรือไม่ที่จะกำหนดด้วยระดับความน่าเชื่อถือที่เพียงพอว่าค่าประมาณที่ได้รับนั้นใกล้เคียงกับค่าจริงของพารามิเตอร์หรือแม่นยำยิ่งขึ้นเพื่อกำหนดช่วงเวลาที่ค่าจริงอยู่ภายใน ของพารามิเตอร์สามารถระบุตำแหน่งได้ด้วยความน่าจะเป็นที่กำหนด ทีปรากฎว่าสามารถสร้างช่วงเวลาดังกล่าวได้โดยใช้สิ่งที่เรียกว่า ที-การทดสอบ ทีเพื่อสร้าง - การทดสอบจำเป็นต้องมีสมมติฐานเกี่ยวกับความเป็นปกติขององค์ประกอบสุ่มนั่นคือ- การทดสอบใช้ภายในกรอบสมมติฐาน ทีการถดถอยเชิงเส้นปกติแบบคลาสสิก - เมื่อใช้การทดสอบ t คุณสามารถทดสอบสมมติฐานเกี่ยวกับทั้งค่าตัวเลขของสัมประสิทธิ์การถดถอยและค่าของชุดค่าผสมเชิงเส้นอย่างหลังมีความสำคัญอย่างยิ่งในการตัดสินความเพียงพอของแบบจำลองการถดถอยเชิงเส้นหลายตัว

ที- การทดสอบยังช่วยให้คุณสร้างได้ ช่วงความมั่นใจ

สำหรับค่าสัมประสิทธิ์การถดถอยและค่าทำนายของตัวแปรตาม.

- การทดสอบขึ้นอยู่กับข้อความสำคัญต่อไปนี้:

ตัวแปรสุ่ม

ปฏิบัติตามการกระจายตัวของนักเรียนส่วนกลาง (การแจกแจงแบบ t ดังนั้นชื่อ - แบบทดสอบ) ด้วยระดับความเป็นอิสระ (n-2)

หมายเหตุเกี่ยวกับระดับความเป็นอิสระ จำนวนระดับความเป็นอิสระเท่ากับจำนวนการสังเกตของตัวแปรลบด้วยจำนวนสัมประสิทธิ์แบบจำลองโดยประมาณ ในแบบจำลองการถดถอยเชิงเส้นคู่จะมีค่าสัมประสิทธิ์ดังกล่าวเพียงสองค่าเท่านั้นหรือความน่าเชื่อถือ ค่า - ความน่าจะเป็นที่ข้อผิดพลาดจะอยู่นอกช่วงเวลาที่กำหนดเรียกว่า.

ระดับความสำคัญ

ความสัมพันธ์ (), () สามารถเขียนใหม่ได้ในรูปแบบ

การตีความช่วงความเชื่อมั่น , นิพจน์ (), () ได้รับการตีความดังนี้: ค่าคือความน่าจะเป็นที่พารามิเตอร์ที่ไม่ใช่แบบสุ่มโดยประมาณและครอบคลุมตามลำดับตามช่วงเวลา กและ ข.

ด้วยการสิ้นสุดแบบสุ่มขึ้นอยู่กับตัวแปรสุ่ม - การประมาณค่า ช่วงเวลาเหล่านี้เรียกว่าช่วงความมั่นใจ - ช่วงความเชื่อมั่นเรียกอีกอย่างว่าการประมาณช่วงเวลา

และเสริมการประมาณค่าพารามิเตอร์จุด การประมาณช่วงจะให้ข้อมูลเพิ่มเติมที่มีคุณค่าเกี่ยวกับความน่าเชื่อถือของการประมาณจุด และสามารถปรับปรุงความน่าเชื่อถือของการตัดสินเกี่ยวกับการประมาณจุดได้

การกำหนดช่วงความเชื่อมั่น ทีเพื่อกำหนดช่วงความเชื่อมั่น ให้ใช้ ที- สถิตินักศึกษาในรูปแบบ (), () สำหรับสถิติ ที(มี ที-distribution) คุณสามารถกำหนดค่าได้ (จากตาราง -เกณฑ์) ที่สอดคล้องกับระดับความสำคัญที่กำหนดและระดับความเป็นอิสระที่กำหนด (ที่นี่พี - จำนวนองศาอิสระ โดยมี 2 พารามิเตอร์พี = 2

) เช่นนั้น โดยมีความน่าจะเป็นที่จะครอบคลุมค่าจริงที่ไม่รู้จักของพารามิเตอร์การถดถอย และและ ตำแหน่งและความกว้างของช่วงความเชื่อมั่นแตกต่างกันไปในแต่ละตัวอย่าง แท้จริงแล้วตำแหน่งและความกว้างขึ้นอยู่กับการประมาณค่าสัมประสิทธิ์ซึ่งเป็นตัวแปร (ตัวแปรสุ่ม) และค่าสุ่มของการประมาณค่าตัวอย่างของส่วนเบี่ยงเบนมาตรฐานส สข- เมื่อสร้างแบบจำลองการถดถอยทางเศรษฐมิติ โดยปกติแล้วช่วงความเชื่อมั่นจะถูกกำหนดสำหรับนัยสำคัญสองระดับ - และ ตามที่พวกเขาพูดคุยเกี่ยวกับระดับนัยสำคัญ 5% หรือประมาณระดับนัยสำคัญ 1%

- ความน่าจะเป็นของความเชื่อมั่น (ระดับความเชื่อมั่น) จะเท่ากับ และ

ตามที่พวกเขาพูดคุยเกี่ยวกับ

ระดับความเชื่อมั่น 95% หรือประมาณ 99% (ความน่าเชื่อถือ)- เราเน้นว่ายิ่งระดับความสำคัญต่ำลง (ระดับความเชื่อมั่นยิ่งสูง) ช่วงความเชื่อมั่นที่สอดคล้องกันก็จะยิ่งกว้างขึ้น (สิ่งอื่นๆ ทั้งหมดเท่ากัน) x- ไม่ใช่ตัวแปรสุ่ม จากนั้นการประมาณค่าความแปรปรวนของค่าคงเหลือและค่าสัมประสิทธิ์การถดถอยจะคำนวณโดยใช้สูตร (), (), () มีค่าเท่ากันตามลำดับ: , , - ค่าตาราง ที- สถิติ 13 องศาความเป็นอิสระ และระดับนัยสำคัญ คือ 2.160 การใช้ข้อมูลเหล่านี้ทำให้ง่ายต่อการคำนวณขอบเขตของช่วงความเชื่อมั่นสำหรับสัมประสิทธิ์และ: ; - ดังนั้นจึงอาจเป็นที่ถกเถียงกันอยู่ว่าค่าที่แท้จริงของสัมประสิทธิ์ที่มีความน่าจะเป็น 0.95 อยู่ภายในขอบเขตที่กำหนด

ตัวอย่างที่ 2.7

ช่วงความเชื่อมั่นสำหรับแบบจำลองตัวอย่างที่ 2.2เช่นเดียวกับตัวอย่างก่อนหน้านี้ คุณสามารถกำหนดขอบเขตของช่วงความเชื่อมั่นสำหรับการถดถอยทั้งสองของตัวอย่าง 2.2 ได้ ค่าวิกฤต ที- สถิติในระดับนัยสำคัญ 0,05 และ พี = 12 - 2 = 10องศาอิสระก็เท่ากัน 2,228 - ค่าเบี่ยงเบนมาตรฐานโดยประมาณของการประมาณค่าสัมประสิทธิ์การถดถอยครั้งแรกมีค่าเท่ากับ ส ก = 0.2887, ส ข = 0.2961- ช่วงความเชื่อมั่นสำหรับค่าสัมประสิทธิ์: , . สำหรับการถดถอยครั้งที่สอง ส ก = 2.7334, ส ข = 0.2516- ช่วงความเชื่อมั่น: , .

สร้างช่วงความเชื่อมั่นสำหรับแบบจำลองตัวอย่างที่ 2.1, 2.2

ในระดับนัยสำคัญ

2.4.3. การพยากรณ์จุดและช่วงเวลาของตัวแปรตาม

ที่ไหน xเรากำหนดการพยากรณ์ค่าเฉลี่ยของตัวแปรตามเป็นการประมาณความสัมพันธ์ทางทฤษฎีโดยใช้ฟังก์ชันการถดถอยเชิงประจักษ์ (ประมาณ) กและ ข- ค่าหนึ่งของตัวแปรอิสระโดยทั่วไปซึ่งไม่ตรงกับค่าของตัวแปรจากตัวอย่างที่ใช้ประมาณค่าพารามิเตอร์การถดถอย

เนื่องจากมีการประมาณการ

- ตัวแปรสุ่ม จากนั้นการพยากรณ์จะเป็นตัวแปรสุ่ม ความคิดเห็น การพยากรณ์ค่าเฉลี่ยและการทำนายค่าแต่ละค่าของตัวแปรตามมีความจำเป็นต้องแยกแยะการคาดการณ์ค่าเฉลี่ยของตัวถดถอยเป็นการประมาณค่าความคาดหวังทางคณิตศาสตร์โดยคำนึงถึงสถานที่ตั้ง ม(คุณ ผม) = 0(เงื่อนไขเกาส์-มาร์คอฟแรก) และการพยากรณ์เป็นการประเมินมูลค่าส่วนบุคคลที่เป็นไปได้ (การตระหนักรู้) ใช่แล้วการถดถอย

ย

- ในกรณีนี้ ควรเพิ่มการพยากรณ์องค์ประกอบสุ่มของแบบจำลองลงในสมการ () ค่าทำนายขององค์ประกอบสุ่มจะถือเป็นค่าคาดหวังทางคณิตศาสตร์ ซึ่งเท่ากับศูนย์ ความแตกต่างในการทำความเข้าใจความหมายของการคาดการณ์มีความสำคัญ เนื่องจากความแปรปรวนของข้อผิดพลาดในการคาดการณ์ที่เกี่ยวข้องและช่วงความเชื่อมั่นจะแตกต่างกัน

เมื่อหาสมการสำหรับความแปรปรวนและประมาณค่า เราจะใช้กฎสำหรับการแปลงรูปแบบทางทฤษฎี (การกระจายตัว) และความแปรปรวนร่วมของตัวแปรสุ่ม กฎเหล่านี้เหมือนกับลักษณะตัวอย่างที่เกี่ยวข้องซึ่งกำหนดไว้ในส่วนที่ 2.3.2 ในการเขียนค่าทางทฤษฎีของการแปรผันและความแปรปรวนร่วม เราจะใช้สัญกรณ์ var(,), cov(,).

ขอให้เราได้รับนิพจน์สำหรับความแปรปรวนการคาดการณ์ เรามี

ในที่สุดเราก็มี

โปรดทราบว่าในนิพจน์ () ตัวแปร x- นี่คือค่าของตัวถดถอย (ตัวแปรอิสระ) ซึ่งคาดการณ์ค่าเฉลี่ยของตัวแปรตาม (ตัวถดถอย) เนื่องจากใน () ไม่ทราบค่าทางทฤษฎีของความแปรปรวนขององค์ประกอบสุ่มของแบบจำลอง เพื่อให้ได้ค่าประมาณของความแปรปรวนการคาดการณ์ เราจึงแทนที่ค่าดังกล่าวด้วยการประมาณโดยใช้สูตร () แล้วเราก็ได้

การกำหนดช่วงความเชื่อมั่นเพื่อทำนายค่าเฉลี่ยของตัวแปรตาม

เรามากำหนดช่วงความเชื่อมั่นสำหรับการพยากรณ์ () ของตัวแปรตามกัน ช่วงนี้น่าจะครอบคลุมค่าเฉลี่ยของตัวแปรตาม การสร้างช่วงความเชื่อมั่นจะขึ้นอยู่กับการใช้สถิติแบบ t ของแบบฟอร์ม

ขีด จำกัด บน

เห็นได้ชัดว่า

ช่วงความเชื่อมั่นสำหรับแต่ละค่าของตัวแปรตาม

ช่วงความเชื่อมั่นสำหรับแต่ละค่าถูกสร้างขึ้นโดยใช้ ที-สถิติของประเภท

ขีด จำกัด บน

จำนวนองศาอิสระอยู่ที่ไหน พี=n-2.

ตัวอย่างที่ 2.8 ขีดจำกัดความเชื่อมั่นสำหรับการคาดการณ์ค่าเฉลี่ยและค่าแต่ละค่าของตัวแปรตามในแบบจำลองตัวอย่างที่ 2.1

เรามาพิจารณาการคาดการณ์ความสามารถในการทำกำไรของหุ้นของบริษัทในขณะนี้กันดีกว่า เสื้อ = 3นั่นคือสำหรับค่า x = x 3 = 0.07และสร้างช่วงความเชื่อมั่นสำหรับการพยากรณ์ค่าเฉลี่ยและค่าแต่ละค่า โดยสมมติว่าตัวถดถอย x- ไม่ใช่ตัวแปรสุ่ม

เราได้โดยใช้สมการการถดถอยที่มีค่าสัมประสิทธิ์โดยประมาณ (ดูตัวอย่าง 1.1.)

ในการกำหนดช่วงความเชื่อมั่น จำเป็นต้องคำนวณค่าประมาณของความแปรปรวนการคาดการณ์ของค่าเฉลี่ยและค่าแต่ละค่าของตัวแปรตามก่อน การใช้สูตร () และ () เราได้รับตามลำดับ: , . ขีดจำกัดสำหรับค่าเฉลี่ยคือ:

ต่ำกว่า

สูงสุด

สร้างการพยากรณ์ช่วงเวลาของค่าเฉลี่ยและค่าแต่ละค่าของตัวแปรตามสำหรับการถดถอยของตัวอย่างที่ 2.2

2.4.4. การทดสอบสมมติฐานทางสถิติเกี่ยวกับสัมประสิทธิ์การถดถอย

การทดสอบแบบสองด้าน
(t - ทดสอบสมมติฐานคู่สองด้าน)

นอกเหนือจากการกำหนดช่วงความเชื่อมั่นสำหรับค่าสัมประสิทธิ์แล้ว เมื่อสร้างแบบจำลองการถดถอย สิ่งสำคัญคือต้องทดสอบสมมติฐานเกี่ยวกับค่าเฉพาะบางอย่างของสัมประสิทธิ์การถดถอยแต่ละรายการ คำถามนี้เกิดขึ้น เช่น หากจำเป็นต้องตรวจสอบว่าอิทธิพลของตัวถดถอย (ตัวแปรอิสระ) ต่อตัวถดถอย (ตัวแปรตาม) มีนัยสำคัญทางสถิติหรือไม่

ในกรณีนี้ เราสามารถกำหนดและลองทดสอบสมมติฐานได้สองข้อ:

สมมติฐานว่าง

โดยทั่วไป หากตามการวิเคราะห์ของวัตถุการสร้างแบบจำลอง มีความเป็นไปได้ที่จะสันนิษฐานล่วงหน้า (นั่นคือ ก่อนทำการสังเกตด้วยซ้ำ) ว่าสัมประสิทธิ์การถดถอยเท่ากับค่าที่กำหนด จากนั้นเพื่อทดสอบสมมติฐานนี้ สมมติฐานคือ จัดทำขึ้นดังนี้:

กฎการตัดสินใจตามสถิติสถิติ () มีดังนี้: สมมติฐาน H 0 ถูกปฏิเสธถ้า

(สัญกรณ์เทียบเท่าของเงื่อนไขนี้);

สมมติฐาน H 0 เป็นที่ยอมรับถ้า

(สัญกรณ์เทียบเท่า) ช่วงของค่าสถิติ t ที่ระบุโดยนิพจน์ () เรียกว่าช่วงของการปฏิเสธสมมติฐาน H0 ช่วงของค่าสถิติ t ที่ระบุโดยนิพจน์ () เรียกว่าช่วงของการปฏิเสธสมมติฐานและพื้นที่ () คือพื้นที่ที่ยอมรับสมมติฐาน

ในระดับนัยสำคัญ

ข้อผิดพลาดประเภท I และ II ทีเมื่อทดสอบและยอมรับสมมติฐาน มีความเสี่ยงที่จะเกิดข้อผิดพลาดประเภท I และประเภท II ทีข้อผิดพลาดประเภทที่ 1 เกิดขึ้นเมื่อสมมติฐานว่างเป็นจริงแต่ถูกปฏิเสธ

จำนวนผู้ดู* 100% = % ของการเข้าชม (3.1)

จำนวนที่นั่ง * จำนวนการแสดง

โวโรเนจ

อิวาโนโว

ซามารา