ชีวประวัติ ลักษณะเฉพาะ การวิเคราะห์

ตัวอย่างการถดถอยเชิงเส้นพหุคูณ วิธีแก้ปัญหาโดยใช้สเปรดชีต Excel

ฉันมีชั้นวางหนังสือขนาดใหญ่ รวมหนังสือมากมาย แบ่งเป็นหลายประเภท ชั้นบนสุดมีหนังสือเกี่ยวกับศาสนา เช่น หนังสือฟิกห์ หนังสือเตาฮิด หนังสือตะซาวัฟ หนังสือนะฮฺวู ฯลฯ เรียงกันเป็นระเบียบหลายแถวและบางเล่มเรียงเป็นระเบียบตามใจคนเขียน ในระดับที่สองคือหนังสือเรียนของฉัน เช่น หนังสือไวยากรณ์ หนังสือการเขียน หนังสือ TOEFL เป็นต้น สิ่งเหล่านี้จัดเรียงตามขนาด บนชั้นวางถัดไปมีหลายชนิด ทางวิทยาศาสตร์และหนังสือความรู้ เช่น ปรัชญา การเมือง ประวัติศาสตร์ เป็นต้น มีสามระดับสำหรับสิ่งเหล่านี้ ในที่สุด ที่ด้านล่างของชั้นหนังสือของฉันคือพจนานุกรม พวกมันคือพจนานุกรมภาษาอาหรับ พจนานุกรมภาษาอังกฤษ รวมทั้งพจนานุกรมภาษาชาวอินโดนีเซีย ชั้นหนังสือขนาดใหญ่ของฉันมีหกชั้นและเรียงกันเป็นแถวหลายชั้น ระดับแรกประกอบด้วยหนังสือทางศาสนา ระดับที่สองประกอบด้วยหนังสือที่ขยันหมั่นเพียร ระดับที่มีสามระดับประกอบด้วยหนังสือทางวิทยาศาสตร์และความรู้หลายประเภท และระดับสุดท้ายประกอบด้วยพจนานุกรม ในระยะสั้นฉันรักชั้นหนังสือของฉัน

คำสั่งเฉพาะกับคำสั่งทั่วไป

ทักษะที่จำเป็นในการเขียนมีตั้งแต่การทำเครื่องหมายกราฟิกที่เหมาะสม การใช้ทรัพยากรของภาษาที่เลือก ไปจนถึงการคาดคะเนปฏิกิริยาของผู้อ่านที่ต้องการ ทักษะด้านแรกเกี่ยวข้องกับการได้มาซึ่งระบบการเขียนซึ่งอาจเป็นตัวอักษร (เช่นในภาษายุโรป) หรือไม่ใช่ตัวอักษร (เช่นเดียวกับภาษาในเอเชียหลาย ๆ ภาษา) พื้นที่ทักษะที่สองต้องเลือกไวยากรณ์และคำศัพท์ที่เหมาะสมเพื่อสร้างประโยคที่ยอมรับได้ จากนั้นจัดเรียงเป็นย่อหน้า ประการที่สาม การเขียนเกี่ยวข้องกับการคิดเกี่ยวกับจุดประสงค์ของข้อความที่จะแต่งและเกี่ยวกับผลกระทบที่เป็นไปได้ต่อผู้อ่านที่ตั้งใจไว้ สิ่งสำคัญอย่างหนึ่งของคุณสมบัติสุดท้ายนี้คือการเลือกสไตล์ที่เหมาะสม การเขียนเป็นกระบวนการทางความคิดทางสังคมที่ซับซ้อนซึ่งแตกต่างจากการพูด ซึ่งต้องได้รับผ่านการฝึกอบรมหรือการศึกษาเป็นเวลาหลายปี (สเวลล์และเฟค, 2537, หน้า 34)

คำสั่งทั่วไปถึงเฉพาะ

"การทำงานพาร์ทไทม์เป็นแคชเชียร์ที่ Piggly Wiggly ทำให้ฉันมีโอกาสที่ดีในการสังเกตพฤติกรรมของมนุษย์ บางครั้งฉันคิดว่าผู้ซื้อเป็นเหมือนหนูขาวในห้องทดลอง และทางเดินเป็นเหมือนเขาวงกตที่ออกแบบโดยนักจิตวิทยา ส่วนใหญ่ หนู - ลูกค้า ฉันหมายถึง - ทำตามรูปแบบกิจวัตร เดินขึ้นลงตามทางเดิน ตรวจสอบรางน้ำของฉัน แล้วหนีออกไปทางประตูทางออก "

มีหลายปัจจัยที่ส่งผลให้นักเรียนประสบความสำเร็จในวิทยาลัย ปัจจัยแรกคือการมีเป้าหมายในใจก่อนกำหนดหลักสูตรการศึกษา เป้าหมายอาจกว้างพอๆ กับที่ต้องการให้การศึกษาตนเองดีขึ้นสำหรับอนาคต เป้าหมายที่เจาะจงมากขึ้นคือการได้รับใบรับรองการสอน ปัจจัยที่สองที่เกี่ยวข้องกับความสำเร็จของนักเรียนคือแรงจูงใจในตนเองและความมุ่งมั่น นักเรียนที่ต้องการประสบความสำเร็จและมุ่งไปสู่ความปรารถนานี้จะพบกับความสำเร็จได้อย่างง่ายดายในฐานะนักศึกษา ปัจจัยที่สามที่เชื่อมโยงกับความสำเร็จของนักเรียนคือการใช้บริการของวิทยาลัย นักศึกษาระดับเริ่มต้นส่วนใหญ่ไม่เข้าใจความสำคัญของการพบที่ปรึกษาหรือปรึกษากับบรรณารักษ์หรือเจ้าหน้าที่ช่วยเหลือทางการเงิน

มีสามเหตุผลที่แคนาดาเป็นหนึ่งในนั้น ที่สุดประเทศต่างๆ ในโลก ประการแรก แคนาดามีบริการด้านสุขภาพที่ดีเยี่ยม ชาวแคนาดาทุกคนสามารถเข้าถึงบริการทางการแพทย์ได้ในราคาที่เหมาะสม ประการที่สอง แคนาดามีมาตรฐานการศึกษาที่สูง นักเรียนจะได้รับการสอนให้เป็นครูที่ได้รับการฝึกฝนมาเป็นอย่างดีและได้รับการสนับสนุนให้เรียนต่อในมหาวิทยาลัย ในที่สุด เมืองต่างๆ ของแคนาดาก็สะอาดและเป็นระเบียบอย่างมีประสิทธิภาพ เมืองต่างๆ ของแคนาดามีสวนสาธารณะมากมายและมีพื้นที่มากมายให้ผู้คนได้อยู่อาศัย เป็นผลให้แคนาดาเป็นสถานที่ที่น่าอยู่

ยอร์กถูกตั้งข้อหาโดยทหารเยอรมัน 6 นายที่เข้ามาหาเขาพร้อมกับดาบปลายปืนที่ตายตัว เขาชักลูกประคำใส่ชายคนที่หก ไล่ออก และตามด้วยชายคนที่ห้า เขาทำงานไปตามขั้นตอน และก่อนที่เขาจะรู้ตัว ชายคนแรกก็อยู่เพียงลำพัง ยอร์คฆ่าเขาด้วยกระสุนนัดเดียว

ขณะที่เขามองไปรอบๆ วิทยาเขตซึ่งแทบจะไม่เปลี่ยนแปลง เขารู้สึกโล่งใจกับช่วงเวลาเหล่านั้นที่เขาใช้ไปกับแนนซี่ เขาจำได้ว่าพวกเขาสองคนจะนั่งข้างสระน้ำ คุยกันไม่รู้จบขณะที่พวกเขาให้อาหารปลา และวิธีที่พวกเขาจะเดินไปด้วยกัน หลงทางอยู่ในโลกของตัวเอง ใช่ แนนซี่เป็นหนึ่งในเพื่อนไม่กี่คนที่เขาเคยมี ….จู่ๆ เขาก็รู้สึกคิดถึงตอนที่เขานึกถึงตอนบ่ายวันนั้นที่เขาอำลาแนนซี่ไปแล้ว เขาสูดจมูกเสียงดังในขณะที่ดวงตาของเขาเต็มไปด้วยน้ำตา

ตัวอย่างการแก้ปัญหาการถดถอยพหุคูณ

ตัวอย่างที่ 1สมการถดถอยที่สร้างขึ้นจากการสังเกต 17 ครั้ง มีรูปแบบดังนี้

จัดเรียงค่าที่หายไป รวมทั้งสร้างช่วงความเชื่อมั่นสำหรับ ข 2ด้วยความน่าจะเป็น 0.99

การตัดสินใจ.ค่าที่ขาดหายไปถูกกำหนดโดยใช้สูตร:

ดังนั้น สมการถดถอยที่มีลักษณะทางสถิติจะเป็นดังนี้:

ช่วงความเชื่อมั่นสำหรับ ข 2สร้างตามสูตรที่ตรงกัน ที่นี่ระดับนัยสำคัญคือ 0.01 และจำนวนองศาอิสระคือ หน้า– 1 = 17 – 3 – 1 = 13 โดยที่ = 17 – ขนาดตัวอย่าง หน้า= 3 คือจำนวนตัวประกอบในสมการถดถอย จากที่นี่

หรือ . ช่วงความเชื่อมั่นนี้ครอบคลุมค่าจริงของพารามิเตอร์ที่มีความน่าจะเป็น 0.99

ตัวอย่างที่ 2สมการถดถอยในตัวแปรมาตรฐานมีลักษณะดังนี้:

ในกรณีนี้ การแปรผันของตัวแปรทั้งหมดจะเท่ากับค่าต่อไปนี้:

เปรียบเทียบปัจจัยตามระดับของอิทธิพลต่อคุณลักษณะที่เป็นผลลัพธ์และกำหนดค่าของค่าสัมประสิทธิ์ความยืดหยุ่นบางส่วน

การตัดสินใจ.สมการถดถอยที่เป็นมาตรฐานทำให้คุณสามารถเปรียบเทียบปัจจัยต่างๆ ตามความแรงของอิทธิพลที่มีต่อผลลัพธ์ ในเวลาเดียวกัน ยิ่งค่าสัมบูรณ์ของค่าสัมประสิทธิ์ของตัวแปรมาตรฐานยิ่งมาก ปัจจัยนี้ยิ่งส่งผลต่อลักษณะผลลัพธ์มากเท่านั้น ในสมการที่กำลังพิจารณา ปัจจัยที่มีอิทธิพลมากที่สุดในผลลัพธ์คือ x 1ซึ่งมีค่าสัมประสิทธิ์ 0.82 ปัจจัยที่อ่อนแอที่สุดคือ x 3ด้วยค่าสัมประสิทธิ์เท่ากับ - 0.43

ในแบบจำลองการถดถอยพหุคูณเชิงเส้น ค่าสัมประสิทธิ์ทั่วไป (ค่าเฉลี่ย) ของความยืดหยุ่นบางส่วนถูกกำหนดโดยนิพจน์ที่รวมค่าเฉลี่ยของตัวแปรและค่าสัมประสิทธิ์ที่ปัจจัยที่สอดคล้องกันของสมการถดถอยมาตราส่วนตามธรรมชาติ ในเงื่อนไขของปัญหา ไม่ได้ระบุปริมาณเหล่านี้ ดังนั้นเราจึงใช้นิพจน์สำหรับการแปรผันตามตัวแปร:

อัตราต่อรอง บีเจเกี่ยวข้องกับค่าสัมประสิทธิ์มาตรฐาน เบต้าเจอัตราส่วนที่เกี่ยวข้องซึ่งเราแทนค่าสัมประสิทธิ์เฉลี่ยของความยืดหยุ่นในสูตร:

.

ในกรณีนี้ เครื่องหมายของค่าสัมประสิทธิ์ความยืดหยุ่นจะตรงกับเครื่องหมาย เบต้าเจ:

ตัวอย่างที่ 3จากการสังเกต 32 ครั้ง ได้ข้อมูลต่อไปนี้:

กำหนดค่าของค่าสัมประสิทธิ์การกำหนดค่าสัมประสิทธิ์บางส่วนของความยืดหยุ่นและพารามิเตอร์ .

การตัดสินใจ.ค่าของค่าสัมประสิทธิ์การกำหนดที่ปรับปรุงแล้วถูกกำหนดโดยหนึ่งในสูตรสำหรับการคำนวณ:

ค่าสัมประสิทธิ์ความยืดหยุ่นบางส่วน (ค่าเฉลี่ยของประชากร) คำนวณโดยใช้สูตรที่เหมาะสม:

เนื่องจากสมการเชิงเส้นของการถดถอยพหุคูณดำเนินการโดยการแทนค่าเฉลี่ยของตัวแปรทั้งหมดลงไปเราจึงกำหนดพารามิเตอร์ :

ตัวอย่างที่ 4สำหรับตัวแปรบางตัว จะมีสถิติดังต่อไปนี้:

สร้างสมการถดถอยในระดับมาตรฐานและเป็นธรรมชาติ

การตัดสินใจ.เนื่องจากในตอนแรกทราบค่าสัมประสิทธิ์สหสัมพันธ์แบบคู่ระหว่างตัวแปรแล้ว เราควรเริ่มต้นด้วยการสร้างสมการถดถอยในระดับมาตรฐาน ในการทำเช่นนี้จำเป็นต้องแก้ระบบสมการปกติที่สอดคล้องกันซึ่งในกรณีของสองปัจจัยจะมีรูปแบบ:

หรือหลังจากแทนที่ข้อมูลเริ่มต้นแล้ว:

เราแก้ไขระบบนี้ด้วยวิธีใดก็ตาม เราได้รับ: β1 = 0,3076, เบต้า2 = 0,62.

ลองเขียนสมการถดถอยในระดับมาตรฐาน:

ทีนี้ มาดูสมการถดถอยมาตราส่วนตามธรรมชาติ ซึ่งเราใช้สูตรสำหรับคำนวณค่าสัมประสิทธิ์การถดถอยผ่านค่าสัมประสิทธิ์เบต้าและคุณสมบัติความเป็นธรรมของสมการถดถอยสำหรับตัวแปรค่าเฉลี่ย:

สมการการถดถอยมาตราส่วนตามธรรมชาติคือ:

ตัวอย่างที่ 5เมื่อสร้างการถดถอยพหุคูณเชิงเส้น สำหรับการวัด 48 ครั้ง ค่าสัมประสิทธิ์ของการกำหนดเท่ากับ 0.578 หลังจากกำจัดปัจจัย x 3, x 7และ x 8ค่าสัมประสิทธิ์ของการกำหนดลดลงเป็น 0.495 การตัดสินใจเปลี่ยนองค์ประกอบของตัวแปรที่มีอิทธิพลที่ระดับนัยสำคัญที่ 0.1, 0.05 และ 0.01 นั้นสมเหตุสมผลหรือไม่

การตัดสินใจ.ให้ - ค่าสัมประสิทธิ์ของการกำหนดสมการการถดถอยด้วยชุดของปัจจัยเริ่มต้น - ค่าสัมประสิทธิ์ของการกำหนดหลังจากการยกเว้นปัจจัยสามประการ เราตั้งสมมติฐาน:

;

สมมติฐานหลักชี้ให้เห็นว่าการลดลงของขนาดนั้นไม่มีนัยสำคัญ และการตัดสินใจที่จะไม่รวมกลุ่มของปัจจัยนั้นถูกต้อง สมมติฐานทางเลือกบ่งชี้ความถูกต้องของการตัดสินใจที่จะไม่รวม

ในการทดสอบสมมติฐานว่าง เราใช้สถิติต่อไปนี้:

,

ที่ไหน = 48, หน้า= 10 - จำนวนตัวประกอบเริ่มต้น เค= 3 - จำนวนปัจจัยที่ไม่รวม แล้ว

ลองเปรียบเทียบค่าที่ได้รับกับค่าวิกฤต (α ; 3; 39) ที่ระดับ 0.1; 0.05 และ 0.01:

(0,1; 3; 37) = 2,238;

(0,05; 3; 37) = 2,86;

(0,01; 3; 37) = 4,36.

ในระดับ α = 0,1 F obl > F cr, ศูนย์ - สมมติฐานถูกปฏิเสธ, การยกเว้นกลุ่มของปัจจัยนี้ไม่ถูกต้อง, ที่ระดับ 0.05 0.01 ศูนย์ - สมมติฐานไม่สามารถปฏิเสธได้, และการยกเว้นปัจจัยสามารถพิจารณาได้ว่าชอบธรรม

ตัวอย่างที่ 6. จากข้อมูลรายไตรมาสตั้งแต่ปี 2543 ถึง 2547 จะได้สมการ ในขณะเดียวกัน ESS=110.3, RSS=21.4 (ESS – อธิบาย RMSE, RSS – RMSE ที่เหลือ) มีการเพิ่มตัวแปรจำลองสามตัวลงในสมการ ซึ่งสอดคล้องกับสามไตรมาสแรกของปี และค่า ESS เพิ่มขึ้นเป็น 120.2 มีฤดูกาลในสมการนี้หรือไม่?

การตัดสินใจ. นี่เป็นงานตรวจสอบความถูกต้องของการรวมกลุ่มของปัจจัยในสมการถดถอยพหุคูณ มีการเพิ่มตัวแปรสามตัวในสมการสามปัจจัยดั้งเดิมเพื่อแสดงถึงสามไตรมาสแรกของปี

ให้เรากำหนดค่าสัมประสิทธิ์ของการกำหนดสมการ ค่าเบี่ยงเบนมาตรฐานรวมหมายถึงผลรวมของค่าเบี่ยงเบนมาตรฐานแฟกทอเรียลและส่วนที่เหลือ:

TSS = ESS 1 + RSS 1 = 110.3 + 21.4 = 131.7

เราทดสอบสมมติฐาน ในการทดสอบสมมติฐานว่าง เราใช้สถิติ

ที่นี่ = 20 (20 ไตรมาสในห้าปี - ตั้งแต่ปี 2543 ถึง 2547) หน้า = 6 (ทั้งหมดปัจจัยในสมการถดถอยหลังจากรวมปัจจัยใหม่) เค= 3 (จำนวนปัจจัยรวม) ทางนี้:

ให้เรากำหนดค่าวิกฤตของสถิติ Fisher ที่ระดับความสำคัญต่างๆ:

ที่ระดับนัยสำคัญ 0.1 และ 0.05 F obl> F cr, ศูนย์ - สมมติฐานถูกปฏิเสธเพื่อสนับสนุนทางเลือกอื่นและฤดูกาลในการถดถอยนั้นสมเหตุสมผล (การเพิ่มปัจจัยใหม่สามประการนั้นสมเหตุสมผล) และที่ระดับ 0.01 F obl< F cr, และศูนย์ – ไม่สามารถปฏิเสธสมมติฐานได้; การเพิ่มปัจจัยใหม่นั้นไม่สมเหตุสมผล ฤดูกาลในการถดถอยนั้นไม่มีนัยสำคัญ

ตัวอย่างที่ 7เมื่อวิเคราะห์ข้อมูลสำหรับ heteroscedasticity ตัวอย่างทั้งหมดจะถูกแบ่งออกเป็นสามตัวอย่างย่อยหลังจากเรียงลำดับตามปัจจัยอย่างใดอย่างหนึ่ง จากนั้น จากผลของการวิเคราะห์การถดถอยแบบสามทาง พบว่าค่า SD ที่เหลือในตัวอย่างย่อยแรกคือ 180 และในตัวอย่างที่สาม - 63 การมีอยู่ของ heteroscedasticity ได้รับการยืนยันหรือไม่หากปริมาณข้อมูลในแต่ละตัวอย่างย่อยคือ 20 ?

การตัดสินใจ. คำนวณสถิติเพื่อทดสอบสมมติฐานว่างของภาวะรักร่วมเพศโดยใช้การทดสอบ Goldfeld–Quandt:

.

ค้นหาค่าวิกฤตของสถิติ Fisher:

ดังนั้น ที่ระดับนัยสำคัญ 0.1 และ 0.05 F obl> F cr, และ heteroscedasticity เกิดขึ้น และที่ระดับ 0.01 F obl< F crและไม่สามารถปฏิเสธสมมติฐานเรื่องรักร่วมเพศได้

ตัวอย่างที่ 8. จากข้อมูลรายไตรมาส จะได้สมการถดถอยพหุคูณซึ่ง ESS = 120.32 และ RSS = 41.4 สำหรับโมเดลเดียวกัน การถดถอยถูกดำเนินการแยกกันตามข้อมูลต่อไปนี้: ไตรมาส 1 ปี 1991 - 1995 ไตรมาส 1 และ 1995 ไตรมาส 2 - 1996 ไตรมาส 4 ในการถดถอยเหล่านี้ RMSE ที่เหลือตามลำดับคือ 22.25 และ 12.32 ทดสอบสมมติฐานเกี่ยวกับการมีอยู่ของการเปลี่ยนแปลงโครงสร้างในตัวอย่าง

การตัดสินใจ. ปัญหาของการเปลี่ยนแปลงโครงสร้างในตัวอย่างสามารถแก้ไขได้โดยใช้การทดสอบ Chow

สมมติฐานมีรูปแบบ: ที่ไหน s0, ส 1และ เอส2คือค่าเบี่ยงเบนมาตรฐานที่เหลือสำหรับสมการเดียวสำหรับตัวอย่างทั้งหมด และสมการถดถอยสำหรับสองตัวอย่างย่อยของตัวอย่างทั้งหมด ตามลำดับ สมมติฐานหลักปฏิเสธการมีอยู่ของการเปลี่ยนแปลงโครงสร้างในตัวอย่าง ในการทดสอบสมมติฐานว่าง สถิติจะถูกคำนวณ ( = 24; หน้า = 3):

เนื่องจาก F เป็นสถิติที่น้อยกว่าหนึ่ง ค่าว่างหมายความว่าสมมติฐานนี้ไม่สามารถปฏิเสธได้ไม่ว่าจะมีนัยสำคัญระดับใดก็ตาม ตัวอย่างเช่น สำหรับระดับนัยสำคัญที่ 0.05

การวิเคราะห์การถดถอยเป็นวิธีการวิจัยทางสถิติที่ช่วยให้คุณแสดงการพึ่งพาของพารามิเตอร์กับตัวแปรอิสระตั้งแต่หนึ่งตัวขึ้นไป ในยุคก่อนมีคอมพิวเตอร์ การใช้งานค่อนข้างยาก โดยเฉพาะอย่างยิ่งเมื่อต้องใช้ข้อมูลจำนวนมาก วันนี้เมื่อเรียนรู้วิธีสร้างการถดถอยใน Excel แล้ว คุณสามารถแก้ปัญหาทางสถิติที่ซับซ้อนได้ในเวลาเพียงไม่กี่นาที ด้านล่างนี้คือ ตัวอย่างที่เป็นรูปธรรมจากสาขาวิชาเศรษฐศาสตร์

ประเภทของการถดถอย

แนวคิดนี้ได้รับการแนะนำในวิชาคณิตศาสตร์ในปี พ.ศ. 2429 การถดถอยเกิดขึ้น:

  • เชิงเส้น;
  • พาราโบลา;
  • พลัง;
  • ชี้แจง;
  • ไฮเปอร์โบลิก;
  • สาธิต;
  • ลอการิทึม

ตัวอย่างที่ 1

พิจารณาปัญหาในการพิจารณาการพึ่งพาจำนวนสมาชิกในทีมที่เกษียณจากเงินเดือนเฉลี่ยของสถานประกอบการอุตสาหกรรม 6 แห่ง

งาน. ที่องค์กร 6 แห่ง เราวิเคราะห์เงินเดือนเฉลี่ยต่อเดือนและจำนวนพนักงานที่ลาออกเนื่องจาก เจตจำนงของตัวเอง. ในรูปแบบตารางเรามี:

จำนวนคนที่จากไป

เงินเดือน

30,000 รูเบิล

35,000 รูเบิล

40,000 รูเบิล

45,000 รูเบิล

50,000 รูเบิล

55,000 รูเบิล

60,000 รูเบิล

สำหรับปัญหาในการพิจารณาการพึ่งพาจำนวนพนักงานที่เกษียณอายุกับเงินเดือนเฉลี่ยของ 6 องค์กร แบบจำลองการถดถอยมีรูปแบบของสมการ Y = a 0 + a 1 x 1 +…+a k x k โดยที่ x i เป็นตัวแปรที่มีอิทธิพล , a i คือสัมประสิทธิ์การถดถอย, k คือจำนวนตัวประกอบ

สำหรับงานนี้ Y คือตัวบ่งชี้ของพนักงานที่ออกไป และปัจจัยที่มีอิทธิพลคือเงินเดือน ซึ่งเราแทนด้วย X

การใช้ความสามารถของสเปรดชีต "Excel"

การวิเคราะห์การถดถอยใน Excel จะต้องนำหน้าด้วยการประยุกต์ใช้ฟังก์ชันที่มีอยู่แล้วภายในกับข้อมูลแบบตารางที่มีอยู่ อย่างไรก็ตาม สำหรับจุดประสงค์เหล่านี้ ควรใช้ Add-in "เครื่องมือวิเคราะห์" ที่มีประโยชน์มากจะดีกว่า ในการเปิดใช้งานคุณต้อง:

  • จากแท็บ "ไฟล์" ไปที่ส่วน "ตัวเลือก"
  • ในหน้าต่างที่เปิดขึ้นให้เลือกบรรทัด "ส่วนเสริม"
  • คลิกที่ปุ่ม "ไป" ที่ด้านล่างทางด้านขวาของบรรทัด "การจัดการ"
  • ทำเครื่องหมายที่ช่องถัดจากชื่อ "แพ็คเกจการวิเคราะห์" และยืนยันการดำเนินการของคุณโดยคลิก "ตกลง"

หากทำทุกอย่างถูกต้อง ปุ่มที่ต้องการจะปรากฏทางด้านขวาของแท็บข้อมูลซึ่งอยู่เหนือแผ่นงาน Excel

ในเอ็กเซล

ตอนนี้เรามีเครื่องมือเสมือนที่จำเป็นทั้งหมดสำหรับการคำนวณทางเศรษฐมิติแล้ว เราสามารถเริ่มแก้ปัญหาของเราได้ สำหรับสิ่งนี้:

  • คลิกที่ปุ่ม "การวิเคราะห์ข้อมูล";
  • ในหน้าต่างที่เปิดขึ้นให้คลิกที่ปุ่ม "การถดถอย"
  • ในแท็บที่ปรากฏขึ้น ให้ป้อนช่วงของค่าสำหรับ Y (จำนวนพนักงานที่ลาออก) และสำหรับ X (เงินเดือนของพวกเขา)
  • เรายืนยันการกระทำของเราโดยกดปุ่ม "ตกลง"

ผลลัพธ์คือ โปรแกรมจะเติมชีตใหม่ของสเปรดชีตโดยอัตโนมัติพร้อมข้อมูลการวิเคราะห์การถดถอย บันทึก! Excel มีความสามารถในการตั้งค่าตำแหน่งที่คุณต้องการสำหรับจุดประสงค์นี้ด้วยตนเอง ตัวอย่างเช่น อาจเป็นแผ่นงานเดียวกันโดยมีค่า Y และ X หรือแม้กระทั่ง หนังสือเล่มใหม่ออกแบบมาเป็นพิเศษสำหรับการจัดเก็บข้อมูลดังกล่าว

การวิเคราะห์ผลการถดถอยสำหรับ R-square

ใน Excel ข้อมูลที่ได้รับระหว่างการประมวลผลข้อมูลของตัวอย่างที่พิจารณาจะมีลักษณะดังนี้:

ก่อนอื่น คุณควรคำนึงถึงค่าของ R-square เป็นค่าสัมประสิทธิ์ของการกำหนด ในตัวอย่างนี้ R-square = 0.755 (75.5%) กล่าวคือ พารามิเตอร์ที่คำนวณได้ของแบบจำลองจะอธิบายความสัมพันธ์ระหว่างพารามิเตอร์ที่พิจารณาได้ 75.5% ยิ่งค่าสัมประสิทธิ์ของการกำหนดสูงเท่าใด โมเดลที่เลือกสำหรับงานเฉพาะก็ยิ่งมีความเกี่ยวข้องมากขึ้นเท่านั้น เชื่อว่าอธิบายสถานการณ์จริงที่มีค่า R-squared สูงกว่า 0.8 ได้อย่างถูกต้อง ถ้า R-กำลังสอง<0,5, то такой анализа регрессии в Excel нельзя считать резонным.

การวิเคราะห์อัตราส่วน

หมายเลข 64.1428 แสดงให้เห็นว่าค่าของ Y จะเป็นเท่าใดหากตัวแปร xi ทั้งหมดในแบบจำลองที่เรากำลังพิจารณาถูกกำหนดเป็นศูนย์ กล่าวอีกนัยหนึ่ง อาจกล่าวได้ว่าค่าของพารามิเตอร์ที่วิเคราะห์นั้นได้รับอิทธิพลจากปัจจัยอื่นๆ ที่ไม่ได้อธิบายไว้ในแบบจำลองเฉพาะ

ค่าสัมประสิทธิ์ถัดไป -0.16285 ซึ่งอยู่ในเซลล์ B18 แสดงน้ำหนักของอิทธิพลของตัวแปร X ต่อ Y ซึ่งหมายความว่าเงินเดือนเฉลี่ยต่อเดือนของพนักงานภายในแบบจำลองที่พิจารณาจะส่งผลต่อจำนวนผู้ลาออกที่มีน้ำหนัก -0.16285 เช่น ระดับของอิทธิพลของมันเพียงเล็กน้อย เครื่องหมาย "-" แสดงว่าค่าสัมประสิทธิ์มีค่าเป็นลบ สิ่งนี้ชัดเจนเนื่องจากทุกคนรู้ว่ายิ่งเงินเดือนในองค์กรสูงเท่าไร คนก็ยิ่งแสดงความปรารถนาที่จะยกเลิกสัญญาจ้างงานหรือเลิกจ้างน้อยลงเท่านั้น

การถดถอยพหุคูณ

คำนี้หมายถึงสมการการเชื่อมต่อกับตัวแปรอิสระหลายตัวของแบบฟอร์ม:

y \u003d f (x 1 + x 2 + ... x m) + ε โดยที่ y คือคุณลักษณะที่มีประสิทธิผล (ตัวแปรตาม) และ x 1 , x 2 , ... x m เป็นปัจจัยตัวประกอบ (ตัวแปรอิสระ)

การประมาณค่าพารามิเตอร์

สำหรับการถดถอยพหุคูณ (MR) ดำเนินการโดยใช้วิธีการกำลังสองน้อยที่สุด (OLS) สำหรับสมการเชิงเส้นในรูปแบบ Y = a + b 1 x 1 +…+b m x m + ε เราสร้างระบบสมการปกติ (ดูด้านล่าง)

เพื่อทำความเข้าใจหลักการของวิธีการ ให้พิจารณากรณีสองปัจจัย จากนั้นเรามีสถานการณ์ที่อธิบายโดยสูตร

จากที่นี่เราได้รับ:

โดยที่ σ คือความแปรปรวนของคุณลักษณะที่สอดคล้องกันซึ่งสะท้อนอยู่ในดัชนี

LSM ใช้ได้กับสมการ MP ในระดับมาตรฐาน ในกรณีนี้ เราจะได้สมการ:

โดยที่ t y , t x 1, … t xm เป็นตัวแปรมาตรฐานที่มีค่าเฉลี่ยเป็น 0 β i คือค่าสัมประสิทธิ์การถดถอยที่ได้มาตรฐาน และส่วนเบี่ยงเบนมาตรฐานคือ 1

โปรดทราบว่า β i ทั้งหมดในกรณีนี้ถูกตั้งค่าเป็นแบบปกติและรวมศูนย์ ดังนั้นการเปรียบเทียบระหว่างกันจึงถือว่าถูกต้องและยอมรับได้ นอกจากนี้ เป็นเรื่องปกติที่จะกรองปัจจัยต่างๆ โดยละทิ้งปัจจัยที่มีค่าน้อยที่สุดของ βi

โจทย์ปัญหาการใช้สมการถดถอยเชิงเส้น

สมมติว่ามีตารางการเปลี่ยนแปลงราคาของผลิตภัณฑ์ N ในช่วง 8 เดือนที่ผ่านมา จำเป็นต้องตัดสินใจเกี่ยวกับความเหมาะสมในการซื้อชุดงานในราคา 1,850 รูเบิล/ตัน

หมายเลขเดือน

ชื่อเดือน

ราคาสินค้า N

1,750 รูเบิลต่อตัน

1,755 รูเบิลต่อตัน

1,767 รูเบิลต่อตัน

1,760 รูเบิลต่อตัน

1,770 รูเบิลต่อตัน

1,790 รูเบิลต่อตัน

1810 รูเบิลต่อตัน

1840 รูเบิลต่อตัน

ในการแก้ปัญหานี้ในสเปรดชีต Excel คุณต้องใช้เครื่องมือวิเคราะห์ข้อมูลที่รู้จักจากตัวอย่างข้างต้น จากนั้นเลือกส่วน "การถดถอย" และตั้งค่าพารามิเตอร์ ต้องจำไว้ว่าในฟิลด์ "ช่วงเวลาอินพุต Y" จะต้องป้อนช่วงของค่าสำหรับตัวแปรตาม (ในกรณีนี้คือราคาของผลิตภัณฑ์ในเดือนที่ระบุของปี) และในช่อง "อินพุต ช่วง X" - สำหรับตัวแปรอิสระ (หมายเลขเดือน) ยืนยันการดำเนินการโดยคลิก "ตกลง" ในชีตใหม่ (หากมีการระบุไว้) เราได้รับข้อมูลสำหรับการถดถอย

จากข้อมูลเหล่านี้ เราสร้างสมการเชิงเส้นในรูปแบบ y=ax+b โดยที่พารามิเตอร์ a และ b คือค่าสัมประสิทธิ์ของแถวที่มีชื่อเดือนและค่าสัมประสิทธิ์ และแถว “สี่แยก Y” จาก แผ่นที่มีผลการวิเคราะห์การถดถอย ดังนั้นสมการถดถอยเชิงเส้น (LE) สำหรับปัญหา 3 จึงเขียนเป็น:

ราคาสินค้า N = 11.714* เลขเดือน + 1727.54.

หรือในสัญกรณ์พีชคณิต

y = 11.714 x + 1727.54

การวิเคราะห์ผลลัพธ์

เพื่อตัดสินใจว่าสมการที่ได้นั้นเพียงพอหรือไม่ การถดถอยเชิงเส้นมีการใช้ค่าสัมประสิทธิ์สหสัมพันธ์พหุคูณ (MCC) และค่าสัมประสิทธิ์การกำหนด เช่นเดียวกับการทดสอบของฟิชเชอร์และการทดสอบของนักเรียน ในตาราง Excel ที่มีผลลัพธ์การถดถอย จะปรากฏภายใต้ชื่อหลายค่าของ R, R-square, F-statistic และ t-statistic ตามลำดับ

KMC R ทำให้สามารถประเมินความหนาแน่นของความสัมพันธ์เชิงความน่าจะเป็นระหว่างตัวแปรอิสระและตัวแปรตามได้ ค่าที่สูงบ่งบอกถึงความสัมพันธ์ที่ค่อนข้างแข็งแกร่งระหว่างตัวแปร "จำนวนเดือน" และ "ราคาสินค้า N ในรูเบิลต่อ 1 ตัน" อย่างไรก็ตาม ธรรมชาติของความสัมพันธ์นี้ยังไม่ทราบแน่ชัด

กำลังสองของค่าสัมประสิทธิ์การกำหนด R 2 (RI) เป็นลักษณะตัวเลขของส่วนแบ่งของการกระจายทั้งหมด และแสดงการกระจายของส่วนใดของข้อมูลการทดลอง เช่น ค่าของตัวแปรตามสอดคล้องกับสมการถดถอยเชิงเส้น ในปัญหาที่กำลังพิจารณา ค่านี้เท่ากับ 84.8% นั่นคือ ข้อมูลทางสถิติได้รับการอธิบายด้วยความแม่นยำสูงโดย SD ที่ได้รับ

สถิติ F หรือที่เรียกว่าการทดสอบของฟิชเชอร์ใช้เพื่อประเมินความสำคัญของความสัมพันธ์เชิงเส้น หักล้างหรือยืนยันสมมติฐานของการมีอยู่ของมัน

(เกณฑ์ของนักเรียน) ช่วยในการประเมินความสำคัญของค่าสัมประสิทธิ์กับความสัมพันธ์เชิงเส้นที่ไม่รู้จักหรือว่าง หากค่าของเกณฑ์ t > t cr แสดงว่าสมมติฐานไม่มีนัยสำคัญของเทอมอิสระ สมการเชิงเส้นปฏิเสธ

ในปัญหาที่พิจารณาสำหรับสมาชิกฟรีโดยใช้เครื่องมือ Excel ได้รับว่า t = 169.20903 และ p = 2.89E-12 นั่นคือ เรามีความเป็นไปได้เป็นศูนย์ที่สมมติฐานที่ถูกต้องเกี่ยวกับความสำคัญของสมาชิกฟรีจะเป็น ปฏิเสธ สำหรับค่าสัมประสิทธิ์ที่ไม่ทราบค่า t=5.79405 และ p=0.001158 กล่าวอีกนัยหนึ่ง ความน่าจะเป็นที่สมมติฐานที่ถูกต้องเกี่ยวกับค่าสัมประสิทธิ์ที่ไม่มีนัยสำคัญจะถูกปฏิเสธคือ 0.12%

ดังนั้นจึงสามารถโต้แย้งได้ว่าสมการการถดถอยเชิงเส้นที่ได้นั้นเพียงพอแล้ว

ปัญหาเรื่องความเหมาะสมในการซื้อหุ้น

การถดถอยหลายครั้งใน Excel ดำเนินการโดยใช้เครื่องมือวิเคราะห์ข้อมูลเดียวกัน พิจารณาปัญหาที่ใช้เฉพาะ

ฝ่ายบริหารของ NNN จะต้องตัดสินใจเกี่ยวกับความเหมาะสมในการซื้อหุ้น 20% ใน MMM SA ค่าใช้จ่ายของแพคเกจ (JV) 70 ล้านเหรียญสหรัฐ ผู้เชี่ยวชาญของ NNN รวบรวมข้อมูลเกี่ยวกับธุรกรรมที่คล้ายคลึงกัน มีการตัดสินใจที่จะประเมินมูลค่าของบล็อกหุ้นตามพารามิเตอร์ดังกล่าวซึ่งแสดงเป็นล้านดอลลาร์สหรัฐเป็น:

  • บัญชีเจ้าหนี้ (VK);
  • ปริมาณ ประกอบการประจำปี(วีโอ);
  • บัญชีลูกหนี้ (VD);
  • ต้นทุนของสินทรัพย์ถาวร (SOF)

นอกจากนี้ยังใช้พารามิเตอร์การค้างชำระเงินเดือนขององค์กร (V3 P) ในหน่วยหลายพันดอลลาร์สหรัฐฯ

วิธีแก้ปัญหาโดยใช้สเปรดชีต Excel

ก่อนอื่นคุณต้องสร้างตารางข้อมูลเริ่มต้น ดูเหมือนว่า:

  • เรียกหน้าต่าง "การวิเคราะห์ข้อมูล"
  • เลือกส่วน "การถดถอย"
  • ในกล่อง "ช่วงเวลาอินพุต Y" ป้อนช่วงของค่าของตัวแปรตามจากคอลัมน์ G
  • คลิกที่ไอคอนที่มีลูกศรสีแดงทางด้านขวาของหน้าต่าง "ช่วงเวลาอินพุต X" และเลือกช่วงของค่าทั้งหมดจากคอลัมน์ B, C, D, F บนแผ่นงาน

เลือก "แผ่นงานใหม่" แล้วคลิก "ตกลง"

รับการวิเคราะห์การถดถอยสำหรับปัญหาที่กำหนด

การตรวจสอบผลลัพธ์และข้อสรุป

“เรารวบรวม” จากข้อมูลที่ปัดเศษที่แสดงด้านบนในแผ่นงานสเปรดชีต Excel สมการการถดถอย:

SP \u003d 0.103 * SOF + 0.541 * VO - 0.031 * VK + 0.405 * VD + 0.691 * VZP - 265.844

ในสิ่งที่คุ้นเคยมากขึ้น แบบฟอร์มทางคณิตศาสตร์สามารถเขียนเป็น:

y = 0.103*x1 + 0.541*x2 - 0.031*x3 +0.405*x4 +0.691*x5 - 265.844

ข้อมูลสำหรับ JSC "MMM" แสดงในตาราง:

เมื่อแทนลงในสมการถดถอยจะได้ตัวเลข 64.72 ล้านดอลลาร์สหรัฐ ซึ่งหมายความว่าไม่ควรซื้อหุ้นของ JSC MMM เนื่องจากมูลค่า 70 ล้านดอลลาร์สหรัฐนั้นค่อนข้างเกินจริง

อย่างที่คุณเห็น การใช้สเปรดชีต Excel และสมการการถดถอยทำให้สามารถตัดสินใจอย่างรอบรู้เกี่ยวกับความเป็นไปได้ของธุรกรรมที่เฉพาะเจาะจง

ตอนนี้คุณรู้แล้วว่าการถดถอยคืออะไร ตัวอย่างใน Excel ที่กล่าวถึงข้างต้นจะช่วยคุณแก้ปัญหาทางปฏิบัติจากสาขาเศรษฐมิติ

คำถาม:

4. การประมาณค่าพารามิเตอร์ของตัวแบบเชิงเส้นของการถดถอยพหุคูณ

5. การประเมินคุณภาพของการถดถอยเชิงเส้นพหุคูณ

6. การวิเคราะห์และการพยากรณ์ตามแบบจำลองหลายปัจจัย

การถดถอยพหุคือการถดถอยแบบคู่ขนานโดยทั่วไป ใช้เพื่ออธิบายความสัมพันธ์ระหว่างตัวแปรอธิบาย (ขึ้นต่อกัน) Y กับตัวแปรอธิบาย (อิสระ) X 1 ,X 2 ,…,X k การถดถอยพหุคูณสามารถเป็นได้ทั้งแบบเชิงเส้นหรือไม่เชิงเส้น แต่การถดถอยพหุแบบเชิงเส้นเป็นวิธีที่ใช้กันอย่างแพร่หลายในด้านเศรษฐศาสตร์

เชิงทฤษฎี โมเดลเชิงเส้นการถดถอยพหุคูณมีลักษณะดังนี้:

การถดถอยตัวอย่างที่สอดคล้องกันแสดงโดย:

เช่นเดียวกับการถดถอยแบบคู่ คำสุ่ม ε จะต้องเป็นไปตามสมมติฐานพื้นฐานของการวิเคราะห์การถดถอย จากนั้น ด้วยความช่วยเหลือของ LSM จะได้ค่าประมาณค่าพารามิเตอร์การถดถอยทางทฤษฎีที่เป็นกลางและมีประสิทธิภาพดีที่สุด นอกจากนี้ ตัวแปร Х 1 ,Х 2 ,…,Х k จะต้องไม่มีความสัมพันธ์กัน (เป็นอิสระเชิงเส้น) ซึ่งกันและกัน ในการเขียนสูตรสำหรับการประมาณค่าสัมประสิทธิ์การถดถอย (2) ที่ได้มาจากพื้นฐานของ LSM เราขอแนะนำสัญลักษณ์ต่อไปนี้:

จากนั้นเราก็เขียนในรูปเมทริกซ์เวกเตอร์ได้ แบบจำลองทางทฤษฎี:

และการถดถอยแบบเลือก

OLS นำไปสู่สูตรต่อไปนี้สำหรับการประมาณเวกเตอร์ของสัมประสิทธิ์ ตัวอย่างการถดถอย:

(3)

ในการประมาณค่าสัมประสิทธิ์การถดถอยเชิงเส้นพหุคูณด้วยตัวแปรอิสระสองตัว เราสามารถแก้ระบบสมการได้:

(4)

เช่นเดียวกับการถดถอยเชิงเส้นคู่ สำหรับการถดถอยหลายครั้ง ข้อผิดพลาดมาตรฐานการถดถอย S จะถูกคำนวณ:

(5)

และข้อผิดพลาดมาตรฐานของค่าสัมประสิทธิ์การถดถอย:

(6)

ความสำคัญของค่าสัมประสิทธิ์ถูกตรวจสอบโดยใช้การทดสอบค่า t

มีการกระจายนักศึกษาด้วยจำนวนระดับความเป็นอิสระ วี= n-k-1.

ในการประเมินคุณภาพของการถดถอยจะใช้ค่าสัมประสิทธิ์ (ดัชนี) ของการกำหนด:

, (8)

ยิ่งเข้าใกล้ 1 ยิ่งคุณภาพของการถดถอยสูงขึ้น

เพื่อตรวจสอบนัยสำคัญของค่าสัมประสิทธิ์ของการพิจารณา จะใช้เกณฑ์ของฟิชเชอร์หรือสถิติ F



(9)

กับ v1=k, v2=n-k-1 ระดับความอิสระ

ในการถดถอยหลายตัวแปร การเพิ่มตัวแปรอธิบายเพิ่มเติมจะเพิ่มค่าสัมประสิทธิ์ของการกำหนด เพื่อชดเชยการเพิ่มขึ้นดังกล่าว จะมีการแนะนำค่าสัมประสิทธิ์การกำหนดที่ปรับแล้ว (หรือทำให้เป็นมาตรฐาน):

(10)

หากการเพิ่มขึ้นของส่วนแบ่งของการถดถอยที่อธิบายโดยการเพิ่มตัวแปรใหม่มีขนาดเล็ก ก็อาจลดลงได้ ดังนั้น การเพิ่มตัวแปรใหม่จึงไม่เหมาะสม

ตัวอย่างที่ 4:

ให้คำนึงถึงการพึ่งพาผลกำไรขององค์กรกับต้นทุนของอุปกรณ์และเครื่องจักรใหม่และค่าใช้จ่ายในการพัฒนาทักษะของพนักงาน รวบรวมข้อมูลสถิติของวิสาหกิจประเภทเดียวกัน 6 แห่ง ข้อมูลเป็นล้าน den หน่วย ได้รับในตารางที่ 1

ตารางที่ 1

พล็อตการถดถอยเชิงเส้นสองทาง และประเมินความสำคัญของมัน ให้เราแนะนำสัญกรณ์:

เราย้ายเมทริกซ์ X:

การผกผันของเมทริกซ์นี้:

ดังนั้นการพึ่งพาผลกำไรกับต้นทุนของอุปกรณ์และเครื่องจักรใหม่และต้นทุนในการพัฒนาทักษะของพนักงานสามารถอธิบายได้โดยการถดถอยต่อไปนี้:

ใช้สูตร (5) โดยที่ k=2 เราคำนวณข้อผิดพลาดมาตรฐานของการถดถอย S=0.636

เราคำนวณข้อผิดพลาดมาตรฐานของค่าสัมประสิทธิ์การถดถอยโดยใช้สูตร (6):

ในทำนองเดียวกัน:

ตรวจสอบความสำคัญของสัมประสิทธิ์การถดถอย a 1 , a 2 กัน คำนวณ t แคล

เราเลือกระดับนัยสำคัญ จำนวนระดับความอิสระ

หมายถึงค่าสัมประสิทธิ์ 1สำคัญ.

ให้เราประเมินความสำคัญของค่าสัมประสิทธิ์ a 2:

ค่าสัมประสิทธิ์ 2ไม่มีนัยสำคัญ

ลองคำนวณค่าสัมประสิทธิ์ของการกำหนดตามสูตร (7) . กำไรขององค์กร 96% ขึ้นอยู่กับต้นทุนของอุปกรณ์และเครื่องจักรใหม่ และการฝึกอบรมขั้นสูง 4% จากปัจจัยอื่น ๆ และแบบสุ่ม ตรวจสอบความสำคัญของค่าสัมประสิทธิ์ของการกำหนด คำนวณ F คำนวณ:

แล้ว. ค่าสัมประสิทธิ์ของการกำหนดมีความสำคัญสมการการถดถอยมีนัยสำคัญ

สิ่งที่สำคัญอย่างยิ่งในการวิเคราะห์ตามการถดถอยหลายตัวแปรคือการเปรียบเทียบอิทธิพลของปัจจัยที่มีต่อตัวบ่งชี้ที่ขึ้นต่อกัน y ไม่ได้ใช้ค่าสัมประสิทธิ์การถดถอยเพื่อจุดประสงค์นี้ เนื่องจากความแตกต่างในหน่วยการวัดและ องศาที่แตกต่างความผันผวน จากข้อบกพร่องเหล่านี้ ค่าสัมประสิทธิ์ความยืดหยุ่นอิสระคือ:

ความยืดหยุ่นแสดงจำนวนเปอร์เซ็นต์ที่ตัวบ่งชี้ตาม y เปลี่ยนแปลงโดยเฉลี่ยเมื่อตัวแปรเปลี่ยนแปลง 1% โดยมีเงื่อนไขว่าค่าของตัวแปรอื่นยังคงไม่เปลี่ยนแปลง ยิ่งมาก อิทธิพลของตัวแปรที่เกี่ยวข้องก็ยิ่งมากขึ้นเท่านั้น เช่นเดียวกับการถดถอยแบบคู่ สำหรับการถดถอยหลายครั้ง จะมีการสร้างความแตกต่างระหว่างการคาดการณ์จุดและการคาดการณ์ช่วงเวลา การคาดการณ์จุด (ตัวเลข) ได้มาจากการแทนค่าที่ทำนายของตัวแปรอิสระลงในสมการถดถอยพหุคูณ แสดงโดย:

(12)

เวกเตอร์ของค่าพยากรณ์ของตัวแปรอิสระ จากนั้น ชี้การพยากรณ์

มาตรฐานบกพร่องการทำนายในกรณีของการถดถอยพหุคูณกำหนดไว้ดังนี้:

(15)

เราเลือกระดับนัยสำคัญ α ตามตารางการกระจายของนักเรียน สำหรับระดับนัยสำคัญ α และจำนวนองศาอิสระ ν = n-k-1 เราพบ t cr จากนั้นค่าที่แท้จริงของ y p ที่มีความน่าจะเป็น 1- α จะอยู่ในช่วงเวลา:


หัวข้อที่ 5:

อนุกรมเวลา.

คำถาม:

4. แนวคิดพื้นฐานของอนุกรมเวลา

5. แนวโน้มการพัฒนาหลักคือแนวโน้ม

6. การสร้างแบบจำลองเพิ่มเติม

อนุกรมเวลาแสดงชุดของค่าของตัวบ่งชี้ใด ๆ เป็นเวลาหลาย ๆ ช่วงเวลาหรือหลายช่วงเวลาติดต่อกัน

ช่วงเวลา (หรือช่วงเวลา) ของเวลาแสดงด้วย t และค่าของตัวบ่งชี้ ณ ช่วงเวลานั้นแสดงด้วย y (t) และเรียกว่า ระดับแถว .

อนุกรมเวลาแต่ละระดับเกิดขึ้นภายใต้อิทธิพลของปัจจัยจำนวนมากที่สามารถแบ่งออกเป็น 3 กลุ่ม:

ปัจจัยถาวรระยะยาวที่มีอิทธิพลชี้ขาดต่อปรากฏการณ์ภายใต้การศึกษาและสร้างแนวโน้มหลักของซีรีส์ - แนวโน้ม T(t)

ปัจจัยระยะสั้นที่สร้างความผันผวนตามฤดูกาลของซีรีส์ S(t)

ปัจจัยสุ่มที่สร้างการเปลี่ยนแปลงแบบสุ่มในระดับของซีรีส์ ε(t)

แบบเติมแต่งอนุกรมเวลาเป็นรูปแบบที่แต่ละระดับของอนุกรมแสดงด้วยผลรวมของแนวโน้ม ฤดูกาล และ ส่วนประกอบแบบสุ่ม:

ตัวแบบการคูณเป็นรุ่นที่แต่ละระดับของซีรีส์เป็นผลิตภัณฑ์ของส่วนประกอบที่ระบุไว้:

การเลือกหนึ่งในแบบจำลองนั้นขึ้นอยู่กับการวิเคราะห์โครงสร้างของความผันผวนตามฤดูกาล หากแอมพลิจูดของการสั่นมีค่าคงที่โดยประมาณ แบบจำลองเพิ่มเติมจะถูกสร้างขึ้น หากแอมพลิจูดเพิ่มขึ้น แบบจำลองการคูณ

งานหลักของการวิเคราะห์ทางเศรษฐมิติคือการระบุองค์ประกอบแต่ละรายการ

แนวโน้มการพัฒนาหลัก (แนวโน้ม)เรียกว่าการเปลี่ยนแปลงระดับของซีรีส์ที่ราบรื่นและคงที่ตลอดเวลา ปราศจากความผันผวนแบบสุ่มและตามฤดูกาล

งานของการระบุแนวโน้มการพัฒนาหลักเรียกว่า การจัดตำแหน่งอนุกรมเวลา .

วิธีการจัดตำแหน่งอนุกรมเวลาประกอบด้วย:

1) วิธีการขยายช่วงเวลา

2) วิธีการ ค่าเฉลี่ยเคลื่อนที่,

3) การจัดตำแหน่งการวิเคราะห์

1) ช่วงเวลาที่ระดับของซีรีส์อ้างอิงขยายใหญ่ขึ้น จากนั้น ระดับของซีรีส์จะรวมกันในช่วงเวลาที่ขยายใหญ่ขึ้น ความผันผวนของระดับเนื่องจากสาเหตุแบบสุ่มจะยกเลิกซึ่งกันและกัน แนวโน้มโดยทั่วไปจะเปิดเผยชัดเจนยิ่งขึ้น

2) เพื่อกำหนดจำนวนของระดับแรกของซีรีส์ the ค่าเฉลี่ย. จากนั้น ค่าเฉลี่ยจะคำนวณจากจำนวนระดับเดียวกันในซีรีส์ โดยเริ่มจากระดับที่สองและต่อไปเรื่อยๆ ค่าเฉลี่ยจะเลื่อนไปตามชุดของไดนามิก โดยเลื่อนไป 1 ช่วงเวลา (จุดในเวลา) จำนวนระดับของซีรีส์ที่คำนวณค่าเฉลี่ยอาจเป็นเลขคู่หรือเลขคี่ สำหรับค่าเฉลี่ยเคลื่อนที่แบบคี่ ให้อ้างอิงถึงช่วงกลางของช่วงเวลาการเลื่อน สำหรับช่วงระยะเวลาที่เท่ากัน การค้นหาค่าเฉลี่ยจะไม่ถูกเปรียบเทียบกับคำจำกัดความของ t แต่จะใช้ขั้นตอนการจัดกึ่งกลาง เช่น คำนวณค่าเฉลี่ยของค่าเฉลี่ยเคลื่อนที่สองเส้นติดต่อกัน

3) การก่อสร้าง ฟังก์ชันการวิเคราะห์ระบุลักษณะการพึ่งพาระดับของซีรีส์ตรงเวลา ฟังก์ชันต่อไปนี้ใช้เพื่อสร้างแนวโน้ม:

พารามิเตอร์แนวโน้มถูกกำหนดโดยใช้วิธีการกำลังสองน้อยที่สุด การเลือกฟังก์ชั่นที่ดีที่สุดนั้นดำเนินการตามค่าสัมประสิทธิ์ R 2 .

เราจะสร้างแบบจำลองเพิ่มเติมโดยใช้ตัวอย่าง

ตัวอย่างที่ 7:

มีข้อมูลรายไตรมาสเกี่ยวกับปริมาณการใช้ไฟฟ้าในบางพื้นที่เป็นเวลา 4 ปี ข้อมูลเป็นล้านกิโลวัตต์ในตารางที่ 1

ตารางที่ 1

สร้างแบบจำลองอนุกรมเวลา

ในตัวอย่างนี้ เราพิจารณาตัวเลขไตรมาสเป็นตัวแปรอิสระ และปริมาณการใช้ไฟฟ้ารายไตรมาสเป็นตัวแปรตาม y(t)

จากแผนภาพกระจาย คุณจะเห็นว่าแนวโน้ม (แนวโน้ม) เป็นเส้นตรง คุณยังสามารถเห็นความผันผวนตามฤดูกาล (ระยะเวลา = 4) ของแอมพลิจูดเดียวกัน ดังนั้นเราจะสร้างแบบจำลองเพิ่มเติม

การสร้างแบบจำลองประกอบด้วยขั้นตอนต่อไปนี้:

1. เราจะจัดชุดข้อมูลเดิมโดยใช้ค่าเฉลี่ยเคลื่อนที่สำหรับ 4 ไตรมาสและดำเนินการจัดกึ่งกลาง:

1.1. เรามารวมระดับของซีรีส์ตามลำดับทุกๆ 4 ควอเตอร์ด้วยการเปลี่ยนแปลง 1 จุดในเวลา

1.2. โดยการหารผลรวมด้วย 4 เราจะพบค่าเฉลี่ยเคลื่อนที่

1.3. เรานำค่าเหล่านี้มาสอดคล้องกับจุดตามเวลาจริงซึ่งเราพบค่าเฉลี่ยของค่าเฉลี่ยเคลื่อนที่สองค่าติดต่อกัน - ค่าเฉลี่ยเคลื่อนที่กึ่งกลาง

2. คำนวณการเปลี่ยนแปลงตามฤดูกาล ความผันแปรตามฤดูกาล (t) = y(t) - ค่าเฉลี่ยเคลื่อนที่แบบกึ่งกลาง มาสร้างตาราง 2 กันเถอะ

ตารางที่ 2

ผ่านบล็อกหมายเลข t ปริมาณการใช้ไฟฟ้า Y(t) ค่าเฉลี่ยเคลื่อนที่ 4 ไตรมาส ค่าเฉลี่ยเคลื่อนที่กึ่งกลาง การประมาณการเปลี่ยนแปลงตามฤดูกาล
6,0 - - -
4,4 6,1 - -
5,0 6,4 6,25 -1,25
9,0 6,5 6,45 2,55
7,2 6,75 6,625 0,575
: : : : :
6,6 8,35 8,375 -1,775
7,0 - - -
10,8 - - -

3. ตามการเปลี่ยนแปลงตามฤดูกาลในตารางที่ 3 ส่วนประกอบตามฤดูกาลจะถูกคำนวณ

ตัวบ่งชี้ ปี หมายเลขไตรมาสในปี I II III IV
- - -1,250 2,550
0,575 -2,075 -1,100 2,700
0,550 -2,025 -1,475 2,875
0,675 -1,775 - -
รวม 1,8 -5,875 -3,825 8,125 ผลรวม
เฉลี่ย 0,6 -1,958 -1,275 2,708 0,075
องค์ประกอบตามฤดูกาล 0,581 -1,977 -1,294 2,690

4. กำจัด องค์ประกอบตามฤดูกาลจากระดับเริ่มต้นของซีรีส์:

บทสรุป:

โมเดลเพิ่มเติมอธิบาย 98.4% รูปแบบทั่วไประดับของอนุกรมเวลาเดิม

เมื่อคลิกที่ปุ่ม "ดาวน์โหลดไฟล์เก็บถาวร" คุณจะดาวน์โหลดไฟล์ที่คุณต้องการได้ฟรี
ก่อนดาวน์โหลด ไฟล์ที่กำหนดจำเรียงความที่ดี การควบคุม ภาคนิพนธ์ วิทยานิพนธ์บทความและเอกสารอื่นๆ ที่ไม่มีการอ้างสิทธิ์ในคอมพิวเตอร์ของคุณ นี่คืองานของคุณที่ควรมีส่วนร่วมในการพัฒนาสังคมและทำประโยชน์ให้กับผู้คน ค้นหาผลงานเหล่านี้และส่งไปยังฐานความรู้
เราและนักศึกษาบัณฑิตศึกษานักวิทยาศาสตร์รุ่นใหม่ที่ใช้ฐานความรู้ในการศึกษาและการทำงานของพวกเขาจะขอบคุณมาก

หากต้องการดาวน์โหลดไฟล์เก็บถาวรพร้อมเอกสาร ให้ป้อนตัวเลขห้าหลักในช่องด้านล่างแล้วคลิกปุ่ม "ดาวน์โหลดไฟล์เก็บถาวร"

###### ## ## ###### ######
## ### ### ## ##
## #### ## ##### ##
## ## ## ## ## ##
## ## ###### ## ## ## ## ##
#### ## ###### #### ####

ใส่ตัวเลขที่แสดงด้านบน:

เอกสารที่คล้ายกัน

    พื้นฐานของการสร้างและทดสอบความเพียงพอ แบบจำลองทางเศรษฐกิจการถดถอยพหุคูณ ปัญหาของข้อกำหนดและผลที่ตามมาของข้อผิดพลาด การสนับสนุนอย่างเป็นระบบและข้อมูลของการถดถอยพหุคูณ ตัวอย่างตัวเลขแบบจำลองการถดถอยพหุคูณ

    ภาคนิพนธ์ เพิ่ม 02/10/2014

    แนวคิดของแบบจำลองการถดถอยพหุคูณ สาระสำคัญของวิธีกำลังสองน้อยที่สุด ซึ่งใช้ในการกำหนดพารามิเตอร์ของสมการถดถอยเชิงเส้นพหุคูณ การประเมินคุณภาพของความพอดี สมการถดถอยให้กับข้อมูล ค่าสัมประสิทธิ์การกำหนด

    ภาคนิพนธ์ เพิ่ม 01/22/2015

    สร้างแบบจำลองการถดถอยเชิงเส้นพหุคูณตามพารามิเตอร์ที่กำหนด การประเมินคุณภาพของแบบจำลองด้วยค่าสัมประสิทธิ์ของการกำหนดและสหสัมพันธ์พหุคูณ การหาค่านัยสำคัญของสมการถดถอยตามการทดสอบ F ของ Fisher และการทดสอบ t ของนักเรียน

    ทดสอบเพิ่ม 12/01/2013

    การสร้างสมการถดถอยพหุคูณในรูปแบบเชิงเส้นด้วย ชุดเต็มปัจจัย การเลือกปัจจัยสารสนเทศ ตรวจสอบความสำคัญของสมการถดถอยโดยการทดสอบของฟิชเชอร์และนัยสำคัญทางสถิติของพารามิเตอร์การถดถอยโดยการทดสอบของนักเรียน

    งานในห้องปฏิบัติการ เพิ่ม 17/10/2552

    คำอธิบายของแบบจำลองเชิงเส้นแบบคลาสสิกของการถดถอยพหุคูณ การวิเคราะห์เมทริกซ์ของค่าสัมประสิทธิ์สหสัมพันธ์แบบคู่สำหรับการมีอยู่ของมัลติโคลิเนียริตี้ การประเมินแบบจำลองการถดถอยแบบจับคู่กับปัจจัยที่สำคัญที่สุด การสร้างกราฟิกของช่วงเวลาการคาดการณ์

    ภาคนิพนธ์ เพิ่ม 01/17/2016

    ปัจจัยที่กำหนดราคาอพาร์ทเมนต์ในบ้านที่กำลังก่อสร้างในเซนต์ปีเตอร์สเบิร์ก การรวบรวมเมทริกซ์ของค่าสัมประสิทธิ์สหสัมพันธ์แบบคู่ของตัวแปรต้น การทดสอบข้อผิดพลาดของสมการถดถอยพหุคูณสำหรับความแตกต่าง การทดสอบ Gelfeld-Quandt

    ทดสอบเพิ่ม 05/14/2015

    การประมาณการกระจายของตัวแปร X1 การสร้างแบบจำลองความสัมพันธ์ระหว่างตัวแปร Y และ X1 โดยใช้ฟังก์ชันเชิงเส้นและวิธีการถดถอยเชิงเส้นพหุคูณ การเปรียบเทียบคุณภาพของแบบจำลองที่สร้างขึ้น จัดทำการคาดการณ์จุดสำหรับค่าที่กำหนด

    ภาคนิพนธ์ เพิ่ม 06/24/2015

สวัสดีตอนบ่ายผู้อ่านที่รัก
ในบทความก่อนหน้านี้ ฉันได้แสดงวิธีแก้ปัญหาการจัดหมวดหมู่ (ปัญหาการให้คะแนนเครดิต) และการวิเคราะห์ข้อมูลข้อความเบื้องต้น (ปัญหาหนังสือเดินทาง) โดยใช้ตัวอย่างที่ใช้ได้จริงในบทความก่อนหน้านี้ วันนี้ผมอยากจะพูดถึงปัญหาอีกประเภทหนึ่ง นั่นคือ การกู้คืนการถดถอย งานของคลาสนี้มักจะใช้ในการพยากรณ์
สำหรับตัวอย่างการแก้ปัญหาการคาดการณ์ ฉันใช้ชุดข้อมูลประสิทธิภาพพลังงานจากที่เก็บ UCI ที่ใหญ่ที่สุด ตามเนื้อผ้า เราจะใช้ Python กับ pandas และแพ็คเกจการวิเคราะห์ scikit-learn เป็นเครื่องมือ

คำอธิบายของชุดข้อมูลและคำชี้แจงปัญหา

มีการกำหนดชุดข้อมูลที่อธิบายคุณลักษณะต่อไปนี้ของห้อง:

ประกอบด้วยลักษณะของห้องตามการวิเคราะห์และ - ค่าภาระที่ต้องคาดการณ์

การวิเคราะห์ข้อมูลเบื้องต้น

ขั้นแรก ให้โหลดข้อมูลของเราและดูที่:

จากหมีแพนด้า นำเข้า read_csv, DataFrame จาก sklearn.neighbors นำเข้า KNeighborsRegressor จาก sklearn.linear_model นำเข้า LinearRegression, LogisticRegression จาก sklearn.svm นำเข้า SVR จาก sklearn.ensemble นำเข้า RandomForestRegressor จาก sklearn.metrics นำเข้า r2_score จาก sklearn.cross_validation นำเข้าชุดข้อมูล train_test_split = read_csgyEffici(" /ENB2012_data.csv",";") dataset.head()

X1 เอ็กซ์ทู X3 X4 X5 X6 X7 X8 Y1 Y2
0 0.98 514.5 294.0 110.25 7 2 0 0 15.55 21.33
1 0.98 514.5 294.0 110.25 7 3 0 0 15.55 21.33
2 0.98 514.5 294.0 110.25 7 4 0 0 15.55 21.33
3 0.98 514.5 294.0 110.25 7 5 0 0 15.55 21.33
4 0.90 563.5 318.5 122.50 7 2 0 0 20.84 28.28

มาดูกันว่าแอตทริบิวต์ใดที่เกี่ยวข้องกัน ซึ่งสามารถทำได้โดยการคำนวณค่าสัมประสิทธิ์สหสัมพันธ์สำหรับคอลัมน์ทั้งหมด วิธีการทำเช่นนี้ได้อธิบายไว้ในบทความก่อนหน้านี้:

ชุดข้อมูล.corr()

X1 เอ็กซ์ทู X3 X4 X5 X6 X7 X8 Y1 Y2
X1 1.000000e+00 -9.919015e-01 -2.037817e-01 -8.688234e-01 8.277473e-01 0.000000 1.283986e-17 1.764620e-17 0.622272 0.634339
เอ็กซ์ทู -9.919015e-01 1.000000e+00 1.955016e-01 8.807195e-01 -8.581477e-01 0.000000 1.318356e-16 -3.558613e-16 -0.658120 -0.672999
X3 -2.037817e-01 1.955016e-01 1.000000e+00 -2.923165e-01 2.809757e-01 0.000000 -7.969726e-19 0.000000e+00 0.455671 0.427117
X4 -8.688234e-01 8.807195e-01 -2.923165e-01 1.000000e+00 -9.725122e-01 0.000000 -1.381805e-16 -1.079129e-16 -0.861828 -0.862547
X5 8.277473e-01 -8.581477e-01 2.809757e-01 -9.725122e-01 1.000000e+00 0.000000 1.861418e-18 0.000000e+00 0.889431 0.895785
X6 0.000000e+00 0.000000e+00 0.000000e+00 0.000000e+00 0.000000e+00 1.000000 0.000000e+00 0.000000e+00 -0.002587 0.014290
X7 1.283986e-17 1.318356e-16 -7.969726e-19 -1.381805e-16 1.861418e-18 0.000000 1.000000e+00 2.129642e-01 0.269841 0.207505
X8 1.764620e-17 -3.558613e-16 0.000000e+00 -1.079129e-16 0.000000e+00 0.000000 2.129642e-01 1.000000e+00 0.087368 0.050525
Y1 6.222722e-01 -6.581202e-01 4.556712e-01 -8.618283e-01 8.894307e-01 -0.002587 2.698410e-01 8.736759e-02 1.000000 0.975862
Y2 6.343391e-01 -6.729989e-01 4.271170e-01 -8.625466e-01 8.957852e-01 0.014290 2.075050e-01 5.052512e-02 0.975862 1.000000

ดังที่คุณเห็นจากเมทริกซ์ของเรา คอลัมน์ต่อไปนี้มีความสัมพันธ์ซึ่งกันและกัน (ค่าของสัมประสิทธิ์สหสัมพันธ์มากกว่า 95%):
  • y1 --> y2
  • x1 --> x2
  • x4 --> x5
ทีนี้มาเลือกคอลัมน์ของคู่ของเราที่เราสามารถลบออกจากการเลือกของเรา ในการทำเช่นนี้ ในแต่ละคู่ เราจะเลือกคอลัมน์ที่มีผลกระทบมากกว่ากับค่าที่คาดการณ์ไว้ Y1และ Y2และปล่อยไว้และลบส่วนที่เหลือ
อย่างที่คุณเห็น เมทริกซ์ที่มีค่าสัมประสิทธิ์สหสัมพันธ์เปิดอยู่ y1 ,y2 มูลค่ามากขึ้นเรนเดอร์ เอ็กซ์ทู และ X5 กว่า X1 และ X4 เราจึงสามารถลบคอลัมน์สุดท้ายออกได้

ชุดข้อมูล = dataset.drop(["X1","X4"], axis=1) dataset.head()
นอกจากนี้จะเห็นได้ว่าทุ่งนา Y1 และ Y2 สัมพันธ์กันอย่างใกล้ชิดมาก แต่เนื่องจากเราจำเป็นต้องทำนายค่าทั้งสอง เราจึงปล่อยค่าไว้ "ตามสภาพ"

การเลือกรุ่น

แยกค่าพยากรณ์ออกจากตัวอย่างของเรา:

Trg = dataset[["Y1","Y2"]] trn = dataset.drop(["Y1","Y2"], axis=1)
หลังจากประมวลผลข้อมูลแล้ว คุณสามารถดำเนินการสร้างแบบจำลองได้ ในการสร้างแบบจำลอง เราจะใช้วิธีการต่อไปนี้:

ทฤษฎีเกี่ยวกับวิธีการเหล่านี้สามารถอ่านได้ในหลักสูตรการบรรยายของ K.V. Vorontsov เกี่ยวกับการเรียนรู้ของเครื่อง
เราจะประเมินโดยใช้ค่าสัมประสิทธิ์การกำหนด ( R-สแควร์). ค่าสัมประสิทธิ์นี้กำหนดไว้ดังนี้

ความแปรปรวนตามเงื่อนไขของตัวแปรตามอยู่ที่ไหน ที่โดยปัจจัย เอ็กซ์.
ค่าสัมประสิทธิ์จะใช้ค่าในช่วงเวลาและยิ่งเข้าใกล้ 1 มากเท่าไร การพึ่งพาก็จะยิ่งมากขึ้นเท่านั้น
ตอนนี้คุณสามารถไปที่การสร้างโมเดลและเลือกโมเดลได้โดยตรง รวบรวมโมเดลทั้งหมดของเราไว้ในรายการเดียวเพื่อความสะดวกในการวิเคราะห์เพิ่มเติม:

โมเดล=
แบบจำลองพร้อมแล้ว ตอนนี้เราจะแบ่งข้อมูลเดิมออกเป็น 2 ตัวอย่างย่อย: ทดสอบและ เกี่ยวกับการศึกษา. ผู้ที่ได้อ่านบทความก่อนหน้านี้จะรู้ว่าสามารถทำได้โดยใช้ฟังก์ชัน train_test_split() จากแพ็คเกจ scikit-learn:

Xtrn, Xtest, Ytrn, Ytest = train_test_split(trn, trg, test_size=0.4)
ตอนนี้ เนื่องจากเราต้องคาดการณ์พารามิเตอร์ 2 ตัว เราจึงต้องสร้างการถดถอยสำหรับแต่ละพารามิเตอร์ นอกจากนี้ สำหรับการวิเคราะห์เพิ่มเติม คุณสามารถบันทึกผลลัพธ์ที่ได้ในแบบชั่วคราว ดาต้าเฟรม. คุณสามารถทำได้ดังนี้:

#สร้างโครงสร้างชั่วคราว TestModels = DataFrame() tmp = () #สำหรับแต่ละรุ่นจากรายการสำหรับรุ่นในรุ่น: #รับชื่อรุ่น m = str(รุ่น) tmp["Model"] = m[:m.index( "( ")] #สำหรับแต่ละคอลัมน์ของชุดผลลัพธ์สำหรับ i ใน xrange(Ytrn.shape): #ฝึกโมเดล model.fit(Xtrn, Ytrn[:,i]) #คำนวณค่าสัมประสิทธิ์ของการกำหนด tmp["R2_Y %s"%str(i +1)] = r2_score(Ytest[:,0], model.predict(Xtest)) #เขียนข้อมูลและ DataFrame TestModels สุดท้าย = TestModels.append() #สร้างดัชนีตามชื่อรุ่น TestModels.set_index ("โมเดล", inplace= จริง)
ดังที่คุณเห็นจากโค้ดด้านบน ฟังก์ชัน r2_score() ใช้ในการคำนวณค่าสัมประสิทธิ์
จึงได้รับข้อมูลมาวิเคราะห์ ตอนนี้มาสร้างกราฟและดูว่าโมเดลใดแสดงผลลัพธ์ที่ดีที่สุด:

รูป, แกน = plt.subplots(ncols=2, figsize=(10,4)) TestModels.R2_Y1.plot(ax=axes, kind="bar", title="R2_Y1") TestModels.R2_Y2.plot(ax=axes, kind="bar", color="green", title="R2_Y2") !}

การวิเคราะห์ผลและข้อสรุป

จากกราฟด้านบน เราสามารถสรุปได้ว่าวิธีการนี้รับมือกับงานได้ดีกว่าวิธีอื่นๆ ป่าสุ่ม(ป่าสุ่ม). ค่าสัมประสิทธิ์ของการกำหนดนั้นสูงกว่าตัวแปรที่เหลือในทั้งสองตัวแปร:
สำหรับการวิเคราะห์เพิ่มเติม ลองฝึกแบบจำลองของเราใหม่:

Model = modelsmodel.fit(Xtrn, Ytrn)
เมื่อตรวจสอบอย่างใกล้ชิด คำถามอาจเกิดขึ้นว่าทำไมตัวอย่างที่พึ่งพาจึงถูกแบ่งครั้งสุดท้าย Ytrnเป็นตัวแปร (ตามคอลัมน์) และตอนนี้เราไม่ได้ทำเช่นนั้น
ความจริงก็คือวิธีการบางอย่างเช่น RandomForestRegressorสามารถทำงานกับตัวแปรทำนายได้หลายตัว ในขณะที่ตัวแปรอื่นๆ (เช่น สจล) สามารถทำงานกับตัวแปรเดียวเท่านั้น ดังนั้นในการฝึกอบรมครั้งก่อน เราจึงใช้การแบ่งพาร์ติชั่นตามคอลัมน์เพื่อหลีกเลี่ยงข้อผิดพลาดในกระบวนการสร้างโมเดลบางโมเดล
แน่นอนว่าการเลือกแบบจำลองนั้นดี แต่ก็เป็นเรื่องดีหากมีข้อมูลว่าแต่ละปัจจัยจะส่งผลต่อค่าที่คาดการณ์ไว้อย่างไร ในการทำเช่นนี้ แบบจำลองจะมีคุณสมบัติ คุณลักษณะ_ความสำคัญ_.
คุณสามารถดูน้ำหนักของแต่ละปัจจัยในโมเดลขั้นสุดท้ายได้:

Model.feature_importances_
อาร์เรย์ ([ 0.40717901, 0.11394948, 0.34984766, 0.00751686, 0.09158358,
0.02992342])

ในกรณีของเรา จะเห็นได้ว่าความสูงและพื้นที่ทั้งหมดมีผลต่อภาระการทำความร้อนและการทำความเย็นมากที่สุด การมีส่วนร่วมทั้งหมดของพวกเขาในแบบจำลองการทำนายคือประมาณ 72%
ควรสังเกตว่าตามโครงร่างข้างต้น คุณสามารถเห็นอิทธิพลของแต่ละปัจจัยแยกกันในการทำความร้อนและการแยกการทำความเย็น แต่เนื่องจากปัจจัยเหล่านี้มีความสัมพันธ์อย่างใกล้ชิดกันมาก () เราจึงได้ข้อสรุปทั่วไปเกี่ยวกับทั้งสอง ซึ่งเขียนไว้ข้างต้น

บทสรุป

ในบทความฉันพยายามแสดงขั้นตอนหลักใน การวิเคราะห์การถดถอยข้อมูลด้วย Python และแพ็คเกจการวิเคราะห์ หมีแพนด้าและ scikit-เรียนรู้.
ควรสังเกตว่าชุดข้อมูลได้รับการคัดเลือกโดยเฉพาะในลักษณะที่เป็นทางการและ การประมวลผลหลักข้อมูลเข้าจะน้อย ในความคิดของฉัน บทความนี้จะเป็นประโยชน์สำหรับผู้ที่เพิ่งเริ่มต้นเส้นทางในการวิเคราะห์ข้อมูล รวมถึงผู้ที่มีพื้นฐานทางทฤษฎีที่ดี แต่เลือกใช้เครื่องมือในการทำงาน