พารามิเตอร์ของสมการการถดถอยเชิงเส้นคำนวณตาม สมการถดถอย
เรื่อง:องค์ประกอบของทฤษฎีสหสัมพันธ์
วัตถุแถว ประชากรทั่วไปมีลักษณะหลายประการ X, Y, ... ที่สามารถศึกษาได้ซึ่งสามารถตีความได้ว่าเป็นระบบปริมาณที่สัมพันธ์กัน ตัวอย่างได้แก่: น้ำหนักของสัตว์และปริมาณฮีโมโกลบินในเลือด ความสูงของผู้ชายและปริมาตรของหน้าอก การเพิ่มขึ้นของสถานที่ทำงานในห้องและอุบัติการณ์ของการติดเชื้อไวรัส ปริมาณของยาที่จ่ายและ ความเข้มข้นในเลือด ฯลฯ
เห็นได้ชัดว่ามีความเชื่อมโยงระหว่างปริมาณเหล่านี้ แต่ไม่สามารถพึ่งพาการทำงานที่เข้มงวดได้ เนื่องจากการเปลี่ยนแปลงในปริมาณใดปริมาณหนึ่งไม่เพียงได้รับอิทธิพลจากการเปลี่ยนแปลงในปริมาณที่สองเท่านั้น แต่ยังรวมถึงปัจจัยอื่น ๆ ด้วย ในกรณีเช่นนี้ กล่าวกันว่าปริมาณทั้งสองมีความเกี่ยวข้องกัน สุ่ม(เช่นสุ่ม) การพึ่งพาอาศัยกัน เราจะเรียน กรณีพิเศษการพึ่งพาแบบสุ่ม – การพึ่งพาความสัมพันธ์.
คำนิยาม:สุ่มหากการเปลี่ยนแปลงในหนึ่งในนั้นไม่เพียงได้รับอิทธิพลจากการเปลี่ยนแปลงในปริมาณที่สองเท่านั้น แต่ยังรวมถึงปัจจัยอื่น ๆ ด้วย
คำนิยาม:การพึ่งพาตัวแปรสุ่มเรียกว่า ทางสถิติ,หากการเปลี่ยนแปลงในอันใดอันหนึ่งนำไปสู่การเปลี่ยนแปลงในกฎหมายการกระจายของอีกอัน
คำนิยาม:หากการเปลี่ยนแปลงในตัวแปรสุ่มตัวใดตัวหนึ่งทำให้เกิดการเปลี่ยนแปลงในค่าเฉลี่ยของตัวแปรสุ่มตัวอื่น การพึ่งพาทางสถิติจะถูกเรียกว่า ความสัมพันธ์
ตัวอย่าง การพึ่งพาความสัมพันธ์เป็นการเชื่อมต่อระหว่าง:
น้ำหนักและส่วนสูงของร่างกาย
ปริมาณ รังสีไอออไนซ์และจำนวนการกลายพันธุ์
เม็ดสีผมมนุษย์และสีตา
ตัวชี้วัดมาตรฐานการครองชีพของประชากรและอัตราการเสียชีวิต
จำนวนผู้บรรยายที่พลาดและเกรดสอบ ฯลฯ
เป็นการพึ่งพาสหสัมพันธ์ซึ่งมักพบในธรรมชาติเนื่องจากอิทธิพลซึ่งกันและกันและการผสมผสานอย่างใกล้ชิดของปัจจัยที่แตกต่างกันมากที่หลากหลายซึ่งกำหนดค่าของตัวบ่งชี้ที่กำลังศึกษา
ผลลัพธ์ของการสังเกตที่ดำเนินการกับวัตถุทางชีววิทยาเฉพาะตามคุณลักษณะที่เกี่ยวข้องกับความสัมพันธ์ Y และ X สามารถแสดงเป็นจุดบนระนาบได้โดยการสร้างระบบพิกัดสี่เหลี่ยม ผลลัพธ์ที่ได้คือแผนภาพกระจายที่ช่วยให้สามารถตัดสินรูปแบบและความใกล้ชิดของความสัมพันธ์ระหว่างคุณลักษณะที่แตกต่างกันได้
หากความสัมพันธ์นี้สามารถประมาณได้ด้วยเส้นโค้ง จะสามารถคาดการณ์การเปลี่ยนแปลงในพารามิเตอร์ตัวใดตัวหนึ่งด้วยการเปลี่ยนแปลงเป้าหมายในพารามิเตอร์อื่นได้
การพึ่งพาสหสัมพันธ์จาก
สามารถอธิบายได้โดยใช้สมการของแบบฟอร์ม
(1)
ช
เดอ
ค่าเฉลี่ยแบบมีเงื่อนไขปริมาณ สอดคล้องกับค่า ปริมาณ
, ก
ฟังก์ชั่นบางอย่าง เรียกสมการ (1) บน
.
รูปที่ 1. การถดถอยเชิงเส้นสำคัญ. แบบอย่าง
.
การทำงาน
เรียกว่า การถดถอยตัวอย่าง
บน
และกราฟของมันคือ เส้นการถดถอยตัวอย่าง
บน
.
ค่อนข้างคล้ายกัน ตัวอย่างสมการถดถอย
บน คือสมการ
.
ขึ้นอยู่กับประเภทของสมการการถดถอยและรูปร่างของเส้นการถดถอยที่สอดคล้องกัน รูปร่างของความสัมพันธ์ระหว่างปริมาณที่พิจารณาจะถูกกำหนด - เชิงเส้น กำลังสอง เลขชี้กำลัง เลขชี้กำลัง
คำถามที่สำคัญที่สุดคือการเลือกประเภทของฟังก์ชันการถดถอย
[หรือ
] เช่น เชิงเส้นหรือไม่เชิงเส้น (เลขชี้กำลัง ลอการิทึม ฯลฯ)
ในทางปฏิบัติ ประเภทของฟังก์ชันการถดถอยสามารถกำหนดได้โดยการสร้างชุดของจุดบนระนาบพิกัดที่สอดคล้องกับคู่การสังเกตที่มีอยู่ทั้งหมด (
).
ข้าว. 2. การถดถอยเชิงเส้นไม่มีนัยสำคัญ แบบอย่าง
.
ร
เป็น. 3. โมเดลไม่เชิงเส้น
.
ตัวอย่างเช่นในรูปที่ 1 มีแนวโน้มเห็นคุณค่าที่เพิ่มขึ้นอย่างเห็นได้ชัด มีการเจริญเติบโต
ในขณะที่ค่าเฉลี่ย สายตาตั้งอยู่บนเส้นตรง มันสมเหตุสมผลแล้วที่จะใช้โมเดลเชิงเส้น (ประเภทของการพึ่งพา จาก
มักเรียกว่าแบบจำลองการพึ่งพา จาก
.
ในรูปที่ 2 ค่าเฉลี่ย ไม่ต้องพึ่ง ดังนั้นการถดถอยเชิงเส้นจึงไม่มีนัยสำคัญ (ฟังก์ชันการถดถอยมีค่าคงที่และเท่ากับ ).
ในรูป 3. มีแนวโน้มที่แบบจำลองจะไม่เป็นเชิงเส้น
ตัวอย่างของการพึ่งพาเชิงเส้น:
เพิ่มปริมาณไอโอดีนที่บริโภคและลดอุบัติการณ์ของโรคคอพอก
เพิ่มระยะเวลาในการให้บริการของพนักงานและเพิ่มผลผลิต
ตัวอย่างของการพึ่งพาเส้นโค้ง:
เมื่อปริมาณฝนเพิ่มขึ้น ผลผลิตจะเพิ่มขึ้น แต่สิ่งนี้เกิดขึ้นจนถึงขีดจำกัดปริมาณฝนที่แน่นอน หลังจากจุดวิกฤติ ฝนตกมากเกินไป ดินล้นหลาม และผลผลิตลดลง
ความสัมพันธ์ระหว่างปริมาณคลอรีนที่ใช้ฆ่าเชื้อในน้ำกับจำนวนแบคทีเรียใน 1 มิลลิลิตร น้ำ. เมื่อปริมาณคลอรีนเพิ่มขึ้น จำนวนแบคทีเรียในน้ำจะลดลง แต่เมื่อถึงจุดวิกฤติ จำนวนแบคทีเรียจะยังคงที่ (หรือหายไปเลย) ไม่ว่าเราจะเพิ่มปริมาณคลอรีนมากเพียงใดก็ตาม
การถดถอยเชิงเส้น
เมื่อเลือกประเภทของฟังก์ชันการถดถอยแล้ว เช่น ประเภทของรูปแบบการพึ่งพาที่อยู่ระหว่างการพิจารณา จาก X (หรือ X จาก Y) เช่น โมเดลเชิงเส้น
จำเป็นต้องกำหนดค่าเฉพาะของสัมประสิทธิ์แบบจำลอง
สำหรับค่านิยมที่แตกต่างกัน กและ
คุณสามารถสร้างการขึ้นต่อกันของแบบฟอร์มได้ไม่จำกัดจำนวน
กล่าวคือเปิด ประสานงานเครื่องบินเส้นตรงมีจำนวนอนันต์ แต่เราต้องการการพึ่งพาที่สอดคล้องกับค่าที่สังเกตได้ดีที่สุด ดังนั้นงานจึงต้องเลือกค่าสัมประสิทธิ์ที่ดีที่สุด
วิธีกำลังสองน้อยที่สุด (LS)
ฟังก์ชันเชิงเส้น
เราค้นหาตามข้อสังเกตที่มีอยู่จำนวนหนึ่งเท่านั้น เราใช้เพื่อค้นหาฟังก์ชันที่เหมาะสมที่สุดกับค่าที่สังเกตได้ วิธี กำลังสองน้อยที่สุด.
รูปที่ 4. คำอธิบายสำหรับการประมาณค่าสัมประสิทธิ์โดยใช้วิธีกำลังสองน้อยที่สุด
เรามาแสดงว่า: - ค่าที่คำนวณจากสมการ
- ค่าที่วัดได้
- ความแตกต่างระหว่างค่าที่วัดได้และค่าที่คำนวณได้โดยใช้สมการ
.
ใน วิธีกำลังสองน้อยที่สุดมันเป็นสิ่งจำเป็นอย่างนั้น ความแตกต่างระหว่างการวัด และค่าที่คำนวณโดยใช้สมการ น้อยที่สุด ดังนั้นเราจึงสามารถหาค่าสัมประสิทธิ์ได้ กและ เพื่อให้ผลรวมของการเบี่ยงเบนกำลังสองของค่าที่สังเกตได้จากค่าบนเส้นถดถอยตรงมีค่าน้อยที่สุด:
เงื่อนไขนี้จะเกิดขึ้นได้หากพารามิเตอร์ กและ จะถูกคำนวณโดยใช้สูตร:
เรียกว่า ค่าสัมประสิทธิ์การถดถอย; เรียกว่า สมาชิกฟรีสมการถดถอย
เส้นตรงที่ได้จะเป็นค่าประมาณของเส้นถดถอยตามทฤษฎี
เรามี
ดังนั้น, เป็น
สมการการถดถอยเชิงเส้น
การถดถอยสามารถทำได้โดยตรง
.
คำนิยาม: และย้อนกลับ การถดถอยแบบย้อนกลับ
หมายความว่าเมื่อพารามิเตอร์หนึ่งเพิ่มขึ้น ค่าของพารามิเตอร์อื่นจะลดลง
การถดถอยเชิงเส้นคู่
แบบฝึกหัด
การถดถอยเชิงเส้นคู่: การประชุมเชิงปฏิบัติการ -
การศึกษาวิชาเศรษฐมิติเกี่ยวข้องกับการที่นักเรียนได้รับประสบการณ์ในการสร้างแบบจำลองทางเศรษฐมิติ การตัดสินใจเกี่ยวกับข้อกำหนดและการระบุแบบจำลอง การเลือกวิธีการประมาณค่าพารามิเตอร์ของแบบจำลอง การประเมินคุณภาพ การตีความผลลัพธ์ การขอรับค่าประมาณการคาดการณ์ ฯลฯ การประชุมเชิงปฏิบัติการจะช่วยให้นักเรียน ได้รับทักษะการปฏิบัติในประเด็นเหล่านี้
ได้รับการอนุมัติจากกองบรรณาธิการและสำนักพิมพ์
เรียบเรียงโดย: ม.บ. Perova เศรษฐศาสตร์ดุษฎีบัณฑิต ศาสตราจารย์
การวิเคราะห์การถดถอยการวิเคราะห์การถดถอย ปริมาณอิสระ(เครื่องหมายแฟคทอเรียล) ความสัมพันธ์นี้สามารถหาปริมาณได้โดยการสร้างสมการถดถอยหรือฟังก์ชันการถดถอย
แบบจำลองการถดถอยพื้นฐานคือแบบจำลองการถดถอยแบบจับคู่ (ปัจจัยเดียว) การถดถอยคู่– สมการการเชื่อมต่อระหว่างตัวแปรสองตัว ที่และ เอ็กซ์:
ที่ไหน – ตัวแปรตาม (คุณลักษณะผลลัพธ์)
– ตัวแปรอิสระที่อธิบายได้ (ลักษณะแฟคทอเรียล)
ขึ้นอยู่กับลักษณะของการเปลี่ยนแปลง ที่ด้วยการเปลี่ยนแปลง เอ็กซ์แยกความแตกต่างระหว่างการถดถอยเชิงเส้นและไม่เชิงเส้น
การถดถอยเชิงเส้น
ฟังก์ชันการถดถอยนี้เรียกว่าพหุนามของดีกรี 1 และใช้เพื่ออธิบายกระบวนการที่มีการพัฒนาอย่างสม่ำเสมอเมื่อเวลาผ่านไป
การมีสมาชิกแบบสุ่ม (ข้อผิดพลาดการถดถอย) มีความเกี่ยวข้องกับผลกระทบต่อตัวแปรตามของปัจจัยอื่น ๆ ที่ไม่ได้นำมาพิจารณาในสมการ กับความไม่เชิงเส้นที่เป็นไปได้ของแบบจำลอง ข้อผิดพลาดในการวัด และดังนั้นลักษณะที่ปรากฏ สมการข้อผิดพลาดแบบสุ่มการถดถอยอาจเนื่องมาจากวัตถุประสงค์ดังต่อไปนี้ เหตุผล:
1) การไม่เป็นตัวแทนของกลุ่มตัวอย่าง แบบจำลองการถดถอยแบบคู่ประกอบด้วยปัจจัยที่ไม่สามารถอธิบายความแปรผันในลักษณะผลลัพธ์ได้ครบถ้วน ซึ่งอาจได้รับอิทธิพลจากปัจจัยอื่นๆ อีกมากมาย (ละเว้นตัวแปร) ในขอบเขตที่สูงกว่ามาก ตัวอย่างเช่น ค่าจ้างอาจขึ้นอยู่กับระดับการศึกษา ประสบการณ์การทำงาน เพศ ฯลฯ นอกเหนือจากคุณสมบัติ
2) มีความเป็นไปได้ที่ตัวแปรที่เกี่ยวข้องกับแบบจำลองอาจถูกวัดโดยมีข้อผิดพลาด ตัวอย่างเช่น ข้อมูลค่าใช้จ่ายด้านอาหารในครัวเรือนรวบรวมจากบันทึกของผู้เข้าร่วมการสำรวจ ซึ่งสันนิษฐานว่าบันทึกค่าใช้จ่ายรายวันอย่างระมัดระวัง แน่นอนว่าข้อผิดพลาดก็เกิดขึ้นได้
จากการสังเกตตัวอย่าง สมการการถดถอยตัวอย่างจะถูกประมาณ ( เส้นถดถอย):
,
ที่ไหน
– การประมาณค่าพารามิเตอร์ของสมการถดถอย (
).
รูปแบบการวิเคราะห์ของการพึ่งพาระหว่างคู่คุณลักษณะที่ศึกษา (ฟังก์ชันการถดถอย) จะถูกกำหนดโดยใช้สิ่งต่อไปนี้ วิธีการ:
ขึ้นอยู่กับการวิเคราะห์ทางทฤษฎีและตรรกะธรรมชาติของปรากฏการณ์ที่กำลังศึกษา สาระสำคัญทางเศรษฐกิจและสังคม
ตัวอย่างเช่น หากมีการศึกษาความสัมพันธ์ระหว่างรายได้ของครัวเรือนกับขนาดของเงินฝากในครัวเรือนในธนาคาร ก็จะเห็นได้ชัดว่าความสัมพันธ์นั้นเป็นไปโดยตรงวิธีการแบบกราฟิก
เมื่อประเมินลักษณะของการเชื่อมต่อด้วยสายตา เอ็กซ์การพึ่งพานี้สามารถเห็นได้ชัดเจนหากคุณสร้างกราฟโดยพล็อตค่าของแอตทริบิวต์บนแกน x ที่และในการกำหนด - ค่าของคุณลักษณะ เอ็กซ์และ ที่- โดยการวางแผนจุดที่สอดคล้องกับค่า เราได้รับ:
ก) หากคะแนนกระจายแบบสุ่มทั่วทั้งสนาม แสดงว่าไม่มีการพึ่งพาระหว่างคุณสมบัติเหล่านี้
b) หากจุดนั้นกระจุกตัวอยู่รอบแกนที่วิ่งจากมุมล่างซ้ายไปมุมขวาบนแสดงว่ามีความสัมพันธ์โดยตรงระหว่างคุณลักษณะนั้น
c) หากจุดนั้นกระจุกตัวอยู่รอบแกนที่เริ่มจากมุมซ้ายบนไปขวาล่าง - จากนั้น ความสัมพันธ์แบบผกผันระหว่างสัญญาณ
ถ้าเราเชื่อมโยงจุดต่างๆ บนสนามสหสัมพันธ์กับส่วนของเส้นตรง เราจะได้ เส้นขาดโดยมีแนวโน้มสูงขึ้นบ้าง นี่จะเป็นสายการสื่อสารเชิงประจักษ์หรือ เส้นการถดถอยเชิงประจักษ์- จากรูปลักษณ์ภายนอกเราสามารถตัดสินได้ไม่เพียง แต่การมีอยู่เท่านั้น แต่ยังรวมถึงรูปแบบของการพึ่งพาระหว่างลักษณะที่ศึกษาด้วย
การสร้างสมการถดถอยคู่
การสร้างสมการถดถอยมาจากการประมาณค่าพารามิเตอร์ การประมาณค่าพารามิเตอร์เหล่านี้สามารถพบได้หลายวิธี หนึ่งในนั้นคือวิธีกำลังสองน้อยที่สุด (LSM) สาระสำคัญของวิธีการมีดังนี้ แต่ละค่า สอดคล้องกับค่าเชิงประจักษ์ (สังเกตได้) - โดยการสร้างสมการถดถอย เช่น สมการเส้นตรง สำหรับแต่ละค่า จะสอดคล้องกับค่าทางทฤษฎี (คำนวณ) - ค่าที่สังเกตได้ อย่าอยู่บนเส้นถดถอยอย่างแน่นอน เช่น ไม่ตรงกัน - เรียกว่าความแตกต่างระหว่างค่าจริงและค่าที่คำนวณได้ของตัวแปรตาม ส่วนที่เหลือ:
วิธีกำลังสองน้อยที่สุดทำให้สามารถรับค่าประมาณพารามิเตอร์ดังกล่าวได้ ซึ่งผลรวมของการเบี่ยงเบนกำลังสองของค่าจริงของลักษณะผลลัพธ์ ที่จากทางทฤษฎี , เช่น. ผลรวมของกำลังสองของเศษเหลือน้อยที่สุด:
สำหรับสมการเชิงเส้นและสมการไม่เชิงเส้นที่สามารถลดเป็นเชิงเส้นได้ ระบบต่อไปนี้จะได้รับการแก้ไขด้วยความเคารพ กและ ข:
ที่ไหน n– ขนาดตัวอย่าง
เมื่อแก้ระบบสมการแล้ว เราก็จะได้ค่าต่างๆ กและ ขซึ่งทำให้เราสามารถเขียนได้ สมการถดถอย(สมการถดถอย):
ที่ไหน – ตัวแปรอธิบาย (อิสระ)
–ตัวแปรอธิบาย (ขึ้นอยู่กับ)
เส้นถดถอยผ่านจุด ( ,) และมีความเท่าเทียมกัน:
คุณสามารถใช้สูตรสำเร็จรูปที่ตามมาจากระบบสมการนี้:
ที่ไหน – ค่าเฉลี่ยของลักษณะเฉพาะ
– ค่าเฉลี่ยของคุณลักษณะอิสระ
– ค่าเฉลี่ยเลขคณิตของผลิตภัณฑ์ที่มีลักษณะเฉพาะและเป็นอิสระ
– ความแปรปรวนของคุณลักษณะอิสระ
– ความแปรปรวนร่วมระหว่างคุณลักษณะขึ้นอยู่กับและเป็นอิสระ
ความแปรปรวนร่วมตัวอย่างสองตัวแปร เอ็กซ์, ที่เรียกว่า ค่าเฉลี่ยผลคูณของการเบี่ยงเบนของตัวแปรเหล่านี้จากค่าเฉลี่ย
พารามิเตอร์ ขที่ เอ็กซ์มีที่ดี ความสำคัญในทางปฏิบัติและเรียกว่าสัมประสิทธิ์การถดถอย สัมประสิทธิ์การถดถอยแสดงจำนวนหน่วยที่ค่าเปลี่ยนแปลงโดยเฉลี่ย ที่ เอ็กซ์ต่อ 1 หน่วยของการวัด
เครื่องหมายพารามิเตอร์ ขในสมการการถดถอยแบบคู่บ่งชี้ทิศทางของความสัมพันธ์:
ถ้า
จากนั้นความสัมพันธ์ระหว่างตัวชี้วัดที่ศึกษาจะเป็นทางตรงเช่น โดยมีเครื่องหมายปัจจัยเพิ่มขึ้น เอ็กซ์สัญญาณที่มีประสิทธิภาพก็เพิ่มขึ้นเช่นกัน ที่และในทางกลับกัน;
ถ้า
จากนั้นความสัมพันธ์ระหว่างตัวบ่งชี้ที่ศึกษาจะกลับกันนั่นคือ โดยมีเครื่องหมายปัจจัยเพิ่มขึ้น เอ็กซ์เครื่องหมายผลลัพธ์ ที่ลดลง และในทางกลับกัน
ค่าพารามิเตอร์ กในสมการการถดถอยคู่ในบางกรณีสามารถตีความได้ว่าเป็นค่าเริ่มต้นของคุณลักษณะผลลัพธ์ ที่- การตีความพารามิเตอร์นี้ กเป็นไปได้ก็ต่อเมื่อมีค่า
สมเหตุสมผล
หลังจากสร้างสมการถดถอยแล้วจะได้ค่าที่สังเกตได้ ยสามารถแสดงเป็น:
ของเหลือ เหมือนความผิดพลาด , เป็น ตัวแปรสุ่มอย่างไรก็ตาม ไม่เหมือนข้อผิดพลาด , สังเกตได้. ส่วนที่เหลือคือส่วนหนึ่งของตัวแปรตาม ยซึ่งไม่สามารถอธิบายได้โดยใช้สมการถดถอย
โดยอาศัยสมการถดถอยสามารถคำนวณได้ ค่าทางทฤษฎี เอ็กซ์สำหรับค่าใดๆ เอ็กซ์.
ในการวิเคราะห์ทางเศรษฐศาสตร์ มักใช้แนวคิดเรื่องความยืดหยุ่นของฟังก์ชัน ฟังก์ชั่นความยืดหยุ่น
คำนวณเป็นการเปลี่ยนแปลงสัมพัทธ์ ยการเปลี่ยนแปลงสัมพัทธ์ x- ความยืดหยุ่นจะแสดงตามเปอร์เซ็นต์ที่ฟังก์ชันเปลี่ยนแปลง
เมื่อตัวแปรอิสระเปลี่ยนแปลงไป 1%
เนื่องจากความยืดหยุ่นของฟังก์ชันเชิงเส้น
ไม่ใช่ ค่าคงที่แต่ขึ้นอยู่กับ เอ็กซ์จากนั้นค่าสัมประสิทธิ์ความยืดหยุ่นมักจะคำนวณเป็นความยืดหยุ่นโดยเฉลี่ย
ค่าสัมประสิทธิ์ความยืดหยุ่นแสดงโดยเปอร์เซ็นต์โดยเฉลี่ยมูลค่าของลักษณะผลลัพธ์ที่จะเปลี่ยนแปลงโดยเฉลี่ย ที่เมื่อลักษณะปัจจัยเปลี่ยนแปลงไป เอ็กซ์ 1% ของมูลค่าเฉลี่ย:
ที่ไหน
– ค่าเฉลี่ยของตัวแปร เอ็กซ์และ ที่ในตัวอย่าง
การประเมินคุณภาพของแบบจำลองการถดถอยที่สร้างขึ้น
คุณภาพของโมเดลการถดถอย– ความเพียงพอของแบบจำลองที่สร้างขึ้นต่อข้อมูลต้นฉบับ (สังเกตได้)
เพื่อวัดความแน่นของการเชื่อมต่อ เช่น ในการวัดว่าค่าความใกล้เคียงกับฟังก์ชันนั้นอยู่ใกล้แค่ไหน คุณจะต้องพิจารณาความแปรปรวนซึ่งจะวัดค่าความเบี่ยงเบน ที่จาก ที่ เอ็กซ์และแสดงลักษณะความแปรผันของสารตกค้างเนื่องจากปัจจัยอื่นๆ เป็นพื้นฐานของตัวบ่งชี้ที่แสดงลักษณะของแบบจำลองการถดถอย
คุณภาพของการถดถอยแบบคู่ถูกกำหนดโดยใช้การกำหนดลักษณะสัมประสิทธิ์
1) ความใกล้ชิดของการเชื่อมต่อ - ดัชนีสหสัมพันธ์, ค่าสัมประสิทธิ์สหสัมพันธ์เชิงเส้นคู่;
2) ข้อผิดพลาดในการประมาณ;
3) คุณภาพของสมการการถดถอยและพารามิเตอร์แต่ละตัว - ค่าคลาดเคลื่อนกำลังสองเฉลี่ยของสมการการถดถอยโดยรวมและพารามิเตอร์แต่ละตัว
สำหรับสมการการถดถอยประเภทใดก็ตาม จะมีการกำหนดไว้ ดัชนีความสัมพันธ์ซึ่งแสดงเฉพาะความรัดกุมของการพึ่งพาสหสัมพันธ์เท่านั้นเช่น ระดับของการประมาณการเชื่อมต่อการทำงาน:
,
ที่ไหน – การกระจายตัวแบบแฟคทอเรียล (เชิงทฤษฎี)
– ความแปรปรวนทั้งหมด
ดัชนีความสัมพันธ์ใช้ค่า
ในเวลาเดียวกัน
ถ้า
ถ้า
- การเชื่อมต่อระหว่างป้ายต่างๆ เอ็กซ์และ ที่ใช้งานได้ดียิ่งขึ้น ถึง 1 ยิ่งพิจารณาความสัมพันธ์ระหว่างคุณลักษณะที่ศึกษามากขึ้นเท่านั้น ถ้า
จากนั้นถือว่าการเชื่อมต่อปิด
ความแปรปรวนที่จำเป็นในการคำนวณตัวบ่งชี้ความหนาแน่นของข้อต่อถูกคำนวณ:
ผลต่างรวม, วัด รูปแบบทั่วไปเนื่องจากการกระทำของปัจจัยทั้งหมด:
ความแปรปรวนของปัจจัย (ทางทฤษฎี)การวัดความแปรผันของลักษณะผลลัพธ์ ที่เนื่องจากการกระทำของเครื่องหมายปัจจัย เอ็กซ์:
ผลต่างที่เหลือบ่งบอกถึงความแปรผันของลักษณะ ที่เนื่องจากปัจจัยทั้งหมดยกเว้น เอ็กซ์(เช่น ด้วยการยกเว้น เอ็กซ์):
จากนั้นตามกฎของการบวกผลต่าง:
คุณภาพของห้องอบไอน้ำ เชิงเส้นการถดถอยยังสามารถกำหนดได้โดยใช้ ค่าสัมประสิทธิ์สหสัมพันธ์เชิงเส้นคู่:
,
ที่ไหน
– ความแปรปรวนร่วมของตัวแปร เอ็กซ์และ ที่;
– ส่วนเบี่ยงเบนมาตรฐานของคุณลักษณะอิสระ
– ค่าเบี่ยงเบนมาตรฐานของลักษณะเฉพาะ
ค่าสัมประสิทธิ์สหสัมพันธ์เชิงเส้นแสดงถึงความใกล้ชิดและทิศทางของความสัมพันธ์ระหว่างคุณลักษณะที่กำลังศึกษา มีการวัดภายใน [-1; +1]:
ถ้า
– จากนั้นความเชื่อมโยงระหว่างคุณลักษณะจะเป็นทางตรง
ถ้า
– จากนั้นความสัมพันธ์ระหว่างสัญญาณจะกลับกัน
ถ้า
– ดังนั้นจึงไม่มีความเชื่อมโยงระหว่างคุณลักษณะ
ถ้า
หรือ
– จากนั้นการเชื่อมต่อระหว่างคุณลักษณะต่างๆ จะทำงานได้ เช่น โดดเด่นด้วยการติดต่อสื่อสารที่สมบูรณ์ระหว่าง เอ็กซ์และ ที่- ยิ่งใกล้. ถึง 1 ยิ่งพิจารณาความสัมพันธ์ระหว่างคุณลักษณะที่ศึกษามากขึ้นเท่านั้น
หากดัชนีสหสัมพันธ์ (สัมประสิทธิ์สหสัมพันธ์เชิงเส้นคู่) ถูกยกกำลังสอง เราจะได้ค่าสัมประสิทธิ์การกำหนด
ค่าสัมประสิทธิ์การตัดสินใจ– แสดงถึงส่วนแบ่งของความแปรปรวนของปัจจัยในผลรวม และแสดงด้วยเปอร์เซ็นต์ของการแปรผันของคุณลักษณะผลลัพธ์ ที่อธิบายโดยการแปรผันของคุณลักษณะของปัจจัย เอ็กซ์:
มันไม่ได้แสดงลักษณะเฉพาะของรูปแบบทั้งหมด ที่จากเครื่องหมายปัจจัย เอ็กซ์แต่เฉพาะส่วนที่สอดคล้องกับสมการการถดถอยเชิงเส้นเท่านั้น กล่าวคือ การแสดง ความถ่วงจำเพาะการแปรผันของคุณลักษณะผลลัพธ์ สัมพันธ์เชิงเส้นตรงกับการแปรผันของคุณลักษณะปัจจัย
ขนาด
– สัดส่วนของการแปรผันในลักษณะผลลัพธ์ที่แบบจำลองการถดถอยไม่สามารถนำมาพิจารณาได้
การกระจายตัวของจุดในฟิลด์สหสัมพันธ์อาจมีขนาดใหญ่มากและสมการการถดถอยที่คำนวณได้อาจทำให้เกิดข้อผิดพลาดอย่างมากในการประมาณค่าตัวบ่งชี้ที่วิเคราะห์
ข้อผิดพลาดในการประมาณค่าเฉลี่ยแสดงความเบี่ยงเบนเฉลี่ยของค่าที่คำนวณได้จากค่าจริง:
ค่าสูงสุดที่อนุญาตคือ 12–15%
ข้อผิดพลาดมาตรฐานคือการวัดการแพร่กระจายของตัวแปรตามรอบเส้นการถดถอย จะมีการคำนวณสำหรับชุดค่าที่สังเกตได้ทั้งหมด มาตรฐาน (rms) ข้อผิดพลาดสมการถดถอยซึ่งเป็นค่าเบี่ยงเบนมาตรฐานของค่าจริง ที่สัมพันธ์กับค่าทางทฤษฎีที่คำนวณโดยใช้สมการถดถอย ที่ เอ็กซ์ .
,
ที่ไหน
– จำนวนระดับความเป็นอิสระ
ม– จำนวนพารามิเตอร์ของสมการถดถอย (สำหรับสมการเส้นตรง ม=2).
ประมาณการค่าเฉลี่ย ข้อผิดพลาดกำลังสองคุณสามารถเปรียบเทียบมันได้
ก) ด้วยค่าเฉลี่ยของลักษณะผลลัพธ์ ที่;
b) มีค่าเบี่ยงเบนมาตรฐานของคุณลักษณะ ที่:
ถ้า
ดังนั้นการใช้สมการถดถอยนี้มีความเหมาะสม
ประเมินแยกกัน มาตรฐาน ข้อผิดพลาด (ค่าเฉลี่ยกำลังสอง) ของพารามิเตอร์สมการและดัชนีสหสัมพันธ์:
;
;
.
เอ็กซ์– ส่วนเบี่ยงเบนมาตรฐาน เอ็กซ์.
การตรวจสอบความสำคัญของสมการถดถอยและตัวบ่งชี้ความแน่นของการเชื่อมต่อ
เพื่อให้แบบจำลองที่สร้างขึ้นนำไปใช้ในการคำนวณทางเศรษฐกิจต่อไป การตรวจสอบคุณภาพของแบบจำลองที่สร้างขึ้นนั้นยังไม่เพียงพอ นอกจากนี้ยังจำเป็นต้องตรวจสอบนัยสำคัญ (นัยสำคัญ) ของการประมาณสมการการถดถอยที่ได้รับโดยใช้วิธีกำลังสองน้อยที่สุดและตัวบ่งชี้ความแข็งแกร่งของความสัมพันธ์ เช่น จำเป็นต้องตรวจสอบความสอดคล้องกับพารามิเตอร์ที่แท้จริงของความสัมพันธ์
นี่เป็นเพราะความจริงที่ว่าตัวบ่งชี้ที่คำนวณจากประชากรที่จำกัดยังคงรักษาองค์ประกอบของการสุ่มที่มีอยู่ในค่าแต่ละค่าของคุณลักษณะ ดังนั้นจึงเป็นเพียงการประมาณการรูปแบบทางสถิติบางอย่างเท่านั้น จำเป็นต้องประเมินระดับความถูกต้องและความสำคัญ (ความน่าเชื่อถือ นัยสำคัญ) ของพารามิเตอร์การถดถอย ภายใต้ ความสำคัญเข้าใจความน่าจะเป็นที่ค่าของพารามิเตอร์ที่จะทดสอบไม่เป็นศูนย์และไม่รวมค่าของเครื่องหมายตรงกันข้าม
การตรวจสอบความสำคัญ– การตรวจสอบสมมติฐานว่าพารามิเตอร์แตกต่างจากศูนย์
การประเมินความสำคัญของสมการถดถอยคู่ลงมาเพื่อทดสอบสมมติฐานเกี่ยวกับความสำคัญของสมการถดถอยโดยรวมและพารามิเตอร์แต่ละตัว ( ก, ข) สัมประสิทธิ์คู่ของการกำหนดหรือดัชนีสหสัมพันธ์
ในกรณีนี้สามารถหยิบยกสิ่งต่อไปนี้: สมมติฐานหลักชม 0 :
1)
– ค่าสัมประสิทธิ์การถดถอยไม่มีนัยสำคัญและสมการการถดถอยก็ไม่มีนัยสำคัญเช่นกัน
2)
– ค่าสัมประสิทธิ์การจับคู่ของการกำหนดไม่มีนัยสำคัญและสมการการถดถอยก็ไม่มีนัยสำคัญเช่นกัน
สมมติฐานต่อไปนี้เป็นทางเลือก (หรือย้อนกลับ):
1)
– ค่าสัมประสิทธิ์การถดถอยแตกต่างอย่างมีนัยสำคัญจากศูนย์ และสมการการถดถอยที่สร้างขึ้นมีนัยสำคัญ
2)
– ค่าสัมประสิทธิ์การจับคู่ของการกำหนดมีความแตกต่างอย่างมีนัยสำคัญจากศูนย์ และสมการการถดถอยที่สร้างขึ้นนั้นมีนัยสำคัญ
ทดสอบสมมติฐานเกี่ยวกับความสำคัญของสมการถดถอยคู่
เพื่อทดสอบสมมติฐานเกี่ยวกับความไม่มีนัยสำคัญทางสถิติของสมการการถดถอยโดยรวมและสัมประสิทธิ์การกำหนด เราใช้ เอฟ-เกณฑ์(การทดสอบฟิชเชอร์):
หรือ
ที่ไหน เค 1 = ม–1 ; เค 2 = n– ม – จำนวนระดับความเป็นอิสระ
n– จำนวนหน่วยประชากร
ม– จำนวนพารามิเตอร์สมการถดถอย
– การกระจายตัวของปัจจัย
–ความแปรปรวนคงเหลือ
สมมติฐานได้รับการทดสอบดังนี้:
1) ถ้าเป็นค่าจริง (สังเกตได้) เอฟ-เกณฑ์มีค่ามากกว่าค่าวิกฤต (ตาราง) ของเกณฑ์นี้
แล้วด้วยความน่าจะเป็น
สมมติฐานหลักเกี่ยวกับความไม่มีนัยสำคัญของสมการการถดถอยหรือสัมประสิทธิ์การกำหนดคู่ถูกปฏิเสธ และถือว่าสมการการถดถอยมีนัยสำคัญ
2) ถ้าค่าจริง (สังเกตได้) ของเกณฑ์ F น้อยกว่าค่าวิกฤตของเกณฑ์นี้
แล้วมีความน่าจะเป็น (
) ยอมรับสมมติฐานหลักเกี่ยวกับความไม่มีนัยสำคัญของสมการการถดถอยหรือสัมประสิทธิ์การจับคู่ของการกำหนด และสมการการถดถอยที่สร้างขึ้นถือว่าไม่มีนัยสำคัญ
ค่าวิกฤต เอฟ-เกณฑ์จะพบได้ในตารางที่เกี่ยวข้องขึ้นอยู่กับระดับนัยสำคัญ และจำนวนระดับความเป็นอิสระ
.
จำนวนองศาความเป็นอิสระ– ตัวบ่งชี้ซึ่งหมายถึงความแตกต่างระหว่างขนาดตัวอย่าง ( n) และจำนวนพารามิเตอร์โดยประมาณสำหรับตัวอย่างที่กำหนด ( ม- สำหรับแบบจำลองการถดถอยแบบคู่ จำนวนองศาอิสระจะถูกคำนวณดังนี้
เนื่องจากพารามิเตอร์สองตัวถูกประมาณจากตัวอย่าง (
).
ระดับความสำคัญ
– มูลค่าที่กำหนด
,
ที่ไหน – ความน่าจะเป็นความเชื่อมั่นของพารามิเตอร์โดยประมาณที่ตกอยู่ในช่วงความเชื่อมั่น โดยปกติจะยอมรับ 0.95 ดังนั้น คือความน่าจะเป็นที่พารามิเตอร์โดยประมาณจะไม่ตกอยู่ในช่วงความเชื่อมั่น เท่ากับ 0.05 (5%)
จากนั้น ในกรณีประเมินนัยสำคัญของสมการการถดถอยคู่ ค่าวิกฤตของการทดสอบ F จะถูกคำนวณดังนี้
:
.
การทดสอบสมมติฐานเกี่ยวกับความสำคัญของพารามิเตอร์ของสมการถดถอยคู่และดัชนีสหสัมพันธ์
เมื่อตรวจสอบความสำคัญของพารามิเตอร์ของสมการ (สมมติฐานว่าพารามิเตอร์แตกต่างจากศูนย์) สมมติฐานหลักจะถูกหยิบยกขึ้นมาเกี่ยวกับความไม่มีนัยสำคัญของการประมาณค่าที่ได้รับ (
- เนื่องจากมีการนำเสนอสมมติฐานทางเลือก (ผกผัน) เกี่ยวกับความสำคัญของพารามิเตอร์ของสมการ (
).
เพื่อทดสอบสมมติฐานที่หยิบยกมาใช้ ที
-เกณฑ์
(ที-สถิติ) การทดสอบของนักเรียน- ค่าที่สังเกตได้ ที-เกณฑ์จะถูกเปรียบเทียบกับค่า ที-เกณฑ์ที่กำหนดจากตารางการแจกแจงนักเรียน (ค่าวิกฤต) ค่าวิกฤต ที-เกณฑ์
ขึ้นอยู่กับพารามิเตอร์สองตัว: ระดับนัยสำคัญ และจำนวนระดับความเป็นอิสระ
.
สมมติฐานที่นำเสนอได้รับการทดสอบดังนี้:
1) ถ้าเป็นค่าสัมบูรณ์ของค่าที่สังเกตได้ ที-เกณฑ์ที่มากกว่าค่าวิกฤต ที-เกณฑ์ เช่น
แล้วด้วยความน่าจะเป็น
สมมติฐานหลักเกี่ยวกับความไม่มีนัยสำคัญของพารามิเตอร์การถดถอยถูกปฏิเสธ เช่น พารามิเตอร์การถดถอยไม่เท่ากับ 0
2) ถ้าเป็นค่าสัมบูรณ์ของค่าที่สังเกตได้ ที-เกณฑ์มีค่าน้อยกว่าหรือเท่ากับค่าวิกฤต ที-เกณฑ์ เช่น
แล้วด้วยความน่าจะเป็น
ยอมรับสมมติฐานหลักเกี่ยวกับความไม่มีนัยสำคัญของพารามิเตอร์การถดถอยเช่น พารามิเตอร์การถดถอยแทบจะไม่แตกต่างจาก 0 หรือเท่ากับ 0
การประเมินความสำคัญของค่าสัมประสิทธิ์การถดถอยโดยใช้การทดสอบของนักเรียนนั้นดำเนินการโดยการเปรียบเทียบค่าประมาณกับค่าของข้อผิดพลาดมาตรฐาน:
;
เพื่อประเมินนัยสำคัญทางสถิติของดัชนีสหสัมพันธ์ (สัมประสิทธิ์เชิงเส้น) ก็ถูกนำมาใช้เช่นกัน ที-แบบทดสอบของนักเรียน
ในระหว่างการศึกษา นักเรียนมักจะพบกับสมการที่หลากหลาย หนึ่งในนั้นคือสมการการถดถอย ซึ่งมีการกล่าวถึงในบทความนี้ สมการประเภทนี้ใช้เพื่ออธิบายลักษณะของความสัมพันธ์ระหว่างกันโดยเฉพาะ พารามิเตอร์ทางคณิตศาสตร์. ประเภทนี้ความเท่าเทียมกันถูกใช้ในสถิติและเศรษฐมิติ
คำจำกัดความของการถดถอย
ในทางคณิตศาสตร์ การถดถอยหมายถึงปริมาณที่แน่นอนซึ่งอธิบายการพึ่งพาค่าเฉลี่ยของชุดข้อมูลกับค่าของปริมาณอื่น สมการการถดถอยจะแสดงค่าเฉลี่ยของคุณลักษณะอื่นเป็นฟังก์ชันของคุณลักษณะหนึ่งๆ ฟังก์ชันการถดถอยมีรูปแบบ สมการง่ายๆ y = x โดยที่ y ทำหน้าที่เป็นตัวแปรตาม และ x เป็นตัวแปรอิสระ (ฟีเจอร์-แฟคเตอร์) ในความเป็นจริง การถดถอยจะแสดงเป็น y = f (x)
ความสัมพันธ์ระหว่างตัวแปรมีกี่ประเภท?
โดยทั่วไป มีความสัมพันธ์สองประเภทที่ตรงข้ามกัน: สหสัมพันธ์และการถดถอย
ประการแรกมีลักษณะเฉพาะคือความเท่าเทียมกันของตัวแปรตามเงื่อนไข ใน ในกรณีนี้ไม่เป็นที่ทราบแน่ชัดว่าตัวแปรใดขึ้นอยู่กับตัวแปรอื่น
หากไม่มีความเท่าเทียมกันระหว่างตัวแปรและเงื่อนไขที่บอกว่าตัวแปรใดเป็นคำอธิบายและขึ้นอยู่กับตัวแปรใด เราสามารถพูดคุยเกี่ยวกับการมีอยู่ของการเชื่อมต่อประเภทที่สองได้ ในการสร้างสมการการถดถอยเชิงเส้น จำเป็นต้องค้นหาว่าความสัมพันธ์ประเภทใดที่สังเกตได้
ประเภทของการถดถอย
ปัจจุบัน มีการถดถอยที่แตกต่างกัน 7 ประเภท: ไฮเพอร์โบลิก, เชิงเส้น, พหุคูณ, ไม่เชิงเส้น, เป็นคู่, ผกผัน, เชิงเส้นแบบลอการิทึม
ไฮเปอร์โบลิก เชิงเส้น และลอการิทึม
สมการการถดถอยเชิงเส้นใช้ในสถิติเพื่ออธิบายพารามิเตอร์ของสมการอย่างชัดเจน ดูเหมือนว่า y = c+t*x+E สมการไฮเพอร์โบลิกมีรูปแบบของไฮเปอร์โบลาปกติ y = c + m / x + E สมการเชิงเส้นแบบลอการิทึมเป็นการแสดงออกถึงความสัมพันธ์โดยใช้ ฟังก์ชันลอการิทึม: ใน y = ใน c + t* ใน x + ใน E.
หลายรายการและไม่เชิงเส้น
อีกสอง ประเภทที่ซับซ้อนการถดถอยเป็นแบบทวีคูณและไม่เป็นเชิงเส้น สมการ การถดถอยหลายครั้งแสดงได้ด้วยฟังก์ชัน y = f(x 1, x 2 ...x c) + E ในสถานการณ์นี้ y ทำหน้าที่เป็นตัวแปรตาม และ x ทำหน้าที่เป็นตัวแปรอธิบาย ตัวแปร E เป็นแบบสุ่ม โดยรวมถึงอิทธิพลของปัจจัยอื่นๆ ในสมการด้วย สมการไม่เชิงเส้นการถดถอยค่อนข้างขัดแย้ง ในแง่หนึ่ง เมื่อเทียบกับตัวบ่งชี้ที่นำมาพิจารณา มันไม่เชิงเส้น แต่ในทางกลับกัน ในบทบาทของการประเมินตัวบ่งชี้ มันเป็นเชิงเส้น
การถดถอยประเภทผกผันและคู่
ค่าผกผันเป็นฟังก์ชันประเภทหนึ่งที่ต้องแปลง มุมมองเชิงเส้น- ในแอปพลิเคชันแบบดั้งเดิมส่วนใหญ่ จะมีรูปแบบของฟังก์ชัน y = 1/c + m*x+E สมการการถดถอยแบบคู่แสดงความสัมพันธ์ระหว่างข้อมูลเป็นฟังก์ชันของ y = f (x) + E เช่นเดียวกับสมการอื่นๆ y ขึ้นอยู่กับ x และ E เป็นพารามิเตอร์สุ่ม
แนวคิดเรื่องความสัมพันธ์
นี่เป็นตัวบ่งชี้ที่แสดงให้เห็นถึงความสัมพันธ์ระหว่างปรากฏการณ์หรือกระบวนการสองอย่าง ความเข้มแข็งของความสัมพันธ์แสดงเป็นค่าสัมประสิทธิ์สหสัมพันธ์ ค่าของมันผันผวนภายในช่วง [-1;+1] ตัวบ่งชี้เชิงลบบ่งบอกถึงความพร้อม ข้อเสนอแนะ, บวก - เกี่ยวกับเส้นตรง หากค่าสัมประสิทธิ์รับค่าเท่ากับ 0 แสดงว่าไม่มีความสัมพันธ์ ยิ่งค่าเข้าใกล้ 1 มากเท่าใด ความสัมพันธ์ระหว่างพารามิเตอร์ก็จะยิ่งมากขึ้นเท่านั้น
วิธีการ
วิธีพาราเมตริกสหสัมพันธ์สามารถประเมินความแข็งแกร่งของความสัมพันธ์ได้ ใช้บนพื้นฐานของการประมาณการกระจายเพื่อศึกษาพารามิเตอร์ที่เป็นไปตามกฎการแจกแจงแบบปกติ
พารามิเตอร์ของสมการการถดถอยเชิงเส้นจำเป็นต่อการระบุประเภทของการพึ่งพา ฟังก์ชันของสมการการถดถอย และประเมินตัวบ่งชี้ของสูตรความสัมพันธ์ที่เลือก ฟิลด์ความสัมพันธ์จะใช้เป็นวิธีระบุการเชื่อมต่อ เมื่อต้องการทำเช่นนี้ ข้อมูลที่มีอยู่ทั้งหมดจะต้องแสดงเป็นภาพกราฟิก ข้อมูลที่ทราบทั้งหมดจะต้องถูกลงจุดในระบบพิกัดสองมิติรูปสี่เหลี่ยมผืนผ้า นี่คือวิธีการสร้างฟิลด์สหสัมพันธ์ ค่าของปัจจัยที่อธิบายจะถูกทำเครื่องหมายตามแกน abscissa ในขณะที่ค่าของปัจจัยที่ขึ้นอยู่กับจะถูกทำเครื่องหมายตามแกนกำหนด หากมีความสัมพันธ์เชิงฟังก์ชันระหว่างพารามิเตอร์ พารามิเตอร์เหล่านั้นจะเรียงกันเป็นเส้น
หากค่าสัมประสิทธิ์สหสัมพันธ์ของข้อมูลดังกล่าวน้อยกว่า 30% เราอาจพูดถึงการขาดการเชื่อมต่อที่เกือบจะสมบูรณ์ หากอยู่ระหว่าง 30% ถึง 70% แสดงว่ามีการเชื่อมต่อแบบปิดปานกลาง ตัวบ่งชี้ 100% เป็นหลักฐานของการเชื่อมต่อที่ใช้งานได้
สมการการถดถอยแบบไม่เชิงเส้น เช่นเดียวกับสมการเชิงเส้น จะต้องเสริมด้วยดัชนีสหสัมพันธ์ (R)
สหสัมพันธ์สำหรับการถดถอยพหุคูณ
ค่าสัมประสิทธิ์การกำหนดคือเลขชี้กำลังกำลังสอง ความสัมพันธ์หลายประการ- เขาพูดถึงความสัมพันธ์ที่ใกล้ชิดของชุดตัวบ่งชี้ที่นำเสนอกับคุณลักษณะที่กำลังศึกษาอยู่ นอกจากนี้ยังสามารถพูดคุยเกี่ยวกับลักษณะของอิทธิพลของพารามิเตอร์ที่มีต่อผลลัพธ์ได้ สมการการถดถอยพหุคูณประมาณโดยใช้ตัวบ่งชี้นี้
ในการคำนวณตัวบ่งชี้ความสัมพันธ์หลายรายการ จำเป็นต้องคำนวณดัชนี
วิธีกำลังสองน้อยที่สุด
วิธีนี้เป็นวิธีการประมาณค่าปัจจัยการถดถอย สาระสำคัญของมันคือการลดผลรวมของการเบี่ยงเบนกำลังสองที่ได้รับอันเป็นผลมาจากการพึ่งพาปัจจัยในฟังก์ชัน
สมการการถดถอยเชิงเส้นแบบคู่สามารถประมาณได้โดยใช้วิธีการดังกล่าว สมการประเภทนี้ใช้เมื่อตรวจพบความสัมพันธ์เชิงเส้นคู่ระหว่างตัวบ่งชี้
พารามิเตอร์สมการ
พารามิเตอร์แต่ละตัวของฟังก์ชันการถดถอยเชิงเส้นมีความหมายเฉพาะ สมการการถดถอยเชิงเส้นคู่ประกอบด้วยพารามิเตอร์สองตัว: c และ m พารามิเตอร์ m แสดงให้เห็นถึงการเปลี่ยนแปลงโดยเฉลี่ยในตัวบ่งชี้สุดท้ายของฟังก์ชัน y โดยมีเงื่อนไขว่าตัวแปร x ลดลง (เพิ่มขึ้น) หนึ่งหน่วยทั่วไป ถ้าตัวแปร x เป็นศูนย์ ฟังก์ชันจะเท่ากับพารามิเตอร์ c ถ้าตัวแปร x ไม่เป็นศูนย์ แสดงว่าปัจจัย c จะไม่มีการดำเนินการ ความรู้สึกทางเศรษฐกิจ- สิ่งเดียวที่มีอิทธิพลต่อฟังก์ชันคือเครื่องหมายที่อยู่หน้าตัวประกอบ c หากมีลบก็บอกได้ว่าการเปลี่ยนแปลงในผลลัพธ์นั้นช้าเมื่อเทียบกับปัจจัย หากมีเครื่องหมายบวก แสดงว่าผลลัพธ์มีการเปลี่ยนแปลงอย่างรวดเร็ว
พารามิเตอร์แต่ละตัวที่เปลี่ยนค่าของสมการการถดถอยสามารถแสดงผ่านสมการได้ ตัวอย่างเช่น ตัวประกอบ c มีรูปแบบ c = y - mx
ข้อมูลที่จัดกลุ่ม
มีเงื่อนไขของงานที่ข้อมูลทั้งหมดถูกจัดกลุ่มตามแอตทริบิวต์ x แต่ในเวลาเดียวกัน กลุ่มใดกลุ่มหนึ่งค่าเฉลี่ยที่สอดคล้องกันของตัวบ่งชี้ที่ขึ้นอยู่กับจะถูกระบุ ในกรณีนี้ ค่าเฉลี่ยจะกำหนดลักษณะของตัวบ่งชี้ที่ขึ้นอยู่กับการเปลี่ยนแปลง x ดังนั้นข้อมูลที่จัดกลุ่มจะช่วยค้นหาสมการถดถอย มันถูกใช้เป็นการวิเคราะห์ความสัมพันธ์ อย่างไรก็ตาม วิธีนี้มีข้อเสียอยู่ น่าเสียดายที่ตัวชี้วัดโดยเฉลี่ยมักขึ้นอยู่กับความผันผวนจากภายนอก ความผันผวนเหล่านี้ไม่ได้สะท้อนถึงรูปแบบของความสัมพันธ์ แต่เพียงแต่ปกปิด "เสียงรบกวน" เท่านั้น ค่าเฉลี่ยแสดงรูปแบบของความสัมพันธ์ที่แย่กว่าสมการถดถอยเชิงเส้นมาก อย่างไรก็ตามสามารถใช้เป็นพื้นฐานในการค้นหาสมการได้ โดยการคูณจำนวนประชากรแต่ละรายด้วยค่าเฉลี่ยที่สอดคล้องกัน เราจะได้ผลรวม y ภายในกลุ่ม ถัดไป คุณต้องบวกจำนวนเงินทั้งหมดที่ได้รับและค้นหาตัวบ่งชี้สุดท้าย y การคำนวณด้วยตัวบ่งชี้ผลรวม xy จะยากขึ้นเล็กน้อย หากช่วงเวลาน้อย เราสามารถนำตัวบ่งชี้ x สำหรับทุกหน่วย (ภายในกลุ่ม) ให้เท่ากันตามเงื่อนไขได้ คุณควรคูณมันด้วยผลรวมของ y เพื่อหาผลรวมของผลคูณของ x และ y จากนั้นนำจำนวนเงินทั้งหมดมารวมกันแล้วปรากฎว่า จำนวนเงินทั้งหมดฮะ
สมการการถดถอยหลายคู่: การประเมินความสำคัญของความสัมพันธ์
ตามที่กล่าวไว้ข้างต้น การถดถอยพหุคูณมีฟังก์ชันในรูปแบบ y = f (x 1,x 2,…,x m)+E ส่วนใหญ่แล้วสมการดังกล่าวจะใช้ในการแก้ปัญหาอุปสงค์และอุปทานของผลิตภัณฑ์ ดอกเบี้ยรับจากหุ้นที่ซื้อคืน และเพื่อศึกษาสาเหตุและประเภทของฟังก์ชันต้นทุนการผลิต นอกจากนี้ยังใช้กันอย่างแพร่หลายในการศึกษาและการคำนวณเศรษฐศาสตร์มหภาคที่หลากหลาย แต่ในระดับเศรษฐศาสตร์จุลภาคสมการนี้มีการใช้น้อยกว่าเล็กน้อย
ภารกิจหลักของการถดถอยพหุคูณคือการสร้างแบบจำลองข้อมูลที่มีข้อมูลจำนวนมากเพื่อกำหนดเพิ่มเติมว่าปัจจัยใดที่มีอิทธิพลต่อแต่ละปัจจัยแยกกันและในจำนวนรวมทั้งหมดที่มีต่อตัวบ่งชี้ที่จำเป็นต้องมีการสร้างแบบจำลองและค่าสัมประสิทธิ์ของมัน สมการการถดถอยสามารถรับค่าได้หลากหลาย ในกรณีนี้ เพื่อประเมินความสัมพันธ์ มักใช้ฟังก์ชันสองประเภท: เชิงเส้นและไม่เชิงเส้น
ฟังก์ชันเชิงเส้นแสดงในรูปแบบของความสัมพันธ์ต่อไปนี้: y = a 0 + a 1 x 1 + a 2 x 2,+ ... + a m x m ในกรณีนี้ a2, a m ถือเป็นสัมประสิทธิ์การถดถอย "บริสุทธิ์" จำเป็นต้องระบุลักษณะการเปลี่ยนแปลงโดยเฉลี่ยในพารามิเตอร์ y โดยมีการเปลี่ยนแปลง (ลดลงหรือเพิ่มขึ้น) ในแต่ละพารามิเตอร์ x ที่สอดคล้องกันทีละหนึ่งหน่วย ขึ้นอยู่กับค่าคงที่ของตัวบ่งชี้อื่น ๆ
ตัวอย่างเช่น สมการไม่เชิงเส้นมีรูปแบบ ฟังก์ชั่นพลังงาน y=ขวาน 1 b1 x 2 b2 ...x ม. bm . ในกรณีนี้ตัวบ่งชี้ b 1, b 2 ..... b m เรียกว่าค่าสัมประสิทธิ์ความยืดหยุ่นซึ่งแสดงให้เห็นว่าผลลัพธ์จะเปลี่ยนแปลงอย่างไร (เท่าใด%) เมื่อเพิ่มขึ้น (ลดลง) ในตัวบ่งชี้ที่เกี่ยวข้อง x 1% และ โดยมีดัชนีชี้วัดปัจจัยอื่นๆ คงที่
ปัจจัยใดที่ต้องนำมาพิจารณาเมื่อสร้างการถดถอยพหุคูณ
ในการสร้างการถดถอยพหุคูณอย่างถูกต้อง จำเป็นต้องค้นหาว่าปัจจัยใดที่ควรให้ความสำคัญเป็นพิเศษ
จำเป็นต้องมีความเข้าใจถึงธรรมชาติของความสัมพันธ์ระหว่างกัน ปัจจัยทางเศรษฐกิจและเป็นแบบอย่าง ปัจจัยที่จะต้องรวมจะต้องเป็นไปตามเกณฑ์ต่อไปนี้:
- จะต้องอยู่ภายใต้การวัดเชิงปริมาณ ในการใช้ปัจจัยที่อธิบายคุณภาพของวัตถุ ไม่ว่าในกรณีใด ควรให้รูปแบบเชิงปริมาณ
- ไม่ควรมีความสัมพันธ์ระหว่างปัจจัยหรือความสัมพันธ์เชิงหน้าที่ การกระทำดังกล่าวส่วนใหญ่มักนำไปสู่ผลที่ตามมาอย่างถาวร - ระบบ สมการสามัญกลายเป็นแบบไม่มีเงื่อนไข และสิ่งนี้นำมาซึ่งความไม่น่าเชื่อถือและการประเมินที่ไม่ชัดเจน
- ในกรณีที่มีตัวบ่งชี้ความสัมพันธ์ขนาดใหญ่อยู่ ไม่มีวิธีใดที่จะระบุอิทธิพลของปัจจัยที่แยกได้ ผลลัพธ์สุดท้ายตัวบ่งชี้จึงไม่สามารถตีความค่าสัมประสิทธิ์ได้
วิธีการก่อสร้าง
มีอยู่ จำนวนมากวิธีการและเทคนิคที่อธิบายวิธีการเลือกตัวประกอบสำหรับสมการ อย่างไรก็ตาม วิธีการทั้งหมดนี้ขึ้นอยู่กับการเลือกค่าสัมประสิทธิ์โดยใช้ตัวบ่งชี้สหสัมพันธ์ ในหมู่พวกเขาคือ:
- วิธีการกำจัด
- วิธีการสลับ
- การวิเคราะห์การถดถอยแบบขั้นตอน
วิธีแรกเกี่ยวข้องกับการกรองค่าสัมประสิทธิ์ทั้งหมดออกจากชุดทั้งหมด วิธีที่สองเกี่ยวข้องกับการแนะนำชุด ปัจจัยเพิ่มเติม- อย่างที่สามคือการกำจัดปัจจัยที่เคยใช้สำหรับสมการก่อนหน้านี้ แต่ละวิธีเหล่านี้มีสิทธิ์ที่จะมีอยู่ พวกเขามีข้อดีและข้อเสีย แต่พวกเขาก็สามารถแก้ไขปัญหาการกำจัดตัวบ่งชี้ที่ไม่จำเป็นด้วยวิธีของตนเองได้ โดยปกติแล้วผลลัพธ์ที่ได้รับแต่ละครั้ง วิธีการแยกใกล้พอแล้ว
วิธีการวิเคราะห์หลายตัวแปร
วิธีการกำหนดปัจจัยดังกล่าวขึ้นอยู่กับการพิจารณาลักษณะเฉพาะที่เกี่ยวข้องกัน ซึ่งรวมถึงการวิเคราะห์จำแนก การจดจำรูปร่าง การวิเคราะห์องค์ประกอบหลัก และการวิเคราะห์คลัสเตอร์ นอกจากนี้ยังมีการวิเคราะห์ปัจจัยด้วย แต่ปรากฏเนื่องจากการพัฒนาวิธีการแบบองค์ประกอบ ทั้งหมดมีผลบังคับใช้ในบางสถานการณ์ ขึ้นอยู่กับเงื่อนไขและปัจจัยบางประการ
x เรียกว่าตัวทำนาย - ตัวแปรอิสระหรือตัวแปรอธิบาย
สำหรับปริมาณ x ที่กำหนด Y คือค่าของตัวแปร y (เรียกว่าตัวแปรตาม เอาต์พุต หรือการตอบสนอง) ที่อยู่บนบรรทัดการประเมิน นี่คือค่าที่เราคาดหวังสำหรับ y (โดยเฉลี่ย) ถ้าเรารู้ค่าของ x และเรียกว่า “ค่าทำนายของ y” (รูปที่ 5)
a คือระยะอิสระ (จุดตัด) ของเส้นประเมิน นี่คือค่าของ Y เมื่อ x = 0
ข- ความลาดชันหรือการไล่ระดับสีของเส้นประมาณ มันแสดงถึงจำนวนที่ Y เพิ่มขึ้นโดยเฉลี่ยถ้าเราเพิ่ม x ขึ้นหนึ่งหน่วย (รูปที่ 5) ค่าสัมประสิทธิ์ b เรียกว่าสัมประสิทธิ์การถดถอย
ตัวอย่างเช่น เมื่ออุณหภูมิร่างกายเพิ่มขึ้น 1 o C อัตราชีพจรจะเพิ่มขึ้นโดยเฉลี่ย 10 ครั้งต่อนาที
รูปที่ 5 เส้นการถดถอยเชิงเส้นแสดงค่าสัมประสิทธิ์ กและความลาดชัน ข(ปริมาณที่เพิ่มขึ้น ยด้วยการเพิ่มขึ้น เอ็กซ์ต่อหน่วย)
ในทางคณิตศาสตร์ การแก้สมการการถดถอยเชิงเส้นจะลดลงเป็นการคำนวณพารามิเตอร์ a และ b ในลักษณะที่จุดของข้อมูลเริ่มต้นของฟิลด์สหสัมพันธ์ วางให้ใกล้เคียงที่สุดเท่าที่จะเป็นไปได้เพื่อกำหนดทิศทางการถดถอย .
การใช้คำว่าการถดถอยทางสถิติมาจากปรากฏการณ์ที่เรียกว่าการถดถอยต่อค่าเฉลี่ย ซึ่งมาจาก Francis Galton (1889) เขาแสดงให้เห็นว่าถึงแม้พ่อตัวสูงมักจะมีลูกชายตัวสูง แต่ส่วนสูงโดยเฉลี่ยของลูกชายยังน้อยกว่าพ่อตัวสูงอีกด้วย ความสูงเฉลี่ยของบุตรชาย "ถดถอย" หรือ "ถอยหลัง" ต่อความสูงเฉลี่ยของบิดาทุกคนในประชากร ดังนั้น โดยเฉลี่ยแล้ว พ่อตัวสูงจะมีลูกชายที่ตัวเตี้ยกว่า (แต่ก็ยังค่อนข้างสูง) และพ่อตัวเตี้ยก็มีลูกชายที่สูงกว่า (แต่ก็ยังค่อนข้างเตี้ย)
เราเห็นการถดถอยของค่าเฉลี่ยในการตรวจคัดกรองและการทดลองทางคลินิก ซึ่งอาจเลือกกลุ่มย่อยของผู้ป่วยเพื่อรับการรักษาได้ เนื่องจากระดับของตัวแปรบางอย่าง เช่น คอเลสเตอรอล นั้นสูงมาก (หรือต่ำ) หากการวัดนี้ทำซ้ำเมื่อเวลาผ่านไป ค่าเฉลี่ยของการอ่านค่าครั้งที่สองสำหรับกลุ่มย่อยมักจะน้อยกว่าการอ่านครั้งแรก โดยมีแนวโน้ม (เช่น การถดถอย) ไปยังค่าเฉลี่ยประชากรที่จับคู่อายุและเพศ โดยไม่คำนึงถึงการรักษาที่พวกเขาอาจได้รับ ผู้ป่วยที่ได้รับการคัดเลือกเข้าสู่การทดลองทางคลินิกตาม ระดับสูงระดับคอเลสเตอรอลในการตรวจครั้งแรกจึงมีแนวโน้มที่จะแสดงระดับคอเลสเตอรอลลดลงโดยเฉลี่ยในการตรวจครั้งที่สอง แม้ว่าจะไม่ได้รับการรักษาในช่วงเวลานี้ก็ตาม
บ่อยครั้งที่วิธีการวิเคราะห์การถดถอยใช้เพื่อพัฒนามาตราส่วนเชิงบรรทัดฐานและมาตรฐานของการพัฒนาทางกายภาพ
เส้นการถดถอยที่พอดีกับข้อมูลสามารถตัดสินได้โดยการคำนวณสัมประสิทธิ์ R (โดยปกติจะแสดงเป็นเปอร์เซ็นต์และเรียกว่าสัมประสิทธิ์การกำหนด) ซึ่งเท่ากับกำลังสองของสัมประสิทธิ์สหสัมพันธ์ (r2) มันแสดงถึงสัดส่วนหรือเปอร์เซ็นต์ของความแปรปรวนใน y ที่สามารถอธิบายได้ด้วยความสัมพันธ์กับ x นั่นคือ ส่วนแบ่งของการแปรผันในคุณลักษณะผลลัพธ์ที่พัฒนาขึ้นภายใต้อิทธิพลของคุณลักษณะอิสระ สามารถรับค่าได้ในช่วงตั้งแต่ 0 ถึง 1 หรือตั้งแต่ 0 ถึง 100% ความแตกต่าง (100% - R) แสดงถึงเปอร์เซ็นต์ของความแปรปรวนในหน่วย y ซึ่งไม่สามารถอธิบายได้ด้วยปฏิสัมพันธ์นี้
ตัวอย่าง
ความสัมพันธ์ระหว่างความสูง (วัดเป็นซม.) และความดันโลหิตซิสโตลิก (SBP วัดเป็น mmHg) ในเด็ก เราทำการวิเคราะห์การถดถอยเชิงเส้นคู่ของความสัมพันธ์ระหว่าง SBP และความสูง (รูปที่ 6) มีความสัมพันธ์เชิงเส้นตรงที่สำคัญระหว่างความสูงและ SBP
รูปที่ 6 กราฟสองมิติแสดงความสัมพันธ์ระหว่างความดันโลหิตซิสโตลิกและส่วนสูง แสดงเส้นการถดถอยโดยประมาณซึ่งก็คือความดันโลหิตซิสโตลิก
สมการของเส้นการถดถอยโดยประมาณมีดังนี้:
SBP = 46.28 + 0.48 x สูง
ในตัวอย่างนี้ คำตัดขวางไม่เป็นที่สนใจ (การเติบโตของศูนย์จะเห็นได้ชัดว่าอยู่นอกช่วงของค่าที่สังเกตในการศึกษา) อย่างไรก็ตาม เราสามารถตีความความชันได้ คาดว่า SBP จะเพิ่มขึ้นโดยเฉลี่ย 0.48 มม. ปรอทในเด็กเหล่านี้ โดยมีส่วนสูงเพิ่มขึ้นหนึ่งเซนติเมตร
เราสามารถใช้สมการการถดถอยเพื่อทำนายค่า SBP ที่เราคาดหวังได้ว่าเด็กจะมีความสูงตามที่กำหนด ตัวอย่างเช่น เด็กที่สูง 115 ซม. จะมีค่า SBP ที่คาดการณ์ไว้ที่ 46.28 + (0.48 x 115) = 101.48 mmHg ศิลปะ เด็กที่มีส่วนสูง 130 มี SBP ที่คาดการณ์ไว้ที่ 46.28 + (0.48 x 130) = 108.68 มม. ปรอท ศิลปะ.
เมื่อคำนวณค่าสัมประสิทธิ์สหสัมพันธ์พบว่ามีค่าเท่ากับ 0.55 ซึ่งบ่งบอกถึงความสัมพันธ์โดยตรง ความแข็งแรงปานกลาง- ในกรณีนี้คือค่าสัมประสิทธิ์การตัดสินใจ ร 2 = 0.55 2 = 0.3- ดังนั้นเราสามารถพูดได้ว่าส่วนแบ่งของอิทธิพลของความสูงต่อระดับความดันโลหิตในเด็กนั้นไม่เกิน 30% ดังนั้นปัจจัยอื่น ๆ จึงคิดเป็น 70% ของอิทธิพล
การถดถอยเชิงเส้น (อย่างง่าย) จำกัดอยู่ที่การดูความสัมพันธ์ระหว่างตัวแปรตามและตัวแปรอิสระเพียงตัวเดียวเท่านั้น หากมีตัวแปรอิสระมากกว่าหนึ่งตัวในความสัมพันธ์ เราต้องหันไปใช้การถดถอยพหุคูณ สมการสำหรับการถดถอยดังกล่าวมีลักษณะดังนี้:
y = a + bx 1 +b 2 x 2 +.... + b n x n
เราอาจสนใจผลกระทบของตัวแปรอิสระหลายตัว x 1, x 2, .., xn ต่อตัวแปรตอบสนอง y หากเราเชื่อว่าค่า x เหล่านี้อาจพึ่งพาอาศัยกัน เราไม่ควรแยกดูผลของการเปลี่ยนค่า x หนึ่งต่อ y แต่ควรคำนึงถึงขนาดของ x ตัวอื่นๆ ทั้งหมดไปพร้อมๆ กัน
ตัวอย่าง
เนื่องจากมีความสัมพันธ์ที่ชัดเจนระหว่างส่วนสูงและน้ำหนักของเด็ก เราอาจสงสัยว่าความสัมพันธ์ระหว่างส่วนสูงและความดันโลหิตซิสโตลิกจะเปลี่ยนแปลงไปหรือไม่เมื่อคำนึงถึงน้ำหนักและเพศของเด็กด้วย การถดถอยเชิงเส้นพหุคูณจะตรวจสอบผลร่วมของตัวแปรอิสระหลายตัวที่มีต่อ y
สมการการถดถอยพหุคูณในกรณีนี้สามารถมีลักษณะดังนี้:
SBP = 79.44 - (0.03 x สูง) + (1.18 x น้ำหนัก) + (4.23 x เพศ)*
* - (สำหรับแอตทริบิวต์เพศ ค่าคือ 0 - เด็กผู้ชาย 1 - เด็กหญิง)
จากสมการนี้ เด็กผู้หญิงที่มีส่วนสูง 115 ซม. และมีน้ำหนักตัว 37 กก. จะมีค่า SBP ที่ทำนายไว้:
SBP = 79.44 - (0.03 x 115) + (1.18 x 37) + (4.23 x 1) = 123.88 มิลลิเมตรปรอท
การถดถอยโลจิสติกคล้ายกับการถดถอยเชิงเส้นมาก ใช้เมื่อมีผลไบนารี่ที่น่าสนใจ (เช่น การมีอยู่/ไม่มีอาการ หรือบุคคลที่มี/ไม่มีโรค) และตัวทำนายจำนวนหนึ่ง จากสมการการถดถอยโลจิสติก เราสามารถระบุได้ว่าตัวทำนายตัวใดมีอิทธิพลต่อผลลัพธ์ และใช้ค่าตัวทำนายของผู้ป่วยในการประมาณความน่าจะเป็นที่เขา/เธอจะได้ผลลัพธ์เฉพาะ เช่น ภาวะแทรกซ้อนจะเกิดขึ้นหรือไม่ การรักษาจะได้ผลหรือไม่ก็ตาม
เริ่มต้นสร้างตัวแปรไบนารี่เพื่อแสดงถึงผลลัพธ์ทั้งสอง (เช่น “มีโรค” = 1 “ไม่มีโรค” = 0) อย่างไรก็ตาม เราไม่สามารถใช้ค่าทั้งสองนี้เป็นตัวแปรตามในการวิเคราะห์การถดถอยเชิงเส้นได้ เนื่องจากสมมติฐานภาวะปกติถูกละเมิด และเราไม่สามารถตีความค่าที่ทำนายไว้ซึ่งไม่เท่ากับศูนย์หรือหนึ่งค่าได้
ที่จริงแล้ว เราใช้ความน่าจะเป็นที่วัตถุถูกจัดอยู่ในหมวดหมู่ที่ใกล้เคียงที่สุด (เช่น "เป็นโรค") ของตัวแปรตาม และเพื่อเอาชนะความยากลำบากทางคณิตศาสตร์ ให้ใช้การแปลงลอจิสติกกับสมการการถดถอย - ลอการิทึมธรรมชาติอัตราส่วนของความน่าจะเป็นของ “โรค” (p) ต่อความน่าจะเป็นของ “ไม่มีโรค” (1-p)
กระบวนการเชิงบูรณาการที่เรียกว่าความน่าจะเป็นสูงสุด แทนที่จะเป็นการถดถอยแบบธรรมดา (เนื่องจากเราไม่สามารถใช้ขั้นตอนการถดถอยเชิงเส้นได้) จะสร้างการประมาณสมการการถดถอยโลจิสติกจากข้อมูลตัวอย่าง
logit (p) = a + bx 1 +b 2 x 2 +.... + bnxn
logit (p) - การประมาณความน่าจะเป็นที่แท้จริงที่ผู้ป่วยที่มีชุดค่าเฉพาะสำหรับ x 1 ... xn มีโรค
a คือค่าประมาณของค่าคงที่ (ระยะอิสระ, ทางแยก)
b 1, b 2,..., bn - การประมาณค่าสัมประสิทธิ์การถดถอยโลจิสติก
1. คำถามในหัวข้อบทเรียน:
1. กำหนดการเชื่อมต่อการทำงานและความสัมพันธ์
2. ยกตัวอย่างความสัมพันธ์โดยตรงและผกผัน
3. ระบุขนาดของค่าสัมประสิทธิ์สหสัมพันธ์สำหรับค่าอ่อน ปานกลาง และ การเชื่อมต่อที่แข็งแกร่งระหว่างสัญญาณ
4. ใช้ในกรณีใดบ้าง? วิธีการจัดอันดับกำลังคำนวณค่าสัมประสิทธิ์สหสัมพันธ์?
5. การคำนวณสัมประสิทธิ์สหสัมพันธ์ของเพียร์สันใช้ในกรณีใด
6. ขั้นตอนหลักในการคำนวณค่าสัมประสิทธิ์สหสัมพันธ์โดยใช้วิธีอันดับคืออะไร?
7. กำหนด “การถดถอย” สาระสำคัญของวิธีการถดถอยคืออะไร?
8. อธิบายสูตรสมการการถดถอยเชิงเส้นอย่างง่าย
9. กำหนดค่าสัมประสิทธิ์การถดถอย
10. ถ้าค่าสัมประสิทธิ์การถดถอยของน้ำหนักต่อส่วนสูงเท่ากับ 0.26 กก./ซม. จะได้ข้อสรุปอย่างไร
11. สูตรสมการถดถอยใช้ทำอะไร?
12. ค่าสัมประสิทธิ์การตัดสินใจคืออะไร?
13. สมการถดถอยพหุคูณใช้ในกรณีใดบ้าง?
14. วิธี Logistic Regression ใช้ทำอะไร?
กระทรวงศึกษาธิการและวิทยาศาสตร์แห่งสหพันธรัฐรัสเซีย
หน่วยงานกลางเพื่อการศึกษา
สถานะ สถาบันการศึกษาการศึกษาวิชาชีพชั้นสูง
สถาบันการเงินและเศรษฐกิจทางจดหมายทั้งหมดของรัสเซีย
สาขาในตูลา
ทดสอบ
ในสาขาวิชา "เศรษฐมิติ"
ตูลา - 2010
ปัญหาที่ 2 (ก, ข)
สำหรับองค์กรอุตสาหกรรมเบาได้รับข้อมูลที่แสดงถึงการพึ่งพาปริมาณผลผลิต (Y, ล้านรูเบิล) กับปริมาณการลงทุน (X, ล้านรูเบิล) ตาราง 1.
เอ็กซ์ | 33 | 17 | 23 | 17 | 36 | 25 | 39 | 20 | 13 | 12 |
ย | 43 | 27 | 32 | 29 | 45 | 35 | 47 | 32 | 22 | 24 |
ที่จำเป็น:
1. ค้นหาพารามิเตอร์ของสมการการถดถอยเชิงเส้น ให้การตีความทางเศรษฐศาสตร์ของสัมประสิทธิ์การถดถอย
2. คำนวณส่วนที่เหลือ หา จำนวนคงเหลือสี่เหลี่ยม; ประมาณการความแปรปรวนของส่วนที่เหลือ
- วางแผนส่วนที่เหลือ3. ตรวจสอบการปฏิบัติตามข้อกำหนดเบื้องต้นของ MNC
4. ตรวจสอบความสำคัญของพารามิเตอร์ของสมการถดถอยโดยใช้การทดสอบของนักเรียน (α=0.05)
5. คำนวณค่าสัมประสิทธิ์การกำหนด ตรวจสอบความสำคัญของสมการถดถอยโดยใช้การทดสอบ F ของฟิชเชอร์ (α=0.05) ค้นหาค่าคลาดเคลื่อนสัมพัทธ์โดยเฉลี่ยของการประมาณ สรุปเกี่ยวกับคุณภาพของแบบจำลอง
6. ทำนายค่าเฉลี่ยของตัวบ่งชี้ Y ที่ระดับนัยสำคัญที่ α=0.1 หากค่าที่ทำนายของปัจจัย X คือ 80% ของค่าสูงสุด
7. นำเสนอแบบกราฟิก: ค่าจริงและแบบจำลอง Y, จุดพยากรณ์
8. สร้างสมการถดถอยไม่เชิงเส้น:
ซึ่งเกินความจริง;
สงบ;
บ่งชี้
แสดงกราฟของสมการถดถอยที่สร้างขึ้น
9. สำหรับรุ่นที่ระบุ ให้ค้นหาค่าสัมประสิทธิ์การกำหนดและค่าเฉลี่ย ข้อผิดพลาดที่เกี่ยวข้องการประมาณ เปรียบเทียบแบบจำลองตามคุณลักษณะเหล่านี้และสรุปผล
1. โมเดลเชิงเส้นมีรูปแบบ:
เราค้นหาพารามิเตอร์ของสมการการถดถอยเชิงเส้นโดยใช้สูตร
การคำนวณค่าพารามิเตอร์แสดงไว้ในตาราง 2.
ที | ย | x | ใช่ | |||||||
1 | 43 | 33 | 1419 | 1089 | 42,236 | 0,764 | 0,584 | 90,25 | 88,36 | 0,018 |
2 | 27 | 17 | 459 | 289 | 27,692 | -0,692 | 0,479 | 42,25 | 43,56 | 0,026 |
3 | 32 | 23 | 736 | 529 | 33,146 | -1,146 | 1,313 | 0,25 | 2,56 | 0,036 |
4 | 29 | 17 | 493 | 289 | 27,692 | 1,308 | 1,711 | 42,25 | 21,16 | 0,045 |
5 | 45 | 36 | 1620 | 1296 | 44,963 | 0,037 | 0,001 | 156,25 | 129,96 | 0,001 |
6 | 35 | 25 | 875 | 625 | 34,964 | 0,036 | 0,001 | 2,25 | 1,96 | 0,001 |
7 | 47 | 39 | 1833 | 1521 | 47,69 | -0,69 | 0,476 | 240,25 | 179,56 | 0,015 |
8 | 32 | 20 | 640 | 400 | 30,419 | 1,581 | 2,500 | 12,25 | 2,56 | 0,049 |
9 | 22 | 13 | 286 | 169 | 24,056 | -2,056 | 4,227 | 110,25 | 134,56 | 0,093 |
10 | 24 | 12 | 288 | 144 | 23,147 | 0,853 | 0,728 | 132,25 | 92,16 | 0,036 |
∑ | 336 | 235 | 8649 | 6351 | 12,020 | 828,5 | 696,4 | 0,32 | ||
เฉลี่ย | 33,6 | 23,5 | 864,9 | 635,1 |
มากำหนดพารามิเตอร์ของโมเดลเชิงเส้นกัน
โมเดลเชิงเส้นมีรูปแบบ
สัมประสิทธิ์การถดถอย
แสดงให้เห็นว่าเอาต์พุต Y เพิ่มขึ้นโดยเฉลี่ย 0.909 ล้านรูเบิล ด้วยปริมาณการลงทุนเพิ่มขึ้น X 1 ล้านรูเบิล2. คำนวณส่วนที่เหลือ
, ผลรวมที่เหลือของกำลังสองที่เราพบ ความแปรปรวนที่เหลือตามสูตร:การคำนวณแสดงไว้ในตาราง 2.
ข้าว. 1. กราฟของสารตกค้าง ε
3. มาตรวจสอบการปฏิบัติตามข้อกำหนดเบื้องต้นของ OLS ตามเกณฑ์ Durbin-Watson
0,584 | |
2,120 | 0,479 |
0,206 | 1,313 |
6,022 | 1,711 |
1,615 | 0,001 |
0,000 | 0,001 |
0,527 | 0,476 |
5,157 | 2,500 |
13,228 | 4,227 |
2,462 | 0,728 |
31,337 | 12,020 |
d1=0.88; d2=1.32 สำหรับ α=0.05, n=10, k=1
,ซึ่งหมายความว่าจำนวนที่เหลือไม่มีความสัมพันธ์กัน
4. มาตรวจสอบความสำคัญของพารามิเตอร์สมการจากการทดสอบของนักเรียนกันดีกว่า (α=0.05)
สำหรับ ν=8; α=0.05.การคำนวณมูลค่า
ผลิตในตาราง 2. เราได้รับ:จากนั้นเราสามารถสรุปได้ว่าสัมประสิทธิ์การถดถอย a และ b มีนัยสำคัญโดยมีความน่าจะเป็น 0.95
5. ค้นหาค่าสัมประสิทธิ์สหสัมพันธ์โดยใช้สูตร
เราจะทำการคำนวณในตาราง 2.
- ที่. ความสัมพันธ์ระหว่างจำนวนเงินลงทุน X และผลผลิต Y ถือว่าใกล้เคียงกันเพราะ -เราหาค่าสัมประสิทธิ์การตัดสินใจโดยใช้สูตร