คำตอบของกำลังสองน้อยที่สุด OLS ในกรณีของโมเดลเชิงเส้น
ตัวอย่าง.
ข้อมูลการทดลองเกี่ยวกับค่าของตัวแปร เอ็กซ์และ ที่จะได้รับในตาราง
จากการจัดตำแหน่ง ทำให้ได้ฟังก์ชันมา
โดยใช้ วิธี กำลังสองน้อยที่สุด ประมาณข้อมูลเหล่านี้ด้วยการพึ่งพาเชิงเส้น y=ขวาน+ข(ค้นหาพารามิเตอร์ กและ ข). ค้นหาว่าบรรทัดใดในสองบรรทัดที่ดีกว่า (ในแง่ของวิธีกำลังสองน้อยที่สุด) เพื่อจัดแนวข้อมูลการทดลอง วาดรูป.
สาระสำคัญของวิธีกำลังสองน้อยที่สุด (LSM)
ภารกิจคือการหาค่าสัมประสิทธิ์การพึ่งพาเชิงเส้นซึ่งเป็นฟังก์ชันของตัวแปรสองตัว กและ ข ยอมรับ ค่าที่น้อยที่สุด. นั่นคือให้ กและ ขผลรวมของการเบี่ยงเบนกำลังสองของข้อมูลการทดลองจากเส้นตรงที่พบจะน้อยที่สุด นี่คือจุดรวมของวิธีกำลังสองน้อยที่สุด
ดังนั้น การแก้ปัญหาตัวอย่างจึงต้องหาจุดสิ้นสุดของฟังก์ชันของตัวแปรสองตัว
สูตรการหาค่าสัมประสิทธิ์
ระบบสมการสองสมการที่ไม่ทราบค่าสองตัวจะถูกรวบรวมและแก้ไข การหาอนุพันธ์ย่อยของฟังก์ชัน โดยตัวแปร กและ ข, เราเปรียบอนุพันธ์เหล่านี้ให้เป็นศูนย์
เราแก้ระบบสมการผลลัพธ์โดยใช้วิธีใดก็ได้ (เช่น โดยวิธีทดแทนหรือ วิธีการของแครมเมอร์) และรับสูตรสำหรับการค้นหาสัมประสิทธิ์โดยใช้วิธีกำลังสองน้อยที่สุด (LSM)
ที่ให้ไว้ กและ ขการทำงาน ใช้ค่าที่น้อยที่สุด มีการให้หลักฐานข้อเท็จจริงนี้ ด้านล่างในข้อความท้ายหน้า.
นั่นคือวิธีทั้งหมดของกำลังสองน้อยที่สุด สูตรการหาพารามิเตอร์ กมีผลรวม ,, และพารามิเตอร์ n- จำนวนข้อมูลการทดลอง เราขอแนะนำให้คำนวณค่าของจำนวนเงินเหล่านี้แยกกัน ค่าสัมประสิทธิ์ ขพบได้หลังการคำนวณ ก.
ถึงเวลาจำตัวอย่างดั้งเดิมแล้ว
สารละลาย.
ในตัวอย่างของเรา n=5. เรากรอกตารางเพื่อความสะดวกในการคำนวณจำนวนเงินที่รวมอยู่ในสูตรของค่าสัมประสิทธิ์ที่ต้องการ
ค่าในแถวที่สี่ของตารางได้มาจากการคูณค่าของแถวที่ 2 ด้วยค่าของแถวที่ 3 สำหรับแต่ละตัวเลข ฉัน.
ค่าในแถวที่ห้าของตารางได้มาจากการยกกำลังสองค่าในแถวที่ 2 สำหรับแต่ละตัวเลข ฉัน.
ค่าในคอลัมน์สุดท้ายของตารางคือผลรวมของค่าระหว่างแถว
เราใช้สูตรวิธีกำลังสองน้อยที่สุดเพื่อหาค่าสัมประสิทธิ์ กและ ข. เราแทนที่ค่าที่เกี่ยวข้องจากคอลัมน์สุดท้ายของตารางลงไป:
เพราะฉะนั้น, y = 0.165x+2.184- เส้นตรงโดยประมาณที่ต้องการ
มันยังคงค้นหาว่าบรรทัดไหน y = 0.165x+2.184หรือ ประมาณข้อมูลเดิมได้ดีขึ้น กล่าวคือ ประมาณการโดยใช้วิธีกำลังสองน้อยที่สุด
การประมาณค่าความผิดพลาดของวิธีกำลังสองน้อยที่สุด
ในการทำเช่นนี้ คุณต้องคำนวณผลรวมของการเบี่ยงเบนกำลังสองของข้อมูลต้นฉบับจากเส้นเหล่านี้ และ ค่าที่น้อยกว่าจะสัมพันธ์กับเส้นที่ประมาณข้อมูลต้นฉบับได้ดีกว่าในแง่ของวิธีกำลังสองน้อยที่สุด
ตั้งแต่นั้นมาตรง y = 0.165x+2.184ใกล้เคียงกับข้อมูลเดิมดีกว่า
ภาพประกอบกราฟิกของวิธีกำลังสองน้อยที่สุด (LS)
ทุกอย่างมองเห็นได้ชัดเจนบนกราฟ เส้นสีแดงคือเส้นตรงที่พบ y = 0.165x+2.184, เส้นสีน้ำเงินคือ จุดสีชมพูคือข้อมูลต้นฉบับ
ในทางปฏิบัติเมื่อสร้างแบบจำลองกระบวนการต่าง ๆ โดยเฉพาะอย่างยิ่งทางเศรษฐกิจ กายภาพ เทคนิค สังคม - วิธีการหนึ่งหรือวิธีอื่นในการคำนวณค่าโดยประมาณของฟังก์ชันจากค่าที่ทราบที่จุดคงที่นั้นมีการใช้กันอย่างแพร่หลาย
ปัญหาการประมาณฟังก์ชันประเภทนี้มักเกิดขึ้น:
เมื่อสร้างสูตรโดยประมาณสำหรับการคำนวณค่าของปริมาณลักษณะเฉพาะของกระบวนการภายใต้การศึกษาโดยใช้ข้อมูลแบบตารางที่ได้รับจากการทดลอง
ในการปริพันธ์เชิงตัวเลข การหาอนุพันธ์ การแก้ปัญหา สมการเชิงอนุพันธ์ฯลฯ.;
หากจำเป็นให้คำนวณค่าของฟังก์ชันที่จุดกึ่งกลางของช่วงเวลาที่พิจารณา
เมื่อกำหนดค่าของปริมาณลักษณะเฉพาะของกระบวนการที่อยู่นอกช่วงเวลาที่พิจารณา โดยเฉพาะอย่างยิ่งเมื่อคาดการณ์
หากในการสร้างแบบจำลองกระบวนการบางอย่างที่ระบุโดยตาราง เราสร้างฟังก์ชันที่ประมาณอธิบายกระบวนการนี้โดยอาศัยวิธีกำลังสองน้อยที่สุด ฟังก์ชันดังกล่าวจะเรียกว่าฟังก์ชันการประมาณ (การถดถอย) และงานสร้างฟังก์ชันการประมาณจะถูกเรียกว่า ปัญหาการประมาณ
บทความนี้กล่าวถึงความสามารถของแพ็คเกจ MS Excel ในการแก้ปัญหาประเภทนี้ นอกจากนี้ยังมีวิธีการและเทคนิคในการสร้าง (สร้าง) การถดถอยสำหรับฟังก์ชันแบบตาราง (ซึ่งเป็นพื้นฐานของการวิเคราะห์การถดถอย)
Excel มีสองตัวเลือกสำหรับการสร้างการถดถอย
การเพิ่มการถดถอยที่เลือก ( เส้นแนวโน้ม- เส้นแนวโน้ม) ลงในไดอะแกรมที่สร้างขึ้นบนพื้นฐานของตารางข้อมูลสำหรับลักษณะกระบวนการภายใต้การศึกษา (ใช้ได้เฉพาะในกรณีที่มีไดอะแกรมที่สร้างขึ้น)
การใช้ฟังก์ชันทางสถิติในตัวของแผ่นงาน Excel ช่วยให้คุณสามารถรับการถดถอย (เส้นแนวโน้ม) ได้โดยตรงจากตารางข้อมูลต้นฉบับ
การเพิ่มเส้นแนวโน้มลงในแผนภูมิ
สำหรับตารางข้อมูลที่อธิบายกระบวนการและแสดงด้วยไดอะแกรม Excel มีเครื่องมือวิเคราะห์การถดถอยที่มีประสิทธิภาพซึ่งช่วยให้คุณ:
สร้างโดยใช้วิธีกำลังสองน้อยที่สุดและเพิ่มห้าลงในไดอะแกรม ประเภทของการถดถอยซึ่งเป็นแบบจำลองกระบวนการภายใต้การศึกษาด้วยระดับความแม่นยำที่แตกต่างกัน
เพิ่มสมการถดถอยที่สร้างขึ้นลงในแผนภาพ
กำหนดระดับความสอดคล้องของการถดถอยที่เลือกกับข้อมูลที่แสดงบนแผนภูมิ
จากข้อมูลแผนภูมิ Excel ช่วยให้คุณได้รับประเภทการถดถอยเชิงเส้น พหุนาม ลอการิทึม กำลัง และเลขชี้กำลัง ซึ่งระบุโดยสมการ:
ย = ย(x)
โดยที่ x เป็นตัวแปรอิสระที่มักจะรับค่าของลำดับของจำนวนธรรมชาติ (1; 2; 3; ...) และสร้างตัวอย่างเช่นการนับถอยหลังของเวลาของกระบวนการที่กำลังศึกษา (ลักษณะ)
1 . การถดถอยเชิงเส้นเป็นสิ่งที่ดีสำหรับลักษณะการสร้างแบบจำลองที่มีค่าเพิ่มขึ้นหรือลดลงในอัตราคงที่ นี่เป็นแบบจำลองที่ง่ายที่สุดในการสร้างสำหรับกระบวนการที่กำลังศึกษาอยู่ มันถูกสร้างขึ้นตามสมการ:
y = mx + ข
โดยที่ m คือแทนเจนต์ของมุมเอียง การถดถอยเชิงเส้นถึงแกนแอบซิสซา b - พิกัดของจุดตัดของการถดถอยเชิงเส้นกับแกนพิกัด
2 . เส้นแนวโน้มพหุนามมีประโยชน์สำหรับการอธิบายคุณลักษณะที่มีความสุดขั้วที่แตกต่างกันหลายประการ (ค่าสูงสุดและค่าต่ำสุด) การเลือกระดับพหุนามจะพิจารณาจากจำนวนสุดขั้วของลักษณะเฉพาะที่กำลังศึกษา ดังนั้น พหุนามดีกรีที่สองจึงสามารถอธิบายกระบวนการที่มีค่าสูงสุดหรือต่ำสุดเพียงค่าเดียวเท่านั้น พหุนามของระดับที่สาม - ไม่เกินสองสุดขั้ว; พหุนามของระดับที่สี่ - ไม่เกินสาม extrema เป็นต้น
ในกรณีนี้ เส้นแนวโน้มจะถูกสร้างขึ้นตามสมการ:
y = c0 + c1x + c2x2 + c3x3 + c4x4 + c5x5 + c6x6
โดยที่ค่าสัมประสิทธิ์ c0, c1, c2,... c6 เป็นค่าคงที่ซึ่งมีการกำหนดค่าระหว่างการก่อสร้าง
3 . เส้นแนวโน้มลอการิทึมถูกนำมาใช้อย่างประสบความสำเร็จเมื่อสร้างแบบจำลองคุณลักษณะที่มีค่าเริ่มแรกเปลี่ยนแปลงอย่างรวดเร็วจากนั้นจึงค่อย ๆ มีเสถียรภาพ
y = ค ln(x) + ข
4 . เส้นแนวโน้มกฎอำนาจให้ผลลัพธ์ที่ดีหากค่าของความสัมพันธ์ภายใต้การศึกษามีลักษณะเฉพาะด้วยการเปลี่ยนแปลงอัตราการเติบโตอย่างต่อเนื่อง ตัวอย่างของการพึ่งพาอาศัยกันคือกราฟของการเคลื่อนที่ด้วยความเร่งสม่ำเสมอของรถ หากข้อมูลมีศูนย์หรือ ค่าลบคุณไม่สามารถใช้เส้นแนวโน้มกำลังได้
สร้างตามสมการ:
y = ค xb
โดยที่สัมประสิทธิ์ b, c เป็นค่าคงที่
5 . ควรใช้เส้นแนวโน้มเอ็กซ์โพเนนเชียลเมื่ออัตราการเปลี่ยนแปลงข้อมูลเพิ่มขึ้นอย่างต่อเนื่อง สำหรับข้อมูลที่มีค่าเป็นศูนย์หรือค่าลบ การประมาณประเภทนี้จะใช้ไม่ได้เช่นกัน
สร้างตามสมการ:
y = ค ebx
โดยที่สัมประสิทธิ์ b, c เป็นค่าคงที่
เมื่อเลือกเส้นแนวโน้ม Excel จะคำนวณค่า R2 โดยอัตโนมัติซึ่งจะระบุลักษณะความน่าเชื่อถือของการประมาณ: ยิ่งค่า R2 ใกล้ถึงเอกภาพมากเท่าใด เส้นแนวโน้มก็จะประมาณกระบวนการที่กำลังศึกษาได้อย่างน่าเชื่อถือมากขึ้นเท่านั้น หากจำเป็น ค่า R2 สามารถแสดงบนแผนภูมิได้ตลอดเวลา
กำหนดโดยสูตร:
หากต้องการเพิ่มเส้นแนวโน้มลงในชุดข้อมูล:
เปิดใช้งานแผนภูมิตามชุดข้อมูล เช่น คลิกภายในพื้นที่แผนภูมิ รายการไดอะแกรมจะปรากฏในเมนูหลัก
หลังจากคลิกที่รายการนี้ เมนูจะปรากฏขึ้นบนหน้าจอซึ่งคุณควรเลือกคำสั่งเพิ่มเส้นแนวโน้ม
การดำเนินการเดียวกันนี้สามารถนำไปใช้ได้อย่างง่ายดายโดยเลื่อนตัวชี้เมาส์ไปเหนือกราฟที่สอดคล้องกับชุดข้อมูลชุดใดชุดหนึ่งแล้วคลิกขวา ในเมนูบริบทที่ปรากฏขึ้น ให้เลือกคำสั่งเพิ่มเส้นแนวโน้ม กล่องโต้ตอบเส้นแนวโน้มจะปรากฏขึ้นบนหน้าจอโดยเปิดแท็บประเภทไว้ (รูปที่ 1)
หลังจากนี้คุณจะต้อง:
เลือกประเภทเส้นแนวโน้มที่ต้องการบนแท็บประเภท (ประเภทเชิงเส้นจะถูกเลือกตามค่าเริ่มต้น) สำหรับประเภทพหุนาม ในฟิลด์ องศา ให้ระบุระดับของพหุนามที่เลือก
1 . ช่องสร้างบนซีรีส์จะแสดงชุดข้อมูลทั้งหมดในแผนภูมิที่ต้องการ หากต้องการเพิ่มเส้นแนวโน้มให้กับชุดข้อมูลเฉพาะ ให้เลือกชื่อในช่องสร้างบนชุดข้อมูล
หากจำเป็น โดยไปที่แท็บพารามิเตอร์ (รูปที่ 2) คุณสามารถตั้งค่าพารามิเตอร์ต่อไปนี้สำหรับเส้นแนวโน้ม:
เปลี่ยนชื่อเส้นแนวโน้มในชื่อของฟิลด์เส้นโค้งโดยประมาณ (เรียบ)
กำหนดจำนวนงวด (ไปข้างหน้าหรือข้างหลัง) สำหรับการพยากรณ์ในช่องพยากรณ์
แสดงสมการของเส้นแนวโน้มในพื้นที่ไดอะแกรม ซึ่งคุณควรเปิดใช้งานการแสดงสมการบนกล่องกาเครื่องหมายไดอะแกรม
แสดงค่าความน่าเชื่อถือของการประมาณ R2 ในพื้นที่ไดอะแกรม ซึ่งคุณควรเปิดใช้งานช่องทำเครื่องหมาย วางค่าความน่าเชื่อถือของการประมาณบนไดอะแกรม (R^2)
ตั้งค่าจุดตัดของเส้นแนวโน้มด้วยแกน Y ซึ่งคุณควรเปิดใช้งานช่องทำเครื่องหมายสำหรับจุดตัดของเส้นโค้งโดยมีแกน Y อยู่ที่จุด
คลิกปุ่มตกลงเพื่อปิดกล่องโต้ตอบ
ในการเริ่มแก้ไขเส้นแนวโน้มที่วาดไว้แล้ว มีสามวิธี:
ใช้คำสั่งเส้นแนวโน้มที่เลือกจากเมนูรูปแบบ โดยเลือกเส้นแนวโน้มไว้ก่อนหน้านี้
เลือกคำสั่งจัดรูปแบบเส้นแนวโน้มจากเมนูบริบท ซึ่งเรียกขึ้นมาโดยการคลิกขวาที่เส้นแนวโน้ม
ดับเบิลคลิกที่เส้นแนวโน้ม
กล่องโต้ตอบรูปแบบเส้นแนวโน้มจะปรากฏบนหน้าจอ (รูปที่ 3) ซึ่งมีสามแท็บ: มุมมอง ประเภท พารามิเตอร์ และเนื้อหาของสองแท็บสุดท้ายตรงกับแท็บที่คล้ายกันของกล่องโต้ตอบเส้นแนวโน้ม (รูปที่ 1 -2) บนแท็บมุมมอง คุณสามารถตั้งค่าประเภทของเส้น สี และความหนาได้
หากต้องการลบเส้นแนวโน้มที่วาดไว้แล้ว ให้เลือกเส้นแนวโน้มที่จะลบแล้วกดปุ่ม Delete
ข้อดีของเครื่องมือวิเคราะห์การถดถอยที่พิจารณาคือ:
ความง่ายในการสร้างเส้นแนวโน้มบนแผนภูมิโดยไม่ต้องสร้างตารางข้อมูล
รายการประเภทเส้นแนวโน้มที่นำเสนอที่ค่อนข้างกว้าง และรายการนี้รวมถึงประเภทการถดถอยที่ใช้บ่อยที่สุด
ความสามารถในการทำนายพฤติกรรมของกระบวนการที่กำลังศึกษาในระดับใดก็ได้ (ภายใน การใช้ความคิดเบื้องต้น) จำนวนก้าวเดินหน้าและถอยหลัง;
ความสามารถในการรับสมการเส้นแนวโน้มในรูปแบบการวิเคราะห์
ความเป็นไปได้ (หากจำเป็น) ในการประเมินความน่าเชื่อถือของการประมาณ
ข้อเสียมีดังต่อไปนี้:
การสร้างเส้นแนวโน้มจะดำเนินการเฉพาะในกรณีที่มีไดอะแกรมที่สร้างขึ้นจากชุดข้อมูล
กระบวนการสร้างชุดข้อมูลสำหรับคุณลักษณะภายใต้การศึกษาตามสมการเส้นแนวโน้มที่ได้รับนั้นค่อนข้างยุ่งเหยิง: สมการการถดถอยที่ต้องการจะได้รับการอัปเดตพร้อมกับการเปลี่ยนแปลงแต่ละครั้งในค่าของชุดข้อมูลดั้งเดิม แต่เฉพาะภายในพื้นที่แผนภูมิเท่านั้น ในขณะที่ชุดข้อมูลที่สร้างขึ้นบนพื้นฐานของแนวโน้มสมการเส้นเก่ายังคงไม่เปลี่ยนแปลง
ในรายงาน PivotChart การเปลี่ยนมุมมองของแผนภูมิหรือรายงาน PivotTable ที่เกี่ยวข้องจะไม่รักษาเส้นแนวโน้มที่มีอยู่ ซึ่งหมายความว่าก่อนที่คุณจะวาดเส้นแนวโน้มหรือจัดรูปแบบรายงาน PivotChart คุณควรตรวจสอบให้แน่ใจว่าเค้าโครงรายงานตรงตามข้อกำหนดที่จำเป็น
เส้นแนวโน้มสามารถใช้เพื่อเสริมชุดข้อมูลที่แสดงบนแผนภูมิ เช่น กราฟ ฮิสโตแกรม แผนภูมิพื้นที่ที่ไม่เป็นมาตรฐานแบบเรียบ แผนภูมิแท่ง แผนภูมิกระจาย แผนภูมิฟอง และแผนภูมิหุ้น
คุณไม่สามารถเพิ่มเส้นแนวโน้มลงในชุดข้อมูลในรูปแบบ 3 มิติ แผนภูมิปกติ แผนภูมิเรดาร์ แผนภูมิวงกลม และแผนภูมิโดนัทได้
การใช้ฟังก์ชันในตัวของ Excel
Excel ยังมีเครื่องมือวิเคราะห์การถดถอยสำหรับการวางแผนเส้นแนวโน้มนอกพื้นที่แผนภูมิ มีฟังก์ชันเวิร์กชีททางสถิติจำนวนหนึ่งที่คุณสามารถใช้เพื่อจุดประสงค์นี้ได้ แต่ฟังก์ชันทั้งหมดอนุญาตให้คุณสร้างการถดถอยเชิงเส้นหรือเอ็กซ์โพเนนเชียลเท่านั้น
Excel มีฟังก์ชันหลายอย่างสำหรับสร้างการถดถอยเชิงเส้น โดยเฉพาะ:
ความลาดชันและการตัด
แนวโน้ม;
เช่นเดียวกับฟังก์ชันต่างๆ มากมายสำหรับการสร้างเส้นแนวโน้มเอ็กซ์โพเนนเชียล โดยเฉพาะ:
LGRFRIBL.
ควรสังเกตว่าเทคนิคในการสร้างการถดถอยโดยใช้ฟังก์ชัน TREND และ GROWTH เกือบจะเหมือนกัน สิ่งเดียวกันอาจกล่าวได้เกี่ยวกับคู่ของฟังก์ชัน LINEST และ LGRFPRIBL สำหรับฟังก์ชันทั้งสี่นี้ การสร้างตารางค่าจะใช้ฟีเจอร์ของ Excel เช่น สูตรอาร์เรย์ ซึ่งทำให้กระบวนการสร้างการถดถอยค่อนข้างเกะกะ โปรดทราบว่าในความคิดของเรา การสร้างการถดถอยเชิงเส้นนั้นทำได้ง่ายที่สุดโดยใช้ฟังก์ชัน SLOPE และ INTERCEPT โดยที่ฟังก์ชันแรกจะกำหนดความชันของการถดถอยเชิงเส้น และฟังก์ชันที่สองจะกำหนดส่วนที่ถูกดักจับโดยการถดถอยบน แกน y
ข้อดีของเครื่องมือฟังก์ชันในตัวสำหรับการวิเคราะห์การถดถอยคือ:
กระบวนการที่ค่อนข้างง่ายและสม่ำเสมอในการสร้างชุดข้อมูลของคุณลักษณะภายใต้การศึกษาสำหรับฟังก์ชันทางสถิติในตัวทั้งหมดที่กำหนดเส้นแนวโน้ม
วิธีการมาตรฐานสำหรับการสร้างเส้นแนวโน้มตามชุดข้อมูลที่สร้างขึ้น
ความสามารถในการทำนายพฤติกรรมของกระบวนการที่กำลังศึกษาอยู่ จำนวนที่ต้องการก้าวไปข้างหน้าหรือถอยหลัง
ข้อเสียรวมถึงข้อเท็จจริงที่ว่า Excel ไม่มีฟังก์ชันในตัวสำหรับการสร้างเส้นแนวโน้มประเภทอื่นๆ (ยกเว้นเชิงเส้นและเลขชี้กำลัง) สถานการณ์นี้มักไม่อนุญาตให้เลือกแบบจำลองกระบวนการที่กำลังศึกษาที่แม่นยำเพียงพอ รวมถึงการคาดการณ์ที่ใกล้เคียงกับความเป็นจริง นอกจากนี้ เมื่อใช้ฟังก์ชัน TREND และ GROWTH จะไม่ทราบสมการของเส้นแนวโน้ม
ควรสังเกตว่าผู้เขียนไม่ได้กำหนดที่จะนำเสนอหลักสูตรการวิเคราะห์การถดถอยด้วยความสมบูรณ์ในระดับใด หน้าที่หลักคือการแสดงความสามารถของแพ็คเกจ Excel โดยใช้ตัวอย่างเฉพาะเมื่อแก้ไขปัญหาการประมาณ สาธิตเครื่องมือที่มีประสิทธิภาพที่ Excel มีในการสร้างการถดถอยและการคาดการณ์ แสดงให้เห็นว่าปัญหาดังกล่าวสามารถแก้ไขได้ค่อนข้างง่ายแม้โดยผู้ใช้ที่ไม่มีความรู้กว้างขวางเกี่ยวกับการวิเคราะห์การถดถอย
ตัวอย่างการแก้ปัญหาเฉพาะ
มาดูการแก้ปัญหาเฉพาะโดยใช้เครื่องมือ Excel ที่ระบุไว้
ปัญหาที่ 1
พร้อมตารางข้อมูลเกี่ยวกับผลกำไรขององค์กรขนส่งยานยนต์ปี 2538-2545 คุณต้องทำสิ่งต่อไปนี้:
สร้างไดอะแกรม
เพิ่มเส้นแนวโน้มเชิงเส้นและพหุนาม (กำลังสองและลูกบาศก์) ลงในแผนภูมิ
ใช้สมการเส้นแนวโน้ม รับข้อมูลแบบตารางเกี่ยวกับผลกำไรขององค์กรสำหรับแต่ละเส้นแนวโน้มสำหรับปี 1995-2004
จัดทำการคาดการณ์ผลกำไรขององค์กรในปี 2546 และ 2547
การแก้ปัญหา
ในช่วงของเซลล์ A4:C11 ของแผ่นงาน Excel ให้ป้อนแผ่นงานที่แสดงในรูปที่ 1 4.
เมื่อเลือกช่วงของเซลล์ B4:C11 แล้ว เราจะสร้างไดอะแกรม
เราเปิดใช้งานไดอะแกรมที่สร้างขึ้น และตามวิธีการที่อธิบายไว้ข้างต้น หลังจากเลือกประเภทของเส้นแนวโน้มในกล่องโต้ตอบเส้นแนวโน้ม (ดูรูปที่ 1) เราจะสลับกันเพิ่มเส้นแนวโน้มเชิงเส้น กำลังสอง และลูกบาศก์ลงในไดอะแกรม ในกล่องโต้ตอบเดียวกัน ให้เปิดแท็บพารามิเตอร์ (ดูรูปที่ 2) ในช่องชื่อของเส้นโค้งโดยประมาณ (เรียบ) ป้อนชื่อของแนวโน้มที่จะเพิ่ม และในฟิลด์การคาดการณ์ไปข้างหน้าสำหรับ: ระยะเวลา ให้ตั้งค่า มูลค่า 2 เนื่องจากมีแผนจะคาดการณ์กำไรในอีก 2 ปีข้างหน้า หากต้องการแสดงสมการถดถอยและค่าความน่าเชื่อถือของการประมาณ R2 ในพื้นที่ไดอะแกรม ให้เปิดใช้งานการแสดงสมการในช่องทำเครื่องหมายบนหน้าจอ และวางค่าความน่าเชื่อถือของการประมาณ (R^2) บนไดอะแกรม เพื่อการรับรู้ทางสายตาที่ดีขึ้น เราได้เปลี่ยนประเภท สี และความหนาของเส้นแนวโน้มที่สร้างขึ้น ซึ่งเราใช้แท็บมุมมองของกล่องโต้ตอบรูปแบบเส้นแนวโน้ม (ดูรูปที่ 3) แผนภาพผลลัพธ์ที่มีเส้นแนวโน้มเพิ่มจะแสดงในรูปที่ 1 5.
เพื่อรับข้อมูลแบบตารางเกี่ยวกับผลกำไรขององค์กรสำหรับแต่ละเส้นแนวโน้มสำหรับปี 1995-2004 ลองใช้สมการเส้นแนวโน้มที่แสดงในรูปที่ 1 5. เมื่อต้องการทำเช่นนี้ ในเซลล์ในช่วง D3:F3 ให้ป้อนข้อมูลข้อความเกี่ยวกับประเภทของเส้นแนวโน้มที่เลือก: แนวโน้มเชิงเส้น แนวโน้มกำลังสอง แนวโน้มลูกบาศก์ จากนั้น ป้อนสูตรการถดถอยเชิงเส้นในเซลล์ D4 และใช้เครื่องหมายเติม คัดลอกสูตรนี้โดยมีการอ้างอิงสัมพันธ์กับช่วงเซลล์ D5:D13 ควรสังเกตว่าแต่ละเซลล์ที่มีสูตรการถดถอยเชิงเส้นจากช่วงของเซลล์ D4:D13 มีเซลล์ที่สอดคล้องกันจากช่วง A4:A13 เป็นอาร์กิวเมนต์ ในทำนองเดียวกัน สำหรับการถดถอยกำลังสอง ให้เติมช่วงของเซลล์ E4:E13 และสำหรับการถดถอยลูกบาศก์ ให้เติมช่วงของเซลล์ F4:F13 ดังนั้นจึงได้มีการรวบรวมการคาดการณ์กำไรขององค์กรในปี 2546 และ 2547 โดยใช้ 3 เทรนด์ ตารางค่าผลลัพธ์จะแสดงในรูป 6.
ปัญหาที่ 2
สร้างไดอะแกรม
เพิ่มเส้นแนวโน้มลอการิทึม กำลัง และเอ็กซ์โพเนนเชียลลงในแผนภูมิ
หาสมการของเส้นแนวโน้มที่ได้รับตลอดจนค่าความน่าเชื่อถือของการประมาณ R2 สำหรับแต่ละเส้น
ใช้สมการเส้นแนวโน้ม รับข้อมูลแบบตารางเกี่ยวกับกำไรขององค์กรสำหรับแต่ละเส้นแนวโน้มสำหรับปี 1995-2002
คาดการณ์ผลกำไรของบริษัทในปี 2546 และ 2547 โดยใช้เส้นแนวโน้มเหล่านี้
การแก้ปัญหา
ตามวิธีการที่ให้ไว้ในการแก้ปัญหา 1 เราได้ไดอะแกรมที่บวกลอการิทึม กำลัง และเส้นแนวโน้มเอ็กซ์โพเนนเชียลเข้าไป (รูปที่ 7) ต่อไป เมื่อใช้สมการเส้นแนวโน้มที่ได้รับ เราจะกรอกตารางค่าสำหรับกำไรขององค์กร รวมถึงค่าที่คาดการณ์ไว้สำหรับปี 2546 และ 2547 (รูปที่ 8)
ในรูป 5 และรูปที่ จะเห็นได้ว่าแบบจำลองที่มีแนวโน้มลอการิทึมสอดคล้องกับค่าต่ำสุดของความน่าเชื่อถือในการประมาณ
R2 = 0.8659
ค่าสูงสุดของ R2 สอดคล้องกับแบบจำลองที่มีแนวโน้มพหุนาม: กำลังสอง (R2 = 0.9263) และลูกบาศก์ (R2 = 0.933)
ปัญหา 3
ด้วยตารางข้อมูลเกี่ยวกับผลกำไรขององค์กรขนส่งยานยนต์สำหรับปี 2538-2545 ที่ระบุในภารกิจที่ 1 คุณต้องทำตามขั้นตอนต่อไปนี้
รับชุดข้อมูลสำหรับเส้นแนวโน้มเชิงเส้นและเลขชี้กำลังโดยใช้ฟังก์ชัน TREND และ GROW
ใช้ฟังก์ชัน TREND และ GROWTH ทำการคาดการณ์ผลกำไรขององค์กรในปี 2546 และ 2547
สร้างไดอะแกรมสำหรับข้อมูลต้นฉบับและชุดข้อมูลผลลัพธ์
การแก้ปัญหา
ลองใช้แผ่นงานสำหรับปัญหาที่ 1 (ดูรูปที่ 4) เริ่มต้นด้วย ฟังก์ชันเทรนด์:
เลือกช่วงของเซลล์ D4:D11 ซึ่งควรเต็มไปด้วยค่าของฟังก์ชัน TREND ที่สอดคล้องกับข้อมูลที่ทราบเกี่ยวกับผลกำไรขององค์กร
เรียกคำสั่ง Function จากเมนู Insert ในกล่องโต้ตอบตัวช่วยสร้างฟังก์ชันที่ปรากฏขึ้น ให้เลือกฟังก์ชันแนวโน้มจากหมวดหมู่ทางสถิติ จากนั้นคลิกปุ่มตกลง การดำเนินการเดียวกันนี้สามารถทำได้โดยการคลิกปุ่ม (แทรกฟังก์ชัน) บนแถบเครื่องมือมาตรฐาน
ในกล่องโต้ตอบอาร์กิวเมนต์ของฟังก์ชันที่ปรากฏขึ้น ให้ป้อนช่วงของเซลล์ C4:C11 ในช่อง Known_values_y ในช่อง Known_values_x - ช่วงของเซลล์ B4:B11;
หากต้องการทำให้สูตรที่ป้อนกลายเป็นสูตรอาร์เรย์ ให้ใช้คีย์ผสม + +
สูตรที่เราป้อนในแถบสูตรจะมีลักษณะดังนี้: =(TREND(C4:C11,B4:B11))
เป็นผลให้ช่วงของเซลล์ D4:D11 เต็มไปด้วยค่าที่สอดคล้องกันของฟังก์ชัน TREND (รูปที่ 9)
เพื่อคาดการณ์ผลกำไรขององค์กรในปี 2546 และ 2547 จำเป็น:
เลือกช่วงของเซลล์ D12:D13 ที่จะป้อนค่าที่คาดการณ์โดยฟังก์ชัน TREND
เรียกใช้ฟังก์ชัน TREND และในกล่องโต้ตอบอาร์กิวเมนต์ของฟังก์ชันที่ปรากฏขึ้น ให้ป้อนในฟิลด์ Known_values_y - ช่วงของเซลล์ C4:C11; ในช่อง Known_values_x - ช่วงของเซลล์ B4:B11; และในช่อง New_values_x - ช่วงของเซลล์ B12:B13
เปลี่ยนสูตรนี้เป็นสูตรอาร์เรย์โดยใช้คีย์ผสม Ctrl + Shift + Enter
สูตรที่ป้อนจะมีลักษณะดังนี้: =(TREND(C4:C11;B4:B11;B12:B13)) และช่วงของเซลล์ D12:D13 จะถูกเติมด้วยค่าที่ทำนายไว้ของฟังก์ชัน TREND (ดูรูปที่ 1) 9)
ชุดข้อมูลจะถูกเติมในทำนองเดียวกันโดยใช้ฟังก์ชัน GROWTH ซึ่งใช้ในการวิเคราะห์การขึ้นต่อกันแบบไม่เชิงเส้น และทำงานในลักษณะเดียวกับ TREND ที่เป็นคู่เชิงเส้นทุกประการ
รูปที่ 10 แสดงตารางในโหมดแสดงสูตร
สำหรับข้อมูลเริ่มต้นและชุดข้อมูลที่ได้รับ แผนภาพแสดงในรูปที่ 1 สิบเอ็ด
ปัญหาที่ 4
ด้วยตารางข้อมูลเกี่ยวกับการรับการสมัครใช้บริการโดยบริการจัดส่งขององค์กรขนส่งทางรถยนต์ในช่วงวันที่ 1 ถึงวันที่ 11 ของเดือนปัจจุบันคุณต้องดำเนินการดังต่อไปนี้
รับชุดข้อมูลสำหรับการถดถอยเชิงเส้น: การใช้ฟังก์ชัน SLOPE และ INTERCEPT โดยใช้ฟังก์ชัน LINEST
รับชุดข้อมูลสำหรับการถดถอยเอ็กซ์โปเนนเชียลโดยใช้ฟังก์ชัน LGRFPRIBL
ใช้ฟังก์ชันข้างต้น คาดการณ์เกี่ยวกับการรับใบสมัครไปยังบริการจัดส่งในช่วงวันที่ 12 ถึงวันที่ 14 ของเดือนปัจจุบัน
สร้างไดอะแกรมสำหรับชุดข้อมูลต้นฉบับและข้อมูลที่ได้รับ
การแก้ปัญหา
โปรดทราบว่าต่างจากฟังก์ชัน TREND และ GROWTH ตรงที่ไม่มีฟังก์ชันใดในรายการข้างต้น (SLOPE, INTERCEPT, LINEST, LGRFPRIB) เป็นการถดถอย ฟังก์ชันเหล่านี้มีบทบาทสนับสนุนเท่านั้น โดยกำหนดพารามิเตอร์การถดถอยที่จำเป็น
สำหรับการถดถอยเชิงเส้นและเอ็กซ์โปเนนเชียลที่สร้างขึ้นโดยใช้ฟังก์ชัน SLOPE, INTERCEPT, LINEST, LGRFPRIB จะทราบลักษณะที่ปรากฏของสมการอยู่เสมอ ตรงกันข้ามกับการถดถอยเชิงเส้นและเอ็กซ์โพเนนเชียลที่สอดคล้องกับฟังก์ชัน TREND และ GROWTH
1 . มาสร้างการถดถอยเชิงเส้นด้วยสมการกัน:
y = มx+ข
โดยใช้ฟังก์ชัน SLOPE และ INTERCEPT โดยมีความชันการถดถอย m กำหนดโดยฟังก์ชัน SLOPE และเทอมอิสระ b โดยฟังก์ชัน INTERCEPT
ในการดำเนินการนี้ เราดำเนินการดังต่อไปนี้:
ป้อนตารางต้นฉบับลงในช่วงเซลล์ A4:B14;
ค่าของพารามิเตอร์ m จะถูกกำหนดในเซลล์ C19 เลือกฟังก์ชันความชันจากหมวดสถิติ ป้อนช่วงของเซลล์ B4:B14 ในช่องknown_values_y และช่วงของเซลล์ A4:A14 ในช่องknown_values_x สูตรจะถูกป้อนในเซลล์ C19: =SLOPE(B4:B14,A4:A14);
เมื่อใช้เทคนิคที่คล้ายกัน จะกำหนดค่าของพารามิเตอร์ b ในเซลล์ D19 และเนื้อหาจะมีลักษณะดังนี้: =SEGMENT(B4:B14,A4:A14) ดังนั้นค่าของพารามิเตอร์ m และ b ที่จำเป็นสำหรับการสร้างการถดถอยเชิงเส้นจะถูกเก็บไว้ในเซลล์ C19, D19 ตามลำดับ
จากนั้น ป้อนสูตรการถดถอยเชิงเส้นในเซลล์ C4 ในรูปแบบ: =$C*A4+$D ในสูตรนี้ เซลล์ C19 และ D19 จะถูกเขียนด้วยการอ้างอิงแบบสัมบูรณ์ (ที่อยู่ของเซลล์ไม่ควรเปลี่ยนแปลงในระหว่างการคัดลอกที่เป็นไปได้) เครื่องหมายอ้างอิงสัมบูรณ์ $ สามารถพิมพ์ได้จากแป้นพิมพ์หรือใช้ปุ่ม F4 หลังจากวางเคอร์เซอร์บนที่อยู่ของเซลล์แล้ว ใช้จุดจับเติม คัดลอกสูตรนี้ลงในช่วงของเซลล์ C4:C17 เราได้รับชุดข้อมูลที่ต้องการ (รูปที่ 12) เนื่องจากจำนวนคำขอเป็นจำนวนเต็ม คุณควรตั้งค่ารูปแบบตัวเลขด้วยจำนวนตำแหน่งทศนิยมเป็น 0 บนแท็บตัวเลขของหน้าต่างรูปแบบเซลล์
2 . ตอนนี้เรามาสร้างการถดถอยเชิงเส้นที่กำหนดโดยสมการ:
y = มx+ข
โดยใช้ฟังก์ชัน LINEST
สำหรับสิ่งนี้:
ป้อนฟังก์ชัน LINEST เป็นสูตรอาร์เรย์ในช่วงเซลล์ C20:D20: =(LINEST(B4:B14,A4:A14)) เป็นผลให้เราได้รับค่าของพารามิเตอร์ m ในเซลล์ C20 และค่าของพารามิเตอร์ b ในเซลล์ D20
ป้อนสูตรในเซลล์ D4: =$C*A4+$D;
คัดลอกสูตรนี้โดยใช้เครื่องหมายเติมลงในช่วงเซลล์ D4:D17 และรับชุดข้อมูลที่ต้องการ
3 . เราสร้างการถดถอยเอ็กซ์โปเนนเชียลด้วยสมการ:
การใช้ฟังก์ชัน LGRFPRIBL จะดำเนินการในลักษณะเดียวกัน:
ในช่วงเซลล์ C21:D21 เราป้อนฟังก์ชัน LGRFPRIBL เป็นสูตรอาร์เรย์: =( LGRFPRIBL (B4:B14,A4:A14)) ในกรณีนี้ ค่าของพารามิเตอร์ m จะถูกกำหนดในเซลล์ C21 และค่าของพารามิเตอร์ b จะถูกกำหนดในเซลล์ D21
ใส่สูตรลงในเซลล์ E4: =$D*$C^A4;
โดยใช้เครื่องหมายเติม สูตรนี้จะถูกคัดลอกไปยังช่วงของเซลล์ E4:E17 โดยที่ชุดข้อมูลสำหรับการถดถอยเอ็กซ์โปเนนเชียลจะอยู่ (ดูรูปที่ 12)
ในรูป รูปที่ 13 แสดงตารางที่คุณสามารถดูฟังก์ชันที่เราใช้กับช่วงเซลล์ที่ต้องการ รวมถึงสูตรต่างๆ
ขนาด ร 2 เรียกว่า ค่าสัมประสิทธิ์การตัดสินใจ.
งานในการสร้างการพึ่งพาการถดถอยคือการหาเวกเตอร์ของสัมประสิทธิ์ m ของแบบจำลอง (1) โดยที่สัมประสิทธิ์ R รับค่าสูงสุด
เพื่อประเมินความสำคัญของ R จะใช้การทดสอบ F ของฟิชเชอร์ โดยคำนวณโดยใช้สูตร
ที่ไหน n- ขนาดตัวอย่าง (จำนวนการทดลอง)
k คือจำนวนสัมประสิทธิ์แบบจำลอง
ถ้า F เกินค่าวิกฤตของข้อมูล nและ เคและความน่าจะเป็นของความเชื่อมั่นที่ยอมรับได้ แล้วค่า R ถือว่ามีนัยสำคัญ ตารางค่าวิกฤตของ F แสดงไว้ในหนังสืออ้างอิงเกี่ยวกับสถิติทางคณิตศาสตร์
ดังนั้นความสำคัญของ R ไม่เพียงแต่ถูกกำหนดโดยค่าของมันเท่านั้น แต่ยังรวมถึงอัตราส่วนระหว่างจำนวนการทดลองและจำนวนสัมประสิทธิ์ (พารามิเตอร์) ของแบบจำลองด้วย อันที่จริง อัตราส่วนสหสัมพันธ์สำหรับ n=2 สำหรับแบบจำลองเชิงเส้นอย่างง่ายเท่ากับ 1 (เส้นตรงเส้นเดียวสามารถลากผ่าน 2 จุดบนระนาบได้เสมอ) อย่างไรก็ตาม หากข้อมูลการทดลองเป็นตัวแปรสุ่ม ควรเชื่อถือค่า R ดังกล่าวด้วยความระมัดระวังเป็นอย่างยิ่ง โดยปกติแล้ว เพื่อให้ได้ R ที่มีนัยสำคัญและการถดถอยที่เชื่อถือได้ พวกเขาพยายามให้แน่ใจว่าจำนวนการทดลองเกินจำนวนสัมประสิทธิ์แบบจำลอง (n>k) อย่างมีนัยสำคัญ
ในการสร้างแบบจำลองการถดถอยเชิงเส้น คุณต้องมี:
1) เตรียมรายการ n แถวและ m คอลัมน์ที่มีข้อมูลการทดลอง (คอลัมน์ที่มีค่าเอาต์พุต ยจะต้องเป็นรายการแรกหรือรายการสุดท้าย) ตัวอย่างเช่น ลองนำข้อมูลจากงานก่อนหน้าโดยเพิ่มคอลัมน์ชื่อ “Period No” กำหนดหมายเลขช่วงตั้งแต่ 1 ถึง 12 (ซึ่งจะเป็นค่าเหล่านี้ เอ็กซ์)
2) ไปที่เมนู ข้อมูล/การวิเคราะห์ข้อมูล/การถดถอย
หากรายการ "การวิเคราะห์ข้อมูล" ในเมนู "เครื่องมือ" หายไป คุณควรไปที่รายการ "ส่วนเสริม" ในเมนูเดียวกันและทำเครื่องหมายในช่อง "แพ็คเกจการวิเคราะห์"
3) ในกล่องโต้ตอบ "การถดถอย" ให้ตั้งค่า:
· ช่วงเวลาอินพุต Y;
· ช่วงเวลาอินพุต X;
· ช่วงเอาท์พุต - เซลล์ด้านซ้ายบนของช่วงเวลาที่ผลการคำนวณจะถูกวาง (แนะนำให้วางไว้บนแผ่นงานใหม่)
4) คลิก "ตกลง" และวิเคราะห์ผลลัพธ์
มีประโยชน์หลายอย่างเนื่องจากช่วยให้สามารถแสดงค่าโดยประมาณได้ ฟังก์ชันที่กำหนดคนอื่นง่ายกว่า LSM มีประโยชน์อย่างยิ่งในการประมวลผลการสังเกต และมีการใช้อย่างแข็งขันเพื่อประมาณปริมาณบางปริมาณโดยอิงจากผลลัพธ์ของการวัดปริมาณอื่นๆ ที่มี ข้อผิดพลาดแบบสุ่ม. ในบทความนี้ คุณจะได้เรียนรู้วิธีใช้การคำนวณกำลังสองน้อยที่สุดใน Excel
คำชี้แจงปัญหาโดยใช้ตัวอย่างเฉพาะ
สมมติว่ามีตัวบ่งชี้ X และ Y สองตัว ยิ่งไปกว่านั้น Y ขึ้นอยู่กับ X เนื่องจาก OLS สนใจเราจากมุมมองของการวิเคราะห์การถดถอย (ใน Excel วิธีการของมันถูกนำมาใช้โดยใช้ฟังก์ชันในตัว) เราควรพิจารณาทันที ปัญหาเฉพาะ
งั้นให้ X เป็น พื้นที่การค้าร้านขายของชำ วัดใน ตารางเมตรและ Y คือมูลค่าการซื้อขายประจำปีซึ่งกำหนดเป็นล้านรูเบิล
จำเป็นต้องคาดการณ์ว่าร้านค้าจะมียอดขายเท่าใด (Y) หากมีพื้นที่ค้าปลีกนี้หรือพื้นที่นั้น เห็นได้ชัดว่าฟังก์ชัน Y = f (X) เพิ่มขึ้นเนื่องจากไฮเปอร์มาร์เก็ตขายสินค้ามากกว่าแผงลอย
คำไม่กี่คำเกี่ยวกับความถูกต้องของข้อมูลเริ่มต้นที่ใช้ในการทำนาย
สมมติว่าเรามีตารางที่สร้างขึ้นโดยใช้ข้อมูลสำหรับร้านค้า n แห่ง
ตาม สถิติทางคณิตศาสตร์ผลลัพธ์จะถูกต้องไม่มากก็น้อยหากตรวจสอบข้อมูลบนวัตถุอย่างน้อย 5-6 ชิ้น นอกจากนี้ยังไม่สามารถใช้ผลลัพธ์ที่ "ผิดปกติ" ได้ โดยเฉพาะอย่างยิ่งร้านบูติกขนาดเล็กชั้นยอดอาจมีมูลค่าการซื้อขายมากกว่ามูลค่าการซื้อขายของร้านค้าปลีกขนาดใหญ่ประเภท "masmarket" หลายเท่า
สาระสำคัญของวิธีการ
ข้อมูลตารางสามารถแสดงได้ เครื่องบินคาร์ทีเซียนในรูปแบบของคะแนน M 1 (x 1, y 1), ... M n (x n, y n) ตอนนี้วิธีแก้ปัญหาจะลดลงเหลือการเลือกฟังก์ชันประมาณ y = f (x) ซึ่งมีกราฟที่ส่งผ่านใกล้กับจุด M 1, M 2, .. M n มากที่สุด
แน่นอน คุณสามารถใช้พหุนามได้ ระดับสูงแต่ตัวเลือกนี้ไม่เพียงแต่ใช้งานยากเท่านั้น แต่ยังไม่ถูกต้องอีกด้วย เนื่องจากจะไม่สะท้อนถึงแนวโน้มหลักที่ต้องตรวจพบ วิธีแก้ปัญหาที่สมเหตุสมผลที่สุดคือการค้นหาเส้นตรง y = ax + b ซึ่งประมาณค่าข้อมูลการทดลองได้ดีที่สุด หรือถ้าให้เจาะจงกว่านั้นคือค่าสัมประสิทธิ์ a และ b
การประเมินความแม่นยำ
ด้วยการประมาณค่าใดๆ ก็ตาม การประเมินความถูกต้องแม่นยำถือเป็นสิ่งสำคัญอย่างยิ่ง ให้เราแสดงด้วย e i ความแตกต่าง (ส่วนเบี่ยงเบน) ระหว่างค่าการทำงานและค่าทดลองสำหรับจุด x i นั่นคือ e i = y i - f (x i)
เห็นได้ชัดว่าในการประเมินความถูกต้องของการประมาณคุณสามารถใช้ผลรวมของการเบี่ยงเบนได้เช่น เมื่อเลือกเส้นตรงเพื่อเป็นตัวแทนโดยประมาณของการพึ่งพา X บน Y คุณควรให้ความสำคัญกับเส้นที่มีค่าน้อยที่สุดของ รวม e i ทุกจุดที่กำลังพิจารณา อย่างไรก็ตามไม่ใช่ทุกอย่างจะง่ายนักเนื่องจากการเบี่ยงเบนเชิงบวกก็จะมีการเบี่ยงเบนเชิงลบเช่นกัน
ปัญหานี้สามารถแก้ไขได้โดยใช้โมดูลส่วนเบี่ยงเบนหรือกำลังสอง วิธีสุดท้ายได้รับมากที่สุด ใช้งานได้กว้าง. มีการใช้งานในหลายพื้นที่ รวมถึงการวิเคราะห์การถดถอย (ใช้งานใน Excel โดยใช้ฟังก์ชันในตัวสองฟังก์ชัน) และได้พิสูจน์ประสิทธิภาพมานานแล้ว
วิธีกำลังสองน้อยที่สุด
ดังที่คุณทราบ Excel มีฟังก์ชันผลรวมอัตโนมัติในตัวที่ช่วยให้คุณสามารถคำนวณค่าของค่าทั้งหมดที่อยู่ในช่วงที่เลือกได้ ดังนั้นจึงไม่มีอะไรขัดขวางเราจากการคำนวณค่าของนิพจน์ (e 1 2 + e 2 2 + e 3 2 + ... e n 2)
ในสัญกรณ์ทางคณิตศาสตร์ดูเหมือนว่า:
เนื่องจากการตัดสินใจเริ่มแรกให้ประมาณโดยใช้เส้นตรง เราจึงได้:
ดังนั้นงานในการค้นหาเส้นตรงที่อธิบายการพึ่งพาเฉพาะของปริมาณ X และ Y ได้ดีที่สุดจึงลงมาเพื่อคำนวณค่าต่ำสุดของฟังก์ชันของตัวแปรสองตัว:
ในการทำเช่นนี้ คุณต้องเทียบอนุพันธ์บางส่วนด้วยความเคารพกับตัวแปรใหม่ a และ b เป็นศูนย์ และแก้ระบบดั้งเดิมที่ประกอบด้วยสมการสองสมการที่มีรูปแบบที่ไม่รู้จัก 2 รูปแบบ:
หลังจากการแปลงอย่างง่าย ๆ รวมถึงการหารด้วย 2 และการเปลี่ยนแปลงผลรวม เราจะได้:
เราได้รับการแก้ปัญหาโดยใช้วิธีของ Cramer จุดนิ่งโดยมีค่าสัมประสิทธิ์ a * และ b * ที่แน่นอน นี่คือขั้นต่ำ เช่น เพื่อคาดการณ์ว่าร้านค้าจะมีมูลค่าการซื้อขายเท่าใด พื้นที่บางส่วนเส้นตรง y = a * x + b * เหมาะสม ซึ่งก็คือ แบบจำลองการถดถอยสำหรับตัวอย่างที่เป็นปัญหา แน่นอนว่าเธอจะไม่ให้คุณพบ ผลลัพธ์ที่แน่นอนแต่จะช่วยให้ทราบว่าการซื้อพื้นที่เฉพาะด้วยเครดิตร้านค้าจะได้ผลหรือไม่
วิธีการใช้กำลังสองน้อยที่สุดใน Excel
Excel มีฟังก์ชันสำหรับคำนวณค่าโดยใช้กำลังสองน้อยที่สุด เธอมี มุมมองถัดไป: “แนวโน้ม” (ค่า Y ที่รู้จัก, ค่า X ที่ทราบ, ค่า X ใหม่, ค่าคงที่) ลองใช้สูตรคำนวณ OLS ใน Excel กับตารางของเรา
ในการดำเนินการนี้ให้ป้อนเครื่องหมาย "=" ในเซลล์ที่ควรแสดงผลการคำนวณโดยใช้วิธีกำลังสองน้อยที่สุดใน Excel และเลือกฟังก์ชัน "TREND" ในหน้าต่างที่เปิดขึ้น ให้กรอกข้อมูลในช่องที่เหมาะสม โดยเน้นที่:
- ช่วงของค่าที่ทราบสำหรับ Y (นิ้ว ในกรณีนี้ข้อมูลมูลค่าการซื้อขาย);
- ช่วง x 1 , …xn เช่น ขนาดของพื้นที่ค้าปลีก
- ทั้งมีชื่อเสียงและ ค่าที่ไม่รู้จัก x ซึ่งคุณต้องทราบขนาดของมูลค่าการซื้อขาย (สำหรับข้อมูลเกี่ยวกับตำแหน่งของพวกเขาในแผ่นงานดูด้านล่าง)
นอกจากนี้ สูตรยังมีตัวแปรเชิงตรรกะ “Const” หากคุณป้อน 1 ลงในช่องที่เกี่ยวข้อง หมายความว่าคุณควรดำเนินการคำนวณ โดยสมมติว่า b = 0
หากคุณต้องการค้นหาการพยากรณ์ค่า x มากกว่าหนึ่งค่า หลังจากป้อนสูตรแล้ว คุณไม่ควรกด "Enter" แต่คุณต้องพิมพ์ชุดค่าผสม "Shift" + "Control" + "Enter" บนแป้นพิมพ์
คุณสมบัติบางอย่าง
การวิเคราะห์การถดถอยสามารถเข้าถึงได้แม้กระทั่งกับหุ่นจำลอง สูตรเอ็กเซลเพื่อทำนายค่าของอาร์เรย์ของตัวแปรที่ไม่รู้จัก - "TREND" - สามารถใช้ได้แม้กระทั่งกับผู้ที่ไม่เคยได้ยินวิธีกำลังสองน้อยที่สุดมาก่อน แค่รู้คุณสมบัติบางอย่างของงานก็เพียงพอแล้ว โดยเฉพาะอย่างยิ่ง:
- หากคุณจัดเรียงช่วงของค่าที่ทราบของตัวแปร y ในหนึ่งแถวหรือคอลัมน์แต่ละแถว (คอลัมน์) ด้วย ค่านิยมที่ทราบ x จะถือว่าโปรแกรมเป็นตัวแปรแยกต่างหาก
- หากหน้าต่าง TREND ไม่ได้ระบุช่วงที่ทราบ x แสดงว่ามีการใช้ฟังก์ชันดังกล่าว โปรแกรมเอ็กเซลจะถือว่ามันเป็นอาร์เรย์ที่ประกอบด้วยจำนวนเต็มซึ่งจำนวนนั้นสอดคล้องกับช่วงที่มีค่าที่กำหนดของตัวแปร y
- หากต้องการส่งออกอาร์เรย์ของค่า "ที่คาดการณ์" ต้องป้อนนิพจน์สำหรับการคำนวณแนวโน้มเป็นสูตรอาร์เรย์
- หากไม่ได้ระบุค่าใหม่ของ x ฟังก์ชัน TREND จะถือว่ามีค่าเท่ากับค่าที่ทราบ หากไม่ได้ระบุไว้ อาร์เรย์ 1 จะถูกใช้เป็นอาร์กิวเมนต์ 2; 3; 4;… ซึ่งสมส่วนกับช่วงที่มีพารามิเตอร์ y ระบุไว้แล้ว
- ช่วงที่มีค่า x ใหม่จะต้องประกอบด้วยค่าเดียวกันหรือ มากกว่าแถวหรือคอลัมน์เป็นช่วงที่มีค่า y ที่กำหนด กล่าวอีกนัยหนึ่ง จะต้องเป็นสัดส่วนกับตัวแปรอิสระ
- อาร์เรย์ที่มีค่า x ที่รู้จักสามารถมีตัวแปรได้หลายตัว อย่างไรก็ตามหาก เรากำลังพูดถึงประมาณหนึ่งเท่านั้น ดังนั้นช่วงที่มีค่า x และ y ที่กำหนดต้องเป็นสัดส่วน ในกรณีที่มีตัวแปรหลายตัว จำเป็นที่ช่วงที่มีค่า y ที่กำหนดจะต้องอยู่ในคอลัมน์เดียวหรือหนึ่งแถว
ฟังก์ชันการคาดการณ์
ดำเนินการโดยใช้ฟังก์ชั่นหลายอย่าง หนึ่งในนั้นเรียกว่า "การคาดการณ์" คล้ายกับ “แนวโน้ม” กล่าวคือ ให้ผลลัพธ์ของการคำนวณโดยใช้วิธีกำลังสองน้อยที่สุด อย่างไรก็ตาม มีเพียง X ตัวเดียวเท่านั้น ซึ่งไม่ทราบค่าของ Y
ตอนนี้คุณรู้สูตรใน Excel สำหรับหุ่นที่ช่วยให้คุณสามารถทำนายมูลค่าในอนาคตของตัวบ่งชี้เฉพาะตามแนวโน้มเชิงเส้นได้
มีการใช้กันอย่างแพร่หลายในเศรษฐมิติในรูปแบบของการตีความพารามิเตอร์ทางเศรษฐกิจที่ชัดเจน
การถดถอยเชิงเส้นลงมาเพื่อค้นหาสมการของรูปแบบ
หรือ
สมการของแบบฟอร์ม อนุญาตสำหรับ ค่าที่กำหนดพารามิเตอร์ เอ็กซ์มีค่าทางทฤษฎีของลักษณะผลลัพธ์โดยแทนที่ค่าที่แท้จริงของปัจจัยลงไป เอ็กซ์.
การสร้างการถดถอยเชิงเส้นนั้นมาจากการประมาณค่าพารามิเตอร์ - กและ วี.การประมาณค่าพารามิเตอร์การถดถอยเชิงเส้นสามารถพบได้โดยใช้วิธีการต่างๆ
วิธีการดั้งเดิมในการประมาณค่าพารามิเตอร์การถดถอยเชิงเส้นนั้นยึดตาม วิธีกำลังสองน้อยที่สุด(เอ็มเอ็นซี).
วิธีกำลังสองน้อยที่สุดช่วยให้เราสามารถประมาณค่าพารามิเตอร์ดังกล่าวได้ กและ วีซึ่งผลรวมของการเบี่ยงเบนกำลังสองของค่าที่แท้จริงของลักษณะผลลัพธ์ (ญ)จากการคำนวณ (ทางทฤษฎี) ขั้นต่ำ:
ในการหาค่าต่ำสุดของฟังก์ชัน คุณต้องคำนวณอนุพันธ์ย่อยของพารามิเตอร์แต่ละตัว กและ ขและตั้งค่าให้เท่ากับศูนย์
มาแสดงกันเถอะ ผ่าน S จากนั้น:
เราได้รับการแปลงสูตร ระบบต่อไปนี้ สมการปกติเพื่อประมาณค่าพารามิเตอร์ กและ วี:
การแก้ระบบสมการปกติ (3.5) โดยวิธีใดวิธีหนึ่ง การกำจัดตามลำดับตัวแปรหรือโดยวิธีการกำหนดเราจะค้นหาค่าประมาณที่ต้องการของพารามิเตอร์ กและ วี.
พารามิเตอร์ วีเรียกว่าสัมประสิทธิ์การถดถอย ค่าของมันแสดงการเปลี่ยนแปลงโดยเฉลี่ยในผลลัพธ์โดยมีการเปลี่ยนแปลงปัจจัยหนึ่งหน่วย
สมการถดถอยจะเสริมด้วยตัวบ่งชี้ความใกล้ชิดของการเชื่อมต่อเสมอ เมื่อใช้การถดถอยเชิงเส้น ตัวบ่งชี้ดังกล่าวจะเป็นค่าสัมประสิทธิ์สหสัมพันธ์เชิงเส้น มีการปรับเปลี่ยนสูตรที่แตกต่างกัน ค่าสัมประสิทธิ์เชิงเส้นความสัมพันธ์ บางส่วนได้รับด้านล่าง:
ดังที่ทราบ ค่าสัมประสิทธิ์สหสัมพันธ์เชิงเส้นอยู่ภายในขีดจำกัด: -1 ≤ ≤ 1.
เพื่อประเมินคุณภาพการคัดเลือก ฟังก์ชันเชิงเส้นสี่เหลี่ยมจัตุรัสถูกคำนวณ
สัมประสิทธิ์สหสัมพันธ์เชิงเส้นที่เรียกว่า ค่าสัมประสิทธิ์การตัดสินใจ.ค่าสัมประสิทธิ์การกำหนดลักษณะสัดส่วนของความแปรปรวนของลักษณะผลลัพธ์ ใช่อธิบายโดยการถดถอยใน ความแปรปรวนทั้งหมดเครื่องหมายผลลัพธ์:
ดังนั้น ค่า 1 จึงแสดงถึงส่วนแบ่งของความแปรปรวน ใช่เกิดจากอิทธิพลของปัจจัยอื่นๆ ที่ไม่ได้นำมาพิจารณาในแบบจำลอง
คำถามเพื่อการควบคุมตนเอง
1. สาระสำคัญของวิธีกำลังสองน้อยที่สุด?
2. การถดถอยแบบคู่มีตัวแปรกี่ตัว?
3. ค่าสัมประสิทธิ์ใดกำหนดความใกล้ชิดของการเชื่อมต่อระหว่างการเปลี่ยนแปลง?
4. ค่าสัมประสิทธิ์การตัดสินใจถูกกำหนดไว้ภายในขอบเขตใด?
5. การประมาณค่าพารามิเตอร์ b ในการวิเคราะห์สหสัมพันธ์-การถดถอย?
1. คริสโตเฟอร์ โดเฮอร์ตี้ เศรษฐมิติเบื้องต้น - อ.: INFRA - ม. 2544 - 402 หน้า
2. เอส.เอ. โบโรดิช. เศรษฐมิติ. Minsk LLC "ความรู้ใหม่" 2544
3. ร.ศ. ราคเมโตวา หลักสูตรระยะสั้นในเศรษฐมิติ บทช่วยสอน. อัลมาตี 2004. -78น.
4. II. Eliseeva เศรษฐมิติ. - อ.: “การเงินและสถิติ”, 2545
5. ข้อมูลรายเดือนและนิตยสารเชิงวิเคราะห์
แบบจำลองเศรษฐศาสตร์ไม่เชิงเส้น ตัวแบบการถดถอยแบบไม่เชิงเส้น การเปลี่ยนแปลงของตัวแปร
ไม่เชิงเส้น แบบจำลองทางเศรษฐกิจ..
การเปลี่ยนแปลงของตัวแปร
ค่าสัมประสิทธิ์ความยืดหยุ่น
ถ้าระหว่าง ปรากฏการณ์ทางเศรษฐกิจมีความสัมพันธ์แบบไม่เชิงเส้น โดยแสดงโดยใช้ความสัมพันธ์ที่สอดคล้องกัน ฟังก์ชันไม่เชิงเส้น: เช่น ไฮเปอร์โบลาด้านเท่า , พาราโบลาของระดับที่สอง และอื่น ๆ.
การถดถอยแบบไม่เชิงเส้นมีสองประเภท:
1. การถดถอยที่ไม่เป็นเชิงเส้นตามตัวแปรอธิบายที่รวมอยู่ในการวิเคราะห์ แต่เป็นเส้นตรงตามพารามิเตอร์ที่ประมาณไว้ เช่น
พหุนาม องศาต่างๆ - , ;
ไฮเปอร์โบลาด้านเท่ากันหมด - ;
ฟังก์ชันเซมิลอการิทึม - .
2. การถดถอยที่ไม่เป็นเชิงเส้นในพารามิเตอร์ที่กำลังประมาณ ตัวอย่างเช่น:
พลัง - ;
สาธิต - ;
เอ็กซ์โปเนนเชียล - .
ผลรวมของการเบี่ยงเบนกำลังสอง ค่านิยมส่วนบุคคลเครื่องหมายผลลัพธ์ ที่จากค่าเฉลี่ยนั้นเกิดจากอิทธิพลของหลายสาเหตุ ให้เราแบ่งเหตุผลทั้งหมดออกเป็นสองกลุ่มอย่างมีเงื่อนไข: ปัจจัยภายใต้การศึกษา xและ ปัจจัยอื่น ๆ
หากปัจจัยไม่ส่งผลต่อผลลัพธ์ เส้นการถดถอยบนกราฟจะขนานกับแกน โอ้และ
จากนั้นความแปรปรวนทั้งหมดของลักษณะผลลัพธ์นั้นเกิดจากอิทธิพลของปัจจัยอื่น ๆ และ จำนวนเงินทั้งหมดส่วนเบี่ยงเบนกำลังสองจะตรงกับค่าคงเหลือ หากปัจจัยอื่นไม่ส่งผลต่อผลลัพธ์แล้ว คุณผูกอยู่กับ เอ็กซ์ใช้งานได้และ จำนวนคงเหลือสี่เหลี่ยมเป็นศูนย์ ในกรณีนี้ ผลรวมของการเบี่ยงเบนกำลังสองซึ่งอธิบายโดยการถดถอยจะเท่ากับผลรวมของกำลังสองทั้งหมด
เนื่องจากไม่ใช่ทุกจุดของสนามความสัมพันธ์จะอยู่บนเส้นถดถอย การกระจัดกระจายจึงเกิดขึ้นเสมออันเป็นผลมาจากอิทธิพลของปัจจัย เอ็กซ์นั่นคือการถดถอย ที่โดย เอ็กซ์,และเกิดจากสาเหตุอื่น (ความแปรผันที่ไม่สามารถอธิบายได้) ความเหมาะสมของเส้นถดถอยในการพยากรณ์จะขึ้นอยู่กับส่วนใด การเปลี่ยนแปลงทั้งหมดเข้าสู่ระบบ ที่อธิบายความแปรผันที่อธิบายไว้
แน่นอนว่า หากผลรวมของการเบี่ยงเบนกำลังสองเนื่องจากการถดถอยมากกว่าผลรวมที่เหลือของกำลังสอง สมการการถดถอยจะมีนัยสำคัญทางสถิติและเป็นปัจจัย เอ็กซ์มีผลกระทบอย่างมีนัยสำคัญต่อผลลัพธ์ ยู.
, นั่นคือด้วยจำนวนอิสระของการแปรผันที่เป็นอิสระของคุณลักษณะ จำนวนระดับความเป็นอิสระสัมพันธ์กับจำนวนหน่วยของประชากร n และจำนวนค่าคงที่ที่กำหนด ในความสัมพันธ์กับปัญหาที่กำลังศึกษา จำนวนระดับความเป็นอิสระควรแสดงจำนวนค่าเบี่ยงเบนอิสระจาก ป
การประเมินนัยสำคัญของสมการการถดถอยโดยรวมจะใช้ เอฟ-เกณฑ์ชาวประมง ในกรณีนี้ มีการเสนอสมมติฐานว่างว่าสัมประสิทธิ์การถดถอยเท่ากับศูนย์ นั่นคือ ข = 0 และด้วยเหตุนี้จึงเป็นปัจจัย เอ็กซ์ไม่ส่งผลกระทบต่อผลลัพธ์ ยู.
การคำนวณการทดสอบ F ในทันทีนั้นนำหน้าด้วยการวิเคราะห์ความแปรปรวน จุดศูนย์กลางในนั้นถูกครอบครองโดยการสลายตัวของผลรวมของการเบี่ยงเบนกำลังสองของตัวแปร ที่จากค่าเฉลี่ย ที่ออกเป็นสองส่วน - "อธิบาย" และ "ไม่ได้อธิบาย":
- ผลรวมของการเบี่ยงเบนกำลังสอง;
- ผลรวมของการเบี่ยงเบนกำลังสองที่อธิบายโดยการถดถอย
- ผลรวมที่เหลือของการเบี่ยงเบนกำลังสอง
ผลรวมของการเบี่ยงเบนกำลังสองสัมพันธ์กับจำนวนดีกรีอิสระ , นั่นคือด้วยจำนวนอิสระของการแปรผันที่เป็นอิสระของคุณลักษณะ จำนวนองศาอิสระสัมพันธ์กับจำนวนหน่วยประชากร nและด้วยจำนวนค่าคงที่ที่กำหนดจากมัน ในความสัมพันธ์กับปัญหาที่กำลังศึกษา จำนวนระดับความเป็นอิสระควรแสดงจำนวนค่าเบี่ยงเบนอิสระจาก ปเป็นไปได้ที่จำเป็นในการสร้างผลรวมของกำลังสองที่กำหนด
การกระจายตัวต่อระดับความเป็นอิสระดี.
อัตราส่วน F (การทดสอบ F):
ถ้าสมมุติฐานว่างเป็นจริงแล้วตามด้วยแฟกทอเรียล และ ความแปรปรวนที่เหลือไม่แตกต่างกัน สำหรับ H 0 จำเป็นต้องมีการพิสูจน์เพื่อให้การกระจายตัวของปัจจัยเกินการกระจายตัวของสารตกค้างหลายครั้ง Snedekor นักสถิติชาวอังกฤษได้พัฒนาตารางค่าวิกฤต เอฟ-ความสัมพันธ์ในระดับความสำคัญต่างๆ สมมติฐานว่างและ ตัวเลขต่างๆระดับความอิสระ. ค่าตาราง เอฟ-เกณฑ์คือค่าสูงสุดของอัตราส่วนของความแปรปรวนที่สามารถเกิดขึ้นได้ในกรณีของความแตกต่างแบบสุ่มสำหรับ ระดับนี้ความน่าจะเป็นที่จะมีสมมติฐานว่าง ค่าที่คำนวณได้ เอฟ-ความสัมพันธ์จะถือว่าเชื่อถือได้ถ้า o มากกว่าตาราง
ในกรณีนี้ สมมติฐานว่างเกี่ยวกับการไม่มีความสัมพันธ์ระหว่างสัญญาณต่างๆ จะถูกปฏิเสธ และได้ข้อสรุปเกี่ยวกับความสำคัญของความสัมพันธ์นี้: F ข้อเท็จจริง > ตาราง F H 0 ถูกปฏิเสธ
หากค่าน้อยกว่าตาราง F ข้อเท็จจริง ‹, ตาราง Fดังนั้นความน่าจะเป็นของสมมติฐานว่างจะสูงกว่าระดับที่ระบุและไม่สามารถปฏิเสธได้หากไม่มีความเสี่ยงร้ายแรงในการสรุปข้อสรุปที่ผิดเกี่ยวกับการมีอยู่ของความสัมพันธ์ ในกรณีนี้ สมการการถดถอยถือว่าไม่มีนัยสำคัญทางสถิติ แต่เขาไม่เบี่ยงเบน
ค่าคลาดเคลื่อนมาตรฐานของสัมประสิทธิ์การถดถอย
เพื่อประเมินความสำคัญของสัมประสิทธิ์การถดถอย จะมีการเปรียบเทียบค่ากับค่าของมัน มาตรฐานบกพร่องนั่นคือมูลค่าที่แท้จริงถูกกำหนดไว้ ที-แบบทดสอบของนักเรียน: ซึ่งก็นำมาเปรียบเทียบกับ ค่าตารางในระดับนัยสำคัญและจำนวนระดับความเป็นอิสระ ( n- 2).
ข้อผิดพลาดของพารามิเตอร์มาตรฐาน ก:
ความสำคัญของค่าสัมประสิทธิ์สหสัมพันธ์เชิงเส้นได้รับการตรวจสอบตามขนาดของข้อผิดพลาด ค่าสัมประสิทธิ์สหสัมพันธ์ ทีอาร์:
ความแปรปรวนลักษณะรวม เอ็กซ์:
การถดถอยเชิงเส้นพหุคูณ
การสร้างแบบจำลอง
การถดถอยหลายครั้งแสดงถึงการถดถอยของเครื่องหมายผลลัพธ์ด้วยสองและ จำนวนมากปัจจัยต่างๆ เช่น รูปแบบของรูปแบบ
การถดถอยสามารถให้ได้ ผลลัพธ์ที่ดีเมื่อสร้างแบบจำลองหากสามารถละเลยอิทธิพลของปัจจัยอื่นที่ส่งผลต่อวัตถุประสงค์ของการศึกษาได้ ไม่สามารถควบคุมพฤติกรรมของตัวแปรทางเศรษฐกิจแต่ละรายการได้ กล่าวคือ ไม่สามารถรับประกันความเท่าเทียมกันของเงื่อนไขอื่น ๆ ทั้งหมดในการประเมินอิทธิพลของปัจจัยหนึ่งภายใต้การศึกษา ในกรณีนี้ คุณควรพยายามระบุอิทธิพลของปัจจัยอื่นๆ โดยการใส่เข้าไปในแบบจำลอง เช่น สร้างสมการ การถดถอยหลายครั้ง: y = a+b 1 x 1 +b 2 +…+b p x p + .
เป้าหมายหลักของการถดถอยพหุคูณคือการสร้างแบบจำลองที่มีปัจจัยจำนวนมาก ในขณะเดียวกันก็กำหนดอิทธิพลของปัจจัยแต่ละอย่างแยกกัน รวมถึงผลกระทบที่รวมกันต่อตัวบ่งชี้ที่เป็นแบบจำลอง ข้อกำหนดของแบบจำลองประกอบด้วยประเด็นสองช่วง ได้แก่ การเลือกปัจจัย และการเลือกประเภทของสมการการถดถอย
วิธีกำลังสองน้อยที่สุดใช้ในการประมาณค่าพารามิเตอร์ของสมการถดถอยวิธีหนึ่งในการศึกษาความสัมพันธ์แบบสุ่มระหว่างคุณลักษณะคือการวิเคราะห์การถดถอย
การวิเคราะห์การถดถอยคือที่มาของสมการการถดถอยที่ใช้ในการค้นหา ค่าเฉลี่ยตัวแปรสุ่ม (แอตทริบิวต์ผลลัพธ์) หากทราบค่าของตัวแปรอื่น (หรืออื่น ๆ ) (แอตทริบิวต์ปัจจัย) ประกอบด้วยขั้นตอนต่อไปนี้:
- การเลือกรูปแบบการสื่อสาร (ประเภท สมการวิเคราะห์การถดถอย);
- การประมาณค่าพารามิเตอร์สมการ
- การประเมินคุณภาพของสมการถดถอยเชิงวิเคราะห์
ในกรณีของความสัมพันธ์เชิงเส้นตรงแบบคู่ สมการการถดถอยจะอยู่ในรูปแบบ: y i =a+b·x i +u i ตัวเลือก สมการที่กำหนด a และ b เป็นค่าประมาณจากข้อมูล การสังเกตทางสถิติ x และ y ผลลัพธ์ของการประเมินดังกล่าวคือสมการ โดยที่ คือค่าประมาณของพารามิเตอร์ a และ b คือค่าของคุณลักษณะผลลัพธ์ (ตัวแปร) ที่ได้รับจากสมการการถดถอย (ค่าที่คำนวณได้)
ส่วนใหญ่มักใช้ในการประมาณค่าพารามิเตอร์ วิธีกำลังสองน้อยที่สุด (LSM)
วิธีกำลังสองน้อยที่สุดให้การประมาณค่าพารามิเตอร์ของสมการถดถอยที่ดีที่สุด (สม่ำเสมอ มีประสิทธิภาพ และไม่เอนเอียง) แต่เฉพาะในกรณีที่เป็นไปตามสมมติฐานบางประการเกี่ยวกับเทอมสุ่ม (u) และตัวแปรอิสระ (x) เท่านั้น (ดูสมมติฐาน OLS)
ปัญหาการประมาณค่าพารามิเตอร์เชิงเส้น สมการคู่วิธีกำลังสองน้อยที่สุดมีดังต่อไปนี้: เพื่อให้ได้ค่าประมาณของพารามิเตอร์ ซึ่งผลรวมของการเบี่ยงเบนกำลังสองของค่าที่แท้จริงของคุณลักษณะผลลัพธ์ - y ฉัน จากค่าที่คำนวณได้ - มีค่าน้อยที่สุด
อย่างเป็นทางการ การทดสอบโอแอลเอสสามารถเขียนได้ดังนี้: .
การจำแนกวิธีกำลังสองน้อยที่สุด
- วิธีกำลังสองน้อยที่สุด
- วิธีความน่าจะเป็นสูงสุด (สำหรับแบบจำลองการถดถอยเชิงเส้นแบบคลาสสิกปกติ จะถือว่าค่าปกติของค่าตกค้างของการถดถอย)
- วิธี OLS กำลังสองน้อยที่สุดทั่วไปใช้ในกรณีของความสัมพันธ์อัตโนมัติของข้อผิดพลาด และในกรณีของความแตกต่าง
- วิธีกำลังสองน้อยที่สุดแบบถ่วงน้ำหนัก ( กรณีพิเศษ OLS ที่มีสารตกค้างเฮเทอโรซีดาสติก)
เรามาอธิบายประเด็นกันดีกว่า วิธีกำลังสองน้อยที่สุดแบบคลาสสิกแบบกราฟิก. เพื่อสิ่งนี้เราจะสร้าง พล็อตกระจายตามข้อมูลเชิงสังเกต (x i , y i , i=1;n) ใน ระบบสี่เหลี่ยมพิกัด (จุดพล็อตดังกล่าวเรียกว่าฟิลด์สหสัมพันธ์) ลองเลือกเส้นตรงที่ใกล้กับจุดของฟิลด์สหสัมพันธ์มากที่สุด ตามวิธีกำลังสองน้อยที่สุด เส้นจะถูกเลือกเพื่อให้ผลรวมของกำลังสองของระยะทางแนวตั้งระหว่างจุดของเขตข้อมูลสหสัมพันธ์และเส้นนี้มีค่าน้อยที่สุด
สัญกรณ์ทางคณิตศาสตร์สำหรับปัญหานี้: .
เรารู้จักค่าของ y i และ x i =1...n ซึ่งเป็นข้อมูลเชิงสังเกต ในฟังก์ชัน S พวกมันแทนค่าคงที่ ตัวแปรในฟังก์ชันนี้เป็นค่าประมาณที่จำเป็นของพารามิเตอร์ - , ในการค้นหาฟังก์ชันขั้นต่ำของตัวแปรสองตัว จำเป็นต้องคำนวณอนุพันธ์ย่อยของฟังก์ชันนี้สำหรับแต่ละพารามิเตอร์และจัดให้เป็นศูนย์ เช่น .
เป็นผลให้เราได้ระบบ 2 ปกติ สมการเชิงเส้น:
กำลังตัดสินใจ ระบบนี้เราจะพบการประมาณค่าพารามิเตอร์ที่ต้องการ:
ความถูกต้องของการคำนวณพารามิเตอร์ของสมการถดถอยสามารถตรวจสอบได้โดยการเปรียบเทียบจำนวน (อาจมีความคลาดเคลื่อนบางประการเนื่องจากการปัดเศษของการคำนวณ)
ในการคำนวณค่าประมาณพารามิเตอร์ คุณสามารถสร้างตารางที่ 1 ได้
เครื่องหมายของสัมประสิทธิ์การถดถอย b บ่งบอกถึงทิศทางของความสัมพันธ์ (ถ้า b >0 ความสัมพันธ์จะเป็นทางตรง ถ้า b<0, то связь обратная). Величина b показывает на сколько единиц изменится в среднем признак-результат -y при изменении признака-фактора - х на 1 единицу своего измерения.
อย่างเป็นทางการ ค่าของพารามิเตอร์ a คือค่าเฉลี่ยของ y โดยที่ x เท่ากับศูนย์ หากแอตทริบิวต์-ปัจจัยไม่มีและไม่สามารถมีค่าเป็นศูนย์ได้ การตีความพารามิเตอร์ a ข้างต้นก็ไม่สมเหตุสมผล
การประเมินความใกล้ชิดของความสัมพันธ์ระหว่างคุณลักษณะ
ดำเนินการโดยใช้สัมประสิทธิ์สหสัมพันธ์เชิงเส้นคู่ - r x,y สามารถคำนวณได้โดยใช้สูตร: . นอกจากนี้ ค่าสัมประสิทธิ์สหสัมพันธ์คู่เชิงเส้นสามารถหาได้จากค่าสัมประสิทธิ์การถดถอย b: .
ช่วงของค่าที่ยอมรับได้ของค่าสัมประสิทธิ์สหสัมพันธ์เชิงเส้นคือตั้งแต่ –1 ถึง +1 สัญลักษณ์ของค่าสัมประสิทธิ์สหสัมพันธ์บ่งบอกถึงทิศทางของความสัมพันธ์ ถ้า r x, y >0 แสดงว่าการเชื่อมต่อเป็นแบบตรง ถ้า r x, y<0, то связь обратная.
หากสัมประสิทธิ์นี้ใกล้เคียงกับความสามัคคีในขนาด ความสัมพันธ์ระหว่างคุณลักษณะต่างๆ ก็สามารถตีความได้ว่าเป็นความสัมพันธ์เชิงเส้นที่ค่อนข้างใกล้เคียงกัน หากโมดูลมีค่าเท่ากับหนึ่ง ê r x , y ê =1 ความสัมพันธ์ระหว่างคุณลักษณะต่างๆ จะเป็นเชิงเส้นเชิงฟังก์ชัน หากจุดสนใจ x และ y มีความเป็นอิสระเชิงเส้น ดังนั้น r x,y จะใกล้เคียงกับ 0
ในการคำนวณ r x,y คุณสามารถใช้ตารางที่ 1 ได้เช่นกัน
ตารางที่ 1
ไม่มีข้อสังเกต | x ฉัน | ใช่แล้ว | x ฉัน ∙y ฉัน | ||
1 | x1 | คุณ 1 | x 1 ปี 1 | ||
2 | x2 | คุณ 2 | x 2 ปี 2 | ||
... | |||||
n | เอ็กซ์เอ็น | ใช่ | x ไม่ ใช่ | ||
ผลรวมคอลัมน์ | ∑x | ∑ใช่ | ∑xy | ||
ค่าเฉลี่ย |
,
โดยที่ d 2 คือความแปรปรวนของ y อธิบายโดยสมการถดถอย
e 2 - ความแปรปรวนของ y ที่เหลือ (ไม่ได้อธิบายโดยสมการถดถอย)
s 2 y - ผลต่างรวม (ทั้งหมด) ของ y
ค่าสัมประสิทธิ์การกำหนดลักษณะสัดส่วนของความแปรผัน (การกระจายตัว) ของคุณลักษณะผลลัพธ์ y อธิบายโดยการถดถอย (และด้วยเหตุนี้ ตัวประกอบ x) ในรูปแบบรวม (การกระจายตัว) y ค่าสัมประสิทธิ์การกำหนด R 2 yx ใช้ค่าตั้งแต่ 0 ถึง 1 ดังนั้นค่า 1-R 2 yx จะแสดงลักษณะของสัดส่วนของความแปรปรวน y ที่เกิดจากอิทธิพลของปัจจัยอื่น ๆ ที่ไม่ได้คำนึงถึงในแบบจำลองและข้อผิดพลาดของข้อกำหนด
ด้วยการถดถอยเชิงเส้นคู่ R 2 yx = r 2 yx
100 รูเบิลโบนัสสำหรับการสั่งซื้อครั้งแรก
เลือกประเภทงาน งานอนุปริญญา งานหลักสูตร บทคัดย่อ วิทยานิพนธ์ระดับปริญญาโท รายงานการปฏิบัติ บทความ รายงาน ทบทวน งานทดสอบ เอกสาร การแก้ปัญหา แผนธุรกิจ คำตอบสำหรับคำถาม งานสร้างสรรค์ การเขียนเรียงความ การเขียนเรียงความ การแปล การนำเสนอ การพิมพ์ อื่น ๆ การเพิ่มเอกลักษณ์ของข้อความ วิทยานิพนธ์ปริญญาโท งานห้องปฏิบัติการ ความช่วยเหลือออนไลน์
ค้นหาราคา
วิธีกำลังสองน้อยที่สุดเป็นเทคนิคทางคณิตศาสตร์ (ทางคณิตศาสตร์-สถิติ) ที่ใช้ในการจัดลำดับอนุกรมเวลา ระบุรูปแบบของความสัมพันธ์ระหว่างตัวแปรสุ่ม ฯลฯ ประกอบด้วยข้อเท็จจริงที่ว่าฟังก์ชันที่อธิบายปรากฏการณ์ที่กำหนดนั้นประมาณด้วยฟังก์ชันที่ง่ายกว่า ยิ่งไปกว่านั้น ค่าหลังถูกเลือกในลักษณะที่ค่าเบี่ยงเบนมาตรฐาน (ดูการกระจายตัว) ของระดับที่แท้จริงของฟังก์ชันที่จุดที่สังเกตได้จากค่าที่อยู่ในแนวเดียวกันนั้นมีค่าน้อยที่สุด
ตัวอย่างเช่นตามข้อมูลที่มีอยู่ ( ซี,ยี่) (ฉัน = 1, 2, ..., n) เส้นโค้งดังกล่าวถูกสร้างขึ้น ย = ก + บีเอ็กซ์ซึ่งจะได้ผลรวมขั้นต่ำของการเบี่ยงเบนกำลังสอง
กล่าวคือ ฟังก์ชันที่ขึ้นอยู่กับพารามิเตอร์สองตัวจะถูกย่อให้เล็กสุด: ก- ส่วนบนแกนกำหนดและ ข- ความชันของเส้นตรง
สมการที่ให้เงื่อนไขที่จำเป็นสำหรับการลดฟังก์ชัน ส(ก,ข) เรียกว่า สมการปกติในการประมาณฟังก์ชันนั้น ไม่เพียงแต่ใช้เชิงเส้น (การจัดแนวตามเส้นตรง) แต่ยังใช้กำลังสอง พาราโบลา เอ็กซ์โปเนนเชียล ฯลฯ ด้วย สำหรับตัวอย่างการจัดอนุกรมเวลาตามแนวเส้นตรง โปรดดูรูป ม.2 โดยที่ผลรวมของระยะยกกำลังสอง ( ย 1 – ų 1)2 + (ย 2 – ų 2)2 .... มีค่าน้อยที่สุด และเส้นตรงที่ได้จะสะท้อนแนวโน้มของชุดการสังเกตแบบไดนามิกของตัวบ่งชี้บางตัวเมื่อเวลาผ่านไปได้ดีที่สุด
สำหรับการประมาณค่า OLS ที่เป็นกลาง มีความจำเป็นและเพียงพอในการตอบสนองเงื่อนไขที่สำคัญที่สุดของการวิเคราะห์การถดถอย: ความคาดหวังทางคณิตศาสตร์ของข้อผิดพลาดแบบสุ่มตามเงื่อนไขของปัจจัย จะต้องเท่ากับศูนย์ โดยเฉพาะอย่างยิ่งจะตรงตามเงื่อนไขนี้หาก: 1.ความคาดหวังทางคณิตศาสตร์ของข้อผิดพลาดแบบสุ่มเป็นศูนย์ และ 2.ปัจจัยและข้อผิดพลาดแบบสุ่มเป็นตัวแปรสุ่มอิสระ เงื่อนไขแรกสามารถถือว่าเป็นไปตามเงื่อนไขเสมอสำหรับโมเดลที่มีค่าคงที่ เนื่องจากค่าคงที่นั้นใช้การคาดการณ์ข้อผิดพลาดทางคณิตศาสตร์ที่ไม่เป็นศูนย์ เงื่อนไขที่สอง - เงื่อนไขของปัจจัยภายนอก - เป็นเงื่อนไขพื้นฐาน หากไม่ตรงตามคุณสมบัตินี้ เราสามารถสรุปได้ว่าการประมาณการเกือบทั้งหมดจะไม่เป็นที่น่าพอใจอย่างยิ่ง โดยจะไม่สอดคล้องกันด้วยซ้ำ (นั่นคือ แม้แต่ข้อมูลจำนวนมากก็ไม่อนุญาตให้เรารับการประมาณการคุณภาพสูงในกรณีนี้ ).
วิธีการประมาณค่าพารามิเตอร์ของสมการถดถอยทางสถิติที่ใช้กันมากที่สุดคือวิธีกำลังสองน้อยที่สุด วิธีการนี้ตั้งอยู่บนสมมติฐานหลายประการเกี่ยวกับลักษณะของข้อมูลและผลลัพธ์ของแบบจำลอง สิ่งสำคัญคือการแบ่งที่ชัดเจนของตัวแปรดั้งเดิมเป็นแบบขึ้นอยู่กับและอิสระ, ความไม่สัมพันธ์กันของปัจจัยที่รวมอยู่ในสมการ, ความเป็นเส้นตรงของความสัมพันธ์, การไม่มีความสัมพันธ์อัตโนมัติของส่วนที่เหลือ, ความเท่าเทียมกันของความคาดหวังทางคณิตศาสตร์ของพวกเขาเป็นศูนย์และค่าคงที่ การกระจายตัว
หนึ่งในสมมติฐานหลักของ OLS คือการสันนิษฐานของความเท่าเทียมกันของความแปรปรวนของการเบี่ยงเบน เช่น สเปรดรอบค่าเฉลี่ย (ศูนย์) ของซีรีย์ควรเป็นค่าคงที่ คุณสมบัตินี้เรียกว่าการรักร่วมเพศ ในทางปฏิบัติความแปรปรวนของการเบี่ยงเบนมักจะไม่เท่ากันนั่นคือสังเกตจากความเบี่ยงเบนที่แตกต่างกัน นี่อาจเป็นเพราะสาเหตุหลายประการ ตัวอย่างเช่น อาจมีข้อผิดพลาดในแหล่งข้อมูล ข้อมูลต้นฉบับที่ไม่ถูกต้องเป็นครั้งคราว เช่น ข้อผิดพลาดในลำดับตัวเลข อาจมีผลกระทบอย่างมีนัยสำคัญต่อผลลัพธ์ บ่อยครั้งที่การแพร่กระจายของการเบี่ยงเบนที่มากขึ้น єi ถูกสังเกตด้วยค่าขนาดใหญ่ของตัวแปรตาม (ตัวแปร) หากข้อมูลมีข้อผิดพลาดที่สำคัญ ค่าเบี่ยงเบนของค่าโมเดลที่คำนวณจากข้อมูลที่ผิดพลาดก็จะมีมากเช่นกัน เพื่อกำจัดข้อผิดพลาดนี้ เราจำเป็นต้องลดการมีส่วนร่วมของข้อมูลนี้ในผลการคำนวณ โดยให้น้ำหนักกับข้อมูลเหล่านี้น้อยกว่าข้อมูลอื่นๆ ทั้งหมด แนวคิดนี้ถูกนำไปใช้ใน OLS แบบถ่วงน้ำหนัก