ชีวประวัติ ลักษณะเฉพาะ การวิเคราะห์

คำตอบของกำลังสองน้อยที่สุด OLS ในกรณีของโมเดลเชิงเส้น

ตัวอย่าง.

ข้อมูลการทดลองเกี่ยวกับค่าของตัวแปร เอ็กซ์และ ที่จะได้รับในตาราง

จากการจัดตำแหน่ง ทำให้ได้ฟังก์ชันมา

โดยใช้ วิธี กำลังสองน้อยที่สุด ประมาณข้อมูลเหล่านี้ด้วยการพึ่งพาเชิงเส้น y=ขวาน+ข(ค้นหาพารามิเตอร์ และ ). ค้นหาว่าบรรทัดใดในสองบรรทัดที่ดีกว่า (ในแง่ของวิธีกำลังสองน้อยที่สุด) เพื่อจัดแนวข้อมูลการทดลอง วาดรูป.

สาระสำคัญของวิธีกำลังสองน้อยที่สุด (LSM)

ภารกิจคือการหาค่าสัมประสิทธิ์การพึ่งพาเชิงเส้นซึ่งเป็นฟังก์ชันของตัวแปรสองตัว และ ยอมรับ ค่าที่น้อยที่สุด. นั่นคือให้ และ ผลรวมของการเบี่ยงเบนกำลังสองของข้อมูลการทดลองจากเส้นตรงที่พบจะน้อยที่สุด นี่คือจุดรวมของวิธีกำลังสองน้อยที่สุด

ดังนั้น การแก้ปัญหาตัวอย่างจึงต้องหาจุดสิ้นสุดของฟังก์ชันของตัวแปรสองตัว

สูตรการหาค่าสัมประสิทธิ์

ระบบสมการสองสมการที่ไม่ทราบค่าสองตัวจะถูกรวบรวมและแก้ไข การหาอนุพันธ์ย่อยของฟังก์ชัน โดยตัวแปร และ , เราเปรียบอนุพันธ์เหล่านี้ให้เป็นศูนย์

เราแก้ระบบสมการผลลัพธ์โดยใช้วิธีใดก็ได้ (เช่น โดยวิธีทดแทนหรือ วิธีการของแครมเมอร์) และรับสูตรสำหรับการค้นหาสัมประสิทธิ์โดยใช้วิธีกำลังสองน้อยที่สุด (LSM)

ที่ให้ไว้ และ การทำงาน ใช้ค่าที่น้อยที่สุด มีการให้หลักฐานข้อเท็จจริงนี้ ด้านล่างในข้อความท้ายหน้า.

นั่นคือวิธีทั้งหมดของกำลังสองน้อยที่สุด สูตรการหาพารามิเตอร์ มีผลรวม ,, และพารามิเตอร์ n- จำนวนข้อมูลการทดลอง เราขอแนะนำให้คำนวณค่าของจำนวนเงินเหล่านี้แยกกัน ค่าสัมประสิทธิ์ พบได้หลังการคำนวณ .

ถึงเวลาจำตัวอย่างดั้งเดิมแล้ว

สารละลาย.

ในตัวอย่างของเรา n=5. เรากรอกตารางเพื่อความสะดวกในการคำนวณจำนวนเงินที่รวมอยู่ในสูตรของค่าสัมประสิทธิ์ที่ต้องการ

ค่าในแถวที่สี่ของตารางได้มาจากการคูณค่าของแถวที่ 2 ด้วยค่าของแถวที่ 3 สำหรับแต่ละตัวเลข ฉัน.

ค่าในแถวที่ห้าของตารางได้มาจากการยกกำลังสองค่าในแถวที่ 2 สำหรับแต่ละตัวเลข ฉัน.

ค่าในคอลัมน์สุดท้ายของตารางคือผลรวมของค่าระหว่างแถว

เราใช้สูตรวิธีกำลังสองน้อยที่สุดเพื่อหาค่าสัมประสิทธิ์ และ . เราแทนที่ค่าที่เกี่ยวข้องจากคอลัมน์สุดท้ายของตารางลงไป:

เพราะฉะนั้น, y = 0.165x+2.184- เส้นตรงโดยประมาณที่ต้องการ

มันยังคงค้นหาว่าบรรทัดไหน y = 0.165x+2.184หรือ ประมาณข้อมูลเดิมได้ดีขึ้น กล่าวคือ ประมาณการโดยใช้วิธีกำลังสองน้อยที่สุด

การประมาณค่าความผิดพลาดของวิธีกำลังสองน้อยที่สุด

ในการทำเช่นนี้ คุณต้องคำนวณผลรวมของการเบี่ยงเบนกำลังสองของข้อมูลต้นฉบับจากเส้นเหล่านี้ และ ค่าที่น้อยกว่าจะสัมพันธ์กับเส้นที่ประมาณข้อมูลต้นฉบับได้ดีกว่าในแง่ของวิธีกำลังสองน้อยที่สุด

ตั้งแต่นั้นมาตรง y = 0.165x+2.184ใกล้เคียงกับข้อมูลเดิมดีกว่า

ภาพประกอบกราฟิกของวิธีกำลังสองน้อยที่สุด (LS)

ทุกอย่างมองเห็นได้ชัดเจนบนกราฟ เส้นสีแดงคือเส้นตรงที่พบ y = 0.165x+2.184, เส้นสีน้ำเงินคือ จุดสีชมพูคือข้อมูลต้นฉบับ

ในทางปฏิบัติเมื่อสร้างแบบจำลองกระบวนการต่าง ๆ โดยเฉพาะอย่างยิ่งทางเศรษฐกิจ กายภาพ เทคนิค สังคม - วิธีการหนึ่งหรือวิธีอื่นในการคำนวณค่าโดยประมาณของฟังก์ชันจากค่าที่ทราบที่จุดคงที่นั้นมีการใช้กันอย่างแพร่หลาย

ปัญหาการประมาณฟังก์ชันประเภทนี้มักเกิดขึ้น:

    เมื่อสร้างสูตรโดยประมาณสำหรับการคำนวณค่าของปริมาณลักษณะเฉพาะของกระบวนการภายใต้การศึกษาโดยใช้ข้อมูลแบบตารางที่ได้รับจากการทดลอง

    ในการปริพันธ์เชิงตัวเลข การหาอนุพันธ์ การแก้ปัญหา สมการเชิงอนุพันธ์ฯลฯ.;

    หากจำเป็นให้คำนวณค่าของฟังก์ชันที่จุดกึ่งกลางของช่วงเวลาที่พิจารณา

    เมื่อกำหนดค่าของปริมาณลักษณะเฉพาะของกระบวนการที่อยู่นอกช่วงเวลาที่พิจารณา โดยเฉพาะอย่างยิ่งเมื่อคาดการณ์

หากในการสร้างแบบจำลองกระบวนการบางอย่างที่ระบุโดยตาราง เราสร้างฟังก์ชันที่ประมาณอธิบายกระบวนการนี้โดยอาศัยวิธีกำลังสองน้อยที่สุด ฟังก์ชันดังกล่าวจะเรียกว่าฟังก์ชันการประมาณ (การถดถอย) และงานสร้างฟังก์ชันการประมาณจะถูกเรียกว่า ปัญหาการประมาณ

บทความนี้กล่าวถึงความสามารถของแพ็คเกจ MS Excel ในการแก้ปัญหาประเภทนี้ นอกจากนี้ยังมีวิธีการและเทคนิคในการสร้าง (สร้าง) การถดถอยสำหรับฟังก์ชันแบบตาราง (ซึ่งเป็นพื้นฐานของการวิเคราะห์การถดถอย)

Excel มีสองตัวเลือกสำหรับการสร้างการถดถอย

    การเพิ่มการถดถอยที่เลือก ( เส้นแนวโน้ม- เส้นแนวโน้ม) ลงในไดอะแกรมที่สร้างขึ้นบนพื้นฐานของตารางข้อมูลสำหรับลักษณะกระบวนการภายใต้การศึกษา (ใช้ได้เฉพาะในกรณีที่มีไดอะแกรมที่สร้างขึ้น)

    การใช้ฟังก์ชันทางสถิติในตัวของแผ่นงาน Excel ช่วยให้คุณสามารถรับการถดถอย (เส้นแนวโน้ม) ได้โดยตรงจากตารางข้อมูลต้นฉบับ

การเพิ่มเส้นแนวโน้มลงในแผนภูมิ

สำหรับตารางข้อมูลที่อธิบายกระบวนการและแสดงด้วยไดอะแกรม Excel มีเครื่องมือวิเคราะห์การถดถอยที่มีประสิทธิภาพซึ่งช่วยให้คุณ:

    สร้างโดยใช้วิธีกำลังสองน้อยที่สุดและเพิ่มห้าลงในไดอะแกรม ประเภทของการถดถอยซึ่งเป็นแบบจำลองกระบวนการภายใต้การศึกษาด้วยระดับความแม่นยำที่แตกต่างกัน

    เพิ่มสมการถดถอยที่สร้างขึ้นลงในแผนภาพ

    กำหนดระดับความสอดคล้องของการถดถอยที่เลือกกับข้อมูลที่แสดงบนแผนภูมิ

จากข้อมูลแผนภูมิ Excel ช่วยให้คุณได้รับประเภทการถดถอยเชิงเส้น พหุนาม ลอการิทึม กำลัง และเลขชี้กำลัง ซึ่งระบุโดยสมการ:

ย = ย(x)

โดยที่ x เป็นตัวแปรอิสระที่มักจะรับค่าของลำดับของจำนวนธรรมชาติ (1; 2; 3; ...) และสร้างตัวอย่างเช่นการนับถอยหลังของเวลาของกระบวนการที่กำลังศึกษา (ลักษณะ)

1 . การถดถอยเชิงเส้นเป็นสิ่งที่ดีสำหรับลักษณะการสร้างแบบจำลองที่มีค่าเพิ่มขึ้นหรือลดลงในอัตราคงที่ นี่เป็นแบบจำลองที่ง่ายที่สุดในการสร้างสำหรับกระบวนการที่กำลังศึกษาอยู่ มันถูกสร้างขึ้นตามสมการ:

y = mx + ข

โดยที่ m คือแทนเจนต์ของมุมเอียง การถดถอยเชิงเส้นถึงแกนแอบซิสซา b - พิกัดของจุดตัดของการถดถอยเชิงเส้นกับแกนพิกัด

2 . เส้นแนวโน้มพหุนามมีประโยชน์สำหรับการอธิบายคุณลักษณะที่มีความสุดขั้วที่แตกต่างกันหลายประการ (ค่าสูงสุดและค่าต่ำสุด) การเลือกระดับพหุนามจะพิจารณาจากจำนวนสุดขั้วของลักษณะเฉพาะที่กำลังศึกษา ดังนั้น พหุนามดีกรีที่สองจึงสามารถอธิบายกระบวนการที่มีค่าสูงสุดหรือต่ำสุดเพียงค่าเดียวเท่านั้น พหุนามของระดับที่สาม - ไม่เกินสองสุดขั้ว; พหุนามของระดับที่สี่ - ไม่เกินสาม extrema เป็นต้น

ในกรณีนี้ เส้นแนวโน้มจะถูกสร้างขึ้นตามสมการ:

y = c0 + c1x + c2x2 + c3x3 + c4x4 + c5x5 + c6x6

โดยที่ค่าสัมประสิทธิ์ c0, c1, c2,... c6 เป็นค่าคงที่ซึ่งมีการกำหนดค่าระหว่างการก่อสร้าง

3 . เส้นแนวโน้มลอการิทึมถูกนำมาใช้อย่างประสบความสำเร็จเมื่อสร้างแบบจำลองคุณลักษณะที่มีค่าเริ่มแรกเปลี่ยนแปลงอย่างรวดเร็วจากนั้นจึงค่อย ๆ มีเสถียรภาพ

y = ค ln(x) + ข

4 . เส้นแนวโน้มกฎอำนาจให้ผลลัพธ์ที่ดีหากค่าของความสัมพันธ์ภายใต้การศึกษามีลักษณะเฉพาะด้วยการเปลี่ยนแปลงอัตราการเติบโตอย่างต่อเนื่อง ตัวอย่างของการพึ่งพาอาศัยกันคือกราฟของการเคลื่อนที่ด้วยความเร่งสม่ำเสมอของรถ หากข้อมูลมีศูนย์หรือ ค่าลบคุณไม่สามารถใช้เส้นแนวโน้มกำลังได้

สร้างตามสมการ:

y = ค xb

โดยที่สัมประสิทธิ์ b, c เป็นค่าคงที่

5 . ควรใช้เส้นแนวโน้มเอ็กซ์โพเนนเชียลเมื่ออัตราการเปลี่ยนแปลงข้อมูลเพิ่มขึ้นอย่างต่อเนื่อง สำหรับข้อมูลที่มีค่าเป็นศูนย์หรือค่าลบ การประมาณประเภทนี้จะใช้ไม่ได้เช่นกัน

สร้างตามสมการ:

y = ค ebx

โดยที่สัมประสิทธิ์ b, c เป็นค่าคงที่

เมื่อเลือกเส้นแนวโน้ม Excel จะคำนวณค่า R2 โดยอัตโนมัติซึ่งจะระบุลักษณะความน่าเชื่อถือของการประมาณ: ยิ่งค่า R2 ใกล้ถึงเอกภาพมากเท่าใด เส้นแนวโน้มก็จะประมาณกระบวนการที่กำลังศึกษาได้อย่างน่าเชื่อถือมากขึ้นเท่านั้น หากจำเป็น ค่า R2 สามารถแสดงบนแผนภูมิได้ตลอดเวลา

กำหนดโดยสูตร:

หากต้องการเพิ่มเส้นแนวโน้มลงในชุดข้อมูล:

    เปิดใช้งานแผนภูมิตามชุดข้อมูล เช่น คลิกภายในพื้นที่แผนภูมิ รายการไดอะแกรมจะปรากฏในเมนูหลัก

    หลังจากคลิกที่รายการนี้ เมนูจะปรากฏขึ้นบนหน้าจอซึ่งคุณควรเลือกคำสั่งเพิ่มเส้นแนวโน้ม

การดำเนินการเดียวกันนี้สามารถนำไปใช้ได้อย่างง่ายดายโดยเลื่อนตัวชี้เมาส์ไปเหนือกราฟที่สอดคล้องกับชุดข้อมูลชุดใดชุดหนึ่งแล้วคลิกขวา ในเมนูบริบทที่ปรากฏขึ้น ให้เลือกคำสั่งเพิ่มเส้นแนวโน้ม กล่องโต้ตอบเส้นแนวโน้มจะปรากฏขึ้นบนหน้าจอโดยเปิดแท็บประเภทไว้ (รูปที่ 1)

หลังจากนี้คุณจะต้อง:

เลือกประเภทเส้นแนวโน้มที่ต้องการบนแท็บประเภท (ประเภทเชิงเส้นจะถูกเลือกตามค่าเริ่มต้น) สำหรับประเภทพหุนาม ในฟิลด์ องศา ให้ระบุระดับของพหุนามที่เลือก

1 . ช่องสร้างบนซีรีส์จะแสดงชุดข้อมูลทั้งหมดในแผนภูมิที่ต้องการ หากต้องการเพิ่มเส้นแนวโน้มให้กับชุดข้อมูลเฉพาะ ให้เลือกชื่อในช่องสร้างบนชุดข้อมูล

หากจำเป็น โดยไปที่แท็บพารามิเตอร์ (รูปที่ 2) คุณสามารถตั้งค่าพารามิเตอร์ต่อไปนี้สำหรับเส้นแนวโน้ม:

    เปลี่ยนชื่อเส้นแนวโน้มในชื่อของฟิลด์เส้นโค้งโดยประมาณ (เรียบ)

    กำหนดจำนวนงวด (ไปข้างหน้าหรือข้างหลัง) สำหรับการพยากรณ์ในช่องพยากรณ์

    แสดงสมการของเส้นแนวโน้มในพื้นที่ไดอะแกรม ซึ่งคุณควรเปิดใช้งานการแสดงสมการบนกล่องกาเครื่องหมายไดอะแกรม

    แสดงค่าความน่าเชื่อถือของการประมาณ R2 ในพื้นที่ไดอะแกรม ซึ่งคุณควรเปิดใช้งานช่องทำเครื่องหมาย วางค่าความน่าเชื่อถือของการประมาณบนไดอะแกรม (R^2)

    ตั้งค่าจุดตัดของเส้นแนวโน้มด้วยแกน Y ซึ่งคุณควรเปิดใช้งานช่องทำเครื่องหมายสำหรับจุดตัดของเส้นโค้งโดยมีแกน Y อยู่ที่จุด

    คลิกปุ่มตกลงเพื่อปิดกล่องโต้ตอบ

ในการเริ่มแก้ไขเส้นแนวโน้มที่วาดไว้แล้ว มีสามวิธี:

    ใช้คำสั่งเส้นแนวโน้มที่เลือกจากเมนูรูปแบบ โดยเลือกเส้นแนวโน้มไว้ก่อนหน้านี้

    เลือกคำสั่งจัดรูปแบบเส้นแนวโน้มจากเมนูบริบท ซึ่งเรียกขึ้นมาโดยการคลิกขวาที่เส้นแนวโน้ม

    ดับเบิลคลิกที่เส้นแนวโน้ม

กล่องโต้ตอบรูปแบบเส้นแนวโน้มจะปรากฏบนหน้าจอ (รูปที่ 3) ซึ่งมีสามแท็บ: มุมมอง ประเภท พารามิเตอร์ และเนื้อหาของสองแท็บสุดท้ายตรงกับแท็บที่คล้ายกันของกล่องโต้ตอบเส้นแนวโน้ม (รูปที่ 1 -2) บนแท็บมุมมอง คุณสามารถตั้งค่าประเภทของเส้น สี และความหนาได้

หากต้องการลบเส้นแนวโน้มที่วาดไว้แล้ว ให้เลือกเส้นแนวโน้มที่จะลบแล้วกดปุ่ม Delete

ข้อดีของเครื่องมือวิเคราะห์การถดถอยที่พิจารณาคือ:

    ความง่ายในการสร้างเส้นแนวโน้มบนแผนภูมิโดยไม่ต้องสร้างตารางข้อมูล

    รายการประเภทเส้นแนวโน้มที่นำเสนอที่ค่อนข้างกว้าง และรายการนี้รวมถึงประเภทการถดถอยที่ใช้บ่อยที่สุด

    ความสามารถในการทำนายพฤติกรรมของกระบวนการที่กำลังศึกษาในระดับใดก็ได้ (ภายใน การใช้ความคิดเบื้องต้น) จำนวนก้าวเดินหน้าและถอยหลัง;

    ความสามารถในการรับสมการเส้นแนวโน้มในรูปแบบการวิเคราะห์

    ความเป็นไปได้ (หากจำเป็น) ในการประเมินความน่าเชื่อถือของการประมาณ

ข้อเสียมีดังต่อไปนี้:

    การสร้างเส้นแนวโน้มจะดำเนินการเฉพาะในกรณีที่มีไดอะแกรมที่สร้างขึ้นจากชุดข้อมูล

    กระบวนการสร้างชุดข้อมูลสำหรับคุณลักษณะภายใต้การศึกษาตามสมการเส้นแนวโน้มที่ได้รับนั้นค่อนข้างยุ่งเหยิง: สมการการถดถอยที่ต้องการจะได้รับการอัปเดตพร้อมกับการเปลี่ยนแปลงแต่ละครั้งในค่าของชุดข้อมูลดั้งเดิม แต่เฉพาะภายในพื้นที่แผนภูมิเท่านั้น ในขณะที่ชุดข้อมูลที่สร้างขึ้นบนพื้นฐานของแนวโน้มสมการเส้นเก่ายังคงไม่เปลี่ยนแปลง

    ในรายงาน PivotChart การเปลี่ยนมุมมองของแผนภูมิหรือรายงาน PivotTable ที่เกี่ยวข้องจะไม่รักษาเส้นแนวโน้มที่มีอยู่ ซึ่งหมายความว่าก่อนที่คุณจะวาดเส้นแนวโน้มหรือจัดรูปแบบรายงาน PivotChart คุณควรตรวจสอบให้แน่ใจว่าเค้าโครงรายงานตรงตามข้อกำหนดที่จำเป็น

เส้นแนวโน้มสามารถใช้เพื่อเสริมชุดข้อมูลที่แสดงบนแผนภูมิ เช่น กราฟ ฮิสโตแกรม แผนภูมิพื้นที่ที่ไม่เป็นมาตรฐานแบบเรียบ แผนภูมิแท่ง แผนภูมิกระจาย แผนภูมิฟอง และแผนภูมิหุ้น

คุณไม่สามารถเพิ่มเส้นแนวโน้มลงในชุดข้อมูลในรูปแบบ 3 มิติ แผนภูมิปกติ แผนภูมิเรดาร์ แผนภูมิวงกลม และแผนภูมิโดนัทได้

การใช้ฟังก์ชันในตัวของ Excel

Excel ยังมีเครื่องมือวิเคราะห์การถดถอยสำหรับการวางแผนเส้นแนวโน้มนอกพื้นที่แผนภูมิ มีฟังก์ชันเวิร์กชีททางสถิติจำนวนหนึ่งที่คุณสามารถใช้เพื่อจุดประสงค์นี้ได้ แต่ฟังก์ชันทั้งหมดอนุญาตให้คุณสร้างการถดถอยเชิงเส้นหรือเอ็กซ์โพเนนเชียลเท่านั้น

Excel มีฟังก์ชันหลายอย่างสำหรับสร้างการถดถอยเชิงเส้น โดยเฉพาะ:

    แนวโน้ม;

  • ความลาดชันและการตัด

เช่นเดียวกับฟังก์ชันต่างๆ มากมายสำหรับการสร้างเส้นแนวโน้มเอ็กซ์โพเนนเชียล โดยเฉพาะ:

    LGRFRIBL.

ควรสังเกตว่าเทคนิคในการสร้างการถดถอยโดยใช้ฟังก์ชัน TREND และ GROWTH เกือบจะเหมือนกัน สิ่งเดียวกันอาจกล่าวได้เกี่ยวกับคู่ของฟังก์ชัน LINEST และ LGRFPRIBL สำหรับฟังก์ชันทั้งสี่นี้ การสร้างตารางค่าจะใช้ฟีเจอร์ของ Excel เช่น สูตรอาร์เรย์ ซึ่งทำให้กระบวนการสร้างการถดถอยค่อนข้างเกะกะ โปรดทราบว่าในความคิดของเรา การสร้างการถดถอยเชิงเส้นนั้นทำได้ง่ายที่สุดโดยใช้ฟังก์ชัน SLOPE และ INTERCEPT โดยที่ฟังก์ชันแรกจะกำหนดความชันของการถดถอยเชิงเส้น และฟังก์ชันที่สองจะกำหนดส่วนที่ถูกดักจับโดยการถดถอยบน แกน y

ข้อดีของเครื่องมือฟังก์ชันในตัวสำหรับการวิเคราะห์การถดถอยคือ:

    กระบวนการที่ค่อนข้างง่ายและสม่ำเสมอในการสร้างชุดข้อมูลของคุณลักษณะภายใต้การศึกษาสำหรับฟังก์ชันทางสถิติในตัวทั้งหมดที่กำหนดเส้นแนวโน้ม

    วิธีการมาตรฐานสำหรับการสร้างเส้นแนวโน้มตามชุดข้อมูลที่สร้างขึ้น

    ความสามารถในการทำนายพฤติกรรมของกระบวนการที่กำลังศึกษาอยู่ จำนวนที่ต้องการก้าวไปข้างหน้าหรือถอยหลัง

ข้อเสียรวมถึงข้อเท็จจริงที่ว่า Excel ไม่มีฟังก์ชันในตัวสำหรับการสร้างเส้นแนวโน้มประเภทอื่นๆ (ยกเว้นเชิงเส้นและเลขชี้กำลัง) สถานการณ์นี้มักไม่อนุญาตให้เลือกแบบจำลองกระบวนการที่กำลังศึกษาที่แม่นยำเพียงพอ รวมถึงการคาดการณ์ที่ใกล้เคียงกับความเป็นจริง นอกจากนี้ เมื่อใช้ฟังก์ชัน TREND และ GROWTH จะไม่ทราบสมการของเส้นแนวโน้ม

ควรสังเกตว่าผู้เขียนไม่ได้กำหนดที่จะนำเสนอหลักสูตรการวิเคราะห์การถดถอยด้วยความสมบูรณ์ในระดับใด หน้าที่หลักคือการแสดงความสามารถของแพ็คเกจ Excel โดยใช้ตัวอย่างเฉพาะเมื่อแก้ไขปัญหาการประมาณ สาธิตเครื่องมือที่มีประสิทธิภาพที่ Excel มีในการสร้างการถดถอยและการคาดการณ์ แสดงให้เห็นว่าปัญหาดังกล่าวสามารถแก้ไขได้ค่อนข้างง่ายแม้โดยผู้ใช้ที่ไม่มีความรู้กว้างขวางเกี่ยวกับการวิเคราะห์การถดถอย

ตัวอย่างการแก้ปัญหาเฉพาะ

มาดูการแก้ปัญหาเฉพาะโดยใช้เครื่องมือ Excel ที่ระบุไว้

ปัญหาที่ 1

พร้อมตารางข้อมูลเกี่ยวกับผลกำไรขององค์กรขนส่งยานยนต์ปี 2538-2545 คุณต้องทำสิ่งต่อไปนี้:

    สร้างไดอะแกรม

    เพิ่มเส้นแนวโน้มเชิงเส้นและพหุนาม (กำลังสองและลูกบาศก์) ลงในแผนภูมิ

    ใช้สมการเส้นแนวโน้ม รับข้อมูลแบบตารางเกี่ยวกับผลกำไรขององค์กรสำหรับแต่ละเส้นแนวโน้มสำหรับปี 1995-2004

    จัดทำการคาดการณ์ผลกำไรขององค์กรในปี 2546 และ 2547

การแก้ปัญหา

    ในช่วงของเซลล์ A4:C11 ของแผ่นงาน Excel ให้ป้อนแผ่นงานที่แสดงในรูปที่ 1 4.

    เมื่อเลือกช่วงของเซลล์ B4:C11 แล้ว เราจะสร้างไดอะแกรม

    เราเปิดใช้งานไดอะแกรมที่สร้างขึ้น และตามวิธีการที่อธิบายไว้ข้างต้น หลังจากเลือกประเภทของเส้นแนวโน้มในกล่องโต้ตอบเส้นแนวโน้ม (ดูรูปที่ 1) เราจะสลับกันเพิ่มเส้นแนวโน้มเชิงเส้น กำลังสอง และลูกบาศก์ลงในไดอะแกรม ในกล่องโต้ตอบเดียวกัน ให้เปิดแท็บพารามิเตอร์ (ดูรูปที่ 2) ในช่องชื่อของเส้นโค้งโดยประมาณ (เรียบ) ป้อนชื่อของแนวโน้มที่จะเพิ่ม และในฟิลด์การคาดการณ์ไปข้างหน้าสำหรับ: ระยะเวลา ให้ตั้งค่า มูลค่า 2 เนื่องจากมีแผนจะคาดการณ์กำไรในอีก 2 ปีข้างหน้า หากต้องการแสดงสมการถดถอยและค่าความน่าเชื่อถือของการประมาณ R2 ในพื้นที่ไดอะแกรม ให้เปิดใช้งานการแสดงสมการในช่องทำเครื่องหมายบนหน้าจอ และวางค่าความน่าเชื่อถือของการประมาณ (R^2) บนไดอะแกรม เพื่อการรับรู้ทางสายตาที่ดีขึ้น เราได้เปลี่ยนประเภท สี และความหนาของเส้นแนวโน้มที่สร้างขึ้น ซึ่งเราใช้แท็บมุมมองของกล่องโต้ตอบรูปแบบเส้นแนวโน้ม (ดูรูปที่ 3) แผนภาพผลลัพธ์ที่มีเส้นแนวโน้มเพิ่มจะแสดงในรูปที่ 1 5.

    เพื่อรับข้อมูลแบบตารางเกี่ยวกับผลกำไรขององค์กรสำหรับแต่ละเส้นแนวโน้มสำหรับปี 1995-2004 ลองใช้สมการเส้นแนวโน้มที่แสดงในรูปที่ 1 5. เมื่อต้องการทำเช่นนี้ ในเซลล์ในช่วง D3:F3 ให้ป้อนข้อมูลข้อความเกี่ยวกับประเภทของเส้นแนวโน้มที่เลือก: แนวโน้มเชิงเส้น แนวโน้มกำลังสอง แนวโน้มลูกบาศก์ จากนั้น ป้อนสูตรการถดถอยเชิงเส้นในเซลล์ D4 และใช้เครื่องหมายเติม คัดลอกสูตรนี้โดยมีการอ้างอิงสัมพันธ์กับช่วงเซลล์ D5:D13 ควรสังเกตว่าแต่ละเซลล์ที่มีสูตรการถดถอยเชิงเส้นจากช่วงของเซลล์ D4:D13 มีเซลล์ที่สอดคล้องกันจากช่วง A4:A13 เป็นอาร์กิวเมนต์ ในทำนองเดียวกัน สำหรับการถดถอยกำลังสอง ให้เติมช่วงของเซลล์ E4:E13 และสำหรับการถดถอยลูกบาศก์ ให้เติมช่วงของเซลล์ F4:F13 ดังนั้นจึงได้มีการรวบรวมการคาดการณ์กำไรขององค์กรในปี 2546 และ 2547 โดยใช้ 3 เทรนด์ ตารางค่าผลลัพธ์จะแสดงในรูป 6.

ปัญหาที่ 2

    สร้างไดอะแกรม

    เพิ่มเส้นแนวโน้มลอการิทึม กำลัง และเอ็กซ์โพเนนเชียลลงในแผนภูมิ

    หาสมการของเส้นแนวโน้มที่ได้รับตลอดจนค่าความน่าเชื่อถือของการประมาณ R2 สำหรับแต่ละเส้น

    ใช้สมการเส้นแนวโน้ม รับข้อมูลแบบตารางเกี่ยวกับกำไรขององค์กรสำหรับแต่ละเส้นแนวโน้มสำหรับปี 1995-2002

    คาดการณ์ผลกำไรของบริษัทในปี 2546 และ 2547 โดยใช้เส้นแนวโน้มเหล่านี้

การแก้ปัญหา

ตามวิธีการที่ให้ไว้ในการแก้ปัญหา 1 เราได้ไดอะแกรมที่บวกลอการิทึม กำลัง และเส้นแนวโน้มเอ็กซ์โพเนนเชียลเข้าไป (รูปที่ 7) ต่อไป เมื่อใช้สมการเส้นแนวโน้มที่ได้รับ เราจะกรอกตารางค่าสำหรับกำไรขององค์กร รวมถึงค่าที่คาดการณ์ไว้สำหรับปี 2546 และ 2547 (รูปที่ 8)

ในรูป 5 และรูปที่ จะเห็นได้ว่าแบบจำลองที่มีแนวโน้มลอการิทึมสอดคล้องกับค่าต่ำสุดของความน่าเชื่อถือในการประมาณ

R2 = 0.8659

ค่าสูงสุดของ R2 สอดคล้องกับแบบจำลองที่มีแนวโน้มพหุนาม: กำลังสอง (R2 = 0.9263) และลูกบาศก์ (R2 = 0.933)

ปัญหา 3

ด้วยตารางข้อมูลเกี่ยวกับผลกำไรขององค์กรขนส่งยานยนต์สำหรับปี 2538-2545 ที่ระบุในภารกิจที่ 1 คุณต้องทำตามขั้นตอนต่อไปนี้

    รับชุดข้อมูลสำหรับเส้นแนวโน้มเชิงเส้นและเลขชี้กำลังโดยใช้ฟังก์ชัน TREND และ GROW

    ใช้ฟังก์ชัน TREND และ GROWTH ทำการคาดการณ์ผลกำไรขององค์กรในปี 2546 และ 2547

    สร้างไดอะแกรมสำหรับข้อมูลต้นฉบับและชุดข้อมูลผลลัพธ์

การแก้ปัญหา

ลองใช้แผ่นงานสำหรับปัญหาที่ 1 (ดูรูปที่ 4) เริ่มต้นด้วย ฟังก์ชันเทรนด์:

    เลือกช่วงของเซลล์ D4:D11 ซึ่งควรเต็มไปด้วยค่าของฟังก์ชัน TREND ที่สอดคล้องกับข้อมูลที่ทราบเกี่ยวกับผลกำไรขององค์กร

    เรียกคำสั่ง Function จากเมนู Insert ในกล่องโต้ตอบตัวช่วยสร้างฟังก์ชันที่ปรากฏขึ้น ให้เลือกฟังก์ชันแนวโน้มจากหมวดหมู่ทางสถิติ จากนั้นคลิกปุ่มตกลง การดำเนินการเดียวกันนี้สามารถทำได้โดยการคลิกปุ่ม (แทรกฟังก์ชัน) บนแถบเครื่องมือมาตรฐาน

    ในกล่องโต้ตอบอาร์กิวเมนต์ของฟังก์ชันที่ปรากฏขึ้น ให้ป้อนช่วงของเซลล์ C4:C11 ในช่อง Known_values_y ในช่อง Known_values_x - ช่วงของเซลล์ B4:B11;

    หากต้องการทำให้สูตรที่ป้อนกลายเป็นสูตรอาร์เรย์ ให้ใช้คีย์ผสม + +

สูตรที่เราป้อนในแถบสูตรจะมีลักษณะดังนี้: =(TREND(C4:C11,B4:B11))

เป็นผลให้ช่วงของเซลล์ D4:D11 เต็มไปด้วยค่าที่สอดคล้องกันของฟังก์ชัน TREND (รูปที่ 9)

เพื่อคาดการณ์ผลกำไรขององค์กรในปี 2546 และ 2547 จำเป็น:

    เลือกช่วงของเซลล์ D12:D13 ที่จะป้อนค่าที่คาดการณ์โดยฟังก์ชัน TREND

    เรียกใช้ฟังก์ชัน TREND และในกล่องโต้ตอบอาร์กิวเมนต์ของฟังก์ชันที่ปรากฏขึ้น ให้ป้อนในฟิลด์ Known_values_y - ช่วงของเซลล์ C4:C11; ในช่อง Known_values_x - ช่วงของเซลล์ B4:B11; และในช่อง New_values_x - ช่วงของเซลล์ B12:B13

    เปลี่ยนสูตรนี้เป็นสูตรอาร์เรย์โดยใช้คีย์ผสม Ctrl + Shift + Enter

    สูตรที่ป้อนจะมีลักษณะดังนี้: =(TREND(C4:C11;B4:B11;B12:B13)) และช่วงของเซลล์ D12:D13 จะถูกเติมด้วยค่าที่ทำนายไว้ของฟังก์ชัน TREND (ดูรูปที่ 1) 9)

ชุดข้อมูลจะถูกเติมในทำนองเดียวกันโดยใช้ฟังก์ชัน GROWTH ซึ่งใช้ในการวิเคราะห์การขึ้นต่อกันแบบไม่เชิงเส้น และทำงานในลักษณะเดียวกับ TREND ที่เป็นคู่เชิงเส้นทุกประการ

รูปที่ 10 แสดงตารางในโหมดแสดงสูตร

สำหรับข้อมูลเริ่มต้นและชุดข้อมูลที่ได้รับ แผนภาพแสดงในรูปที่ 1 สิบเอ็ด

ปัญหาที่ 4

ด้วยตารางข้อมูลเกี่ยวกับการรับการสมัครใช้บริการโดยบริการจัดส่งขององค์กรขนส่งทางรถยนต์ในช่วงวันที่ 1 ถึงวันที่ 11 ของเดือนปัจจุบันคุณต้องดำเนินการดังต่อไปนี้

    รับชุดข้อมูลสำหรับการถดถอยเชิงเส้น: การใช้ฟังก์ชัน SLOPE และ INTERCEPT โดยใช้ฟังก์ชัน LINEST

    รับชุดข้อมูลสำหรับการถดถอยเอ็กซ์โปเนนเชียลโดยใช้ฟังก์ชัน LGRFPRIBL

    ใช้ฟังก์ชันข้างต้น คาดการณ์เกี่ยวกับการรับใบสมัครไปยังบริการจัดส่งในช่วงวันที่ 12 ถึงวันที่ 14 ของเดือนปัจจุบัน

    สร้างไดอะแกรมสำหรับชุดข้อมูลต้นฉบับและข้อมูลที่ได้รับ

การแก้ปัญหา

โปรดทราบว่าต่างจากฟังก์ชัน TREND และ GROWTH ตรงที่ไม่มีฟังก์ชันใดในรายการข้างต้น (SLOPE, INTERCEPT, LINEST, LGRFPRIB) เป็นการถดถอย ฟังก์ชันเหล่านี้มีบทบาทสนับสนุนเท่านั้น โดยกำหนดพารามิเตอร์การถดถอยที่จำเป็น

สำหรับการถดถอยเชิงเส้นและเอ็กซ์โปเนนเชียลที่สร้างขึ้นโดยใช้ฟังก์ชัน SLOPE, INTERCEPT, LINEST, LGRFPRIB จะทราบลักษณะที่ปรากฏของสมการอยู่เสมอ ตรงกันข้ามกับการถดถอยเชิงเส้นและเอ็กซ์โพเนนเชียลที่สอดคล้องกับฟังก์ชัน TREND และ GROWTH

1 . มาสร้างการถดถอยเชิงเส้นด้วยสมการกัน:

y = มx+ข

โดยใช้ฟังก์ชัน SLOPE และ INTERCEPT โดยมีความชันการถดถอย m กำหนดโดยฟังก์ชัน SLOPE และเทอมอิสระ b โดยฟังก์ชัน INTERCEPT

ในการดำเนินการนี้ เราดำเนินการดังต่อไปนี้:

    ป้อนตารางต้นฉบับลงในช่วงเซลล์ A4:B14;

    ค่าของพารามิเตอร์ m จะถูกกำหนดในเซลล์ C19 เลือกฟังก์ชันความชันจากหมวดสถิติ ป้อนช่วงของเซลล์ B4:B14 ในช่องknown_values_y และช่วงของเซลล์ A4:A14 ในช่องknown_values_x สูตรจะถูกป้อนในเซลล์ C19: =SLOPE(B4:B14,A4:A14);

    เมื่อใช้เทคนิคที่คล้ายกัน จะกำหนดค่าของพารามิเตอร์ b ในเซลล์ D19 และเนื้อหาจะมีลักษณะดังนี้: =SEGMENT(B4:B14,A4:A14) ดังนั้นค่าของพารามิเตอร์ m และ b ที่จำเป็นสำหรับการสร้างการถดถอยเชิงเส้นจะถูกเก็บไว้ในเซลล์ C19, D19 ตามลำดับ

    จากนั้น ป้อนสูตรการถดถอยเชิงเส้นในเซลล์ C4 ในรูปแบบ: =$C*A4+$D ในสูตรนี้ เซลล์ C19 และ D19 จะถูกเขียนด้วยการอ้างอิงแบบสัมบูรณ์ (ที่อยู่ของเซลล์ไม่ควรเปลี่ยนแปลงในระหว่างการคัดลอกที่เป็นไปได้) เครื่องหมายอ้างอิงสัมบูรณ์ $ สามารถพิมพ์ได้จากแป้นพิมพ์หรือใช้ปุ่ม F4 หลังจากวางเคอร์เซอร์บนที่อยู่ของเซลล์แล้ว ใช้จุดจับเติม คัดลอกสูตรนี้ลงในช่วงของเซลล์ C4:C17 เราได้รับชุดข้อมูลที่ต้องการ (รูปที่ 12) เนื่องจากจำนวนคำขอเป็นจำนวนเต็ม คุณควรตั้งค่ารูปแบบตัวเลขด้วยจำนวนตำแหน่งทศนิยมเป็น 0 บนแท็บตัวเลขของหน้าต่างรูปแบบเซลล์

2 . ตอนนี้เรามาสร้างการถดถอยเชิงเส้นที่กำหนดโดยสมการ:

y = มx+ข

โดยใช้ฟังก์ชัน LINEST

สำหรับสิ่งนี้:

    ป้อนฟังก์ชัน LINEST เป็นสูตรอาร์เรย์ในช่วงเซลล์ C20:D20: =(LINEST(B4:B14,A4:A14)) เป็นผลให้เราได้รับค่าของพารามิเตอร์ m ในเซลล์ C20 และค่าของพารามิเตอร์ b ในเซลล์ D20

    ป้อนสูตรในเซลล์ D4: =$C*A4+$D;

    คัดลอกสูตรนี้โดยใช้เครื่องหมายเติมลงในช่วงเซลล์ D4:D17 และรับชุดข้อมูลที่ต้องการ

3 . เราสร้างการถดถอยเอ็กซ์โปเนนเชียลด้วยสมการ:

การใช้ฟังก์ชัน LGRFPRIBL จะดำเนินการในลักษณะเดียวกัน:

    ในช่วงเซลล์ C21:D21 เราป้อนฟังก์ชัน LGRFPRIBL เป็นสูตรอาร์เรย์: =( LGRFPRIBL (B4:B14,A4:A14)) ในกรณีนี้ ค่าของพารามิเตอร์ m จะถูกกำหนดในเซลล์ C21 และค่าของพารามิเตอร์ b จะถูกกำหนดในเซลล์ D21

    ใส่สูตรลงในเซลล์ E4: =$D*$C^A4;

    โดยใช้เครื่องหมายเติม สูตรนี้จะถูกคัดลอกไปยังช่วงของเซลล์ E4:E17 โดยที่ชุดข้อมูลสำหรับการถดถอยเอ็กซ์โปเนนเชียลจะอยู่ (ดูรูปที่ 12)

ในรูป รูปที่ 13 แสดงตารางที่คุณสามารถดูฟังก์ชันที่เราใช้กับช่วงเซลล์ที่ต้องการ รวมถึงสูตรต่างๆ

ขนาด 2 เรียกว่า ค่าสัมประสิทธิ์การตัดสินใจ.

งานในการสร้างการพึ่งพาการถดถอยคือการหาเวกเตอร์ของสัมประสิทธิ์ m ของแบบจำลอง (1) โดยที่สัมประสิทธิ์ R รับค่าสูงสุด

เพื่อประเมินความสำคัญของ R จะใช้การทดสอบ F ของฟิชเชอร์ โดยคำนวณโดยใช้สูตร

ที่ไหน n- ขนาดตัวอย่าง (จำนวนการทดลอง)

k คือจำนวนสัมประสิทธิ์แบบจำลอง

ถ้า F เกินค่าวิกฤตของข้อมูล nและ เคและความน่าจะเป็นของความเชื่อมั่นที่ยอมรับได้ แล้วค่า R ถือว่ามีนัยสำคัญ ตารางค่าวิกฤตของ F แสดงไว้ในหนังสืออ้างอิงเกี่ยวกับสถิติทางคณิตศาสตร์

ดังนั้นความสำคัญของ R ไม่เพียงแต่ถูกกำหนดโดยค่าของมันเท่านั้น แต่ยังรวมถึงอัตราส่วนระหว่างจำนวนการทดลองและจำนวนสัมประสิทธิ์ (พารามิเตอร์) ของแบบจำลองด้วย อันที่จริง อัตราส่วนสหสัมพันธ์สำหรับ n=2 สำหรับแบบจำลองเชิงเส้นอย่างง่ายเท่ากับ 1 (เส้นตรงเส้นเดียวสามารถลากผ่าน 2 จุดบนระนาบได้เสมอ) อย่างไรก็ตาม หากข้อมูลการทดลองเป็นตัวแปรสุ่ม ควรเชื่อถือค่า R ดังกล่าวด้วยความระมัดระวังเป็นอย่างยิ่ง โดยปกติแล้ว เพื่อให้ได้ R ที่มีนัยสำคัญและการถดถอยที่เชื่อถือได้ พวกเขาพยายามให้แน่ใจว่าจำนวนการทดลองเกินจำนวนสัมประสิทธิ์แบบจำลอง (n>k) อย่างมีนัยสำคัญ

ในการสร้างแบบจำลองการถดถอยเชิงเส้น คุณต้องมี:

1) เตรียมรายการ n แถวและ m คอลัมน์ที่มีข้อมูลการทดลอง (คอลัมน์ที่มีค่าเอาต์พุต จะต้องเป็นรายการแรกหรือรายการสุดท้าย) ตัวอย่างเช่น ลองนำข้อมูลจากงานก่อนหน้าโดยเพิ่มคอลัมน์ชื่อ “Period No” กำหนดหมายเลขช่วงตั้งแต่ 1 ถึง 12 (ซึ่งจะเป็นค่าเหล่านี้ เอ็กซ์)

2) ไปที่เมนู ข้อมูล/การวิเคราะห์ข้อมูล/การถดถอย

หากรายการ "การวิเคราะห์ข้อมูล" ในเมนู "เครื่องมือ" หายไป คุณควรไปที่รายการ "ส่วนเสริม" ในเมนูเดียวกันและทำเครื่องหมายในช่อง "แพ็คเกจการวิเคราะห์"

3) ในกล่องโต้ตอบ "การถดถอย" ให้ตั้งค่า:

· ช่วงเวลาอินพุต Y;

· ช่วงเวลาอินพุต X;

· ช่วงเอาท์พุต - เซลล์ด้านซ้ายบนของช่วงเวลาที่ผลการคำนวณจะถูกวาง (แนะนำให้วางไว้บนแผ่นงานใหม่)

4) คลิก "ตกลง" และวิเคราะห์ผลลัพธ์

มีประโยชน์หลายอย่างเนื่องจากช่วยให้สามารถแสดงค่าโดยประมาณได้ ฟังก์ชันที่กำหนดคนอื่นง่ายกว่า LSM มีประโยชน์อย่างยิ่งในการประมวลผลการสังเกต และมีการใช้อย่างแข็งขันเพื่อประมาณปริมาณบางปริมาณโดยอิงจากผลลัพธ์ของการวัดปริมาณอื่นๆ ที่มี ข้อผิดพลาดแบบสุ่ม. ในบทความนี้ คุณจะได้เรียนรู้วิธีใช้การคำนวณกำลังสองน้อยที่สุดใน Excel

คำชี้แจงปัญหาโดยใช้ตัวอย่างเฉพาะ

สมมติว่ามีตัวบ่งชี้ X และ Y สองตัว ยิ่งไปกว่านั้น Y ขึ้นอยู่กับ X เนื่องจาก OLS สนใจเราจากมุมมองของการวิเคราะห์การถดถอย (ใน Excel วิธีการของมันถูกนำมาใช้โดยใช้ฟังก์ชันในตัว) เราควรพิจารณาทันที ปัญหาเฉพาะ

งั้นให้ X เป็น พื้นที่การค้าร้านขายของชำ วัดใน ตารางเมตรและ Y คือมูลค่าการซื้อขายประจำปีซึ่งกำหนดเป็นล้านรูเบิล

จำเป็นต้องคาดการณ์ว่าร้านค้าจะมียอดขายเท่าใด (Y) หากมีพื้นที่ค้าปลีกนี้หรือพื้นที่นั้น เห็นได้ชัดว่าฟังก์ชัน Y = f (X) เพิ่มขึ้นเนื่องจากไฮเปอร์มาร์เก็ตขายสินค้ามากกว่าแผงลอย

คำไม่กี่คำเกี่ยวกับความถูกต้องของข้อมูลเริ่มต้นที่ใช้ในการทำนาย

สมมติว่าเรามีตารางที่สร้างขึ้นโดยใช้ข้อมูลสำหรับร้านค้า n แห่ง

ตาม สถิติทางคณิตศาสตร์ผลลัพธ์จะถูกต้องไม่มากก็น้อยหากตรวจสอบข้อมูลบนวัตถุอย่างน้อย 5-6 ชิ้น นอกจากนี้ยังไม่สามารถใช้ผลลัพธ์ที่ "ผิดปกติ" ได้ โดยเฉพาะอย่างยิ่งร้านบูติกขนาดเล็กชั้นยอดอาจมีมูลค่าการซื้อขายมากกว่ามูลค่าการซื้อขายของร้านค้าปลีกขนาดใหญ่ประเภท "masmarket" หลายเท่า

สาระสำคัญของวิธีการ

ข้อมูลตารางสามารถแสดงได้ เครื่องบินคาร์ทีเซียนในรูปแบบของคะแนน M 1 (x 1, y 1), ... M n (x n, y n) ตอนนี้วิธีแก้ปัญหาจะลดลงเหลือการเลือกฟังก์ชันประมาณ y = f (x) ซึ่งมีกราฟที่ส่งผ่านใกล้กับจุด M 1, M 2, .. M n มากที่สุด

แน่นอน คุณสามารถใช้พหุนามได้ ระดับสูงแต่ตัวเลือกนี้ไม่เพียงแต่ใช้งานยากเท่านั้น แต่ยังไม่ถูกต้องอีกด้วย เนื่องจากจะไม่สะท้อนถึงแนวโน้มหลักที่ต้องตรวจพบ วิธีแก้ปัญหาที่สมเหตุสมผลที่สุดคือการค้นหาเส้นตรง y = ax + b ซึ่งประมาณค่าข้อมูลการทดลองได้ดีที่สุด หรือถ้าให้เจาะจงกว่านั้นคือค่าสัมประสิทธิ์ a และ b

การประเมินความแม่นยำ

ด้วยการประมาณค่าใดๆ ก็ตาม การประเมินความถูกต้องแม่นยำถือเป็นสิ่งสำคัญอย่างยิ่ง ให้เราแสดงด้วย e i ความแตกต่าง (ส่วนเบี่ยงเบน) ระหว่างค่าการทำงานและค่าทดลองสำหรับจุด x i นั่นคือ e i = y i - f (x i)

เห็นได้ชัดว่าในการประเมินความถูกต้องของการประมาณคุณสามารถใช้ผลรวมของการเบี่ยงเบนได้เช่น เมื่อเลือกเส้นตรงเพื่อเป็นตัวแทนโดยประมาณของการพึ่งพา X บน Y คุณควรให้ความสำคัญกับเส้นที่มีค่าน้อยที่สุดของ รวม e i ทุกจุดที่กำลังพิจารณา อย่างไรก็ตามไม่ใช่ทุกอย่างจะง่ายนักเนื่องจากการเบี่ยงเบนเชิงบวกก็จะมีการเบี่ยงเบนเชิงลบเช่นกัน

ปัญหานี้สามารถแก้ไขได้โดยใช้โมดูลส่วนเบี่ยงเบนหรือกำลังสอง วิธีสุดท้ายได้รับมากที่สุด ใช้งานได้กว้าง. มีการใช้งานในหลายพื้นที่ รวมถึงการวิเคราะห์การถดถอย (ใช้งานใน Excel โดยใช้ฟังก์ชันในตัวสองฟังก์ชัน) และได้พิสูจน์ประสิทธิภาพมานานแล้ว

วิธีกำลังสองน้อยที่สุด

ดังที่คุณทราบ Excel มีฟังก์ชันผลรวมอัตโนมัติในตัวที่ช่วยให้คุณสามารถคำนวณค่าของค่าทั้งหมดที่อยู่ในช่วงที่เลือกได้ ดังนั้นจึงไม่มีอะไรขัดขวางเราจากการคำนวณค่าของนิพจน์ (e 1 2 + e 2 2 + e 3 2 + ... e n 2)

ในสัญกรณ์ทางคณิตศาสตร์ดูเหมือนว่า:

เนื่องจากการตัดสินใจเริ่มแรกให้ประมาณโดยใช้เส้นตรง เราจึงได้:

ดังนั้นงานในการค้นหาเส้นตรงที่อธิบายการพึ่งพาเฉพาะของปริมาณ X และ Y ได้ดีที่สุดจึงลงมาเพื่อคำนวณค่าต่ำสุดของฟังก์ชันของตัวแปรสองตัว:

ในการทำเช่นนี้ คุณต้องเทียบอนุพันธ์บางส่วนด้วยความเคารพกับตัวแปรใหม่ a และ b เป็นศูนย์ และแก้ระบบดั้งเดิมที่ประกอบด้วยสมการสองสมการที่มีรูปแบบที่ไม่รู้จัก 2 รูปแบบ:

หลังจากการแปลงอย่างง่าย ๆ รวมถึงการหารด้วย 2 และการเปลี่ยนแปลงผลรวม เราจะได้:

เราได้รับการแก้ปัญหาโดยใช้วิธีของ Cramer จุดนิ่งโดยมีค่าสัมประสิทธิ์ a * และ b * ที่แน่นอน นี่คือขั้นต่ำ เช่น เพื่อคาดการณ์ว่าร้านค้าจะมีมูลค่าการซื้อขายเท่าใด พื้นที่บางส่วนเส้นตรง y = a * x + b * เหมาะสม ซึ่งก็คือ แบบจำลองการถดถอยสำหรับตัวอย่างที่เป็นปัญหา แน่นอนว่าเธอจะไม่ให้คุณพบ ผลลัพธ์ที่แน่นอนแต่จะช่วยให้ทราบว่าการซื้อพื้นที่เฉพาะด้วยเครดิตร้านค้าจะได้ผลหรือไม่

วิธีการใช้กำลังสองน้อยที่สุดใน Excel

Excel มีฟังก์ชันสำหรับคำนวณค่าโดยใช้กำลังสองน้อยที่สุด เธอมี มุมมองถัดไป: “แนวโน้ม” (ค่า Y ที่รู้จัก, ค่า X ที่ทราบ, ค่า X ใหม่, ค่าคงที่) ลองใช้สูตรคำนวณ OLS ใน Excel กับตารางของเรา

ในการดำเนินการนี้ให้ป้อนเครื่องหมาย "=" ในเซลล์ที่ควรแสดงผลการคำนวณโดยใช้วิธีกำลังสองน้อยที่สุดใน Excel และเลือกฟังก์ชัน "TREND" ในหน้าต่างที่เปิดขึ้น ให้กรอกข้อมูลในช่องที่เหมาะสม โดยเน้นที่:

  • ช่วงของค่าที่ทราบสำหรับ Y (นิ้ว ในกรณีนี้ข้อมูลมูลค่าการซื้อขาย);
  • ช่วง x 1 , …xn เช่น ขนาดของพื้นที่ค้าปลีก
  • ทั้งมีชื่อเสียงและ ค่าที่ไม่รู้จัก x ซึ่งคุณต้องทราบขนาดของมูลค่าการซื้อขาย (สำหรับข้อมูลเกี่ยวกับตำแหน่งของพวกเขาในแผ่นงานดูด้านล่าง)

นอกจากนี้ สูตรยังมีตัวแปรเชิงตรรกะ “Const” หากคุณป้อน 1 ลงในช่องที่เกี่ยวข้อง หมายความว่าคุณควรดำเนินการคำนวณ โดยสมมติว่า b = 0

หากคุณต้องการค้นหาการพยากรณ์ค่า x มากกว่าหนึ่งค่า หลังจากป้อนสูตรแล้ว คุณไม่ควรกด "Enter" แต่คุณต้องพิมพ์ชุดค่าผสม "Shift" + "Control" + "Enter" บนแป้นพิมพ์

คุณสมบัติบางอย่าง

การวิเคราะห์การถดถอยสามารถเข้าถึงได้แม้กระทั่งกับหุ่นจำลอง สูตรเอ็กเซลเพื่อทำนายค่าของอาร์เรย์ของตัวแปรที่ไม่รู้จัก - "TREND" - สามารถใช้ได้แม้กระทั่งกับผู้ที่ไม่เคยได้ยินวิธีกำลังสองน้อยที่สุดมาก่อน แค่รู้คุณสมบัติบางอย่างของงานก็เพียงพอแล้ว โดยเฉพาะอย่างยิ่ง:

  • หากคุณจัดเรียงช่วงของค่าที่ทราบของตัวแปร y ในหนึ่งแถวหรือคอลัมน์แต่ละแถว (คอลัมน์) ด้วย ค่านิยมที่ทราบ x จะถือว่าโปรแกรมเป็นตัวแปรแยกต่างหาก
  • หากหน้าต่าง TREND ไม่ได้ระบุช่วงที่ทราบ x แสดงว่ามีการใช้ฟังก์ชันดังกล่าว โปรแกรมเอ็กเซลจะถือว่ามันเป็นอาร์เรย์ที่ประกอบด้วยจำนวนเต็มซึ่งจำนวนนั้นสอดคล้องกับช่วงที่มีค่าที่กำหนดของตัวแปร y
  • หากต้องการส่งออกอาร์เรย์ของค่า "ที่คาดการณ์" ต้องป้อนนิพจน์สำหรับการคำนวณแนวโน้มเป็นสูตรอาร์เรย์
  • หากไม่ได้ระบุค่าใหม่ของ x ฟังก์ชัน TREND จะถือว่ามีค่าเท่ากับค่าที่ทราบ หากไม่ได้ระบุไว้ อาร์เรย์ 1 จะถูกใช้เป็นอาร์กิวเมนต์ 2; 3; 4;… ซึ่งสมส่วนกับช่วงที่มีพารามิเตอร์ y ระบุไว้แล้ว
  • ช่วงที่มีค่า x ใหม่จะต้องประกอบด้วยค่าเดียวกันหรือ มากกว่าแถวหรือคอลัมน์เป็นช่วงที่มีค่า y ที่กำหนด กล่าวอีกนัยหนึ่ง จะต้องเป็นสัดส่วนกับตัวแปรอิสระ
  • อาร์เรย์ที่มีค่า x ที่รู้จักสามารถมีตัวแปรได้หลายตัว อย่างไรก็ตามหาก เรากำลังพูดถึงประมาณหนึ่งเท่านั้น ดังนั้นช่วงที่มีค่า x และ y ที่กำหนดต้องเป็นสัดส่วน ในกรณีที่มีตัวแปรหลายตัว จำเป็นที่ช่วงที่มีค่า y ที่กำหนดจะต้องอยู่ในคอลัมน์เดียวหรือหนึ่งแถว

ฟังก์ชันการคาดการณ์

ดำเนินการโดยใช้ฟังก์ชั่นหลายอย่าง หนึ่งในนั้นเรียกว่า "การคาดการณ์" คล้ายกับ “แนวโน้ม” กล่าวคือ ให้ผลลัพธ์ของการคำนวณโดยใช้วิธีกำลังสองน้อยที่สุด อย่างไรก็ตาม มีเพียง X ตัวเดียวเท่านั้น ซึ่งไม่ทราบค่าของ Y

ตอนนี้คุณรู้สูตรใน Excel สำหรับหุ่นที่ช่วยให้คุณสามารถทำนายมูลค่าในอนาคตของตัวบ่งชี้เฉพาะตามแนวโน้มเชิงเส้นได้

มีการใช้กันอย่างแพร่หลายในเศรษฐมิติในรูปแบบของการตีความพารามิเตอร์ทางเศรษฐกิจที่ชัดเจน

การถดถอยเชิงเส้นลงมาเพื่อค้นหาสมการของรูปแบบ

หรือ

สมการของแบบฟอร์ม อนุญาตสำหรับ ค่าที่กำหนดพารามิเตอร์ เอ็กซ์มีค่าทางทฤษฎีของลักษณะผลลัพธ์โดยแทนที่ค่าที่แท้จริงของปัจจัยลงไป เอ็กซ์.

การสร้างการถดถอยเชิงเส้นนั้นมาจากการประมาณค่าพารามิเตอร์ - และ วี.การประมาณค่าพารามิเตอร์การถดถอยเชิงเส้นสามารถพบได้โดยใช้วิธีการต่างๆ

วิธีการดั้งเดิมในการประมาณค่าพารามิเตอร์การถดถอยเชิงเส้นนั้นยึดตาม วิธีกำลังสองน้อยที่สุด(เอ็มเอ็นซี).

วิธีกำลังสองน้อยที่สุดช่วยให้เราสามารถประมาณค่าพารามิเตอร์ดังกล่าวได้ และ วีซึ่งผลรวมของการเบี่ยงเบนกำลังสองของค่าที่แท้จริงของลักษณะผลลัพธ์ (ญ)จากการคำนวณ (ทางทฤษฎี) ขั้นต่ำ:

ในการหาค่าต่ำสุดของฟังก์ชัน คุณต้องคำนวณอนุพันธ์ย่อยของพารามิเตอร์แต่ละตัว และ และตั้งค่าให้เท่ากับศูนย์

มาแสดงกันเถอะ ผ่าน S จากนั้น:

เราได้รับการแปลงสูตร ระบบต่อไปนี้ สมการปกติเพื่อประมาณค่าพารามิเตอร์ และ วี:

การแก้ระบบสมการปกติ (3.5) โดยวิธีใดวิธีหนึ่ง การกำจัดตามลำดับตัวแปรหรือโดยวิธีการกำหนดเราจะค้นหาค่าประมาณที่ต้องการของพารามิเตอร์ และ วี.

พารามิเตอร์ วีเรียกว่าสัมประสิทธิ์การถดถอย ค่าของมันแสดงการเปลี่ยนแปลงโดยเฉลี่ยในผลลัพธ์โดยมีการเปลี่ยนแปลงปัจจัยหนึ่งหน่วย

สมการถดถอยจะเสริมด้วยตัวบ่งชี้ความใกล้ชิดของการเชื่อมต่อเสมอ เมื่อใช้การถดถอยเชิงเส้น ตัวบ่งชี้ดังกล่าวจะเป็นค่าสัมประสิทธิ์สหสัมพันธ์เชิงเส้น มีการปรับเปลี่ยนสูตรที่แตกต่างกัน ค่าสัมประสิทธิ์เชิงเส้นความสัมพันธ์ บางส่วนได้รับด้านล่าง:

ดังที่ทราบ ค่าสัมประสิทธิ์สหสัมพันธ์เชิงเส้นอยู่ภายในขีดจำกัด: -1 1.

เพื่อประเมินคุณภาพการคัดเลือก ฟังก์ชันเชิงเส้นสี่เหลี่ยมจัตุรัสถูกคำนวณ

สัมประสิทธิ์สหสัมพันธ์เชิงเส้นที่เรียกว่า ค่าสัมประสิทธิ์การตัดสินใจ.ค่าสัมประสิทธิ์การกำหนดลักษณะสัดส่วนของความแปรปรวนของลักษณะผลลัพธ์ ใช่อธิบายโดยการถดถอยใน ความแปรปรวนทั้งหมดเครื่องหมายผลลัพธ์:

ดังนั้น ค่า 1 จึงแสดงถึงส่วนแบ่งของความแปรปรวน ใช่เกิดจากอิทธิพลของปัจจัยอื่นๆ ที่ไม่ได้นำมาพิจารณาในแบบจำลอง

คำถามเพื่อการควบคุมตนเอง

1. สาระสำคัญของวิธีกำลังสองน้อยที่สุด?

2. การถดถอยแบบคู่มีตัวแปรกี่ตัว?

3. ค่าสัมประสิทธิ์ใดกำหนดความใกล้ชิดของการเชื่อมต่อระหว่างการเปลี่ยนแปลง?

4. ค่าสัมประสิทธิ์การตัดสินใจถูกกำหนดไว้ภายในขอบเขตใด?

5. การประมาณค่าพารามิเตอร์ b ในการวิเคราะห์สหสัมพันธ์-การถดถอย?

1. คริสโตเฟอร์ โดเฮอร์ตี้ เศรษฐมิติเบื้องต้น - อ.: INFRA - ม. 2544 - 402 หน้า

2. เอส.เอ. โบโรดิช. เศรษฐมิติ. Minsk LLC "ความรู้ใหม่" 2544


3. ร.ศ. ราคเมโตวา หลักสูตรระยะสั้นในเศรษฐมิติ บทช่วยสอน. อัลมาตี 2004. -78น.

4. II. Eliseeva เศรษฐมิติ. - อ.: “การเงินและสถิติ”, 2545

5. ข้อมูลรายเดือนและนิตยสารเชิงวิเคราะห์

แบบจำลองเศรษฐศาสตร์ไม่เชิงเส้น ตัวแบบการถดถอยแบบไม่เชิงเส้น การเปลี่ยนแปลงของตัวแปร

ไม่เชิงเส้น แบบจำลองทางเศรษฐกิจ..

การเปลี่ยนแปลงของตัวแปร

ค่าสัมประสิทธิ์ความยืดหยุ่น

ถ้าระหว่าง ปรากฏการณ์ทางเศรษฐกิจมีความสัมพันธ์แบบไม่เชิงเส้น โดยแสดงโดยใช้ความสัมพันธ์ที่สอดคล้องกัน ฟังก์ชันไม่เชิงเส้น: เช่น ไฮเปอร์โบลาด้านเท่า , พาราโบลาของระดับที่สอง และอื่น ๆ.

การถดถอยแบบไม่เชิงเส้นมีสองประเภท:

1. การถดถอยที่ไม่เป็นเชิงเส้นตามตัวแปรอธิบายที่รวมอยู่ในการวิเคราะห์ แต่เป็นเส้นตรงตามพารามิเตอร์ที่ประมาณไว้ เช่น

พหุนาม องศาต่างๆ - , ;

ไฮเปอร์โบลาด้านเท่ากันหมด - ;

ฟังก์ชันเซมิลอการิทึม - .

2. การถดถอยที่ไม่เป็นเชิงเส้นในพารามิเตอร์ที่กำลังประมาณ ตัวอย่างเช่น:

พลัง - ;

สาธิต - ;

เอ็กซ์โปเนนเชียล - .

ผลรวมของการเบี่ยงเบนกำลังสอง ค่านิยมส่วนบุคคลเครื่องหมายผลลัพธ์ ที่จากค่าเฉลี่ยนั้นเกิดจากอิทธิพลของหลายสาเหตุ ให้เราแบ่งเหตุผลทั้งหมดออกเป็นสองกลุ่มอย่างมีเงื่อนไข: ปัจจัยภายใต้การศึกษา xและ ปัจจัยอื่น ๆ

หากปัจจัยไม่ส่งผลต่อผลลัพธ์ เส้นการถดถอยบนกราฟจะขนานกับแกน โอ้และ

จากนั้นความแปรปรวนทั้งหมดของลักษณะผลลัพธ์นั้นเกิดจากอิทธิพลของปัจจัยอื่น ๆ และ จำนวนเงินทั้งหมดส่วนเบี่ยงเบนกำลังสองจะตรงกับค่าคงเหลือ หากปัจจัยอื่นไม่ส่งผลต่อผลลัพธ์แล้ว คุณผูกอยู่กับ เอ็กซ์ใช้งานได้และ จำนวนคงเหลือสี่เหลี่ยมเป็นศูนย์ ในกรณีนี้ ผลรวมของการเบี่ยงเบนกำลังสองซึ่งอธิบายโดยการถดถอยจะเท่ากับผลรวมของกำลังสองทั้งหมด

เนื่องจากไม่ใช่ทุกจุดของสนามความสัมพันธ์จะอยู่บนเส้นถดถอย การกระจัดกระจายจึงเกิดขึ้นเสมออันเป็นผลมาจากอิทธิพลของปัจจัย เอ็กซ์นั่นคือการถดถอย ที่โดย เอ็กซ์,และเกิดจากสาเหตุอื่น (ความแปรผันที่ไม่สามารถอธิบายได้) ความเหมาะสมของเส้นถดถอยในการพยากรณ์จะขึ้นอยู่กับส่วนใด การเปลี่ยนแปลงทั้งหมดเข้าสู่ระบบ ที่อธิบายความแปรผันที่อธิบายไว้

แน่นอนว่า หากผลรวมของการเบี่ยงเบนกำลังสองเนื่องจากการถดถอยมากกว่าผลรวมที่เหลือของกำลังสอง สมการการถดถอยจะมีนัยสำคัญทางสถิติและเป็นปัจจัย เอ็กซ์มีผลกระทบอย่างมีนัยสำคัญต่อผลลัพธ์ ยู.

, นั่นคือด้วยจำนวนอิสระของการแปรผันที่เป็นอิสระของคุณลักษณะ จำนวนระดับความเป็นอิสระสัมพันธ์กับจำนวนหน่วยของประชากร n และจำนวนค่าคงที่ที่กำหนด ในความสัมพันธ์กับปัญหาที่กำลังศึกษา จำนวนระดับความเป็นอิสระควรแสดงจำนวนค่าเบี่ยงเบนอิสระจาก

การประเมินนัยสำคัญของสมการการถดถอยโดยรวมจะใช้ เอฟ-เกณฑ์ชาวประมง ในกรณีนี้ มีการเสนอสมมติฐานว่างว่าสัมประสิทธิ์การถดถอยเท่ากับศูนย์ นั่นคือ ข = 0 และด้วยเหตุนี้จึงเป็นปัจจัย เอ็กซ์ไม่ส่งผลกระทบต่อผลลัพธ์ ยู.

การคำนวณการทดสอบ F ในทันทีนั้นนำหน้าด้วยการวิเคราะห์ความแปรปรวน จุดศูนย์กลางในนั้นถูกครอบครองโดยการสลายตัวของผลรวมของการเบี่ยงเบนกำลังสองของตัวแปร ที่จากค่าเฉลี่ย ที่ออกเป็นสองส่วน - "อธิบาย" และ "ไม่ได้อธิบาย":

- ผลรวมของการเบี่ยงเบนกำลังสอง;

- ผลรวมของการเบี่ยงเบนกำลังสองที่อธิบายโดยการถดถอย

- ผลรวมที่เหลือของการเบี่ยงเบนกำลังสอง

ผลรวมของการเบี่ยงเบนกำลังสองสัมพันธ์กับจำนวนดีกรีอิสระ , นั่นคือด้วยจำนวนอิสระของการแปรผันที่เป็นอิสระของคุณลักษณะ จำนวนองศาอิสระสัมพันธ์กับจำนวนหน่วยประชากร nและด้วยจำนวนค่าคงที่ที่กำหนดจากมัน ในความสัมพันธ์กับปัญหาที่กำลังศึกษา จำนวนระดับความเป็นอิสระควรแสดงจำนวนค่าเบี่ยงเบนอิสระจาก เป็นไปได้ที่จำเป็นในการสร้างผลรวมของกำลังสองที่กำหนด

การกระจายตัวต่อระดับความเป็นอิสระดี.

อัตราส่วน F (การทดสอบ F):

ถ้าสมมุติฐานว่างเป็นจริงแล้วตามด้วยแฟกทอเรียล และ ความแปรปรวนที่เหลือไม่แตกต่างกัน สำหรับ H 0 จำเป็นต้องมีการพิสูจน์เพื่อให้การกระจายตัวของปัจจัยเกินการกระจายตัวของสารตกค้างหลายครั้ง Snedekor นักสถิติชาวอังกฤษได้พัฒนาตารางค่าวิกฤต เอฟ-ความสัมพันธ์ในระดับความสำคัญต่างๆ สมมติฐานว่างและ ตัวเลขต่างๆระดับความอิสระ. ค่าตาราง เอฟ-เกณฑ์คือค่าสูงสุดของอัตราส่วนของความแปรปรวนที่สามารถเกิดขึ้นได้ในกรณีของความแตกต่างแบบสุ่มสำหรับ ระดับนี้ความน่าจะเป็นที่จะมีสมมติฐานว่าง ค่าที่คำนวณได้ เอฟ-ความสัมพันธ์จะถือว่าเชื่อถือได้ถ้า o มากกว่าตาราง

ในกรณีนี้ สมมติฐานว่างเกี่ยวกับการไม่มีความสัมพันธ์ระหว่างสัญญาณต่างๆ จะถูกปฏิเสธ และได้ข้อสรุปเกี่ยวกับความสำคัญของความสัมพันธ์นี้: F ข้อเท็จจริง > ตาราง F H 0 ถูกปฏิเสธ

หากค่าน้อยกว่าตาราง F ข้อเท็จจริง ‹, ตาราง Fดังนั้นความน่าจะเป็นของสมมติฐานว่างจะสูงกว่าระดับที่ระบุและไม่สามารถปฏิเสธได้หากไม่มีความเสี่ยงร้ายแรงในการสรุปข้อสรุปที่ผิดเกี่ยวกับการมีอยู่ของความสัมพันธ์ ในกรณีนี้ สมการการถดถอยถือว่าไม่มีนัยสำคัญทางสถิติ แต่เขาไม่เบี่ยงเบน

ค่าคลาดเคลื่อนมาตรฐานของสัมประสิทธิ์การถดถอย

เพื่อประเมินความสำคัญของสัมประสิทธิ์การถดถอย จะมีการเปรียบเทียบค่ากับค่าของมัน มาตรฐานบกพร่องนั่นคือมูลค่าที่แท้จริงถูกกำหนดไว้ ที-แบบทดสอบของนักเรียน: ซึ่งก็นำมาเปรียบเทียบกับ ค่าตารางในระดับนัยสำคัญและจำนวนระดับความเป็นอิสระ ( n- 2).

ข้อผิดพลาดของพารามิเตอร์มาตรฐาน :

ความสำคัญของค่าสัมประสิทธิ์สหสัมพันธ์เชิงเส้นได้รับการตรวจสอบตามขนาดของข้อผิดพลาด ค่าสัมประสิทธิ์สหสัมพันธ์ ทีอาร์:

ความแปรปรวนลักษณะรวม เอ็กซ์:

การถดถอยเชิงเส้นพหุคูณ

การสร้างแบบจำลอง

การถดถอยหลายครั้งแสดงถึงการถดถอยของเครื่องหมายผลลัพธ์ด้วยสองและ จำนวนมากปัจจัยต่างๆ เช่น รูปแบบของรูปแบบ

การถดถอยสามารถให้ได้ ผลลัพธ์ที่ดีเมื่อสร้างแบบจำลองหากสามารถละเลยอิทธิพลของปัจจัยอื่นที่ส่งผลต่อวัตถุประสงค์ของการศึกษาได้ ไม่สามารถควบคุมพฤติกรรมของตัวแปรทางเศรษฐกิจแต่ละรายการได้ กล่าวคือ ไม่สามารถรับประกันความเท่าเทียมกันของเงื่อนไขอื่น ๆ ทั้งหมดในการประเมินอิทธิพลของปัจจัยหนึ่งภายใต้การศึกษา ในกรณีนี้ คุณควรพยายามระบุอิทธิพลของปัจจัยอื่นๆ โดยการใส่เข้าไปในแบบจำลอง เช่น สร้างสมการ การถดถอยหลายครั้ง: y = a+b 1 x 1 +b 2 +…+b p x p + .

เป้าหมายหลักของการถดถอยพหุคูณคือการสร้างแบบจำลองที่มีปัจจัยจำนวนมาก ในขณะเดียวกันก็กำหนดอิทธิพลของปัจจัยแต่ละอย่างแยกกัน รวมถึงผลกระทบที่รวมกันต่อตัวบ่งชี้ที่เป็นแบบจำลอง ข้อกำหนดของแบบจำลองประกอบด้วยประเด็นสองช่วง ได้แก่ การเลือกปัจจัย และการเลือกประเภทของสมการการถดถอย

วิธีกำลังสองน้อยที่สุดใช้ในการประมาณค่าพารามิเตอร์ของสมการถดถอย
จำนวนบรรทัด (แหล่งข้อมูล)

วิธีหนึ่งในการศึกษาความสัมพันธ์แบบสุ่มระหว่างคุณลักษณะคือการวิเคราะห์การถดถอย
การวิเคราะห์การถดถอยคือที่มาของสมการการถดถอยที่ใช้ในการค้นหา ค่าเฉลี่ยตัวแปรสุ่ม (แอตทริบิวต์ผลลัพธ์) หากทราบค่าของตัวแปรอื่น (หรืออื่น ๆ ) (แอตทริบิวต์ปัจจัย) ประกอบด้วยขั้นตอนต่อไปนี้:

  1. การเลือกรูปแบบการสื่อสาร (ประเภท สมการวิเคราะห์การถดถอย);
  2. การประมาณค่าพารามิเตอร์สมการ
  3. การประเมินคุณภาพของสมการถดถอยเชิงวิเคราะห์
ส่วนใหญ่แล้ว รูปแบบเชิงเส้นจะใช้เพื่ออธิบายความสัมพันธ์ทางสถิติของคุณลักษณะต่างๆ ให้ความสนใจกับ การเชื่อมต่อเชิงเส้นอธิบายได้ด้วยการตีความพารามิเตอร์ทางเศรษฐศาสตร์ที่ชัดเจน การแปรผันของตัวแปรที่จำกัด และข้อเท็จจริงที่ว่าในกรณีส่วนใหญ่ รูปแบบการสื่อสารที่ไม่เป็นเชิงเส้นจะถูกแปลง (โดยลอการิทึมหรือการแทนที่ตัวแปร) ให้เป็นรูปแบบเชิงเส้นเพื่อทำการคำนวณ
ในกรณีของความสัมพันธ์เชิงเส้นตรงแบบคู่ สมการการถดถอยจะอยู่ในรูปแบบ: y i =a+b·x i +u i ตัวเลือก สมการที่กำหนด a และ b เป็นค่าประมาณจากข้อมูล การสังเกตทางสถิติ x และ y ผลลัพธ์ของการประเมินดังกล่าวคือสมการ โดยที่ คือค่าประมาณของพารามิเตอร์ a และ b คือค่าของคุณลักษณะผลลัพธ์ (ตัวแปร) ที่ได้รับจากสมการการถดถอย (ค่าที่คำนวณได้)

ส่วนใหญ่มักใช้ในการประมาณค่าพารามิเตอร์ วิธีกำลังสองน้อยที่สุด (LSM)
วิธีกำลังสองน้อยที่สุดให้การประมาณค่าพารามิเตอร์ของสมการถดถอยที่ดีที่สุด (สม่ำเสมอ มีประสิทธิภาพ และไม่เอนเอียง) แต่เฉพาะในกรณีที่เป็นไปตามสมมติฐานบางประการเกี่ยวกับเทอมสุ่ม (u) และตัวแปรอิสระ (x) เท่านั้น (ดูสมมติฐาน OLS)

ปัญหาการประมาณค่าพารามิเตอร์เชิงเส้น สมการคู่วิธีกำลังสองน้อยที่สุดมีดังต่อไปนี้: เพื่อให้ได้ค่าประมาณของพารามิเตอร์ ซึ่งผลรวมของการเบี่ยงเบนกำลังสองของค่าที่แท้จริงของคุณลักษณะผลลัพธ์ - y ฉัน จากค่าที่คำนวณได้ - มีค่าน้อยที่สุด
อย่างเป็นทางการ การทดสอบโอแอลเอสสามารถเขียนได้ดังนี้: .

การจำแนกวิธีกำลังสองน้อยที่สุด

  1. วิธีกำลังสองน้อยที่สุด
  2. วิธีความน่าจะเป็นสูงสุด (สำหรับแบบจำลองการถดถอยเชิงเส้นแบบคลาสสิกปกติ จะถือว่าค่าปกติของค่าตกค้างของการถดถอย)
  3. วิธี OLS กำลังสองน้อยที่สุดทั่วไปใช้ในกรณีของความสัมพันธ์อัตโนมัติของข้อผิดพลาด และในกรณีของความแตกต่าง
  4. วิธีกำลังสองน้อยที่สุดแบบถ่วงน้ำหนัก ( กรณีพิเศษ OLS ที่มีสารตกค้างเฮเทอโรซีดาสติก)

เรามาอธิบายประเด็นกันดีกว่า วิธีกำลังสองน้อยที่สุดแบบคลาสสิกแบบกราฟิก. เพื่อสิ่งนี้เราจะสร้าง พล็อตกระจายตามข้อมูลเชิงสังเกต (x i , y i , i=1;n) ใน ระบบสี่เหลี่ยมพิกัด (จุดพล็อตดังกล่าวเรียกว่าฟิลด์สหสัมพันธ์) ลองเลือกเส้นตรงที่ใกล้กับจุดของฟิลด์สหสัมพันธ์มากที่สุด ตามวิธีกำลังสองน้อยที่สุด เส้นจะถูกเลือกเพื่อให้ผลรวมของกำลังสองของระยะทางแนวตั้งระหว่างจุดของเขตข้อมูลสหสัมพันธ์และเส้นนี้มีค่าน้อยที่สุด

สัญกรณ์ทางคณิตศาสตร์สำหรับปัญหานี้: .
เรารู้จักค่าของ y i และ x i =1...n ซึ่งเป็นข้อมูลเชิงสังเกต ในฟังก์ชัน S พวกมันแทนค่าคงที่ ตัวแปรในฟังก์ชันนี้เป็นค่าประมาณที่จำเป็นของพารามิเตอร์ - , ในการค้นหาฟังก์ชันขั้นต่ำของตัวแปรสองตัว จำเป็นต้องคำนวณอนุพันธ์ย่อยของฟังก์ชันนี้สำหรับแต่ละพารามิเตอร์และจัดให้เป็นศูนย์ เช่น .
เป็นผลให้เราได้ระบบ 2 ปกติ สมการเชิงเส้น:
กำลังตัดสินใจ ระบบนี้เราจะพบการประมาณค่าพารามิเตอร์ที่ต้องการ:

ความถูกต้องของการคำนวณพารามิเตอร์ของสมการถดถอยสามารถตรวจสอบได้โดยการเปรียบเทียบจำนวน (อาจมีความคลาดเคลื่อนบางประการเนื่องจากการปัดเศษของการคำนวณ)
ในการคำนวณค่าประมาณพารามิเตอร์ คุณสามารถสร้างตารางที่ 1 ได้
เครื่องหมายของสัมประสิทธิ์การถดถอย b บ่งบอกถึงทิศทางของความสัมพันธ์ (ถ้า b >0 ความสัมพันธ์จะเป็นทางตรง ถ้า b<0, то связь обратная). Величина b показывает на сколько единиц изменится в среднем признак-результат -y при изменении признака-фактора - х на 1 единицу своего измерения.
อย่างเป็นทางการ ค่าของพารามิเตอร์ a คือค่าเฉลี่ยของ y โดยที่ x เท่ากับศูนย์ หากแอตทริบิวต์-ปัจจัยไม่มีและไม่สามารถมีค่าเป็นศูนย์ได้ การตีความพารามิเตอร์ a ข้างต้นก็ไม่สมเหตุสมผล

การประเมินความใกล้ชิดของความสัมพันธ์ระหว่างคุณลักษณะ ดำเนินการโดยใช้สัมประสิทธิ์สหสัมพันธ์เชิงเส้นคู่ - r x,y สามารถคำนวณได้โดยใช้สูตร: . นอกจากนี้ ค่าสัมประสิทธิ์สหสัมพันธ์คู่เชิงเส้นสามารถหาได้จากค่าสัมประสิทธิ์การถดถอย b: .
ช่วงของค่าที่ยอมรับได้ของค่าสัมประสิทธิ์สหสัมพันธ์เชิงเส้นคือตั้งแต่ –1 ถึง +1 สัญลักษณ์ของค่าสัมประสิทธิ์สหสัมพันธ์บ่งบอกถึงทิศทางของความสัมพันธ์ ถ้า r x, y >0 แสดงว่าการเชื่อมต่อเป็นแบบตรง ถ้า r x, y<0, то связь обратная.
หากสัมประสิทธิ์นี้ใกล้เคียงกับความสามัคคีในขนาด ความสัมพันธ์ระหว่างคุณลักษณะต่างๆ ก็สามารถตีความได้ว่าเป็นความสัมพันธ์เชิงเส้นที่ค่อนข้างใกล้เคียงกัน หากโมดูลมีค่าเท่ากับหนึ่ง ê r x , y ê =1 ความสัมพันธ์ระหว่างคุณลักษณะต่างๆ จะเป็นเชิงเส้นเชิงฟังก์ชัน หากจุดสนใจ x และ y มีความเป็นอิสระเชิงเส้น ดังนั้น r x,y จะใกล้เคียงกับ 0
ในการคำนวณ r x,y คุณสามารถใช้ตารางที่ 1 ได้เช่นกัน

ตารางที่ 1

ไม่มีข้อสังเกตx ฉันใช่แล้วx ฉัน ∙y ฉัน
1 x1คุณ 1x 1 ปี 1
2 x2คุณ 2x 2 ปี 2
...
nเอ็กซ์เอ็นใช่x ไม่ ใช่
ผลรวมคอลัมน์∑x∑ใช่∑xy
ค่าเฉลี่ย
เพื่อประเมินคุณภาพของสมการการถดถอยที่เกิดขึ้น ให้คำนวณค่าสัมประสิทธิ์การกำหนดทางทฤษฎี - R 2 yx:

,
โดยที่ d 2 คือความแปรปรวนของ y อธิบายโดยสมการถดถอย
e 2 - ความแปรปรวนของ y ที่เหลือ (ไม่ได้อธิบายโดยสมการถดถอย)
s 2 y - ผลต่างรวม (ทั้งหมด) ของ y
ค่าสัมประสิทธิ์การกำหนดลักษณะสัดส่วนของความแปรผัน (การกระจายตัว) ของคุณลักษณะผลลัพธ์ y อธิบายโดยการถดถอย (และด้วยเหตุนี้ ตัวประกอบ x) ในรูปแบบรวม (การกระจายตัว) y ค่าสัมประสิทธิ์การกำหนด R 2 yx ใช้ค่าตั้งแต่ 0 ถึง 1 ดังนั้นค่า 1-R 2 yx จะแสดงลักษณะของสัดส่วนของความแปรปรวน y ที่เกิดจากอิทธิพลของปัจจัยอื่น ๆ ที่ไม่ได้คำนึงถึงในแบบจำลองและข้อผิดพลาดของข้อกำหนด
ด้วยการถดถอยเชิงเส้นคู่ R 2 yx = r 2 yx

100 รูเบิลโบนัสสำหรับการสั่งซื้อครั้งแรก

เลือกประเภทงาน งานอนุปริญญา งานหลักสูตร บทคัดย่อ วิทยานิพนธ์ระดับปริญญาโท รายงานการปฏิบัติ บทความ รายงาน ทบทวน งานทดสอบ เอกสาร การแก้ปัญหา แผนธุรกิจ คำตอบสำหรับคำถาม งานสร้างสรรค์ การเขียนเรียงความ การเขียนเรียงความ การแปล การนำเสนอ การพิมพ์ อื่น ๆ การเพิ่มเอกลักษณ์ของข้อความ วิทยานิพนธ์ปริญญาโท งานห้องปฏิบัติการ ความช่วยเหลือออนไลน์

ค้นหาราคา

วิธีกำลังสองน้อยที่สุดเป็นเทคนิคทางคณิตศาสตร์ (ทางคณิตศาสตร์-สถิติ) ที่ใช้ในการจัดลำดับอนุกรมเวลา ระบุรูปแบบของความสัมพันธ์ระหว่างตัวแปรสุ่ม ฯลฯ ประกอบด้วยข้อเท็จจริงที่ว่าฟังก์ชันที่อธิบายปรากฏการณ์ที่กำหนดนั้นประมาณด้วยฟังก์ชันที่ง่ายกว่า ยิ่งไปกว่านั้น ค่าหลังถูกเลือกในลักษณะที่ค่าเบี่ยงเบนมาตรฐาน (ดูการกระจายตัว) ของระดับที่แท้จริงของฟังก์ชันที่จุดที่สังเกตได้จากค่าที่อยู่ในแนวเดียวกันนั้นมีค่าน้อยที่สุด

ตัวอย่างเช่นตามข้อมูลที่มีอยู่ ( ซี,ยี่) (ฉัน = 1, 2, ..., n) เส้นโค้งดังกล่าวถูกสร้างขึ้น = + บีเอ็กซ์ซึ่งจะได้ผลรวมขั้นต่ำของการเบี่ยงเบนกำลังสอง

กล่าวคือ ฟังก์ชันที่ขึ้นอยู่กับพารามิเตอร์สองตัวจะถูกย่อให้เล็กสุด: - ส่วนบนแกนกำหนดและ - ความชันของเส้นตรง

สมการที่ให้เงื่อนไขที่จำเป็นสำหรับการลดฟังก์ชัน (,) เรียกว่า สมการปกติในการประมาณฟังก์ชันนั้น ไม่เพียงแต่ใช้เชิงเส้น (การจัดแนวตามเส้นตรง) แต่ยังใช้กำลังสอง พาราโบลา เอ็กซ์โปเนนเชียล ฯลฯ ด้วย สำหรับตัวอย่างการจัดอนุกรมเวลาตามแนวเส้นตรง โปรดดูรูป ม.2 โดยที่ผลรวมของระยะยกกำลังสอง ( 1 – ų 1)2 + ( 2 – ų 2)2 .... มีค่าน้อยที่สุด และเส้นตรงที่ได้จะสะท้อนแนวโน้มของชุดการสังเกตแบบไดนามิกของตัวบ่งชี้บางตัวเมื่อเวลาผ่านไปได้ดีที่สุด

สำหรับการประมาณค่า OLS ที่เป็นกลาง มีความจำเป็นและเพียงพอในการตอบสนองเงื่อนไขที่สำคัญที่สุดของการวิเคราะห์การถดถอย: ความคาดหวังทางคณิตศาสตร์ของข้อผิดพลาดแบบสุ่มตามเงื่อนไขของปัจจัย จะต้องเท่ากับศูนย์ โดยเฉพาะอย่างยิ่งจะตรงตามเงื่อนไขนี้หาก: 1.ความคาดหวังทางคณิตศาสตร์ของข้อผิดพลาดแบบสุ่มเป็นศูนย์ และ 2.ปัจจัยและข้อผิดพลาดแบบสุ่มเป็นตัวแปรสุ่มอิสระ เงื่อนไขแรกสามารถถือว่าเป็นไปตามเงื่อนไขเสมอสำหรับโมเดลที่มีค่าคงที่ เนื่องจากค่าคงที่นั้นใช้การคาดการณ์ข้อผิดพลาดทางคณิตศาสตร์ที่ไม่เป็นศูนย์ เงื่อนไขที่สอง - เงื่อนไขของปัจจัยภายนอก - เป็นเงื่อนไขพื้นฐาน หากไม่ตรงตามคุณสมบัตินี้ เราสามารถสรุปได้ว่าการประมาณการเกือบทั้งหมดจะไม่เป็นที่น่าพอใจอย่างยิ่ง โดยจะไม่สอดคล้องกันด้วยซ้ำ (นั่นคือ แม้แต่ข้อมูลจำนวนมากก็ไม่อนุญาตให้เรารับการประมาณการคุณภาพสูงในกรณีนี้ ).

วิธีการประมาณค่าพารามิเตอร์ของสมการถดถอยทางสถิติที่ใช้กันมากที่สุดคือวิธีกำลังสองน้อยที่สุด วิธีการนี้ตั้งอยู่บนสมมติฐานหลายประการเกี่ยวกับลักษณะของข้อมูลและผลลัพธ์ของแบบจำลอง สิ่งสำคัญคือการแบ่งที่ชัดเจนของตัวแปรดั้งเดิมเป็นแบบขึ้นอยู่กับและอิสระ, ความไม่สัมพันธ์กันของปัจจัยที่รวมอยู่ในสมการ, ความเป็นเส้นตรงของความสัมพันธ์, การไม่มีความสัมพันธ์อัตโนมัติของส่วนที่เหลือ, ความเท่าเทียมกันของความคาดหวังทางคณิตศาสตร์ของพวกเขาเป็นศูนย์และค่าคงที่ การกระจายตัว

หนึ่งในสมมติฐานหลักของ OLS คือการสันนิษฐานของความเท่าเทียมกันของความแปรปรวนของการเบี่ยงเบน เช่น สเปรดรอบค่าเฉลี่ย (ศูนย์) ของซีรีย์ควรเป็นค่าคงที่ คุณสมบัตินี้เรียกว่าการรักร่วมเพศ ในทางปฏิบัติความแปรปรวนของการเบี่ยงเบนมักจะไม่เท่ากันนั่นคือสังเกตจากความเบี่ยงเบนที่แตกต่างกัน นี่อาจเป็นเพราะสาเหตุหลายประการ ตัวอย่างเช่น อาจมีข้อผิดพลาดในแหล่งข้อมูล ข้อมูลต้นฉบับที่ไม่ถูกต้องเป็นครั้งคราว เช่น ข้อผิดพลาดในลำดับตัวเลข อาจมีผลกระทบอย่างมีนัยสำคัญต่อผลลัพธ์ บ่อยครั้งที่การแพร่กระจายของการเบี่ยงเบนที่มากขึ้น єi ถูกสังเกตด้วยค่าขนาดใหญ่ของตัวแปรตาม (ตัวแปร) หากข้อมูลมีข้อผิดพลาดที่สำคัญ ค่าเบี่ยงเบนของค่าโมเดลที่คำนวณจากข้อมูลที่ผิดพลาดก็จะมีมากเช่นกัน เพื่อกำจัดข้อผิดพลาดนี้ เราจำเป็นต้องลดการมีส่วนร่วมของข้อมูลนี้ในผลการคำนวณ โดยให้น้ำหนักกับข้อมูลเหล่านี้น้อยกว่าข้อมูลอื่นๆ ทั้งหมด แนวคิดนี้ถูกนำไปใช้ใน OLS แบบถ่วงน้ำหนัก