ตามวิธีกำลังสองน้อยที่สุด นิพจน์ต่อไปนี้จะถูกย่อให้เล็กสุด การหาค่าพารามิเตอร์ของเส้นถดถอย

เราประมาณฟังก์ชันด้วยพหุนามดีกรีที่ 2 ในการทำเช่นนี้ เราคำนวณสัมประสิทธิ์ของระบบสมการปกติ:

, ,

มาสร้างระบบธรรมดากันเถอะ สี่เหลี่ยมน้อยที่สุดซึ่งดูเหมือนว่า:

วิธีแก้ปัญหาของระบบหาง่าย:, , .

ดังนั้นจะพบพหุนามของดีกรีที่ 2: .

การอ้างอิงทางทฤษฎี

กลับไปที่หน้า<Введение в вычислительную математику. Примеры>

ตัวอย่าง 2. การหาดีกรีที่เหมาะสมของพหุนาม

กลับไปที่หน้า<Введение в вычислительную математику. Примеры>

ตัวอย่างที่ 3. ที่มาของระบบสมการปกติเพื่อค้นหาพารามิเตอร์ของการพึ่งพาอาศัยกันเชิงประจักษ์

ให้เราหาระบบสมการเพื่อหาค่าสัมประสิทธิ์และฟังก์ชัน ซึ่งทำการประมาณค่ารูต-ค่าเฉลี่ย-กำลังสอง ฟังก์ชันที่กำหนดตามคะแนน เขียนฟังก์ชัน และเขียนถึงเธอ เงื่อนไขที่จำเป็นสุดขั้ว:

แล้ว ระบบปกติจะอยู่ในรูปแบบ:

ได้ ระบบเชิงเส้นสมการสำหรับพารามิเตอร์ที่ไม่รู้จักและแก้ได้ง่าย

การอ้างอิงทางทฤษฎี

กลับไปที่หน้า<Введение в вычислительную математику. Примеры>

ตัวอย่าง.

ข้อมูลการทดลองเกี่ยวกับค่าของตัวแปร Xและ ที่จะได้รับในตาราง

อันเป็นผลมาจากการจัดตำแหน่งฟังก์ชัน

โดยใช้ วิธีกำลังสองน้อยที่สุด, ประมาณข้อมูลเหล่านี้ด้วยการพึ่งพาเชิงเส้น y=ax+b(ค้นหาพารามิเตอร์ เอและ ข). ค้นหาว่าเส้นใดในสองบรรทัดดีกว่า (ในแง่ของวิธีกำลังสองน้อยที่สุด) ที่จัดแนวข้อมูลการทดลอง วาดรูป.

สาระสำคัญของวิธีการกำลังสองน้อยที่สุด (LSM)

ปัญหาคือการหาสัมประสิทธิ์ การพึ่งพาอาศัยกันเชิงเส้นโดยที่ฟังก์ชันของตัวแปรสองตัว เอและ ขยอมรับ ค่าที่น้อยที่สุด. นั่นคือเมื่อได้รับข้อมูล เอและ ขผลรวมของค่าเบี่ยงเบนกำลังสองของข้อมูลการทดลองจากเส้นตรงที่พบจะน้อยที่สุด นี่คือจุดรวมของวิธีกำลังสองน้อยที่สุด

ดังนั้น คำตอบของตัวอย่างจึงลดลงเหลือเพียงการหาค่าสุดโต่งของฟังก์ชันของตัวแปรสองตัว

ที่มาของสูตรการหาค่าสัมประสิทธิ์

ระบบของสมการสองสมการที่มีสองนิรนามถูกรวบรวมและแก้ไข การหาอนุพันธ์บางส่วนของฟังก์ชัน ตามตัวแปร เอและ ขเราให้อนุพันธ์เหล่านี้เท่ากับศูนย์

เราแก้ระบบผลลัพธ์ของสมการด้วยวิธีใดก็ได้ (เช่น วิธีการทดแทนหรือวิธีของแครมเมอร์) และรับสูตรการหาค่าสัมประสิทธิ์โดยใช้วิธีกำลังสองน้อยที่สุด (LSM)

ด้วยข้อมูล เอและ ขการทำงาน ใช้ค่าที่น้อยที่สุด ข้อพิสูจน์ข้อเท็จจริงนี้แสดงไว้ด้านล่างในข้อความท้ายหน้า

นั่นคือวิธีทั้งหมดของกำลังสองน้อยที่สุด สูตรการหาค่าพารามิเตอร์ เอมีผลรวม , , , และพารามิเตอร์ นคือปริมาณข้อมูลการทดลอง แนะนำให้คำนวณค่าของผลรวมเหล่านี้แยกกัน

ค่าสัมประสิทธิ์ ขพบหลังจากการคำนวณ เอ.

ถึงเวลาที่จะจำตัวอย่างเดิม

วิธีการแก้.

ในตัวอย่างของเรา n=5. เรากรอกตารางเพื่อความสะดวกในการคำนวณจำนวนเงินที่รวมอยู่ในสูตรของสัมประสิทธิ์ที่ต้องการ

ค่าในแถวที่สี่ของตารางนั้นได้มาจากการคูณค่าของแถวที่ 2 ด้วยค่าของแถวที่ 3 สำหรับแต่ละตัวเลข ผม.

ค่าในแถวที่ห้าของตารางนั้นได้มาจากการยกกำลังสองค่าของแถวที่ 2 สำหรับแต่ละตัวเลข ผม.

ค่าของคอลัมน์สุดท้ายของตารางคือผลรวมของค่าในแถวต่างๆ

เราใช้สูตรของวิธีกำลังสองน้อยที่สุดเพื่อหาสัมประสิทธิ์ เอและ ข. เราแทนที่ค่าที่สอดคล้องกันจากคอลัมน์สุดท้ายของตาราง:

เพราะเหตุนี้, y=0.165x+2.184เป็นเส้นตรงโดยประมาณที่ต้องการ

มันยังคงที่จะหาว่าเส้นไหน y=0.165x+2.184หรือ ประมาณข้อมูลเดิมได้ดีขึ้น เช่น ประมาณการโดยใช้วิธีกำลังสองน้อยที่สุด

การประมาณค่าความผิดพลาดของวิธีกำลังสองน้อยที่สุด

ในการทำเช่นนี้ คุณต้องคำนวณผลรวมของการเบี่ยงเบนกำลังสองของข้อมูลดั้งเดิมจากเส้นเหล่านี้ และ ค่าที่น้อยกว่าจะสอดคล้องกับเส้นที่ใกล้เคียงกับข้อมูลดั้งเดิมได้ดีกว่าในแง่ของวิธีกำลังสองน้อยที่สุด

ตั้งแต่ แล้วบรรทัด y=0.165x+2.184ใกล้เคียงกับข้อมูลเดิมได้ดีขึ้น

ภาพประกอบกราฟิกของวิธีกำลังสองน้อยที่สุด (LSM)

ทุกอย่างดูดีบนแผนภูมิ เส้นสีแดงคือเส้นที่พบ y=0.165x+2.184, เส้นสีน้ำเงินคือ , จุดสีชมพูเป็นข้อมูลดั้งเดิม

มีไว้เพื่ออะไร ค่าประมาณเหล่านี้มีไว้เพื่ออะไร

โดยส่วนตัวแล้วฉันใช้เพื่อแก้ปัญหาความเรียบของข้อมูล ปัญหาการประมาณค่าและการอนุมาน (ในตัวอย่างเดิม คุณอาจถูกขอให้ค้นหาค่าของค่าที่สังเกตได้ yที่ x=3หรือเมื่อไหร่ x=6ตามวิธี MNC) แต่เราจะพูดถึงเรื่องนี้ในภายหลังในส่วนอื่นของเว็บไซต์

ด้านบนของหน้า

การพิสูจน์.

เพื่อว่าเมื่อพบแล้ว เอและ ขฟังก์ชั่นใช้ค่าที่น้อยที่สุด ณ จุดนี้เมทริกซ์ของรูปแบบกำลังสองของส่วนต่างอันดับสองสำหรับฟังก์ชัน เป็นบวกแน่นอน เอามาโชว์กัน

ความแตกต่างของลำดับที่สองมีรูปแบบ:

นั่นคือ

ดังนั้นเมทริกซ์ของรูปแบบกำลังสองจึงมีรูปแบบ

และค่าขององค์ประกอบไม่ได้ขึ้นอยู่กับ เอและ ข.

ให้เราแสดงว่าเมทริกซ์เป็นค่าบวกแน่นอน สิ่งนี้ต้องการให้มุมรองลงมาเป็นค่าบวก

เล็กน้อยเชิงมุมของคำสั่งแรก . ความไม่เท่าเทียมกันนั้นเข้มงวด เนื่องจากประเด็นไม่ตรงกัน นี้จะบอกเป็นนัยในสิ่งต่อไปนี้

เล็กน้อยเชิงมุมของลำดับที่สอง

มาพิสูจน์กัน วิธีการเหนี่ยวนำทางคณิตศาสตร์

บทสรุป: พบค่า เอและ ขสอดคล้องกับค่าที่น้อยที่สุดของฟังก์ชัน จึงเป็นพารามิเตอร์ที่ต้องการสำหรับวิธีกำลังสองน้อยที่สุด

เคยเข้าใจไหม?
สั่งซื้อโซลูชัน

ด้านบนของหน้า

การพัฒนาการคาดการณ์โดยใช้วิธีกำลังสองน้อยที่สุด ตัวอย่างการแก้ปัญหา

การคาดการณ์ เป็นวิธีการ การวิจัยทางวิทยาศาสตร์ซึ่งขึ้นอยู่กับการกระจายของแนวโน้มในอดีตและปัจจุบัน รูปแบบ ความสัมพันธ์กับการพัฒนาในอนาคตของวัตถุพยากรณ์ วิธีการคาดการณ์ ได้แก่ วิธีเฉลี่ยเคลื่อนที่ วิธี การปรับให้เรียบแบบเลขชี้กำลังวิธีกำลังสองน้อยที่สุด

แก่นแท้ วิธีกำลังสองน้อยที่สุด ประกอบด้วยการลดจำนวนรวม ค่าเบี่ยงเบนมาตรฐานระหว่างค่าที่สังเกตได้และค่าที่คำนวณได้ หาค่าที่คำนวณได้ตามสมการที่เลือก - สมการถดถอย ยิ่งระยะห่างระหว่างค่าจริงกับค่าที่คำนวณได้น้อยเท่าไร การคาดการณ์ตามสมการถดถอยก็ยิ่งแม่นยำมากขึ้นเท่านั้น

การวิเคราะห์เชิงทฤษฎีของสาระสำคัญของปรากฏการณ์ที่กำลังศึกษา การเปลี่ยนแปลงที่แสดงโดยอนุกรมเวลาทำหน้าที่เป็นพื้นฐานสำหรับการเลือกเส้นโค้ง บางครั้งการพิจารณาเกี่ยวกับธรรมชาติของการเติบโตของระดับของซีรีส์ก็ถูกนำมาพิจารณาด้วย ดังนั้นหากคาดการณ์การเติบโตของผลผลิตใน ความก้าวหน้าทางคณิตศาสตร์จากนั้นปรับให้เรียบเป็นเส้นตรง หากปรากฎว่าการเติบโตอยู่ใน ความก้าวหน้าทางเรขาคณิตควรทำการปรับให้เรียบตามฟังก์ชันเลขชี้กำลัง

สูตรการทำงานของวิธีกำลังสองน้อยที่สุด : Y t+1 = a*X + bโดยที่ t + 1 คือระยะเวลาคาดการณ์ Уt+1 – ตัวบ่งชี้ที่คาดการณ์ไว้; a และ b เป็นสัมประสิทธิ์; เอ็กซ์ - เครื่องหมายเวลา.

ค่าสัมประสิทธิ์ a และ b คำนวณตามสูตรต่อไปนี้:

โดยที่ Uf - ค่าที่แท้จริงของชุดไดนามิก n คือจำนวนระดับในอนุกรมเวลา

การปรับอนุกรมเวลาให้เรียบโดยวิธีกำลังสองน้อยที่สุดทำหน้าที่สะท้อนรูปแบบการพัฒนาของปรากฏการณ์ที่กำลังศึกษาอยู่ ในนิพจน์การวิเคราะห์ของแนวโน้ม เวลาถือเป็นตัวแปรอิสระ และระดับของอนุกรมทำหน้าที่เป็นฟังก์ชันของตัวแปรอิสระนี้

การพัฒนาของปรากฏการณ์ไม่ได้ขึ้นอยู่กับว่าผ่านไปกี่ปีนับจากจุดเริ่มต้น แต่ขึ้นอยู่กับปัจจัยใดบ้างที่มีอิทธิพลต่อการพัฒนาของมัน ในทิศทางใดและความรุนแรงระดับใด จากนี้เป็นที่ชัดเจนว่าการพัฒนาของปรากฏการณ์ในเวลาปรากฏขึ้นอันเป็นผลมาจากการกระทำของปัจจัยเหล่านี้

กำหนดประเภทของเส้นโค้งอย่างถูกต้อง ประเภทของการวิเคราะห์ขึ้นอยู่กับเวลามากที่สุด งานที่ท้าทายการวิเคราะห์เชิงทำนาย .

การเลือกประเภทของฟังก์ชันที่อธิบายแนวโน้ม พารามิเตอร์ที่กำหนดโดยวิธีกำลังสองน้อยที่สุด ในกรณีส่วนใหญ่เป็นเชิงประจักษ์ โดยการสร้างฟังก์ชันจำนวนหนึ่งและเปรียบเทียบกันด้วยค่าของค่าเฉลี่ยราก ข้อผิดพลาด -square คำนวณโดยสูตร:

โดยที่ Uf - ค่าจริงของชุดไดนามิก Ur – ค่าที่คำนวณ (เรียบ) ของอนุกรมเวลา n คือจำนวนระดับในอนุกรมเวลา p คือจำนวนพารามิเตอร์ที่กำหนดในสูตรที่อธิบายแนวโน้ม (แนวโน้มการพัฒนา)

ข้อเสียของวิธีกำลังสองน้อยที่สุด :

เมื่อพยายามอธิบายปรากฏการณ์ทางเศรษฐกิจภายใต้การศึกษาโดยใช้ สมการทางคณิตศาสตร์การคาดการณ์จะแม่นยำในช่วงเวลาสั้นๆ และควรคำนวณสมการถดถอยใหม่เมื่อมีข้อมูลใหม่
ความซับซ้อนของการเลือกสมการถดถอยซึ่งแก้ได้โดยใช้โปรแกรมคอมพิวเตอร์มาตรฐาน

ตัวอย่างการใช้วิธีกำลังสองน้อยที่สุดในการพัฒนาการพยากรณ์

งาน . มีข้อมูลระบุระดับการว่างงานในภูมิภาค %

สร้างการคาดการณ์อัตราการว่างงานในภูมิภาคสำหรับเดือนพฤศจิกายน ธันวาคม มกราคม โดยใช้วิธีการ: ค่าเฉลี่ยเคลื่อนที่, การปรับให้เรียบแบบเอ็กซ์โปเนนเชียล, กำลังสองน้อยที่สุด
คำนวณข้อผิดพลาดในการคาดการณ์ผลลัพธ์โดยใช้แต่ละวิธี
เปรียบเทียบผลลัพธ์ที่ได้ แล้วสรุปผล

สารละลายกำลังสองน้อยที่สุด

สำหรับวิธีแก้ปัญหา เราจะรวบรวมตารางที่เราจะทำการคำนวณที่จำเป็น:

ε = 28.63/10 = 2.86% คาดการณ์ความแม่นยำสูง.

บทสรุป : เปรียบเทียบผลลัพธ์ที่ได้จากการคำนวณ วิธีค่าเฉลี่ยเคลื่อนที่ , การปรับให้เรียบแบบเลขชี้กำลัง และวิธีกำลังสองน้อยที่สุด เราสามารถพูดได้ว่าค่าเฉลี่ย ข้อผิดพลาดสัมพัทธ์เมื่อคำนวณโดยวิธีการปรับให้เรียบแบบเอ็กซ์โปเนนเชียลจะอยู่ในช่วง 20-50% ซึ่งหมายความว่าความแม่นยำในการทำนาย กรณีนี้เป็นที่น่าพอใจเท่านั้น

ในกรณีแรกและกรณีที่สาม ความแม่นยำในการคาดการณ์สูง เนื่องจากข้อผิดพลาดสัมพัทธ์เฉลี่ยน้อยกว่า 10% แต่วิธีค่าเฉลี่ยเคลื่อนที่ทำให้ได้ผลลัพธ์ที่น่าเชื่อถือมากขึ้น (การคาดการณ์สำหรับเดือนพฤศจิกายน - 1.52%, การคาดการณ์สำหรับเดือนธันวาคม - 1.53%, การพยากรณ์สำหรับเดือนมกราคม - 1.49%) เนื่องจากข้อผิดพลาดสัมพัทธ์เฉลี่ยเมื่อใช้วิธีนี้มีขนาดเล็กที่สุด - 1 ,13%.

วิธีกำลังสองน้อยที่สุด

บทความที่เกี่ยวข้องอื่นๆ:

รายการแหล่งที่ใช้

คำแนะนำทางวิทยาศาสตร์และระเบียบวิธีในการวินิจฉัยความเสี่ยงทางสังคมและการคาดการณ์ความท้าทาย ภัยคุกคาม และ ผลกระทบทางสังคม. รัฐรัสเซีย มหาวิทยาลัยสังคม. มอสโก 2010;
Vladimirova L.P. การพยากรณ์และการวางแผนในสภาวะตลาด: Proc. เบี้ยเลี้ยง. ม.: สำนักพิมพ์"Dashkov and Co", 2544;
Novikova N.V. , Pozdeeva O.G. พยากรณ์ เศรษฐกิจของประเทศ: สื่อการสอน. เยคาเตรินเบิร์ก: สำนักพิมพ์อูราล สถานะ เศรษฐกิจ มหาวิทยาลัย 2550;
Slutskin แอล.เอ็น. หลักสูตร MBA ในการพยากรณ์ธุรกิจ มอสโก: หนังสือธุรกิจ Alpina, 2549

โครงการ MNE

ป้อนข้อมูล

ข้อมูลและการประมาณค่า y = a + b x

ผม- จำนวนจุดทดลอง
x ฉัน- ค่าของพารามิเตอร์คงที่ ณ จุด ผม;
ฉัน- ค่าของพารามิเตอร์ที่วัดได้ ณ จุด ผม;
ω ฉัน- วัดน้ำหนักที่จุด ผม;
ฉัน, คำนวณ.- ความแตกต่างระหว่างค่าที่วัดได้กับค่าที่คำนวณจากการถดถอย yณ จุดนั้น ผม;
ส x ผม (x ผม)- ประมาณการข้อผิดพลาด x ฉันเมื่อวัด yณ จุดนั้น ผม.

ข้อมูลและการประมาณค่า y = k x

ผม	x ฉัน	ฉัน	ω ฉัน	ฉัน, คำนวณ.	Δy ฉัน	ส x ผม (x ผม)

คลิกที่แผนภูมิ

คู่มือผู้ใช้สำหรับโปรแกรมออนไลน์ของ MNC

ในฟิลด์ข้อมูล ป้อนค่า `x` และ `y` ในแต่ละบรรทัดแยกกันที่จุดทดลองจุดเดียว ค่าจะต้องคั่นด้วยช่องว่าง (ช่องว่างหรือแท็บ)

ค่าที่สามอาจเป็นน้ำหนักจุดของ "w" หากไม่ได้ระบุน้ำหนักจุด จะเท่ากับหนึ่ง ในกรณีส่วนใหญ่ ไม่ทราบน้ำหนักของจุดทดสอบหรือไม่ได้คำนวณ ข้อมูลการทดลองทั้งหมดถือว่าเทียบเท่า บางครั้งน้ำหนักในช่วงค่าที่ศึกษานั้นไม่เท่ากันและสามารถคำนวณได้ในทางทฤษฎี ตัวอย่างเช่น ในสเปกโตรโฟโตเมตรี สามารถคำนวณน้ำหนักได้โดยใช้สูตรง่ายๆ แม้ว่าโดยทั่วไปแล้ว ทุกคนจะละเลยสิ่งนี้เพื่อลดต้นทุนแรงงาน

สามารถวางข้อมูลผ่านคลิปบอร์ดจากสเปรดชีตชุดสำนักงาน เช่น Excel จาก Microsoft Office หรือ Calc จาก Open Office สำหรับสิ่งนี้ใน สเปรดชีตเน้นช่วงของข้อมูลที่จะคัดลอก คัดลอกไปยังคลิปบอร์ด และวางข้อมูลลงในช่องข้อมูลในหน้านี้

ในการคำนวณด้วยวิธีกำลังสองน้อยที่สุด ต้องมีจุดอย่างน้อยสองจุดเพื่อกำหนดสองสัมประสิทธิ์ "b" - แทนเจนต์ของมุมเอียงของเส้นตรงและ "a" - ค่าที่ตัดโดยเส้นตรงบน "y ` แกน

ในการประมาณค่าความผิดพลาดของสัมประสิทธิ์การถดถอยที่คำนวณได้ จำเป็นต้องกำหนดจำนวนจุดทดสอบให้มากกว่าสองจุด

วิธีกำลังสองน้อยที่สุด (LSM)

ยิ่งจำนวนจุดทดลองมากเท่าไหร่ก็ยิ่งแม่นยำมากขึ้นเท่านั้น การประเมินทางสถิติค่าสัมประสิทธิ์ (เนื่องจากค่าสัมประสิทธิ์ของนักเรียนลดลง) และค่าประมาณที่ใกล้เคียงกับค่าประมาณของกลุ่มตัวอย่างทั่วไป

การได้รับค่าในแต่ละจุดทดลองมักเกี่ยวข้องกับต้นทุนแรงงานที่มีนัยสำคัญ ดังนั้นจึงมักมีการทดลองหลายครั้งซึ่งประนีประนอม ซึ่งให้ค่าประมาณที่ย่อยได้และไม่นำไปสู่ต้นทุนแรงงานที่มากเกินไป ตามกฎแล้ว จำนวนจุดทดลองสำหรับการพึ่งพากำลังสองน้อยที่สุดเชิงเส้นที่มีสองสัมประสิทธิ์จะถูกเลือกในพื้นที่ 5-7 จุด

ทฤษฎีสั้น ๆ ของกำลังสองน้อยที่สุดสำหรับการพึ่งพาอาศัยกันเชิงเส้น

สมมติว่าเรามีชุดข้อมูลการทดลองในรูปแบบของคู่ของค่า [`y_i`, `x_i`] โดยที่ `i` คือจำนวนหนึ่งของการวัดผลการทดลองตั้งแต่ 1 ถึง `n`; `y_i` - ค่าของค่าที่วัดได้ ณ จุด `i`; `x_i` - ค่าของพารามิเตอร์ที่เราตั้งไว้ที่จุด `i`

ตัวอย่างคือการดำเนินการของกฎของโอห์ม โดยการเปลี่ยนแรงดันไฟฟ้า (ความต่างศักย์) ระหว่างส่วนต่างๆ วงจรไฟฟ้าเราวัดปริมาณกระแสที่ไหลผ่านส่วนนี้ ฟิสิกส์ทำให้เราพบการพึ่งพาจากการทดลอง:

`ฉัน=U/R`,
โดยที่ `ฉัน` - ความแข็งแกร่งในปัจจุบัน `R` - ความต้านทาน; `U` - แรงดันไฟฟ้า

ในกรณีนี้ "y_i" คือค่าปัจจุบันที่วัดได้ และ "x_i" คือค่าแรงดันไฟฟ้า

อีกตัวอย่างหนึ่ง ให้พิจารณาการดูดกลืนแสงโดยสารละลายของสารในสารละลาย เคมีทำให้เรามีสูตร:

`A = εl C`,
โดยที่ `A' คือความหนาแน่นเชิงแสงของสารละลาย `ε` - การส่งผ่านตัวถูกละลาย; `l` - ความยาวเส้นทางเมื่อแสงผ่านคิวเวตต์ด้วยสารละลาย `C` คือความเข้มข้นของตัวถูกละลาย

ในกรณีนี้ "y_i" คือความหนาแน่นของแสงที่วัดได้ "A" และ "x_i" คือความเข้มข้นของสารที่เราตั้งค่าไว้

เราจะพิจารณากรณีที่ข้อผิดพลาดสัมพัทธ์ในการตั้งค่า `x_i` นั้นเล็กกว่ามาก ข้อผิดพลาดสัมพัทธ์การวัด `y_i` นอกจากนี้เรายังจะถือว่าค่าที่วัดได้ทั้งหมดของ `y_i` นั้นสุ่มและกระจายตามปกติเช่น เชื่อฟัง กฎหมายปกติการกระจาย.

ในกรณีของการพึ่งพาเชิงเส้นของ "y" บน "x" เราสามารถเขียนการพึ่งพาทางทฤษฎีได้:
`y = a + bx`

จาก จุดเรขาคณิตมุมมอง สัมประสิทธิ์ `b' หมายถึงแทนเจนต์ของมุมเอียงของเส้นกับแกน `x` และสัมประสิทธิ์ `a` - ค่าของ 'y' ที่จุดตัดของเส้นที่มีเครื่องหมาย ` แกน y` (สำหรับ `x = 0`)

การหาค่าพารามิเตอร์ของเส้นถดถอย

ในการทดลอง ค่าที่วัดได้ของ "y_i" ไม่สามารถอยู่บนเส้นทฤษฎีได้อย่างแม่นยำเนื่องจากข้อผิดพลาดในการวัดซึ่งมีอยู่ใน ชีวิตจริง. ดังนั้น สมการเชิงเส้นต้องแสดงด้วยระบบสมการ:
`y_i = a + b x_i + ε_i` (1),
โดยที่ `ε_i` คือข้อผิดพลาดในการวัดที่ไม่รู้จักของ `y' ในการทดลองที่ `i`

การพึ่งพา (1) เรียกอีกอย่างว่า การถดถอย, เช่น. การพึ่งพาอาศัยกันของปริมาณทั้งสองที่มีนัยสำคัญทางสถิติ

งานในการกู้คืนการพึ่งพาอาศัยกันคือการหาสัมประสิทธิ์ `a` และ `b` จากจุดทดลอง [`y_i`, `x_i`]

ในการหาค่าสัมประสิทธิ์ `a` และ `b` มักจะใช้ วิธีกำลังสองน้อยที่สุด(เอ็มเค). เป็นกรณีพิเศษของหลักการความน่าจะเป็นสูงสุด

ลองเขียน (1) ใหม่เป็น `ε_i = y_i - a - b x_i`

จากนั้นผลรวมของข้อผิดพลาดกำลังสองจะเป็น
`Φ = ผลรวม_(i=1)^(n) ε_i^2 = ผลรวม_(i=1)^(n) (y_i - a - b x_i)^2` (2)

หลักการของวิธีกำลังสองน้อยที่สุดคือการย่อผลรวม (2) ให้น้อยที่สุดตามพารามิเตอร์ "a" และ "b".

ถึงค่าต่ำสุดเมื่ออนุพันธ์บางส่วนของผลรวม (2) เทียบกับค่าสัมประสิทธิ์ "a" และ "b" เท่ากับศูนย์:
`frac(บางส่วน Φ)(บางส่วน) = frac(ผลรวมบางส่วน_(i=1)^(n) (y_i - a - b x_i)^2)(บางส่วน a) = 0`
`frac(partial Φ)(partial b) = frac(partial sum_(i=1)^(n) (y_i - a - b x_i)^2)(partial b) = 0`

การขยายอนุพันธ์ เราได้ระบบสมการสองสมการที่ไม่ทราบค่าสองค่า:
`sum_(i=1)^(n) (2a + 2bx_i - 2y_i) = sum_(i=1)^(n) (a + bx_i - y_i) = 0`
`sum_(i=1)^(n) (2bx_i^2 + 2ax_i - 2x_iy_i) = sum_(i=1)^(n) (bx_i^2 + ax_i - x_iy_i) = 0`

เราเปิดวงเล็บและโอนผลรวมที่ไม่ขึ้นกับสัมประสิทธิ์ที่ต้องการไปยังอีกครึ่งหนึ่ง เราจะได้ระบบสมการเชิงเส้น:
`sum_(i=1)^(n) y_i = a n + b sum_(i=1)^(n) bx_i`
`sum_(i=1)^(n) x_iy_i = ผลรวม _(i=1)^(n) x_i + b sum_(i=1)^(n) x_i^2`

ในการแก้ระบบผลลัพธ์ เราพบสูตรสำหรับสัมประสิทธิ์ "a" และ "b":

`a = frac(sum_(i=1)^(n) y_i sum_(i=1)^(n) x_i^2 - sum_(i=1)^(n) x_i sum_(i=1)^(n ) x_iy_i) (n sum_(i=1)^(n) x_i^2 — (sum_(i=1)^(n) x_i)^2)` (3.1)

`b = frac(n sum_(i=1)^(n) x_iy_i - sum_(i=1)^(n) x_i sum_(i=1)^(n) y_i) (n sum_(i=1)^ (n) x_i^2 - (sum_(i=1)^(n) x_i)^2)` (3.2)

สูตรเหล่านี้มีคำตอบเมื่อ `n > 1` (สามารถวาดเส้นได้อย่างน้อย 2 จุด) และเมื่อดีเทอร์มิแนนต์ `D = n sum_(i=1)^(n) x_i^2 — (sum_(i= 1 )^(n) x_i)^2 != 0` เช่น เมื่อจุด `x_i` ในการทดสอบต่างกัน (เช่น เมื่อเส้นไม่อยู่ในแนวตั้ง)

การประมาณค่าความผิดพลาดในสัมประสิทธิ์ของเส้นถดถอย

สำหรับการประมาณค่าความผิดพลาดที่แม่นยำยิ่งขึ้นในการคำนวณค่าสัมประสิทธิ์ `a` และ `b` เป็นที่พึงปรารถนา จำนวนมากของจุดทดลอง เมื่อ `n = 2' เป็นไปไม่ได้ที่จะประมาณความคลาดเคลื่อนของสัมประสิทธิ์เพราะ เส้นโดยประมาณจะผ่านจุดสองจุดโดยไม่ซ้ำกัน

ข้อผิดพลาด ตัวแปรสุ่ม`V` ถูกกำหนด กฎการสะสมข้อผิดพลาด
`S_V^2 = ผลรวม_(i=1)^p (frac(บางส่วน f)(บางส่วน z_i))^2 S_(z_i)^2`,
โดยที่ `p` คือจำนวนของพารามิเตอร์ `z_i` ที่มีข้อผิดพลาด `S_(z_i)` ที่ส่งผลต่อข้อผิดพลาด `S_V`
`f` เป็นฟังก์ชันการพึ่งพาของ `V` บน `z_i`

ลองเขียนกฎการสะสมข้อผิดพลาดสำหรับข้อผิดพลาดของสัมประสิทธิ์ `a` และ `b`
`S_a^2 = sum_(i=1)^(n)(frac(บางส่วน a)(บางส่วน y_i))^2 S_(y_i)^2 + sum_(i=1)^(n)(frac(บางส่วน a )(บางส่วน x_i))^2 S_(x_i)^2 = S_y^2 ผลรวม_(i=1)^(n)(frac(บางส่วน)(บางส่วน y_i))^2 `,
`S_b^2 = sum_(i=1)^(n)(frac(partial b)(partial y_i))^2 S_(y_i)^2 + sum_(i=1)^(n)(frac(partial b) )(บางส่วน x_i))^2 S_(x_i)^2 = S_y^2 ผลรวม_(i=1)^(n)(frac(บางส่วน b)(บางส่วน y_i))^2 `,
เพราะ `S_(x_i)^2 = 0` (ก่อนหน้านี้เราได้จองไว้ว่าข้อผิดพลาดของ `x` นั้นเล็กน้อย)

`S_y^2 = S_(y_i)^2` - ข้อผิดพลาด (ความแปรปรวน, กำลังสอง ส่วนเบี่ยงเบนมาตรฐาน) ในมิติ "y" โดยถือว่าข้อผิดพลาดมีความสม่ำเสมอสำหรับค่า "y" ทั้งหมด

แทนที่สูตรสำหรับการคำนวณ `a` และ `b` ลงในนิพจน์ผลลัพธ์ เราจะได้

`S_a^2 = S_y^2 frac(sum_(i=1)^(n) (sum_(i=1)^(n) x_i^2 - x_i sum_(i=1)^(n) x_i)^2 ) (D^2) = S_y^2 frac((n sum_(i=1)^(n) x_i^2 - (sum_(i=1)^(n) x_i)^2) sum_(i=1) ^(n) x_i^2) (D^2) = S_y^2 frac(sum_(i=1)^(n) x_i^2) (D)` (4.1)

`S_b^2 = S_y^2 frac(sum_(i=1)^(n) (n x_i - sum_(i=1)^(n) x_i)^2) (D^2) = S_y^2 frac( n (n sum_(i=1)^(n) x_i^2 - (sum_(i=1)^(n) x_i)^2)) (D^2) = S_y^2 frac(n) (D) ` (4.2)

ในการทดลองจริงส่วนใหญ่ ค่าของ "Sy" จะไม่ถูกวัด ในการทำเช่นนี้ จำเป็นต้องทำการวัดขนานกันหลายๆ ครั้ง (การทดลอง) ที่จุดเดียวหรือหลายจุดของแผน ซึ่งจะเป็นการเพิ่มเวลา (และอาจมีค่าใช้จ่าย) ของการทดสอบ ดังนั้นจึงมักถือว่าค่าเบี่ยงเบนของ 'y' จากเส้นถดถอยสามารถพิจารณาได้แบบสุ่ม ค่าความแปรปรวนโดยประมาณ "y" ในกรณีนี้คำนวณโดยสูตร

`S_y^2 = S_(y, ส่วนที่เหลือ)^2 = frac(sum_(i=1)^n (y_i - a - b x_i)^2) (n-2)`

ตัวหาร `n-2' ปรากฏขึ้นเนื่องจากเราได้ลดจำนวนองศาอิสระลงเนื่องจากการคำนวณค่าสัมประสิทธิ์สองตัวสำหรับตัวอย่างข้อมูลการทดลองเดียวกัน

การประมาณนี้เรียกอีกอย่างว่าความแปรปรวนที่เหลือที่สัมพันธ์กับเส้นถดถอย `S_(y, rest)^2`

การประเมินความสำคัญของสัมประสิทธิ์ดำเนินการตามเกณฑ์ของนักเรียน

`t_a = frac(|a|) (S_a)`, `t_b = frac(|b|) (S_b)`

หากเกณฑ์ที่คำนวณได้ "t_a" "t_b" จะน้อยกว่า เกณฑ์ตาราง`t(P, n-2)` ดังนั้นจึงถือว่าสัมประสิทธิ์ที่สอดคล้องกันไม่แตกต่างจากศูนย์อย่างมีนัยสำคัญโดยมีความน่าจะเป็น `P'

ในการประเมินคุณภาพของคำอธิบายของความสัมพันธ์เชิงเส้น คุณสามารถเปรียบเทียบ `S_(y, rest)^2` และ `S_(bar y)` ที่สัมพันธ์กับค่าเฉลี่ยโดยใช้เกณฑ์ของ Fisher

`S_(บาร์ y) = frac(sum_(i=1)^n (y_i - บาร์ y)^2) (n-1) = frac(sum_(i=1)^n (y_i - (sum_(i=) 1)^n y_i) /n)^2) (n-1)` - การประเมินตัวอย่างความแปรปรวนของ "y" ที่สัมพันธ์กับค่าเฉลี่ย

ในการประเมินประสิทธิภาพของสมการถดถอยเพื่ออธิบายการพึ่งพาอาศัยกัน ค่าสัมประสิทธิ์ฟิชเชอร์จะถูกคำนวณ
`F = S_(บาร์ y) / S_(y, พัก)^2`,
ซึ่งเปรียบเทียบกับค่าสัมประสิทธิ์ฟิชเชอร์แบบตาราง `F(p, n-1, n-2)`

ถ้า `F > F(P, n-1, n-2)` ความแตกต่างระหว่างคำอธิบายของการพึ่งพา `y = f(x)` โดยใช้สมการถดถอยและคำอธิบายโดยใช้ค่าเฉลี่ยจะถือว่ามีนัยสำคัญทางสถิติกับความน่าจะเป็น 'พี' เหล่านั้น. การถดถอยอธิบายการพึ่งพาอาศัยกันได้ดีกว่าการแพร่กระจายของ "y" รอบค่าเฉลี่ย

คลิกที่แผนภูมิ
เพื่อเพิ่มคุณค่าให้กับตาราง

วิธีกำลังสองน้อยที่สุด วิธีการกำลังสองน้อยที่สุดหมายถึงการกำหนดพารามิเตอร์ที่ไม่รู้จัก a, b, c, การพึ่งพาฟังก์ชันที่ยอมรับได้

วิธีการกำลังสองน้อยที่สุดหมายถึงการกำหนดพารามิเตอร์ที่ไม่รู้จัก ก, ข, ค,…ยอมรับการพึ่งพาการทำงาน

y = f(x,a,b,c,…),

ซึ่งจะให้ค่าเฉลี่ยกำลังสอง (ความแปรปรวน) ขั้นต่ำของข้อผิดพลาด

, (24)

โดยที่ x ผม , y ผม - ชุดของตัวเลขที่ได้จากการทดลอง

เนื่องจากเงื่อนไขส่วนปลายของฟังก์ชันของตัวแปรหลายตัวเป็นเงื่อนไขที่อนุพันธ์ย่อยบางส่วนมีค่าเท่ากับศูนย์ ดังนั้นพารามิเตอร์ ก, ข, ค,…ถูกกำหนดจากระบบสมการ:

; ; ; … (25)

ต้องจำไว้ว่าใช้วิธีกำลังสองน้อยที่สุดเพื่อเลือกพารามิเตอร์หลังจากรูปแบบของฟังก์ชัน y = ฉ(x)กำหนดไว้

หากไม่มีข้อสรุปจากการพิจารณาทางทฤษฎีเกี่ยวกับสิ่งที่ควรเป็น สูตรเชิงประจักษ์ก็ต้องทำตาม การแสดงภาพโดยหลักแล้วจะเป็นการแสดงภาพกราฟิกของข้อมูลที่สังเกตได้

ในทางปฏิบัติ ส่วนใหญ่มักจำกัดฟังก์ชันประเภทต่อไปนี้:

1) เชิงเส้น ;

2) กำลังสอง

ถ้าบาง ปริมาณทางกายภาพขึ้นอยู่กับปริมาณอื่น การพึ่งพาอาศัยกันนี้สามารถศึกษาได้โดยการวัด y ที่ ค่านิยมที่แตกต่างกัน x . จากการวัดจะได้ชุดของค่า:

x 1 , x 2 , ..., x i , ... , x n ;

y 1 , y 2 , ..., y ฉัน , ... , y n .

จากข้อมูลของการทดลองดังกล่าว เป็นไปได้ที่จะพล็อตการพึ่งพา y = ƒ(x) เส้นโค้งที่ได้ทำให้สามารถตัดสินรูปแบบของฟังก์ชัน ƒ(x) ได้ อย่างไรก็ตาม ค่าสัมประสิทธิ์คงที่ซึ่งรวมอยู่ในฟังก์ชันนี้ ยังไม่ทราบ สามารถกำหนดได้โดยใช้วิธีกำลังสองน้อยที่สุด ตามกฎแล้วจุดทดสอบไม่ได้อยู่บนเส้นโค้งอย่างแน่นอน วิธีการกำลังสองน้อยที่สุดต้องการให้ผลรวมของการเบี่ยงเบนกำลังสองของจุดทดลองจากเส้นโค้ง กล่าวคือ 2 มีขนาดเล็กที่สุด

ในทางปฏิบัติ วิธีนี้มักใช้บ่อยที่สุด (และง่ายที่สุด) ในกรณีของความสัมพันธ์เชิงเส้น กล่าวคือ เมื่อไร

y=kxหรือ y = a + bx

การพึ่งพาอาศัยกันเชิงเส้นเป็นที่แพร่หลายมากในวิชาฟิสิกส์ และแม้ว่าการพึ่งพาอาศัยกันไม่ใช่เชิงเส้น พวกเขามักจะพยายามสร้างกราฟเพื่อให้ได้เส้นตรง ตัวอย่างเช่น หากสันนิษฐานว่าดัชนีการหักเหของแสงของแก้ว n สัมพันธ์กับความยาวคลื่น λ ของคลื่นแสงโดยความสัมพันธ์ n = a + b/λ 2 การขึ้นต่อกันของ n บน λ -2 จะถูกพล็อตบนกราฟ .

พิจารณาการพึ่งพา y=kx(เส้นตรงผ่านจุดกำเนิด) ให้เราเขียนค่า φ ผลรวมของการเบี่ยงเบนกำลังสองของจุดของเราจากเส้นตรง

ค่าของ φ เป็นบวกเสมอ และกลายเป็นว่ามีค่าน้อยกว่า ยิ่งจุดของเราอยู่ใกล้เส้นตรงมากขึ้น วิธีกำลังสองน้อยที่สุดระบุว่าสำหรับ k ควรเลือกค่าดังกล่าวที่ φ มีค่าต่ำสุด

หรือ
(19)

การคำนวณแสดงว่าข้อผิดพลาด root-mean-square ในการกำหนดค่าของ k เท่ากับ

, (20)
โดยที่ n คือจำนวนมิติ

มาดูอีกสักหน่อย เคสแข็งเมื่อแต้มต้องเป็นไปตามสูตร y = a + bx(เส้นตรงไม่ผ่านจุดกำเนิด)

ภารกิจคือการค้นหาชุดค่าที่กำหนด x i , y i ค่าที่ดีที่สุดก และ ข.

มาเขียนกันใหม่ รูปสี่เหลี่ยม φ , เท่ากับผลรวมส่วนเบี่ยงเบนกำลังสองของจุด x ผม , y ผม จากเส้นตรง

และหาค่า a และ b ที่ φ มีค่าต่ำสุด

;

การตัดสินใจร่วมกันสมการเหล่านี้ให้

(21)

ข้อผิดพลาด root-mean-square ของการกำหนด a และ b เท่ากับ

(23)

. (24)

เมื่อประมวลผลผลการวัดด้วยวิธีนี้ จะสะดวกกว่าที่จะสรุปข้อมูลทั้งหมดในตารางที่มีการคำนวณจำนวนเงินทั้งหมดที่รวมอยู่ในสูตร (19)(24) เบื้องต้น รูปแบบของตารางเหล่านี้แสดงอยู่ในตัวอย่างด้านล่าง

ตัวอย่างที่ 1ศึกษาสมการพื้นฐานของพลศาสตร์ การเคลื่อนที่แบบหมุนε = M/J (เส้นตรงผ่านจุดกำเนิด) ที่ค่าต่าง ๆ ของโมเมนต์ M มันถูกวัด ความเร่งเชิงมุมε ของร่างกายบางส่วน จำเป็นต้องกำหนดโมเมนต์ความเฉื่อยของร่างกายนี้ ผลการวัดโมเมนต์ของแรงและความเร่งเชิงมุมแสดงอยู่ในคอลัมน์ที่สองและสาม โต๊ะ 5.

ตารางที่ 5

น	ม. ม.	ε, s-1	M2	เอ็ม ε	ε - kM	(ε - กม.) 2
1	1.44	0.52	2.0736	0.7488	0.039432	0.001555
2	3.12	1.06	9.7344	3.3072	0.018768	0.000352
3	4.59	1.45	21.0681	6.6555	-0.08181	0.006693
4	5.90	1.92	34.81	11.328	-0.049	0.002401
5	7.45	2.56	55.5025	19.072	0.073725	0.005435
∑			123.1886	41.1115		0.016436

ตามสูตร (19) เรากำหนด:

เพื่อตรวจสอบข้อผิดพลาดของรูท - ค่าเฉลี่ย - สแควร์เราใช้สูตร (20)

0.005775กิโลกรัม-หนึ่ง · ม -2 .

ตามสูตร (18) เรามี

; .

SJ = (2.996 0.005775)/0.3337 = 0.05185 กก. ม. 2.

ด้วยความน่าเชื่อถือ P = 0.95 ตามตารางค่าสัมประสิทธิ์นักเรียนสำหรับ n = 5 เราพบ t = 2.78 และกำหนดข้อผิดพลาดแน่นอน ΔJ = 2.78 0.05185 = 0.1441 ≈ 0.2 กก. ม. 2.

เราเขียนผลลัพธ์ในรูปแบบ:

เจ = (3.0 ± 0.2) กก. ม. 2;

ตัวอย่าง 2เราคำนวณค่าสัมประสิทธิ์อุณหภูมิของความต้านทานของโลหะโดยใช้วิธีกำลังสองน้อยที่สุด ความต้านทานขึ้นอยู่กับอุณหภูมิตามกฎเชิงเส้น

R t \u003d R 0 (1 + α t °) \u003d R 0 + R 0 α t °

ระยะอิสระกำหนดความต้านทาน R 0 ที่อุณหภูมิ 0 ° C และผลิตภัณฑ์ความชัน ค่าสัมประสิทธิ์อุณหภูมิα ถึงความต้านทาน R 0 .

ผลการวัดและการคำนวณแสดงไว้ในตาราง ( ดูตาราง6).

ตารางที่ 6

น	t°, ส	อาร์ โอห์ม	t-¯t	(t-¯t) 2	(t-¯t)r	r-bt-a	(r - bt - a) 2,10 -6
1	23	1.242	-62.8333	3948.028	-78.039	0.007673	58.8722
2	59	1.326	-26.8333	720.0278	-35.581	-0.00353	12.4959
3	84	1.386	-1.83333	3.361111	-2.541	-0.00965	93.1506
4	96	1.417	10.16667	103.3611	14.40617	-0.01039	107.898
5	120	1.512	34.16667	1167.361	51.66	0.021141	446.932
6	133	1.520	47.16667	2224.694	71.69333	-0.00524	27.4556
∑	515	8.403		8166.833	21.5985		746.804
∑/น	85.83333	1.4005

โดยสูตร (21), (22) เรากำหนด

R 0 = ¯ R- α R 0 ¯ t = 1.4005 - 0.002645 85.83333 = 1.1735 โอห์ม.

ให้เราหาข้อผิดพลาดในคำจำกัดความของ α ตั้งแต่ จากนั้นตามสูตร (18) เรามี:

โดยใช้สูตร (23) (24) เรามี

;

0.014126 โอห์ม.

ด้วยความน่าเชื่อถือ P = 0.95 ตามตารางค่าสัมประสิทธิ์ของนักเรียนสำหรับ n = 6 เราพบ t = 2.57 และกำหนดข้อผิดพลาดสัมบูรณ์ Δα = 2.57 0.000132 = 0.000338 องศา -1.

α = (23 ± 4) 10 -4 ลูกเห็บ-1 ที่ P = 0.95

ตัวอย่างที่ 3จำเป็นต้องกำหนดรัศมีความโค้งของเลนส์จากวงแหวนของนิวตัน วัดรัศมีของวงแหวนของนิวตัน r m และหาจำนวนของวงแหวนเหล่านี้ m รัศมีของวงแหวนของนิวตันสัมพันธ์กับรัศมีความโค้งของเลนส์ R และหมายเลขวงแหวนตามสมการ

r 2 m = mλR - 2d 0 R,

โดยที่ d 0 ความหนาของช่องว่างระหว่างเลนส์และเพลตขนานระนาบ (หรือการเสียรูปของเลนส์)

λ คือความยาวคลื่นของแสงตกกระทบ

λ = (600 ± 6) นาโนเมตร;
r 2 m = y;
ม. = x;
λR = ข;
-2d 0 R = a,

แล้วสมการจะอยู่ในรูป y = a + bx.

ผลลัพธ์ของการวัดและการคำนวณจะถูกป้อนใน ตารางที่ 7.

ตารางที่ 7

น	x = ม	y \u003d r 2, 10 -2 มม. 2	m-¯m	(m-¯m) 2	(m-¯m)y	y-bx-a, 10-4	(y - bx - a) 2, 10 -6
1	1	6.101	-2.5	6.25	-0.152525	12.01	1.44229
2	2	11.834	-1.5	2.25	-0.17751	-9.6	0.930766
3	3	17.808	-0.5	0.25	-0.08904	-7.2	0.519086
4	4	23.814	0.5	0.25	0.11907	-1.6	0.0243955
5	5	29.812	1.5	2.25	0.44718	3.28	0.107646
6	6	35.760	2.5	6.25	0.894	3.12	0.0975819
∑	21	125.129		17.5	1.041175		3.12176
∑/น	3.5	20.8548333

ซึ่งพบแอปพลิเคชั่นที่กว้างที่สุดใน พื้นที่ต่างๆวิทยาศาสตร์และ กิจกรรมภาคปฏิบัติ. อาจเป็นฟิสิกส์ เคมี ชีววิทยา เศรษฐศาสตร์ สังคมวิทยา จิตวิทยา และอื่นๆ โดยความประสงค์ของโชคชะตาฉันมักจะต้องจัดการกับเศรษฐกิจดังนั้นวันนี้ฉันจะจัดตั๋วให้คุณ ประเทศที่ยอดเยี่ยมชื่อเรื่อง เศรษฐมิติ=) … ไม่ต้องการอย่างนั้นหรือไง! มันดีมากที่นั่น - คุณแค่ต้องตัดสินใจ! …แต่สิ่งที่คุณอาจต้องการอย่างแน่นอนคือการเรียนรู้วิธีแก้ปัญหา สี่เหลี่ยมน้อยที่สุด. และโดยเฉพาะอย่างยิ่งผู้อ่านที่ขยันจะเรียนรู้ที่จะแก้ปัญหาเหล่านี้ไม่เพียง แต่แม่นยำ แต่ยังเร็วมาก ;-) แต่ก่อนอื่น คำชี้แจงปัญหาทั่วไป+ ตัวอย่างที่เกี่ยวข้อง:

ปล่อยให้ในบางส่วน สาขาวิชาตัวบ่งชี้ที่มีการแสดงออกเชิงปริมาณจะถูกตรวจสอบ ในเวลาเดียวกัน มีทุกเหตุผลที่เชื่อได้ว่าตัวบ่งชี้ขึ้นอยู่กับตัวบ่งชี้ สมมติฐานนี้สามารถ สมมติฐานทางวิทยาศาสตร์และขึ้นอยู่กับระดับประถมศึกษา กึ๋น. อย่างไรก็ตาม ให้ทิ้งวิทยาศาสตร์ไว้ และสำรวจพื้นที่ที่น่ารับประทานมากขึ้น นั่นคือ ร้านขายของชำ แสดงโดย:

– พื้นที่ค้าปลีกของร้านขายของชำ ตร.ม.
- มูลค่าการซื้อขายประจำปีของร้านขายของชำ ล้านรูเบิล

มันค่อนข้างชัดเจนว่าคืออะไร พื้นที่มากขึ้นร้านค้ายิ่งหมุนเวียนมากขึ้นในกรณีส่วนใหญ่

สมมติว่าหลังจากการสังเกต / การทดลอง / การคำนวณ / การเต้นรำด้วยแทมบูรีน เรามีข้อมูลตัวเลขที่กำจัด:

สำหรับร้านขายของชำ ฉันคิดว่าทุกอย่างชัดเจน: - นี่คือพื้นที่ของร้านที่ 1 - มูลค่าการซื้อขายประจำปี - พื้นที่ของร้านที่ 2 - มูลค่าการซื้อขายประจำปี ฯลฯ โดยวิธีการที่ไม่จำเป็นต้องมีการเข้าถึง วัสดุจำแนก- เพียงพอ ประมาณการที่แม่นยำสามารถหารายได้โดยวิธี สถิติทางคณิตศาสตร์. อย่างไรก็ตามอย่าฟุ้งซ่านการจารกรรมเชิงพาณิชย์ได้จ่ายเงินไปแล้ว =)

ข้อมูลแบบตารางสามารถเขียนในรูปแบบของจุดและแสดงในลักษณะปกติสำหรับเรา ระบบคาร์ทีเซียน .

เราจะตอบ คำถามสำคัญ: ต้องการกี่คะแนน การวิจัยเชิงคุณภาพ?

ใหญ่กว่าดีกว่า. ชุดที่อนุญาตขั้นต่ำประกอบด้วย 5-6 คะแนน นอกจากนี้ ด้วยข้อมูลจำนวนเล็กน้อย ผลลัพธ์ที่ "ผิดปกติ" ไม่ควรรวมอยู่ในตัวอย่าง ตัวอย่างเช่น ร้านค้าเล็กๆ ระดับหัวกะทิเล็กๆ สามารถช่วยสั่งการสำคัญๆ ได้มากกว่า "เพื่อนร่วมงาน" ซึ่งจะทำให้เกิดการบิดเบือน แบบทั่วไปที่ต้องหาให้เจอ!

ถ้ามันค่อนข้างง่าย เราต้องเลือกฟังก์ชั่น , กำหนดการซึ่งผ่านเข้าใกล้จุดมากที่สุด . ฟังก์ชันดังกล่าวเรียกว่า ประมาณ (การประมาณ - การประมาณ)หรือ ฟังก์ชันทางทฤษฎี . โดยทั่วไป คำว่า "ผู้สมัคร" จะปรากฎขึ้นทันที - พหุนาม ระดับสูงซึ่งกราฟผ่านจุดทั้งหมด แต่ตัวเลือกนี้ซับซ้อนและมักไม่ถูกต้อง (เพราะกราฟจะ “คดเคี้ยว” ตลอดเวลาและสะท้อนแนวโน้มหลักได้ไม่ดี).

ดังนั้นฟังก์ชันที่ต้องการจะต้องเรียบง่ายเพียงพอและในขณะเดียวกันก็สะท้อนการพึ่งพาอาศัยกันอย่างเพียงพอ อย่างที่คุณอาจเดาได้ วิธีหนึ่งในการค้นหาฟังก์ชันดังกล่าวเรียกว่า สี่เหลี่ยมน้อยที่สุด. ก่อนอื่น มาวิเคราะห์สาระสำคัญของมันใน ปริทัศน์. ให้ฟังก์ชันบางอย่างประมาณข้อมูลการทดลอง:

จะประเมินความถูกต้องของการประมาณนี้ได้อย่างไร? ให้เราคำนวณความแตกต่าง (ส่วนเบี่ยงเบน) ระหว่างการทดลองและ ค่าการทำงาน (เราศึกษาการวาดภาพ). ความคิดแรกที่เข้ามาในหัวคือการประมาณว่าผลรวมนั้นมากขนาดไหน แต่ปัญหาคือความแตกต่างอาจเป็นค่าลบได้ (ตัวอย่างเช่น, ) และการเบี่ยงเบนจากผลรวมดังกล่าวจะตัดกันออกไป ดังนั้น จากการประมาณความแม่นยําของการประมาณ จึงแนะนําตัวเองให้หาผลรวม โมดูลการเบี่ยงเบน:

หรือในรูปแบบพับ: (ทันใดนั้นใครไม่รู้: เป็นไอคอนผลรวมและเป็นตัวแปรเสริม - "ตัวนับ" ซึ่งใช้ค่าตั้งแต่ 1 ถึง ).

การประมาณจุดทดลองด้วยฟังก์ชันต่างๆ เราจะได้ ความหมายต่างกันและแน่นอนว่า เมื่อผลรวมนี้น้อยกว่า ฟังก์ชันนั้นจะแม่นยำกว่า

วิธีการดังกล่าวมีอยู่และเรียกว่า วิธีโมดูลัสน้อยที่สุด. อย่างไรก็ตามในทางปฏิบัติมันแพร่หลายมากขึ้น วิธีกำลังสองน้อยที่สุดที่ซึ่งเป็นไปได้ ค่าลบไม่ถูกกำจัดโดยโมดูลัส แต่โดยการยกกำลังส่วนเบี่ยงเบน:

หลังจากนั้นความพยายามจะนำไปสู่การเลือกฟังก์ชันดังกล่าวซึ่งผลรวมของการเบี่ยงเบนกำลังสอง มีขนาดเล็กที่สุด อันที่จริงแล้ว จึงเป็นที่มาของชื่อวิธีการ

และตอนนี้เรากลับมาที่อื่นแล้ว จุดสำคัญ: ดังที่กล่าวไว้ข้างต้น ฟังก์ชันที่เลือกควรจะค่อนข้างง่าย - แต่ก็มีฟังก์ชันดังกล่าวมากมายเช่นกัน: เชิงเส้น , ไฮเปอร์โบลิก, เลขชี้กำลัง, ลอการิทึม, กำลังสอง เป็นต้น และแน่นอนว่าฉันต้องการ "ลดขอบเขตของกิจกรรม" ทันที ประเภทของฟังก์ชั่นให้เลือกสำหรับการวิจัย? ดั้งเดิมแต่ การรับที่มีประสิทธิภาพ:

- วิธีที่ง่ายที่สุดในการวาดคะแนน บนภาพวาดและวิเคราะห์ตำแหน่งของพวกเขา หากมีแนวโน้มเป็นเส้นตรง ก็ควรมองหา สมการเส้นตรง ด้วยค่าที่เหมาะสมและ . กล่าวอีกนัยหนึ่ง ภารกิจคือการหาสัมประสิทธิ์ดังกล่าว - เพื่อให้ผลรวมของการเบี่ยงเบนกำลังสองมีค่าน้อยที่สุด

หากระบุจุดต่างๆ เช่น ตาม อติพจน์ดังนั้นจึงเป็นที่ชัดเจนว่าฟังก์ชันเชิงเส้นจะให้ค่าประมาณที่ไม่ดี ในกรณีนี้ เรากำลังมองหาสัมประสิทธิ์ที่ "เหมาะสม" ที่สุดสำหรับสมการไฮเปอร์โบลา - ผู้ที่ให้ผลรวมของกำลังสองขั้นต่ำ .

ตอนนี้สังเกตว่าในทั้งสองกรณีเรากำลังพูดถึง หน้าที่ของสองตัวแปร, ซึ่งมีข้อโต้แย้งคือ ค้นหาตัวเลือกการพึ่งพา:

และโดยพื้นฐานแล้ว เราต้องแก้ปัญหามาตรฐาน - เพื่อค้นหา ฟังก์ชันขั้นต่ำของสองตัวแปร.

จำตัวอย่างของเรา: สมมติว่าจุด "ร้านค้า" มักจะอยู่ในแนวเส้นตรงและมีเหตุผลทุกประการที่จะเชื่อว่ามีอยู่ การพึ่งพาอาศัยกันเชิงเส้นมูลค่าการซื้อขายจากพื้นที่การค้า ลองหาสัมประสิทธิ์ดังกล่าว "a" และ "be" เพื่อให้ผลรวมของส่วนเบี่ยงเบนกำลังสอง มีขนาดเล็กที่สุด ทุกอย่างเหมือนเดิม - ก่อน อนุพันธ์บางส่วนของคำสั่งที่ 1. ตาม กฎความเป็นเส้นตรงคุณสามารถแยกความแตกต่างได้จากไอคอนผลรวม:

หากคุณต้องการใช้ ข้อมูลเหล่านี้สำหรับบทความเรียงความหรือภาคการศึกษา - ฉันจะขอบคุณมากสำหรับลิงก์ในรายการแหล่งที่มา คุณจะพบการคำนวณโดยละเอียดในบางแห่ง:

มาสร้างระบบมาตรฐานกันเถอะ:

เราลดสมการแต่ละสมการด้วย "สอง" และนอกจากนี้ "แยกส่วน" ผลรวม:

บันทึก : วิเคราะห์อย่างอิสระว่าทำไมจึงนำ "a" และ "be" ออกจากไอคอนผลรวมได้ อย่างไรก็ตาม อย่างเป็นทางการสามารถทำได้ด้วยผลรวม

มาเขียนระบบใหม่ในรูปแบบ "นำไปใช้":

หลังจากนั้นอัลกอริทึมสำหรับการแก้ปัญหาของเราก็เริ่มถูกวาด:

เรารู้พิกัดของจุดต่างๆ หรือไม่? พวกเรารู้. ผลรวม เราสามารถหา? อย่างง่ายดาย. เราเขียนง่ายที่สุด ระบบสมการเชิงเส้นสองสมการที่มีค่านิรนามสองตัว("a" และ "beh") เราแก้ระบบ เช่น วิธีการของแครมเมอร์, ที่เกิดขึ้นใน จุดนิ่ง. กำลังตรวจสอบ สภาพที่เพียงพอสำหรับสุดขั้วเราสามารถยืนยันได้ว่า ณ จุดนี้ฟังก์ชั่น ถึงแม่นๆ ขั้นต่ำ. การยืนยันเกี่ยวข้องกับการคำนวณเพิ่มเติม ดังนั้น เราจะทิ้งมันไว้เบื้องหลัง (ถ้าจำเป็นสามารถดูเฟรมที่หายไปได้). เราสรุปผลสุดท้าย:

การทำงาน วิธีที่ดีที่สุด (อย่างน้อยเมื่อเทียบกับฟังก์ชันเชิงเส้นอื่นๆ)นำจุดทดลองมาใกล้มากขึ้น . กราฟของกราฟจะเคลื่อนเข้าใกล้จุดเหล่านี้มากที่สุด ตามประเพณี เศรษฐมิติฟังก์ชันการประมาณผลลัพธ์เรียกอีกอย่างว่า สมการคู่ การถดถอยเชิงเส้น .

ปัญหาที่อยู่ในการพิจารณามีขนาดใหญ่ คุณค่าทางปฏิบัติ. ในสถานการณ์ด้วยตัวอย่างของเรา สมการ ให้คุณทำนายว่าจะมีผลประกอบการแบบไหน ("ยิ๊ก")จะอยู่ที่ร้านค้าด้วยมูลค่าของพื้นที่ขายอย่างใดอย่างหนึ่ง (ความหมายอย่างใดอย่างหนึ่งของ "x"). ใช่ การคาดการณ์ผลลัพธ์จะเป็นเพียงการคาดการณ์ แต่ในหลายกรณี กลับกลายเป็นว่าแม่นยำทีเดียว

ฉันจะวิเคราะห์ปัญหาเดียวกับตัวเลข "ของจริง" เนื่องจากไม่มีปัญหา - การคำนวณทั้งหมดอยู่ที่ระดับ หลักสูตรโรงเรียนเกรด 7-8 ใน 95 เปอร์เซ็นต์ของกรณี คุณจะถูกขอให้ค้นหาเพียงฟังก์ชันเชิงเส้น แต่ในตอนท้ายของบทความ ฉันจะแสดงให้เห็นว่าการหาสมการของไฮเพอร์โบลาที่เหมาะสมที่สุด เลขชี้กำลัง และฟังก์ชันอื่นๆ นั้นไม่ใช่เรื่องยากอีกต่อไป

ในความเป็นจริง มันยังคงแจกจ่ายสารพัดที่สัญญาไว้ - เพื่อให้คุณได้เรียนรู้วิธีแก้ไขตัวอย่างดังกล่าว ไม่เพียงแต่แม่นยำเท่านั้น แต่ยังรวดเร็วอีกด้วย เราศึกษามาตรฐานอย่างรอบคอบ:

งาน

จากการศึกษาความสัมพันธ์ระหว่างตัวบ่งชี้สองตัว ได้ตัวเลขคู่ต่อไปนี้:

โดยใช้วิธีกำลังสองน้อยที่สุด ให้หาฟังก์ชันเชิงเส้นที่ใกล้เคียงกับค่าเชิงประจักษ์มากที่สุด (มีประสบการณ์)ข้อมูล. สร้างภาพวาดซึ่งในภาษาคาร์ทีเซียน ระบบสี่เหลี่ยมพิกัดเพื่อสร้างจุดทดลองและกราฟของฟังก์ชันการประมาณ . หาผลรวมของค่าเบี่ยงเบนกำลังสองระหว่างค่าเชิงประจักษ์และค่าทางทฤษฎี ค้นหาว่าฟังก์ชั่นดีกว่าหรือไม่ (ในแง่ของวิธีกำลังสองน้อยที่สุด)จุดทดลองโดยประมาณ

โปรดทราบว่าค่า "x" เป็นค่าธรรมชาติและสิ่งนี้มีความหมายที่มีความหมายซึ่งฉันจะพูดถึงในภายหลัง แต่แน่นอนว่ามันสามารถเป็นเศษส่วนได้ นอกจากนี้ ขึ้นอยู่กับเนื้อหาของงานเฉพาะ ค่าทั้ง "X" และ "G" สามารถเป็นค่าลบทั้งหมดหรือบางส่วนได้ เราได้รับภารกิจ "ไร้หน้า" และเริ่มทำ วิธีการแก้:

เราพบค่าสัมประสิทธิ์ของฟังก์ชันที่เหมาะสมที่สุดเพื่อแก้ปัญหาของระบบ:

สำหรับวัตถุประสงค์ของสัญกรณ์ที่กระชับมากขึ้น คุณสามารถละเว้นตัวแปร "ตัวนับ" ได้ เนื่องจากเป็นที่ชัดเจนว่าการบวกดำเนินการตั้งแต่ 1 ถึง .

สะดวกกว่าในการคำนวณจำนวนเงินที่ต้องการในรูปแบบตาราง:

การคำนวณสามารถทำได้บนไมโครเครื่องคิดเลข แต่จะดีกว่ามากถ้าใช้ Excel - ทั้งเร็วกว่าและไม่มีข้อผิดพลาด ดูวิดีโอสั้น ๆ :

ดังนั้นเราจึงได้ค่าต่อไปนี้ ระบบ:

ที่นี่คุณสามารถคูณสมการที่สองด้วย 3 และ ลบที่ 2 จากเทอมสมการที่ 1 ด้วยเทอม. แต่นี่คือโชค - ในทางปฏิบัติ ระบบมักไม่มีของกำนัล และในกรณีเช่นนี้ จะช่วยประหยัด วิธีการของแครมเมอร์:
ดังนั้นระบบจึงมีโซลูชันที่ไม่เหมือนใคร

มาทำเช็คกัน ฉันเข้าใจว่าฉันไม่ต้องการ แต่ทำไมข้ามข้อผิดพลาดที่คุณไม่พลาดอย่างแน่นอน แทนที่คำตอบที่พบในด้านซ้ายของแต่ละสมการของระบบ:

รับฝั่งขวา สมการที่สอดคล้องกันซึ่งหมายความว่าระบบได้รับการแก้ไขอย่างถูกต้อง

ดังนั้น ฟังก์ชันการประมาณที่ต้องการ: – from ฟังก์ชันเชิงเส้นทั้งหมดข้อมูลการทดลองจะประมาณค่าได้ดีที่สุด

ไม่เหมือน ตรง การพึ่งพาการหมุนเวียนของร้านค้าในพื้นที่ การพึ่งพาที่พบคือ ย้อนกลับ (หลักการ ยิ่งมาก ยิ่งน้อย”)และความจริงข้อนี้จะถูกเปิดเผยโดยทันทีโดยแง่ลบ สัมประสิทธิ์เชิงมุม. การทำงาน แจ้งให้เราทราบว่าเมื่อตัวบ่งชี้เพิ่มขึ้น 1 หน่วย ค่าของตัวบ่งชี้ที่ขึ้นต่อกันจะลดลง เฉลี่ย 0.65 หน่วย อย่างที่พวกเขาพูดกันว่ายิ่งราคาบัควีทสูงเท่าไหร่ก็ยิ่งขายได้น้อยลงเท่านั้น

ในการพล็อตฟังก์ชันการประมาณ เราพบค่าสองค่า:

และดำเนินการวาด:

เส้นที่สร้างขึ้นเรียกว่า เส้นแนวโน้ม (กล่าวคือ เส้นแนวโน้มเชิงเส้น คือ in กรณีทั่วไปแนวโน้มไม่จำเป็นต้องเป็นเส้นตรง). ทุกคนคุ้นเคยกับสำนวนที่ว่า "to be in trend" และฉันคิดว่าคำนี้ไม่ต้องการความคิดเห็นเพิ่มเติม

คำนวณผลรวมของส่วนเบี่ยงเบนกำลังสอง ระหว่างค่าเชิงประจักษ์และเชิงทฤษฎี ในเชิงเรขาคณิต นี่คือผลรวมของกำลังสองของความยาวของส่วน "สีแดงเข้ม" (สองอันเล็กจนมองไม่เห็น).

มาสรุปการคำนวณในตารางกัน:

สามารถดำเนินการได้ด้วยตนเองอีกครั้ง ในกรณีที่ฉันจะยกตัวอย่างสำหรับจุดที่ 1:

แต่มันมีประสิทธิภาพมากกว่าที่จะทำ ในทางใดทางหนึ่ง:

มาทำซ้ำ: ความหมายของผลลัพธ์คืออะไร?จาก ฟังก์ชันเชิงเส้นทั้งหมดการทำงาน เลขชี้กำลังที่เล็กที่สุดนั่นคือมันเป็นค่าประมาณที่ดีที่สุดในตระกูล และที่นี่ก็ไม่ใช่เรื่องบังเอิญ คำถามสุดท้ายปัญหา: จะเกิดอะไรขึ้นถ้าฟังก์ชันเลขชี้กำลังที่เสนอ จะดีกว่าไหมถ้าจะประมาณจุดทดลอง?

มาหาผลรวมของค่าเบี่ยงเบนกำลังสองที่ตรงกัน - เพื่อแยกความแตกต่าง ฉันจะกำหนดพวกมันด้วยตัวอักษร "epsilon" เทคนิคเหมือนกันทุกประการ:

และอีกครั้งสำหรับการคำนวณไฟทุกครั้งสำหรับจุดที่ 1:

ใน Excel เราใช้ ฟังก์ชันมาตรฐาน EXP (ไวยากรณ์สามารถพบได้ในวิธีใช้ Excel).

บทสรุป: , ดังนั้น ฟังก์ชันเลขชี้กำลังจะประมาณจุดทดลองที่แย่กว่าเส้นตรง .

แต่ควรสังเกตตรงนี้ว่า "แย่กว่า" คือ ไม่ได้หมายความว่ายัง, เกิดอะไรขึ้น. ตอนนี้ฉันสร้างกราฟของฟังก์ชันเลขชี้กำลัง - และมันก็ส่งผ่านใกล้กับจุด - มากเสียจนไม่มีการศึกษาเชิงวิเคราะห์ เป็นการยากที่จะบอกว่าฟังก์ชันใดแม่นยำกว่า

วิธีนี้ทำให้การแก้ปัญหาเสร็จสมบูรณ์และฉันกลับไปที่คำถามเกี่ยวกับค่าธรรมชาติของการโต้แย้ง ในการศึกษาต่างๆ ตามกฎแล้ว เศรษฐกิจหรือสังคมวิทยา เดือน ปี หรือช่วงเวลาที่เท่าเทียมกันอื่นๆ จะถูกนับด้วย "X" ตามธรรมชาติ ยกตัวอย่างปัญหาดังกล่าว

มีแอปพลิเคชันมากมาย เนื่องจากช่วยให้สามารถแสดงฟังก์ชันที่กำหนดโดยฟังก์ชันอื่นที่ง่ายกว่าได้โดยประมาณ LSM สามารถเป็นประโยชน์อย่างยิ่งในการประมวลผลการสังเกต และมีการใช้อย่างแข็งขันเพื่อประเมินปริมาณบางส่วนจากผลการวัดของสิ่งอื่นที่มี ข้อผิดพลาดแบบสุ่ม. ในบทความนี้ คุณจะได้เรียนรู้วิธีใช้การคำนวณกำลังสองน้อยที่สุดใน Excel

คำชี้แจงปัญหาในตัวอย่างเฉพาะ

สมมติว่ามีตัวบ่งชี้ X และ Y สองตัว นอกจากนี้ Y ขึ้นอยู่กับ X เนื่องจาก OLS เป็นที่สนใจของเราจากมุมมองของการวิเคราะห์การถดถอย (ใน Excel วิธีการของมันถูกใช้งานโดยใช้ฟังก์ชันในตัว) เราจึงควรดำเนินการทันที เพื่อพิจารณาปัญหาเฉพาะ

ให้ X เป็น พื้นที่การค้าร้านขายของชำ, วัดใน ตารางเมตรและ Y คือมูลค่าการซื้อขายประจำปีที่กำหนดเป็นล้านรูเบิล

จำเป็นต้องคาดการณ์มูลค่าการซื้อขาย (Y) ที่ร้านค้าจะมีหากมีพื้นที่ค้าปลีกหนึ่งแห่งหรืออื่น เห็นได้ชัดว่าฟังก์ชัน Y = f (X) กำลังเพิ่มขึ้น เนื่องจากไฮเปอร์มาร์เก็ตขายสินค้ามากกว่าแผงลอย

คำสองสามคำเกี่ยวกับความถูกต้องของข้อมูลเบื้องต้นที่ใช้สำหรับการทำนาย

สมมติว่าเรามีตารางที่สร้างด้วยข้อมูลสำหรับร้านค้า n

ตาม สถิติทางคณิตศาสตร์ผลลัพธ์จะถูกต้องไม่มากก็น้อยหากตรวจสอบข้อมูลอย่างน้อย 5-6 วัตถุ นอกจากนี้ยังไม่สามารถใช้ผลลัพธ์ "ผิดปกติ" ได้ โดยเฉพาะอย่างยิ่ง บูติกขนาดเล็กชั้นยอดสามารถมียอดขายมากกว่าการหมุนเวียนของร้านค้าขนาดใหญ่ของคลาส "มาสมาร์เก็ต" หลายเท่า

สาระสำคัญของวิธีการ

ข้อมูลตารางสามารถแสดงใน เครื่องบินคาร์ทีเซียนในรูปแบบของคะแนน M 1 (x 1, y 1), ... M n (x n, y n) ตอนนี้การแก้ปัญหาจะลดลงเหลือเพียงการเลือกฟังก์ชันการประมาณ y = f (x) ซึ่งมีกราฟผ่านเข้าใกล้จุด M 1, M 2, .. M n มากที่สุด

แน่นอน คุณสามารถใช้พหุนามระดับสูงได้ แต่ตัวเลือกนี้ไม่เพียงแต่ใช้งานยาก แต่ยังไม่ถูกต้อง เนื่องจากจะไม่สะท้อนถึงแนวโน้มหลักที่ต้องตรวจพบ วิธีแก้ปัญหาที่สมเหตุสมผลที่สุดคือการค้นหาเส้นตรง y = ax + b ซึ่งจะประมาณข้อมูลการทดลองได้ดีที่สุด และให้แม่นยำกว่านั้นคือ ค่าสัมประสิทธิ์ - a และ b

คะแนนความแม่นยำ

การประเมินความถูกต้องมีความสำคัญเป็นพิเศษสำหรับการประมาณค่าใดๆ ระบุโดย e i ความแตกต่าง (ส่วนเบี่ยงเบน) ระหว่างค่าการทำงานและค่าทดลองสำหรับจุด x ผม , i.e. e i = y i - f (x i).

เห็นได้ชัดว่า ในการประเมินความถูกต้องของการประมาณ คุณสามารถใช้ผลรวมของการเบี่ยงเบน เช่น เมื่อเลือกเส้นตรงสำหรับการแทนค่าโดยประมาณของการพึ่งพา X บน Y ควรกำหนดการตั้งค่าให้กับค่าที่มีค่าน้อยที่สุดของ ผลรวม e i ทุกจุดที่อยู่ในการพิจารณา อย่างไรก็ตามไม่ใช่ทุกอย่างจะง่ายนักเนื่องจากจะมีการเบี่ยงเบนในทางบวกพร้อมกับค่าเบี่ยงเบนเชิงลบ

คุณสามารถแก้ปัญหาได้โดยใช้โมดูลส่วนเบี่ยงเบนหรือกำลังสอง วิธีสุดท้ายที่ได้รับมากที่สุด ใช้กันอย่างแพร่หลาย. ใช้ในหลายพื้นที่ ได้แก่ การวิเคราะห์การถดถอย(ใน Excel การใช้งานจะดำเนินการโดยใช้ฟังก์ชันในตัวสองตัว) และได้รับการพิสูจน์ประสิทธิภาพมาอย่างยาวนาน

วิธีกำลังสองน้อยที่สุด

ดังที่คุณทราบใน Excel มีฟังก์ชันผลรวมอัตโนมัติในตัวที่ช่วยให้คุณสามารถคำนวณค่าของค่าทั้งหมดที่อยู่ในช่วงที่เลือกได้ ดังนั้น ไม่มีอะไรจะขัดขวางเราจากการคำนวณค่าของนิพจน์ (e 1 2 + e 2 2 + e 3 2 + ... e n 2)

ในสัญกรณ์คณิตศาสตร์ดูเหมือนว่า:

ตั้งแต่แรกเริ่มตัดสินใจประมาณโดยใช้เส้นตรง เรามี:

ดังนั้น งานในการหาเส้นตรงที่อธิบายความสัมพันธ์เฉพาะระหว่าง X และ Y ได้ดีที่สุด เท่ากับการคำนวณหาค่าฟังก์ชันขั้นต่ำของตัวแปรสองตัว:

สิ่งนี้ต้องเท่ากับศูนย์อนุพันธ์ย่อยบางส่วนเกี่ยวกับตัวแปรใหม่ a และ b และการแก้ระบบพื้นฐานที่ประกอบด้วยสมการสองสมการที่มี 2 รูปแบบที่ไม่ทราบรูปแบบ:

หลังจากการแปลงอย่างง่าย รวมถึงการหารด้วย 2 และจัดการผลรวม เราได้รับ:

การแก้ปัญหา ตัวอย่างเช่น โดยวิธีของ Cramer เราจะได้จุดคงที่ที่มีค่าสัมประสิทธิ์ a * และ b * นี่คือขั้นต่ำคือเพื่อคาดการณ์ว่ามูลค่าการซื้อขายของร้านค้าจะมีเมื่อ บางพื้นที่, เส้นตรง y \u003d a * x + b * จะทำซึ่งก็คือ ตัวแบบถดถอยสำหรับตัวอย่างที่เป็นปัญหา แน่นอนเธอจะไม่ให้คุณหา ผลลัพธ์ที่แน่นอนแต่จะช่วยให้คุณเข้าใจว่าการซื้อร้านค้าด้วยเครดิตในพื้นที่ใดพื้นที่หนึ่งจะได้ผลหรือไม่

วิธีการใช้วิธีกำลังสองน้อยที่สุดใน Excel

Excel มีฟังก์ชันสำหรับคำนวณค่าของกำลังสองน้อยที่สุด เธอมี มุมมองถัดไป: "TREND" (ค่า Y ที่ทราบ ค่า X ที่ทราบ ค่า X ใหม่ ค่าคงที่) ลองใช้สูตรการคำนวณ OLS ใน Excel กับตารางของเรา

ในการดำเนินการนี้ ในเซลล์ที่จะแสดงผลลัพธ์ของการคำนวณโดยใช้วิธีกำลังสองน้อยที่สุดใน Excel ให้ป้อนเครื่องหมาย "=" และเลือกฟังก์ชัน "TREND" ในหน้าต่างที่เปิดขึ้น ให้กรอกข้อมูลในฟิลด์ที่เหมาะสม โดยเน้น:

ช่วงของค่าที่ทราบสำหรับ Y (ในกรณีนี้คือข้อมูลสำหรับการหมุนเวียน)
ช่วง x 1 , …x n เช่น ขนาดของพื้นที่ค้าปลีก
ทั้งดังและ ค่าที่ไม่รู้จัก x ซึ่งคุณจำเป็นต้องทราบขนาดของการหมุนเวียน (สำหรับข้อมูลเกี่ยวกับตำแหน่งของพวกเขาในเวิร์กชีต ดูด้านล่าง)

นอกจากนี้ยังมีตัวแปรตรรกะ "Const" ในสูตร หากคุณป้อน 1 ในฟิลด์ที่ตรงกัน นี่จะหมายความว่าควรทำการคำนวณ โดยสมมติว่า b \u003d 0

หากคุณต้องการทราบค่าพยากรณ์มากกว่าหนึ่งค่า x จากนั้นหลังจากป้อนสูตรแล้ว คุณไม่ควรกด "Enter" แต่คุณต้องพิมพ์ชุดค่าผสม "Shift" + "Control" + "Enter" ("Enter" ) บนแป้นพิมพ์

คุณสมบัติบางอย่าง

การวิเคราะห์การถดถอยสามารถเข้าถึงได้แม้กระทั่งกับหุ่นจำลอง สูตร Excelเพื่อทำนายค่าของอาร์เรย์ของตัวแปรที่ไม่รู้จัก - "TREND" - สามารถใช้ได้แม้กระทั่งผู้ที่ไม่เคยได้ยินวิธีกำลังสองน้อยที่สุด แค่รู้คุณสมบัติบางอย่างของงานก็เพียงพอแล้ว โดยเฉพาะอย่างยิ่ง:

หากเราจัดเรียงช่วงของค่าที่ทราบของตัวแปร y ในหนึ่งแถวหรือคอลัมน์ แล้วแต่ละแถว (คอลัมน์) ด้วย ค่าที่รู้จักโปรแกรมจะถือว่า x เป็นตัวแปรแยกต่างหาก
หากไม่มีการระบุช่วงที่มี x ที่ทราบในหน้าต่าง "TREND" ในกรณีของการใช้ฟังก์ชันใน โปรแกรม Excelจะถือว่าเป็นอาร์เรย์ที่ประกอบด้วยจำนวนเต็มซึ่งจำนวนที่สอดคล้องกับช่วงที่มีค่าของตัวแปร y ที่กำหนด
หากต้องการส่งออกอาร์เรย์ของค่า "ที่คาดการณ์" จะต้องป้อนนิพจน์แนวโน้มเป็นสูตรอาร์เรย์
หากไม่มีการระบุค่า x ใหม่ ฟังก์ชัน TREND จะถือว่าค่าเหล่านั้นเท่ากับค่าที่รู้จัก หากไม่ได้ระบุไว้ อาร์เรย์ 1 จะถูกนำมาเป็นอาร์กิวเมนต์ 2; 3; 4;… ซึ่งเทียบเท่ากับช่วงที่กำหนดพารามิเตอร์ y แล้ว
ช่วงที่มีค่า x ใหม่จะต้องประกอบด้วยหรือ .เดียวกัน มากกว่าแถวหรือคอลัมน์ เป็นช่วงที่มีค่า y ที่กำหนด กล่าวคือต้องได้สัดส่วนกับตัวแปรอิสระ
อาร์เรย์ที่มีค่า x ที่รู้จักสามารถมีได้หลายตัวแปร อย่างไรก็ตาม ถ้า เรากำลังพูดถึงประมาณหนึ่งเท่านั้นจึงจำเป็นต้องมีช่วงที่มีค่าที่กำหนดของ x และ y ในกรณีของตัวแปรหลายตัว จำเป็นต้องให้ช่วงที่มีค่า y ที่กำหนดอยู่ในคอลัมน์เดียวหรือหนึ่งแถว

ฟังก์ชันพยากรณ์

มันถูกใช้งานโดยใช้ฟังก์ชั่นหลายอย่าง หนึ่งในนั้นเรียกว่า "PREDICTION" คล้ายกับ TREND กล่าวคือ ให้ผลลัพธ์ของการคำนวณโดยใช้วิธีกำลังสองน้อยที่สุด อย่างไรก็ตาม สำหรับ X ตัวเดียวเท่านั้น ซึ่งไม่ทราบค่าของ Y

ตอนนี้คุณรู้สูตร Excel สำหรับหุ่นที่ให้คุณทำนายมูลค่าของมูลค่าในอนาคตของตัวบ่งชี้ตามแนวโน้มเชิงเส้นแล้ว

มันถูกใช้กันอย่างแพร่หลายในทางเศรษฐมิติในรูปแบบของการตีความทางเศรษฐกิจที่ชัดเจนของพารามิเตอร์

การถดถอยเชิงเส้นจะลดลงเพื่อหาสมการของรูปแบบ

หรือ

พิมพ์สมการ อนุญาตสำหรับ ตั้งค่าพารามิเตอร์ Xมีค่าทางทฤษฎีของคุณสมบัติที่มีประสิทธิภาพแทนค่าจริงของตัวประกอบเข้าไป X.

การสร้างการถดถอยเชิงเส้นลงมาเพื่อประมาณค่าพารามิเตอร์ − เอและ ใน.สามารถหาค่าประมาณพารามิเตอร์การถดถอยเชิงเส้นได้ด้วยวิธีต่างๆ

วิธีการแบบคลาสสิกในการประมาณค่าพารามิเตอร์การถดถอยเชิงเส้นขึ้นอยู่กับ สี่เหลี่ยมน้อยที่สุด(เอ็มเค).

LSM อนุญาตให้ได้รับค่าประมาณพารามิเตอร์ดังกล่าว เอและ ใน,ซึ่งผลรวมของการเบี่ยงเบนกำลังสองของค่าจริงของลักษณะผลลัพธ์ (ญ)จากการคำนวณ (ตามทฤษฎี) ขั้นต่ำขั้นต่ำ:

ในการหาค่าต่ำสุดของฟังก์ชัน จำเป็นต้องคำนวณอนุพันธ์ย่อยตามค่าพารามิเตอร์แต่ละตัว เอและ ขและเท่ากับศูนย์

หมายถึง ผ่าน S แล้ว:

แปลงสูตรจะได้ ระบบถัดไป สมการปกติสำหรับการประมาณค่าพารามิเตอร์ เอและ ใน:

การแก้ระบบสมการปกติ (3.5) ด้วยวิธีใดวิธีหนึ่ง การยกเว้นตามลำดับตัวแปรหรือโดยวิธีดีเทอร์มิแนนต์ เราพบค่าประมาณที่ต้องการของพารามิเตอร์ เอและ ใน.

พารามิเตอร์ ในเรียกว่าสัมประสิทธิ์การถดถอย ค่าของมันแสดงการเปลี่ยนแปลงเฉลี่ยในผลลัพธ์โดยมีการเปลี่ยนแปลงปัจจัยหนึ่งหน่วย

สมการถดถอยจะเสริมด้วยตัวบ่งชี้ความหนาแน่นของการเชื่อมต่อเสมอ เมื่อใช้การถดถอยเชิงเส้น สัมประสิทธิ์สหสัมพันธ์เชิงเส้นทำหน้าที่เป็นตัวบ่งชี้ สูตรมีหลากหลายเวอร์ชั่น ค่าสัมประสิทธิ์เชิงเส้นความสัมพันธ์ บางส่วนของพวกเขามีการระบุไว้ด้านล่าง:

ดังที่คุณทราบ สัมประสิทธิ์สหสัมพันธ์เชิงเส้นอยู่ภายในขอบเขต: -1 ≤ ≤ 1.

เพื่อประเมินคุณภาพของการคัดเลือก ฟังก์ชันเชิงเส้นคำนวณกำลังสอง

สัมประสิทธิ์สหสัมพันธ์เชิงเส้นเรียกว่า ค่าสัมประสิทธิ์การกำหนดค่าสัมประสิทธิ์การกำหนดลักษณะสัดส่วนของความแปรปรวนของคุณลักษณะที่มีประสิทธิภาพ คุณอธิบายโดยการถดถอย ผลต่างทั้งหมดสัญญาณที่มีประสิทธิภาพ:

ดังนั้นค่า 1 - กำหนดสัดส่วนของการกระจายตัว คุณเกิดจากอิทธิพลของปัจจัยอื่นๆ ที่ไม่ได้นำมาพิจารณาในแบบจำลอง

คำถามเพื่อการควบคุมตนเอง

1. สาระสำคัญของวิธีการกำลังสองน้อยที่สุด?

2. มีตัวแปรกี่ตัวที่แสดงถึงการถดถอยแบบคู่?

3. ค่าสัมประสิทธิ์อะไรเป็นตัวกำหนดความหนาแน่นของการเชื่อมต่อระหว่างการเปลี่ยนแปลง

4. ค่าสัมประสิทธิ์ของการกำหนดกำหนดอยู่ภายในขอบเขตใด?

5. การประมาณค่าพารามิเตอร์ b ในการวิเคราะห์สหสัมพันธ์-ถดถอย?

1. คริสโตเฟอร์ โดเฮอร์ตี้ ความรู้เบื้องต้นเกี่ยวกับเศรษฐมิติ - M.: INFRA - M, 2001 - 402 p.

2. ส.อ. โบโรดิช. เศรษฐมิติ Minsk LLC "ความรู้ใหม่" 2544

3. ร.ร. รัคเมตอฟ หลักสูตรระยะสั้นในทางเศรษฐมิติ กวดวิชา. อัลมาตี 2547. -78 วินาที.

4.I.I. Eliseeva เศรษฐมิติ. - ม.: "การเงินและสถิติ", 2002

5. ข้อมูลรายเดือนและนิตยสารเชิงวิเคราะห์

แบบจำลองเศรษฐกิจไม่เชิงเส้น แบบจำลองการถดถอยแบบไม่เชิงเส้น การแปลงตัวแปร

ไม่เชิงเส้น แบบจำลองทางเศรษฐกิจ..

การแปลงตัวแปร

ค่าสัมประสิทธิ์ความยืดหยุ่น

ถ้าระหว่าง ปรากฏการณ์ทางเศรษฐกิจมีความสัมพันธ์ไม่เชิงเส้นแล้วแสดงโดยใช้ที่สอดคล้องกัน ฟังก์ชันไม่เชิงเส้น: ตัวอย่างเช่น ไฮเพอร์โบลาด้านเท่ากันหมด , พาราโบลาองศาที่สอง และอื่น ๆ.

การถดถอยแบบไม่เชิงเส้นมีสองประเภท:

1. การถดถอยที่ไม่เชิงเส้นเมื่อเทียบกับตัวแปรอธิบายที่รวมอยู่ในการวิเคราะห์ แต่เป็นเชิงเส้นเมื่อเทียบกับพารามิเตอร์ที่ประมาณการไว้ เช่น

พหุนาม องศาต่างๆ - , ;

อติพจน์ด้านเท่ากันหมด - ;

ฟังก์ชันเซมิลอการิทึม - .

2. การถดถอยที่ไม่เป็นเชิงเส้นในพารามิเตอร์ที่ประมาณการไว้ เช่น

พลัง - ;

สาธิต -;

เอกซ์โพเนนเชียล - .

ผลรวมของส่วนเบี่ยงเบนกำลังสอง ค่าส่วนบุคคลคุณสมบัติที่มีประสิทธิภาพ ที่จากค่าเฉลี่ยเกิดจากอิทธิพลของหลายปัจจัย เราแบ่งกลุ่มเหตุผลทั้งหมดออกเป็นสองกลุ่มตามเงื่อนไข: ศึกษาปัจจัย xและ ปัจจัยอื่นๆ

หากปัจจัยไม่ส่งผลต่อผลลัพธ์ เส้นถดถอยบนกราฟจะขนานกับแกน โอ้และ

จากนั้นการกระจายทั้งหมดของคุณลักษณะที่มีประสิทธิภาพนั้นเกิดจากอิทธิพลของปัจจัยอื่นและ ยอดรวมส่วนเบี่ยงเบนกำลังสองจะตรงกับส่วนที่เหลือ หากปัจจัยอื่นไม่ส่งผลต่อผลลัพธ์ คุณผูกกับ Xตามหน้าที่และ ยอดเงินคงเหลือสี่เหลี่ยมเป็นศูนย์ ในกรณีนี้ ผลรวมของส่วนเบี่ยงเบนกำลังสองที่อธิบายโดยการถดถอยจะเท่ากับผลรวมของกำลังสองทั้งหมด

เนื่องจากไม่ใช่ทุกจุดของสนามสหสัมพันธ์อยู่บนเส้นการถดถอย การกระจัดกระจายจึงเกิดขึ้นเสมอเนื่องจากอิทธิพลของปัจจัย Xเช่น การถดถอย ที่บน เอ็กซ์,และเกิดจากการกระทำของสาเหตุอื่น (รูปแบบที่ไม่สามารถอธิบายได้) ความเหมาะสมของเส้นการถดถอยสำหรับการคาดการณ์ขึ้นอยู่กับส่วนใด การเปลี่ยนแปลงทั่วไปเข้าสู่ระบบ ที่บัญชีสำหรับรูปแบบที่อธิบาย

แน่นอน ถ้าผลรวมของส่วนเบี่ยงเบนกำลังสองเนื่องจากการถดถอยมากกว่าผลรวมของกำลังสอง สมการถดถอยจะมีนัยสำคัญทางสถิติและตัวประกอบ Xมีผลกระทบอย่างมากต่อผลลัพธ์ ย.

, นั่นคือ ด้วยจำนวนอิสระของการเปลี่ยนแปลงคุณลักษณะที่เป็นอิสระ จำนวนองศาอิสระสัมพันธ์กับจำนวนหน่วยของประชากร n และจำนวนค่าคงที่ที่กำหนดจากมัน ในความสัมพันธ์กับปัญหาที่กำลังศึกษา จำนวนองศาความเป็นอิสระควรแสดงว่ามีการเบี่ยงเบนอิสระจาก .มากน้อยเพียงใด พี

การประเมินความสำคัญของสมการถดถอยโดยรวมจะได้รับด้วยความช่วยเหลือของ F- เกณฑ์ของฟิชเชอร์ ในกรณีนี้ จะมีการเสนอสมมติฐานว่างว่าสัมประสิทธิ์การถดถอยเท่ากับศูนย์ กล่าวคือ ข= 0 และด้วยเหตุนี้ตัวประกอบ Xไม่ส่งผลต่อผลลัพธ์ ย.

การคำนวณโดยตรงของเกณฑ์ F นำหน้าด้วยการวิเคราะห์ความแปรปรวน ศูนย์กลางของมันคือการขยายตัวของผลรวมทั้งหมดของส่วนเบี่ยงเบนกำลังสองของตัวแปร ที่จากค่าเฉลี่ย ที่ออกเป็นสองส่วน - "อธิบาย" และ "ไม่ได้อธิบาย":

- ผลรวมของส่วนเบี่ยงเบนกำลังสอง

- ผลรวมของส่วนเบี่ยงเบนกำลังสองที่อธิบายโดยการถดถอย

คือผลรวมคงเหลือของกำลังสองของส่วนเบี่ยงเบน

ผลรวมของค่าเบี่ยงเบนกำลังสองใดๆ สัมพันธ์กับจำนวนองศาอิสระ , นั่นคือ ด้วยจำนวนอิสระของการเปลี่ยนแปลงคุณลักษณะที่เป็นอิสระ จำนวนองศาอิสระสัมพันธ์กับจำนวนหน่วยประชากร นและด้วยจำนวนค่าคงที่ที่กำหนดจากมัน ในความสัมพันธ์กับปัญหาที่กำลังศึกษา จำนวนองศาความเป็นอิสระควรแสดงว่ามีการเบี่ยงเบนอิสระจาก .มากน้อยเพียงใด พีจำเป็นต้องสร้างผลรวมของกำลังสองที่กำหนด

การกระจายตัวต่อระดับความเป็นอิสระดี.

อัตราส่วน F (เกณฑ์ F):

ถ้าสมมุติฐานว่างเป็นจริงจากนั้นแฟกทอเรียลและ การกระจายตัวของสารตกค้างไม่แตกต่างจากกัน สำหรับ H 0 จำเป็นต้องมีการหักล้างเพื่อให้ค่าความแปรปรวนของปัจจัยเกินค่าคงเหลือหลายครั้ง นักสถิติชาวอังกฤษ Snedecor ได้พัฒนาตารางค่าวิกฤต F-ความสัมพันธ์ในระดับต่าง ๆ ของสาระสำคัญ สมมติฐานว่างและ ตัวเลขต่างๆระดับความอิสระ. ค่าตาราง F-criterion คือค่าสูงสุดของอัตราส่วนของความแปรปรวน ซึ่งสามารถเกิดขึ้นได้ในกรณีที่มีการสุ่มไดเวอร์เจนต์สำหรับ ระดับที่กำหนดความน่าจะเป็นที่จะมีสมมติฐานว่าง ค่าที่คำนวณได้ F-ความสัมพันธ์ได้รับการยอมรับว่าเชื่อถือได้ถ้า o มากกว่าแบบตาราง

ในกรณีนี้ สมมติฐานว่างเกี่ยวกับการไม่มีความสัมพันธ์ของคุณลักษณะจะถูกปฏิเสธและมีการสรุปเกี่ยวกับความสำคัญของความสัมพันธ์นี้: F ข้อเท็จจริง > F ตาราง H 0 ถูกปฏิเสธ

ถ้าค่าน้อยกว่าตาราง F ความจริง ‹, F ตารางจากนั้นความน่าจะเป็นของสมมติฐานว่างจะสูงกว่าระดับที่กำหนดและไม่สามารถปฏิเสธได้หากไม่มีความเสี่ยงร้ายแรงในการสรุปข้อสรุปที่ไม่ถูกต้องเกี่ยวกับการมีอยู่ของความสัมพันธ์ ในกรณีนี้ สมการถดถอยถือว่าไม่มีนัยสำคัญทางสถิติ N o ไม่เบี่ยงเบน

ข้อผิดพลาดมาตรฐานของสัมประสิทธิ์การถดถอย

ในการประเมินความสำคัญของสัมประสิทธิ์การถดถอย ค่าของสัมประสิทธิ์จะเปรียบเทียบกับค่าของมัน มาตรฐานบกพร่องกล่าวคือ มูลค่าที่แท้จริงถูกกำหนด t-เกณฑ์ของนักเรียน: ซึ่งเมื่อเทียบแล้วกับ ค่าตารางในระดับนัยสำคัญและจำนวนระดับความเป็นอิสระ ( น- 2).

ข้อผิดพลาดมาตรฐานของพารามิเตอร์ เอ:

ความสำคัญของค่าสัมประสิทธิ์สหสัมพันธ์เชิงเส้นถูกตรวจสอบตามขนาดของข้อผิดพลาด ค่าสัมประสิทธิ์สหสัมพันธ์ ร:

ความแปรปรวนทั้งหมดของคุณลักษณะ X:

การถดถอยเชิงเส้นพหุคูณ

การสร้างแบบจำลอง

การถดถอยพหุคูณเป็นการถดถอยของคุณลักษณะผลลัพธ์ที่มีสองและ จำนวนมากปัจจัย เช่น รูปแบบการดู

การถดถอยสามารถให้ผลลัพธ์ที่ดีในการสร้างแบบจำลองหากละเลยอิทธิพลของปัจจัยอื่นๆ ที่ส่งผลต่อวัตถุประสงค์ของการศึกษา ไม่สามารถควบคุมพฤติกรรมของตัวแปรทางเศรษฐกิจแต่ละรายการได้ กล่าวคือ ไม่สามารถรับประกันความเท่าเทียมกันของเงื่อนไขอื่น ๆ ทั้งหมดสำหรับการประเมินอิทธิพลของปัจจัยหนึ่งภายใต้การศึกษา ในกรณีนี้ คุณควรพยายามระบุอิทธิพลของปัจจัยอื่นๆ โดยนำปัจจัยเหล่านั้นเข้าสู่แบบจำลอง กล่าวคือ สร้างสมการ การถดถอยพหุคูณ: y = a+b 1 x 1 +b 2 +…+b p x p + .

เป้าหมายหลักของการถดถอยพหุคูณคือการสร้างแบบจำลองที่มีปัจจัยจำนวนมาก ขณะที่กำหนดอิทธิพลของปัจจัยแต่ละอย่างเป็นรายบุคคล ตลอดจนผลกระทบสะสมต่อตัวบ่งชี้แบบจำลอง ข้อมูลจำเพาะของแบบจำลองประกอบด้วยคำถามสองส่วน: การเลือกปัจจัยและการเลือกประเภทของสมการถดถอย