การวิเคราะห์การถดถอยเชิงเส้น วิธีการทางสถิติทางคณิตศาสตร์
ผลลัพธ์
สถิติการถดถอย | |
หลาย R | 0,998364 |
R-สี่เหลี่ยม | 0,99673 |
R-square ปกติ | 0,996321 |
มาตรฐานบกพร่อง | 0,42405 |
ข้อสังเกต | 10 |
ขั้นแรกให้ดูที่ส่วนบนของการคำนวณที่แสดงในตารางที่ 8.3a ซึ่งเป็นสถิติการถดถอย
ค่า R-square หรือที่เรียกว่าการวัดความแน่นอน เป็นตัวกำหนดคุณภาพของเส้นการถดถอยที่เกิดขึ้น คุณภาพนี้แสดงโดยระดับความสอดคล้องระหว่างข้อมูลดั้งเดิมกับแบบจำลองการถดถอย (ข้อมูลที่คำนวณ) การวัดความแน่นอนอยู่ภายในช่วงเวลาเสมอ
ในกรณีส่วนใหญ่ ค่า R-squared จะอยู่ระหว่างค่าเหล่านี้ เรียกว่า Extremes กล่าวคือ ระหว่างศูนย์และหนึ่ง
หากค่าของ R-square ใกล้เคียงกัน แสดงว่าแบบจำลองที่สร้างขึ้นนั้นอธิบายความแปรปรวนเกือบทั้งหมดของตัวแปรที่เกี่ยวข้องกัน ในทางกลับกัน ค่า R-squared ที่ใกล้ศูนย์หมายถึงคุณภาพของแบบจำลองที่สร้างขึ้นไม่ดี
ในตัวอย่างของเรา การวัดความแน่นอนคือ 0.99673 ซึ่งบ่งชี้ว่าเส้นการถดถอยมีความเหมาะสมมากกับข้อมูลเดิม
หลาย R- สัมประสิทธิ์สหสัมพันธ์พหุคูณ R - แสดงระดับการพึ่งพาตัวแปรอิสระ (X) และตัวแปรตาม (Y)
หลาย R เท่ากับรากที่สองของสัมประสิทธิ์การกำหนด ค่านี้ใช้ค่าในช่วงจากศูนย์ถึงหนึ่ง
ในการวิเคราะห์การถดถอยเชิงเส้นอย่างง่าย หลาย R เท่ากับสัมประสิทธิ์สหสัมพันธ์แบบเพียร์สัน อันที่จริง ตัวคูณ R ในกรณีของเราเท่ากับสัมประสิทธิ์สหสัมพันธ์แบบเพียร์สันจากตัวอย่างก่อนหน้า (0.998364)
อัตราต่อรอง | มาตรฐานบกพร่อง | t-สถิติ | |
สี่แยก Y | 2,694545455 | 0,33176878 | 8,121757129 |
ตัวแปร X 1 | 2,305454545 | 0,04668634 | 49,38177965 |
* มีการคำนวณเวอร์ชันที่ถูกตัดทอนให้ |
ตอนนี้ให้พิจารณาส่วนตรงกลางของการคำนวณที่แสดงในตารางที่ 8.3b ในที่นี้ ค่าสัมประสิทธิ์การถดถอย b (2.305454545) และออฟเซ็ตตามแกน y จะได้รับ นั่นคือ ค่าคงที่ a (2.694545455)
จากการคำนวณเราสามารถเขียนสมการถดถอยได้ดังนี้:
Y= x*2.305454545+2.694545455
ทิศทางของความสัมพันธ์ระหว่างตัวแปรถูกกำหนดตามสัญญาณ (ลบหรือบวก) สัมประสิทธิ์การถดถอย(ค่าสัมประสิทธิ์ข).
ถ้าป้ายที่ สัมประสิทธิ์การถดถอย- บวก ความสัมพันธ์ของตัวแปรตามกับตัวแปรอิสระจะเป็นบวก ในกรณีของเรา เครื่องหมายของสัมประสิทธิ์การถดถอยเป็นบวก ดังนั้น ความสัมพันธ์จึงเป็นบวกด้วย
ถ้าป้ายที่ สัมประสิทธิ์การถดถอย- เชิงลบ ความสัมพันธ์ระหว่างตัวแปรตามและตัวแปรอิสระเป็นค่าลบ (ผกผัน)
ในตาราง 8.3c ผลลัพธ์ของการส่งออกของส่วนที่เหลือจะถูกนำเสนอ เพื่อให้ผลลัพธ์เหล่านี้ปรากฏในรายงาน จำเป็นต้องเปิดใช้งานช่องทำเครื่องหมาย "ส่วนที่เหลือ" เมื่อเปิดเครื่องมือ "การถดถอย"
การถอนเงินที่เหลืออยู่
การสังเกต | คาดการณ์ Y | เศษซาก | เครื่องชั่งมาตรฐาน |
---|---|---|---|
1 | 9,610909091 | -0,610909091 | -1,528044662 |
2 | 7,305454545 | -0,305454545 | -0,764022331 |
3 | 11,91636364 | 0,083636364 | 0,209196591 |
4 | 14,22181818 | 0,778181818 | 1,946437843 |
5 | 16,52727273 | 0,472727273 | 1,182415512 |
6 | 18,83272727 | 0,167272727 | 0,418393181 |
7 | 21,13818182 | -0,138181818 | -0,34562915 |
8 | 23,44363636 | -0,043636364 | -0,109146047 |
9 | 25,74909091 | -0,149090909 | -0,372915662 |
10 | 28,05454545 | -0,254545455 | -0,636685276 |
การใช้ส่วนนี้ของรายงาน เราจะเห็นความเบี่ยงเบนของแต่ละจุดจากเส้นถดถอยที่สร้างขึ้น ค่าสัมบูรณ์ที่ยิ่งใหญ่ที่สุด
บรรยาย 3
การวิเคราะห์การถดถอย
1) ลักษณะเชิงตัวเลขของการถดถอย
2) การถดถอยเชิงเส้น
3) การถดถอยไม่เชิงเส้น
4) การถดถอยพหุคูณ
5) การใช้ MS EXCEL เพื่อทำการวิเคราะห์การถดถอย
เครื่องมือควบคุมและประเมินผล - งานทดสอบ
1. ลักษณะเชิงตัวเลขของการถดถอย
การวิเคราะห์การถดถอยเป็นวิธีทางสถิติสำหรับการศึกษาอิทธิพลของตัวแปรอิสระหนึ่งตัวหรือมากกว่าต่อตัวแปรตาม ตัวแปรอิสระเรียกว่าตัวถดถอยหรือตัวทำนายและตัวแปรตามเรียกว่าเกณฑ์ คำศัพท์ของตัวแปรตามและตัวแปรอิสระสะท้อนให้เห็นเฉพาะการพึ่งพาทางคณิตศาสตร์ของตัวแปรเท่านั้น ไม่ใช่ความสัมพันธ์ของเหตุและผล
เป้าหมายของการวิเคราะห์การถดถอย
- การกำหนดระดับของการกำหนดความผันแปรของตัวแปรเกณฑ์ (ตาม) โดยตัวทำนาย (ตัวแปรอิสระ)
- การคาดคะเนค่าของตัวแปรตามโดยใช้ตัวแปรอิสระ
- การกำหนดการมีส่วนร่วมของตัวแปรอิสระแต่ละตัวต่อการแปรผันของตัวแปรอิสระ
การวิเคราะห์การถดถอยไม่สามารถใช้ในการพิจารณาว่ามีความสัมพันธ์ระหว่างตัวแปรหรือไม่ เนื่องจากการมีอยู่ของความสัมพันธ์นั้นเป็นข้อกำหนดเบื้องต้นสำหรับการใช้การวิเคราะห์
ในการวิเคราะห์การถดถอย ก่อนอื่นคุณต้องทำความคุ้นเคยกับแนวคิดพื้นฐานของสถิติและทฤษฎีความน่าจะเป็น
ลักษณะเชิงตัวเลขพื้นฐานของตัวแปรสุ่มแบบไม่ต่อเนื่องและต่อเนื่อง: การคาดหมายทางคณิตศาสตร์ ความแปรปรวน และส่วนเบี่ยงเบนมาตรฐาน
ตัวแปรสุ่มแบ่งออกเป็นสองประเภท:
- ไม่ต่อเนื่อง ซึ่งสามารถรับได้เฉพาะค่าที่กำหนดไว้ล่วงหน้าเท่านั้น (เช่น ค่าของตัวเลขที่อยู่ด้านบนของลูกเต๋าที่โยนหรือค่าลำดับของเดือนปัจจุบัน)
- · ต่อเนื่อง (บ่อยครั้ง - ค่าของปริมาณทางกายภาพบางอย่าง: น้ำหนัก, ระยะทาง, อุณหภูมิ, ฯลฯ ) ซึ่งตามกฎของธรรมชาติสามารถรับค่าใด ๆ อย่างน้อยก็ในช่วงเวลาหนึ่ง
กฎการแจกแจงของตัวแปรสุ่มคือความสอดคล้องระหว่างค่าที่เป็นไปได้ของตัวแปรสุ่มแบบไม่ต่อเนื่องและความน่าจะเป็นของตัวแปร ซึ่งมักจะเขียนในตาราง:
คำจำกัดความทางสถิติของความน่าจะเป็นแสดงในรูปของความถี่สัมพัทธ์ของเหตุการณ์สุ่ม กล่าวคือ พบว่าเป็นอัตราส่วนของจำนวนตัวแปรสุ่มต่อจำนวนตัวแปรสุ่มทั้งหมด
การคาดการณ์ทางคณิตศาสตร์ของตัวแปรสุ่มแบบไม่ต่อเนื่องXเรียกว่าผลรวมของผลิตภัณฑ์มูลค่าของปริมาณ Xเกี่ยวกับความน่าจะเป็นของค่าเหล่านี้ การคาดหมายทางคณิตศาสตร์แสดงโดย or เอ็ม(X) .
น
= เอ็ม(X) = x 1 พี 1 + x 2 พี 2 +… + x น พีน = ส x ฉัน ปี่
ผม=1
การกระจายตัวของตัวแปรสุ่มที่สัมพันธ์กับการคาดหมายทางคณิตศาสตร์นั้นถูกกำหนดโดยใช้ลักษณะพิเศษเชิงตัวเลขที่เรียกว่าการกระจายตัว พูดง่ายๆ คือ ความแปรปรวนคือการแพร่กระจายของตัวแปรสุ่มรอบๆ ค่าเฉลี่ย เพื่อทำความเข้าใจแก่นแท้ของการกระจาย ให้พิจารณาตัวอย่าง เงินเดือนเฉลี่ยในประเทศอยู่ที่ประมาณ 25,000 รูเบิล ตัวเลขนี้มาจากไหน? เป็นไปได้มากว่าเงินเดือนทั้งหมดจะถูกรวมและหารด้วยจำนวนพนักงาน ในกรณีนี้มีการกระจายตัวที่ใหญ่มาก (เงินเดือนขั้นต่ำคือประมาณ 4 พันรูเบิลและสูงสุดคือประมาณ 100,000 รูเบิล) ถ้าทุกคนมีเงินเดือนเท่ากัน การกระจายตัวจะเป็นศูนย์ และจะไม่มีสเปรด
การกระจายตัวของตัวแปรสุ่มแบบไม่ต่อเนื่องXเรียกว่าการคาดหมายทางคณิตศาสตร์ของกำลังสองของผลต่างของตัวแปรสุ่มและความคาดหวังทางคณิตศาสตร์:
D = M [ ((X - M (X)) 2 ]
โดยใช้คำจำกัดความของความคาดหวังทางคณิตศาสตร์ในการคำนวณความแปรปรวน เราได้รับสูตร:
D \u003d S (x i - M (X)) 2 p i
ความแปรปรวนมีมิติของกำลังสองของตัวแปรสุ่ม ในกรณีที่จำเป็นต้องมีลักษณะเชิงตัวเลขของการกระจายของค่าที่เป็นไปได้ในมิติเดียวกันกับตัวแปรสุ่มเอง ค่าเบี่ยงเบนมาตรฐานจะถูกใช้
ส่วนเบี่ยงเบนมาตรฐานตัวแปรสุ่มเรียกว่ารากที่สองของความแปรปรวน
ค่าเบี่ยงเบนกำลังสองเฉลี่ยคือการวัดการกระจายของค่าของตัวแปรสุ่มตามความคาดหวังทางคณิตศาสตร์
ตัวอย่าง.
กฎการกระจายของตัวแปรสุ่ม X ถูกกำหนดโดยตารางต่อไปนี้:
หาค่าความคาดหมาย ความแปรปรวน และค่าเบี่ยงเบนมาตรฐานทางคณิตศาสตร์ .
เราใช้สูตรข้างต้น:
M (X) \u003d 1 0.1 + 2 0.4 + 4 0.4 + 5 0.1 \u003d 3
D \u003d (1-3) 2 0.1 + (2 - 3) 2 0.4 + (4 - 3) 2 0.4 + (5 - 3) 2 0.1 \u003d 1.6
ตัวอย่าง.
ในลอตเตอรีเงินสด 1 ชนะ 1,000 rubles, 10 ชนะ 100 rubles และ 100 ชนะ 1 rubles แต่ละรายการที่มีจำนวนตั๋วทั้งหมด 10,000 เล่น สร้างกฎหมายการกระจายสำหรับการสุ่มชนะ X สำหรับเจ้าของตั๋วลอตเตอรีหนึ่งใบ และกำหนดความคาดหวังทางคณิตศาสตร์ ความแปรปรวน และค่าเบี่ยงเบนมาตรฐานของตัวแปรสุ่ม
X 1 \u003d 1,000, X 2 \u003d 100, X 3 \u003d 1, X 4 \u003d 0,
P 1 = 1/10000 = 0.0001, P 2 = 10/10000 = 0.001, P 3 = 100/10000 = 0.01, P 4 = 1 - (P 1 + P 2 + P 3) = 0.9889 .
เราใส่ผลลัพธ์ในตาราง:
ความคาดหวังทางคณิตศาสตร์ - ผลรวมของผลคูณของค่าตัวแปรสุ่มตามความน่าจะเป็น สำหรับปัญหานี้แนะนำให้คำนวณตามสูตร
1,000 0.0001 + 100 0.001 + 1 0.01 + 0 0.9889 = 0.21 รูเบิล
เราได้ราคาตั๋วที่ "ยุติธรรม" อย่างแท้จริง
D \u003d S (x ผม - M (X)) 2 p ผม \u003d (1000 - 0.21) 2 0.0001 + (100 - 0.21) 2 0.001 +
+ (1 - 0,21) 2 0,01 + (0 - 0,21) 2 0,9889 ≈ 109,97
ฟังก์ชันการกระจายของตัวแปรสุ่มต่อเนื่อง
ค่าซึ่งเป็นผลมาจากการทดสอบจะใช้ค่าที่เป็นไปได้หนึ่งค่า (ไม่ทราบล่วงหน้าว่าค่าใด) เรียกว่าตัวแปรสุ่ม ดังที่ได้กล่าวไว้ข้างต้น ตัวแปรสุ่มจะไม่ต่อเนื่อง (ไม่ต่อเนื่อง) และต่อเนื่อง
ตัวแปรที่ไม่ต่อเนื่องเป็นตัวแปรสุ่มที่ใช้ค่าที่เป็นไปได้แยกจากกันโดยมีความน่าจะเป็นบางอย่างที่สามารถกำหนดหมายเลขได้
ตัวแปรต่อเนื่องคือตัวแปรสุ่มที่สามารถรับค่าทั้งหมดจากช่วงจำกัดหรืออนันต์บางช่วงได้
ถึงจุดนี้ เราได้จำกัดตัวเองให้อยู่ใน "ตัวแปร" สุ่มเพียงหนึ่งเดียวเท่านั้น - ไม่ต่อเนื่อง กล่าวคือ รับค่าจำกัด
แต่ทฤษฎีและการปฏิบัติของสถิติต้องใช้แนวคิดของตัวแปรสุ่มแบบต่อเนื่อง ทำให้มีค่าตัวเลขจากช่วงเวลาใดก็ได้
กฎการแจกแจงของตัวแปรสุ่มแบบต่อเนื่องถูกระบุอย่างสะดวกโดยใช้ฟังก์ชันความหนาแน่นของความน่าจะเป็นที่เรียกว่า ฉ(x). ความน่าจะเป็น P(a< X < b) того, что значение, принятое случайной величиной Х, попадет в промежуток (a; b), определяется равенством
พี (อะ< X < b) = ∫ ฉ(x) dx
กราฟของฟังก์ชัน f (x) เรียกว่ากราฟการกระจาย ในเชิงเรขาคณิต ความน่าจะเป็นของตัวแปรสุ่มที่ตกลงไปในช่วงเวลา (a; b) เท่ากับพื้นที่ของสี่เหลี่ยมคางหมูโค้งที่สอดคล้องกัน ล้อมรอบด้วยเส้นโค้งการกระจาย แกน Ox และเส้นตรง x = a, x = b .
P(a£X
ถ้าเซตจำกัดหรือนับได้ถูกลบออกจากเหตุการณ์ที่ซับซ้อน ความน่าจะเป็นของเหตุการณ์ใหม่จะไม่เปลี่ยนแปลง
ฟังก์ชัน f(x) - ฟังก์ชันสเกลาร์เชิงตัวเลขของอาร์กิวเมนต์จริง x เรียกว่า ความหนาแน่นของความน่าจะเป็น และมีอยู่ที่จุด x หากมีขีดจำกัด ณ จุดนี้:
คุณสมบัติความหนาแน่นของความน่าจะเป็น:
- ความหนาแน่นของความน่าจะเป็นเป็นฟังก์ชันที่ไม่เป็นลบ เช่น f(x) ≥ 0
(หากค่าทั้งหมดของตัวแปรสุ่ม X อยู่ในช่วง (a;b) แล้วค่าสุดท้าย
ความเท่าเทียมกันสามารถเขียนได้เป็น ∫ f (x) dx = 1)
พิจารณาตอนนี้ฟังก์ชัน F(x) = P(X< х). Эта функция называется функцией распределения вероятности случайной величины Х. Функция F(х) существует как для дискретных, так и для непрерывных случайных величин. Если f (x) - функция плотности распределения вероятности
ตัวแปรสุ่มต่อเนื่อง X จากนั้น F (x) = ∫ f(x) dx = 1)
มันตามมาจากความเท่าเทียมกันครั้งสุดท้ายที่ f (x) = F" (x)
บางครั้งฟังก์ชัน f(x) จะเรียกว่าฟังก์ชันการกระจายความน่าจะเป็นเชิงอนุพันธ์ และฟังก์ชัน F(x) เรียกว่าฟังก์ชันการกระจายความน่าจะเป็นสะสม
เราสังเกตคุณสมบัติที่สำคัญที่สุดของฟังก์ชันการกระจายความน่าจะเป็น:
- F(x) เป็นฟังก์ชันที่ไม่ลดลง
- F(-∞)=0.
- F (+∞) = 1
แนวคิดของฟังก์ชันการแจกแจงเป็นศูนย์กลางของทฤษฎีความน่าจะเป็น เมื่อใช้แนวคิดนี้ เราสามารถให้คำจำกัดความอื่นของตัวแปรสุ่มแบบต่อเนื่องได้ ตัวแปรสุ่มจะเรียกว่า ต่อเนื่อง ถ้าฟังก์ชันการกระจายตัวของอินทิกรัล F(x) ต่อเนื่องกัน
ลักษณะเชิงตัวเลขของตัวแปรสุ่มต่อเนื่อง
ความคาดหวังทางคณิตศาสตร์ ความแปรปรวน และพารามิเตอร์อื่นๆ ของตัวแปรสุ่มใดๆ มักจะคำนวณโดยใช้สูตรที่เป็นไปตามกฎการแจกแจง
สำหรับตัวแปรสุ่มแบบต่อเนื่อง การคาดหมายทางคณิตศาสตร์คำนวณโดยสูตร:
M(X) = ∫ x ฉ(x) dx
การกระจายตัว:
D(X) = ∫ ( x- M (X)) 2 ฉ(x) dx หรือ D(X) = ∫ x 2 ฉ(x) dx - (M (X)) 2
2. การถดถอยเชิงเส้น
ให้ส่วนประกอบ X และ Y ของตัวแปรสุ่มสองมิติ (X, Y) ขึ้นอยู่กับ เราจะสมมติว่าหนึ่งในนั้นสามารถแสดงเป็นฟังก์ชันเชิงเส้นของอีกฟังก์ชันหนึ่งโดยประมาณได้ ตัวอย่างเช่น
Y ≈ g(X) = α + βX และกำหนดพารามิเตอร์ α และ β โดยใช้วิธีกำลังสองน้อยที่สุด
คำนิยาม. ฟังก์ชัน g(X) = α + βX เรียกว่า การประมาณที่ดีที่สุด Y ในแง่ของวิธีกำลังสองน้อยที่สุด ถ้าการคาดหมายทางคณิตศาสตร์ M(Y - g(X)) 2 ใช้ค่าที่น้อยที่สุดเท่าที่จะเป็นไปได้ ฟังก์ชัน g(X) เรียกว่า หมายถึงการถดถอยกำลังสอง Y ถึง X
ทฤษฎีบทการถดถอยกำลังสองเฉลี่ยเชิงเส้นของ Y บน X คือ:
ค่าสัมประสิทธิ์สหสัมพันธ์ X และ Y อยู่ที่ไหน
สัมประสิทธิ์ของสมการ
สามารถตรวจสอบได้ว่าสำหรับค่าเหล่านี้ฟังก์ชันฟังก์ชัน F(α, β)
F(α, β ) = เอ็ม(Y - α - βX)² มีขั้นต่ำซึ่งพิสูจน์การยืนยันของทฤษฎีบท
คำนิยาม. ค่าสัมประสิทธิ์เรียกว่า สัมประสิทธิ์การถดถอย Y บน Xและเส้นตรง - - การถดถอยกำลังสองเฉลี่ยโดยตรงของ Y บน X.
แทนพิกัดของจุดนิ่งเป็นความเท่าเทียมกัน เราสามารถหาค่าต่ำสุดของฟังก์ชัน F(α, β) เท่ากับค่านี้เรียกว่า การกระจายตัวของสารตกค้าง Y สัมพันธ์กับ X และกำหนดลักษณะจำนวนข้อผิดพลาดที่อนุญาตเมื่อแทนที่ Y ด้วย
ก.(X) = α + βX ที่ ความแปรปรวนที่เหลือคือ 0 นั่นคือความเท่าเทียมกันไม่ใช่ค่าประมาณ แต่แน่นอน ดังนั้น เมื่อ Y และ X เชื่อมต่อกันด้วยการพึ่งพาฟังก์ชันเชิงเส้น ในทำนองเดียวกัน คุณสามารถได้เส้นตรงของการถดถอยราก-ค่าเฉลี่ย-กำลังสองของ X บน Y:
และความแปรปรวนคงเหลือของ X เทียบกับ Y สำหรับการถดถอยโดยตรงทั้งสองเกิดขึ้นพร้อมกัน การเปรียบเทียบสมการถดถอย Y บน X และ X บน Y และการแก้ระบบสมการ คุณสามารถหาจุดตัดกันของเส้นถดถอย - จุดที่มีพิกัด (t x, t y) เรียกว่า ศูนย์กลางของการกระจายร่วมของค่า X และ Y
เราจะพิจารณาอัลกอริทึมสำหรับการรวบรวมสมการถดถอยจากตำราเรียนโดย V. E. Gmurman "ทฤษฎีความน่าจะเป็นและสถิติทางคณิตศาสตร์" หน้า 256
1) รวบรวมตารางการคำนวณซึ่งจะมีการบันทึกจำนวนองค์ประกอบตัวอย่าง ตัวเลือกตัวอย่าง สี่เหลี่ยมจัตุรัส และผลิตภัณฑ์
2) คำนวณผลรวมของทุกคอลัมน์ยกเว้นตัวเลข
3) คำนวณค่าเฉลี่ยสำหรับแต่ละปริมาณ การกระจายตัว และส่วนเบี่ยงเบนมาตรฐาน
5) ทดสอบสมมติฐานเกี่ยวกับการดำรงอยู่ของความสัมพันธ์ระหว่าง X และ Y
6) เขียนสมการของทั้งสองเส้นการถดถอยและพล็อตกราฟของสมการเหล่านี้
ความชันของการถดถอยเส้นตรง Y บน X คือสัมประสิทธิ์การถดถอยตัวอย่าง
ค่าสัมประสิทธิ์ b=
เราได้สมการที่ต้องการของเส้นถดถอย Y บน X:
Y \u003d 0.202 X + 1.024
ในทำนองเดียวกัน สมการถดถอย X บน Y:
ความชันของการถดถอยเส้นตรง Y บน X คือสัมประสิทธิ์การถดถอยตัวอย่าง pxy:
ค่าสัมประสิทธิ์ b=
X \u003d 4.119 Y - 3.714
3. การถดถอยไม่เชิงเส้น
หากมีความสัมพันธ์ที่ไม่เป็นเชิงเส้นระหว่างปรากฏการณ์ทางเศรษฐกิจ ก็จะแสดงออกมาโดยใช้ฟังก์ชันที่ไม่เป็นเชิงเส้นที่สอดคล้องกัน
การถดถอยแบบไม่เชิงเส้นมีสองประเภท:
1. การถดถอยที่ไม่เป็นเชิงเส้นเมื่อเทียบกับตัวแปรอธิบายที่รวมอยู่ในการวิเคราะห์ แต่เป็นเชิงเส้นเมื่อเทียบกับพารามิเตอร์ที่ประมาณการไว้ เช่น
พหุนามขององศาต่างๆ
อติพจน์ด้านเท่ากันหมด - ;
ฟังก์ชันเซมิลอการิทึม - .
2. การถดถอยที่ไม่เป็นเชิงเส้นในแง่ของพารามิเตอร์ประมาณการ เช่น
พลัง - ;
สาธิต -;
เอกซ์โพเนนเชียล - .
การถดถอยแบบไม่เชิงเส้นของตัวแปรที่รวมไว้จะลดลงเป็นรูปแบบเชิงเส้นโดยการเปลี่ยนแปลงตัวแปรอย่างง่าย และการประมาณค่าพารามิเตอร์เพิ่มเติมจะดำเนินการโดยใช้วิธีกำลังสองน้อยที่สุด ลองพิจารณาฟังก์ชั่นบางอย่าง
พาราโบลาของดีกรีที่สองจะลดลงเป็นรูปแบบเชิงเส้นโดยใช้การแทนที่: เป็นผลให้เรามาถึงสมการสองปัจจัย การประมาณค่าพารามิเตอร์โดยใช้วิธีกำลังสองน้อยที่สุดนำไปสู่ระบบสมการ:
พาราโบลาของดีกรีที่สองมักใช้ในกรณีที่สำหรับช่วงเวลาหนึ่งของค่าปัจจัย ธรรมชาติของความสัมพันธ์ของคุณลักษณะที่อยู่ระหว่างการพิจารณาเปลี่ยนแปลงไป: ความสัมพันธ์โดยตรงจะเปลี่ยนเป็นค่าผกผันหนึ่งหรือผกผันหนึ่งไปเป็นอันโดยตรง
สามารถใช้ไฮเปอร์โบลาด้านเท่ากันเพื่ออธิบายลักษณะความสัมพันธ์ระหว่างต้นทุนเฉพาะของวัตถุดิบ วัตถุดิบ เชื้อเพลิง และปริมาณผลผลิต เวลาหมุนเวียนของสินค้า และมูลค่าการหมุนเวียน ตัวอย่างคลาสสิกคือเส้นโค้งฟิลลิปส์ ซึ่งแสดงลักษณะความสัมพันธ์ที่ไม่เชิงเส้นระหว่างอัตราการว่างงาน xและอัตราค่าจ้างที่เพิ่มขึ้น y.
ไฮเปอร์โบลาถูกลดขนาดเป็นสมการเชิงเส้นโดยการแทนที่อย่างง่าย: คุณสามารถใช้วิธีกำลังสองน้อยที่สุดเพื่อสร้างระบบสมการเชิงเส้นได้
ในทำนองเดียวกัน การขึ้นต่อกันจะลดลงเป็นรูปแบบเชิงเส้น: และอื่น ๆ
ไฮเปอร์โบลาด้านเท่ากันหมดและเส้นกึ่งลอการิทึมใช้เพื่ออธิบายกราฟเอนเจล (คำอธิบายทางคณิตศาสตร์ของความสัมพันธ์ระหว่างส่วนแบ่งของการใช้จ่ายในสินค้าคงทนและการใช้จ่ายทั้งหมด (หรือรายได้)) สมการที่รวมไว้นั้นใช้ในการศึกษาผลผลิต ความเข้มแรงงานของการผลิตทางการเกษตร
4. การถดถอยพหุคูณ
การถดถอยพหุคูณ - สมการลิงก์ที่มีตัวแปรอิสระหลายตัว:
ตัวแปรตามอยู่ที่ไหน (เครื่องหมายผลลัพธ์);
ตัวแปรอิสระ (ปัจจัย)
ในการสร้างสมการถดถอยพหุคูณ มักใช้ฟังก์ชันต่อไปนี้:
เชิงเส้น -
พลัง -
ผู้แสดงสินค้า -
อติพจน์ - .
คุณสามารถใช้ฟังก์ชันอื่นๆ ที่สามารถลดขนาดให้อยู่ในรูปเชิงเส้นได้
ในการประมาณค่าพารามิเตอร์ของสมการถดถอยพหุคูณ ใช้วิธีกำลังสองน้อยที่สุด (LSM) สำหรับสมการเชิงเส้นและสมการไม่เชิงเส้นที่ปรับลดเป็นสมการเชิงเส้นได้ จะมีการสร้างระบบสมการปกติต่อไปนี้ขึ้น ซึ่งทำให้ได้ค่าประมาณของพารามิเตอร์การถดถอย:
ในการแก้ปัญหานั้น สามารถใช้วิธีการของดีเทอร์มิแนนต์ได้:
ตัวกำหนดของระบบอยู่ที่ไหน
ตัวกำหนดส่วนตัว; ซึ่งได้มาจากการแทนที่คอลัมน์ที่สอดคล้องกันของเมทริกซ์ของดีเทอร์มีแนนต์ของระบบด้วยข้อมูลทางด้านซ้ายของระบบ
สมการถดถอยพหุคูณอีกประเภทหนึ่งคือสมการถดถอยมาตราส่วนมาตรฐาน LSM ใช้ได้กับสมการถดถอยพหุคูณในระดับมาตรฐาน
5. การใช้งานนางสาวEXCELเพื่อทำการวิเคราะห์การถดถอย
การวิเคราะห์การถดถอยกำหนดรูปแบบของความสัมพันธ์ระหว่างตัวแปรสุ่ม Y (ขึ้นอยู่กับ) และค่าของตัวแปรอย่างน้อยหนึ่งตัวแปร (อิสระ) และค่าของตัวแปรหลังจะถือว่าได้รับอย่างแน่นอน การพึ่งพาอาศัยกันดังกล่าวมักจะถูกกำหนดโดยแบบจำลองทางคณิตศาสตร์บางตัว (สมการถดถอย) ที่มีพารามิเตอร์ที่ไม่รู้จักหลายตัว ในระหว่างการวิเคราะห์การถดถอย บนพื้นฐานของข้อมูลตัวอย่าง จะพบค่าประมาณของพารามิเตอร์เหล่านี้ ข้อผิดพลาดทางสถิติของการประมาณการหรือขอบเขตของช่วงความเชื่อมั่นจะถูกกำหนด และตรวจสอบการปฏิบัติตาม (ความเพียงพอ) ของแบบจำลองทางคณิตศาสตร์ที่ยอมรับพร้อมข้อมูลการทดลอง
ในการวิเคราะห์การถดถอยเชิงเส้น ความสัมพันธ์ระหว่างตัวแปรสุ่มจะถือว่าเป็นเส้นตรง ในกรณีที่ง่ายที่สุด ในแบบจำลองการถดถอยเชิงเส้นแบบคู่ มีตัวแปร X และ Y สองตัว และจำเป็นสำหรับการสังเกต n คู่ (X1, Y1), (X2, Y2), ..., (Xn, Yn) เพื่อสร้าง (เลือก) เส้นตรงที่เรียกว่าเส้นถดถอยซึ่ง "ดีที่สุด" ประมาณค่าที่สังเกตได้ สมการของเส้นตรง y=ax+b นี้คือสมการถดถอย การใช้สมการถดถอย คุณสามารถทำนายค่าที่คาดหวังของตัวแปรตาม y ที่สอดคล้องกับค่าที่กำหนดของตัวแปรอิสระ x ในกรณีที่พิจารณาการพึ่งพาระหว่างตัวแปรตาม Y และตัวแปรอิสระหลายตัว X1, X2, ..., Xm ตัวแปรหนึ่งพูดถึงการถดถอยเชิงเส้นพหุคูณ
ในกรณีนี้สมการถดถอยจะมีรูปแบบ
y = a 0 +a 1 x 1 +a 2 x 2 +…+a m x m ,
โดยที่ a0, a1, a2, … am คือสัมประสิทธิ์การถดถอยที่จะกำหนด
สัมประสิทธิ์ของสมการถดถอยถูกกำหนดโดยใช้วิธีกำลังสองน้อยที่สุด เพื่อให้ได้ผลรวมต่ำสุดของผลต่างกำลังสองระหว่างค่าจริงของตัวแปร Y และค่าที่คำนวณโดยใช้สมการถดถอย ตัวอย่างเช่น สมการถดถอยเชิงเส้นสามารถสร้างได้แม้ในขณะที่ไม่มีความสัมพันธ์เชิงเส้น
การวัดประสิทธิภาพของตัวแบบการถดถอยคือสัมประสิทธิ์การกำหนด R2 (R-square) ค่าสัมประสิทธิ์การกำหนดสามารถรับค่าระหว่าง 0 ถึง 1 กำหนดระดับความแม่นยำที่สมการถดถอยที่ได้จะอธิบาย (โดยประมาณ) ข้อมูลต้นฉบับ ความสำคัญของแบบจำลองการถดถอยยังถูกตรวจสอบโดยใช้เกณฑ์ F (ฟิชเชอร์) และความน่าเชื่อถือของความแตกต่างระหว่างสัมประสิทธิ์ a0, a1, a2, ... จากศูนย์จะถูกตรวจสอบโดยใช้การทดสอบ t ของนักเรียน
ใน Excel ข้อมูลการทดลองจะถูกประมาณโดยสมการเชิงเส้นถึงลำดับที่ 16:
y = a0+a1x1+a2x2+…+a16x16
เพื่อให้ได้ค่าสัมประสิทธิ์การถดถอยเชิงเส้น สามารถใช้ขั้นตอน "การถดถอย" จากชุดการวิเคราะห์ได้ นอกจากนี้ ฟังก์ชัน LINEST ยังให้ข้อมูลที่สมบูรณ์เกี่ยวกับสมการถดถอยเชิงเส้นอีกด้วย นอกจากนี้ สามารถใช้ฟังก์ชัน SLOPE และ INTERCEPT เพื่อรับพารามิเตอร์ของสมการถดถอย และฟังก์ชัน TREND และ FORECAST สามารถใช้เพื่อรับค่า Y ที่คาดการณ์ไว้ที่จุดที่ต้องการ (สำหรับการถดถอยแบบคู่)
ให้เราพิจารณารายละเอียดการใช้งานของฟังก์ชัน LINEST (known_y, [known_x], [constant], [statistics]):known_y - ช่วงของค่าที่ทราบของพารามิเตอร์ที่ขึ้นต่อกัน Y ในการวิเคราะห์การถดถอยแบบคู่ มันสามารถมีได้ แบบฟอร์มใด ๆ ในพหูพจน์ ต้องเป็นแถวหรือคอลัมน์ Known_x คือช่วงของค่าที่ทราบของพารามิเตอร์อิสระตั้งแต่หนึ่งตัวขึ้นไป ต้องมีรูปร่างเหมือนกับช่วง Y (สำหรับพารามิเตอร์หลายตัว หลายคอลัมน์หรือหลายแถวตามลำดับ) ค่าคงที่ - อาร์กิวเมนต์บูลีน หากตามความหมายเชิงปฏิบัติของงานวิเคราะห์การถดถอย จำเป็นต้องเส้นการถดถอยผ่านจุดกำเนิด นั่นคือ สัมประสิทธิ์อิสระเท่ากับ 0 ค่าของอาร์กิวเมนต์นี้ควรตั้งค่าเป็น 0 (หรือ “ เท็จ"). หากค่าถูกตั้งค่าเป็น 1 (หรือ "จริง") หรือละไว้ สัมประสิทธิ์อิสระจะถูกคำนวณด้วยวิธีปกติ สถิติเป็นอาร์กิวเมนต์บูลีน หากค่าถูกตั้งค่าเป็น 1 (หรือ "จริง") จะมีการส่งคืนสถิติการถดถอยเพิ่มเติม (ดูตาราง) ใช้ในการประเมินประสิทธิภาพและความสำคัญของแบบจำลอง ในกรณีทั่วไป สำหรับการถดถอยแบบคู่ y=ax+b ผลลัพธ์ของการใช้ฟังก์ชัน LINEST จะมีลักษณะดังนี้:
โต๊ะ. ช่วงเอาต์พุตของ LINEST สำหรับการวิเคราะห์การถดถอยแบบคู่
ในกรณีของการวิเคราะห์การถดถอยพหุคูณสำหรับสมการ y=a0+a1x1+a2x2+…+amxm สัมประสิทธิ์ am,…,a1,a0 จะแสดงในบรรทัดแรก และข้อผิดพลาดมาตรฐานสำหรับสัมประสิทธิ์เหล่านี้จะแสดงในบรรทัดที่สอง . แถว 3-5 ยกเว้นสองคอลัมน์แรกที่มีสถิติการถดถอย จะให้ผลลัพธ์ #N/A
ควรป้อนฟังก์ชัน LINEST เป็นสูตรอาร์เรย์ ก่อนอื่นให้เลือกอาร์เรย์ที่มีขนาดที่ต้องการสำหรับผลลัพธ์ (คอลัมน์ m+1 และ 5 แถว หากต้องการสถิติการถดถอย) และกรอกรายการสูตรโดยกด CTRL+SHIFT+ENTER
ผลลัพธ์สำหรับตัวอย่างของเรา:
นอกจากนี้ โปรแกรมยังมีฟังก์ชันในตัว - การวิเคราะห์ข้อมูลบนแท็บข้อมูล
นอกจากนี้ยังสามารถใช้เพื่อทำการวิเคราะห์การถดถอย:
บนสไลด์ - ผลลัพธ์ของการวิเคราะห์การถดถอยโดยใช้การวิเคราะห์ข้อมูล
ผลลัพธ์ |
||||||||
สถิติการถดถอย |
||||||||
หลาย R |
||||||||
R-สี่เหลี่ยม |
||||||||
R-square ปกติ |
||||||||
มาตรฐานบกพร่อง |
||||||||
ข้อสังเกต |
||||||||
การวิเคราะห์ความแปรปรวน |
||||||||
ความสำคัญF |
||||||||
การถดถอย |
||||||||
อัตราต่อรอง |
มาตรฐานบกพร่อง |
t-สถิติ |
P-value |
ด้านล่าง 95% |
สูงสุด 95% |
ต่ำกว่า 95.0% |
สูงสุด 95.0% |
|
สี่แยก Y |
||||||||
ตัวแปร X 1 |
สมการถดถอยที่เราดูก่อนหน้านี้นั้นสร้างขึ้นใน MS Excel ด้วย ในการดำเนินการ ขั้นแรกให้สร้างพล็อตแบบกระจาย จากนั้นผ่านเมนูบริบท ให้เลือก - เพิ่มเส้นแนวโน้ม ในหน้าต่างใหม่ ให้เลือกช่องทำเครื่องหมาย - แสดงสมการบนไดอะแกรม และวางค่าความน่าเชื่อถือโดยประมาณ (R ^ 2) บนไดอะแกรม
วรรณกรรม:
- ทฤษฎีความน่าจะเป็นและสถิติทางคณิตศาสตร์. หนังสือเรียน Gmurman V. E. สำหรับมหาวิทยาลัย - เอ็ด ที่ 10 ท่าน - ม.: สูงกว่า. โรงเรียน, 2010. - 479s.
- คณิตศาสตร์ที่สูงขึ้นในแบบฝึกหัดและงาน หนังสือเรียนสำหรับมหาวิทยาลัย / Danko P. E. , Popov A. G. , Kozhevnikova T. Ya. , Danko S. P. ใน 2 ชั่วโมง - Ed. ที่ 6 ซีเนียร์ - M.: Oniks Publishing House LLC: Mir and Education Publishing House LLC, 2007. - 416 p.
- 3. http://www.machinelearning.ru/wiki/index.php?title=%D0%A0%D0%B5%D0%B3%D1%80%D0%B5%D1%81%D1%81%D0%B8 %D1%8F - ข้อมูลบางส่วนเกี่ยวกับการวิเคราะห์การถดถอย
แนวคิดของการถดถอย. ความสัมพันธ์ระหว่างตัวแปร xและ yสามารถอธิบายได้หลายวิธี โดยเฉพาะอย่างยิ่ง รูปแบบการเชื่อมต่อใดๆ สามารถแสดงได้ด้วยสมการทั่วไป โดยที่ yถือเป็นตัวแปรตามหรือ ฟังก์ชั่นจากตัวแปรอื่น - ตัวแปรอิสระ x เรียกว่า การโต้แย้ง. ความสอดคล้องระหว่างอาร์กิวเมนต์และฟังก์ชันสามารถกำหนดได้จากตาราง สูตร กราฟ และอื่นๆ การเปลี่ยนฟังก์ชันขึ้นอยู่กับการเปลี่ยนแปลงในอาร์กิวเมนต์อย่างน้อยหนึ่งอาร์กิวเมนต์เรียกว่า การถดถอย. วิธีการทั้งหมดที่ใช้อธิบายความสัมพันธ์คือเนื้อหา การวิเคราะห์การถดถอย.
สมการสหสัมพันธ์หรือสมการถดถอย ชุดการถดถอยเชิงประจักษ์และคำนวณเชิงทฤษฎี กราฟที่เรียกว่าเส้นถดถอย เช่นเดียวกับสัมประสิทธิ์การถดถอยเชิงเส้นและไม่เป็นเชิงเส้น ใช้เพื่อแสดงความถดถอย
ตัวบ่งชี้การถดถอยแสดงความสัมพันธ์แบบสองทางโดยคำนึงถึงการเปลี่ยนแปลงในค่าเฉลี่ยของแอตทริบิวต์ Yเมื่อเปลี่ยนค่า x ผมเข้าสู่ระบบ Xและในทางกลับกัน แสดงการเปลี่ยนแปลงในค่าเฉลี่ยของคุณสมบัติ Xโดยค่านิยมที่เปลี่ยนไป y ผมเข้าสู่ระบบ Y. ข้อยกเว้นคืออนุกรมเวลาหรือชุดของไดนามิกที่แสดงการเปลี่ยนแปลงในสัญญาณเมื่อเวลาผ่านไป การถดถอยของอนุกรมดังกล่าวเป็นด้านเดียว
มีรูปแบบและประเภทของความสัมพันธ์ที่หลากหลาย งานจะลดลงเพื่อระบุรูปแบบการเชื่อมต่อในแต่ละกรณีและแสดงโดยสมการสหสัมพันธ์ที่สอดคล้องกันซึ่งช่วยให้เราสามารถคาดการณ์การเปลี่ยนแปลงที่เป็นไปได้ในเครื่องหมายเดียว Yตามการเปลี่ยนแปลงที่ทราบ Xเกี่ยวข้องกับความสัมพันธ์ครั้งแรก
12.1 การถดถอยเชิงเส้น
สมการถดถอยผลการสังเกตวัตถุทางชีววิทยาเฉพาะตามลักษณะที่สัมพันธ์กัน xและ y, สามารถแสดงด้วยจุดบนระนาบโดยการสร้างระบบพิกัดสี่เหลี่ยม เป็นผลให้ได้รับไดอะแกรมกระจายซึ่งทำให้สามารถตัดสินรูปแบบและความรัดกุมของความสัมพันธ์ระหว่างคุณสมบัติที่แตกต่างกัน บ่อยครั้งความสัมพันธ์นี้ดูเหมือนเป็นเส้นตรงหรือสามารถประมาณด้วยเส้นตรงได้
ความสัมพันธ์เชิงเส้นระหว่างตัวแปร xและ yอธิบายโดยสมการทั่วไป โดยที่ เอบีซีดี,… เป็นพารามิเตอร์ของสมการที่กำหนดความสัมพันธ์ระหว่างอาร์กิวเมนต์ x 1 , x 2 , x 3 , …, x มและหน้าที่
ในทางปฏิบัติ ไม่ได้พิจารณาอาร์กิวเมนต์ที่เป็นไปได้ทั้งหมด แต่มีเพียงอาร์กิวเมนต์บางข้อเท่านั้น ในกรณีที่ง่ายที่สุด มีเพียงข้อเดียว:
ในสมการถดถอยเชิงเส้น (1) เอเป็นเทอมอิสระและพารามิเตอร์ ขกำหนดความชันของเส้นถดถอยเทียบกับแกนพิกัดรูปสี่เหลี่ยมผืนผ้า ในเรขาคณิตวิเคราะห์ พารามิเตอร์นี้เรียกว่า ปัจจัยความชันและในไบโอเมตริกซ์ - สัมประสิทธิ์การถดถอย. การแสดงภาพของพารามิเตอร์นี้และตำแหน่งของเส้นถดถอย Yบน Xและ Xบน Yในระบบพิกัดสี่เหลี่ยมให้รูปที่ 1
ข้าว. 1 Y โดย X และ X โดย Y เส้นถดถอยในระบบ
พิกัดสี่เหลี่ยม
เส้นถดถอยดังแสดงในรูปที่ 1 ตัดกันที่จุด O (,) ซึ่งสอดคล้องกับค่าเฉลี่ยเลขคณิตของเครื่องหมายที่สัมพันธ์กัน Yและ X. เมื่อพล็อตกราฟการถดถอย ค่าของตัวแปรอิสระ X จะถูกพล็อตตาม abscissa และค่าของตัวแปรตามหรือฟังก์ชัน Y จะถูกพล็อตตามพิกัด เส้น AB ที่ผ่านจุด O (, ) สอดคล้องกับความสัมพันธ์ที่สมบูรณ์ (หน้าที่) ระหว่างตัวแปร Yและ Xเมื่อสัมประสิทธิ์สหสัมพันธ์ ยิ่งมีความเชื่อมโยงระหว่าง Yและ Xยิ่งเส้นถดถอยเข้าใกล้ AB มากเท่านั้น และในทางกลับกัน ยิ่งความสัมพันธ์ระหว่างค่าเหล่านี้อ่อนลง เส้นถดถอยจะยิ่งห่างจาก AB มากเท่านั้น ในกรณีที่ไม่มีการเชื่อมต่อระหว่างคุณลักษณะ เส้นถดถอยจะทำมุมฉากซึ่งกันและกัน และ .
เนื่องจากตัวบ่งชี้การถดถอยแสดงความสัมพันธ์แบบสองทาง สมการถดถอย (1) ควรเขียนดังนี้:
ตามสูตรแรก ค่าเฉลี่ยจะถูกกำหนดเมื่อเครื่องหมายเปลี่ยนไป Xต่อหน่วยวัดในค่าที่สอง - ค่าเฉลี่ยเมื่อมีการเปลี่ยนแปลงคุณสมบัติต่อหน่วยวัด Y.
สัมประสิทธิ์การถดถอยค่าสัมประสิทธิ์การถดถอยแสดงให้เห็นว่า โดยเฉลี่ยแล้ว มูลค่าของคุณลักษณะหนึ่งๆ yเปลี่ยนแปลงเมื่อหน่วยวัดอื่นสัมพันธ์กับ Yเข้าสู่ระบบ X. ตัวบ่งชี้นี้ถูกกำหนดโดยสูตร
ที่นี่ค่า สคูณด้วยขนาดของช่วงชั้น λ หากพบโดยชุดการเปลี่ยนแปลงหรือตารางสหสัมพันธ์
ค่าสัมประสิทธิ์การถดถอยสามารถคำนวณได้โดยผ่านการคำนวณค่าเบี่ยงเบนมาตรฐาน ส yและ ส xตามสูตร
หากไม่ทราบค่าสัมประสิทธิ์สหสัมพันธ์ ค่าสัมประสิทธิ์การถดถอยจะถูกกำหนดดังนี้:
ความสัมพันธ์ระหว่างการถดถอยและสัมประสิทธิ์สหสัมพันธ์การเปรียบเทียบสูตร (11.1) (หัวข้อ 11) และ (12.5) เราเห็นว่าตัวเศษมีค่าเท่ากัน ซึ่งบ่งชี้ถึงความเชื่อมโยงระหว่างตัวบ่งชี้เหล่านี้ ความสัมพันธ์นี้แสดงออกด้วยความเท่าเทียมกัน
ดังนั้นสัมประสิทธิ์สหสัมพันธ์จึงเท่ากับค่าเฉลี่ยเรขาคณิตของสัมประสิทธิ์ ข yxและ ข xy. สูตร (6) ช่วยให้ประการแรกจากค่าที่รู้จักของสัมประสิทธิ์การถดถอย ข yxและ ข xyกำหนดค่าสัมประสิทธิ์การถดถอย R xyและประการที่สองเพื่อตรวจสอบความถูกต้องของการคำนวณตัวบ่งชี้สหสัมพันธ์นี้ R xyระหว่างลักษณะที่แตกต่างกัน Xและ Y.
เช่นเดียวกับสัมประสิทธิ์สหสัมพันธ์ สัมประสิทธิ์การถดถอยแสดงลักษณะเฉพาะของความสัมพันธ์เชิงเส้นและมาพร้อมกับเครื่องหมายบวกสำหรับความสัมพันธ์เชิงบวกและเครื่องหมายลบสำหรับความสัมพันธ์เชิงลบ
การหาค่าพารามิเตอร์การถดถอยเชิงเส้นเป็นที่ทราบกันดีว่าผลรวมของการเบี่ยงเบนกำลังสองของตัวแปร x ผมจากค่าเฉลี่ยมีค่าน้อยที่สุดนั่นคือ ทฤษฎีบทนี้เป็นพื้นฐานของวิธีกำลังสองน้อยที่สุด เกี่ยวกับการถดถอยเชิงเส้น [ดู สูตร (1)] ความต้องการของทฤษฎีบทนี้เป็นไปตามระบบสมการที่เรียกว่า ปกติ:
คำตอบร่วมของสมการเหล่านี้เทียบกับพารามิเตอร์ เอและ ขนำไปสู่ผลลัพธ์ดังต่อไปนี้:
;
;
, เหตุใดฉัน.
กำหนดลักษณะความสัมพันธ์แบบสองทางระหว่างตัวแปร Yและ X, สูตรสำหรับกำหนดพารามิเตอร์ เอควรแสดงออกดังนี้
และ . (7)
พารามิเตอร์ ขหรือสัมประสิทธิ์การถดถอยถูกกำหนดโดยสูตรต่อไปนี้:
การสร้างอนุกรมการถดถอยเชิงประจักษ์เมื่อมีข้อสังเกตจำนวนมาก การวิเคราะห์การถดถอยจะเริ่มต้นด้วยการสร้างอนุกรมการถดถอยเชิงประจักษ์ อนุกรมการถดถอยเชิงประจักษ์เกิดขึ้นจากการคำนวณค่าของแอตทริบิวต์ตัวแปรเดียว Xค่าเฉลี่ยของอีกฝ่ายหนึ่งสัมพันธ์กับ Xเข้าสู่ระบบ Y. กล่าวอีกนัยหนึ่งการสร้างอนุกรมการถดถอยเชิงประจักษ์ลงมาเพื่อค้นหากลุ่มหมายความว่าคุณจากค่าที่สอดคล้องกันของเครื่องหมาย Y และ X
อนุกรมการถดถอยเชิงประจักษ์เป็นชุดตัวเลขสองชุดที่สามารถแทนด้วยจุดบนระนาบ จากนั้นโดยการเชื่อมต่อจุดเหล่านี้กับส่วนของเส้นตรง จะได้เส้นการถดถอยเชิงประจักษ์ อนุกรมการถดถอยเชิงประจักษ์ โดยเฉพาะแปลง เรียกว่า เส้นถดถอยให้ภาพแสดงรูปแบบและความรัดกุมของการพึ่งพาสหสัมพันธ์ระหว่างคุณลักษณะต่างๆ
การปรับสมดุลของอนุกรมการถดถอยเชิงประจักษ์กราฟของอนุกรมการถดถอยเชิงประจักษ์ ตามกฎแล้ว เส้นหักมากกว่าเส้นเรียบ สิ่งนี้อธิบายได้จากข้อเท็จจริงที่ว่า ร่วมกับเหตุผลหลักที่กำหนดรูปแบบทั่วไปในความแปรปรวนของลักษณะที่สัมพันธ์กัน ค่าของพวกมันได้รับผลกระทบจากอิทธิพลของสาเหตุรองมากมายที่ทำให้เกิดความผันผวนแบบสุ่มในจุดสำคัญของการถดถอย ในการระบุแนวโน้มหลัก (แนวโน้ม) ของรูปแบบคอนจูเกตของคุณสมบัติที่มีความสัมพันธ์กัน คุณต้องแทนที่เส้นที่ขาดด้วยเส้นการถดถอยที่วิ่งอย่างราบรื่นและราบรื่น กระบวนการเปลี่ยนเส้นที่ขาดเป็นเส้นเรียบเรียกว่า การจัดตำแหน่งอนุกรมเชิงประจักษ์และ เส้นถดถอย.
วิธีการจัดตำแหน่งกราฟิกนี่เป็นวิธีที่ง่ายที่สุดที่ไม่ต้องใช้การคำนวณ สาระสำคัญของมันมีดังนี้ อนุกรมการถดถอยเชิงประจักษ์ถูกพล็อตเป็นกราฟในระบบพิกัดสี่เหลี่ยม จากนั้นจุดกึ่งกลางของการถดถอยจะถูกร่างภาพตามเส้นทึบโดยใช้ไม้บรรทัดหรือรูปแบบ ข้อเสียของวิธีนี้ชัดเจน: ไม่รวมอิทธิพลของลักษณะเฉพาะของผู้วิจัยที่มีต่อผลลัพธ์ของการจัดตำแหน่งของเส้นการถดถอยเชิงประจักษ์ ดังนั้น ในกรณีที่ต้องการความแม่นยำสูงกว่าเมื่อแทนที่เส้นการถดถอยที่หักด้วยเส้นเรียบ จะใช้วิธีการอื่นในการจัดแนวอนุกรมเชิงประจักษ์
วิธีค่าเฉลี่ยเคลื่อนที่สาระสำคัญของวิธีนี้ลดลงเหลือเพียงการคำนวณตามลำดับของค่าเฉลี่ยเลขคณิตของสมาชิกที่อยู่ใกล้เคียงสองหรือสามคนของอนุกรมเชิงประจักษ์ วิธีนี้สะดวกโดยเฉพาะอย่างยิ่งในกรณีที่ชุดเชิงประจักษ์แสดงด้วยคำศัพท์จำนวนมากเพื่อให้การสูญเสียทั้งสอง - สุดขั้วซึ่งหลีกเลี่ยงไม่ได้ด้วยวิธีการทำให้เท่าเทียมกันนี้จะไม่ส่งผลกระทบต่อโครงสร้างของมันอย่างเห็นได้ชัด
วิธีกำลังสองน้อยที่สุดวิธีนี้เสนอเมื่อต้นศตวรรษที่ 19 โดย A.M. Legendre และ K. Gauss โดยอิสระจากเขา ช่วยให้คุณจัดแนวชุดข้อมูลเชิงประจักษ์ได้อย่างแม่นยำที่สุด วิธีนี้ ดังที่แสดงไว้ข้างต้น อยู่บนสมมติฐานที่ว่าผลรวมของการเบี่ยงเบนกำลังสองของตัวแปร x ผม จากค่าเฉลี่ยมีค่าต่ำสุดนั่นคือ ดังนั้นชื่อของวิธีการซึ่งใช้ไม่เพียง แต่ในนิเวศวิทยาเท่านั้น แต่ยังรวมถึงเทคโนโลยีด้วย วิธีการกำลังสองน้อยที่สุดมีวัตถุประสงค์และเป็นสากล ใช้ในหลากหลายกรณีเมื่อค้นหาสมการเชิงประจักษ์ของอนุกรมการถดถอยและกำหนดพารามิเตอร์
ความต้องการของวิธีกำลังสองน้อยที่สุดคือต้องได้จุดทฤษฎีของเส้นถดถอยในลักษณะที่ผลรวมของการเบี่ยงเบนกำลังสองจากจุดเหล่านี้สำหรับการสังเกตเชิงประจักษ์ y ผมมีน้อย กล่าวคือ
การคำนวณค่าต่ำสุดของนิพจน์นี้ตามหลักการของการวิเคราะห์ทางคณิตศาสตร์และการแปลงในลักษณะใด ๆ เราสามารถได้รับระบบที่เรียกว่า สมการปกติซึ่งค่าที่ไม่รู้จักเป็นพารามิเตอร์ที่ต้องการของสมการถดถอยและค่าสัมประสิทธิ์ที่ทราบจะถูกกำหนดโดยค่าเชิงประจักษ์ของคุณสมบัติซึ่งมักจะเป็นผลรวมของค่าและผลคูณของพวกเขา
การถดถอยเชิงเส้นพหุคูณความสัมพันธ์ระหว่างตัวแปรหลายตัวมักจะแสดงโดยสมการถดถอยพหุคูณ ซึ่งสามารถเป็น เชิงเส้นและ ไม่เชิงเส้น. ในรูปแบบที่ง่ายที่สุด การถดถอยพหุคูณแสดงโดยสมการที่มีตัวแปรอิสระสองตัว ( x, z):
ที่ไหน เอคือพจน์ว่างของสมการ ขและ คเป็นพารามิเตอร์ของสมการ ในการหาพารามิเตอร์ของสมการ (10) (ด้วยวิธีกำลังสองน้อยที่สุด) ให้ใช้ระบบสมการปกติต่อไปนี้:
แถวของไดนามิก การจัดตำแหน่งแถวการเปลี่ยนแปลงของสัญญาณเมื่อเวลาผ่านไปก่อให้เกิดสิ่งที่เรียกว่า อนุกรมเวลาหรือ แถวของไดนามิก. คุณลักษณะเฉพาะของอนุกรมดังกล่าวคือปัจจัยด้านเวลาทำหน้าที่เป็นตัวแปรอิสระ X เสมอ และเครื่องหมายที่เปลี่ยนแปลงคือตัวแปรตาม Y ความสัมพันธ์ระหว่างตัวแปร X และ Y มีด้านเดียว ทั้งนี้ขึ้นอยู่กับชุดการถดถอย เนื่องจากปัจจัยด้านเวลาไม่ได้ขึ้นอยู่กับความแปรปรวนของคุณลักษณะ แม้จะมีคุณลักษณะเหล่านี้ อนุกรมเวลาสามารถเปรียบได้กับอนุกรมการถดถอยและประมวลผลด้วยวิธีเดียวกัน
เช่นเดียวกับอนุกรมการถดถอย อนุกรมเวลาเชิงประจักษ์ไม่เพียงได้รับอิทธิพลจากปัจจัยหลักเท่านั้น แต่ยังได้รับอิทธิพลจากปัจจัยรอง (สุ่ม) จำนวนมากที่ปิดบังแนวโน้มหลักในความแปรปรวนของคุณสมบัติซึ่งในภาษาของสถิติเรียกว่า แนวโน้ม.
การวิเคราะห์อนุกรมเวลาเริ่มต้นด้วยการระบุรูปร่างของแนวโน้ม เมื่อต้องการทำเช่นนี้ อนุกรมเวลาจะแสดงเป็นกราฟเส้นในระบบพิกัดสี่เหลี่ยม ในเวลาเดียวกัน จุดเวลา (ปี เดือน และหน่วยของเวลาอื่นๆ) จะถูกพล็อตตามแกน abscissa และค่าของตัวแปรตาม Y จะถูกพล็อตตามแกนพิกัด คือ สมการถดถอยในรูปของ การเบี่ยงเบนของเงื่อนไขของอนุกรมของตัวแปรตาม Y จากค่าเฉลี่ยเลขคณิตของชุดของตัวแปรอิสระ X:
นี่คือพารามิเตอร์การถดถอยเชิงเส้น
ลักษณะเชิงตัวเลขของอนุกรมไดนามิกลักษณะทั่วไปเชิงตัวเลขของชุดของไดนามิกรวมถึง เฉลี่ยเรขาคณิตและค่าเฉลี่ยเลขคณิตใกล้เคียงกัน พวกเขากำหนดลักษณะอัตราเฉลี่ยที่ค่าของตัวแปรตามการเปลี่ยนแปลงในช่วงระยะเวลาหนึ่ง:
ค่าประมาณความแปรปรวนของเงื่อนไขของอนุกรมไดนามิกคือ ส่วนเบี่ยงเบนมาตรฐาน. เมื่อเลือกสมการถดถอยเพื่ออธิบายอนุกรมเวลา รูปแบบของแนวโน้มจะถูกนำมาพิจารณา ซึ่งสามารถเป็นแบบเส้นตรง (หรือลดเป็นเส้นตรง) และไม่เป็นเส้นตรง ความถูกต้องของการเลือกสมการถดถอยมักจะตัดสินโดยความคล้ายคลึงกันของค่าที่สังเกตได้และคำนวณได้ของตัวแปรตาม การแก้ปัญหานี้ได้แม่นยำกว่าคือวิธีวิเคราะห์ความแปรปรวนถดถอย (หัวข้อ 12 น.4)
ความสัมพันธ์ของอนุกรมไดนามิกบ่อยครั้งจำเป็นต้องเปรียบเทียบพลวัตของอนุกรมเวลาคู่ขนานซึ่งสัมพันธ์กันโดยเงื่อนไขทั่วไปบางอย่าง เช่น เพื่อค้นหาความสัมพันธ์ระหว่างการผลิตทางการเกษตรและการเติบโตของปศุสัตว์ในช่วงระยะเวลาหนึ่ง ในกรณีเช่นนี้ ความสัมพันธ์ระหว่างตัวแปร X และ Y จะมีลักษณะเฉพาะโดย ค่าสัมประสิทธิ์สหสัมพันธ์ R xy (ต่อหน้าแนวโน้มเชิงเส้น)
เป็นที่ทราบกันดีอยู่แล้วว่าแนวโน้มของชุดของไดนามิกตามกฎถูกบดบังด้วยความผันผวนในแง่ของอนุกรมของตัวแปรตาม Y ดังนั้นปัญหาสองเท่าจึงเกิดขึ้น: การวัดการพึ่งพากันระหว่างอนุกรมที่เปรียบเทียบโดยไม่ยกเว้น แนวโน้ม และการวัดการพึ่งพาอาศัยกันระหว่างสมาชิกที่อยู่ติดกันของชุดข้อมูลเดียวกัน ไม่รวมแนวโน้ม ในกรณีแรก ตัวบ่งชี้ความใกล้ชิดของการเชื่อมต่อระหว่างอนุกรมไดนามิกที่เปรียบเทียบคือ ค่าสัมประสิทธิ์สหสัมพันธ์(ถ้าความสัมพันธ์เป็นเส้นตรง) ในวินาที - สัมประสิทธิ์สหสัมพันธ์อัตโนมัติ. ตัวบ่งชี้เหล่านี้มีค่าต่างกัน แม้ว่าจะคำนวณโดยใช้สูตรเดียวกัน (ดูหัวข้อ 11)
เป็นเรื่องง่ายที่จะเห็นว่าค่าของสัมประสิทธิ์สหสัมพันธ์อัตโนมัติได้รับผลกระทบจากความแปรปรวนของสมาชิกของชุดข้อมูลของตัวแปรตาม: ยิ่งสมาชิกของชุดเบี่ยงเบนไปจากแนวโน้มน้อยเท่าใด ค่าสัมประสิทธิ์สหสัมพันธ์อัตโนมัติก็จะยิ่งสูงขึ้น และในทางกลับกัน
ในการปรากฏตัวของความสัมพันธ์ระหว่างปัจจัยและสัญญาณผลลัพธ์ แพทย์มักจะต้องกำหนดด้วยจำนวนค่าของสัญญาณหนึ่งที่สามารถเปลี่ยนแปลงได้เมื่อมีการเปลี่ยนแปลงอื่นโดยหน่วยวัดที่ยอมรับโดยทั่วไปหรือกำหนดโดยผู้วิจัยเอง
ตัวอย่างเช่น น้ำหนักตัวของนักเรียนชั้นประถมศึกษาปีที่ 1 (เด็กหญิงหรือเด็กชาย) จะเปลี่ยนไปอย่างไรหากความสูงเพิ่มขึ้น 1 ซม. เพื่อจุดประสงค์นี้จึงใช้วิธีวิเคราะห์การถดถอย
ส่วนใหญ่มักจะใช้วิธีการวิเคราะห์การถดถอยเพื่อพัฒนามาตราส่วนเชิงบรรทัดฐานและมาตรฐานสำหรับการพัฒนาทางกายภาพ
- นิยามของการถดถอย. การถดถอยเป็นฟังก์ชันที่ช่วยให้ โดยยึดตามค่าเฉลี่ยของแอตทริบิวต์หนึ่ง เพื่อกำหนดค่าเฉลี่ยของแอตทริบิวต์อื่นที่สัมพันธ์กับแอตทริบิวต์แรก
ด้วยเหตุนี้จึงใช้สัมประสิทธิ์การถดถอยและพารามิเตอร์อื่นๆ จำนวนหนึ่ง ตัวอย่างเช่น คุณสามารถคำนวณจำนวนโรคหวัดโดยเฉลี่ยที่ค่าที่แน่นอนของอุณหภูมิอากาศเฉลี่ยรายเดือนในช่วงฤดูใบไม้ร่วงฤดูหนาว
- ความหมายของสัมประสิทธิ์การถดถอย. ค่าสัมประสิทธิ์การถดถอยคือค่าสัมบูรณ์โดยที่ค่าของแอตทริบิวต์หนึ่งเปลี่ยนแปลงโดยเฉลี่ยเมื่อแอตทริบิวต์อื่นที่เกี่ยวข้องเปลี่ยนแปลงโดยหน่วยการวัดที่สร้างขึ้น
- สูตรสัมประสิทธิ์การถดถอย. R y / x \u003d r xy x (σ y / σ x)
โดยที่ R y / x - สัมประสิทธิ์การถดถอย
r xy - ค่าสัมประสิทธิ์สหสัมพันธ์ระหว่างคุณสมบัติ x และ y;
(σ y และ σ x) - ส่วนเบี่ยงเบนมาตรฐานของคุณสมบัติ x และ yในตัวอย่างของเรา ;
σ x = 4.6 (ค่าเบี่ยงเบนมาตรฐานของอุณหภูมิอากาศในช่วงฤดูใบไม้ร่วงฤดูหนาว
σ y = 8.65 (ค่าเบี่ยงเบนมาตรฐานของจำนวนโรคหวัดติดเชื้อ)
ดังนั้น R y/x คือสัมประสิทธิ์การถดถอย
R y / x \u003d -0.96 x (4.6 / 8.65) \u003d 1.8 เช่น เมื่ออุณหภูมิอากาศเฉลี่ยรายเดือนลดลง (x) 1 องศา จำนวนโรคหวัดติดเชื้อเฉลี่ย (y) ในช่วงฤดูใบไม้ร่วงฤดูหนาวจะเปลี่ยนไป 1.8 ราย - สมการถดถอย. y \u003d M y + R y / x (x - M x)
โดยที่ y คือค่าเฉลี่ยของแอตทริบิวต์ ซึ่งควรพิจารณาเมื่อมูลค่าเฉลี่ยของแอตทริบิวต์อื่น (x) เปลี่ยนแปลง
x - ค่าเฉลี่ยที่ทราบของคุณสมบัติอื่น
R y/x - สัมประสิทธิ์การถดถอย;
M x, M y - ค่าเฉลี่ยที่รู้จักของคุณสมบัติ x และ yตัวอย่างเช่น สามารถกำหนดจำนวนเฉลี่ยของโรคหวัดติดเชื้อ (y) ได้โดยไม่ต้องมีการวัดพิเศษที่ค่าเฉลี่ยของอุณหภูมิอากาศเฉลี่ยรายเดือน (x) ดังนั้นถ้า x \u003d - 9 °, R y / x \u003d 1.8 โรค, M x \u003d -7 °, M y \u003d 20 โรคจากนั้น y \u003d 20 + 1.8 x (9-7) \u003d 20 +3 .6 = 23.6 โรค
สมการนี้ใช้ในกรณีของความสัมพันธ์แบบเส้นตรงระหว่างสองคุณลักษณะ (x และ y) - จุดประสงค์ของสมการถดถอย. สมการถดถอยใช้เพื่อพลอตเส้นการถดถอย ค่าหลังอนุญาตให้กำหนดค่าเฉลี่ยใดๆ (y) ของแอตทริบิวต์หนึ่งๆ โดยไม่ต้องมีการวัดพิเศษ หากค่า (x) ของแอตทริบิวต์อื่นเปลี่ยนแปลง จากข้อมูลเหล่านี้ กราฟถูกสร้างขึ้น - เส้นถดถอยซึ่งสามารถใช้เพื่อกำหนดจำนวนเฉลี่ยของโรคหวัดที่ค่าใด ๆ ของอุณหภูมิเฉลี่ยรายเดือนภายในช่วงระหว่างค่าที่คำนวณได้ของจำนวนโรคหวัด
- ซิกมาถดถอย (สูตร).
โดยที่ σ Ru/x - ซิกมา (ค่าเบี่ยงเบนมาตรฐาน) ของการถดถอย
σ y คือค่าเบี่ยงเบนมาตรฐานของคุณลักษณะ y;
r xy - สัมประสิทธิ์สหสัมพันธ์ระหว่างคุณสมบัติ x และ yดังนั้น ถ้า σ y เป็นค่าเบี่ยงเบนมาตรฐานของจำนวนโรคหวัด = 8.65; r xy - ค่าสัมประสิทธิ์สหสัมพันธ์ระหว่างจำนวนความหนาวเย็น (y) และอุณหภูมิอากาศเฉลี่ยรายเดือนในช่วงฤดูใบไม้ร่วงฤดูหนาว (x) คือ - 0.96 จากนั้น
- วัตถุประสงค์ของการถดถอยซิกมา. ให้คุณลักษณะของการวัดความหลากหลายของคุณลักษณะผลลัพธ์ (y)
ตัวอย่างเช่น แสดงลักษณะความหลากหลายของจำนวนโรคหวัดที่ค่าหนึ่งของอุณหภูมิอากาศเฉลี่ยรายเดือนในช่วงฤดูใบไม้ร่วงฤดูหนาว ดังนั้นจำนวนโรคหวัดโดยเฉลี่ยที่อุณหภูมิอากาศ x 1 \u003d -6 °สามารถอยู่ในช่วงตั้งแต่ 15.78 โรคถึง 20.62 โรค
ที่ x 2 = -9° จำนวนโรคหวัดโดยเฉลี่ยอาจมีตั้งแต่ 21.18 โรคไปจนถึง 26.02 โรค เป็นต้นซิกมาการถดถอยใช้ในการสร้างมาตราส่วนการถดถอยซึ่งสะท้อนการเบี่ยงเบนของค่าของแอตทริบิวต์ที่มีประสิทธิภาพจากค่าเฉลี่ยที่วางแผนไว้บนเส้นการถดถอย
- ข้อมูลที่จำเป็นในการคำนวณและพล็อตมาตราส่วนการถดถอย
- สัมประสิทธิ์การถดถอย - Ry/x;
- สมการถดถอย - y \u003d M y + R y / x (x-M x);
- ซิกมาถดถอย - σ Rx/y
- ลำดับของการคำนวณและการแสดงกราฟิกของมาตราส่วนการถดถอย.
- กำหนดค่าสัมประสิทธิ์การถดถอยตามสูตร (ดูย่อหน้าที่ 3) ตัวอย่างเช่น ควรกำหนดว่าน้ำหนักตัวจะเปลี่ยนแปลงโดยเฉลี่ยเท่าใด (ในบางช่วงอายุขึ้นอยู่กับเพศ) หากความสูงเฉลี่ยเปลี่ยนแปลงไป 1 ซม.
- ตามสูตรของสมการถดถอย (ดูวรรค 4) กำหนดสิ่งที่จะเป็นค่าเฉลี่ยเช่นน้ำหนักตัว (y, y 2, y 3 ...) * สำหรับค่าการเติบโตที่แน่นอน (x, x 2, x 3 ...) .
________________
* ควรคำนวณค่าของ "y" สำหรับค่า "x" ที่รู้จักอย่างน้อยสามค่าในขณะเดียวกันก็ทราบค่าเฉลี่ยของน้ำหนักตัวและส่วนสูง (M x และ M y) สำหรับอายุและเพศที่แน่นอน
- คำนวณซิกมาของการถดถอยโดยรู้ค่าที่สอดคล้องกันของ σ y และ r xy และแทนที่ค่าลงในสูตร (ดูย่อหน้าที่ 6)
- ขึ้นอยู่กับค่าที่รู้จัก x 1, x 2, x 3 และค่าเฉลี่ยที่สอดคล้องกัน y 1, y 2 y 3 เช่นเดียวกับค่าที่เล็กที่สุด (y - σ ru / x) และใหญ่ที่สุด (y + σ ru / x) ค่า (y) สร้างมาตราส่วนการถดถอย
สำหรับการแสดงกราฟของมาตราส่วนการถดถอย ค่า x, x 2 , x 3 (แกน y) จะถูกทำเครื่องหมายบนกราฟก่อน กล่าวคือ เส้นถดถอยถูกสร้างขึ้น ตัวอย่างเช่น การพึ่งพาน้ำหนักตัว (y) กับความสูง (x)
จากนั้นที่จุดที่เกี่ยวข้อง y 1 , y 2 , y 3 ค่าตัวเลขของซิกมาการถดถอยจะถูกทำเครื่องหมายเช่น บนกราฟ ค้นหาค่าที่เล็กที่สุดและใหญ่ที่สุดของ y 1 , y 2 , y 3 .
- การใช้มาตราส่วนการถดถอยในทางปฏิบัติ. กำลังพัฒนามาตราส่วนและมาตรฐานเชิงบรรทัดฐาน โดยเฉพาะอย่างยิ่งสำหรับการพัฒนาทางกายภาพ ตามมาตราส่วนมาตรฐาน การประเมินพัฒนาการของเด็กเป็นรายบุคคลสามารถทำได้ ในเวลาเดียวกัน พัฒนาการทางกายภาพจะได้รับการประเมินว่ามีความกลมกลืนกัน ตัวอย่างเช่น ที่ความสูงระดับหนึ่ง น้ำหนักตัวของเด็กอยู่ภายในซิกมาการถดถอยหนึ่งหน่วยต่อหน่วยที่คำนวณโดยเฉลี่ยของน้ำหนักตัว - (y) สำหรับส่วนสูงที่กำหนด (x) ( y ± 1 σ Ry / x).
พัฒนาการทางร่างกายถือว่าไม่ลงรอยกันในแง่ของน้ำหนักตัว หากน้ำหนักตัวของเด็กสำหรับส่วนสูงที่แน่นอนอยู่ภายในซิกมาถดถอยที่สอง: (y ± 2 σ Ry/x)
การพัฒนาทางกายภาพจะเกิดความไม่ลงรอยกันอย่างมากทั้งเนื่องจากน้ำหนักตัวที่มากเกินไปและไม่เพียงพอ หากน้ำหนักตัวสำหรับส่วนสูงบางอย่างอยู่ภายในซิกมาที่สามของการถดถอย (y ± 3 σ Ry/x)
จากผลการศึกษาทางสถิติเกี่ยวกับพัฒนาการทางร่างกายของเด็กชายอายุ 5 ขวบ เป็นที่ทราบกันดีอยู่แล้วว่าส่วนสูงเฉลี่ย (x) ของพวกเขาคือ 109 ซม. และน้ำหนักตัวเฉลี่ย (y) คือ 19 กก. ค่าสัมประสิทธิ์สหสัมพันธ์ระหว่างส่วนสูงและน้ำหนักตัวคือ +0.9 ส่วนเบี่ยงเบนมาตรฐานแสดงในตาราง
ที่จำเป็น:
- คำนวณค่าสัมประสิทธิ์การถดถอย
- ใช้สมการถดถอยกำหนดว่าน้ำหนักตัวที่คาดหวังของเด็กชายอายุ 5 ขวบจะมีความสูงเท่ากับ x1 = 100 ซม. x2 = 110 ซม. x3 = 120 ซม.
- คำนวณซิกม่าการถดถอย สร้างมาตราส่วนการถดถอย นำเสนอผลลัพธ์ของการแก้ปัญหาแบบกราฟิก
- หาข้อสรุปที่เหมาะสม
เงื่อนไขของปัญหาและผลลัพธ์ของการแก้ปัญหาแสดงอยู่ในตารางสรุป
ตารางที่ 1
เงื่อนไขของปัญหา | ผลลัพธ์การแก้ปัญหา | ||||||||
สมการถดถอย | ซิกม่าถดถอย | มาตราส่วนการถดถอย (น้ำหนักตัวที่คาดไว้ (กก.)) | |||||||
เอ็ม | σ | r xy | R y/x | X | ที่ | σRx/y | y - σ Rу/х | y + σ Rу/х | |
1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 |
ความสูง (x) | 109 ซม. | ± 4.4 ซม. | +0,9 | 0,16 | 100ซม. | 17.56 กก. | ± 0.35 กก. | 17.21 กก. | 17.91 กก. |
น้ำหนักตัว (y) | 19 กก. | ± 0.8 กก. | 110 ซม. | 19.16 กก. | 18.81 กก. | 19.51 กก. | |||
120 ซม. | 20.76 กก. | 20.41 กก. | 21.11 กก. |
วิธีการแก้.
บทสรุป.ดังนั้นมาตราส่วนการถดถอยภายในค่าที่คำนวณได้ของน้ำหนักตัวจึงช่วยให้คุณสามารถกำหนดค่าอื่น ๆ ของการเติบโตหรือเพื่อประเมินพัฒนาการของเด็กแต่ละคน เมื่อต้องการทำเช่นนี้ ให้คืนค่าเส้นตั้งฉากกับเส้นถดถอย
- Vlasov V.V. ระบาดวิทยา - ม.: GEOTAR-MED, 2547. - 464 น.
- ลิสิษฐ์ ยุ. สาธารณสุขและสุขภาพ. หนังสือเรียนสำหรับโรงเรียนมัธยม. - ม.: GEOTAR-MED, 2550. - 512 น.
- Medik V.A. , Yuriev V.K. หลักสูตรการบรรยายด้านสาธารณสุขและสาธารณสุข ส่วนที่ 1 สาธารณสุข - ม.: แพทยศาสตร์, 2546. - 368 น.
- Minyaev V.A. , Vishnyakov N.I. และอื่นๆ องค์การสังคมสงเคราะห์และสาธารณสุข (คู่มือ 2 เล่ม) - เซนต์ปีเตอร์สเบิร์ก 2541 -528 น
- Kucherenko V.Z. , Agarkov N.M. และอื่น ๆ สุขอนามัยทางสังคมและองค์กรด้านการดูแลสุขภาพ (กวดวิชา) - มอสโก, 2000. - 432 หน้า
- เอส. กลันทซ์. สถิติการแพทย์-ชีวภาพ. ต่อจากภาษาอังกฤษ - ม., ฝึกซ้อม, 2541. - 459 น.
ในการสร้างแบบจำลองทางสถิติ การวิเคราะห์การถดถอยเป็นการศึกษาที่ใช้เพื่อประเมินความสัมพันธ์ระหว่างตัวแปร วิธีการทางคณิตศาสตร์นี้รวมถึงวิธีการอื่นๆ อีกมากมายสำหรับการสร้างแบบจำลองและวิเคราะห์ตัวแปรหลายตัวเมื่อโฟกัสอยู่ที่ความสัมพันธ์ระหว่างตัวแปรตามและตัวแปรอิสระอย่างน้อยหนึ่งตัว โดยเฉพาะอย่างยิ่ง การวิเคราะห์การถดถอยช่วยให้คุณเข้าใจว่าค่าปกติของตัวแปรตามเปลี่ยนแปลงไปอย่างไร หากตัวแปรอิสระตัวใดตัวหนึ่งเปลี่ยนแปลงไปในขณะที่ตัวแปรอิสระอื่นๆ ยังคงคงที่อยู่
ในทุกกรณี คะแนนเป้าหมายเป็นฟังก์ชันของตัวแปรอิสระและเรียกว่าฟังก์ชันการถดถอย ในการวิเคราะห์การถดถอย การกำหนดลักษณะการเปลี่ยนแปลงในตัวแปรตามเป็นฟังก์ชันของการถดถอยเป็นสิ่งที่น่าสนใจเช่นกัน ซึ่งสามารถอธิบายได้โดยใช้การแจกแจงความน่าจะเป็น
งานของการวิเคราะห์การถดถอย
วิธีการวิจัยทางสถิตินี้ใช้กันอย่างแพร่หลายในการคาดการณ์ ซึ่งการใช้งานมีข้อได้เปรียบที่สำคัญ แต่บางครั้งอาจนำไปสู่ภาพลวงตาหรือความสัมพันธ์ที่ผิดพลาด ดังนั้นจึงแนะนำให้ใช้อย่างระมัดระวังในคำถามนี้ เนื่องจากความสัมพันธ์ไม่ได้หมายความว่า สาเหตุ
มีการพัฒนาวิธีการจำนวนมากสำหรับการวิเคราะห์การถดถอย เช่น การถดถอยกำลังสองน้อยที่สุดแบบเชิงเส้นและแบบธรรมดาซึ่งเป็นแบบพาราเมตริก สาระสำคัญของพวกเขาคือฟังก์ชันการถดถอยถูกกำหนดในแง่ของจำนวนพารามิเตอร์ที่ไม่รู้จักซึ่งประเมินจากข้อมูล การถดถอยแบบไม่อิงพารามิเตอร์ทำให้ฟังก์ชันของมันอยู่ในชุดของฟังก์ชันบางชุด ซึ่งสามารถเป็นแบบอนันต์มิติได้
เป็นวิธีการวิจัยทางสถิติ ในทางปฏิบัติการวิเคราะห์การถดถอยขึ้นอยู่กับรูปแบบของกระบวนการสร้างข้อมูลและความเกี่ยวข้องกับวิธีการถดถอย เนื่องจากรูปแบบที่แท้จริงของการสร้างกระบวนการข้อมูลมักเป็นตัวเลขที่ไม่รู้จัก การวิเคราะห์การถดถอยของข้อมูลจึงมักขึ้นอยู่กับสมมติฐานบางประการเกี่ยวกับกระบวนการ สมมติฐานเหล่านี้บางครั้งสามารถทดสอบได้หากมีข้อมูลเพียงพอ ตัวแบบการถดถอยมักจะมีประโยชน์แม้ว่าข้อสันนิษฐานจะถูกละเมิดในระดับปานกลาง แม้ว่าตัวแบบการถดถอยอาจไม่ทำงานได้ดีที่สุดก็ตาม
ในความหมายที่แคบกว่า การถดถอยสามารถอ้างถึงการประมาณค่าของตัวแปรตอบสนองอย่างต่อเนื่องโดยเฉพาะ เมื่อเทียบกับตัวแปรการตอบสนองแบบแยกส่วนที่ใช้ในการจำแนกประเภท กรณีของตัวแปรเอาต์พุตต่อเนื่องเรียกอีกอย่างว่าการถดถอยเมตริกเพื่อแยกความแตกต่างจากปัญหาที่เกี่ยวข้อง
เรื่องราว
รูปแบบการถดถอยที่เร็วที่สุดคือวิธีการของกำลังสองน้อยที่สุดที่รู้จักกันดี มันถูกตีพิมพ์โดย Legendre ในปี 1805 และ Gauss ในปี 1809 Legendre และ Gauss ใช้วิธีนี้ในการกำหนดปัญหาจากการสังเกตทางดาราศาสตร์วงโคจรของวัตถุรอบดวงอาทิตย์ (ส่วนใหญ่เป็นดาวหาง เกาส์ตีพิมพ์การพัฒนาเพิ่มเติมของทฤษฎีกำลังสองน้อยที่สุดในปี ค.ศ. 1821 ซึ่งรวมถึงทฤษฎีบทเกาส์-มาร์คอฟที่แปรผัน
คำว่า "ถดถอย" ถูกสร้างขึ้นโดยฟรานซิส กัลตันในศตวรรษที่ 19 เพื่ออธิบายปรากฏการณ์ทางชีววิทยา บรรทัดล่างคือการเติบโตของลูกหลานจากการเติบโตของบรรพบุรุษตามกฎแล้วถดถอยลงสู่ค่าเฉลี่ยปกติ สำหรับ Galton การถดถอยมีความหมายทางชีวภาพเท่านั้น แต่ต่อมางานของเขาถูก Udni Yoley และ Karl Pearson หยิบขึ้นมาและนำไปสู่บริบททางสถิติทั่วไปมากขึ้น ในงานของเทศกาลคริสต์มาสและเพียร์สัน การกระจายร่วมกันของการตอบสนองและตัวแปรอธิบายถือเป็นแบบเกาส์เซียน สมมติฐานนี้ถูกปฏิเสธโดย Fischer ในเอกสารของปี 1922 และ 1925 ฟิชเชอร์แนะนำว่าการแจกแจงแบบมีเงื่อนไขของตัวแปรตอบสนองคือ Gaussian แต่ไม่จำเป็นต้องเป็นการกระจายร่วม ในเรื่องนี้ ข้อเสนอแนะของฟิชเชอร์นั้นใกล้เคียงกับสูตรของเกาส์ในปี 1821 ก่อนปี 1970 บางครั้งอาจใช้เวลาถึง 24 ชั่วโมงเพื่อให้ได้ผลลัพธ์ของการวิเคราะห์การถดถอย
วิธีการวิเคราะห์การถดถอยยังคงเป็นพื้นที่ของการวิจัยเชิงรุก ในทศวรรษที่ผ่านมา มีการพัฒนาวิธีการใหม่เพื่อการถดถอยที่แข็งแกร่ง การถดถอยที่เกี่ยวข้องกับการตอบสนองที่มีความสัมพันธ์ วิธีการถดถอยที่รองรับข้อมูลที่ขาดหายไปประเภทต่างๆ การถดถอยแบบไม่อิงพารามิเตอร์ วิธีการถดถอยแบบเบย์ การถดถอยที่ตัวแปรทำนายถูกวัดด้วยข้อผิดพลาด การถดถอยที่มีตัวทำนายมากกว่าการสังเกต และการอนุมานเชิงสาเหตุด้วยการถดถอย
แบบจำลองการถดถอย
โมเดลการวิเคราะห์การถดถอยประกอบด้วยตัวแปรต่อไปนี้:
- พารามิเตอร์ที่ไม่รู้จัก ซึ่งแสดงเป็นเบต้า ซึ่งสามารถเป็นสเกลาร์หรือเวกเตอร์
- ตัวแปรอิสระ X.
- ตัวแปรตาม, Y.
ในสาขาวิทยาศาสตร์ต่างๆ ที่ใช้การวิเคราะห์การถดถอย มีการใช้คำศัพท์ที่แตกต่างกันแทนตัวแปรตามและตัวแปรอิสระ แต่ในทุกกรณี แบบจำลองการถดถอยจะเชื่อมโยง Y กับฟังก์ชันของ X และ β
การประมาณมักจะกำหนดเป็น E (Y | X) = F (X, β) ในการวิเคราะห์การถดถอย ต้องกำหนดรูปแบบของฟังก์ชัน f ไม่ค่อยจะมีพื้นฐานมาจากความรู้เกี่ยวกับความสัมพันธ์ระหว่าง Y และ X ที่ไม่อาศัยข้อมูล หากไม่มีความรู้ดังกล่าว ให้เลือกแบบฟอร์ม F ที่ยืดหยุ่นหรือสะดวก
ตัวแปรตาม Y
ให้เราสมมติว่าเวกเตอร์ของพารามิเตอร์ที่ไม่รู้จัก β มีความยาว k เพื่อทำการวิเคราะห์การถดถอย ผู้ใช้ต้องให้ข้อมูลเกี่ยวกับตัวแปรตาม Y:
- หากสังเกตจุดข้อมูล N ของแบบฟอร์ม (Y, X) โดยที่ N< k, большинство классических подходов к регрессионному анализу не могут быть выполнены, так как система уравнений, определяющих модель регрессии в качестве недоопределенной, не имеет достаточного количества данных, чтобы восстановить β.
- หากสังเกต N = K ทุกประการ และฟังก์ชัน F เป็นเส้นตรง สมการ Y = F(X, β) จะสามารถแก้ไขได้ทุกประการ ไม่ใช่ประมาณ สิ่งนี้ทำให้การแก้เซตของสมการ N กับ N-unknowns (องค์ประกอบของ β) นั้นมีคำตอบเฉพาะตราบใดที่ X มีความเป็นอิสระเชิงเส้น ถ้า F ไม่เชิงเส้น อาจไม่มีคำตอบ หรืออาจมีคำตอบมากมาย
- สถานการณ์ที่พบบ่อยที่สุดคือจุดที่มี N > ชี้ไปที่ข้อมูล ในกรณีนี้ มีข้อมูลเพียงพอในข้อมูลที่จะประมาณค่าเฉพาะสำหรับ β ที่เหมาะสมกับข้อมูลมากที่สุด และตัวแบบการถดถอยเมื่อนำไปใช้กับข้อมูลสามารถมองได้ว่าเป็นระบบที่ถูกแทนที่ใน β
ในกรณีหลัง การวิเคราะห์การถดถอยมีเครื่องมือสำหรับ:
- การหาวิธีแก้ปัญหาสำหรับพารามิเตอร์ที่ไม่รู้จัก β ซึ่งจะทำให้ระยะห่างระหว่างค่าที่วัดได้และค่าที่คาดการณ์ไว้ของ Y น้อยที่สุด
- ภายใต้สมมติฐานทางสถิติบางประการ การวิเคราะห์การถดถอยจะใช้ข้อมูลที่มากเกินไปเพื่อให้ข้อมูลทางสถิติเกี่ยวกับพารามิเตอร์ที่ไม่รู้จัก β และค่าที่คาดการณ์ไว้ของตัวแปรตาม Y
จำนวนการวัดอิสระที่ต้องการ
พิจารณาตัวแบบการถดถอยที่มีพารามิเตอร์ที่ไม่รู้จักสามตัว: β 0 , β 1 และ β 2 สมมติว่าผู้ทดลองทำการวัด 10 ครั้งในค่าเดียวกันของตัวแปรอิสระของเวกเตอร์ X ในกรณีนี้ การวิเคราะห์การถดถอยไม่ได้ให้ชุดค่าที่ไม่ซ้ำกัน สิ่งที่ดีที่สุดที่คุณสามารถทำได้คือประมาณค่าค่าเฉลี่ยและค่าเบี่ยงเบนมาตรฐานของตัวแปรตาม Y ในทำนองเดียวกัน โดยการวัดค่า X ที่แตกต่างกันสองค่า คุณจะได้รับข้อมูลเพียงพอสำหรับการถดถอยที่มีสองไม่ทราบค่า แต่ไม่ใช่สำหรับค่าที่ไม่ทราบค่าสามค่าขึ้นไป
หากการวัดของผู้ทดลองใช้ค่าที่แตกต่างกันสามค่าของตัวแปรเวกเตอร์อิสระ X การวิเคราะห์การถดถอยจะให้ชุดค่าประมาณที่ไม่ซ้ำกันสำหรับพารามิเตอร์ที่ไม่รู้จักสามตัวใน β
ในกรณีของการถดถอยเชิงเส้นทั่วไป ข้อความข้างต้นเทียบเท่ากับข้อกำหนดที่เมทริกซ์ X T X สามารถกลับด้านได้
สมมติฐานทางสถิติ
เมื่อจำนวนการวัด N มากกว่าจำนวนพารามิเตอร์ที่ไม่รู้จัก k และข้อผิดพลาดในการวัด ε ผม ตามกฎแล้ว ข้อมูลส่วนเกินที่มีอยู่ในการวัดจะถูกแจกจ่ายและใช้สำหรับการคาดการณ์ทางสถิติเกี่ยวกับพารามิเตอร์ที่ไม่รู้จัก ข้อมูลส่วนเกินนี้เรียกว่าระดับความอิสระของการถดถอย
สมมติฐานพื้นฐาน
สมมติฐานคลาสสิกสำหรับการวิเคราะห์การถดถอยประกอบด้วย:
- การสุ่มตัวอย่างเป็นตัวแทนของการทำนายการอนุมาน
- ข้อผิดพลาดคือตัวแปรสุ่มที่มีค่าเฉลี่ยเป็นศูนย์ ซึ่งเป็นเงื่อนไขของตัวแปรอธิบาย
- ตัวแปรอิสระจะถูกวัดโดยไม่มีข้อผิดพลาด
- ในฐานะตัวแปรอิสระ (ตัวทำนาย) พวกมันเป็นอิสระเชิงเส้น กล่าวคือ มันเป็นไปไม่ได้ที่จะแสดงตัวทำนายใด ๆ เป็นชุดค่าผสมเชิงเส้นของตัวแปรอื่น
- ข้อผิดพลาดไม่มีความสัมพันธ์กัน กล่าวคือ เมทริกซ์ความแปรปรวนร่วมข้อผิดพลาดของเส้นทแยงมุมและองค์ประกอบที่ไม่ใช่ศูนย์แต่ละองค์ประกอบคือความแปรปรวนของข้อผิดพลาด
- ความแปรปรวนของข้อผิดพลาดจะคงที่ตลอดการสังเกต (homoscedasticity) ถ้าไม่เช่นนั้น สามารถใช้ช่องสี่เหลี่ยมที่ถ่วงน้ำหนักน้อยที่สุดหรือวิธีอื่นๆ ได้
เงื่อนไขที่เพียงพอเหล่านี้สำหรับการประมาณค่ากำลังสองน้อยที่สุดมีคุณสมบัติที่จำเป็น โดยเฉพาะอย่างยิ่ง สมมติฐานเหล่านี้หมายความว่าการประมาณค่าพารามิเตอร์จะเป็นไปตามวัตถุประสงค์ สอดคล้องกัน และมีประสิทธิภาพ โดยเฉพาะอย่างยิ่งเมื่อนำมาพิจารณาในกลุ่มของการประมาณการเชิงเส้น สิ่งสำคัญคือต้องสังเกตว่าข้อมูลจริงไม่ค่อยเป็นไปตามเงื่อนไข กล่าวคือใช้วิธีนี้แม้ว่าสมมติฐานจะไม่ถูกต้องก็ตาม การเปลี่ยนแปลงจากสมมติฐานในบางครั้งสามารถใช้เป็นตัวชี้วัดว่าแบบจำลองมีประโยชน์อย่างไร หลายข้อสันนิษฐานเหล่านี้สามารถผ่อนคลายได้ด้วยวิธีการขั้นสูง รายงานการวิเคราะห์ทางสถิติมักจะรวมการวิเคราะห์การทดสอบกับข้อมูลตัวอย่างและวิธีการเพื่อประโยชน์ของแบบจำลอง
นอกจากนี้ ตัวแปรในบางกรณียังอ้างถึงค่าที่วัดที่ตำแหน่งจุด อาจมีแนวโน้มเชิงพื้นที่และความสัมพันธ์เชิงพื้นที่ในตัวแปรที่ละเมิดสมมติฐานทางสถิติ การถดถอยแบบถ่วงน้ำหนักทางภูมิศาสตร์เป็นวิธีเดียวที่เกี่ยวข้องกับข้อมูลดังกล่าว
ในการถดถอยเชิงเส้น คุณลักษณะคือตัวแปรตาม ซึ่งคือ Y ผม เป็นชุดค่าผสมเชิงเส้นของพารามิเตอร์ ตัวอย่างเช่น ในการถดถอยเชิงเส้นอย่างง่าย การสร้างแบบจำลองจุด n ใช้ตัวแปรอิสระหนึ่งตัว x i และพารามิเตอร์สองตัวคือ β 0 และ β 1
ในการถดถอยเชิงเส้นพหุคูณ มีตัวแปรอิสระหรือฟังก์ชันหลายตัว
เมื่อสุ่มสุ่มตัวอย่างจากประชากร พารามิเตอร์จะทำให้ได้ตัวอย่างของแบบจำลองการถดถอยเชิงเส้น
ในแง่นี้ วิธีกำลังสองน้อยที่สุดเป็นวิธีที่ได้รับความนิยมมากที่สุด มันให้ค่าประมาณพารามิเตอร์ที่ลดผลรวมของกำลังสองของเศษเหลือ การย่อเล็กสุดประเภทนี้ (ซึ่งเป็นเรื่องปกติของการถดถอยเชิงเส้น) ของฟังก์ชันนี้นำไปสู่ชุดของสมการปกติและชุดของสมการเชิงเส้นพร้อมพารามิเตอร์ ซึ่งได้รับการแก้ไขเพื่อให้ได้ค่าประมาณพารามิเตอร์
สมมติว่าข้อผิดพลาดของประชากรโดยทั่วไปแพร่กระจายออกไป ผู้วิจัยสามารถใช้ค่าประมาณของข้อผิดพลาดมาตรฐานเพื่อสร้างช่วงความเชื่อมั่นและดำเนินการทดสอบสมมติฐานเกี่ยวกับพารามิเตอร์
การวิเคราะห์การถดถอยไม่เชิงเส้น
ตัวอย่างที่ฟังก์ชันไม่เป็นเส้นตรงเมื่อเทียบกับพารามิเตอร์ระบุว่าผลรวมของกำลังสองควรถูกย่อให้เล็กสุดด้วยกระบวนการวนซ้ำ สิ่งนี้ทำให้เกิดความยุ่งยากหลายอย่างที่กำหนดความแตกต่างระหว่างวิธีการกำลังสองน้อยที่สุดเชิงเส้นและไม่เชิงเส้น ดังนั้น ผลลัพธ์ของการวิเคราะห์การถดถอยเมื่อใช้วิธีที่ไม่เป็นเชิงเส้นในบางครั้งจึงคาดเดาไม่ได้
การคำนวณกำลังและขนาดตัวอย่าง
ตามกฎแล้วไม่มีวิธีการที่สอดคล้องกันเกี่ยวกับจำนวนการสังเกตเมื่อเทียบกับจำนวนตัวแปรอิสระในแบบจำลอง กฎข้อแรกถูกเสนอโดย Dobra และ Hardin และดูเหมือน N = t^n โดยที่ N คือขนาดตัวอย่าง n คือจำนวนตัวแปรอธิบาย และ t คือจำนวนการสังเกตที่จำเป็นเพื่อให้ได้ความแม่นยำตามที่ต้องการ หากแบบจำลองมี ตัวแปรอธิบายเพียงตัวเดียว ตัวอย่างเช่น นักวิจัยสร้างแบบจำลองการถดถอยเชิงเส้นโดยใช้ชุดข้อมูลที่มีผู้ป่วย 1,000 ราย (N) หากผู้วิจัยตัดสินใจว่าจำเป็นต้องมีการสังเกตห้าครั้งเพื่อกำหนดเส้นตรง (m) อย่างถูกต้อง จำนวนตัวแปรอธิบายสูงสุดที่แบบจำลองสามารถรองรับได้คือ 4
วิธีอื่นๆ
แม้ว่าพารามิเตอร์ของตัวแบบการถดถอยมักจะถูกประเมินโดยใช้วิธีกำลังสองน้อยที่สุด แต่ก็มีวิธีการอื่นที่ใช้ไม่บ่อยนัก ตัวอย่างเช่น มีวิธีการดังต่อไปนี้:
- วิธีเบย์เซียน (เช่น วิธีเบเซียนของการถดถอยเชิงเส้น)
- เปอร์เซ็นต์การถดถอยที่ใช้สำหรับสถานการณ์ที่การลดข้อผิดพลาดเป็นเปอร์เซ็นต์ถือว่าเหมาะสมกว่า
- การเบี่ยงเบนสัมบูรณ์ที่เล็กที่สุด ซึ่งมีประสิทธิภาพมากกว่าเมื่อมีค่าผิดปกติที่นำไปสู่การถดถอยควอนไทล์
- การถดถอยแบบไม่อิงพารามิเตอร์ที่ต้องการการสังเกตและการคำนวณจำนวนมาก
- ระยะทางของตัววัดการเรียนรู้ที่เรียนรู้ในการค้นหาตัววัดระยะทางที่มีความหมายในพื้นที่ป้อนข้อมูลที่กำหนด
ซอฟต์แวร์
แพ็คเกจซอฟต์แวร์ทางสถิติที่สำคัญทั้งหมดดำเนินการโดยใช้การวิเคราะห์การถดถอยกำลังสองน้อยที่สุด สามารถใช้การถดถอยเชิงเส้นอย่างง่ายและการวิเคราะห์การถดถอยพหุคูณในแอปพลิเคชันสเปรดชีตบางโปรแกรมเช่นเดียวกับเครื่องคิดเลขบางตัว แม้ว่าชุดซอฟต์แวร์ทางสถิติจำนวนมากสามารถดำเนินการถดถอยแบบไม่อิงพารามิเตอร์ได้หลายประเภท แต่วิธีการเหล่านี้มีมาตรฐานน้อยกว่า แพ็คเกจซอฟต์แวร์ต่าง ๆ ใช้วิธีการที่แตกต่างกัน ซอฟต์แวร์การถดถอยแบบพิเศษได้รับการพัฒนาเพื่อใช้ในด้านต่างๆ เช่น การวิเคราะห์แบบสำรวจและการสร้างภาพประสาท