ชีวประวัติ ลักษณะเฉพาะ การวิเคราะห์

การวิเคราะห์การถดถอยเชิงเส้น วิธีการทางสถิติทางคณิตศาสตร์

ผลลัพธ์

ตาราง 8.3a. สถิติการถดถอย
สถิติการถดถอย
หลาย R 0,998364
R-สี่เหลี่ยม 0,99673
R-square ปกติ 0,996321
มาตรฐานบกพร่อง 0,42405
ข้อสังเกต 10

ขั้นแรกให้ดูที่ส่วนบนของการคำนวณที่แสดงในตารางที่ 8.3a ซึ่งเป็นสถิติการถดถอย

ค่า R-square หรือที่เรียกว่าการวัดความแน่นอน เป็นตัวกำหนดคุณภาพของเส้นการถดถอยที่เกิดขึ้น คุณภาพนี้แสดงโดยระดับความสอดคล้องระหว่างข้อมูลดั้งเดิมกับแบบจำลองการถดถอย (ข้อมูลที่คำนวณ) การวัดความแน่นอนอยู่ภายในช่วงเวลาเสมอ

ในกรณีส่วนใหญ่ ค่า R-squared จะอยู่ระหว่างค่าเหล่านี้ เรียกว่า Extremes กล่าวคือ ระหว่างศูนย์และหนึ่ง

หากค่าของ R-square ใกล้เคียงกัน แสดงว่าแบบจำลองที่สร้างขึ้นนั้นอธิบายความแปรปรวนเกือบทั้งหมดของตัวแปรที่เกี่ยวข้องกัน ในทางกลับกัน ค่า R-squared ที่ใกล้ศูนย์หมายถึงคุณภาพของแบบจำลองที่สร้างขึ้นไม่ดี

ในตัวอย่างของเรา การวัดความแน่นอนคือ 0.99673 ซึ่งบ่งชี้ว่าเส้นการถดถอยมีความเหมาะสมมากกับข้อมูลเดิม

หลาย R- สัมประสิทธิ์สหสัมพันธ์พหุคูณ R - แสดงระดับการพึ่งพาตัวแปรอิสระ (X) และตัวแปรตาม (Y)

หลาย R เท่ากับรากที่สองของสัมประสิทธิ์การกำหนด ค่านี้ใช้ค่าในช่วงจากศูนย์ถึงหนึ่ง

ในการวิเคราะห์การถดถอยเชิงเส้นอย่างง่าย หลาย R เท่ากับสัมประสิทธิ์สหสัมพันธ์แบบเพียร์สัน อันที่จริง ตัวคูณ R ในกรณีของเราเท่ากับสัมประสิทธิ์สหสัมพันธ์แบบเพียร์สันจากตัวอย่างก่อนหน้า (0.998364)

ตารางที่ 8.3b. สัมประสิทธิ์การถดถอย
อัตราต่อรอง มาตรฐานบกพร่อง t-สถิติ
สี่แยก Y 2,694545455 0,33176878 8,121757129
ตัวแปร X 1 2,305454545 0,04668634 49,38177965
* มีการคำนวณเวอร์ชันที่ถูกตัดทอนให้

ตอนนี้ให้พิจารณาส่วนตรงกลางของการคำนวณที่แสดงในตารางที่ 8.3b ในที่นี้ ค่าสัมประสิทธิ์การถดถอย b (2.305454545) และออฟเซ็ตตามแกน y จะได้รับ นั่นคือ ค่าคงที่ a (2.694545455)

จากการคำนวณเราสามารถเขียนสมการถดถอยได้ดังนี้:

Y= x*2.305454545+2.694545455

ทิศทางของความสัมพันธ์ระหว่างตัวแปรถูกกำหนดตามสัญญาณ (ลบหรือบวก) สัมประสิทธิ์การถดถอย(ค่าสัมประสิทธิ์ข).

ถ้าป้ายที่ สัมประสิทธิ์การถดถอย- บวก ความสัมพันธ์ของตัวแปรตามกับตัวแปรอิสระจะเป็นบวก ในกรณีของเรา เครื่องหมายของสัมประสิทธิ์การถดถอยเป็นบวก ดังนั้น ความสัมพันธ์จึงเป็นบวกด้วย

ถ้าป้ายที่ สัมประสิทธิ์การถดถอย- เชิงลบ ความสัมพันธ์ระหว่างตัวแปรตามและตัวแปรอิสระเป็นค่าลบ (ผกผัน)

ในตาราง 8.3c ผลลัพธ์ของการส่งออกของส่วนที่เหลือจะถูกนำเสนอ เพื่อให้ผลลัพธ์เหล่านี้ปรากฏในรายงาน จำเป็นต้องเปิดใช้งานช่องทำเครื่องหมาย "ส่วนที่เหลือ" เมื่อเปิดเครื่องมือ "การถดถอย"

การถอนเงินที่เหลืออยู่

ตารางที่ 8.3c เศษซาก
การสังเกต คาดการณ์ Y เศษซาก เครื่องชั่งมาตรฐาน
1 9,610909091 -0,610909091 -1,528044662
2 7,305454545 -0,305454545 -0,764022331
3 11,91636364 0,083636364 0,209196591
4 14,22181818 0,778181818 1,946437843
5 16,52727273 0,472727273 1,182415512
6 18,83272727 0,167272727 0,418393181
7 21,13818182 -0,138181818 -0,34562915
8 23,44363636 -0,043636364 -0,109146047
9 25,74909091 -0,149090909 -0,372915662
10 28,05454545 -0,254545455 -0,636685276

การใช้ส่วนนี้ของรายงาน เราจะเห็นความเบี่ยงเบนของแต่ละจุดจากเส้นถดถอยที่สร้างขึ้น ค่าสัมบูรณ์ที่ยิ่งใหญ่ที่สุด

บรรยาย 3

การวิเคราะห์การถดถอย

1) ลักษณะเชิงตัวเลขของการถดถอย

2) การถดถอยเชิงเส้น

3) การถดถอยไม่เชิงเส้น

4) การถดถอยพหุคูณ

5) การใช้ MS EXCEL เพื่อทำการวิเคราะห์การถดถอย

เครื่องมือควบคุมและประเมินผล - งานทดสอบ

1. ลักษณะเชิงตัวเลขของการถดถอย

การวิเคราะห์การถดถอยเป็นวิธีทางสถิติสำหรับการศึกษาอิทธิพลของตัวแปรอิสระหนึ่งตัวหรือมากกว่าต่อตัวแปรตาม ตัวแปรอิสระเรียกว่าตัวถดถอยหรือตัวทำนายและตัวแปรตามเรียกว่าเกณฑ์ คำศัพท์ของตัวแปรตามและตัวแปรอิสระสะท้อนให้เห็นเฉพาะการพึ่งพาทางคณิตศาสตร์ของตัวแปรเท่านั้น ไม่ใช่ความสัมพันธ์ของเหตุและผล

เป้าหมายของการวิเคราะห์การถดถอย

  • การกำหนดระดับของการกำหนดความผันแปรของตัวแปรเกณฑ์ (ตาม) โดยตัวทำนาย (ตัวแปรอิสระ)
  • การคาดคะเนค่าของตัวแปรตามโดยใช้ตัวแปรอิสระ
  • การกำหนดการมีส่วนร่วมของตัวแปรอิสระแต่ละตัวต่อการแปรผันของตัวแปรอิสระ

การวิเคราะห์การถดถอยไม่สามารถใช้ในการพิจารณาว่ามีความสัมพันธ์ระหว่างตัวแปรหรือไม่ เนื่องจากการมีอยู่ของความสัมพันธ์นั้นเป็นข้อกำหนดเบื้องต้นสำหรับการใช้การวิเคราะห์

ในการวิเคราะห์การถดถอย ก่อนอื่นคุณต้องทำความคุ้นเคยกับแนวคิดพื้นฐานของสถิติและทฤษฎีความน่าจะเป็น

ลักษณะเชิงตัวเลขพื้นฐานของตัวแปรสุ่มแบบไม่ต่อเนื่องและต่อเนื่อง: การคาดหมายทางคณิตศาสตร์ ความแปรปรวน และส่วนเบี่ยงเบนมาตรฐาน

ตัวแปรสุ่มแบ่งออกเป็นสองประเภท:

  • ไม่ต่อเนื่อง ซึ่งสามารถรับได้เฉพาะค่าที่กำหนดไว้ล่วงหน้าเท่านั้น (เช่น ค่าของตัวเลขที่อยู่ด้านบนของลูกเต๋าที่โยนหรือค่าลำดับของเดือนปัจจุบัน)
  • · ต่อเนื่อง (บ่อยครั้ง - ค่าของปริมาณทางกายภาพบางอย่าง: น้ำหนัก, ระยะทาง, อุณหภูมิ, ฯลฯ ) ซึ่งตามกฎของธรรมชาติสามารถรับค่าใด ๆ อย่างน้อยก็ในช่วงเวลาหนึ่ง

กฎการแจกแจงของตัวแปรสุ่มคือความสอดคล้องระหว่างค่าที่เป็นไปได้ของตัวแปรสุ่มแบบไม่ต่อเนื่องและความน่าจะเป็นของตัวแปร ซึ่งมักจะเขียนในตาราง:

คำจำกัดความทางสถิติของความน่าจะเป็นแสดงในรูปของความถี่สัมพัทธ์ของเหตุการณ์สุ่ม กล่าวคือ พบว่าเป็นอัตราส่วนของจำนวนตัวแปรสุ่มต่อจำนวนตัวแปรสุ่มทั้งหมด

การคาดการณ์ทางคณิตศาสตร์ของตัวแปรสุ่มแบบไม่ต่อเนื่องXเรียกว่าผลรวมของผลิตภัณฑ์มูลค่าของปริมาณ Xเกี่ยวกับความน่าจะเป็นของค่าเหล่านี้ การคาดหมายทางคณิตศาสตร์แสดงโดย or เอ็ม(X) .

= เอ็ม(X) = x 1 พี 1 + x 2 พี 2 +… + x น พีน = x ฉัน ปี่

ผม=1

การกระจายตัวของตัวแปรสุ่มที่สัมพันธ์กับการคาดหมายทางคณิตศาสตร์นั้นถูกกำหนดโดยใช้ลักษณะพิเศษเชิงตัวเลขที่เรียกว่าการกระจายตัว พูดง่ายๆ คือ ความแปรปรวนคือการแพร่กระจายของตัวแปรสุ่มรอบๆ ค่าเฉลี่ย เพื่อทำความเข้าใจแก่นแท้ของการกระจาย ให้พิจารณาตัวอย่าง เงินเดือนเฉลี่ยในประเทศอยู่ที่ประมาณ 25,000 รูเบิล ตัวเลขนี้มาจากไหน? เป็นไปได้มากว่าเงินเดือนทั้งหมดจะถูกรวมและหารด้วยจำนวนพนักงาน ในกรณีนี้มีการกระจายตัวที่ใหญ่มาก (เงินเดือนขั้นต่ำคือประมาณ 4 พันรูเบิลและสูงสุดคือประมาณ 100,000 รูเบิล) ถ้าทุกคนมีเงินเดือนเท่ากัน การกระจายตัวจะเป็นศูนย์ และจะไม่มีสเปรด

การกระจายตัวของตัวแปรสุ่มแบบไม่ต่อเนื่องXเรียกว่าการคาดหมายทางคณิตศาสตร์ของกำลังสองของผลต่างของตัวแปรสุ่มและความคาดหวังทางคณิตศาสตร์:

D = M [ ((X - M (X)) 2 ]

โดยใช้คำจำกัดความของความคาดหวังทางคณิตศาสตร์ในการคำนวณความแปรปรวน เราได้รับสูตร:

D \u003d S (x i - M (X)) 2 p i

ความแปรปรวนมีมิติของกำลังสองของตัวแปรสุ่ม ในกรณีที่จำเป็นต้องมีลักษณะเชิงตัวเลขของการกระจายของค่าที่เป็นไปได้ในมิติเดียวกันกับตัวแปรสุ่มเอง ค่าเบี่ยงเบนมาตรฐานจะถูกใช้

ส่วนเบี่ยงเบนมาตรฐานตัวแปรสุ่มเรียกว่ารากที่สองของความแปรปรวน

ค่าเบี่ยงเบนกำลังสองเฉลี่ยคือการวัดการกระจายของค่าของตัวแปรสุ่มตามความคาดหวังทางคณิตศาสตร์

ตัวอย่าง.

กฎการกระจายของตัวแปรสุ่ม X ถูกกำหนดโดยตารางต่อไปนี้:

หาค่าความคาดหมาย ความแปรปรวน และค่าเบี่ยงเบนมาตรฐานทางคณิตศาสตร์ .

เราใช้สูตรข้างต้น:

M (X) \u003d 1 0.1 + 2 0.4 + 4 0.4 + 5 0.1 \u003d 3

D \u003d (1-3) 2 0.1 + (2 - 3) 2 0.4 + (4 - 3) 2 0.4 + (5 - 3) 2 0.1 \u003d 1.6

ตัวอย่าง.

ในลอตเตอรีเงินสด 1 ชนะ 1,000 rubles, 10 ชนะ 100 rubles และ 100 ชนะ 1 rubles แต่ละรายการที่มีจำนวนตั๋วทั้งหมด 10,000 เล่น สร้างกฎหมายการกระจายสำหรับการสุ่มชนะ X สำหรับเจ้าของตั๋วลอตเตอรีหนึ่งใบ และกำหนดความคาดหวังทางคณิตศาสตร์ ความแปรปรวน และค่าเบี่ยงเบนมาตรฐานของตัวแปรสุ่ม

X 1 \u003d 1,000, X 2 \u003d 100, X 3 \u003d 1, X 4 \u003d 0,

P 1 = 1/10000 = 0.0001, P 2 = 10/10000 = 0.001, P 3 = 100/10000 = 0.01, P 4 = 1 - (P 1 + P 2 + P 3) = 0.9889 .

เราใส่ผลลัพธ์ในตาราง:

ความคาดหวังทางคณิตศาสตร์ - ผลรวมของผลคูณของค่าตัวแปรสุ่มตามความน่าจะเป็น สำหรับปัญหานี้แนะนำให้คำนวณตามสูตร

1,000 0.0001 + 100 0.001 + 1 0.01 + 0 0.9889 = 0.21 รูเบิล

เราได้ราคาตั๋วที่ "ยุติธรรม" อย่างแท้จริง

D \u003d S (x ผม - M (X)) 2 p ผม \u003d (1000 - 0.21) 2 0.0001 + (100 - 0.21) 2 0.001 +

+ (1 - 0,21) 2 0,01 + (0 - 0,21) 2 0,9889 ≈ 109,97

ฟังก์ชันการกระจายของตัวแปรสุ่มต่อเนื่อง

ค่าซึ่งเป็นผลมาจากการทดสอบจะใช้ค่าที่เป็นไปได้หนึ่งค่า (ไม่ทราบล่วงหน้าว่าค่าใด) เรียกว่าตัวแปรสุ่ม ดังที่ได้กล่าวไว้ข้างต้น ตัวแปรสุ่มจะไม่ต่อเนื่อง (ไม่ต่อเนื่อง) และต่อเนื่อง

ตัวแปรที่ไม่ต่อเนื่องเป็นตัวแปรสุ่มที่ใช้ค่าที่เป็นไปได้แยกจากกันโดยมีความน่าจะเป็นบางอย่างที่สามารถกำหนดหมายเลขได้

ตัวแปรต่อเนื่องคือตัวแปรสุ่มที่สามารถรับค่าทั้งหมดจากช่วงจำกัดหรืออนันต์บางช่วงได้

ถึงจุดนี้ เราได้จำกัดตัวเองให้อยู่ใน "ตัวแปร" สุ่มเพียงหนึ่งเดียวเท่านั้น - ไม่ต่อเนื่อง กล่าวคือ รับค่าจำกัด

แต่ทฤษฎีและการปฏิบัติของสถิติต้องใช้แนวคิดของตัวแปรสุ่มแบบต่อเนื่อง ทำให้มีค่าตัวเลขจากช่วงเวลาใดก็ได้

กฎการแจกแจงของตัวแปรสุ่มแบบต่อเนื่องถูกระบุอย่างสะดวกโดยใช้ฟังก์ชันความหนาแน่นของความน่าจะเป็นที่เรียกว่า ฉ(x). ความน่าจะเป็น P(a< X < b) того, что значение, принятое случайной величиной Х, попадет в промежуток (a; b), определяется равенством

พี (อะ< X < b) = ∫ (x) dx

กราฟของฟังก์ชัน f (x) เรียกว่ากราฟการกระจาย ในเชิงเรขาคณิต ความน่าจะเป็นของตัวแปรสุ่มที่ตกลงไปในช่วงเวลา (a; b) เท่ากับพื้นที่ของสี่เหลี่ยมคางหมูโค้งที่สอดคล้องกัน ล้อมรอบด้วยเส้นโค้งการกระจาย แกน Ox และเส้นตรง x = a, x = b .

P(a£X

ถ้าเซตจำกัดหรือนับได้ถูกลบออกจากเหตุการณ์ที่ซับซ้อน ความน่าจะเป็นของเหตุการณ์ใหม่จะไม่เปลี่ยนแปลง

ฟังก์ชัน f(x) - ฟังก์ชันสเกลาร์เชิงตัวเลขของอาร์กิวเมนต์จริง x เรียกว่า ความหนาแน่นของความน่าจะเป็น และมีอยู่ที่จุด x หากมีขีดจำกัด ณ จุดนี้:

คุณสมบัติความหนาแน่นของความน่าจะเป็น:

  1. ความหนาแน่นของความน่าจะเป็นเป็นฟังก์ชันที่ไม่เป็นลบ เช่น f(x) ≥ 0

(หากค่าทั้งหมดของตัวแปรสุ่ม X อยู่ในช่วง (a;b) แล้วค่าสุดท้าย

ความเท่าเทียมกันสามารถเขียนได้เป็น ∫ f (x) dx = 1)

พิจารณาตอนนี้ฟังก์ชัน F(x) = P(X< х). Эта функция называется функцией распределения вероятности случайной величины Х. Функция F(х) существует как для дискретных, так и для непрерывных случайных величин. Если f (x) - функция плотности распределения вероятности

ตัวแปรสุ่มต่อเนื่อง X จากนั้น F (x) = ∫ f(x) dx = 1)

มันตามมาจากความเท่าเทียมกันครั้งสุดท้ายที่ f (x) = F" (x)

บางครั้งฟังก์ชัน f(x) จะเรียกว่าฟังก์ชันการกระจายความน่าจะเป็นเชิงอนุพันธ์ และฟังก์ชัน F(x) เรียกว่าฟังก์ชันการกระจายความน่าจะเป็นสะสม

เราสังเกตคุณสมบัติที่สำคัญที่สุดของฟังก์ชันการกระจายความน่าจะเป็น:

  1. F(x) เป็นฟังก์ชันที่ไม่ลดลง
  2. F(-∞)=0.
  3. F (+∞) = 1

แนวคิดของฟังก์ชันการแจกแจงเป็นศูนย์กลางของทฤษฎีความน่าจะเป็น เมื่อใช้แนวคิดนี้ เราสามารถให้คำจำกัดความอื่นของตัวแปรสุ่มแบบต่อเนื่องได้ ตัวแปรสุ่มจะเรียกว่า ต่อเนื่อง ถ้าฟังก์ชันการกระจายตัวของอินทิกรัล F(x) ต่อเนื่องกัน

ลักษณะเชิงตัวเลขของตัวแปรสุ่มต่อเนื่อง

ความคาดหวังทางคณิตศาสตร์ ความแปรปรวน และพารามิเตอร์อื่นๆ ของตัวแปรสุ่มใดๆ มักจะคำนวณโดยใช้สูตรที่เป็นไปตามกฎการแจกแจง

สำหรับตัวแปรสุ่มแบบต่อเนื่อง การคาดหมายทางคณิตศาสตร์คำนวณโดยสูตร:

M(X) = ∫ x ฉ(x) dx

การกระจายตัว:

D(X) = ∫ ( x- M (X)) 2 (x) dx หรือ D(X) = ∫ x 2 ฉ(x) dx - (M (X)) 2

2. การถดถอยเชิงเส้น

ให้ส่วนประกอบ X และ Y ของตัวแปรสุ่มสองมิติ (X, Y) ขึ้นอยู่กับ เราจะสมมติว่าหนึ่งในนั้นสามารถแสดงเป็นฟังก์ชันเชิงเส้นของอีกฟังก์ชันหนึ่งโดยประมาณได้ ตัวอย่างเช่น

Y ≈ g(X) = α + βX และกำหนดพารามิเตอร์ α และ β โดยใช้วิธีกำลังสองน้อยที่สุด

คำนิยาม. ฟังก์ชัน g(X) = α + βX เรียกว่า การประมาณที่ดีที่สุด Y ในแง่ของวิธีกำลังสองน้อยที่สุด ถ้าการคาดหมายทางคณิตศาสตร์ M(Y - g(X)) 2 ใช้ค่าที่น้อยที่สุดเท่าที่จะเป็นไปได้ ฟังก์ชัน g(X) เรียกว่า หมายถึงการถดถอยกำลังสอง Y ถึง X

ทฤษฎีบทการถดถอยกำลังสองเฉลี่ยเชิงเส้นของ Y บน X คือ:

ค่าสัมประสิทธิ์สหสัมพันธ์ X และ Y อยู่ที่ไหน

สัมประสิทธิ์ของสมการ

สามารถตรวจสอบได้ว่าสำหรับค่าเหล่านี้ฟังก์ชันฟังก์ชัน F(α, β)

F(α, β ) = เอ็ม(Y - α - βX)² มีขั้นต่ำซึ่งพิสูจน์การยืนยันของทฤษฎีบท

คำนิยาม. ค่าสัมประสิทธิ์เรียกว่า สัมประสิทธิ์การถดถอย Y บน Xและเส้นตรง - - การถดถอยกำลังสองเฉลี่ยโดยตรงของ Y บน X.

แทนพิกัดของจุดนิ่งเป็นความเท่าเทียมกัน เราสามารถหาค่าต่ำสุดของฟังก์ชัน F(α, β) เท่ากับค่านี้เรียกว่า การกระจายตัวของสารตกค้าง Y สัมพันธ์กับ X และกำหนดลักษณะจำนวนข้อผิดพลาดที่อนุญาตเมื่อแทนที่ Y ด้วย

ก.(X) = α + βX ที่ ความแปรปรวนที่เหลือคือ 0 นั่นคือความเท่าเทียมกันไม่ใช่ค่าประมาณ แต่แน่นอน ดังนั้น เมื่อ Y และ X เชื่อมต่อกันด้วยการพึ่งพาฟังก์ชันเชิงเส้น ในทำนองเดียวกัน คุณสามารถได้เส้นตรงของการถดถอยราก-ค่าเฉลี่ย-กำลังสองของ X บน Y:

และความแปรปรวนคงเหลือของ X เทียบกับ Y สำหรับการถดถอยโดยตรงทั้งสองเกิดขึ้นพร้อมกัน การเปรียบเทียบสมการถดถอย Y บน X และ X บน Y และการแก้ระบบสมการ คุณสามารถหาจุดตัดกันของเส้นถดถอย - จุดที่มีพิกัด (t x, t y) เรียกว่า ศูนย์กลางของการกระจายร่วมของค่า X และ Y

เราจะพิจารณาอัลกอริทึมสำหรับการรวบรวมสมการถดถอยจากตำราเรียนโดย V. E. Gmurman "ทฤษฎีความน่าจะเป็นและสถิติทางคณิตศาสตร์" หน้า 256

1) รวบรวมตารางการคำนวณซึ่งจะมีการบันทึกจำนวนองค์ประกอบตัวอย่าง ตัวเลือกตัวอย่าง สี่เหลี่ยมจัตุรัส และผลิตภัณฑ์

2) คำนวณผลรวมของทุกคอลัมน์ยกเว้นตัวเลข

3) คำนวณค่าเฉลี่ยสำหรับแต่ละปริมาณ การกระจายตัว และส่วนเบี่ยงเบนมาตรฐาน

5) ทดสอบสมมติฐานเกี่ยวกับการดำรงอยู่ของความสัมพันธ์ระหว่าง X และ Y

6) เขียนสมการของทั้งสองเส้นการถดถอยและพล็อตกราฟของสมการเหล่านี้

ความชันของการถดถอยเส้นตรง Y บน X คือสัมประสิทธิ์การถดถอยตัวอย่าง

ค่าสัมประสิทธิ์ b=

เราได้สมการที่ต้องการของเส้นถดถอย Y บน X:

Y \u003d 0.202 X + 1.024

ในทำนองเดียวกัน สมการถดถอย X บน Y:

ความชันของการถดถอยเส้นตรง Y บน X คือสัมประสิทธิ์การถดถอยตัวอย่าง pxy:

ค่าสัมประสิทธิ์ b=

X \u003d 4.119 Y - 3.714

3. การถดถอยไม่เชิงเส้น

หากมีความสัมพันธ์ที่ไม่เป็นเชิงเส้นระหว่างปรากฏการณ์ทางเศรษฐกิจ ก็จะแสดงออกมาโดยใช้ฟังก์ชันที่ไม่เป็นเชิงเส้นที่สอดคล้องกัน

การถดถอยแบบไม่เชิงเส้นมีสองประเภท:

1. การถดถอยที่ไม่เป็นเชิงเส้นเมื่อเทียบกับตัวแปรอธิบายที่รวมอยู่ในการวิเคราะห์ แต่เป็นเชิงเส้นเมื่อเทียบกับพารามิเตอร์ที่ประมาณการไว้ เช่น

พหุนามขององศาต่างๆ

อติพจน์ด้านเท่ากันหมด - ;

ฟังก์ชันเซมิลอการิทึม - .

2. การถดถอยที่ไม่เป็นเชิงเส้นในแง่ของพารามิเตอร์ประมาณการ เช่น

พลัง - ;

สาธิต -;

เอกซ์โพเนนเชียล - .

การถดถอยแบบไม่เชิงเส้นของตัวแปรที่รวมไว้จะลดลงเป็นรูปแบบเชิงเส้นโดยการเปลี่ยนแปลงตัวแปรอย่างง่าย และการประมาณค่าพารามิเตอร์เพิ่มเติมจะดำเนินการโดยใช้วิธีกำลังสองน้อยที่สุด ลองพิจารณาฟังก์ชั่นบางอย่าง

พาราโบลาของดีกรีที่สองจะลดลงเป็นรูปแบบเชิงเส้นโดยใช้การแทนที่: เป็นผลให้เรามาถึงสมการสองปัจจัย การประมาณค่าพารามิเตอร์โดยใช้วิธีกำลังสองน้อยที่สุดนำไปสู่ระบบสมการ:

พาราโบลาของดีกรีที่สองมักใช้ในกรณีที่สำหรับช่วงเวลาหนึ่งของค่าปัจจัย ธรรมชาติของความสัมพันธ์ของคุณลักษณะที่อยู่ระหว่างการพิจารณาเปลี่ยนแปลงไป: ความสัมพันธ์โดยตรงจะเปลี่ยนเป็นค่าผกผันหนึ่งหรือผกผันหนึ่งไปเป็นอันโดยตรง

สามารถใช้ไฮเปอร์โบลาด้านเท่ากันเพื่ออธิบายลักษณะความสัมพันธ์ระหว่างต้นทุนเฉพาะของวัตถุดิบ วัตถุดิบ เชื้อเพลิง และปริมาณผลผลิต เวลาหมุนเวียนของสินค้า และมูลค่าการหมุนเวียน ตัวอย่างคลาสสิกคือเส้นโค้งฟิลลิปส์ ซึ่งแสดงลักษณะความสัมพันธ์ที่ไม่เชิงเส้นระหว่างอัตราการว่างงาน xและอัตราค่าจ้างที่เพิ่มขึ้น y.

ไฮเปอร์โบลาถูกลดขนาดเป็นสมการเชิงเส้นโดยการแทนที่อย่างง่าย: คุณสามารถใช้วิธีกำลังสองน้อยที่สุดเพื่อสร้างระบบสมการเชิงเส้นได้

ในทำนองเดียวกัน การขึ้นต่อกันจะลดลงเป็นรูปแบบเชิงเส้น: และอื่น ๆ

ไฮเปอร์โบลาด้านเท่ากันหมดและเส้นกึ่งลอการิทึมใช้เพื่ออธิบายกราฟเอนเจล (คำอธิบายทางคณิตศาสตร์ของความสัมพันธ์ระหว่างส่วนแบ่งของการใช้จ่ายในสินค้าคงทนและการใช้จ่ายทั้งหมด (หรือรายได้)) สมการที่รวมไว้นั้นใช้ในการศึกษาผลผลิต ความเข้มแรงงานของการผลิตทางการเกษตร

4. การถดถอยพหุคูณ

การถดถอยพหุคูณ - สมการลิงก์ที่มีตัวแปรอิสระหลายตัว:

ตัวแปรตามอยู่ที่ไหน (เครื่องหมายผลลัพธ์);

ตัวแปรอิสระ (ปัจจัย)

ในการสร้างสมการถดถอยพหุคูณ มักใช้ฟังก์ชันต่อไปนี้:

เชิงเส้น -

พลัง -

ผู้แสดงสินค้า -

อติพจน์ - .

คุณสามารถใช้ฟังก์ชันอื่นๆ ที่สามารถลดขนาดให้อยู่ในรูปเชิงเส้นได้

ในการประมาณค่าพารามิเตอร์ของสมการถดถอยพหุคูณ ใช้วิธีกำลังสองน้อยที่สุด (LSM) สำหรับสมการเชิงเส้นและสมการไม่เชิงเส้นที่ปรับลดเป็นสมการเชิงเส้นได้ จะมีการสร้างระบบสมการปกติต่อไปนี้ขึ้น ซึ่งทำให้ได้ค่าประมาณของพารามิเตอร์การถดถอย:

ในการแก้ปัญหานั้น สามารถใช้วิธีการของดีเทอร์มิแนนต์ได้:

ตัวกำหนดของระบบอยู่ที่ไหน

ตัวกำหนดส่วนตัว; ซึ่งได้มาจากการแทนที่คอลัมน์ที่สอดคล้องกันของเมทริกซ์ของดีเทอร์มีแนนต์ของระบบด้วยข้อมูลทางด้านซ้ายของระบบ

สมการถดถอยพหุคูณอีกประเภทหนึ่งคือสมการถดถอยมาตราส่วนมาตรฐาน LSM ใช้ได้กับสมการถดถอยพหุคูณในระดับมาตรฐาน

5. การใช้งานนางสาวEXCELเพื่อทำการวิเคราะห์การถดถอย

การวิเคราะห์การถดถอยกำหนดรูปแบบของความสัมพันธ์ระหว่างตัวแปรสุ่ม Y (ขึ้นอยู่กับ) และค่าของตัวแปรอย่างน้อยหนึ่งตัวแปร (อิสระ) และค่าของตัวแปรหลังจะถือว่าได้รับอย่างแน่นอน การพึ่งพาอาศัยกันดังกล่าวมักจะถูกกำหนดโดยแบบจำลองทางคณิตศาสตร์บางตัว (สมการถดถอย) ที่มีพารามิเตอร์ที่ไม่รู้จักหลายตัว ในระหว่างการวิเคราะห์การถดถอย บนพื้นฐานของข้อมูลตัวอย่าง จะพบค่าประมาณของพารามิเตอร์เหล่านี้ ข้อผิดพลาดทางสถิติของการประมาณการหรือขอบเขตของช่วงความเชื่อมั่นจะถูกกำหนด และตรวจสอบการปฏิบัติตาม (ความเพียงพอ) ของแบบจำลองทางคณิตศาสตร์ที่ยอมรับพร้อมข้อมูลการทดลอง

ในการวิเคราะห์การถดถอยเชิงเส้น ความสัมพันธ์ระหว่างตัวแปรสุ่มจะถือว่าเป็นเส้นตรง ในกรณีที่ง่ายที่สุด ในแบบจำลองการถดถอยเชิงเส้นแบบคู่ มีตัวแปร X และ Y สองตัว และจำเป็นสำหรับการสังเกต n คู่ (X1, Y1), (X2, Y2), ..., (Xn, Yn) เพื่อสร้าง (เลือก) เส้นตรงที่เรียกว่าเส้นถดถอยซึ่ง "ดีที่สุด" ประมาณค่าที่สังเกตได้ สมการของเส้นตรง y=ax+b นี้คือสมการถดถอย การใช้สมการถดถอย คุณสามารถทำนายค่าที่คาดหวังของตัวแปรตาม y ที่สอดคล้องกับค่าที่กำหนดของตัวแปรอิสระ x ในกรณีที่พิจารณาการพึ่งพาระหว่างตัวแปรตาม Y และตัวแปรอิสระหลายตัว X1, X2, ..., Xm ตัวแปรหนึ่งพูดถึงการถดถอยเชิงเส้นพหุคูณ

ในกรณีนี้สมการถดถอยจะมีรูปแบบ

y = a 0 +a 1 x 1 +a 2 x 2 +…+a m x m ,

โดยที่ a0, a1, a2, … am คือสัมประสิทธิ์การถดถอยที่จะกำหนด

สัมประสิทธิ์ของสมการถดถอยถูกกำหนดโดยใช้วิธีกำลังสองน้อยที่สุด เพื่อให้ได้ผลรวมต่ำสุดของผลต่างกำลังสองระหว่างค่าจริงของตัวแปร Y และค่าที่คำนวณโดยใช้สมการถดถอย ตัวอย่างเช่น สมการถดถอยเชิงเส้นสามารถสร้างได้แม้ในขณะที่ไม่มีความสัมพันธ์เชิงเส้น

การวัดประสิทธิภาพของตัวแบบการถดถอยคือสัมประสิทธิ์การกำหนด R2 (R-square) ค่าสัมประสิทธิ์การกำหนดสามารถรับค่าระหว่าง 0 ถึง 1 กำหนดระดับความแม่นยำที่สมการถดถอยที่ได้จะอธิบาย (โดยประมาณ) ข้อมูลต้นฉบับ ความสำคัญของแบบจำลองการถดถอยยังถูกตรวจสอบโดยใช้เกณฑ์ F (ฟิชเชอร์) และความน่าเชื่อถือของความแตกต่างระหว่างสัมประสิทธิ์ a0, a1, a2, ... จากศูนย์จะถูกตรวจสอบโดยใช้การทดสอบ t ของนักเรียน

ใน Excel ข้อมูลการทดลองจะถูกประมาณโดยสมการเชิงเส้นถึงลำดับที่ 16:

y = a0+a1x1+a2x2+…+a16x16

เพื่อให้ได้ค่าสัมประสิทธิ์การถดถอยเชิงเส้น สามารถใช้ขั้นตอน "การถดถอย" จากชุดการวิเคราะห์ได้ นอกจากนี้ ฟังก์ชัน LINEST ยังให้ข้อมูลที่สมบูรณ์เกี่ยวกับสมการถดถอยเชิงเส้นอีกด้วย นอกจากนี้ สามารถใช้ฟังก์ชัน SLOPE และ INTERCEPT เพื่อรับพารามิเตอร์ของสมการถดถอย และฟังก์ชัน TREND และ FORECAST สามารถใช้เพื่อรับค่า Y ที่คาดการณ์ไว้ที่จุดที่ต้องการ (สำหรับการถดถอยแบบคู่)

ให้เราพิจารณารายละเอียดการใช้งานของฟังก์ชัน LINEST (known_y, [known_x], [constant], [statistics]):known_y - ช่วงของค่าที่ทราบของพารามิเตอร์ที่ขึ้นต่อกัน Y ในการวิเคราะห์การถดถอยแบบคู่ มันสามารถมีได้ แบบฟอร์มใด ๆ ในพหูพจน์ ต้องเป็นแถวหรือคอลัมน์ Known_x คือช่วงของค่าที่ทราบของพารามิเตอร์อิสระตั้งแต่หนึ่งตัวขึ้นไป ต้องมีรูปร่างเหมือนกับช่วง Y (สำหรับพารามิเตอร์หลายตัว หลายคอลัมน์หรือหลายแถวตามลำดับ) ค่าคงที่ - อาร์กิวเมนต์บูลีน หากตามความหมายเชิงปฏิบัติของงานวิเคราะห์การถดถอย จำเป็นต้องเส้นการถดถอยผ่านจุดกำเนิด นั่นคือ สัมประสิทธิ์อิสระเท่ากับ 0 ค่าของอาร์กิวเมนต์นี้ควรตั้งค่าเป็น 0 (หรือ “ เท็จ"). หากค่าถูกตั้งค่าเป็น 1 (หรือ "จริง") หรือละไว้ สัมประสิทธิ์อิสระจะถูกคำนวณด้วยวิธีปกติ สถิติเป็นอาร์กิวเมนต์บูลีน หากค่าถูกตั้งค่าเป็น 1 (หรือ "จริง") จะมีการส่งคืนสถิติการถดถอยเพิ่มเติม (ดูตาราง) ใช้ในการประเมินประสิทธิภาพและความสำคัญของแบบจำลอง ในกรณีทั่วไป สำหรับการถดถอยแบบคู่ y=ax+b ผลลัพธ์ของการใช้ฟังก์ชัน LINEST จะมีลักษณะดังนี้:

โต๊ะ. ช่วงเอาต์พุตของ LINEST สำหรับการวิเคราะห์การถดถอยแบบคู่

ในกรณีของการวิเคราะห์การถดถอยพหุคูณสำหรับสมการ y=a0+a1x1+a2x2+…+amxm สัมประสิทธิ์ am,…,a1,a0 จะแสดงในบรรทัดแรก และข้อผิดพลาดมาตรฐานสำหรับสัมประสิทธิ์เหล่านี้จะแสดงในบรรทัดที่สอง . แถว 3-5 ยกเว้นสองคอลัมน์แรกที่มีสถิติการถดถอย จะให้ผลลัพธ์ #N/A

ควรป้อนฟังก์ชัน LINEST เป็นสูตรอาร์เรย์ ก่อนอื่นให้เลือกอาร์เรย์ที่มีขนาดที่ต้องการสำหรับผลลัพธ์ (คอลัมน์ m+1 และ 5 แถว หากต้องการสถิติการถดถอย) และกรอกรายการสูตรโดยกด CTRL+SHIFT+ENTER

ผลลัพธ์สำหรับตัวอย่างของเรา:

นอกจากนี้ โปรแกรมยังมีฟังก์ชันในตัว - การวิเคราะห์ข้อมูลบนแท็บข้อมูล

นอกจากนี้ยังสามารถใช้เพื่อทำการวิเคราะห์การถดถอย:

บนสไลด์ - ผลลัพธ์ของการวิเคราะห์การถดถอยโดยใช้การวิเคราะห์ข้อมูล

ผลลัพธ์

สถิติการถดถอย

หลาย R

R-สี่เหลี่ยม

R-square ปกติ

มาตรฐานบกพร่อง

ข้อสังเกต

การวิเคราะห์ความแปรปรวน

ความสำคัญF

การถดถอย

อัตราต่อรอง

มาตรฐานบกพร่อง

t-สถิติ

P-value

ด้านล่าง 95%

สูงสุด 95%

ต่ำกว่า 95.0%

สูงสุด 95.0%

สี่แยก Y

ตัวแปร X 1

สมการถดถอยที่เราดูก่อนหน้านี้นั้นสร้างขึ้นใน MS Excel ด้วย ในการดำเนินการ ขั้นแรกให้สร้างพล็อตแบบกระจาย จากนั้นผ่านเมนูบริบท ให้เลือก - เพิ่มเส้นแนวโน้ม ในหน้าต่างใหม่ ให้เลือกช่องทำเครื่องหมาย - แสดงสมการบนไดอะแกรม และวางค่าความน่าเชื่อถือโดยประมาณ (R ^ 2) บนไดอะแกรม

วรรณกรรม:

  1. ทฤษฎีความน่าจะเป็นและสถิติทางคณิตศาสตร์. หนังสือเรียน Gmurman V. E. สำหรับมหาวิทยาลัย - เอ็ด ที่ 10 ท่าน - ม.: สูงกว่า. โรงเรียน, 2010. - 479s.
  2. คณิตศาสตร์ที่สูงขึ้นในแบบฝึกหัดและงาน หนังสือเรียนสำหรับมหาวิทยาลัย / Danko P. E. , Popov A. G. , Kozhevnikova T. Ya. , Danko S. P. ใน 2 ชั่วโมง - Ed. ที่ 6 ซีเนียร์ - M.: Oniks Publishing House LLC: Mir and Education Publishing House LLC, 2007. - 416 p.
    1. 3. http://www.machinelearning.ru/wiki/index.php?title=%D0%A0%D0%B5%D0%B3%D1%80%D0%B5%D1%81%D1%81%D0%B8 %D1%8F - ข้อมูลบางส่วนเกี่ยวกับการวิเคราะห์การถดถอย

แนวคิดของการถดถอย. ความสัมพันธ์ระหว่างตัวแปร xและ yสามารถอธิบายได้หลายวิธี โดยเฉพาะอย่างยิ่ง รูปแบบการเชื่อมต่อใดๆ สามารถแสดงได้ด้วยสมการทั่วไป โดยที่ yถือเป็นตัวแปรตามหรือ ฟังก์ชั่นจากตัวแปรอื่น - ตัวแปรอิสระ x เรียกว่า การโต้แย้ง. ความสอดคล้องระหว่างอาร์กิวเมนต์และฟังก์ชันสามารถกำหนดได้จากตาราง สูตร กราฟ และอื่นๆ การเปลี่ยนฟังก์ชันขึ้นอยู่กับการเปลี่ยนแปลงในอาร์กิวเมนต์อย่างน้อยหนึ่งอาร์กิวเมนต์เรียกว่า การถดถอย. วิธีการทั้งหมดที่ใช้อธิบายความสัมพันธ์คือเนื้อหา การวิเคราะห์การถดถอย.

สมการสหสัมพันธ์หรือสมการถดถอย ชุดการถดถอยเชิงประจักษ์และคำนวณเชิงทฤษฎี กราฟที่เรียกว่าเส้นถดถอย เช่นเดียวกับสัมประสิทธิ์การถดถอยเชิงเส้นและไม่เป็นเชิงเส้น ใช้เพื่อแสดงความถดถอย

ตัวบ่งชี้การถดถอยแสดงความสัมพันธ์แบบสองทางโดยคำนึงถึงการเปลี่ยนแปลงในค่าเฉลี่ยของแอตทริบิวต์ Yเมื่อเปลี่ยนค่า x ผมเข้าสู่ระบบ Xและในทางกลับกัน แสดงการเปลี่ยนแปลงในค่าเฉลี่ยของคุณสมบัติ Xโดยค่านิยมที่เปลี่ยนไป y ผมเข้าสู่ระบบ Y. ข้อยกเว้นคืออนุกรมเวลาหรือชุดของไดนามิกที่แสดงการเปลี่ยนแปลงในสัญญาณเมื่อเวลาผ่านไป การถดถอยของอนุกรมดังกล่าวเป็นด้านเดียว

มีรูปแบบและประเภทของความสัมพันธ์ที่หลากหลาย งานจะลดลงเพื่อระบุรูปแบบการเชื่อมต่อในแต่ละกรณีและแสดงโดยสมการสหสัมพันธ์ที่สอดคล้องกันซึ่งช่วยให้เราสามารถคาดการณ์การเปลี่ยนแปลงที่เป็นไปได้ในเครื่องหมายเดียว Yตามการเปลี่ยนแปลงที่ทราบ Xเกี่ยวข้องกับความสัมพันธ์ครั้งแรก

12.1 การถดถอยเชิงเส้น

สมการถดถอยผลการสังเกตวัตถุทางชีววิทยาเฉพาะตามลักษณะที่สัมพันธ์กัน xและ y, สามารถแสดงด้วยจุดบนระนาบโดยการสร้างระบบพิกัดสี่เหลี่ยม เป็นผลให้ได้รับไดอะแกรมกระจายซึ่งทำให้สามารถตัดสินรูปแบบและความรัดกุมของความสัมพันธ์ระหว่างคุณสมบัติที่แตกต่างกัน บ่อยครั้งความสัมพันธ์นี้ดูเหมือนเป็นเส้นตรงหรือสามารถประมาณด้วยเส้นตรงได้

ความสัมพันธ์เชิงเส้นระหว่างตัวแปร xและ yอธิบายโดยสมการทั่วไป โดยที่ เอบีซีดี,… เป็นพารามิเตอร์ของสมการที่กำหนดความสัมพันธ์ระหว่างอาร์กิวเมนต์ x 1 , x 2 , x 3 , …, x และหน้าที่

ในทางปฏิบัติ ไม่ได้พิจารณาอาร์กิวเมนต์ที่เป็นไปได้ทั้งหมด แต่มีเพียงอาร์กิวเมนต์บางข้อเท่านั้น ในกรณีที่ง่ายที่สุด มีเพียงข้อเดียว:

ในสมการถดถอยเชิงเส้น (1) เอเป็นเทอมอิสระและพารามิเตอร์ กำหนดความชันของเส้นถดถอยเทียบกับแกนพิกัดรูปสี่เหลี่ยมผืนผ้า ในเรขาคณิตวิเคราะห์ พารามิเตอร์นี้เรียกว่า ปัจจัยความชันและในไบโอเมตริกซ์ - สัมประสิทธิ์การถดถอย. การแสดงภาพของพารามิเตอร์นี้และตำแหน่งของเส้นถดถอย Yบน Xและ Xบน Yในระบบพิกัดสี่เหลี่ยมให้รูปที่ 1

ข้าว. 1 Y โดย X และ X โดย Y เส้นถดถอยในระบบ

พิกัดสี่เหลี่ยม

เส้นถดถอยดังแสดงในรูปที่ 1 ตัดกันที่จุด O (,) ซึ่งสอดคล้องกับค่าเฉลี่ยเลขคณิตของเครื่องหมายที่สัมพันธ์กัน Yและ X. เมื่อพล็อตกราฟการถดถอย ค่าของตัวแปรอิสระ X จะถูกพล็อตตาม abscissa และค่าของตัวแปรตามหรือฟังก์ชัน Y จะถูกพล็อตตามพิกัด เส้น AB ที่ผ่านจุด O (, ) สอดคล้องกับความสัมพันธ์ที่สมบูรณ์ (หน้าที่) ระหว่างตัวแปร Yและ Xเมื่อสัมประสิทธิ์สหสัมพันธ์ ยิ่งมีความเชื่อมโยงระหว่าง Yและ Xยิ่งเส้นถดถอยเข้าใกล้ AB มากเท่านั้น และในทางกลับกัน ยิ่งความสัมพันธ์ระหว่างค่าเหล่านี้อ่อนลง เส้นถดถอยจะยิ่งห่างจาก AB มากเท่านั้น ในกรณีที่ไม่มีการเชื่อมต่อระหว่างคุณลักษณะ เส้นถดถอยจะทำมุมฉากซึ่งกันและกัน และ .

เนื่องจากตัวบ่งชี้การถดถอยแสดงความสัมพันธ์แบบสองทาง สมการถดถอย (1) ควรเขียนดังนี้:

ตามสูตรแรก ค่าเฉลี่ยจะถูกกำหนดเมื่อเครื่องหมายเปลี่ยนไป Xต่อหน่วยวัดในค่าที่สอง - ค่าเฉลี่ยเมื่อมีการเปลี่ยนแปลงคุณสมบัติต่อหน่วยวัด Y.

สัมประสิทธิ์การถดถอยค่าสัมประสิทธิ์การถดถอยแสดงให้เห็นว่า โดยเฉลี่ยแล้ว มูลค่าของคุณลักษณะหนึ่งๆ yเปลี่ยนแปลงเมื่อหน่วยวัดอื่นสัมพันธ์กับ Yเข้าสู่ระบบ X. ตัวบ่งชี้นี้ถูกกำหนดโดยสูตร

ที่นี่ค่า คูณด้วยขนาดของช่วงชั้น λ หากพบโดยชุดการเปลี่ยนแปลงหรือตารางสหสัมพันธ์

ค่าสัมประสิทธิ์การถดถอยสามารถคำนวณได้โดยผ่านการคำนวณค่าเบี่ยงเบนมาตรฐาน yและ xตามสูตร

หากไม่ทราบค่าสัมประสิทธิ์สหสัมพันธ์ ค่าสัมประสิทธิ์การถดถอยจะถูกกำหนดดังนี้:

ความสัมพันธ์ระหว่างการถดถอยและสัมประสิทธิ์สหสัมพันธ์การเปรียบเทียบสูตร (11.1) (หัวข้อ 11) และ (12.5) เราเห็นว่าตัวเศษมีค่าเท่ากัน ซึ่งบ่งชี้ถึงความเชื่อมโยงระหว่างตัวบ่งชี้เหล่านี้ ความสัมพันธ์นี้แสดงออกด้วยความเท่าเทียมกัน

ดังนั้นสัมประสิทธิ์สหสัมพันธ์จึงเท่ากับค่าเฉลี่ยเรขาคณิตของสัมประสิทธิ์ yxและ xy. สูตร (6) ช่วยให้ประการแรกจากค่าที่รู้จักของสัมประสิทธิ์การถดถอย yxและ xyกำหนดค่าสัมประสิทธิ์การถดถอย R xyและประการที่สองเพื่อตรวจสอบความถูกต้องของการคำนวณตัวบ่งชี้สหสัมพันธ์นี้ R xyระหว่างลักษณะที่แตกต่างกัน Xและ Y.

เช่นเดียวกับสัมประสิทธิ์สหสัมพันธ์ สัมประสิทธิ์การถดถอยแสดงลักษณะเฉพาะของความสัมพันธ์เชิงเส้นและมาพร้อมกับเครื่องหมายบวกสำหรับความสัมพันธ์เชิงบวกและเครื่องหมายลบสำหรับความสัมพันธ์เชิงลบ

การหาค่าพารามิเตอร์การถดถอยเชิงเส้นเป็นที่ทราบกันดีว่าผลรวมของการเบี่ยงเบนกำลังสองของตัวแปร x ผมจากค่าเฉลี่ยมีค่าน้อยที่สุดนั่นคือ ทฤษฎีบทนี้เป็นพื้นฐานของวิธีกำลังสองน้อยที่สุด เกี่ยวกับการถดถอยเชิงเส้น [ดู สูตร (1)] ความต้องการของทฤษฎีบทนี้เป็นไปตามระบบสมการที่เรียกว่า ปกติ:

คำตอบร่วมของสมการเหล่านี้เทียบกับพารามิเตอร์ เอและ นำไปสู่ผลลัพธ์ดังต่อไปนี้:

;

;

, เหตุใดฉัน.

กำหนดลักษณะความสัมพันธ์แบบสองทางระหว่างตัวแปร Yและ X, สูตรสำหรับกำหนดพารามิเตอร์ เอควรแสดงออกดังนี้

และ . (7)

พารามิเตอร์ หรือสัมประสิทธิ์การถดถอยถูกกำหนดโดยสูตรต่อไปนี้:

การสร้างอนุกรมการถดถอยเชิงประจักษ์เมื่อมีข้อสังเกตจำนวนมาก การวิเคราะห์การถดถอยจะเริ่มต้นด้วยการสร้างอนุกรมการถดถอยเชิงประจักษ์ อนุกรมการถดถอยเชิงประจักษ์เกิดขึ้นจากการคำนวณค่าของแอตทริบิวต์ตัวแปรเดียว Xค่าเฉลี่ยของอีกฝ่ายหนึ่งสัมพันธ์กับ Xเข้าสู่ระบบ Y. กล่าวอีกนัยหนึ่งการสร้างอนุกรมการถดถอยเชิงประจักษ์ลงมาเพื่อค้นหากลุ่มหมายความว่าคุณจากค่าที่สอดคล้องกันของเครื่องหมาย Y และ X

อนุกรมการถดถอยเชิงประจักษ์เป็นชุดตัวเลขสองชุดที่สามารถแทนด้วยจุดบนระนาบ จากนั้นโดยการเชื่อมต่อจุดเหล่านี้กับส่วนของเส้นตรง จะได้เส้นการถดถอยเชิงประจักษ์ อนุกรมการถดถอยเชิงประจักษ์ โดยเฉพาะแปลง เรียกว่า เส้นถดถอยให้ภาพแสดงรูปแบบและความรัดกุมของการพึ่งพาสหสัมพันธ์ระหว่างคุณลักษณะต่างๆ

การปรับสมดุลของอนุกรมการถดถอยเชิงประจักษ์กราฟของอนุกรมการถดถอยเชิงประจักษ์ ตามกฎแล้ว เส้นหักมากกว่าเส้นเรียบ สิ่งนี้อธิบายได้จากข้อเท็จจริงที่ว่า ร่วมกับเหตุผลหลักที่กำหนดรูปแบบทั่วไปในความแปรปรวนของลักษณะที่สัมพันธ์กัน ค่าของพวกมันได้รับผลกระทบจากอิทธิพลของสาเหตุรองมากมายที่ทำให้เกิดความผันผวนแบบสุ่มในจุดสำคัญของการถดถอย ในการระบุแนวโน้มหลัก (แนวโน้ม) ของรูปแบบคอนจูเกตของคุณสมบัติที่มีความสัมพันธ์กัน คุณต้องแทนที่เส้นที่ขาดด้วยเส้นการถดถอยที่วิ่งอย่างราบรื่นและราบรื่น กระบวนการเปลี่ยนเส้นที่ขาดเป็นเส้นเรียบเรียกว่า การจัดตำแหน่งอนุกรมเชิงประจักษ์และ เส้นถดถอย.

วิธีการจัดตำแหน่งกราฟิกนี่เป็นวิธีที่ง่ายที่สุดที่ไม่ต้องใช้การคำนวณ สาระสำคัญของมันมีดังนี้ อนุกรมการถดถอยเชิงประจักษ์ถูกพล็อตเป็นกราฟในระบบพิกัดสี่เหลี่ยม จากนั้นจุดกึ่งกลางของการถดถอยจะถูกร่างภาพตามเส้นทึบโดยใช้ไม้บรรทัดหรือรูปแบบ ข้อเสียของวิธีนี้ชัดเจน: ไม่รวมอิทธิพลของลักษณะเฉพาะของผู้วิจัยที่มีต่อผลลัพธ์ของการจัดตำแหน่งของเส้นการถดถอยเชิงประจักษ์ ดังนั้น ในกรณีที่ต้องการความแม่นยำสูงกว่าเมื่อแทนที่เส้นการถดถอยที่หักด้วยเส้นเรียบ จะใช้วิธีการอื่นในการจัดแนวอนุกรมเชิงประจักษ์

วิธีค่าเฉลี่ยเคลื่อนที่สาระสำคัญของวิธีนี้ลดลงเหลือเพียงการคำนวณตามลำดับของค่าเฉลี่ยเลขคณิตของสมาชิกที่อยู่ใกล้เคียงสองหรือสามคนของอนุกรมเชิงประจักษ์ วิธีนี้สะดวกโดยเฉพาะอย่างยิ่งในกรณีที่ชุดเชิงประจักษ์แสดงด้วยคำศัพท์จำนวนมากเพื่อให้การสูญเสียทั้งสอง - สุดขั้วซึ่งหลีกเลี่ยงไม่ได้ด้วยวิธีการทำให้เท่าเทียมกันนี้จะไม่ส่งผลกระทบต่อโครงสร้างของมันอย่างเห็นได้ชัด

วิธีกำลังสองน้อยที่สุดวิธีนี้เสนอเมื่อต้นศตวรรษที่ 19 โดย A.M. Legendre และ K. Gauss โดยอิสระจากเขา ช่วยให้คุณจัดแนวชุดข้อมูลเชิงประจักษ์ได้อย่างแม่นยำที่สุด วิธีนี้ ดังที่แสดงไว้ข้างต้น อยู่บนสมมติฐานที่ว่าผลรวมของการเบี่ยงเบนกำลังสองของตัวแปร x ผม จากค่าเฉลี่ยมีค่าต่ำสุดนั่นคือ ดังนั้นชื่อของวิธีการซึ่งใช้ไม่เพียง แต่ในนิเวศวิทยาเท่านั้น แต่ยังรวมถึงเทคโนโลยีด้วย วิธีการกำลังสองน้อยที่สุดมีวัตถุประสงค์และเป็นสากล ใช้ในหลากหลายกรณีเมื่อค้นหาสมการเชิงประจักษ์ของอนุกรมการถดถอยและกำหนดพารามิเตอร์

ความต้องการของวิธีกำลังสองน้อยที่สุดคือต้องได้จุดทฤษฎีของเส้นถดถอยในลักษณะที่ผลรวมของการเบี่ยงเบนกำลังสองจากจุดเหล่านี้สำหรับการสังเกตเชิงประจักษ์ y ผมมีน้อย กล่าวคือ

การคำนวณค่าต่ำสุดของนิพจน์นี้ตามหลักการของการวิเคราะห์ทางคณิตศาสตร์และการแปลงในลักษณะใด ๆ เราสามารถได้รับระบบที่เรียกว่า สมการปกติซึ่งค่าที่ไม่รู้จักเป็นพารามิเตอร์ที่ต้องการของสมการถดถอยและค่าสัมประสิทธิ์ที่ทราบจะถูกกำหนดโดยค่าเชิงประจักษ์ของคุณสมบัติซึ่งมักจะเป็นผลรวมของค่าและผลคูณของพวกเขา

การถดถอยเชิงเส้นพหุคูณความสัมพันธ์ระหว่างตัวแปรหลายตัวมักจะแสดงโดยสมการถดถอยพหุคูณ ซึ่งสามารถเป็น เชิงเส้นและ ไม่เชิงเส้น. ในรูปแบบที่ง่ายที่สุด การถดถอยพหุคูณแสดงโดยสมการที่มีตัวแปรอิสระสองตัว ( x, z):

ที่ไหน เอคือพจน์ว่างของสมการ และ เป็นพารามิเตอร์ของสมการ ในการหาพารามิเตอร์ของสมการ (10) (ด้วยวิธีกำลังสองน้อยที่สุด) ให้ใช้ระบบสมการปกติต่อไปนี้:

แถวของไดนามิก การจัดตำแหน่งแถวการเปลี่ยนแปลงของสัญญาณเมื่อเวลาผ่านไปก่อให้เกิดสิ่งที่เรียกว่า อนุกรมเวลาหรือ แถวของไดนามิก. คุณลักษณะเฉพาะของอนุกรมดังกล่าวคือปัจจัยด้านเวลาทำหน้าที่เป็นตัวแปรอิสระ X เสมอ และเครื่องหมายที่เปลี่ยนแปลงคือตัวแปรตาม Y ความสัมพันธ์ระหว่างตัวแปร X และ Y มีด้านเดียว ทั้งนี้ขึ้นอยู่กับชุดการถดถอย เนื่องจากปัจจัยด้านเวลาไม่ได้ขึ้นอยู่กับความแปรปรวนของคุณลักษณะ แม้จะมีคุณลักษณะเหล่านี้ อนุกรมเวลาสามารถเปรียบได้กับอนุกรมการถดถอยและประมวลผลด้วยวิธีเดียวกัน

เช่นเดียวกับอนุกรมการถดถอย อนุกรมเวลาเชิงประจักษ์ไม่เพียงได้รับอิทธิพลจากปัจจัยหลักเท่านั้น แต่ยังได้รับอิทธิพลจากปัจจัยรอง (สุ่ม) จำนวนมากที่ปิดบังแนวโน้มหลักในความแปรปรวนของคุณสมบัติซึ่งในภาษาของสถิติเรียกว่า แนวโน้ม.

การวิเคราะห์อนุกรมเวลาเริ่มต้นด้วยการระบุรูปร่างของแนวโน้ม เมื่อต้องการทำเช่นนี้ อนุกรมเวลาจะแสดงเป็นกราฟเส้นในระบบพิกัดสี่เหลี่ยม ในเวลาเดียวกัน จุดเวลา (ปี เดือน และหน่วยของเวลาอื่นๆ) จะถูกพล็อตตามแกน abscissa และค่าของตัวแปรตาม Y จะถูกพล็อตตามแกนพิกัด คือ สมการถดถอยในรูปของ การเบี่ยงเบนของเงื่อนไขของอนุกรมของตัวแปรตาม Y จากค่าเฉลี่ยเลขคณิตของชุดของตัวแปรอิสระ X:

นี่คือพารามิเตอร์การถดถอยเชิงเส้น

ลักษณะเชิงตัวเลขของอนุกรมไดนามิกลักษณะทั่วไปเชิงตัวเลขของชุดของไดนามิกรวมถึง เฉลี่ยเรขาคณิตและค่าเฉลี่ยเลขคณิตใกล้เคียงกัน พวกเขากำหนดลักษณะอัตราเฉลี่ยที่ค่าของตัวแปรตามการเปลี่ยนแปลงในช่วงระยะเวลาหนึ่ง:

ค่าประมาณความแปรปรวนของเงื่อนไขของอนุกรมไดนามิกคือ ส่วนเบี่ยงเบนมาตรฐาน. เมื่อเลือกสมการถดถอยเพื่ออธิบายอนุกรมเวลา รูปแบบของแนวโน้มจะถูกนำมาพิจารณา ซึ่งสามารถเป็นแบบเส้นตรง (หรือลดเป็นเส้นตรง) และไม่เป็นเส้นตรง ความถูกต้องของการเลือกสมการถดถอยมักจะตัดสินโดยความคล้ายคลึงกันของค่าที่สังเกตได้และคำนวณได้ของตัวแปรตาม การแก้ปัญหานี้ได้แม่นยำกว่าคือวิธีวิเคราะห์ความแปรปรวนถดถอย (หัวข้อ 12 น.4)

ความสัมพันธ์ของอนุกรมไดนามิกบ่อยครั้งจำเป็นต้องเปรียบเทียบพลวัตของอนุกรมเวลาคู่ขนานซึ่งสัมพันธ์กันโดยเงื่อนไขทั่วไปบางอย่าง เช่น เพื่อค้นหาความสัมพันธ์ระหว่างการผลิตทางการเกษตรและการเติบโตของปศุสัตว์ในช่วงระยะเวลาหนึ่ง ในกรณีเช่นนี้ ความสัมพันธ์ระหว่างตัวแปร X และ Y จะมีลักษณะเฉพาะโดย ค่าสัมประสิทธิ์สหสัมพันธ์ R xy (ต่อหน้าแนวโน้มเชิงเส้น)

เป็นที่ทราบกันดีอยู่แล้วว่าแนวโน้มของชุดของไดนามิกตามกฎถูกบดบังด้วยความผันผวนในแง่ของอนุกรมของตัวแปรตาม Y ดังนั้นปัญหาสองเท่าจึงเกิดขึ้น: การวัดการพึ่งพากันระหว่างอนุกรมที่เปรียบเทียบโดยไม่ยกเว้น แนวโน้ม และการวัดการพึ่งพาอาศัยกันระหว่างสมาชิกที่อยู่ติดกันของชุดข้อมูลเดียวกัน ไม่รวมแนวโน้ม ในกรณีแรก ตัวบ่งชี้ความใกล้ชิดของการเชื่อมต่อระหว่างอนุกรมไดนามิกที่เปรียบเทียบคือ ค่าสัมประสิทธิ์สหสัมพันธ์(ถ้าความสัมพันธ์เป็นเส้นตรง) ในวินาที - สัมประสิทธิ์สหสัมพันธ์อัตโนมัติ. ตัวบ่งชี้เหล่านี้มีค่าต่างกัน แม้ว่าจะคำนวณโดยใช้สูตรเดียวกัน (ดูหัวข้อ 11)

เป็นเรื่องง่ายที่จะเห็นว่าค่าของสัมประสิทธิ์สหสัมพันธ์อัตโนมัติได้รับผลกระทบจากความแปรปรวนของสมาชิกของชุดข้อมูลของตัวแปรตาม: ยิ่งสมาชิกของชุดเบี่ยงเบนไปจากแนวโน้มน้อยเท่าใด ค่าสัมประสิทธิ์สหสัมพันธ์อัตโนมัติก็จะยิ่งสูงขึ้น และในทางกลับกัน

ในการปรากฏตัวของความสัมพันธ์ระหว่างปัจจัยและสัญญาณผลลัพธ์ แพทย์มักจะต้องกำหนดด้วยจำนวนค่าของสัญญาณหนึ่งที่สามารถเปลี่ยนแปลงได้เมื่อมีการเปลี่ยนแปลงอื่นโดยหน่วยวัดที่ยอมรับโดยทั่วไปหรือกำหนดโดยผู้วิจัยเอง

ตัวอย่างเช่น น้ำหนักตัวของนักเรียนชั้นประถมศึกษาปีที่ 1 (เด็กหญิงหรือเด็กชาย) จะเปลี่ยนไปอย่างไรหากความสูงเพิ่มขึ้น 1 ซม. เพื่อจุดประสงค์นี้จึงใช้วิธีวิเคราะห์การถดถอย

ส่วนใหญ่มักจะใช้วิธีการวิเคราะห์การถดถอยเพื่อพัฒนามาตราส่วนเชิงบรรทัดฐานและมาตรฐานสำหรับการพัฒนาทางกายภาพ

  1. นิยามของการถดถอย. การถดถอยเป็นฟังก์ชันที่ช่วยให้ โดยยึดตามค่าเฉลี่ยของแอตทริบิวต์หนึ่ง เพื่อกำหนดค่าเฉลี่ยของแอตทริบิวต์อื่นที่สัมพันธ์กับแอตทริบิวต์แรก

    ด้วยเหตุนี้จึงใช้สัมประสิทธิ์การถดถอยและพารามิเตอร์อื่นๆ จำนวนหนึ่ง ตัวอย่างเช่น คุณสามารถคำนวณจำนวนโรคหวัดโดยเฉลี่ยที่ค่าที่แน่นอนของอุณหภูมิอากาศเฉลี่ยรายเดือนในช่วงฤดูใบไม้ร่วงฤดูหนาว

  2. ความหมายของสัมประสิทธิ์การถดถอย. ค่าสัมประสิทธิ์การถดถอยคือค่าสัมบูรณ์โดยที่ค่าของแอตทริบิวต์หนึ่งเปลี่ยนแปลงโดยเฉลี่ยเมื่อแอตทริบิวต์อื่นที่เกี่ยวข้องเปลี่ยนแปลงโดยหน่วยการวัดที่สร้างขึ้น
  3. สูตรสัมประสิทธิ์การถดถอย. R y / x \u003d r xy x (σ y / σ x)
    โดยที่ R y / x - สัมประสิทธิ์การถดถอย
    r xy - ค่าสัมประสิทธิ์สหสัมพันธ์ระหว่างคุณสมบัติ x และ y;
    (σ y และ σ x) - ส่วนเบี่ยงเบนมาตรฐานของคุณสมบัติ x และ y

    ในตัวอย่างของเรา ;
    σ x = 4.6 (ค่าเบี่ยงเบนมาตรฐานของอุณหภูมิอากาศในช่วงฤดูใบไม้ร่วงฤดูหนาว
    σ y = 8.65 (ค่าเบี่ยงเบนมาตรฐานของจำนวนโรคหวัดติดเชื้อ)
    ดังนั้น R y/x คือสัมประสิทธิ์การถดถอย
    R y / x \u003d -0.96 x (4.6 / 8.65) \u003d 1.8 เช่น เมื่ออุณหภูมิอากาศเฉลี่ยรายเดือนลดลง (x) 1 องศา จำนวนโรคหวัดติดเชื้อเฉลี่ย (y) ในช่วงฤดูใบไม้ร่วงฤดูหนาวจะเปลี่ยนไป 1.8 ราย

  4. สมการถดถอย. y \u003d M y + R y / x (x - M x)
    โดยที่ y คือค่าเฉลี่ยของแอตทริบิวต์ ซึ่งควรพิจารณาเมื่อมูลค่าเฉลี่ยของแอตทริบิวต์อื่น (x) เปลี่ยนแปลง
    x - ค่าเฉลี่ยที่ทราบของคุณสมบัติอื่น
    R y/x - สัมประสิทธิ์การถดถอย;
    M x, M y - ค่าเฉลี่ยที่รู้จักของคุณสมบัติ x และ y

    ตัวอย่างเช่น สามารถกำหนดจำนวนเฉลี่ยของโรคหวัดติดเชื้อ (y) ได้โดยไม่ต้องมีการวัดพิเศษที่ค่าเฉลี่ยของอุณหภูมิอากาศเฉลี่ยรายเดือน (x) ดังนั้นถ้า x \u003d - 9 °, R y / x \u003d 1.8 โรค, M x \u003d -7 °, M y \u003d 20 โรคจากนั้น y \u003d 20 + 1.8 x (9-7) \u003d 20 +3 .6 = 23.6 โรค
    สมการนี้ใช้ในกรณีของความสัมพันธ์แบบเส้นตรงระหว่างสองคุณลักษณะ (x และ y)

  5. จุดประสงค์ของสมการถดถอย. สมการถดถอยใช้เพื่อพลอตเส้นการถดถอย ค่าหลังอนุญาตให้กำหนดค่าเฉลี่ยใดๆ (y) ของแอตทริบิวต์หนึ่งๆ โดยไม่ต้องมีการวัดพิเศษ หากค่า (x) ของแอตทริบิวต์อื่นเปลี่ยนแปลง จากข้อมูลเหล่านี้ กราฟถูกสร้างขึ้น - เส้นถดถอยซึ่งสามารถใช้เพื่อกำหนดจำนวนเฉลี่ยของโรคหวัดที่ค่าใด ๆ ของอุณหภูมิเฉลี่ยรายเดือนภายในช่วงระหว่างค่าที่คำนวณได้ของจำนวนโรคหวัด
  6. ซิกมาถดถอย (สูตร).
    โดยที่ σ Ru/x - ซิกมา (ค่าเบี่ยงเบนมาตรฐาน) ของการถดถอย
    σ y คือค่าเบี่ยงเบนมาตรฐานของคุณลักษณะ y;
    r xy - สัมประสิทธิ์สหสัมพันธ์ระหว่างคุณสมบัติ x และ y

    ดังนั้น ถ้า σ y เป็นค่าเบี่ยงเบนมาตรฐานของจำนวนโรคหวัด = 8.65; r xy - ค่าสัมประสิทธิ์สหสัมพันธ์ระหว่างจำนวนความหนาวเย็น (y) และอุณหภูมิอากาศเฉลี่ยรายเดือนในช่วงฤดูใบไม้ร่วงฤดูหนาว (x) คือ - 0.96 จากนั้น

  7. วัตถุประสงค์ของการถดถอยซิกมา. ให้คุณลักษณะของการวัดความหลากหลายของคุณลักษณะผลลัพธ์ (y)

    ตัวอย่างเช่น แสดงลักษณะความหลากหลายของจำนวนโรคหวัดที่ค่าหนึ่งของอุณหภูมิอากาศเฉลี่ยรายเดือนในช่วงฤดูใบไม้ร่วงฤดูหนาว ดังนั้นจำนวนโรคหวัดโดยเฉลี่ยที่อุณหภูมิอากาศ x 1 \u003d -6 °สามารถอยู่ในช่วงตั้งแต่ 15.78 โรคถึง 20.62 โรค
    ที่ x 2 = -9° จำนวนโรคหวัดโดยเฉลี่ยอาจมีตั้งแต่ 21.18 โรคไปจนถึง 26.02 โรค เป็นต้น

    ซิกมาการถดถอยใช้ในการสร้างมาตราส่วนการถดถอยซึ่งสะท้อนการเบี่ยงเบนของค่าของแอตทริบิวต์ที่มีประสิทธิภาพจากค่าเฉลี่ยที่วางแผนไว้บนเส้นการถดถอย

  8. ข้อมูลที่จำเป็นในการคำนวณและพล็อตมาตราส่วนการถดถอย
    • สัมประสิทธิ์การถดถอย - Ry/x;
    • สมการถดถอย - y \u003d M y + R y / x (x-M x);
    • ซิกมาถดถอย - σ Rx/y
  9. ลำดับของการคำนวณและการแสดงกราฟิกของมาตราส่วนการถดถอย.
    • กำหนดค่าสัมประสิทธิ์การถดถอยตามสูตร (ดูย่อหน้าที่ 3) ตัวอย่างเช่น ควรกำหนดว่าน้ำหนักตัวจะเปลี่ยนแปลงโดยเฉลี่ยเท่าใด (ในบางช่วงอายุขึ้นอยู่กับเพศ) หากความสูงเฉลี่ยเปลี่ยนแปลงไป 1 ซม.
    • ตามสูตรของสมการถดถอย (ดูวรรค 4) กำหนดสิ่งที่จะเป็นค่าเฉลี่ยเช่นน้ำหนักตัว (y, y 2, y 3 ...) * สำหรับค่าการเติบโตที่แน่นอน (x, x 2, x 3 ...) .
      ________________
      * ควรคำนวณค่าของ "y" สำหรับค่า "x" ที่รู้จักอย่างน้อยสามค่า

      ในขณะเดียวกันก็ทราบค่าเฉลี่ยของน้ำหนักตัวและส่วนสูง (M x และ M y) สำหรับอายุและเพศที่แน่นอน

    • คำนวณซิกมาของการถดถอยโดยรู้ค่าที่สอดคล้องกันของ σ y และ r xy และแทนที่ค่าลงในสูตร (ดูย่อหน้าที่ 6)
    • ขึ้นอยู่กับค่าที่รู้จัก x 1, x 2, x 3 และค่าเฉลี่ยที่สอดคล้องกัน y 1, y 2 y 3 เช่นเดียวกับค่าที่เล็กที่สุด (y - σ ru / x) และใหญ่ที่สุด (y + σ ru / x) ค่า (y) สร้างมาตราส่วนการถดถอย

      สำหรับการแสดงกราฟของมาตราส่วนการถดถอย ค่า x, x 2 , x 3 (แกน y) จะถูกทำเครื่องหมายบนกราฟก่อน กล่าวคือ เส้นถดถอยถูกสร้างขึ้น ตัวอย่างเช่น การพึ่งพาน้ำหนักตัว (y) กับความสูง (x)

      จากนั้นที่จุดที่เกี่ยวข้อง y 1 , y 2 , y 3 ค่าตัวเลขของซิกมาการถดถอยจะถูกทำเครื่องหมายเช่น บนกราฟ ค้นหาค่าที่เล็กที่สุดและใหญ่ที่สุดของ y 1 , y 2 , y 3 .

  10. การใช้มาตราส่วนการถดถอยในทางปฏิบัติ. กำลังพัฒนามาตราส่วนและมาตรฐานเชิงบรรทัดฐาน โดยเฉพาะอย่างยิ่งสำหรับการพัฒนาทางกายภาพ ตามมาตราส่วนมาตรฐาน การประเมินพัฒนาการของเด็กเป็นรายบุคคลสามารถทำได้ ในเวลาเดียวกัน พัฒนาการทางกายภาพจะได้รับการประเมินว่ามีความกลมกลืนกัน ตัวอย่างเช่น ที่ความสูงระดับหนึ่ง น้ำหนักตัวของเด็กอยู่ภายในซิกมาการถดถอยหนึ่งหน่วยต่อหน่วยที่คำนวณโดยเฉลี่ยของน้ำหนักตัว - (y) สำหรับส่วนสูงที่กำหนด (x) ( y ± 1 σ Ry / x).

    พัฒนาการทางร่างกายถือว่าไม่ลงรอยกันในแง่ของน้ำหนักตัว หากน้ำหนักตัวของเด็กสำหรับส่วนสูงที่แน่นอนอยู่ภายในซิกมาถดถอยที่สอง: (y ± 2 σ Ry/x)

    การพัฒนาทางกายภาพจะเกิดความไม่ลงรอยกันอย่างมากทั้งเนื่องจากน้ำหนักตัวที่มากเกินไปและไม่เพียงพอ หากน้ำหนักตัวสำหรับส่วนสูงบางอย่างอยู่ภายในซิกมาที่สามของการถดถอย (y ± 3 σ Ry/x)

จากผลการศึกษาทางสถิติเกี่ยวกับพัฒนาการทางร่างกายของเด็กชายอายุ 5 ขวบ เป็นที่ทราบกันดีอยู่แล้วว่าส่วนสูงเฉลี่ย (x) ของพวกเขาคือ 109 ซม. และน้ำหนักตัวเฉลี่ย (y) คือ 19 กก. ค่าสัมประสิทธิ์สหสัมพันธ์ระหว่างส่วนสูงและน้ำหนักตัวคือ +0.9 ส่วนเบี่ยงเบนมาตรฐานแสดงในตาราง

ที่จำเป็น:

  • คำนวณค่าสัมประสิทธิ์การถดถอย
  • ใช้สมการถดถอยกำหนดว่าน้ำหนักตัวที่คาดหวังของเด็กชายอายุ 5 ขวบจะมีความสูงเท่ากับ x1 = 100 ซม. x2 = 110 ซม. x3 = 120 ซม.
  • คำนวณซิกม่าการถดถอย สร้างมาตราส่วนการถดถอย นำเสนอผลลัพธ์ของการแก้ปัญหาแบบกราฟิก
  • หาข้อสรุปที่เหมาะสม

เงื่อนไขของปัญหาและผลลัพธ์ของการแก้ปัญหาแสดงอยู่ในตารางสรุป

ตารางที่ 1

เงื่อนไขของปัญหา ผลลัพธ์การแก้ปัญหา
สมการถดถอย ซิกม่าถดถอย มาตราส่วนการถดถอย (น้ำหนักตัวที่คาดไว้ (กก.))
เอ็ม σ r xy R y/x X ที่ σRx/y y - σ Rу/х y + σ Rу/х
1 2 3 4 5 6 7 8 9 10
ความสูง (x) 109 ซม. ± 4.4 ซม. +0,9 0,16 100ซม. 17.56 กก. ± 0.35 กก. 17.21 กก. 17.91 กก.
น้ำหนักตัว (y) 19 กก. ± 0.8 กก. 110 ซม. 19.16 กก. 18.81 กก. 19.51 กก.
120 ซม. 20.76 กก. 20.41 กก. 21.11 กก.

วิธีการแก้.

บทสรุป.ดังนั้นมาตราส่วนการถดถอยภายในค่าที่คำนวณได้ของน้ำหนักตัวจึงช่วยให้คุณสามารถกำหนดค่าอื่น ๆ ของการเติบโตหรือเพื่อประเมินพัฒนาการของเด็กแต่ละคน เมื่อต้องการทำเช่นนี้ ให้คืนค่าเส้นตั้งฉากกับเส้นถดถอย

  1. Vlasov V.V. ระบาดวิทยา - ม.: GEOTAR-MED, 2547. - 464 น.
  2. ลิสิษฐ์ ยุ. สาธารณสุขและสุขภาพ. หนังสือเรียนสำหรับโรงเรียนมัธยม. - ม.: GEOTAR-MED, 2550. - 512 น.
  3. Medik V.A. , Yuriev V.K. หลักสูตรการบรรยายด้านสาธารณสุขและสาธารณสุข ส่วนที่ 1 สาธารณสุข - ม.: แพทยศาสตร์, 2546. - 368 น.
  4. Minyaev V.A. , Vishnyakov N.I. และอื่นๆ องค์การสังคมสงเคราะห์และสาธารณสุข (คู่มือ 2 เล่ม) - เซนต์ปีเตอร์สเบิร์ก 2541 -528 น
  5. Kucherenko V.Z. , Agarkov N.M. และอื่น ๆ สุขอนามัยทางสังคมและองค์กรด้านการดูแลสุขภาพ (กวดวิชา) - มอสโก, 2000. - 432 หน้า
  6. เอส. กลันทซ์. สถิติการแพทย์-ชีวภาพ. ต่อจากภาษาอังกฤษ - ม., ฝึกซ้อม, 2541. - 459 น.

ในการสร้างแบบจำลองทางสถิติ การวิเคราะห์การถดถอยเป็นการศึกษาที่ใช้เพื่อประเมินความสัมพันธ์ระหว่างตัวแปร วิธีการทางคณิตศาสตร์นี้รวมถึงวิธีการอื่นๆ อีกมากมายสำหรับการสร้างแบบจำลองและวิเคราะห์ตัวแปรหลายตัวเมื่อโฟกัสอยู่ที่ความสัมพันธ์ระหว่างตัวแปรตามและตัวแปรอิสระอย่างน้อยหนึ่งตัว โดยเฉพาะอย่างยิ่ง การวิเคราะห์การถดถอยช่วยให้คุณเข้าใจว่าค่าปกติของตัวแปรตามเปลี่ยนแปลงไปอย่างไร หากตัวแปรอิสระตัวใดตัวหนึ่งเปลี่ยนแปลงไปในขณะที่ตัวแปรอิสระอื่นๆ ยังคงคงที่อยู่

ในทุกกรณี คะแนนเป้าหมายเป็นฟังก์ชันของตัวแปรอิสระและเรียกว่าฟังก์ชันการถดถอย ในการวิเคราะห์การถดถอย การกำหนดลักษณะการเปลี่ยนแปลงในตัวแปรตามเป็นฟังก์ชันของการถดถอยเป็นสิ่งที่น่าสนใจเช่นกัน ซึ่งสามารถอธิบายได้โดยใช้การแจกแจงความน่าจะเป็น

งานของการวิเคราะห์การถดถอย

วิธีการวิจัยทางสถิตินี้ใช้กันอย่างแพร่หลายในการคาดการณ์ ซึ่งการใช้งานมีข้อได้เปรียบที่สำคัญ แต่บางครั้งอาจนำไปสู่ภาพลวงตาหรือความสัมพันธ์ที่ผิดพลาด ดังนั้นจึงแนะนำให้ใช้อย่างระมัดระวังในคำถามนี้ เนื่องจากความสัมพันธ์ไม่ได้หมายความว่า สาเหตุ

มีการพัฒนาวิธีการจำนวนมากสำหรับการวิเคราะห์การถดถอย เช่น การถดถอยกำลังสองน้อยที่สุดแบบเชิงเส้นและแบบธรรมดาซึ่งเป็นแบบพาราเมตริก สาระสำคัญของพวกเขาคือฟังก์ชันการถดถอยถูกกำหนดในแง่ของจำนวนพารามิเตอร์ที่ไม่รู้จักซึ่งประเมินจากข้อมูล การถดถอยแบบไม่อิงพารามิเตอร์ทำให้ฟังก์ชันของมันอยู่ในชุดของฟังก์ชันบางชุด ซึ่งสามารถเป็นแบบอนันต์มิติได้

เป็นวิธีการวิจัยทางสถิติ ในทางปฏิบัติการวิเคราะห์การถดถอยขึ้นอยู่กับรูปแบบของกระบวนการสร้างข้อมูลและความเกี่ยวข้องกับวิธีการถดถอย เนื่องจากรูปแบบที่แท้จริงของการสร้างกระบวนการข้อมูลมักเป็นตัวเลขที่ไม่รู้จัก การวิเคราะห์การถดถอยของข้อมูลจึงมักขึ้นอยู่กับสมมติฐานบางประการเกี่ยวกับกระบวนการ สมมติฐานเหล่านี้บางครั้งสามารถทดสอบได้หากมีข้อมูลเพียงพอ ตัวแบบการถดถอยมักจะมีประโยชน์แม้ว่าข้อสันนิษฐานจะถูกละเมิดในระดับปานกลาง แม้ว่าตัวแบบการถดถอยอาจไม่ทำงานได้ดีที่สุดก็ตาม

ในความหมายที่แคบกว่า การถดถอยสามารถอ้างถึงการประมาณค่าของตัวแปรตอบสนองอย่างต่อเนื่องโดยเฉพาะ เมื่อเทียบกับตัวแปรการตอบสนองแบบแยกส่วนที่ใช้ในการจำแนกประเภท กรณีของตัวแปรเอาต์พุตต่อเนื่องเรียกอีกอย่างว่าการถดถอยเมตริกเพื่อแยกความแตกต่างจากปัญหาที่เกี่ยวข้อง

เรื่องราว

รูปแบบการถดถอยที่เร็วที่สุดคือวิธีการของกำลังสองน้อยที่สุดที่รู้จักกันดี มันถูกตีพิมพ์โดย Legendre ในปี 1805 และ Gauss ในปี 1809 Legendre และ Gauss ใช้วิธีนี้ในการกำหนดปัญหาจากการสังเกตทางดาราศาสตร์วงโคจรของวัตถุรอบดวงอาทิตย์ (ส่วนใหญ่เป็นดาวหาง เกาส์ตีพิมพ์การพัฒนาเพิ่มเติมของทฤษฎีกำลังสองน้อยที่สุดในปี ค.ศ. 1821 ซึ่งรวมถึงทฤษฎีบทเกาส์-มาร์คอฟที่แปรผัน

คำว่า "ถดถอย" ถูกสร้างขึ้นโดยฟรานซิส กัลตันในศตวรรษที่ 19 เพื่ออธิบายปรากฏการณ์ทางชีววิทยา บรรทัดล่างคือการเติบโตของลูกหลานจากการเติบโตของบรรพบุรุษตามกฎแล้วถดถอยลงสู่ค่าเฉลี่ยปกติ สำหรับ Galton การถดถอยมีความหมายทางชีวภาพเท่านั้น แต่ต่อมางานของเขาถูก Udni Yoley และ Karl Pearson หยิบขึ้นมาและนำไปสู่บริบททางสถิติทั่วไปมากขึ้น ในงานของเทศกาลคริสต์มาสและเพียร์สัน การกระจายร่วมกันของการตอบสนองและตัวแปรอธิบายถือเป็นแบบเกาส์เซียน สมมติฐานนี้ถูกปฏิเสธโดย Fischer ในเอกสารของปี 1922 และ 1925 ฟิชเชอร์แนะนำว่าการแจกแจงแบบมีเงื่อนไขของตัวแปรตอบสนองคือ Gaussian แต่ไม่จำเป็นต้องเป็นการกระจายร่วม ในเรื่องนี้ ข้อเสนอแนะของฟิชเชอร์นั้นใกล้เคียงกับสูตรของเกาส์ในปี 1821 ก่อนปี 1970 บางครั้งอาจใช้เวลาถึง 24 ชั่วโมงเพื่อให้ได้ผลลัพธ์ของการวิเคราะห์การถดถอย

วิธีการวิเคราะห์การถดถอยยังคงเป็นพื้นที่ของการวิจัยเชิงรุก ในทศวรรษที่ผ่านมา มีการพัฒนาวิธีการใหม่เพื่อการถดถอยที่แข็งแกร่ง การถดถอยที่เกี่ยวข้องกับการตอบสนองที่มีความสัมพันธ์ วิธีการถดถอยที่รองรับข้อมูลที่ขาดหายไปประเภทต่างๆ การถดถอยแบบไม่อิงพารามิเตอร์ วิธีการถดถอยแบบเบย์ การถดถอยที่ตัวแปรทำนายถูกวัดด้วยข้อผิดพลาด การถดถอยที่มีตัวทำนายมากกว่าการสังเกต และการอนุมานเชิงสาเหตุด้วยการถดถอย

แบบจำลองการถดถอย

โมเดลการวิเคราะห์การถดถอยประกอบด้วยตัวแปรต่อไปนี้:

  • พารามิเตอร์ที่ไม่รู้จัก ซึ่งแสดงเป็นเบต้า ซึ่งสามารถเป็นสเกลาร์หรือเวกเตอร์
  • ตัวแปรอิสระ X.
  • ตัวแปรตาม, Y.

ในสาขาวิทยาศาสตร์ต่างๆ ที่ใช้การวิเคราะห์การถดถอย มีการใช้คำศัพท์ที่แตกต่างกันแทนตัวแปรตามและตัวแปรอิสระ แต่ในทุกกรณี แบบจำลองการถดถอยจะเชื่อมโยง Y กับฟังก์ชันของ X และ β

การประมาณมักจะกำหนดเป็น E (Y | X) = F (X, β) ในการวิเคราะห์การถดถอย ต้องกำหนดรูปแบบของฟังก์ชัน f ไม่ค่อยจะมีพื้นฐานมาจากความรู้เกี่ยวกับความสัมพันธ์ระหว่าง Y และ X ที่ไม่อาศัยข้อมูล หากไม่มีความรู้ดังกล่าว ให้เลือกแบบฟอร์ม F ที่ยืดหยุ่นหรือสะดวก

ตัวแปรตาม Y

ให้เราสมมติว่าเวกเตอร์ของพารามิเตอร์ที่ไม่รู้จัก β มีความยาว k เพื่อทำการวิเคราะห์การถดถอย ผู้ใช้ต้องให้ข้อมูลเกี่ยวกับตัวแปรตาม Y:

  • หากสังเกตจุดข้อมูล N ของแบบฟอร์ม (Y, X) โดยที่ N< k, большинство классических подходов к регрессионному анализу не могут быть выполнены, так как система уравнений, определяющих модель регрессии в качестве недоопределенной, не имеет достаточного количества данных, чтобы восстановить β.
  • หากสังเกต N = K ทุกประการ และฟังก์ชัน F เป็นเส้นตรง สมการ Y = F(X, β) จะสามารถแก้ไขได้ทุกประการ ไม่ใช่ประมาณ สิ่งนี้ทำให้การแก้เซตของสมการ N กับ N-unknowns (องค์ประกอบของ β) นั้นมีคำตอบเฉพาะตราบใดที่ X มีความเป็นอิสระเชิงเส้น ถ้า F ไม่เชิงเส้น อาจไม่มีคำตอบ หรืออาจมีคำตอบมากมาย
  • สถานการณ์ที่พบบ่อยที่สุดคือจุดที่มี N > ชี้ไปที่ข้อมูล ในกรณีนี้ มีข้อมูลเพียงพอในข้อมูลที่จะประมาณค่าเฉพาะสำหรับ β ที่เหมาะสมกับข้อมูลมากที่สุด และตัวแบบการถดถอยเมื่อนำไปใช้กับข้อมูลสามารถมองได้ว่าเป็นระบบที่ถูกแทนที่ใน β

ในกรณีหลัง การวิเคราะห์การถดถอยมีเครื่องมือสำหรับ:

  • การหาวิธีแก้ปัญหาสำหรับพารามิเตอร์ที่ไม่รู้จัก β ซึ่งจะทำให้ระยะห่างระหว่างค่าที่วัดได้และค่าที่คาดการณ์ไว้ของ Y น้อยที่สุด
  • ภายใต้สมมติฐานทางสถิติบางประการ การวิเคราะห์การถดถอยจะใช้ข้อมูลที่มากเกินไปเพื่อให้ข้อมูลทางสถิติเกี่ยวกับพารามิเตอร์ที่ไม่รู้จัก β และค่าที่คาดการณ์ไว้ของตัวแปรตาม Y

จำนวนการวัดอิสระที่ต้องการ

พิจารณาตัวแบบการถดถอยที่มีพารามิเตอร์ที่ไม่รู้จักสามตัว: β 0 , β 1 และ β 2 สมมติว่าผู้ทดลองทำการวัด 10 ครั้งในค่าเดียวกันของตัวแปรอิสระของเวกเตอร์ X ในกรณีนี้ การวิเคราะห์การถดถอยไม่ได้ให้ชุดค่าที่ไม่ซ้ำกัน สิ่งที่ดีที่สุดที่คุณสามารถทำได้คือประมาณค่าค่าเฉลี่ยและค่าเบี่ยงเบนมาตรฐานของตัวแปรตาม Y ในทำนองเดียวกัน โดยการวัดค่า X ที่แตกต่างกันสองค่า คุณจะได้รับข้อมูลเพียงพอสำหรับการถดถอยที่มีสองไม่ทราบค่า แต่ไม่ใช่สำหรับค่าที่ไม่ทราบค่าสามค่าขึ้นไป

หากการวัดของผู้ทดลองใช้ค่าที่แตกต่างกันสามค่าของตัวแปรเวกเตอร์อิสระ X การวิเคราะห์การถดถอยจะให้ชุดค่าประมาณที่ไม่ซ้ำกันสำหรับพารามิเตอร์ที่ไม่รู้จักสามตัวใน β

ในกรณีของการถดถอยเชิงเส้นทั่วไป ข้อความข้างต้นเทียบเท่ากับข้อกำหนดที่เมทริกซ์ X T X สามารถกลับด้านได้

สมมติฐานทางสถิติ

เมื่อจำนวนการวัด N มากกว่าจำนวนพารามิเตอร์ที่ไม่รู้จัก k และข้อผิดพลาดในการวัด ε ผม ตามกฎแล้ว ข้อมูลส่วนเกินที่มีอยู่ในการวัดจะถูกแจกจ่ายและใช้สำหรับการคาดการณ์ทางสถิติเกี่ยวกับพารามิเตอร์ที่ไม่รู้จัก ข้อมูลส่วนเกินนี้เรียกว่าระดับความอิสระของการถดถอย

สมมติฐานพื้นฐาน

สมมติฐานคลาสสิกสำหรับการวิเคราะห์การถดถอยประกอบด้วย:

  • การสุ่มตัวอย่างเป็นตัวแทนของการทำนายการอนุมาน
  • ข้อผิดพลาดคือตัวแปรสุ่มที่มีค่าเฉลี่ยเป็นศูนย์ ซึ่งเป็นเงื่อนไขของตัวแปรอธิบาย
  • ตัวแปรอิสระจะถูกวัดโดยไม่มีข้อผิดพลาด
  • ในฐานะตัวแปรอิสระ (ตัวทำนาย) พวกมันเป็นอิสระเชิงเส้น กล่าวคือ มันเป็นไปไม่ได้ที่จะแสดงตัวทำนายใด ๆ เป็นชุดค่าผสมเชิงเส้นของตัวแปรอื่น
  • ข้อผิดพลาดไม่มีความสัมพันธ์กัน กล่าวคือ เมทริกซ์ความแปรปรวนร่วมข้อผิดพลาดของเส้นทแยงมุมและองค์ประกอบที่ไม่ใช่ศูนย์แต่ละองค์ประกอบคือความแปรปรวนของข้อผิดพลาด
  • ความแปรปรวนของข้อผิดพลาดจะคงที่ตลอดการสังเกต (homoscedasticity) ถ้าไม่เช่นนั้น สามารถใช้ช่องสี่เหลี่ยมที่ถ่วงน้ำหนักน้อยที่สุดหรือวิธีอื่นๆ ได้

เงื่อนไขที่เพียงพอเหล่านี้สำหรับการประมาณค่ากำลังสองน้อยที่สุดมีคุณสมบัติที่จำเป็น โดยเฉพาะอย่างยิ่ง สมมติฐานเหล่านี้หมายความว่าการประมาณค่าพารามิเตอร์จะเป็นไปตามวัตถุประสงค์ สอดคล้องกัน และมีประสิทธิภาพ โดยเฉพาะอย่างยิ่งเมื่อนำมาพิจารณาในกลุ่มของการประมาณการเชิงเส้น สิ่งสำคัญคือต้องสังเกตว่าข้อมูลจริงไม่ค่อยเป็นไปตามเงื่อนไข กล่าวคือใช้วิธีนี้แม้ว่าสมมติฐานจะไม่ถูกต้องก็ตาม การเปลี่ยนแปลงจากสมมติฐานในบางครั้งสามารถใช้เป็นตัวชี้วัดว่าแบบจำลองมีประโยชน์อย่างไร หลายข้อสันนิษฐานเหล่านี้สามารถผ่อนคลายได้ด้วยวิธีการขั้นสูง รายงานการวิเคราะห์ทางสถิติมักจะรวมการวิเคราะห์การทดสอบกับข้อมูลตัวอย่างและวิธีการเพื่อประโยชน์ของแบบจำลอง

นอกจากนี้ ตัวแปรในบางกรณียังอ้างถึงค่าที่วัดที่ตำแหน่งจุด อาจมีแนวโน้มเชิงพื้นที่และความสัมพันธ์เชิงพื้นที่ในตัวแปรที่ละเมิดสมมติฐานทางสถิติ การถดถอยแบบถ่วงน้ำหนักทางภูมิศาสตร์เป็นวิธีเดียวที่เกี่ยวข้องกับข้อมูลดังกล่าว

ในการถดถอยเชิงเส้น คุณลักษณะคือตัวแปรตาม ซึ่งคือ Y ผม เป็นชุดค่าผสมเชิงเส้นของพารามิเตอร์ ตัวอย่างเช่น ในการถดถอยเชิงเส้นอย่างง่าย การสร้างแบบจำลองจุด n ใช้ตัวแปรอิสระหนึ่งตัว x i และพารามิเตอร์สองตัวคือ β 0 และ β 1

ในการถดถอยเชิงเส้นพหุคูณ มีตัวแปรอิสระหรือฟังก์ชันหลายตัว

เมื่อสุ่มสุ่มตัวอย่างจากประชากร พารามิเตอร์จะทำให้ได้ตัวอย่างของแบบจำลองการถดถอยเชิงเส้น

ในแง่นี้ วิธีกำลังสองน้อยที่สุดเป็นวิธีที่ได้รับความนิยมมากที่สุด มันให้ค่าประมาณพารามิเตอร์ที่ลดผลรวมของกำลังสองของเศษเหลือ การย่อเล็กสุดประเภทนี้ (ซึ่งเป็นเรื่องปกติของการถดถอยเชิงเส้น) ของฟังก์ชันนี้นำไปสู่ชุดของสมการปกติและชุดของสมการเชิงเส้นพร้อมพารามิเตอร์ ซึ่งได้รับการแก้ไขเพื่อให้ได้ค่าประมาณพารามิเตอร์

สมมติว่าข้อผิดพลาดของประชากรโดยทั่วไปแพร่กระจายออกไป ผู้วิจัยสามารถใช้ค่าประมาณของข้อผิดพลาดมาตรฐานเพื่อสร้างช่วงความเชื่อมั่นและดำเนินการทดสอบสมมติฐานเกี่ยวกับพารามิเตอร์

การวิเคราะห์การถดถอยไม่เชิงเส้น

ตัวอย่างที่ฟังก์ชันไม่เป็นเส้นตรงเมื่อเทียบกับพารามิเตอร์ระบุว่าผลรวมของกำลังสองควรถูกย่อให้เล็กสุดด้วยกระบวนการวนซ้ำ สิ่งนี้ทำให้เกิดความยุ่งยากหลายอย่างที่กำหนดความแตกต่างระหว่างวิธีการกำลังสองน้อยที่สุดเชิงเส้นและไม่เชิงเส้น ดังนั้น ผลลัพธ์ของการวิเคราะห์การถดถอยเมื่อใช้วิธีที่ไม่เป็นเชิงเส้นในบางครั้งจึงคาดเดาไม่ได้

การคำนวณกำลังและขนาดตัวอย่าง

ตามกฎแล้วไม่มีวิธีการที่สอดคล้องกันเกี่ยวกับจำนวนการสังเกตเมื่อเทียบกับจำนวนตัวแปรอิสระในแบบจำลอง กฎข้อแรกถูกเสนอโดย Dobra และ Hardin และดูเหมือน N = t^n โดยที่ N คือขนาดตัวอย่าง n คือจำนวนตัวแปรอธิบาย และ t คือจำนวนการสังเกตที่จำเป็นเพื่อให้ได้ความแม่นยำตามที่ต้องการ หากแบบจำลองมี ตัวแปรอธิบายเพียงตัวเดียว ตัวอย่างเช่น นักวิจัยสร้างแบบจำลองการถดถอยเชิงเส้นโดยใช้ชุดข้อมูลที่มีผู้ป่วย 1,000 ราย (N) หากผู้วิจัยตัดสินใจว่าจำเป็นต้องมีการสังเกตห้าครั้งเพื่อกำหนดเส้นตรง (m) อย่างถูกต้อง จำนวนตัวแปรอธิบายสูงสุดที่แบบจำลองสามารถรองรับได้คือ 4

วิธีอื่นๆ

แม้ว่าพารามิเตอร์ของตัวแบบการถดถอยมักจะถูกประเมินโดยใช้วิธีกำลังสองน้อยที่สุด แต่ก็มีวิธีการอื่นที่ใช้ไม่บ่อยนัก ตัวอย่างเช่น มีวิธีการดังต่อไปนี้:

  • วิธีเบย์เซียน (เช่น วิธีเบเซียนของการถดถอยเชิงเส้น)
  • เปอร์เซ็นต์การถดถอยที่ใช้สำหรับสถานการณ์ที่การลดข้อผิดพลาดเป็นเปอร์เซ็นต์ถือว่าเหมาะสมกว่า
  • การเบี่ยงเบนสัมบูรณ์ที่เล็กที่สุด ซึ่งมีประสิทธิภาพมากกว่าเมื่อมีค่าผิดปกติที่นำไปสู่การถดถอยควอนไทล์
  • การถดถอยแบบไม่อิงพารามิเตอร์ที่ต้องการการสังเกตและการคำนวณจำนวนมาก
  • ระยะทางของตัววัดการเรียนรู้ที่เรียนรู้ในการค้นหาตัววัดระยะทางที่มีความหมายในพื้นที่ป้อนข้อมูลที่กำหนด

ซอฟต์แวร์

แพ็คเกจซอฟต์แวร์ทางสถิติที่สำคัญทั้งหมดดำเนินการโดยใช้การวิเคราะห์การถดถอยกำลังสองน้อยที่สุด สามารถใช้การถดถอยเชิงเส้นอย่างง่ายและการวิเคราะห์การถดถอยพหุคูณในแอปพลิเคชันสเปรดชีตบางโปรแกรมเช่นเดียวกับเครื่องคิดเลขบางตัว แม้ว่าชุดซอฟต์แวร์ทางสถิติจำนวนมากสามารถดำเนินการถดถอยแบบไม่อิงพารามิเตอร์ได้หลายประเภท แต่วิธีการเหล่านี้มีมาตรฐานน้อยกว่า แพ็คเกจซอฟต์แวร์ต่าง ๆ ใช้วิธีการที่แตกต่างกัน ซอฟต์แวร์การถดถอยแบบพิเศษได้รับการพัฒนาเพื่อใช้ในด้านต่างๆ เช่น การวิเคราะห์แบบสำรวจและการสร้างภาพประสาท