วิธีกำลังสองน้อยที่สุดสำหรับตัวอย่างวิธีแก้ปัญหา วิธีกำลังสองน้อยที่สุด

การเขียนโปรแกรม

บทช่วยสอน

การแนะนำ

ฉันเป็นนักคณิตศาสตร์และโปรแกรมเมอร์ ก้าวกระโดดครั้งใหญ่ที่สุดในอาชีพการงานของฉันคือตอนที่ฉันเรียนรู้ที่จะพูดว่า: “ฉันไม่เข้าใจอะไรเลย!”ตอนนี้ฉันไม่ละอายที่จะบอกผู้ทรงคุณวุฒิด้านวิทยาศาสตร์ว่าเขากำลังบรรยายให้ฉันฟัง ฉันไม่เข้าใจว่าเขาซึ่งเป็นผู้ทรงคุณวุฒิกำลังบอกอะไรฉัน และมันยากมาก ใช่แล้ว การยอมรับความไม่รู้ของคุณเป็นเรื่องยากและน่าอาย ใครชอบยอมรับว่าเขาไม่รู้พื้นฐานของบางสิ่งบางอย่าง? เนื่องจากอาชีพของฉันฉันต้องเข้าร่วม ปริมาณมากการนำเสนอและการบรรยาย ซึ่งฉันยอมรับว่าในกรณีส่วนใหญ่ฉันต้องการนอนเพราะฉันไม่เข้าใจอะไรเลย แต่ฉันไม่เข้าใจเพราะปัญหาใหญ่ของสถานการณ์ทางวิทยาศาสตร์ในปัจจุบันอยู่ที่คณิตศาสตร์ ถือว่าผู้ฟังทุกคนคุ้นเคยกับคณิตศาสตร์ทุกด้านอย่างแน่นอน (ซึ่งไร้สาระ) การยอมรับว่าคุณไม่รู้ว่าอนุพันธ์คืออะไร (เราจะพูดถึงมันในภายหลัง) เป็นเรื่องน่าละอาย

แต่ฉันเรียนรู้ที่จะบอกว่า ฉันไม่รู้ว่าการคูณคืออะไร ใช่ ฉันไม่รู้ว่าพีชคณิตย่อยสำหรับพีชคณิตโกหกคืออะไร ใช่ ฉันไม่รู้ว่าทำไมถึงจำเป็นในชีวิต สมการกำลังสอง- ยังไงก็ตามถ้าคุณแน่ใจว่าคุณรู้เรามีเรื่องต้องคุยกัน! คณิตศาสตร์เป็นชุดของเทคนิค นักคณิตศาสตร์พยายามสร้างความสับสนและข่มขู่สาธารณชน ที่ใดไม่สับสน ไม่มีชื่อเสียง ไม่มีอำนาจ ใช่ เป็นเรื่องน่ายกย่องที่จะพูดโดยใช้ภาษาที่เป็นนามธรรมมากที่สุดเท่าที่จะเป็นไปได้ ซึ่งถือเป็นเรื่องไร้สาระโดยสิ้นเชิง

คุณรู้หรือไม่ว่าอนุพันธ์คืออะไร? เป็นไปได้มากว่าคุณจะบอกฉันเกี่ยวกับขีดจำกัดของอัตราส่วนส่วนต่าง ในปีแรกของวิชาคณิตศาสตร์และกลศาสตร์ที่มหาวิทยาลัยแห่งรัฐเซนต์ปีเตอร์สเบิร์ก Viktor Petrovich Khavin บอกฉัน มุ่งมั่นอนุพันธ์เป็นค่าสัมประสิทธิ์ของเทอมแรกของอนุกรมเทย์เลอร์ของฟังก์ชัน ณ จุดหนึ่ง (นี่เป็นยิมนาสติกแยกต่างหากเพื่อกำหนดอนุกรมเทย์เลอร์ที่ไม่มีอนุพันธ์) ฉันหัวเราะกับคำจำกัดความนี้มานานจนในที่สุดฉันก็เข้าใจความหมายของมัน อนุพันธ์นั้นไม่มีอะไรมากไปกว่าการวัดง่ายๆ ว่าฟังก์ชันที่เราหาอนุพันธ์มีความคล้ายคลึงกับฟังก์ชัน y=x, y=x^2, y=x^3 แค่ไหน

ตอนนี้ผมได้รับเกียรติบรรยายให้กับนักศึกษาที่ เกรงกลัวคณิตศาสตร์. ถ้ากลัวคณิตเราก็ไปในทางเดียวกัน ทันทีที่คุณพยายามอ่านข้อความและดูเหมือนว่ามันซับซ้อนเกินไป จงรู้ว่ามันเขียนได้ไม่ดี ฉันยืนยันว่าไม่มีคณิตศาสตร์เพียงด้านเดียวที่ไม่สามารถพูดคุยแบบ "บนนิ้ว" ได้โดยไม่สูญเสียความแม่นยำ

งานมอบหมายสำหรับอนาคตอันใกล้นี้: ฉันมอบหมายให้นักเรียนเข้าใจว่าตัวควบคุมกำลังสองเชิงเส้นคืออะไร อย่าอาย ใช้เวลาสามนาทีในชีวิตของคุณแล้วไปตามลิงก์ หากคุณไม่เข้าใจอะไรเลยเราก็อยู่บนเส้นทางเดียวกัน ฉัน (นักคณิตศาสตร์-โปรแกรมเมอร์มืออาชีพ) ไม่เข้าใจอะไรเลยเช่นกัน และฉันรับรองกับคุณว่า คุณจะเข้าใจสิ่งนี้ได้ "ด้วยนิ้วของคุณ" ในขณะนี้ฉันไม่รู้ว่ามันคืออะไร แต่ฉันรับรองกับคุณว่าเราจะสามารถคิดออกได้

ดังนั้น การบรรยายครั้งแรกที่ฉันจะบรรยายให้กับนักเรียนของฉัน หลังจากที่พวกเขาวิ่งมาหาฉันด้วยความสยดสยองและบอกว่าตัวควบคุมกำลังสองเชิงเส้นเป็นสิ่งที่แย่ที่คุณจะไม่มีวันเชี่ยวชาญในชีวิตของคุณคือ วิธีการ กำลังสองน้อยที่สุด - คุณสามารถตัดสินใจ สมการเชิงเส้น- หากคุณกำลังอ่านข้อความนี้ มีแนวโน้มว่าจะไม่เป็นเช่นนั้น

ดังนั้น เมื่อพิจารณาจุดสองจุด (x0, y0), (x1, y1) เช่น (1,1) และ (3,2) ภารกิจคือการหาสมการของเส้นตรงที่ผ่านจุดสองจุดนี้:

ภาพประกอบ

บรรทัดนี้ควรมีสมการดังต่อไปนี้:

ที่นี่เราไม่รู้จักอัลฟ่าและเบต้า แต่ทราบสองประเด็นของบรรทัดนี้:

เราสามารถเขียนสมการนี้ในรูปแบบเมทริกซ์:

สิ่งที่ควรทำที่นี่ การพูดนอกเรื่อง: เมทริกซ์คืออะไร? เมทริกซ์ไม่มีอะไรมากไปกว่าอาร์เรย์สองมิติ นี่เป็นวิธีการจัดเก็บข้อมูล ไม่ควรแนบความหมายเพิ่มเติมเข้าไปด้วย ขึ้นอยู่กับเราว่าจะตีความเมทริกซ์บางตัวอย่างไร ผมจะตีความเป็นระยะๆ ว่าเป็นการแมปเชิงเส้น เป็นระยะๆ เป็น รูปแบบกำลังสองและบางครั้งก็เป็นเซตของเวกเตอร์ ทั้งหมดนี้จะมีการชี้แจงในบริบท

ลองแทนที่เมทริกซ์คอนกรีตด้วยการแสดงเชิงสัญลักษณ์:

จากนั้น (อัลฟ่า, เบต้า) สามารถพบได้ง่าย:

โดยเฉพาะอย่างยิ่งสำหรับข้อมูลก่อนหน้าของเรา:

ซึ่งนำไปสู่สมการของเส้นที่ผ่านจุด (1,1) และ (3,2) ต่อไปนี้:

โอเคทุกอย่างชัดเจนที่นี่ ลองหาสมการของเส้นที่ผ่าน สามคะแนน: (x0,y0), (x1,y1) และ (x2,y2):

โอ้ โอ้ แต่เรามีสมการสามสมการสำหรับสิ่งไม่รู้สองตัว! นักคณิตศาสตร์มาตรฐานจะบอกว่าไม่มีวิธีแก้ปัญหา โปรแกรมเมอร์จะพูดอะไร? และเขาจะเขียนระบบสมการก่อนหน้านี้ใหม่ในรูปแบบต่อไปนี้:

ในกรณีของเรา เวกเตอร์ i,j,bสามมิติ ดังนั้น (ใน กรณีทั่วไป) ไม่มีวิธีแก้ไขสำหรับระบบนี้ เวกเตอร์ใดๆ (alpha\*i + beta\*j) อยู่ในระนาบที่ทอดโดยเวกเตอร์ (i, j) ถ้า b ไม่ได้อยู่ในระนาบนี้ แสดงว่าไม่มีทางแก้ (สมการไม่สามารถบรรลุความเท่าเทียมกันได้) จะทำอย่างไร? ลองมองหาการประนีประนอม เรามาแสดงแทนด้วย อี(อัลฟา, เบต้า)เราไม่สามารถบรรลุถึงความเท่าเทียมกันได้ไกลแค่ไหน:

และเราจะพยายามลดข้อผิดพลาดนี้ให้เหลือน้อยที่สุด:

ทำไมต้องเหลี่ยม?

เราไม่ได้มองหาแค่ค่าขั้นต่ำของบรรทัดฐานเท่านั้น แต่ยังมองหาค่าขั้นต่ำของค่ากำลังสองของค่ามาตรฐานอีกด้วย ทำไม จุดต่ำสุดนั้นเกิดขึ้นพร้อมกัน และสี่เหลี่ยมจะให้ ฟังก์ชั่นที่ราบรื่น(ฟังก์ชันกำลังสองของอาร์กิวเมนต์ (อัลฟา, บีตา)) ในขณะที่ความยาวเพียงอย่างเดียวให้ฟังก์ชันในรูปกรวย ซึ่งไม่สามารถหาอนุพันธ์ได้ที่จุดต่ำสุด บร. สี่เหลี่ยมจะสะดวกกว่า

แน่นอนว่าข้อผิดพลาดจะลดลงเมื่อเวกเตอร์ จตั้งฉากกับระนาบที่ทอดโดยเวกเตอร์ ฉันและ เจ.

ภาพประกอบ

กล่าวอีกนัยหนึ่ง: เรากำลังมองหาเส้นตรงที่ทำให้ผลรวมของความยาวกำลังสองของระยะทางจากจุดทั้งหมดถึงเส้นตรงนี้มีค่าน้อยที่สุด:

อัปเดต: ฉันมีปัญหาที่นี่ ควรวัดระยะห่างถึงเส้นตรงในแนวตั้ง ไม่ใช่โดยการฉายภาพแบบตั้งฉาก นักวิจารณ์พูดถูก

ภาพประกอบ

ในคำที่แตกต่างกันโดยสิ้นเชิง (อย่างระมัดระวัง มีรูปแบบที่ไม่ดี แต่ควรชัดเจน): เราจะนำเส้นที่เป็นไปได้ทั้งหมดระหว่างจุดทุกคู่และมองหาเส้นค่าเฉลี่ยระหว่างทั้งหมด:

ภาพประกอบ

คำอธิบายอีกประการหนึ่งตรงไปตรงมา: เราแนบสปริงระหว่างจุดข้อมูลทั้งหมด (ในที่นี้เรามีสามจุด) กับเส้นตรงที่เรากำลังมองหา และเส้นตรงของสถานะสมดุลคือสิ่งที่เรากำลังมองหา

รูปแบบกำลังสองขั้นต่ำ

ดังนั้นการมี เวกเตอร์ที่กำหนด ขและระนาบที่สแปนโดยเวกเตอร์คอลัมน์ของเมทริกซ์ ก(วี ในกรณีนี้(x0,x1,x2) และ (1,1,1)) เรากำลังมองหาเวกเตอร์ จด้วยความยาวกำลังสองขั้นต่ำ แน่นอนว่าค่าต่ำสุดสามารถทำได้สำหรับเวกเตอร์เท่านั้น จตั้งฉากกับระนาบที่สแปนโดยเวกเตอร์คอลัมน์ของเมทริกซ์ ก:

กล่าวอีกนัยหนึ่ง เรากำลังมองหาเวกเตอร์ x=(alpha, beta) ดังนี้:

ผมขอเตือนคุณว่าเวกเตอร์นี้ x=(อัลฟา, เบต้า) เป็นค่าต่ำสุด ฟังก์ชันกำลังสอง||e(อัลฟา เบต้า)||^2:

ในที่นี้จะเป็นประโยชน์ที่จะจำไว้ว่าเมทริกซ์สามารถตีความได้ว่าเป็นรูปแบบกำลังสองได้เช่นกัน ตัวอย่างเช่น เมทริกซ์เอกลักษณ์((1,0),(0,1)) สามารถตีความได้ว่าเป็นฟังก์ชันของ x^2 + y^2:

รูปแบบกำลังสอง

ยิมนาสติกทั้งหมดนี้เรียกว่าการถดถอยเชิงเส้น

สมการลาปลาซกับเงื่อนไขขอบเขตดิริชเลต์

ตอนนี้ง่ายที่สุด ความท้าทายที่แท้จริง: มีพื้นผิวรูปสามเหลี่ยมอยู่บ้างจึงจำเป็นต้องทำให้เรียบ ตัวอย่างเช่น ลองโหลดแบบจำลองใบหน้าของฉัน:

คอมมิตดั้งเดิมพร้อมใช้งาน เพื่อลดการพึ่งพาภายนอก ฉันจึงนำโค้ดของตัวเรนเดอร์ซอฟต์แวร์ของฉันไปไว้ใน Habré แล้ว เพื่อแก้ปัญหา ระบบเชิงเส้นฉันใช้ OpenNL มันเป็นตัวแก้ปัญหาที่ยอดเยี่ยม แต่ติดตั้งได้ยากมาก: คุณต้องคัดลอกสองไฟล์ (.h+.c) ไปยังโฟลเดอร์ที่มีโปรเจ็กต์ของคุณ การปรับให้เรียบทั้งหมดทำได้ด้วยรหัสต่อไปนี้:

สำหรับ (int d=0; d<3; d++) { nlNewContext(); nlSolverParameteri(NL_NB_VARIABLES, verts.size()); nlSolverParameteri(NL_LEAST_SQUARES, NL_TRUE); nlBegin(NL_SYSTEM); nlBegin(NL_MATRIX); for (int i=0; i<(int)verts.size(); i++) { nlBegin(NL_ROW); nlCoefficient(i, 1); nlRightHandSide(verts[i][d]); nlEnd(NL_ROW); } for (unsigned int i=0; i&ใบหน้า = ใบหน้า[i];<3; j++) { nlBegin(NL_ROW); nlCoefficient(face[ j ], 1); nlCoefficient(face[(j+1)%3], -1); nlEnd(NL_ROW); } } nlEnd(NL_MATRIX); nlEnd(NL_SYSTEM); nlSolve(); for (int i=0; i<(int)verts.size(); i++) { verts[i][d] = nlGetVariable(i); } }

สำหรับ (int j=0; j

พิกัด X, Y และ Z แยกจากกันได้ ฉันปรับให้แยกกัน นั่นคือ ฉันแก้สมการเชิงเส้นสามระบบ โดยแต่ละระบบมีตัวแปรจำนวนหนึ่งเท่ากับจำนวนจุดยอดในแบบจำลองของฉัน n แถวแรกของเมทริกซ์ A มีเพียง 1 แถวต่อแถว และ n แถวแรกของเวกเตอร์ b มีพิกัดโมเดลดั้งเดิม นั่นคือฉันผูกสปริงระหว่างตำแหน่งใหม่ของจุดยอดกับตำแหน่งเก่าของจุดยอด - สปริงใหม่ไม่ควรเคลื่อนไปไกลจากจุดยอดเก่ามากเกินไป

แถวต่อมาทั้งหมดของเมทริกซ์ A (faces.size()*3 = จำนวนขอบของสามเหลี่ยมทั้งหมดในตาข่าย) มีการเกิด 1 ครั้งและเกิดขึ้น 1 ครั้งคือ -1 โดยเวกเตอร์ b มีองค์ประกอบเป็นศูนย์ตรงข้ามกัน ซึ่งหมายความว่าฉันวางสปริงไว้ที่ขอบแต่ละด้านของตาข่ายสามเหลี่ยมของเรา: ขอบทั้งหมดพยายามให้จุดยอดเดียวกันกับจุดเริ่มต้นและจุดสิ้นสุด

อีกครั้งหนึ่ง: จุดยอดทั้งหมดเป็นตัวแปร และไม่สามารถเคลื่อนไปไกลจากตำแหน่งเดิมได้ แต่ในขณะเดียวกัน จุดยอดก็พยายามที่จะคล้ายกัน

นี่คือผลลัพธ์:

ทุกอย่างจะเรียบร้อยดี ตัวแบบมีความเรียบเนียนมาก แต่มันขยับออกไปจากขอบเดิม มาเปลี่ยนรหัสกันหน่อย:<(int)verts.size(); i++) { float scale = border[i] ? 1000: 1; nlBegin(NL_ROW); nlCoefficient(i, scale); nlRightHandSide(scale*verts[i][d]); nlEnd(NL_ROW); }

สำหรับ (int i=0; i

ในเมทริกซ์ A ของเรา สำหรับจุดยอดที่อยู่บนขอบ ฉันไม่ได้เพิ่มแถวจากหมวดหมู่ v_i = verts[i][d] แต่เพิ่ม 1,000*v_i = 1,000*verts[i][d] สิ่งนี้สร้างความแตกต่างอะไร? และนี่เปลี่ยนรูปแบบข้อผิดพลาดกำลังสองของเรา ตอนนี้ค่าเบี่ยงเบนเดียวจากด้านบนที่ขอบจะไม่มีราคาหนึ่งหน่วยเหมือนเมื่อก่อน แต่ราคา 1,000*1,000 หน่วย นั่นคือเราแขวนสปริงที่แข็งแรงกว่าไว้ที่จุดยอดสุดขั้ว วิธีแก้ปัญหาจะชอบยืดสปริงที่เหลือให้แรงกว่า นี่คือผลลัพธ์:
เพิ่มความแรงของสปริงระหว่างจุดยอดเป็นสองเท่า:

nlค่าสัมประสิทธิ์(หน้า[ j ], 2);

nlค่าสัมประสิทธิ์(หน้า[(j+1)%3], -2);

เป็นเหตุผลที่พื้นผิวเรียบขึ้น:

และตอนนี้แข็งแกร่งขึ้นอีกร้อยเท่า:

จำชื่อเจ๋ง ๆ อีกอันหนึ่ง

สมมติว่าฉันมีภาพเช่นนี้:

ดูดีสำหรับทุกคน แต่ฉันไม่ชอบเก้าอี้

ฉันจะตัดภาพออกครึ่งหนึ่ง:

และฉันจะเลือกเก้าอี้ด้วยมือของฉัน:

จากนั้น ผมจะดึงทุกอย่างที่เป็นสีขาวในหน้ากากไปทางด้านซ้ายของภาพ และในขณะเดียวกัน ผมจะพูดทั่วทั้งภาพว่าความแตกต่างระหว่างสองพิกเซลที่อยู่ติดกันควรเท่ากับความแตกต่างระหว่างสองพิกเซลที่อยู่ติดกันบน ภาพขวา:

ทุกอย่างจะเรียบร้อยดี ตัวแบบมีความเรียบเนียนมาก แต่มันขยับออกไปจากขอบเดิม มาเปลี่ยนรหัสกันหน่อย:

รหัสและรูปภาพที่มีอยู่

สาระสำคัญของวิธีกำลังสองน้อยที่สุดคือ ในการค้นหาพารามิเตอร์ของแบบจำลองแนวโน้มที่อธิบายแนวโน้มการพัฒนาของปรากฏการณ์สุ่มใด ๆ ในเวลาหรืออวกาศได้ดีที่สุด (แนวโน้มคือเส้นที่แสดงลักษณะแนวโน้มของการพัฒนานี้) งานของวิธีกำลังสองน้อยที่สุด (LSM) อยู่ที่การค้นหาไม่เพียงแต่แบบจำลองเทรนด์บางแบบเท่านั้น แต่ยังเพื่อค้นหาแบบจำลองที่ดีที่สุดหรือเหมาะสมที่สุดอีกด้วย โมเดลนี้จะเหมาะสมที่สุดหากผลรวมของการเบี่ยงเบนกำลังสองระหว่างค่าจริงที่สังเกตได้และค่าแนวโน้มที่คำนวณที่สอดคล้องกันนั้นน้อยที่สุด (น้อยที่สุด):

โดยที่ค่าเบี่ยงเบนกำลังสองระหว่างค่าจริงที่สังเกตได้

และค่าแนวโน้มที่คำนวณได้ที่สอดคล้องกัน

ค่าจริง (สังเกตได้) ของปรากฏการณ์ที่กำลังศึกษา

ค่าที่คำนวณได้ของแบบจำลองแนวโน้ม

จำนวนการสังเกตปรากฏการณ์ที่กำลังศึกษา

MNC ใช้งานค่อนข้างน้อยในตัวเอง ตามกฎแล้วส่วนใหญ่มักใช้เป็นเทคนิคทางเทคนิคที่จำเป็นในการศึกษาความสัมพันธ์เท่านั้น ควรจำไว้ว่าพื้นฐานข้อมูลของ OLS สามารถเป็นชุดทางสถิติที่เชื่อถือได้เท่านั้น และจำนวนการสังเกตไม่ควรน้อยกว่า 4 มิฉะนั้นขั้นตอนการทำให้เรียบของ OLS อาจสูญเสียสามัญสำนึก

ชุดเครื่องมือ MNC ประกอบไปด้วยขั้นตอนต่อไปนี้:

ขั้นตอนแรก ปรากฎว่ามีแนวโน้มใดๆ เลยที่จะเปลี่ยนคุณลักษณะผลลัพธ์หรือไม่ เมื่อข้อโต้แย้งปัจจัยที่เลือกเปลี่ยนแปลง หรือกล่าวอีกนัยหนึ่ง มีความเชื่อมโยงระหว่าง “ ที่ " และ " เอ็กซ์ ».

ขั้นตอนที่สอง มีการกำหนดว่าเส้นใด (วิถี) สามารถอธิบายหรือแสดงลักษณะแนวโน้มนี้ได้ดีที่สุด

ขั้นตอนที่สาม

ตัวอย่าง- สมมติว่าเรามีข้อมูลเกี่ยวกับผลผลิตดอกทานตะวันโดยเฉลี่ยสำหรับฟาร์มที่กำลังศึกษาอยู่ (ตารางที่ 9.1)

ตารางที่ 9.1

เลขที่สังเกต

ผลผลิต c/ha

เนื่องจากระดับเทคโนโลยีในการผลิตดอกทานตะวันในประเทศของเรายังคงไม่เปลี่ยนแปลงในช่วง 10 ปีที่ผ่านมา เห็นได้ชัดว่าความผันผวนของผลผลิตในช่วงระยะเวลาที่วิเคราะห์ขึ้นอยู่กับความผันผวนของสภาพอากาศและสภาพภูมิอากาศเป็นอย่างมาก นี่เป็นเรื่องจริงเหรอ?

ขั้นตอน OLS แรก มีการทดสอบสมมติฐานเกี่ยวกับการมีอยู่ของแนวโน้มของผลผลิตดอกทานตะวันโดยขึ้นอยู่กับการเปลี่ยนแปลงของสภาพอากาศและสภาพภูมิอากาศในช่วง 10 ปีที่วิเคราะห์

ในตัวอย่างนี้ สำหรับ " ย " ขอแนะนำให้ใช้ผลผลิตดอกทานตะวันและสำหรับ " x » – จำนวนปีที่สังเกตในช่วงเวลาที่วิเคราะห์ ทดสอบสมมติฐานเกี่ยวกับการมีอยู่ของความสัมพันธ์ระหว่าง " x " และ " ย "สามารถทำได้ 2 วิธี คือ ด้วยตนเอง และการใช้โปรแกรมคอมพิวเตอร์ แน่นอนว่าด้วยความพร้อมใช้งานของเทคโนโลยีคอมพิวเตอร์ปัญหานี้จึงสามารถแก้ไขได้ด้วยตัวเอง แต่เพื่อให้เข้าใจเครื่องมือของ MNC ได้ดีขึ้น แนะนำให้ทดสอบสมมติฐานเกี่ยวกับการมีอยู่ของความเชื่อมโยงระหว่าง “ x " และ " ย » ด้วยตนเอง เมื่อมีเพียงปากกาและเครื่องคิดเลขธรรมดาเท่านั้นที่อยู่ในมือ ในกรณีเช่นนี้ สมมติฐานเกี่ยวกับการมีอยู่ของแนวโน้มจะได้รับการตรวจสอบด้วยสายตาได้ดีที่สุดโดยตำแหน่งของภาพกราฟิกของชุดไดนามิกที่วิเคราะห์ - ฟิลด์สหสัมพันธ์:

ช่องความสัมพันธ์ในตัวอย่างของเราอยู่รอบๆ เส้นที่เพิ่มขึ้นอย่างช้าๆ สิ่งนี้บ่งชี้ว่ามีแนวโน้มในการเปลี่ยนแปลงของผลผลิตดอกทานตะวัน เป็นไปไม่ได้ที่จะพูดถึงการมีแนวโน้มใดๆ เฉพาะเมื่อสนามความสัมพันธ์ดูเหมือนวงกลม วงกลม เมฆแนวตั้งหรือแนวนอนอย่างเคร่งครัด หรือประกอบด้วยจุดที่กระจัดกระจายอย่างวุ่นวาย ในกรณีอื่นๆ ทั้งหมด สมมติฐานเกี่ยวกับการดำรงอยู่ของความสัมพันธ์ระหว่าง “ x " และ " ย "และทำการวิจัยต่อไป

ขั้นตอน OLS ที่สอง มีการกำหนดว่าเส้นใด (วิถี) สามารถอธิบายหรือระบุลักษณะแนวโน้มการเปลี่ยนแปลงของผลผลิตดอกทานตะวันได้ดีที่สุดในช่วงเวลาที่วิเคราะห์

หากคุณมีเทคโนโลยีคอมพิวเตอร์ การเลือกแนวโน้มที่เหมาะสมที่สุดจะเกิดขึ้นโดยอัตโนมัติ ในระหว่างการประมวลผลแบบ "แมนนวล" ตามกฎแล้วการเลือกฟังก์ชั่นที่เหมาะสมที่สุดจะดำเนินการด้วยสายตา - ตามตำแหน่งของฟิลด์สหสัมพันธ์ นั่นคือ สมการของเส้นตรงที่เหมาะกับแนวโน้มเชิงประจักษ์ (วิถีโคจรจริง) จะถูกเลือกตามประเภทของกราฟ

ดังที่ทราบกันดีอยู่แล้วว่าโดยธรรมชาติแล้วมีการพึ่งพาการทำงานที่หลากหลายมากดังนั้นจึงเป็นเรื่องยากมากที่จะวิเคราะห์ด้วยสายตาแม้แต่ส่วนเล็ก ๆ ก็ตาม โชคดีที่ในทางปฏิบัติทางเศรษฐกิจ ความสัมพันธ์ส่วนใหญ่สามารถอธิบายได้ค่อนข้างแม่นยำโดยใช้พาราโบลา ไฮเปอร์โบลา หรือเส้นตรง ในเรื่องนี้ด้วยตัวเลือก "ด้วยตนเอง" ในการเลือกฟังก์ชันที่ดีที่สุด คุณสามารถจำกัดตัวเองไว้เพียงสามรุ่นนี้เท่านั้น

		ไฮเปอร์โบลา:

พาราโบลาลำดับที่สอง: :

สังเกตได้ง่ายว่าในตัวอย่างของเรา แนวโน้มการเปลี่ยนแปลงของผลผลิตดอกทานตะวันในช่วง 10 ปีที่วิเคราะห์นั้นมีลักษณะเฉพาะที่ดีที่สุดคือเส้นตรง ดังนั้นสมการการถดถอยจะเป็นสมการของเส้นตรง

ขั้นตอนที่สาม พารามิเตอร์ของสมการถดถอยที่แสดงลักษณะของเส้นนี้ได้รับการคำนวณ หรือกล่าวอีกนัยหนึ่งคือ สูตรการวิเคราะห์ถูกกำหนดเพื่ออธิบายแบบจำลองแนวโน้มที่ดีที่สุด

การค้นหาค่าของพารามิเตอร์ของสมการการถดถอยในกรณีของเรา พารามิเตอร์ และ , เป็นแกนหลักของ OLS กระบวนการนี้เกี่ยวข้องกับการแก้ระบบสมการปกติ

(9.2)

ระบบสมการนี้สามารถแก้ได้อย่างง่ายดายโดยใช้วิธีเกาส์ ขอให้เราจำไว้ว่าผลลัพธ์ของการแก้ปัญหาในตัวอย่างของเราคือค่าของพารามิเตอร์และถูกค้นพบ ดังนั้นสมการถดถอยที่พบจะมีรูปแบบดังนี้

สาระสำคัญของวิธีการนี้คือเกณฑ์สำหรับคุณภาพของโซลูชันที่พิจารณาคือผลรวมของข้อผิดพลาดกำลังสองซึ่งพวกเขาพยายามลดให้เหลือน้อยที่สุด ในการใช้สิ่งนี้ จำเป็นต้องดำเนินการวัดตัวแปรสุ่มที่ไม่รู้จักให้มากที่สุดเท่าที่จะเป็นไปได้ (ยิ่งมาก ความแม่นยำของโซลูชันก็จะยิ่งสูงขึ้น) และชุดโซลูชันโดยประมาณบางชุดที่ต้องเลือกโซลูชันที่ดีที่สุด ถ้าชุดของโซลูชันถูกกำหนดเป็นพารามิเตอร์ เราจำเป็นต้องค้นหาค่าที่เหมาะสมที่สุดของพารามิเตอร์

เหตุใดข้อผิดพลาดกำลังสองจึงถูกย่อให้เล็กสุดและไม่ใช่ข้อผิดพลาดเอง ความจริงก็คือ ในกรณีส่วนใหญ่ ข้อผิดพลาดเกิดขึ้นได้ทั้งสองทาง: การประมาณการอาจมากกว่าการวัดหรือน้อยกว่าก็ได้ หากเรารวมข้อผิดพลาดที่มีสัญญาณต่างกัน พวกเขาจะยกเลิกกัน และผลรวมจะทำให้เรามีแนวคิดที่ไม่ถูกต้องเกี่ยวกับคุณภาพของการประเมิน บ่อยครั้ง เพื่อให้การประมาณขั้นสุดท้ายมีมิติเดียวกันกับค่าที่วัดได้ จะต้องนำรากที่สองของผลรวมของข้อผิดพลาดกำลังสองมาใช้

รูปถ่าย:

LSM ใช้ในคณิตศาสตร์ โดยเฉพาะในทฤษฎีความน่าจะเป็นและสถิติทางคณิตศาสตร์ วิธีนี้ใช้กันอย่างแพร่หลายในการกรองปัญหาเมื่อจำเป็นต้องแยกสัญญาณที่เป็นประโยชน์ออกจากสัญญาณรบกวนที่ซ้อนทับอยู่

นอกจากนี้ยังใช้ในการวิเคราะห์ทางคณิตศาสตร์เพื่อประมาณการแสดงฟังก์ชันที่กำหนดด้วยฟังก์ชันที่ง่ายกว่า การประยุกต์ใช้กำลังสองน้อยที่สุดอีกประการหนึ่งคือการแก้ระบบสมการที่ไม่ทราบจำนวนน้อยกว่าจำนวนสมการ

ฉันพบการประยุกต์ใช้ MNC ในด้านที่ไม่คาดคิดอีกมากมาย ซึ่งฉันอยากจะพูดถึงในบทความนี้

OLS และการพิมพ์ผิด

ความหายนะของนักแปลอัตโนมัติและเครื่องมือค้นหาคือการพิมพ์ผิดและการสะกดผิด หากคำใดคำหนึ่งแตกต่างกันเพียง 1 ตัวอักษร โปรแกรมจะถือว่าคำนั้นเป็นอีกคำหนึ่งและแปล/ค้นหาคำนั้นไม่ถูกต้อง หรือไม่แปล/ไม่พบเลย

ฉันมีปัญหาที่คล้ายกัน: ฉันมีสองฐานข้อมูลพร้อมที่อยู่ของบ้านในมอสโก และฉันต้องรวมเข้าด้วยกันเป็นหนึ่งเดียว แต่ที่อยู่ถูกเขียนในรูปแบบที่แตกต่างกัน ฐานข้อมูลหนึ่งมีมาตรฐาน KLADR (ตัวแยกที่อยู่แบบรัสเซียทั้งหมด) เช่น: “BABUSHKINA LETCHIKA STREET, D10K3” และในอีกฐานข้อมูลหนึ่งก็มีรูปแบบไปรษณีย์เช่น: “เซนต์. นักบิน Babushkina อาคาร 10 อาคาร 3” ดูเหมือนจะไม่มีข้อผิดพลาดในทั้งสองกรณี แต่การทำให้กระบวนการเป็นอัตโนมัตินั้นยากอย่างไม่น่าเชื่อ (แต่ละฐานข้อมูลมี 40,000 บันทึก!) แม้ว่าจะมีการพิมพ์ผิดเยอะมาก... จะทำให้คอมพิวเตอร์เข้าใจว่าที่อยู่ 2 รายการข้างต้นเป็นของบ้านเดียวกันได้อย่างไร นี่คือจุดที่ MNC มีประโยชน์สำหรับฉัน

ฉันทำอะไรลงไป? เมื่อพบตัวอักษรตัวถัดไปในที่อยู่แรก ฉันจึงมองหาตัวอักษรตัวเดียวกันในที่อยู่ที่สอง หากทั้งคู่อยู่ที่เดียวกันฉันก็ตั้งค่าข้อผิดพลาดให้ตัวอักษรนั้นเป็น 0 หากอยู่ในตำแหน่งที่อยู่ติดกันข้อผิดพลาดจะเป็น 1 หากมีการเลื่อน 2 ตำแหน่งข้อผิดพลาดจะเป็น 2 เป็นต้น หากไม่มีตัวอักษรดังกล่าวเลยในที่อยู่อื่น ข้อผิดพลาดจะถือว่าเท่ากับ n+1 โดยที่ n คือจำนวนตัวอักษรในที่อยู่ที่ 1 ดังนั้นฉันจึงคำนวณผลรวมของข้อผิดพลาดกำลังสองและรวมบันทึกเหล่านั้นซึ่งมีผลรวมน้อยที่สุด

แน่นอนว่าหมายเลขบ้านและอาคารได้รับการประมวลผลแยกกัน ฉันไม่รู้ว่าฉันคิดค้น “จักรยาน” ขึ้นมาอีกหรือเปล่า หรือจริง ๆ แล้ว แต่ปัญหาก็คลี่คลายได้อย่างรวดเร็วและมีประสิทธิภาพ ฉันสงสัยว่าวิธีนี้ใช้ในเครื่องมือค้นหาหรือไม่? บางทีมันอาจจะใช้ได้เพราะทุกเสิร์ชเอ็นจิ้นที่เคารพตนเองเมื่อพบคำที่ไม่คุ้นเคยจะเสนอคำทดแทนจากคำที่คุ้นเคย ("บางทีคุณอาจหมายถึง ... ") อย่างไรก็ตาม พวกเขาอาจทำการวิเคราะห์นี้ด้วยวิธีอื่น

OLS และค้นหาด้วยรูปภาพ ใบหน้า และแผนที่

วิธีนี้ยังสามารถใช้เพื่อค้นหาด้วยรูปภาพ ภาพวาด แผนที่ และแม้กระทั่งใบหน้าของบุคคลอีกด้วย

รูปถ่าย:

ปัจจุบันเครื่องมือค้นหาทั้งหมด แทนที่จะค้นหาด้วยรูปภาพ กลับใช้การค้นหาตามคำอธิบายภาพเป็นหลัก นี่เป็นบริการที่มีประโยชน์และสะดวกสบายอย่างไม่ต้องสงสัย แต่ฉันเสนอให้เสริมด้วยการค้นหารูปภาพจริง

ป้อนรูปภาพตัวอย่างและรวบรวมคะแนนสำหรับรูปภาพทั้งหมดโดยพิจารณาจากผลรวมของการเบี่ยงเบนกำลังสองของจุดคุณลักษณะ การกำหนดประเด็นที่เป็นลักษณะเฉพาะส่วนใหญ่เหล่านี้ถือเป็นงานที่ไม่สำคัญ อย่างไรก็ตาม มันสามารถแก้ไขได้อย่างสมบูรณ์: ตัวอย่างเช่น สำหรับใบหน้า ได้แก่ มุมตา ริมฝีปาก ปลายจมูก จมูก ขอบและกึ่งกลางคิ้ว รูม่านตา ฯลฯ

เมื่อเปรียบเทียบพารามิเตอร์เหล่านี้ คุณจะพบใบหน้าที่คล้ายกับตัวอย่างมากที่สุด ฉันเคยเห็นไซต์ที่ให้บริการนี้แล้ว และคุณสามารถค้นหาคนดังที่คล้ายกับรูปภาพที่คุณแนะนำมากที่สุด และยังสร้างแอนิเมชั่นที่เปลี่ยนคุณให้กลายเป็นคนดังและกลับมาอีกครั้งอีกด้วย แน่นอนว่าวิธีการเดียวกันนี้ใช้ได้กับฐานข้อมูลของกระทรวงกิจการภายในที่มีภาพระบุตัวตนของอาชญากร

รูปถ่าย: pixabay.com

ได้ และคุณสามารถค้นหาโดยใช้ลายนิ้วมือได้ด้วยวิธีเดียวกัน การค้นหาบนแผนที่มุ่งเน้นไปที่ความผิดปกติตามธรรมชาติของวัตถุทางภูมิศาสตร์ เช่น ส่วนโค้งของแม่น้ำ เทือกเขา โครงร่างของตลิ่ง ป่าไม้ และทุ่งนา

นี่เป็นวิธีที่ยอดเยี่ยมและเป็นสากลในการใช้กำลังสองน้อยที่สุด ฉันแน่ใจว่าคุณผู้อ่านที่รักจะสามารถค้นพบการประยุกต์ใช้วิธีการนี้ที่ผิดปกติและไม่คาดคิดได้มากมายด้วยตัวคุณเอง

วิธีกำลังสองน้อยสามัญ (OLS)- วิธีทางคณิตศาสตร์ที่ใช้ในการแก้ปัญหาต่างๆ โดยอาศัยการลดผลรวมของการเบี่ยงเบนกำลังสองของฟังก์ชันบางอย่างจากตัวแปรที่ต้องการให้เหลือน้อยที่สุด สามารถใช้เพื่อ "แก้" ระบบสมการที่กำหนดเกินกำหนดได้ (เมื่อจำนวนสมการเกินจำนวนที่ไม่ทราบ) เพื่อค้นหาคำตอบในกรณีของระบบสมการไม่เชิงเส้นธรรมดา (ไม่ได้กำหนดเกินกำหนด) เพื่อประมาณค่าจุดของบางค่า การทำงาน. OLS เป็นหนึ่งในวิธีพื้นฐานของการวิเคราะห์การถดถอยสำหรับการประมาณค่าพารามิเตอร์ที่ไม่รู้จักของแบบจำลองการถดถอยจากข้อมูลตัวอย่าง

YouTube สารานุกรม

1 / 5

, วิธีกำลังสองน้อยที่สุด เรื่อง

út Mitin IV - การประมวลผลผลลัพธ์ทางกายภาพ การทดลอง - วิธีกำลังสองน้อยที่สุด (บรรยายที่ 4)

, วิธีกำลังสองน้อยที่สุด บทที่ 1/2 ฟังก์ชันเชิงเส้น

√ เศรษฐมิติ การบรรยายครั้งที่ 5. วิธีกำลังสองน้อยที่สุด

√ วิธีกำลังสองน้อยที่สุด คำตอบ

คำบรรยาย

เรื่องราว

จนกระทั่งต้นศตวรรษที่ 19 นักวิทยาศาสตร์ไม่มีกฎเกณฑ์ที่แน่นอนในการแก้ระบบสมการซึ่งจำนวนไม่ทราบค่าน้อยกว่าจำนวนสมการ ก่อนหน้านั้นมีการใช้เทคนิคส่วนตัวซึ่งขึ้นอยู่กับประเภทของสมการและความเฉลียวฉลาดของเครื่องคิดเลข ดังนั้นเครื่องคิดเลขที่แตกต่างกันซึ่งใช้ข้อมูลเชิงสังเกตเดียวกันจึงได้ข้อสรุปที่ต่างกัน Gauss (1795) เป็นคนแรกที่ใช้วิธีการนี้ และ Legendre (1805) ค้นพบและตีพิมพ์โดยอิสระภายใต้ชื่อสมัยใหม่ (ฝรั่งเศส. Méthode des moindres quarrés- ลาปลาซเชื่อมโยงวิธีการนี้เข้ากับทฤษฎีความน่าจะเป็น และนักคณิตศาสตร์ชาวอเมริกัน แอดเรน (1808) ได้พิจารณาการประยุกต์ใช้ทฤษฎีความน่าจะเป็นของมัน วิธีการนี้แพร่หลายและปรับปรุงโดยการวิจัยเพิ่มเติมโดย Encke, Bessel, Hansen และคนอื่นๆ

สาระสำคัญของวิธีกำลังสองน้อยที่สุด

อนุญาต x (\รูปแบบการแสดงผล x)- ชุด n (\displaystyle n)ตัวแปรที่ไม่รู้จัก (พารามิเตอร์) ฉ ฉัน (x) (\displaystyle f_(i)(x)), , m > n (\displaystyle m>n)- ชุดฟังก์ชันจากชุดตัวแปรนี้ ภารกิจคือการเลือกค่าดังกล่าว x (\รูปแบบการแสดงผล x)เพื่อให้ค่าของฟังก์ชันเหล่านี้ใกล้เคียงกับค่าที่กำหนดมากที่สุด ใช่ ฉัน (\displaystyle y_(i))- โดยพื้นฐานแล้ว เรากำลังพูดถึง "วิธีแก้ปัญหา" ของระบบสมการที่กำหนดไว้เกินกำหนด ฉ ฉัน (x) = y ฉัน (\displaystyle f_(i)(x)=y_(i)), i = 1 , … , m (\displaystyle i=1,\ldots ,m)ในความรู้สึกที่ระบุถึงความใกล้ชิดสูงสุดของส่วนซ้ายและขวาของระบบ สาระสำคัญของวิธีกำลังสองน้อยที่สุดคือการเลือกผลรวมของการเบี่ยงเบนกำลังสองของด้านซ้ายและด้านขวาเป็น "การวัดความใกล้เคียง" - ฉ ฉัน (x) − y ฉัน |(\displaystyle |f_(i)(x)-y_(i)|)

- ดังนั้น สาระสำคัญของ MNC จึงสามารถแสดงได้ดังนี้.

∑ i e i 2 = ∑ i (y i − f i (x)) 2 → min x (\displaystyle \sum _(i)e_(i)^(2)=\sum _(i)(y_(i)-f_( i)(x))^(2)\ลูกศรขวา \min _(x)) x (\รูปแบบการแสดงผล x)หากระบบสมการมีวิธีแก้ ผลรวมของกำลังสองขั้นต่ำจะเท่ากับศูนย์และสามารถหาคำตอบที่แน่นอนของระบบสมการได้ในเชิงวิเคราะห์หรือ ตัวอย่างเช่น โดยใช้วิธีการหาค่าเหมาะที่สุดเชิงตัวเลขต่างๆ ถ้าระบบถูกกำหนดไว้มากเกินไป กล่าวคือ จำนวนสมการอิสระมากกว่าจำนวนตัวแปรที่ต้องการ ระบบก็จะไม่มีคำตอบที่แน่นอน และวิธีการกำลังสองน้อยที่สุดช่วยให้เราสามารถหาเวกเตอร์ที่ "เหมาะสมที่สุด" ได้ ในแง่ของความใกล้ชิดสูงสุดของเวกเตอร์และ y (\displaystyle y) f (x) (\displaystyle f(x)) หรือความใกล้ชิดสูงสุดของเวกเตอร์ส่วนเบี่ยงเบนอี (\displaystyle อี)

เป็นศูนย์ (เข้าใจความใกล้ชิดในความหมายของระยะทางแบบยุคลิด)

โดยเฉพาะอย่างยิ่ง วิธีการกำลังสองน้อยที่สุดสามารถใช้เพื่อ "แก้" ระบบสมการเชิงเส้นได้

A x = b (\displaystyle Ax=b),

ที่ไหน เอ (\displaystyle A)เมทริกซ์ขนาดสี่เหลี่ยม m × n , m > n (\displaystyle m\times n,m>n)(เช่น จำนวนแถวของเมทริกซ์ A มากกว่าจำนวนตัวแปรที่ต้องการ)

ในกรณีทั่วไป ระบบสมการดังกล่าวไม่มีคำตอบ ดังนั้นระบบนี้สามารถ "แก้ไข" ได้เฉพาะในแง่ของการเลือกเวกเตอร์ดังกล่าวเท่านั้น x (\รูปแบบการแสดงผล x)เพื่อลด "ระยะห่าง" ระหว่างเวกเตอร์ A x (\displaystyle ขวาน)และ ข (\displaystyle b)- ในการทำเช่นนี้ คุณสามารถใช้เกณฑ์ในการลดผลรวมของกำลังสองของความแตกต่างระหว่างด้านซ้ายและด้านขวาของสมการของระบบได้ นั่นคือ (A x − b) T (A x − b) → min (\displaystyle (Ax-b)^(T)(Ax-b)\rightarrow \min )- เป็นเรื่องง่ายที่จะแสดงให้เห็นว่าการแก้ปัญหาการย่อเล็กสุดนี้นำไปสู่การแก้ระบบสมการต่อไปนี้

A T A x = A T b ⇒ x = (A T A) − 1 A T b (\displaystyle A^(T)Ax=A^(T)b\ลูกศรขวา x=(A^(T)A)^(-1)A^ (ท)ข).

OLS ในการวิเคราะห์การถดถอย (การประมาณข้อมูล)

ให้มีอยู่ n (\displaystyle n)ค่าของตัวแปรบางตัว ในแง่ของความใกล้ชิดสูงสุดของเวกเตอร์(อาจเป็นผลลัพธ์ของการสังเกต การทดลอง ฯลฯ) และตัวแปรที่เกี่ยวข้อง x (\รูปแบบการแสดงผล x)- ความท้าทายคือเพื่อให้แน่ใจว่าความสัมพันธ์ระหว่าง ในแง่ของความใกล้ชิดสูงสุดของเวกเตอร์และ x (\รูปแบบการแสดงผล x)ประมาณด้วยฟังก์ชันบางอย่างที่ทราบภายในพารามิเตอร์ที่ไม่รู้จักบางตัว ข (\displaystyle b)นั่นคือค้นหาค่าที่ดีที่สุดของพารามิเตอร์จริงๆ ข (\displaystyle b), การประมาณค่าให้ใกล้เคียงที่สุด f (x , b) (\displaystyle f(x,b))ถึงค่าที่แท้จริง ในแง่ของความใกล้ชิดสูงสุดของเวกเตอร์- อันที่จริง สิ่งนี้เกิดขึ้นได้ในกรณีของการ "แก้" ระบบสมการที่มีการกำหนดไว้เกินจริง ข (\displaystyle b):

F (x t , b) = y t , t = 1 , … , n (\displaystyle f(x_(t),b)=y_(t),t=1,\ldots ,n).

ในการวิเคราะห์การถดถอยและโดยเฉพาะอย่างยิ่งในเศรษฐมิติ จะใช้แบบจำลองความน่าจะเป็นของการพึ่งพาระหว่างตัวแปรต่างๆ

Y t = f (x t , b) + ε t (\displaystyle y_(t)=f(x_(t),b)+\varepsilon _(t)),

ที่ไหน ε t (\displaystyle \varepsilon _(t))- สิ่งที่เรียกว่า ข้อผิดพลาดแบบสุ่มโมเดล

ดังนั้นการเบี่ยงเบนของค่าที่สังเกตได้ ในแง่ของความใกล้ชิดสูงสุดของเวกเตอร์จากรุ่น f (x , b) (\displaystyle f(x,b))ถือว่าอยู่ในโมเดลแล้ว สาระสำคัญของวิธีกำลังสองน้อยที่สุด (ธรรมดา, คลาสสิก) คือการค้นหาพารามิเตอร์ดังกล่าว ข (\displaystyle b)ซึ่งผลรวมของการเบี่ยงเบนกำลังสอง (ข้อผิดพลาด สำหรับแบบจำลองการถดถอย มักเรียกว่าค่าคงเหลือของการถดถอย) e t (\displaystyle e_(t))จะน้อยที่สุด:

b ^ O L S = หาเรื่อง ⁡ นาที b R S S (b) (\displaystyle (\hat (b))_(OLS)=\arg \min _(b)RSS(b)),

ที่ไหน RSS (\displaystyle RSS)- ภาษาอังกฤษ ผลรวมที่เหลือของกำลังสองถูกกำหนดเป็น:

R S S (b) = e T e = ∑ t = 1 n e t 2 = ∑ t = 1 n (y t − f (x t , b)) 2 (\displaystyle RSS(b)=e^(T)e=\sum _ (t=1)^(n)e_(t)^(2)=\sum _(t=1)^(n)(y_(t)-f(x_(t),b))^(2) ).

ในกรณีทั่วไป ปัญหานี้สามารถแก้ไขได้โดยวิธีการปรับให้เหมาะสมเชิงตัวเลข (การย่อขนาด) ในกรณีนี้พวกเขาพูดถึง กำลังสองน้อยที่สุดแบบไม่เชิงเส้น(NLS หรือ NLLS - กำลังสองน้อยที่สุดในภาษาอังกฤษ) ในหลายกรณี เป็นไปได้ที่จะได้รับโซลูชันเชิงวิเคราะห์ ในการแก้ปัญหาการย่อให้เล็กสุด จำเป็นต้องค้นหาจุดคงที่ของฟังก์ชัน RSS (b) (\displaystyle RSS(b))โดยแยกความแตกต่างตามพารามิเตอร์ที่ไม่รู้จัก ข (\displaystyle b)เท่ากับอนุพันธ์ให้เป็นศูนย์และแก้ระบบสมการผลลัพธ์:

∑ t = 1 n (y t − f (x t , b)) ∂ f (x t , b) ∂ b = 0 (\displaystyle \sum _(t=1)^(n)(y_(t)-f(x_ (t),b))(\frac (\บางส่วน f(x_(t),b))(\บางส่วน b))=0).

OLS ในกรณีของการถดถอยเชิงเส้น

ปล่อยให้การพึ่งพาการถดถอยเป็นเส้นตรง:

y t = ∑ j = 1 k b j x t j + ε = x t T b + ε t (\displaystyle y_(t)=\sum _(j=1)^(k)b_(j)x_(tj)+\varepsilon =x_( t)^(T)b+\วาเรปซิลอน _(t)).

อนุญาต ยคือเวกเตอร์คอลัมน์ของการสังเกตตัวแปรที่กำลังอธิบาย และ X (\รูปแบบการแสดงผล X)- นี้ (n × k) (\displaystyle ((n\times k)))-เมทริกซ์ของการสังเกตปัจจัย (แถวของเมทริกซ์เป็นเวกเตอร์ของค่าปัจจัยในการสังเกตที่กำหนด คอลัมน์เป็นเวกเตอร์ของค่าของปัจจัยที่กำหนดในการสังเกตทั้งหมด) การแสดงเมทริกซ์ของโมเดลเชิงเส้นมีรูปแบบ:

y = X b + ε (\displaystyle y=Xb+\varepsilon ).

จากนั้นเวกเตอร์ของการประมาณค่าของตัวแปรที่อธิบายและเวกเตอร์ของเศษการถดถอยจะเท่ากัน

y ^ = X b , e = y − y ^ = y − X b (\displaystyle (\hat (y))=Xb,\quad e=y-(\hat (y))=y-Xb).

ดังนั้น ผลรวมของกำลังสองของเศษที่เหลือจากการถดถอยจะเท่ากับ

R S S = e T e = (y − X b) T (y − X b) (\displaystyle RSS=e^(T)e=(y-Xb)^(T)(y-Xb)).

การสร้างความแตกต่างให้กับฟังก์ชันนี้ด้วยความเคารพต่อเวกเตอร์ของพารามิเตอร์ ข (\displaystyle b)และการทำให้อนุพันธ์เท่ากับศูนย์ เราจะได้ระบบสมการ (ในรูปแบบเมทริกซ์):

(X T X) b = X T y (\รูปแบบการแสดงผล (X^(T)X)b=X^(T)y).

ในรูปแบบเมทริกซ์ถอดรหัส ระบบสมการนี้มีลักษณะดังนี้:

(∑ x t 1 2 ∑ x t 1 x t 2 ∑ x t 1 x t 3 … ∑ x t 1 x t k ∑ x t 2 x t 1 ∑ x t 2 2 2 ∑ x t 2 x t 3 … ∑ x t 2 x t k ∑ x t 3 x t 1 ∑ x เสื้อ 3 x เสื้อ 2 ∑ x t 3 2 … ∑ x t 3 x t k ⋮ ⋮ ⋮ ⋱ ⋮ ∑ x t k x t 1 ∑ x t k x t 2 ∑ x t k x t 3 … ∑ x t k 2) (b 1 b 2 b 3 ⋮ b k) = (∑ x t 1 y ∑ x เสื้อ 2 ปี ∑ x เสื้อ 3 y t ⋮ ∑ x t k y t) , (\displaystyle (\begin(pmatrix)\sum x_(t1)^(2)&\sum x_(t1)x_(t2)&\sum x_(t1)x_(t3)&\ldots &\sum x_(t1)x_(tk)\\\sum x_(t2)x_(t1)&\sum x_(t2)^(2)&\sum x_(t2)x_(t3)&\ldots &\ ผลรวม x_(t2)x_(tk)\\\sum x_(t3)x_(t1)&\sum x_(t3)x_(t2)&\sum x_(t3)^(2)&\ldots &\sum x_ (t3)x_(tk)\\\vdots &\vdots &\vdots &\ddots &\vdots \\\sum x_(tk)x_(t1)&\sum x_(tk)x_(t2)&\sum x_ (tk)x_(t3)&\ldots &\sum x_(tk)^(2)\\\end(pmatrix))(\begin(pmatrix)b_(1)\\b_(2)\\b_(3) )\\\vdots \\b_(k)\\\end(pmatrix))=(\begin(pmatrix)\sum x_(t1)y_(t)\\\sum x_(t2)y_(t)\\ \sum x_(t3)y_(t)\\\vdots \\\sum x_(tk)y_(t)\\\end(pmatrix)),)โดยที่ผลรวมทั้งหมดจะมาจากค่าที่ถูกต้องทั้งหมด เสื้อ (\displaystyle เสื้อ).

หากรวมค่าคงที่ไว้ในโมเดล (ตามปกติ) แล้ว x t 1 = 1 (\displaystyle x_(t1)=1)ต่อหน้าทุกคน เสื้อ (\displaystyle เสื้อ)ดังนั้นที่มุมซ้ายบนของเมทริกซ์ของระบบสมการจึงมีจำนวนการสังเกต n (\displaystyle n)และในองค์ประกอบที่เหลือของแถวแรกและคอลัมน์แรก - เพียงผลรวมของค่าตัวแปร: ∑ x t j (\displaystyle \sum x_(tj))และองค์ประกอบแรกของด้านขวาของระบบคือ ∑ y t (\displaystyle \sum y_(t)).

การแก้ระบบสมการนี้ให้สูตรทั่วไปสำหรับการประมาณค่ากำลังสองน้อยที่สุดสำหรับแบบจำลองเชิงเส้น:

b ^ O L S = (X T X) − 1 X T y = (1 n X T X) − 1 1 n X T y = V x − 1 C x y (\displaystyle (\hat (b))_(OLS)=(X^(T )X)^(-1)X^(T)y=\left((\frac (1)(n))X^(T)X\right)^(-1)(\frac (1)(n ))X^(T)y=V_(x)^(-1)C_(xy)).

เพื่อวัตถุประสงค์ในการวิเคราะห์ การแสดงสูตรสุดท้ายของสูตรนี้จะมีประโยชน์ (ในระบบสมการเมื่อหารด้วย n ค่าเฉลี่ยเลขคณิตจะปรากฏขึ้นแทนผลรวม) หากอยู่ในแบบจำลองการถดถอยข้อมูล อยู่ตรงกลางจากนั้นในการเป็นตัวแทนนี้ เมทริกซ์แรกมีความหมายของเมทริกซ์ความแปรปรวนร่วมตัวอย่างของปัจจัย และเมทริกซ์ที่สองคือเวกเตอร์ของความแปรปรวนร่วมของปัจจัยที่มีตัวแปรตาม หากนอกเหนือจากข้อมูลแล้วยัง ทำให้เป็นมาตรฐานถึง MSE (นั่นคือท้ายที่สุดแล้ว ได้มาตรฐาน) จากนั้นเมทริกซ์แรกมีความหมายของเมทริกซ์ความสัมพันธ์ตัวอย่างของปัจจัย เวกเตอร์ที่สอง - เวกเตอร์ของความสัมพันธ์ตัวอย่างของปัจจัยกับตัวแปรตาม

คุณสมบัติที่สำคัญของการประมาณค่า OLS สำหรับแบบจำลอง มีค่าคงที่- เส้นการถดถอยที่สร้างขึ้นจะผ่านจุดศูนย์ถ่วงของข้อมูลตัวอย่าง นั่นคือมีความเท่าเทียมกัน:

y mac = b 1 ^ + ∑ j = 2 k b ^ j x เค้าโครง j (\displaystyle (\bar (y))=(\hat (b_(1)))+\sum _(j=2)^(k) (\หมวก (b))_(เจ)(\bar (x))_(j)).

โดยเฉพาะอย่างยิ่ง ในกรณีที่รุนแรง เมื่อตัวถดถอยตัวเดียวเป็นค่าคงที่ เราจะพบว่าการประมาณค่า OLS ของพารามิเตอร์ตัวเดียว (ค่าคงที่นั้นเอง) เท่ากับค่าเฉลี่ยของตัวแปรที่อธิบาย นั่นคือค่าเฉลี่ยเลขคณิตซึ่งเป็นที่รู้จักในเรื่องคุณสมบัติที่ดีจากกฎของจำนวนจำนวนมากก็เป็นค่าประมาณกำลังสองน้อยที่สุดเช่นกันซึ่งเป็นไปตามเกณฑ์ของผลรวมขั้นต่ำของการเบี่ยงเบนกำลังสองจากนั้น

กรณีพิเศษที่ง่ายที่สุด

ในกรณีของห้องอบไอน้ำ การถดถอยเชิงเส้น y t = a + b x t + ε t (\displaystyle y_(t)=a+bx_(t)+\varepsilon _(t))เมื่อมีการประมาณการพึ่งพาเชิงเส้นของตัวแปรหนึ่งไปยังอีกตัวแปรหนึ่ง สูตรการคำนวณจะง่ายขึ้น (คุณสามารถทำได้โดยไม่ต้องใช้พีชคณิตเมทริกซ์) ระบบสมการมีรูปแบบดังนี้

(1 x เลเยอร์ x เลเยอร์ x 2 เลเยอร์) (a b) = (y เลเยอร์ x y เลเยอร์) (\displaystyle (\begin(pmatrix)1&(\bar (x))\\(\bar (x))&(\bar (x^(2)))\\\end(pmatrix))(\begin(pmatrix)a\\b\\\end(pmatrix))=(\begin(pmatrix)(\bar (y))\\ (\overline (xy))\\\end(pmatrix))).

จากที่นี่ ง่ายต่อการค้นหาการประมาณค่าสัมประสิทธิ์:

( b ^ = Cov ⁡ (x , y) Var ⁡ (x) = x y เลเยอร์ − x เลเยอร์ y เลเยอร์ x 2 เลเยอร์ − x เลเยอร์ 2 , a ^ = y เลเยอร์ − b x เลเยอร์ . (\displaystyle (\begin(cases) (\hat (b))=(\frac (\mathop (\textrm (Cov)) (x,y))(\mathop (\textrm (Var)) (x)))=(\frac ((\overline (xy))-(\bar (x))(\bar (y)))((\overline (x^(2)))-(\overline (x))^(2))),\\( \hat (a))=(\bar (y))-b(\bar (x)).\end(กรณี)))

แม้ว่าในกรณีทั่วไป แบบจำลองที่มีค่าคงที่จะดีกว่า ในบางกรณี เป็นที่ทราบจากการพิจารณาทางทฤษฎีว่าค่าคงที่ ก (\displaystyle ก)จะต้องเท่ากับศูนย์ ตัวอย่างเช่น ในฟิสิกส์ความสัมพันธ์ระหว่างแรงดันและกระแสคือ U = I ⋅ R (\displaystyle U=I\cdot R)- เมื่อวัดแรงดันและกระแสจำเป็นต้องประมาณค่าความต้านทาน ในกรณีนี้เรากำลังพูดถึงโมเดล y = b x (\displaystyle y=bx)- ในกรณีนี้ แทนที่จะเป็นระบบสมการ เรามีสมการเดียว

(∑ x t 2) b = ∑ x t y t (\displaystyle \left(\sum x_(t)^(2)\right)b=\sum x_(t)y_(t)).

ดังนั้นสูตรในการประมาณค่าสัมประสิทธิ์เดี่ยวจึงมีรูปแบบ

B ^ = ∑ t = 1 n x t y t ∑ t = 1 n x t 2 = x y mac x 2 mac (\displaystyle (\hat (b))=(\frac (\sum _(t=1)^(n)x_(t) )y_(t))(\sum _(t=1)^(n)x_(t)^(2)))=(\frac (\overline (xy))(\overline (x^(2)) ))).

กรณีของแบบจำลองพหุนาม

หากข้อมูลพอดีกับฟังก์ชันการถดถอยพหุนามของตัวแปรตัวหนึ่ง f (x) = b 0 + ∑ i = 1 k b i x i (\displaystyle f(x)=b_(0)+\sum \limits _(i=1)^(k)b_(i)x^(i))แล้วจึงรับรู้องศา x ฉัน (\displaystyle x^(i))เป็นปัจจัยอิสระสำหรับแต่ละคน ฉัน (\displaystyle i)สามารถประมาณค่าพารามิเตอร์แบบจำลองตามสูตรทั่วไปสำหรับการประมาณค่าพารามิเตอร์ของแบบจำลองเชิงเส้นได้ ในการทำเช่นนี้ก็เพียงพอที่จะคำนึงถึงสูตรทั่วไปด้วยการตีความดังกล่าว x t i x t j = x t i x t j = x t i + j (\displaystyle x_(ti)x_(tj)=x_(t)^(i)x_(t)^(j)=x_(t)^(i+j))และ x t j y t = x t j y t (\displaystyle x_(tj)y_(t)=x_(t)^(j)y_(t))- ดังนั้นสมการเมทริกซ์ในกรณีนี้จะอยู่ในรูปแบบ:

(n ∑ n x t … ∑ n x t k ∑ n x t ∑ n x i 2 … ∑ m x i k + 1 ⋮ ⋮ ⋱ ⋮ ∑ n x t k ∑ n x t k + 1 … ∑ n x t 2 k) [ b 0 b 1 ⋮ b k ] = [ ∑ ไม่มี ∑ ไม่มี t ⋮ ∑ n x t k y t ] .

(\displaystyle (\begin(pmatrix)n&\sum \limits _(n)x_(t)&\ldots &\sum \limits _(n)x_(t)^(k)\\\sum \limits _( n)x_(t)&\sum \ลิมิต _(n)x_(i)^(2)&\ldots &\sum \limits _(m)x_(i)^(k+1)\\\vdots & \vdots &\ddots &\vdots \\\sum \limits _(n)x_(t)^(k)&\sum \limits _(n)x_(t)^(k+1)&\ldots &\ ผลรวม \ลิมิต _(n)x_(t)^(2k)\end(pmatrix))(\begin(bmatrix)b_(0)\\b_(1)\\\vdots \\b_(k)\end( bmatrix))=(\begin(bmatrix)\sum \limits _(n)y_(t)\\\sum \limits _(n)x_(t)y_(t)\\\vdots \\\sum \limits _(n)x_(t)^(k)y_(t)\end(bเมทริกซ์)).)

คุณสมบัติทางสถิติของตัวประมาณค่า OLS

ก่อนอื่น เราทราบว่าสำหรับโมเดลเชิงเส้น การประมาณค่า OLS เป็นการประมาณเชิงเส้น ดังต่อไปนี้จากสูตรข้างต้น สำหรับการประมาณค่า OLS ที่เป็นกลาง มีความจำเป็นและเพียงพอที่จะปฏิบัติตามเงื่อนไขที่สำคัญที่สุดของการวิเคราะห์การถดถอย: ความคาดหวังทางคณิตศาสตร์แบบมีเงื่อนไขของปัจจัยของข้อผิดพลาดแบบสุ่มจะต้องเท่ากับศูนย์ โดยเฉพาะอย่างยิ่งเงื่อนไขนี้จะเป็นที่พอใจหาก
ความคาดหวังทางคณิตศาสตร์ของข้อผิดพลาดแบบสุ่มคือศูนย์ และ

เงื่อนไขที่สอง - เงื่อนไขของปัจจัยภายนอก - เป็นเงื่อนไขพื้นฐาน หากไม่ตรงตามคุณสมบัตินี้ เราสามารถสรุปได้ว่าการประมาณการเกือบทั้งหมดจะไม่เป็นที่น่าพอใจอย่างยิ่ง โดยจะไม่สอดคล้องกันด้วยซ้ำ (นั่นคือ แม้แต่ข้อมูลจำนวนมากก็ไม่อนุญาตให้เรารับการประมาณการคุณภาพสูงในกรณีนี้ ). ในกรณีคลาสสิก มีการตั้งสมมติฐานที่หนักแน่นกว่าเกี่ยวกับการกำหนดปัจจัยต่างๆ ซึ่งตรงข้ามกับข้อผิดพลาดแบบสุ่ม ซึ่งหมายความว่าเป็นไปตามเงื่อนไขภายนอกโดยอัตโนมัติ ในกรณีทั่วไป เพื่อความสอดคล้องของการประมาณการ ก็เพียงพอที่จะตอบสนองเงื่อนไขภายนอกพร้อมกับการลู่เข้าของเมทริกซ์ V x (\รูปแบบการแสดงผล V_(x))ไปยังเมทริกซ์ที่ไม่ใช่เอกพจน์เมื่อขนาดตัวอย่างเพิ่มขึ้นจนถึงอนันต์

เพื่อให้ นอกจากความสม่ำเสมอและความเป็นกลางแล้ว การประมาณค่ากำลังสองน้อยที่สุด (ปกติ) ให้มีประสิทธิภาพด้วย (ค่าที่ดีที่สุดในกลุ่มการประมาณค่าที่ไม่เอนเอียงเชิงเส้น) จะต้องมีคุณสมบัติเพิ่มเติมของข้อผิดพลาดแบบสุ่ม:

สมมติฐานเหล่านี้สามารถกำหนดสูตรสำหรับเมทริกซ์ความแปรปรวนร่วมของเวกเตอร์ข้อผิดพลาดแบบสุ่มได้ V (ε) = σ 2 I (\displaystyle V(\varepsilon)=\sigma ^(2)I).

เรียกว่าแบบจำลองเชิงเส้นที่ตรงตามเงื่อนไขเหล่านี้ คลาสสิค- การประมาณค่า OLS สำหรับการถดถอยเชิงเส้นแบบคลาสสิกนั้นมีความเป็นกลาง สม่ำเสมอ และมีประสิทธิภาพมากที่สุดในกลุ่มของการประมาณค่าที่ไม่เอนเอียงเชิงเส้นทั้งหมด (ในวรรณคดีอังกฤษ บางครั้งจะใช้ตัวย่อ สีฟ้า (ตัวประมาณค่าเชิงเส้นที่เป็นกลางที่ดีที่สุด) - การประมาณการที่เป็นกลางเชิงเส้นที่ดีที่สุด ในวรรณคดีรัสเซียมักอ้างถึงทฤษฎีบทเกาส์-มาร์คอฟ) ตามที่แสดงได้ง่าย เมทริกซ์ความแปรปรวนร่วมของเวกเตอร์ของการประมาณค่าสัมประสิทธิ์จะเท่ากับ:

V (b ^ O L S) = σ 2 (X T X) − 1 (\displaystyle V((\hat (b))_(OLS))=\sigma ^(2)(X^(T)X)^(-1 )).

ประสิทธิภาพหมายความว่าเมทริกซ์ความแปรปรวนร่วมนี้เป็น "น้อยที่สุด" (ผลรวมเชิงเส้นใดๆ ของสัมประสิทธิ์ และโดยเฉพาะอย่างยิ่งตัวสัมประสิทธิ์เอง มีความแปรปรวนน้อยที่สุด) นั่นคือ ในคลาสของตัวประมาณค่าที่ไม่เอนเอียงเชิงเส้น ตัวประมาณค่า OLS นั้นดีที่สุด องค์ประกอบในแนวทแยงของเมทริกซ์นี้ - ความแปรปรวนของการประมาณค่าสัมประสิทธิ์ - เป็นพารามิเตอร์สำคัญของคุณภาพของการประมาณค่าที่ได้รับ อย่างไรก็ตาม ไม่สามารถคำนวณเมทริกซ์ความแปรปรวนร่วมได้ เนื่องจากไม่ทราบความแปรปรวนของข้อผิดพลาดแบบสุ่ม สามารถพิสูจน์ได้ว่าการประมาณค่าความแปรปรวนของข้อผิดพลาดแบบสุ่มที่เป็นกลางและสม่ำเสมอ (สำหรับแบบจำลองเชิงเส้นแบบคลาสสิก) คือปริมาณ:

S 2 = R S S / (n − k) (\displaystyle s^(2)=RSS/(n-k)).

เมื่อแทนค่านี้ลงในสูตรสำหรับเมทริกซ์ความแปรปรวนร่วม เราจะได้ค่าประมาณของเมทริกซ์ความแปรปรวนร่วม ผลการประมาณการที่ได้ยังเป็นกลางและสม่ำเสมออีกด้วย สิ่งสำคัญอีกประการหนึ่งคือการประมาณค่าความแปรปรวนของข้อผิดพลาด (และด้วยเหตุนี้ความแปรปรวนของสัมประสิทธิ์) และการประมาณค่าของพารามิเตอร์แบบจำลองจึงเป็นตัวแปรสุ่มอิสระ ซึ่งทำให้สามารถรับสถิติทดสอบสำหรับการทดสอบสมมติฐานเกี่ยวกับค่าสัมประสิทธิ์แบบจำลองได้

ควรสังเกตว่าหากไม่เป็นไปตามสมมติฐานดั้งเดิม การประมาณค่าพารามิเตอร์ OLS จะไม่มีประสิทธิภาพมากที่สุด และโดยที่ W (\displaystyle W)คือเมทริกซ์น้ำหนักแน่นอนเชิงบวกแบบสมมาตรบางตัว กำลังสองน้อยที่สุดแบบธรรมดาเป็นกรณีพิเศษของแนวทางนี้ โดยที่เมทริกซ์น้ำหนักจะเป็นสัดส่วนกับเมทริกซ์เอกลักษณ์ ดังที่ทราบกันดีว่าสำหรับเมทริกซ์สมมาตร (หรือตัวดำเนินการ) จะมีการขยายตัว W = P T P (\displaystyle W=P^(T)P)- ดังนั้นฟังก์ชันที่ระบุจึงสามารถแสดงได้ดังนี้ e T P T P e = (P e) T P e = e ∗ T e ∗ (\displaystyle e^(T)P^(T)Pe=(Pe)^(T)Pe=e_(*)^(T)e_( *))นั่นคือ ฟังก์ชันนี้สามารถแสดงเป็นผลรวมของกำลังสองของ "เศษ" ที่ถูกแปลงบางส่วน ดังนั้นเราจึงสามารถแยกแยะคลาสของวิธีกำลังสองน้อยที่สุดได้ - วิธี LS (กำลังสองน้อยที่สุด)

ได้รับการพิสูจน์แล้ว (ทฤษฎีบทของเอตเคน) ว่าสำหรับแบบจำลองการถดถอยเชิงเส้นทั่วไป (ซึ่งไม่มีข้อจำกัดใดๆ กำหนดไว้กับเมทริกซ์ความแปรปรวนร่วมของข้อผิดพลาดแบบสุ่ม) สิ่งที่เรียกว่าการประมาณการที่มีประสิทธิผลมากที่สุด (ในกลุ่มของการประมาณค่าที่ไม่เอนเอียงเชิงเส้น) กำลังสองน้อยที่สุดทั่วไป (GLS - กำลังสองน้อยที่สุดทั่วไป)- วิธี LS ที่มีเมทริกซ์น้ำหนักเท่ากับเมทริกซ์ความแปรปรวนร่วมผกผันของข้อผิดพลาดแบบสุ่ม: W = V ε − 1 (\displaystyle W=V_(\varepsilon )^(-1)).

จะเห็นได้ว่าสูตรสำหรับการประมาณค่าพารามิเตอร์ของแบบจำลองเชิงเส้นของ GLS มีรูปแบบ

B ^ G L S = (X T V − 1 X) − 1 X T V − 1 y (\displaystyle (\hat (b))_(GLS)=(X^(T)V^(-1)X)^(-1) X^(ท)วี^(-1)ย).

เมทริกซ์ความแปรปรวนร่วมของการประมาณค่าเหล่านี้จะเท่ากับตามนั้น

V (b ^ G L S) = (X T V − 1 X) − 1 (\displaystyle V((\hat (b))_(GLS))=(X^(T)V^(-1)X)^(- 1)).

ในความเป็นจริง สาระสำคัญของ OLS อยู่ที่การแปลง (P) บางอย่าง (เชิงเส้น) ของข้อมูลต้นฉบับและการประยุกต์ใช้ OLS ธรรมดากับข้อมูลที่แปลงแล้ว วัตถุประสงค์ของการแปลงนี้คือ สำหรับข้อมูลที่แปลงแล้ว ข้อผิดพลาดแบบสุ่มเป็นไปตามสมมติฐานดั้งเดิมอยู่แล้ว

OLS แบบถ่วงน้ำหนัก

ในกรณีของเมทริกซ์น้ำหนักแนวทแยง (และด้วยเหตุนี้จึงเป็นเมทริกซ์ความแปรปรวนร่วมของข้อผิดพลาดแบบสุ่ม) เราจะเรียกว่ากำลังสองน้อยที่สุดแบบถ่วงน้ำหนัก (WLS) ในกรณีนี้ ผลรวมถ่วงน้ำหนักของกำลังสองของส่วนที่เหลือของแบบจำลองจะลดลง กล่าวคือ การสังเกตแต่ละครั้งจะได้รับ "น้ำหนัก" ซึ่งเป็นสัดส่วนผกผันกับความแปรปรวนของข้อผิดพลาดแบบสุ่มในการสังเกตนี้: e T W e = ∑ t = 1 n e t 2 σ t 2 (\displaystyle e^(T)We=\sum _(t=1)^(n)(\frac (e_(t)^(2))(\ sigma_(t)^(2))))- ข้อมูลจะถูกแปลงโดยการถ่วงน้ำหนักการสังเกต (หารด้วยจำนวนที่เป็นสัดส่วนกับค่าเบี่ยงเบนมาตรฐานโดยประมาณของข้อผิดพลาดแบบสุ่ม) และ OLS ธรรมดาจะถูกนำไปใช้กับข้อมูลที่ถ่วงน้ำหนัก

ISBN 978-5-7749-0473-0 .

เศรษฐมิติ. หนังสือเรียน / เอ็ด. Eliseeva I.I. - ฉบับที่ 2 - อ.: การเงินและสถิติ, 2549. - 576 น. - ISBN 5-279-02786-3.

Alexandrova N.V.ประวัติคำศัพท์ แนวคิด สัญกรณ์ทางคณิตศาสตร์ หนังสืออ้างอิงพจนานุกรม - ฉบับที่ 3 - อ.: LKI, 2551 - 248 น. - ISBN 978-5-382-00839-4. I.V. Mitin, Rusakov V.S. การวิเคราะห์และประมวลผลข้อมูลการทดลอง - ฉบับที่ 5 - 24 น.

การประมาณข้อมูลการทดลองเป็นวิธีการที่ใช้การแทนที่ข้อมูลที่ได้รับจากการทดลองด้วยฟังก์ชันการวิเคราะห์ที่ผ่านหรือเกิดขึ้นพร้อมกันมากที่สุดที่จุดสำคัญด้วยค่าดั้งเดิม (ข้อมูลที่ได้รับระหว่างการทดลองหรือการทดลอง) ปัจจุบัน มีสองวิธีในการกำหนดฟังก์ชันการวิเคราะห์:

โดยการสร้างพหุนามการประมาณค่า n องศาที่ผ่านไป โดยตรงผ่านทุกจุดอาร์เรย์ข้อมูลที่กำหนด ในกรณีนี้ ฟังก์ชันการประมาณค่าจะแสดงอยู่ในรูปของ: พหุนามการประมาณค่าในรูปแบบลากรองจ์ หรือพหุนามการประมาณค่าในรูปแบบนิวตัน

โดยการสร้างพหุนามประมาณ n องศาที่ผ่านไป ใกล้กับจุดต่างๆ มากที่สุดจากอาร์เรย์ข้อมูลที่กำหนดให้ ดังนั้นฟังก์ชันการประมาณจึงทำให้สัญญาณรบกวนแบบสุ่ม (หรือข้อผิดพลาด) ที่อาจเกิดขึ้นระหว่างการทดลองราบรื่นขึ้น โดยค่าที่วัดได้ในระหว่างการทดลองขึ้นอยู่กับปัจจัยสุ่มที่ผันผวนตามกฎสุ่มของตัวเอง (ข้อผิดพลาดในการวัดหรือเครื่องมือ ความไม่ถูกต้องหรือการทดลอง) ข้อผิดพลาด) ในกรณีนี้ ฟังก์ชันการประมาณจะถูกกำหนดโดยใช้วิธีกำลังสองน้อยที่สุด

วิธีกำลังสองน้อยที่สุด(ในวรรณคดีอังกฤษ Ordinary Least Squares, OLS) เป็นวิธีทางคณิตศาสตร์ที่มีพื้นฐานอยู่บนพื้นฐานการหาฟังก์ชันการประมาณ ซึ่งสร้างขึ้นในบริเวณที่ใกล้กับจุดมากที่สุดจากอาร์เรย์ข้อมูลการทดลองที่กำหนด ความใกล้เคียงของฟังก์ชันดั้งเดิมและฟังก์ชันการประมาณ F(x) ถูกกำหนดโดยการวัดเชิงตัวเลข กล่าวคือ ผลรวมของการเบี่ยงเบนกำลังสองของข้อมูลการทดลองจากเส้นโค้งโดยประมาณ F(x) ควรมีค่าน้อยที่สุด

เส้นโค้งโดยประมาณที่สร้างขึ้นโดยใช้วิธีกำลังสองน้อยที่สุด

ใช้วิธีการกำลังสองน้อยที่สุด:

เพื่อแก้ระบบสมการที่กำหนดเกินกำหนดเมื่อจำนวนสมการเกินจำนวนที่ไม่ทราบ

เพื่อค้นหาคำตอบในกรณีของระบบสมการไม่เชิงเส้นธรรมดา (ไม่ได้กำหนดไว้เกินกำหนด)

เพื่อประมาณค่าจุดด้วยฟังก์ชันการประมาณค่าบางอย่าง

ฟังก์ชันการประมาณโดยใช้วิธีกำลังสองน้อยที่สุดถูกกำหนดจากเงื่อนไขของผลรวมขั้นต่ำของการเบี่ยงเบนกำลังสองของฟังก์ชันการประมาณที่คำนวณจากอาร์เรย์ข้อมูลการทดลองที่กำหนด เกณฑ์ของวิธีกำลังสองน้อยที่สุดนี้เขียนเป็นนิพจน์ต่อไปนี้:

ค่าของฟังก์ชันการประมาณที่คำนวณได้ที่จุดปม

อาร์เรย์ข้อมูลการทดลองที่กำหนดที่จุดสำคัญ

เกณฑ์กำลังสองมีคุณสมบัติ "ดี" หลายประการ เช่น ความสามารถในการหาอนุพันธ์ ซึ่งเป็นวิธีแก้ปัญหาเฉพาะสำหรับปัญหาการประมาณด้วยฟังก์ชันการประมาณพหุนาม

ฟังก์ชันการประมาณจะเป็นพหุนามของดีกรี m ขึ้นอยู่กับเงื่อนไขของปัญหา

ระดับของฟังก์ชันการประมาณไม่ได้ขึ้นอยู่กับจำนวนจุดปม แต่ขนาดของมันจะต้องน้อยกว่าขนาด (จำนวนจุด) ของอาร์เรย์ข้อมูลการทดลองที่กำหนดเสมอ

∙ หากระดับของฟังก์ชันการประมาณคือ m=1 เราจะประมาณฟังก์ชันแบบตารางด้วยเส้นตรง (การถดถอยเชิงเส้น)

∙ หากระดับของฟังก์ชันการประมาณคือ m=2 เราจะประมาณฟังก์ชันตารางด้วยพาราโบลากำลังสอง (การประมาณกำลังสอง)

∙ หากระดับของฟังก์ชันการประมาณคือ m=3 เราจะประมาณฟังก์ชันตารางด้วยลูกบาศก์พาราโบลา (การประมาณลูกบาศก์)

ในกรณีทั่วไป เมื่อจำเป็นต้องสร้างพหุนามโดยประมาณขององศา m สำหรับค่าตารางที่กำหนด เงื่อนไขสำหรับผลรวมขั้นต่ำของค่าเบี่ยงเบนกำลังสองเหนือจุดปมทั้งหมดจะถูกเขียนใหม่ในรูปแบบต่อไปนี้:

- ค่าสัมประสิทธิ์ที่ไม่รู้จักของพหุนามโดยประมาณของระดับ m

จำนวนค่าตารางที่ระบุ

เงื่อนไขที่จำเป็นสำหรับการมีอยู่ของฟังก์ชันขั้นต่ำคือการเท่ากับศูนย์ของอนุพันธ์ย่อยบางส่วนเทียบกับตัวแปรที่ไม่รู้จัก - เป็นผลให้เราได้รับระบบสมการดังต่อไปนี้:

มาแปลงระบบสมการเชิงเส้นที่ได้: เปิดวงเล็บแล้วย้ายพจน์อิสระไปทางด้านขวาของนิพจน์ เป็นผลให้ระบบผลลัพธ์ของนิพจน์พีชคณิตเชิงเส้นจะถูกเขียนในรูปแบบต่อไปนี้:

ระบบนิพจน์พีชคณิตเชิงเส้นนี้สามารถเขียนใหม่ได้ในรูปแบบเมทริกซ์:

เป็นผลให้ได้ระบบสมการเชิงเส้นขนาด m+1 ซึ่งประกอบด้วยค่าไม่ทราบค่า m+1 ระบบนี้สามารถแก้ไขได้โดยใช้วิธีใดก็ได้ในการแก้สมการพีชคณิตเชิงเส้น (เช่น วิธีเกาส์เซียน) จากผลของการแก้ปัญหา จะพบพารามิเตอร์ที่ไม่รู้จักของฟังก์ชันการประมาณซึ่งให้ผลรวมขั้นต่ำของการเบี่ยงเบนกำลังสองของฟังก์ชันการประมาณจากข้อมูลต้นฉบับ เช่น การประมาณกำลังสองที่ดีที่สุดที่เป็นไปได้ ควรจำไว้ว่าหากข้อมูลต้นฉบับเปลี่ยนค่าสัมประสิทธิ์ทั้งหมดจะเปลี่ยนค่า เนื่องจากข้อมูลต้นฉบับจะถูกกำหนดโดยสมบูรณ์

การประมาณแหล่งข้อมูลโดยการพึ่งพาเชิงเส้น

(การถดถอยเชิงเส้น)

เป็นตัวอย่าง ลองพิจารณาเทคนิคในการกำหนดฟังก์ชันการประมาณ ซึ่งระบุไว้ในรูปแบบของการพึ่งพาเชิงเส้น ตามวิธีกำลังสองน้อยที่สุด เงื่อนไขสำหรับผลรวมขั้นต่ำของส่วนเบี่ยงเบนกำลังสองเขียนไว้ในรูปแบบต่อไปนี้:

พิกัดของโหนดตาราง

ค่าสัมประสิทธิ์ที่ไม่รู้จักของฟังก์ชันการประมาณ ซึ่งระบุเป็นการพึ่งพาเชิงเส้น

เงื่อนไขที่จำเป็นสำหรับการมีอยู่ของฟังก์ชันขั้นต่ำคือความเสมอภาคกับศูนย์ของอนุพันธ์ย่อยของฟังก์ชันด้วยความเคารพต่อตัวแปรที่ไม่รู้จัก เป็นผลให้เราได้รับระบบสมการดังต่อไปนี้:

ให้เราแปลงระบบสมการเชิงเส้นผลลัพธ์

เราแก้ระบบผลลัพธ์ของสมการเชิงเส้น ค่าสัมประสิทธิ์ของฟังก์ชันการประมาณในรูปแบบการวิเคราะห์ถูกกำหนดดังนี้ (วิธีของแครเมอร์):

ค่าสัมประสิทธิ์เหล่านี้ช่วยให้มั่นใจได้ถึงการสร้างฟังก์ชันการประมาณเชิงเส้นตามเกณฑ์ในการลดผลรวมของกำลังสองของฟังก์ชันการประมาณจากค่าตารางที่กำหนด (ข้อมูลการทดลอง)

อัลกอริทึมสำหรับการนำวิธีกำลังสองน้อยที่สุดไปใช้

1. ข้อมูลเริ่มต้น:

มีการระบุอาร์เรย์ของข้อมูลการทดลองที่มีจำนวนการวัด N

มีการระบุระดับของพหุนามโดยประมาณ (m)

2. อัลกอริธึมการคำนวณ:

2.1. ค่าสัมประสิทธิ์ถูกกำหนดไว้สำหรับการสร้างระบบสมการที่มีมิติ

ค่าสัมประสิทธิ์ของระบบสมการ (ด้านซ้ายของสมการ)

- ดัชนีจำนวนคอลัมน์ของเมทริกซ์จตุรัสของระบบสมการ

เงื่อนไขอิสระของระบบสมการเชิงเส้น (ด้านขวาของสมการ)

- ดัชนีหมายเลขแถวของเมทริกซ์จตุรัสของระบบสมการ

2.2. การสร้างระบบสมการเชิงเส้นที่มีมิติ

2.3. การแก้ระบบสมการเชิงเส้นเพื่อกำหนดค่าสัมประสิทธิ์ที่ไม่รู้จักของพหุนามประมาณระดับ m

2.4 การหาผลรวมของการเบี่ยงเบนกำลังสองของพหุนามโดยประมาณจากค่าดั้งเดิมที่จุดปมทั้งหมด

ค่าที่พบของผลรวมของการเบี่ยงเบนกำลังสองคือค่าต่ำสุดที่เป็นไปได้

การประมาณโดยใช้ฟังก์ชันอื่น

ควรสังเกตว่าเมื่อประมาณข้อมูลต้นฉบับตามวิธีกำลังสองน้อยที่สุด บางครั้งฟังก์ชันลอการิทึม ฟังก์ชันเอ็กซ์โปเนนเชียล และกำลังก็ถูกใช้เป็นฟังก์ชันการประมาณ

การประมาณลอการิทึม

ลองพิจารณากรณีที่ฟังก์ชันการประมาณถูกกำหนดโดยฟังก์ชันลอการิทึมของแบบฟอร์ม: