ชีวประวัติ ลักษณะเฉพาะ การวิเคราะห์

พารามิเตอร์ของสมการการถดถอยเชิงเส้นคำนวณตาม สมการถดถอย

เรื่อง:องค์ประกอบของทฤษฎีสหสัมพันธ์

วัตถุแถว ประชากรทั่วไปมีลักษณะหลายประการ X, Y, ... ที่สามารถศึกษาได้ซึ่งสามารถตีความได้ว่าเป็นระบบปริมาณที่สัมพันธ์กัน ตัวอย่างได้แก่: น้ำหนักของสัตว์และปริมาณฮีโมโกลบินในเลือด ความสูงของผู้ชายและปริมาตรของหน้าอก การเพิ่มขึ้นของสถานที่ทำงานในห้องและอุบัติการณ์ของการติดเชื้อไวรัส ปริมาณของยาที่จ่ายและ ความเข้มข้นในเลือด ฯลฯ

เห็นได้ชัดว่ามีความเชื่อมโยงระหว่างปริมาณเหล่านี้ แต่ไม่สามารถพึ่งพาการทำงานที่เข้มงวดได้ เนื่องจากการเปลี่ยนแปลงในปริมาณใดปริมาณหนึ่งไม่เพียงได้รับอิทธิพลจากการเปลี่ยนแปลงในปริมาณที่สองเท่านั้น แต่ยังรวมถึงปัจจัยอื่น ๆ ด้วย ในกรณีเช่นนี้ กล่าวกันว่าปริมาณทั้งสองมีความเกี่ยวข้องกัน สุ่ม(เช่นสุ่ม) การพึ่งพาอาศัยกัน เราจะเรียน กรณีพิเศษการพึ่งพาแบบสุ่ม – การพึ่งพาความสัมพันธ์.

คำนิยาม:สุ่มหากการเปลี่ยนแปลงในหนึ่งในนั้นไม่เพียงได้รับอิทธิพลจากการเปลี่ยนแปลงในปริมาณที่สองเท่านั้น แต่ยังรวมถึงปัจจัยอื่น ๆ ด้วย

คำนิยาม:การพึ่งพาตัวแปรสุ่มเรียกว่า ทางสถิติ,หากการเปลี่ยนแปลงในอันใดอันหนึ่งนำไปสู่การเปลี่ยนแปลงในกฎหมายการกระจายของอีกอัน

คำนิยาม:หากการเปลี่ยนแปลงในตัวแปรสุ่มตัวใดตัวหนึ่งทำให้เกิดการเปลี่ยนแปลงในค่าเฉลี่ยของตัวแปรสุ่มตัวอื่น การพึ่งพาทางสถิติจะถูกเรียกว่า ความสัมพันธ์

ตัวอย่าง การพึ่งพาความสัมพันธ์เป็นการเชื่อมต่อระหว่าง:

น้ำหนักและส่วนสูงของร่างกาย

    ปริมาณ รังสีไอออไนซ์และจำนวนการกลายพันธุ์

    เม็ดสีผมมนุษย์และสีตา

    ตัวชี้วัดมาตรฐานการครองชีพของประชากรและอัตราการเสียชีวิต

    จำนวนผู้บรรยายที่พลาดและเกรดสอบ ฯลฯ

เป็นการพึ่งพาสหสัมพันธ์ซึ่งมักพบในธรรมชาติเนื่องจากอิทธิพลซึ่งกันและกันและการผสมผสานอย่างใกล้ชิดของปัจจัยที่แตกต่างกันมากที่หลากหลายซึ่งกำหนดค่าของตัวบ่งชี้ที่กำลังศึกษา

ผลลัพธ์ของการสังเกตที่ดำเนินการกับวัตถุทางชีววิทยาเฉพาะตามคุณลักษณะที่เกี่ยวข้องกับความสัมพันธ์ Y และ X สามารถแสดงเป็นจุดบนระนาบได้โดยการสร้างระบบพิกัดสี่เหลี่ยม ผลลัพธ์ที่ได้คือแผนภาพกระจายที่ช่วยให้สามารถตัดสินรูปแบบและความใกล้ชิดของความสัมพันธ์ระหว่างคุณลักษณะที่แตกต่างกันได้

หากความสัมพันธ์นี้สามารถประมาณได้ด้วยเส้นโค้ง จะสามารถคาดการณ์การเปลี่ยนแปลงในพารามิเตอร์ตัวใดตัวหนึ่งด้วยการเปลี่ยนแปลงเป้าหมายในพารามิเตอร์อื่นได้

การพึ่งพาสหสัมพันธ์จาก
สามารถอธิบายได้โดยใช้สมการของแบบฟอร์ม

(1)


เดอ
ค่าเฉลี่ยแบบมีเงื่อนไขปริมาณ สอดคล้องกับค่า ปริมาณ
, ก
ฟังก์ชั่นบางอย่าง เรียกสมการ (1) บน
.

รูปที่ 1. การถดถอยเชิงเส้นสำคัญ. แบบอย่าง
.

การทำงาน
เรียกว่า การถดถอยตัวอย่าง บน
และกราฟของมันคือ เส้นการถดถอยตัวอย่าง บน
.

ค่อนข้างคล้ายกัน ตัวอย่างสมการถดถอย
บน คือสมการ
.

ขึ้นอยู่กับประเภทของสมการการถดถอยและรูปร่างของเส้นการถดถอยที่สอดคล้องกัน รูปร่างของความสัมพันธ์ระหว่างปริมาณที่พิจารณาจะถูกกำหนด - เชิงเส้น กำลังสอง เลขชี้กำลัง เลขชี้กำลัง

คำถามที่สำคัญที่สุดคือการเลือกประเภทของฟังก์ชันการถดถอย
[หรือ
] เช่น เชิงเส้นหรือไม่เชิงเส้น (เลขชี้กำลัง ลอการิทึม ฯลฯ)

ในทางปฏิบัติ ประเภทของฟังก์ชันการถดถอยสามารถกำหนดได้โดยการสร้างชุดของจุดบนระนาบพิกัดที่สอดคล้องกับคู่การสังเกตที่มีอยู่ทั้งหมด (
).

ข้าว. 2. การถดถอยเชิงเส้นไม่มีนัยสำคัญ แบบอย่าง
.


เป็น. 3. โมเดลไม่เชิงเส้น
.

ตัวอย่างเช่นในรูปที่ 1 มีแนวโน้มเห็นคุณค่าที่เพิ่มขึ้นอย่างเห็นได้ชัด มีการเจริญเติบโต
ในขณะที่ค่าเฉลี่ย สายตาตั้งอยู่บนเส้นตรง มันสมเหตุสมผลแล้วที่จะใช้โมเดลเชิงเส้น (ประเภทของการพึ่งพา จาก
มักเรียกว่าแบบจำลองการพึ่งพา จาก
.

ในรูปที่ 2 ค่าเฉลี่ย ไม่ต้องพึ่ง ดังนั้นการถดถอยเชิงเส้นจึงไม่มีนัยสำคัญ (ฟังก์ชันการถดถอยมีค่าคงที่และเท่ากับ ).

ในรูป 3. มีแนวโน้มที่แบบจำลองจะไม่เป็นเชิงเส้น

ตัวอย่างของการพึ่งพาเชิงเส้น:

    เพิ่มปริมาณไอโอดีนที่บริโภคและลดอุบัติการณ์ของโรคคอพอก

    เพิ่มระยะเวลาในการให้บริการของพนักงานและเพิ่มผลผลิต

ตัวอย่างของการพึ่งพาเส้นโค้ง:

    เมื่อปริมาณฝนเพิ่มขึ้น ผลผลิตจะเพิ่มขึ้น แต่สิ่งนี้เกิดขึ้นจนถึงขีดจำกัดปริมาณฝนที่แน่นอน หลังจากจุดวิกฤติ ฝนตกมากเกินไป ดินล้นหลาม และผลผลิตลดลง

    ความสัมพันธ์ระหว่างปริมาณคลอรีนที่ใช้ฆ่าเชื้อในน้ำกับจำนวนแบคทีเรียใน 1 มิลลิลิตร น้ำ. เมื่อปริมาณคลอรีนเพิ่มขึ้น จำนวนแบคทีเรียในน้ำจะลดลง แต่เมื่อถึงจุดวิกฤติ จำนวนแบคทีเรียจะยังคงที่ (หรือหายไปเลย) ไม่ว่าเราจะเพิ่มปริมาณคลอรีนมากเพียงใดก็ตาม

การถดถอยเชิงเส้น

เมื่อเลือกประเภทของฟังก์ชันการถดถอยแล้ว เช่น ประเภทของรูปแบบการพึ่งพาที่อยู่ระหว่างการพิจารณา จาก X (หรือ X จาก Y) เช่น โมเดลเชิงเส้น
จำเป็นต้องกำหนดค่าเฉพาะของสัมประสิทธิ์แบบจำลอง

สำหรับค่านิยมที่แตกต่างกัน และ
คุณสามารถสร้างการขึ้นต่อกันของแบบฟอร์มได้ไม่จำกัดจำนวน
กล่าวคือเปิด ประสานงานเครื่องบินเส้นตรงมีจำนวนอนันต์ แต่เราต้องการการพึ่งพาที่สอดคล้องกับค่าที่สังเกตได้ดีที่สุด ดังนั้นงานจึงต้องเลือกค่าสัมประสิทธิ์ที่ดีที่สุด

วิธีกำลังสองน้อยที่สุด (LS)

ฟังก์ชันเชิงเส้น
เราค้นหาตามข้อสังเกตที่มีอยู่จำนวนหนึ่งเท่านั้น เราใช้เพื่อค้นหาฟังก์ชันที่เหมาะสมที่สุดกับค่าที่สังเกตได้ วิธี กำลังสองน้อยที่สุด.

รูปที่ 4. คำอธิบายสำหรับการประมาณค่าสัมประสิทธิ์โดยใช้วิธีกำลังสองน้อยที่สุด

เรามาแสดงว่า: - ค่าที่คำนวณจากสมการ

- ค่าที่วัดได้

- ความแตกต่างระหว่างค่าที่วัดได้และค่าที่คำนวณได้โดยใช้สมการ

.

ใน วิธีกำลังสองน้อยที่สุดมันเป็นสิ่งจำเป็นอย่างนั้น ความแตกต่างระหว่างการวัด และค่าที่คำนวณโดยใช้สมการ น้อยที่สุด ดังนั้นเราจึงสามารถหาค่าสัมประสิทธิ์ได้ และ เพื่อให้ผลรวมของการเบี่ยงเบนกำลังสองของค่าที่สังเกตได้จากค่าบนเส้นถดถอยตรงมีค่าน้อยที่สุด:

เงื่อนไขนี้จะเกิดขึ้นได้หากพารามิเตอร์ และ จะถูกคำนวณโดยใช้สูตร:

เรียกว่า ค่าสัมประสิทธิ์การถดถอย; เรียกว่า สมาชิกฟรีสมการถดถอย

เส้นตรงที่ได้จะเป็นค่าประมาณของเส้นถดถอยตามทฤษฎี

เรามี
ดังนั้น, เป็น

สมการการถดถอยเชิงเส้น
การถดถอยสามารถทำได้โดยตรง
.

คำนิยาม: และย้อนกลับ การถดถอยแบบย้อนกลับ

หมายความว่าเมื่อพารามิเตอร์หนึ่งเพิ่มขึ้น ค่าของพารามิเตอร์อื่นจะลดลง

การถดถอยเชิงเส้นคู่

แบบฝึกหัด

การถดถอยเชิงเส้นคู่: การประชุมเชิงปฏิบัติการ -

การศึกษาวิชาเศรษฐมิติเกี่ยวข้องกับการที่นักเรียนได้รับประสบการณ์ในการสร้างแบบจำลองทางเศรษฐมิติ การตัดสินใจเกี่ยวกับข้อกำหนดและการระบุแบบจำลอง การเลือกวิธีการประมาณค่าพารามิเตอร์ของแบบจำลอง การประเมินคุณภาพ การตีความผลลัพธ์ การขอรับค่าประมาณการคาดการณ์ ฯลฯ การประชุมเชิงปฏิบัติการจะช่วยให้นักเรียน ได้รับทักษะการปฏิบัติในประเด็นเหล่านี้

ได้รับการอนุมัติจากกองบรรณาธิการและสำนักพิมพ์

เรียบเรียงโดย: ม.บ. Perova เศรษฐศาสตร์ดุษฎีบัณฑิต ศาสตราจารย์

บทบัญญัติทั่วไป การวิจัยทางเศรษฐมิติเริ่มต้นด้วยทฤษฎีที่สร้างความสัมพันธ์ระหว่างปรากฏการณ์ จากปัจจัยทั้งหมดที่มีอิทธิพลต่อคุณลักษณะที่มีประสิทธิผล จะมีการเน้นปัจจัยที่สำคัญที่สุด หลังจากระบุความสัมพันธ์ระหว่างลักษณะที่กำลังศึกษาแล้ว ประเภทของความสัมพันธ์ที่แน่นอนจะถูกกำหนดโดยใช้.

การวิเคราะห์การถดถอยการวิเคราะห์การถดถอย ปริมาณอิสระ(เครื่องหมายแฟคทอเรียล) ความสัมพันธ์นี้สามารถหาปริมาณได้โดยการสร้างสมการถดถอยหรือฟังก์ชันการถดถอย

แบบจำลองการถดถอยพื้นฐานคือแบบจำลองการถดถอยแบบจับคู่ (ปัจจัยเดียว) การถดถอยคู่– สมการการเชื่อมต่อระหว่างตัวแปรสองตัว ที่และ เอ็กซ์:

ที่ไหน – ตัวแปรตาม (คุณลักษณะผลลัพธ์)

– ตัวแปรอิสระที่อธิบายได้ (ลักษณะแฟคทอเรียล)

ขึ้นอยู่กับลักษณะของการเปลี่ยนแปลง ที่ด้วยการเปลี่ยนแปลง เอ็กซ์แยกความแตกต่างระหว่างการถดถอยเชิงเส้นและไม่เชิงเส้น

การถดถอยเชิงเส้น

ฟังก์ชันการถดถอยนี้เรียกว่าพหุนามของดีกรี 1 และใช้เพื่ออธิบายกระบวนการที่มีการพัฒนาอย่างสม่ำเสมอเมื่อเวลาผ่านไป

การมีสมาชิกแบบสุ่ม (ข้อผิดพลาดการถดถอย) มีความเกี่ยวข้องกับผลกระทบต่อตัวแปรตามของปัจจัยอื่น ๆ ที่ไม่ได้นำมาพิจารณาในสมการ กับความไม่เชิงเส้นที่เป็นไปได้ของแบบจำลอง ข้อผิดพลาดในการวัด และดังนั้นลักษณะที่ปรากฏ สมการข้อผิดพลาดแบบสุ่มการถดถอยอาจเนื่องมาจากวัตถุประสงค์ดังต่อไปนี้ เหตุผล:

1) การไม่เป็นตัวแทนของกลุ่มตัวอย่าง แบบจำลองการถดถอยแบบคู่ประกอบด้วยปัจจัยที่ไม่สามารถอธิบายความแปรผันในลักษณะผลลัพธ์ได้ครบถ้วน ซึ่งอาจได้รับอิทธิพลจากปัจจัยอื่นๆ อีกมากมาย (ละเว้นตัวแปร) ในขอบเขตที่สูงกว่ามาก ตัวอย่างเช่น ค่าจ้างอาจขึ้นอยู่กับระดับการศึกษา ประสบการณ์การทำงาน เพศ ฯลฯ นอกเหนือจากคุณสมบัติ

2) มีความเป็นไปได้ที่ตัวแปรที่เกี่ยวข้องกับแบบจำลองอาจถูกวัดโดยมีข้อผิดพลาด ตัวอย่างเช่น ข้อมูลค่าใช้จ่ายด้านอาหารในครัวเรือนรวบรวมจากบันทึกของผู้เข้าร่วมการสำรวจ ซึ่งสันนิษฐานว่าบันทึกค่าใช้จ่ายรายวันอย่างระมัดระวัง แน่นอนว่าข้อผิดพลาดก็เกิดขึ้นได้

จากการสังเกตตัวอย่าง สมการการถดถอยตัวอย่างจะถูกประมาณ ( เส้นถดถอย):

,

ที่ไหน
– การประมาณค่าพารามิเตอร์ของสมการถดถอย (
).

รูปแบบการวิเคราะห์ของการพึ่งพาระหว่างคู่คุณลักษณะที่ศึกษา (ฟังก์ชันการถดถอย) จะถูกกำหนดโดยใช้สิ่งต่อไปนี้ วิธีการ:

    ขึ้นอยู่กับการวิเคราะห์ทางทฤษฎีและตรรกะธรรมชาติของปรากฏการณ์ที่กำลังศึกษา สาระสำคัญทางเศรษฐกิจและสังคม

    ตัวอย่างเช่น หากมีการศึกษาความสัมพันธ์ระหว่างรายได้ของครัวเรือนกับขนาดของเงินฝากในครัวเรือนในธนาคาร ก็จะเห็นได้ชัดว่าความสัมพันธ์นั้นเป็นไปโดยตรงวิธีการแบบกราฟิก

เมื่อประเมินลักษณะของการเชื่อมต่อด้วยสายตา เอ็กซ์การพึ่งพานี้สามารถเห็นได้ชัดเจนหากคุณสร้างกราฟโดยพล็อตค่าของแอตทริบิวต์บนแกน x ที่และในการกำหนด - ค่าของคุณลักษณะ เอ็กซ์และ ที่- โดยการวางแผนจุดที่สอดคล้องกับค่า เราได้รับ:

ก) หากคะแนนกระจายแบบสุ่มทั่วทั้งสนาม แสดงว่าไม่มีการพึ่งพาระหว่างคุณสมบัติเหล่านี้

b) หากจุดนั้นกระจุกตัวอยู่รอบแกนที่วิ่งจากมุมล่างซ้ายไปมุมขวาบนแสดงว่ามีความสัมพันธ์โดยตรงระหว่างคุณลักษณะนั้น

c) หากจุดนั้นกระจุกตัวอยู่รอบแกนที่เริ่มจากมุมซ้ายบนไปขวาล่าง - จากนั้น ความสัมพันธ์แบบผกผันระหว่างสัญญาณ

ถ้าเราเชื่อมโยงจุดต่างๆ บนสนามสหสัมพันธ์กับส่วนของเส้นตรง เราจะได้ เส้นขาดโดยมีแนวโน้มสูงขึ้นบ้าง นี่จะเป็นสายการสื่อสารเชิงประจักษ์หรือ เส้นการถดถอยเชิงประจักษ์- จากรูปลักษณ์ภายนอกเราสามารถตัดสินได้ไม่เพียง แต่การมีอยู่เท่านั้น แต่ยังรวมถึงรูปแบบของการพึ่งพาระหว่างลักษณะที่ศึกษาด้วย

การสร้างสมการถดถอยคู่

การสร้างสมการถดถอยมาจากการประมาณค่าพารามิเตอร์ การประมาณค่าพารามิเตอร์เหล่านี้สามารถพบได้หลายวิธี หนึ่งในนั้นคือวิธีกำลังสองน้อยที่สุด (LSM) สาระสำคัญของวิธีการมีดังนี้ แต่ละค่า สอดคล้องกับค่าเชิงประจักษ์ (สังเกตได้) - โดยการสร้างสมการถดถอย เช่น สมการเส้นตรง สำหรับแต่ละค่า จะสอดคล้องกับค่าทางทฤษฎี (คำนวณ) - ค่าที่สังเกตได้ อย่าอยู่บนเส้นถดถอยอย่างแน่นอน เช่น ไม่ตรงกัน - เรียกว่าความแตกต่างระหว่างค่าจริงและค่าที่คำนวณได้ของตัวแปรตาม ส่วนที่เหลือ:

วิธีกำลังสองน้อยที่สุดทำให้สามารถรับค่าประมาณพารามิเตอร์ดังกล่าวได้ ซึ่งผลรวมของการเบี่ยงเบนกำลังสองของค่าจริงของลักษณะผลลัพธ์ ที่จากทางทฤษฎี , เช่น. ผลรวมของกำลังสองของเศษเหลือน้อยที่สุด:

สำหรับสมการเชิงเส้นและสมการไม่เชิงเส้นที่สามารถลดเป็นเชิงเส้นได้ ระบบต่อไปนี้จะได้รับการแก้ไขด้วยความเคารพ และ :

ที่ไหน n– ขนาดตัวอย่าง

เมื่อแก้ระบบสมการแล้ว เราก็จะได้ค่าต่างๆ และ ซึ่งทำให้เราสามารถเขียนได้ สมการถดถอย(สมการถดถอย):

ที่ไหน – ตัวแปรอธิบาย (อิสระ)

–ตัวแปรอธิบาย (ขึ้นอยู่กับ)

เส้นถดถอยผ่านจุด ( ,) และมีความเท่าเทียมกัน:

คุณสามารถใช้สูตรสำเร็จรูปที่ตามมาจากระบบสมการนี้:

ที่ไหน – ค่าเฉลี่ยของลักษณะเฉพาะ

– ค่าเฉลี่ยของคุณลักษณะอิสระ

– ค่าเฉลี่ยเลขคณิตของผลิตภัณฑ์ที่มีลักษณะเฉพาะและเป็นอิสระ

– ความแปรปรวนของคุณลักษณะอิสระ

– ความแปรปรวนร่วมระหว่างคุณลักษณะขึ้นอยู่กับและเป็นอิสระ

ความแปรปรวนร่วมตัวอย่างสองตัวแปร เอ็กซ์, ที่เรียกว่า ค่าเฉลี่ยผลคูณของการเบี่ยงเบนของตัวแปรเหล่านี้จากค่าเฉลี่ย

พารามิเตอร์ ที่ เอ็กซ์มีที่ดี ความสำคัญในทางปฏิบัติและเรียกว่าสัมประสิทธิ์การถดถอย สัมประสิทธิ์การถดถอยแสดงจำนวนหน่วยที่ค่าเปลี่ยนแปลงโดยเฉลี่ย ที่ เอ็กซ์ต่อ 1 หน่วยของการวัด

เครื่องหมายพารามิเตอร์ ในสมการการถดถอยแบบคู่บ่งชี้ทิศทางของความสัมพันธ์:

ถ้า
จากนั้นความสัมพันธ์ระหว่างตัวชี้วัดที่ศึกษาจะเป็นทางตรงเช่น โดยมีเครื่องหมายปัจจัยเพิ่มขึ้น เอ็กซ์สัญญาณที่มีประสิทธิภาพก็เพิ่มขึ้นเช่นกัน ที่และในทางกลับกัน;

ถ้า
จากนั้นความสัมพันธ์ระหว่างตัวบ่งชี้ที่ศึกษาจะกลับกันนั่นคือ โดยมีเครื่องหมายปัจจัยเพิ่มขึ้น เอ็กซ์เครื่องหมายผลลัพธ์ ที่ลดลง และในทางกลับกัน

ค่าพารามิเตอร์ ในสมการการถดถอยคู่ในบางกรณีสามารถตีความได้ว่าเป็นค่าเริ่มต้นของคุณลักษณะผลลัพธ์ ที่- การตีความพารามิเตอร์นี้ เป็นไปได้ก็ต่อเมื่อมีค่า
สมเหตุสมผล

หลังจากสร้างสมการถดถอยแล้วจะได้ค่าที่สังเกตได้ สามารถแสดงเป็น:

ของเหลือ เหมือนความผิดพลาด , เป็น ตัวแปรสุ่มอย่างไรก็ตาม ไม่เหมือนข้อผิดพลาด , สังเกตได้. ส่วนที่เหลือคือส่วนหนึ่งของตัวแปรตาม ซึ่งไม่สามารถอธิบายได้โดยใช้สมการถดถอย

โดยอาศัยสมการถดถอยสามารถคำนวณได้ ค่าทางทฤษฎี เอ็กซ์สำหรับค่าใดๆ เอ็กซ์.

ในการวิเคราะห์ทางเศรษฐศาสตร์ มักใช้แนวคิดเรื่องความยืดหยุ่นของฟังก์ชัน ฟังก์ชั่นความยืดหยุ่น
คำนวณเป็นการเปลี่ยนแปลงสัมพัทธ์ การเปลี่ยนแปลงสัมพัทธ์ x- ความยืดหยุ่นจะแสดงตามเปอร์เซ็นต์ที่ฟังก์ชันเปลี่ยนแปลง
เมื่อตัวแปรอิสระเปลี่ยนแปลงไป 1%

เนื่องจากความยืดหยุ่นของฟังก์ชันเชิงเส้น
ไม่ใช่ ค่าคงที่แต่ขึ้นอยู่กับ เอ็กซ์จากนั้นค่าสัมประสิทธิ์ความยืดหยุ่นมักจะคำนวณเป็นความยืดหยุ่นโดยเฉลี่ย

ค่าสัมประสิทธิ์ความยืดหยุ่นแสดงโดยเปอร์เซ็นต์โดยเฉลี่ยมูลค่าของลักษณะผลลัพธ์ที่จะเปลี่ยนแปลงโดยเฉลี่ย ที่เมื่อลักษณะปัจจัยเปลี่ยนแปลงไป เอ็กซ์ 1% ของมูลค่าเฉลี่ย:

ที่ไหน
– ค่าเฉลี่ยของตัวแปร เอ็กซ์และ ที่ในตัวอย่าง

การประเมินคุณภาพของแบบจำลองการถดถอยที่สร้างขึ้น

คุณภาพของโมเดลการถดถอย– ความเพียงพอของแบบจำลองที่สร้างขึ้นต่อข้อมูลต้นฉบับ (สังเกตได้)

เพื่อวัดความแน่นของการเชื่อมต่อ เช่น ในการวัดว่าค่าความใกล้เคียงกับฟังก์ชันนั้นอยู่ใกล้แค่ไหน คุณจะต้องพิจารณาความแปรปรวนซึ่งจะวัดค่าความเบี่ยงเบน ที่จาก ที่ เอ็กซ์และแสดงลักษณะความแปรผันของสารตกค้างเนื่องจากปัจจัยอื่นๆ เป็นพื้นฐานของตัวบ่งชี้ที่แสดงลักษณะของแบบจำลองการถดถอย

คุณภาพของการถดถอยแบบคู่ถูกกำหนดโดยใช้การกำหนดลักษณะสัมประสิทธิ์

1) ความใกล้ชิดของการเชื่อมต่อ - ดัชนีสหสัมพันธ์, ค่าสัมประสิทธิ์สหสัมพันธ์เชิงเส้นคู่;

2) ข้อผิดพลาดในการประมาณ;

3) คุณภาพของสมการการถดถอยและพารามิเตอร์แต่ละตัว - ค่าคลาดเคลื่อนกำลังสองเฉลี่ยของสมการการถดถอยโดยรวมและพารามิเตอร์แต่ละตัว

สำหรับสมการการถดถอยประเภทใดก็ตาม จะมีการกำหนดไว้ ดัชนีความสัมพันธ์ซึ่งแสดงเฉพาะความรัดกุมของการพึ่งพาสหสัมพันธ์เท่านั้นเช่น ระดับของการประมาณการเชื่อมต่อการทำงาน:

,

ที่ไหน – การกระจายตัวแบบแฟคทอเรียล (เชิงทฤษฎี)

– ความแปรปรวนทั้งหมด

ดัชนีความสัมพันธ์ใช้ค่า
ในเวลาเดียวกัน

ถ้า

ถ้า
- การเชื่อมต่อระหว่างป้ายต่างๆ เอ็กซ์และ ที่ใช้งานได้ดียิ่งขึ้น ถึง 1 ยิ่งพิจารณาความสัมพันธ์ระหว่างคุณลักษณะที่ศึกษามากขึ้นเท่านั้น ถ้า
จากนั้นถือว่าการเชื่อมต่อปิด

ความแปรปรวนที่จำเป็นในการคำนวณตัวบ่งชี้ความหนาแน่นของข้อต่อถูกคำนวณ:

ผลต่างรวม, วัด รูปแบบทั่วไปเนื่องจากการกระทำของปัจจัยทั้งหมด:

ความแปรปรวนของปัจจัย (ทางทฤษฎี)การวัดความแปรผันของลักษณะผลลัพธ์ ที่เนื่องจากการกระทำของเครื่องหมายปัจจัย เอ็กซ์:

ผลต่างที่เหลือบ่งบอกถึงความแปรผันของลักษณะ ที่เนื่องจากปัจจัยทั้งหมดยกเว้น เอ็กซ์(เช่น ด้วยการยกเว้น เอ็กซ์):

จากนั้นตามกฎของการบวกผลต่าง:

คุณภาพของห้องอบไอน้ำ เชิงเส้นการถดถอยยังสามารถกำหนดได้โดยใช้ ค่าสัมประสิทธิ์สหสัมพันธ์เชิงเส้นคู่:

,

ที่ไหน
– ความแปรปรวนร่วมของตัวแปร เอ็กซ์และ ที่;

– ส่วนเบี่ยงเบนมาตรฐานของคุณลักษณะอิสระ

– ค่าเบี่ยงเบนมาตรฐานของลักษณะเฉพาะ

ค่าสัมประสิทธิ์สหสัมพันธ์เชิงเส้นแสดงถึงความใกล้ชิดและทิศทางของความสัมพันธ์ระหว่างคุณลักษณะที่กำลังศึกษา มีการวัดภายใน [-1; +1]:

ถ้า
– จากนั้นความเชื่อมโยงระหว่างคุณลักษณะจะเป็นทางตรง

ถ้า
– จากนั้นความสัมพันธ์ระหว่างสัญญาณจะกลับกัน

ถ้า
– ดังนั้นจึงไม่มีความเชื่อมโยงระหว่างคุณลักษณะ

ถ้า
หรือ
– จากนั้นการเชื่อมต่อระหว่างคุณลักษณะต่างๆ จะทำงานได้ เช่น โดดเด่นด้วยการติดต่อสื่อสารที่สมบูรณ์ระหว่าง เอ็กซ์และ ที่- ยิ่งใกล้. ถึง 1 ยิ่งพิจารณาความสัมพันธ์ระหว่างคุณลักษณะที่ศึกษามากขึ้นเท่านั้น

หากดัชนีสหสัมพันธ์ (สัมประสิทธิ์สหสัมพันธ์เชิงเส้นคู่) ถูกยกกำลังสอง เราจะได้ค่าสัมประสิทธิ์การกำหนด

ค่าสัมประสิทธิ์การตัดสินใจ– แสดงถึงส่วนแบ่งของความแปรปรวนของปัจจัยในผลรวม และแสดงด้วยเปอร์เซ็นต์ของการแปรผันของคุณลักษณะผลลัพธ์ ที่อธิบายโดยการแปรผันของคุณลักษณะของปัจจัย เอ็กซ์:

มันไม่ได้แสดงลักษณะเฉพาะของรูปแบบทั้งหมด ที่จากเครื่องหมายปัจจัย เอ็กซ์แต่เฉพาะส่วนที่สอดคล้องกับสมการการถดถอยเชิงเส้นเท่านั้น กล่าวคือ การแสดง ความถ่วงจำเพาะการแปรผันของคุณลักษณะผลลัพธ์ สัมพันธ์เชิงเส้นตรงกับการแปรผันของคุณลักษณะปัจจัย

ขนาด
– สัดส่วนของการแปรผันในลักษณะผลลัพธ์ที่แบบจำลองการถดถอยไม่สามารถนำมาพิจารณาได้

การกระจายตัวของจุดในฟิลด์สหสัมพันธ์อาจมีขนาดใหญ่มากและสมการการถดถอยที่คำนวณได้อาจทำให้เกิดข้อผิดพลาดอย่างมากในการประมาณค่าตัวบ่งชี้ที่วิเคราะห์

ข้อผิดพลาดในการประมาณค่าเฉลี่ยแสดงความเบี่ยงเบนเฉลี่ยของค่าที่คำนวณได้จากค่าจริง:

ค่าสูงสุดที่อนุญาตคือ 12–15%

ข้อผิดพลาดมาตรฐานคือการวัดการแพร่กระจายของตัวแปรตามรอบเส้นการถดถอย จะมีการคำนวณสำหรับชุดค่าที่สังเกตได้ทั้งหมด มาตรฐาน (rms) ข้อผิดพลาดสมการถดถอยซึ่งเป็นค่าเบี่ยงเบนมาตรฐานของค่าจริง ที่สัมพันธ์กับค่าทางทฤษฎีที่คำนวณโดยใช้สมการถดถอย ที่ เอ็กซ์ .

,

ที่ไหน
– จำนวนระดับความเป็นอิสระ

– จำนวนพารามิเตอร์ของสมการถดถอย (สำหรับสมการเส้นตรง =2).

ประมาณการค่าเฉลี่ย ข้อผิดพลาดกำลังสองคุณสามารถเปรียบเทียบมันได้

ก) ด้วยค่าเฉลี่ยของลักษณะผลลัพธ์ ที่;

b) มีค่าเบี่ยงเบนมาตรฐานของคุณลักษณะ ที่:

ถ้า
ดังนั้นการใช้สมการถดถอยนี้มีความเหมาะสม

ประเมินแยกกัน มาตรฐาน ข้อผิดพลาด (ค่าเฉลี่ยกำลังสอง) ของพารามิเตอร์สมการและดัชนีสหสัมพันธ์:

;
;
.

เอ็กซ์– ส่วนเบี่ยงเบนมาตรฐาน เอ็กซ์.

การตรวจสอบความสำคัญของสมการถดถอยและตัวบ่งชี้ความแน่นของการเชื่อมต่อ

เพื่อให้แบบจำลองที่สร้างขึ้นนำไปใช้ในการคำนวณทางเศรษฐกิจต่อไป การตรวจสอบคุณภาพของแบบจำลองที่สร้างขึ้นนั้นยังไม่เพียงพอ นอกจากนี้ยังจำเป็นต้องตรวจสอบนัยสำคัญ (นัยสำคัญ) ของการประมาณสมการการถดถอยที่ได้รับโดยใช้วิธีกำลังสองน้อยที่สุดและตัวบ่งชี้ความแข็งแกร่งของความสัมพันธ์ เช่น จำเป็นต้องตรวจสอบความสอดคล้องกับพารามิเตอร์ที่แท้จริงของความสัมพันธ์

นี่เป็นเพราะความจริงที่ว่าตัวบ่งชี้ที่คำนวณจากประชากรที่จำกัดยังคงรักษาองค์ประกอบของการสุ่มที่มีอยู่ในค่าแต่ละค่าของคุณลักษณะ ดังนั้นจึงเป็นเพียงการประมาณการรูปแบบทางสถิติบางอย่างเท่านั้น จำเป็นต้องประเมินระดับความถูกต้องและความสำคัญ (ความน่าเชื่อถือ นัยสำคัญ) ของพารามิเตอร์การถดถอย ภายใต้ ความสำคัญเข้าใจความน่าจะเป็นที่ค่าของพารามิเตอร์ที่จะทดสอบไม่เป็นศูนย์และไม่รวมค่าของเครื่องหมายตรงกันข้าม

การตรวจสอบความสำคัญ– การตรวจสอบสมมติฐานว่าพารามิเตอร์แตกต่างจากศูนย์

การประเมินความสำคัญของสมการถดถอยคู่ลงมาเพื่อทดสอบสมมติฐานเกี่ยวกับความสำคัญของสมการถดถอยโดยรวมและพารามิเตอร์แต่ละตัว ( , ) สัมประสิทธิ์คู่ของการกำหนดหรือดัชนีสหสัมพันธ์

ในกรณีนี้สามารถหยิบยกสิ่งต่อไปนี้: สมมติฐานหลักชม 0 :

1)
– ค่าสัมประสิทธิ์การถดถอยไม่มีนัยสำคัญและสมการการถดถอยก็ไม่มีนัยสำคัญเช่นกัน

2)
– ค่าสัมประสิทธิ์การจับคู่ของการกำหนดไม่มีนัยสำคัญและสมการการถดถอยก็ไม่มีนัยสำคัญเช่นกัน

สมมติฐานต่อไปนี้เป็นทางเลือก (หรือย้อนกลับ):

1)
– ค่าสัมประสิทธิ์การถดถอยแตกต่างอย่างมีนัยสำคัญจากศูนย์ และสมการการถดถอยที่สร้างขึ้นมีนัยสำคัญ

2)
– ค่าสัมประสิทธิ์การจับคู่ของการกำหนดมีความแตกต่างอย่างมีนัยสำคัญจากศูนย์ และสมการการถดถอยที่สร้างขึ้นนั้นมีนัยสำคัญ

ทดสอบสมมติฐานเกี่ยวกับความสำคัญของสมการถดถอยคู่

เพื่อทดสอบสมมติฐานเกี่ยวกับความไม่มีนัยสำคัญทางสถิติของสมการการถดถอยโดยรวมและสัมประสิทธิ์การกำหนด เราใช้ เอฟ-เกณฑ์(การทดสอบฟิชเชอร์):

หรือ

ที่ไหน เค 1 = –1 ; เค 2 = n – จำนวนระดับความเป็นอิสระ

n– จำนวนหน่วยประชากร

– จำนวนพารามิเตอร์สมการถดถอย

– การกระจายตัวของปัจจัย

–ความแปรปรวนคงเหลือ

สมมติฐานได้รับการทดสอบดังนี้:

1) ถ้าเป็นค่าจริง (สังเกตได้) เอฟ-เกณฑ์มีค่ามากกว่าค่าวิกฤต (ตาราง) ของเกณฑ์นี้
แล้วด้วยความน่าจะเป็น
สมมติฐานหลักเกี่ยวกับความไม่มีนัยสำคัญของสมการการถดถอยหรือสัมประสิทธิ์การกำหนดคู่ถูกปฏิเสธ และถือว่าสมการการถดถอยมีนัยสำคัญ

2) ถ้าค่าจริง (สังเกตได้) ของเกณฑ์ F น้อยกว่าค่าวิกฤตของเกณฑ์นี้
แล้วมีความน่าจะเป็น (
) ยอมรับสมมติฐานหลักเกี่ยวกับความไม่มีนัยสำคัญของสมการการถดถอยหรือสัมประสิทธิ์การจับคู่ของการกำหนด และสมการการถดถอยที่สร้างขึ้นถือว่าไม่มีนัยสำคัญ

ค่าวิกฤต เอฟ-เกณฑ์จะพบได้ในตารางที่เกี่ยวข้องขึ้นอยู่กับระดับนัยสำคัญ และจำนวนระดับความเป็นอิสระ
.

จำนวนองศาความเป็นอิสระ– ตัวบ่งชี้ซึ่งหมายถึงความแตกต่างระหว่างขนาดตัวอย่าง ( n) และจำนวนพารามิเตอร์โดยประมาณสำหรับตัวอย่างที่กำหนด ( - สำหรับแบบจำลองการถดถอยแบบคู่ จำนวนองศาอิสระจะถูกคำนวณดังนี้
เนื่องจากพารามิเตอร์สองตัวถูกประมาณจากตัวอย่าง (
).

ระดับความสำคัญ – มูลค่าที่กำหนด
,

ที่ไหน – ความน่าจะเป็นความเชื่อมั่นของพารามิเตอร์โดยประมาณที่ตกอยู่ในช่วงความเชื่อมั่น โดยปกติจะยอมรับ 0.95 ดังนั้น คือความน่าจะเป็นที่พารามิเตอร์โดยประมาณจะไม่ตกอยู่ในช่วงความเชื่อมั่น เท่ากับ 0.05 (5%)

จากนั้น ในกรณีประเมินนัยสำคัญของสมการการถดถอยคู่ ค่าวิกฤตของการทดสอบ F จะถูกคำนวณดังนี้
:

.

การทดสอบสมมติฐานเกี่ยวกับความสำคัญของพารามิเตอร์ของสมการถดถอยคู่และดัชนีสหสัมพันธ์

เมื่อตรวจสอบความสำคัญของพารามิเตอร์ของสมการ (สมมติฐานว่าพารามิเตอร์แตกต่างจากศูนย์) สมมติฐานหลักจะถูกหยิบยกขึ้นมาเกี่ยวกับความไม่มีนัยสำคัญของการประมาณค่าที่ได้รับ (
- เนื่องจากมีการนำเสนอสมมติฐานทางเลือก (ผกผัน) เกี่ยวกับความสำคัญของพารามิเตอร์ของสมการ (
).

เพื่อทดสอบสมมติฐานที่หยิบยกมาใช้ ที -เกณฑ์ (ที-สถิติ) การทดสอบของนักเรียน- ค่าที่สังเกตได้ ที-เกณฑ์จะถูกเปรียบเทียบกับค่า ที-เกณฑ์ที่กำหนดจากตารางการแจกแจงนักเรียน (ค่าวิกฤต) ค่าวิกฤต ที-เกณฑ์
ขึ้นอยู่กับพารามิเตอร์สองตัว: ระดับนัยสำคัญ และจำนวนระดับความเป็นอิสระ
.

สมมติฐานที่นำเสนอได้รับการทดสอบดังนี้:

1) ถ้าเป็นค่าสัมบูรณ์ของค่าที่สังเกตได้ ที-เกณฑ์ที่มากกว่าค่าวิกฤต ที-เกณฑ์ เช่น
แล้วด้วยความน่าจะเป็น
สมมติฐานหลักเกี่ยวกับความไม่มีนัยสำคัญของพารามิเตอร์การถดถอยถูกปฏิเสธ เช่น พารามิเตอร์การถดถอยไม่เท่ากับ 0

2) ถ้าเป็นค่าสัมบูรณ์ของค่าที่สังเกตได้ ที-เกณฑ์มีค่าน้อยกว่าหรือเท่ากับค่าวิกฤต ที-เกณฑ์ เช่น
แล้วด้วยความน่าจะเป็น
ยอมรับสมมติฐานหลักเกี่ยวกับความไม่มีนัยสำคัญของพารามิเตอร์การถดถอยเช่น พารามิเตอร์การถดถอยแทบจะไม่แตกต่างจาก 0 หรือเท่ากับ 0

การประเมินความสำคัญของค่าสัมประสิทธิ์การถดถอยโดยใช้การทดสอบของนักเรียนนั้นดำเนินการโดยการเปรียบเทียบค่าประมาณกับค่าของข้อผิดพลาดมาตรฐาน:

;

เพื่อประเมินนัยสำคัญทางสถิติของดัชนีสหสัมพันธ์ (สัมประสิทธิ์เชิงเส้น) ก็ถูกนำมาใช้เช่นกัน ที-แบบทดสอบของนักเรียน

ในระหว่างการศึกษา นักเรียนมักจะพบกับสมการที่หลากหลาย หนึ่งในนั้นคือสมการการถดถอย ซึ่งมีการกล่าวถึงในบทความนี้ สมการประเภทนี้ใช้เพื่ออธิบายลักษณะของความสัมพันธ์ระหว่างกันโดยเฉพาะ พารามิเตอร์ทางคณิตศาสตร์. ประเภทนี้ความเท่าเทียมกันถูกใช้ในสถิติและเศรษฐมิติ

คำจำกัดความของการถดถอย

ในทางคณิตศาสตร์ การถดถอยหมายถึงปริมาณที่แน่นอนซึ่งอธิบายการพึ่งพาค่าเฉลี่ยของชุดข้อมูลกับค่าของปริมาณอื่น สมการการถดถอยจะแสดงค่าเฉลี่ยของคุณลักษณะอื่นเป็นฟังก์ชันของคุณลักษณะหนึ่งๆ ฟังก์ชันการถดถอยมีรูปแบบ สมการง่ายๆ y = x โดยที่ y ทำหน้าที่เป็นตัวแปรตาม และ x เป็นตัวแปรอิสระ (ฟีเจอร์-แฟคเตอร์) ในความเป็นจริง การถดถอยจะแสดงเป็น y = f (x)

ความสัมพันธ์ระหว่างตัวแปรมีกี่ประเภท?

โดยทั่วไป มีความสัมพันธ์สองประเภทที่ตรงข้ามกัน: สหสัมพันธ์และการถดถอย

ประการแรกมีลักษณะเฉพาะคือความเท่าเทียมกันของตัวแปรตามเงื่อนไข ใน ในกรณีนี้ไม่เป็นที่ทราบแน่ชัดว่าตัวแปรใดขึ้นอยู่กับตัวแปรอื่น

หากไม่มีความเท่าเทียมกันระหว่างตัวแปรและเงื่อนไขที่บอกว่าตัวแปรใดเป็นคำอธิบายและขึ้นอยู่กับตัวแปรใด เราสามารถพูดคุยเกี่ยวกับการมีอยู่ของการเชื่อมต่อประเภทที่สองได้ ในการสร้างสมการการถดถอยเชิงเส้น จำเป็นต้องค้นหาว่าความสัมพันธ์ประเภทใดที่สังเกตได้

ประเภทของการถดถอย

ปัจจุบัน มีการถดถอยที่แตกต่างกัน 7 ประเภท: ไฮเพอร์โบลิก, เชิงเส้น, พหุคูณ, ไม่เชิงเส้น, เป็นคู่, ผกผัน, เชิงเส้นแบบลอการิทึม

ไฮเปอร์โบลิก เชิงเส้น และลอการิทึม

สมการการถดถอยเชิงเส้นใช้ในสถิติเพื่ออธิบายพารามิเตอร์ของสมการอย่างชัดเจน ดูเหมือนว่า y = c+t*x+E สมการไฮเพอร์โบลิกมีรูปแบบของไฮเปอร์โบลาปกติ y = c + m / x + E สมการเชิงเส้นแบบลอการิทึมเป็นการแสดงออกถึงความสัมพันธ์โดยใช้ ฟังก์ชันลอการิทึม: ใน y = ใน c + t* ใน x + ใน E.

หลายรายการและไม่เชิงเส้น

อีกสอง ประเภทที่ซับซ้อนการถดถอยเป็นแบบทวีคูณและไม่เป็นเชิงเส้น สมการ การถดถอยหลายครั้งแสดงได้ด้วยฟังก์ชัน y = f(x 1, x 2 ...x c) + E ในสถานการณ์นี้ y ทำหน้าที่เป็นตัวแปรตาม และ x ทำหน้าที่เป็นตัวแปรอธิบาย ตัวแปร E เป็นแบบสุ่ม โดยรวมถึงอิทธิพลของปัจจัยอื่นๆ ในสมการด้วย สมการไม่เชิงเส้นการถดถอยค่อนข้างขัดแย้ง ในแง่หนึ่ง เมื่อเทียบกับตัวบ่งชี้ที่นำมาพิจารณา มันไม่เชิงเส้น แต่ในทางกลับกัน ในบทบาทของการประเมินตัวบ่งชี้ มันเป็นเชิงเส้น

การถดถอยประเภทผกผันและคู่

ค่าผกผันเป็นฟังก์ชันประเภทหนึ่งที่ต้องแปลง มุมมองเชิงเส้น- ในแอปพลิเคชันแบบดั้งเดิมส่วนใหญ่ จะมีรูปแบบของฟังก์ชัน y = 1/c + m*x+E สมการการถดถอยแบบคู่แสดงความสัมพันธ์ระหว่างข้อมูลเป็นฟังก์ชันของ y = f (x) + E เช่นเดียวกับสมการอื่นๆ y ขึ้นอยู่กับ x และ E เป็นพารามิเตอร์สุ่ม

แนวคิดเรื่องความสัมพันธ์

นี่เป็นตัวบ่งชี้ที่แสดงให้เห็นถึงความสัมพันธ์ระหว่างปรากฏการณ์หรือกระบวนการสองอย่าง ความเข้มแข็งของความสัมพันธ์แสดงเป็นค่าสัมประสิทธิ์สหสัมพันธ์ ค่าของมันผันผวนภายในช่วง [-1;+1] ตัวบ่งชี้เชิงลบบ่งบอกถึงความพร้อม ข้อเสนอแนะ, บวก - เกี่ยวกับเส้นตรง หากค่าสัมประสิทธิ์รับค่าเท่ากับ 0 แสดงว่าไม่มีความสัมพันธ์ ยิ่งค่าเข้าใกล้ 1 มากเท่าใด ความสัมพันธ์ระหว่างพารามิเตอร์ก็จะยิ่งมากขึ้นเท่านั้น

วิธีการ

วิธีพาราเมตริกสหสัมพันธ์สามารถประเมินความแข็งแกร่งของความสัมพันธ์ได้ ใช้บนพื้นฐานของการประมาณการกระจายเพื่อศึกษาพารามิเตอร์ที่เป็นไปตามกฎการแจกแจงแบบปกติ

พารามิเตอร์ของสมการการถดถอยเชิงเส้นจำเป็นต่อการระบุประเภทของการพึ่งพา ฟังก์ชันของสมการการถดถอย และประเมินตัวบ่งชี้ของสูตรความสัมพันธ์ที่เลือก ฟิลด์ความสัมพันธ์จะใช้เป็นวิธีระบุการเชื่อมต่อ เมื่อต้องการทำเช่นนี้ ข้อมูลที่มีอยู่ทั้งหมดจะต้องแสดงเป็นภาพกราฟิก ข้อมูลที่ทราบทั้งหมดจะต้องถูกลงจุดในระบบพิกัดสองมิติรูปสี่เหลี่ยมผืนผ้า นี่คือวิธีการสร้างฟิลด์สหสัมพันธ์ ค่าของปัจจัยที่อธิบายจะถูกทำเครื่องหมายตามแกน abscissa ในขณะที่ค่าของปัจจัยที่ขึ้นอยู่กับจะถูกทำเครื่องหมายตามแกนกำหนด หากมีความสัมพันธ์เชิงฟังก์ชันระหว่างพารามิเตอร์ พารามิเตอร์เหล่านั้นจะเรียงกันเป็นเส้น

หากค่าสัมประสิทธิ์สหสัมพันธ์ของข้อมูลดังกล่าวน้อยกว่า 30% เราอาจพูดถึงการขาดการเชื่อมต่อที่เกือบจะสมบูรณ์ หากอยู่ระหว่าง 30% ถึง 70% แสดงว่ามีการเชื่อมต่อแบบปิดปานกลาง ตัวบ่งชี้ 100% เป็นหลักฐานของการเชื่อมต่อที่ใช้งานได้

สมการการถดถอยแบบไม่เชิงเส้น เช่นเดียวกับสมการเชิงเส้น จะต้องเสริมด้วยดัชนีสหสัมพันธ์ (R)

สหสัมพันธ์สำหรับการถดถอยพหุคูณ

ค่าสัมประสิทธิ์การกำหนดคือเลขชี้กำลังกำลังสอง ความสัมพันธ์หลายประการ- เขาพูดถึงความสัมพันธ์ที่ใกล้ชิดของชุดตัวบ่งชี้ที่นำเสนอกับคุณลักษณะที่กำลังศึกษาอยู่ นอกจากนี้ยังสามารถพูดคุยเกี่ยวกับลักษณะของอิทธิพลของพารามิเตอร์ที่มีต่อผลลัพธ์ได้ สมการการถดถอยพหุคูณประมาณโดยใช้ตัวบ่งชี้นี้

ในการคำนวณตัวบ่งชี้ความสัมพันธ์หลายรายการ จำเป็นต้องคำนวณดัชนี

วิธีกำลังสองน้อยที่สุด

วิธีนี้เป็นวิธีการประมาณค่าปัจจัยการถดถอย สาระสำคัญของมันคือการลดผลรวมของการเบี่ยงเบนกำลังสองที่ได้รับอันเป็นผลมาจากการพึ่งพาปัจจัยในฟังก์ชัน

สมการการถดถอยเชิงเส้นแบบคู่สามารถประมาณได้โดยใช้วิธีการดังกล่าว สมการประเภทนี้ใช้เมื่อตรวจพบความสัมพันธ์เชิงเส้นคู่ระหว่างตัวบ่งชี้

พารามิเตอร์สมการ

พารามิเตอร์แต่ละตัวของฟังก์ชันการถดถอยเชิงเส้นมีความหมายเฉพาะ สมการการถดถอยเชิงเส้นคู่ประกอบด้วยพารามิเตอร์สองตัว: c และ m พารามิเตอร์ m แสดงให้เห็นถึงการเปลี่ยนแปลงโดยเฉลี่ยในตัวบ่งชี้สุดท้ายของฟังก์ชัน y โดยมีเงื่อนไขว่าตัวแปร x ลดลง (เพิ่มขึ้น) หนึ่งหน่วยทั่วไป ถ้าตัวแปร x เป็นศูนย์ ฟังก์ชันจะเท่ากับพารามิเตอร์ c ถ้าตัวแปร x ไม่เป็นศูนย์ แสดงว่าปัจจัย c จะไม่มีการดำเนินการ ความรู้สึกทางเศรษฐกิจ- สิ่งเดียวที่มีอิทธิพลต่อฟังก์ชันคือเครื่องหมายที่อยู่หน้าตัวประกอบ c หากมีลบก็บอกได้ว่าการเปลี่ยนแปลงในผลลัพธ์นั้นช้าเมื่อเทียบกับปัจจัย หากมีเครื่องหมายบวก แสดงว่าผลลัพธ์มีการเปลี่ยนแปลงอย่างรวดเร็ว

พารามิเตอร์แต่ละตัวที่เปลี่ยนค่าของสมการการถดถอยสามารถแสดงผ่านสมการได้ ตัวอย่างเช่น ตัวประกอบ c มีรูปแบบ c = y - mx

ข้อมูลที่จัดกลุ่ม

มีเงื่อนไขของงานที่ข้อมูลทั้งหมดถูกจัดกลุ่มตามแอตทริบิวต์ x แต่ในเวลาเดียวกัน กลุ่มใดกลุ่มหนึ่งค่าเฉลี่ยที่สอดคล้องกันของตัวบ่งชี้ที่ขึ้นอยู่กับจะถูกระบุ ในกรณีนี้ ค่าเฉลี่ยจะกำหนดลักษณะของตัวบ่งชี้ที่ขึ้นอยู่กับการเปลี่ยนแปลง x ดังนั้นข้อมูลที่จัดกลุ่มจะช่วยค้นหาสมการถดถอย มันถูกใช้เป็นการวิเคราะห์ความสัมพันธ์ อย่างไรก็ตาม วิธีนี้มีข้อเสียอยู่ น่าเสียดายที่ตัวชี้วัดโดยเฉลี่ยมักขึ้นอยู่กับความผันผวนจากภายนอก ความผันผวนเหล่านี้ไม่ได้สะท้อนถึงรูปแบบของความสัมพันธ์ แต่เพียงแต่ปกปิด "เสียงรบกวน" เท่านั้น ค่าเฉลี่ยแสดงรูปแบบของความสัมพันธ์ที่แย่กว่าสมการถดถอยเชิงเส้นมาก อย่างไรก็ตามสามารถใช้เป็นพื้นฐานในการค้นหาสมการได้ โดยการคูณจำนวนประชากรแต่ละรายด้วยค่าเฉลี่ยที่สอดคล้องกัน เราจะได้ผลรวม y ภายในกลุ่ม ถัดไป คุณต้องบวกจำนวนเงินทั้งหมดที่ได้รับและค้นหาตัวบ่งชี้สุดท้าย y การคำนวณด้วยตัวบ่งชี้ผลรวม xy จะยากขึ้นเล็กน้อย หากช่วงเวลาน้อย เราสามารถนำตัวบ่งชี้ x สำหรับทุกหน่วย (ภายในกลุ่ม) ให้เท่ากันตามเงื่อนไขได้ คุณควรคูณมันด้วยผลรวมของ y เพื่อหาผลรวมของผลคูณของ x และ y จากนั้นนำจำนวนเงินทั้งหมดมารวมกันแล้วปรากฎว่า จำนวนเงินทั้งหมดฮะ

สมการการถดถอยหลายคู่: การประเมินความสำคัญของความสัมพันธ์

ตามที่กล่าวไว้ข้างต้น การถดถอยพหุคูณมีฟังก์ชันในรูปแบบ y = f (x 1,x 2,…,x m)+E ส่วนใหญ่แล้วสมการดังกล่าวจะใช้ในการแก้ปัญหาอุปสงค์และอุปทานของผลิตภัณฑ์ ดอกเบี้ยรับจากหุ้นที่ซื้อคืน และเพื่อศึกษาสาเหตุและประเภทของฟังก์ชันต้นทุนการผลิต นอกจากนี้ยังใช้กันอย่างแพร่หลายในการศึกษาและการคำนวณเศรษฐศาสตร์มหภาคที่หลากหลาย แต่ในระดับเศรษฐศาสตร์จุลภาคสมการนี้มีการใช้น้อยกว่าเล็กน้อย

ภารกิจหลักของการถดถอยพหุคูณคือการสร้างแบบจำลองข้อมูลที่มีข้อมูลจำนวนมากเพื่อกำหนดเพิ่มเติมว่าปัจจัยใดที่มีอิทธิพลต่อแต่ละปัจจัยแยกกันและในจำนวนรวมทั้งหมดที่มีต่อตัวบ่งชี้ที่จำเป็นต้องมีการสร้างแบบจำลองและค่าสัมประสิทธิ์ของมัน สมการการถดถอยสามารถรับค่าได้หลากหลาย ในกรณีนี้ เพื่อประเมินความสัมพันธ์ มักใช้ฟังก์ชันสองประเภท: เชิงเส้นและไม่เชิงเส้น

ฟังก์ชันเชิงเส้นแสดงในรูปแบบของความสัมพันธ์ต่อไปนี้: y = a 0 + a 1 x 1 + a 2 x 2,+ ... + a m x m ในกรณีนี้ a2, a m ถือเป็นสัมประสิทธิ์การถดถอย "บริสุทธิ์" จำเป็นต้องระบุลักษณะการเปลี่ยนแปลงโดยเฉลี่ยในพารามิเตอร์ y โดยมีการเปลี่ยนแปลง (ลดลงหรือเพิ่มขึ้น) ในแต่ละพารามิเตอร์ x ที่สอดคล้องกันทีละหนึ่งหน่วย ขึ้นอยู่กับค่าคงที่ของตัวบ่งชี้อื่น ๆ

ตัวอย่างเช่น สมการไม่เชิงเส้นมีรูปแบบ ฟังก์ชั่นพลังงาน y=ขวาน 1 b1 x 2 b2 ...x ม. bm . ในกรณีนี้ตัวบ่งชี้ b 1, b 2 ..... b m เรียกว่าค่าสัมประสิทธิ์ความยืดหยุ่นซึ่งแสดงให้เห็นว่าผลลัพธ์จะเปลี่ยนแปลงอย่างไร (เท่าใด%) เมื่อเพิ่มขึ้น (ลดลง) ในตัวบ่งชี้ที่เกี่ยวข้อง x 1% และ โดยมีดัชนีชี้วัดปัจจัยอื่นๆ คงที่

ปัจจัยใดที่ต้องนำมาพิจารณาเมื่อสร้างการถดถอยพหุคูณ

ในการสร้างการถดถอยพหุคูณอย่างถูกต้อง จำเป็นต้องค้นหาว่าปัจจัยใดที่ควรให้ความสำคัญเป็นพิเศษ

จำเป็นต้องมีความเข้าใจถึงธรรมชาติของความสัมพันธ์ระหว่างกัน ปัจจัยทางเศรษฐกิจและเป็นแบบอย่าง ปัจจัยที่จะต้องรวมจะต้องเป็นไปตามเกณฑ์ต่อไปนี้:

  • จะต้องอยู่ภายใต้การวัดเชิงปริมาณ ในการใช้ปัจจัยที่อธิบายคุณภาพของวัตถุ ไม่ว่าในกรณีใด ควรให้รูปแบบเชิงปริมาณ
  • ไม่ควรมีความสัมพันธ์ระหว่างปัจจัยหรือความสัมพันธ์เชิงหน้าที่ การกระทำดังกล่าวส่วนใหญ่มักนำไปสู่ผลที่ตามมาอย่างถาวร - ระบบ สมการสามัญกลายเป็นแบบไม่มีเงื่อนไข และสิ่งนี้นำมาซึ่งความไม่น่าเชื่อถือและการประเมินที่ไม่ชัดเจน
  • ในกรณีที่มีตัวบ่งชี้ความสัมพันธ์ขนาดใหญ่อยู่ ไม่มีวิธีใดที่จะระบุอิทธิพลของปัจจัยที่แยกได้ ผลลัพธ์สุดท้ายตัวบ่งชี้จึงไม่สามารถตีความค่าสัมประสิทธิ์ได้

วิธีการก่อสร้าง

มีอยู่ จำนวนมากวิธีการและเทคนิคที่อธิบายวิธีการเลือกตัวประกอบสำหรับสมการ อย่างไรก็ตาม วิธีการทั้งหมดนี้ขึ้นอยู่กับการเลือกค่าสัมประสิทธิ์โดยใช้ตัวบ่งชี้สหสัมพันธ์ ในหมู่พวกเขาคือ:

  • วิธีการกำจัด
  • วิธีการสลับ
  • การวิเคราะห์การถดถอยแบบขั้นตอน

วิธีแรกเกี่ยวข้องกับการกรองค่าสัมประสิทธิ์ทั้งหมดออกจากชุดทั้งหมด วิธีที่สองเกี่ยวข้องกับการแนะนำชุด ปัจจัยเพิ่มเติม- อย่างที่สามคือการกำจัดปัจจัยที่เคยใช้สำหรับสมการก่อนหน้านี้ แต่ละวิธีเหล่านี้มีสิทธิ์ที่จะมีอยู่ พวกเขามีข้อดีและข้อเสีย แต่พวกเขาก็สามารถแก้ไขปัญหาการกำจัดตัวบ่งชี้ที่ไม่จำเป็นด้วยวิธีของตนเองได้ โดยปกติแล้วผลลัพธ์ที่ได้รับแต่ละครั้ง วิธีการแยกใกล้พอแล้ว

วิธีการวิเคราะห์หลายตัวแปร

วิธีการกำหนดปัจจัยดังกล่าวขึ้นอยู่กับการพิจารณาลักษณะเฉพาะที่เกี่ยวข้องกัน ซึ่งรวมถึงการวิเคราะห์จำแนก การจดจำรูปร่าง การวิเคราะห์องค์ประกอบหลัก และการวิเคราะห์คลัสเตอร์ นอกจากนี้ยังมีการวิเคราะห์ปัจจัยด้วย แต่ปรากฏเนื่องจากการพัฒนาวิธีการแบบองค์ประกอบ ทั้งหมดมีผลบังคับใช้ในบางสถานการณ์ ขึ้นอยู่กับเงื่อนไขและปัจจัยบางประการ

x เรียกว่าตัวทำนาย - ตัวแปรอิสระหรือตัวแปรอธิบาย

สำหรับปริมาณ x ที่กำหนด Y คือค่าของตัวแปร y (เรียกว่าตัวแปรตาม เอาต์พุต หรือการตอบสนอง) ที่อยู่บนบรรทัดการประเมิน นี่คือค่าที่เราคาดหวังสำหรับ y (โดยเฉลี่ย) ถ้าเรารู้ค่าของ x และเรียกว่า “ค่าทำนายของ y” (รูปที่ 5)

a คือระยะอิสระ (จุดตัด) ของเส้นประเมิน นี่คือค่าของ Y เมื่อ x = 0

ข- ความลาดชันหรือการไล่ระดับสีของเส้นประมาณ มันแสดงถึงจำนวนที่ Y เพิ่มขึ้นโดยเฉลี่ยถ้าเราเพิ่ม x ขึ้นหนึ่งหน่วย (รูปที่ 5) ค่าสัมประสิทธิ์ b เรียกว่าสัมประสิทธิ์การถดถอย

ตัวอย่างเช่น เมื่ออุณหภูมิร่างกายเพิ่มขึ้น 1 o C อัตราชีพจรจะเพิ่มขึ้นโดยเฉลี่ย 10 ครั้งต่อนาที

รูปที่ 5 เส้นการถดถอยเชิงเส้นแสดงค่าสัมประสิทธิ์ และความลาดชัน (ปริมาณที่เพิ่มขึ้น ด้วยการเพิ่มขึ้น เอ็กซ์ต่อหน่วย)

ในทางคณิตศาสตร์ การแก้สมการการถดถอยเชิงเส้นจะลดลงเป็นการคำนวณพารามิเตอร์ a และ b ในลักษณะที่จุดของข้อมูลเริ่มต้นของฟิลด์สหสัมพันธ์ วางให้ใกล้เคียงที่สุดเท่าที่จะเป็นไปได้เพื่อกำหนดทิศทางการถดถอย .

การใช้คำว่าการถดถอยทางสถิติมาจากปรากฏการณ์ที่เรียกว่าการถดถอยต่อค่าเฉลี่ย ซึ่งมาจาก Francis Galton (1889) เขาแสดงให้เห็นว่าถึงแม้พ่อตัวสูงมักจะมีลูกชายตัวสูง แต่ส่วนสูงโดยเฉลี่ยของลูกชายยังน้อยกว่าพ่อตัวสูงอีกด้วย ความสูงเฉลี่ยของบุตรชาย "ถดถอย" หรือ "ถอยหลัง" ต่อความสูงเฉลี่ยของบิดาทุกคนในประชากร ดังนั้น โดยเฉลี่ยแล้ว พ่อตัวสูงจะมีลูกชายที่ตัวเตี้ยกว่า (แต่ก็ยังค่อนข้างสูง) และพ่อตัวเตี้ยก็มีลูกชายที่สูงกว่า (แต่ก็ยังค่อนข้างเตี้ย)

เราเห็นการถดถอยของค่าเฉลี่ยในการตรวจคัดกรองและการทดลองทางคลินิก ซึ่งอาจเลือกกลุ่มย่อยของผู้ป่วยเพื่อรับการรักษาได้ เนื่องจากระดับของตัวแปรบางอย่าง เช่น คอเลสเตอรอล นั้นสูงมาก (หรือต่ำ) หากการวัดนี้ทำซ้ำเมื่อเวลาผ่านไป ค่าเฉลี่ยของการอ่านค่าครั้งที่สองสำหรับกลุ่มย่อยมักจะน้อยกว่าการอ่านครั้งแรก โดยมีแนวโน้ม (เช่น การถดถอย) ไปยังค่าเฉลี่ยประชากรที่จับคู่อายุและเพศ โดยไม่คำนึงถึงการรักษาที่พวกเขาอาจได้รับ ผู้ป่วยที่ได้รับการคัดเลือกเข้าสู่การทดลองทางคลินิกตาม ระดับสูงระดับคอเลสเตอรอลในการตรวจครั้งแรกจึงมีแนวโน้มที่จะแสดงระดับคอเลสเตอรอลลดลงโดยเฉลี่ยในการตรวจครั้งที่สอง แม้ว่าจะไม่ได้รับการรักษาในช่วงเวลานี้ก็ตาม

บ่อยครั้งที่วิธีการวิเคราะห์การถดถอยใช้เพื่อพัฒนามาตราส่วนเชิงบรรทัดฐานและมาตรฐานของการพัฒนาทางกายภาพ


เส้นการถดถอยที่พอดีกับข้อมูลสามารถตัดสินได้โดยการคำนวณสัมประสิทธิ์ R (โดยปกติจะแสดงเป็นเปอร์เซ็นต์และเรียกว่าสัมประสิทธิ์การกำหนด) ซึ่งเท่ากับกำลังสองของสัมประสิทธิ์สหสัมพันธ์ (r2) มันแสดงถึงสัดส่วนหรือเปอร์เซ็นต์ของความแปรปรวนใน y ที่สามารถอธิบายได้ด้วยความสัมพันธ์กับ x นั่นคือ ส่วนแบ่งของการแปรผันในคุณลักษณะผลลัพธ์ที่พัฒนาขึ้นภายใต้อิทธิพลของคุณลักษณะอิสระ สามารถรับค่าได้ในช่วงตั้งแต่ 0 ถึง 1 หรือตั้งแต่ 0 ถึง 100% ความแตกต่าง (100% - R) แสดงถึงเปอร์เซ็นต์ของความแปรปรวนในหน่วย y ซึ่งไม่สามารถอธิบายได้ด้วยปฏิสัมพันธ์นี้

ตัวอย่าง

ความสัมพันธ์ระหว่างความสูง (วัดเป็นซม.) และความดันโลหิตซิสโตลิก (SBP วัดเป็น mmHg) ในเด็ก เราทำการวิเคราะห์การถดถอยเชิงเส้นคู่ของความสัมพันธ์ระหว่าง SBP และความสูง (รูปที่ 6) มีความสัมพันธ์เชิงเส้นตรงที่สำคัญระหว่างความสูงและ SBP

รูปที่ 6 กราฟสองมิติแสดงความสัมพันธ์ระหว่างความดันโลหิตซิสโตลิกและส่วนสูง แสดงเส้นการถดถอยโดยประมาณซึ่งก็คือความดันโลหิตซิสโตลิก

สมการของเส้นการถดถอยโดยประมาณมีดังนี้:

SBP = 46.28 + 0.48 x สูง

ในตัวอย่างนี้ คำตัดขวางไม่เป็นที่สนใจ (การเติบโตของศูนย์จะเห็นได้ชัดว่าอยู่นอกช่วงของค่าที่สังเกตในการศึกษา) อย่างไรก็ตาม เราสามารถตีความความชันได้ คาดว่า SBP จะเพิ่มขึ้นโดยเฉลี่ย 0.48 มม. ปรอทในเด็กเหล่านี้ โดยมีส่วนสูงเพิ่มขึ้นหนึ่งเซนติเมตร

เราสามารถใช้สมการการถดถอยเพื่อทำนายค่า SBP ที่เราคาดหวังได้ว่าเด็กจะมีความสูงตามที่กำหนด ตัวอย่างเช่น เด็กที่สูง 115 ซม. จะมีค่า SBP ที่คาดการณ์ไว้ที่ 46.28 + (0.48 x 115) = 101.48 mmHg ศิลปะ เด็กที่มีส่วนสูง 130 มี SBP ที่คาดการณ์ไว้ที่ 46.28 + (0.48 x 130) = 108.68 มม. ปรอท ศิลปะ.

เมื่อคำนวณค่าสัมประสิทธิ์สหสัมพันธ์พบว่ามีค่าเท่ากับ 0.55 ซึ่งบ่งบอกถึงความสัมพันธ์โดยตรง ความแข็งแรงปานกลาง- ในกรณีนี้คือค่าสัมประสิทธิ์การตัดสินใจ ร 2 = 0.55 2 = 0.3- ดังนั้นเราสามารถพูดได้ว่าส่วนแบ่งของอิทธิพลของความสูงต่อระดับความดันโลหิตในเด็กนั้นไม่เกิน 30% ดังนั้นปัจจัยอื่น ๆ จึงคิดเป็น 70% ของอิทธิพล

การถดถอยเชิงเส้น (อย่างง่าย) จำกัดอยู่ที่การดูความสัมพันธ์ระหว่างตัวแปรตามและตัวแปรอิสระเพียงตัวเดียวเท่านั้น หากมีตัวแปรอิสระมากกว่าหนึ่งตัวในความสัมพันธ์ เราต้องหันไปใช้การถดถอยพหุคูณ สมการสำหรับการถดถอยดังกล่าวมีลักษณะดังนี้:

y = a + bx 1 +b 2 x 2 +.... + b n x n

เราอาจสนใจผลกระทบของตัวแปรอิสระหลายตัว x 1, x 2, .., xn ต่อตัวแปรตอบสนอง y หากเราเชื่อว่าค่า x เหล่านี้อาจพึ่งพาอาศัยกัน เราไม่ควรแยกดูผลของการเปลี่ยนค่า x หนึ่งต่อ y แต่ควรคำนึงถึงขนาดของ x ตัวอื่นๆ ทั้งหมดไปพร้อมๆ กัน

ตัวอย่าง

เนื่องจากมีความสัมพันธ์ที่ชัดเจนระหว่างส่วนสูงและน้ำหนักของเด็ก เราอาจสงสัยว่าความสัมพันธ์ระหว่างส่วนสูงและความดันโลหิตซิสโตลิกจะเปลี่ยนแปลงไปหรือไม่เมื่อคำนึงถึงน้ำหนักและเพศของเด็กด้วย การถดถอยเชิงเส้นพหุคูณจะตรวจสอบผลร่วมของตัวแปรอิสระหลายตัวที่มีต่อ y

สมการการถดถอยพหุคูณในกรณีนี้สามารถมีลักษณะดังนี้:

SBP = 79.44 - (0.03 x สูง) + (1.18 x น้ำหนัก) + (4.23 x เพศ)*

* - (สำหรับแอตทริบิวต์เพศ ค่าคือ 0 - เด็กผู้ชาย 1 - เด็กหญิง)

จากสมการนี้ เด็กผู้หญิงที่มีส่วนสูง 115 ซม. และมีน้ำหนักตัว 37 กก. จะมีค่า SBP ที่ทำนายไว้:

SBP = 79.44 - (0.03 x 115) + (1.18 x 37) + (4.23 x 1) = 123.88 มิลลิเมตรปรอท

การถดถอยโลจิสติกคล้ายกับการถดถอยเชิงเส้นมาก ใช้เมื่อมีผลไบนารี่ที่น่าสนใจ (เช่น การมีอยู่/ไม่มีอาการ หรือบุคคลที่มี/ไม่มีโรค) และตัวทำนายจำนวนหนึ่ง จากสมการการถดถอยโลจิสติก เราสามารถระบุได้ว่าตัวทำนายตัวใดมีอิทธิพลต่อผลลัพธ์ และใช้ค่าตัวทำนายของผู้ป่วยในการประมาณความน่าจะเป็นที่เขา/เธอจะได้ผลลัพธ์เฉพาะ เช่น ภาวะแทรกซ้อนจะเกิดขึ้นหรือไม่ การรักษาจะได้ผลหรือไม่ก็ตาม

เริ่มต้นสร้างตัวแปรไบนารี่เพื่อแสดงถึงผลลัพธ์ทั้งสอง (เช่น “มีโรค” = 1 “ไม่มีโรค” = 0) อย่างไรก็ตาม เราไม่สามารถใช้ค่าทั้งสองนี้เป็นตัวแปรตามในการวิเคราะห์การถดถอยเชิงเส้นได้ เนื่องจากสมมติฐานภาวะปกติถูกละเมิด และเราไม่สามารถตีความค่าที่ทำนายไว้ซึ่งไม่เท่ากับศูนย์หรือหนึ่งค่าได้

ที่จริงแล้ว เราใช้ความน่าจะเป็นที่วัตถุถูกจัดอยู่ในหมวดหมู่ที่ใกล้เคียงที่สุด (เช่น "เป็นโรค") ของตัวแปรตาม และเพื่อเอาชนะความยากลำบากทางคณิตศาสตร์ ให้ใช้การแปลงลอจิสติกกับสมการการถดถอย - ลอการิทึมธรรมชาติอัตราส่วนของความน่าจะเป็นของ “โรค” (p) ต่อความน่าจะเป็นของ “ไม่มีโรค” (1-p)

กระบวนการเชิงบูรณาการที่เรียกว่าความน่าจะเป็นสูงสุด แทนที่จะเป็นการถดถอยแบบธรรมดา (เนื่องจากเราไม่สามารถใช้ขั้นตอนการถดถอยเชิงเส้นได้) จะสร้างการประมาณสมการการถดถอยโลจิสติกจากข้อมูลตัวอย่าง

logit (p) = a + bx 1 +b 2 x 2 +.... + bnxn

logit (p) - การประมาณความน่าจะเป็นที่แท้จริงที่ผู้ป่วยที่มีชุดค่าเฉพาะสำหรับ x 1 ... xn มีโรค

a คือค่าประมาณของค่าคงที่ (ระยะอิสระ, ทางแยก)

b 1, b 2,..., bn - การประมาณค่าสัมประสิทธิ์การถดถอยโลจิสติก

1. คำถามในหัวข้อบทเรียน:

1. กำหนดการเชื่อมต่อการทำงานและความสัมพันธ์

2. ยกตัวอย่างความสัมพันธ์โดยตรงและผกผัน

3. ระบุขนาดของค่าสัมประสิทธิ์สหสัมพันธ์สำหรับค่าอ่อน ปานกลาง และ การเชื่อมต่อที่แข็งแกร่งระหว่างสัญญาณ

4. ใช้ในกรณีใดบ้าง? วิธีการจัดอันดับกำลังคำนวณค่าสัมประสิทธิ์สหสัมพันธ์?

5. การคำนวณสัมประสิทธิ์สหสัมพันธ์ของเพียร์สันใช้ในกรณีใด

6. ขั้นตอนหลักในการคำนวณค่าสัมประสิทธิ์สหสัมพันธ์โดยใช้วิธีอันดับคืออะไร?

7. กำหนด “การถดถอย” สาระสำคัญของวิธีการถดถอยคืออะไร?

8. อธิบายสูตรสมการการถดถอยเชิงเส้นอย่างง่าย

9. กำหนดค่าสัมประสิทธิ์การถดถอย

10. ถ้าค่าสัมประสิทธิ์การถดถอยของน้ำหนักต่อส่วนสูงเท่ากับ 0.26 กก./ซม. จะได้ข้อสรุปอย่างไร

11. สูตรสมการถดถอยใช้ทำอะไร?

12. ค่าสัมประสิทธิ์การตัดสินใจคืออะไร?

13. สมการถดถอยพหุคูณใช้ในกรณีใดบ้าง?

14. วิธี Logistic Regression ใช้ทำอะไร?

กระทรวงศึกษาธิการและวิทยาศาสตร์แห่งสหพันธรัฐรัสเซีย

หน่วยงานกลางเพื่อการศึกษา

สถานะ สถาบันการศึกษาการศึกษาวิชาชีพชั้นสูง

สถาบันการเงินและเศรษฐกิจทางจดหมายทั้งหมดของรัสเซีย

สาขาในตูลา

ทดสอบ

ในสาขาวิชา "เศรษฐมิติ"

ตูลา - 2010

ปัญหาที่ 2 (ก, ข)

สำหรับองค์กรอุตสาหกรรมเบาได้รับข้อมูลที่แสดงถึงการพึ่งพาปริมาณผลผลิต (Y, ล้านรูเบิล) กับปริมาณการลงทุน (X, ล้านรูเบิล) ตาราง 1.

เอ็กซ์ 33 17 23 17 36 25 39 20 13 12
43 27 32 29 45 35 47 32 22 24

ที่จำเป็น:

1. ค้นหาพารามิเตอร์ของสมการการถดถอยเชิงเส้น ให้การตีความทางเศรษฐศาสตร์ของสัมประสิทธิ์การถดถอย

2. คำนวณส่วนที่เหลือ หา จำนวนคงเหลือสี่เหลี่ยม; ประมาณการความแปรปรวนของส่วนที่เหลือ

- วางแผนส่วนที่เหลือ

3. ตรวจสอบการปฏิบัติตามข้อกำหนดเบื้องต้นของ MNC

4. ตรวจสอบความสำคัญของพารามิเตอร์ของสมการถดถอยโดยใช้การทดสอบของนักเรียน (α=0.05)

5. คำนวณค่าสัมประสิทธิ์การกำหนด ตรวจสอบความสำคัญของสมการถดถอยโดยใช้การทดสอบ F ของฟิชเชอร์ (α=0.05) ค้นหาค่าคลาดเคลื่อนสัมพัทธ์โดยเฉลี่ยของการประมาณ สรุปเกี่ยวกับคุณภาพของแบบจำลอง

6. ทำนายค่าเฉลี่ยของตัวบ่งชี้ Y ที่ระดับนัยสำคัญที่ α=0.1 หากค่าที่ทำนายของปัจจัย X คือ 80% ของค่าสูงสุด

7. นำเสนอแบบกราฟิก: ค่าจริงและแบบจำลอง Y, จุดพยากรณ์

8. สร้างสมการถดถอยไม่เชิงเส้น:

ซึ่งเกินความจริง;

สงบ;

บ่งชี้

แสดงกราฟของสมการถดถอยที่สร้างขึ้น

9. สำหรับรุ่นที่ระบุ ให้ค้นหาค่าสัมประสิทธิ์การกำหนดและค่าเฉลี่ย ข้อผิดพลาดที่เกี่ยวข้องการประมาณ เปรียบเทียบแบบจำลองตามคุณลักษณะเหล่านี้และสรุปผล

1. โมเดลเชิงเส้นมีรูปแบบ:

เราค้นหาพารามิเตอร์ของสมการการถดถอยเชิงเส้นโดยใช้สูตร

การคำนวณค่าพารามิเตอร์แสดงไว้ในตาราง 2.

ที x ใช่
1 43 33 1419 1089 42,236 0,764 0,584 90,25 88,36 0,018
2 27 17 459 289 27,692 -0,692 0,479 42,25 43,56 0,026
3 32 23 736 529 33,146 -1,146 1,313 0,25 2,56 0,036
4 29 17 493 289 27,692 1,308 1,711 42,25 21,16 0,045
5 45 36 1620 1296 44,963 0,037 0,001 156,25 129,96 0,001
6 35 25 875 625 34,964 0,036 0,001 2,25 1,96 0,001
7 47 39 1833 1521 47,69 -0,69 0,476 240,25 179,56 0,015
8 32 20 640 400 30,419 1,581 2,500 12,25 2,56 0,049
9 22 13 286 169 24,056 -2,056 4,227 110,25 134,56 0,093
10 24 12 288 144 23,147 0,853 0,728 132,25 92,16 0,036
336 235 8649 6351 12,020 828,5 696,4 0,32
เฉลี่ย 33,6 23,5 864,9 635,1

มากำหนดพารามิเตอร์ของโมเดลเชิงเส้นกัน

โมเดลเชิงเส้นมีรูปแบบ

สัมประสิทธิ์การถดถอย

แสดงให้เห็นว่าเอาต์พุต Y เพิ่มขึ้นโดยเฉลี่ย 0.909 ล้านรูเบิล ด้วยปริมาณการลงทุนเพิ่มขึ้น X 1 ล้านรูเบิล

2. คำนวณส่วนที่เหลือ

, ผลรวมที่เหลือของกำลังสองที่เราพบ ความแปรปรวนที่เหลือตามสูตร:

การคำนวณแสดงไว้ในตาราง 2.


ข้าว. 1. กราฟของสารตกค้าง ε

3. มาตรวจสอบการปฏิบัติตามข้อกำหนดเบื้องต้นของ OLS ตามเกณฑ์ Durbin-Watson

0,584
2,120 0,479
0,206 1,313
6,022 1,711
1,615 0,001
0,000 0,001
0,527 0,476
5,157 2,500
13,228 4,227
2,462 0,728
31,337 12,020

d1=0.88; d2=1.32 สำหรับ α=0.05, n=10, k=1

,

ซึ่งหมายความว่าจำนวนที่เหลือไม่มีความสัมพันธ์กัน

4. มาตรวจสอบความสำคัญของพารามิเตอร์สมการจากการทดสอบของนักเรียนกันดีกว่า (α=0.05)

สำหรับ ν=8; α=0.05.

การคำนวณมูลค่า

ผลิตในตาราง 2. เราได้รับ:
จากนั้นเราสามารถสรุปได้ว่าสัมประสิทธิ์การถดถอย a และ b มีนัยสำคัญโดยมีความน่าจะเป็น 0.95

5. ค้นหาค่าสัมประสิทธิ์สหสัมพันธ์โดยใช้สูตร

เราจะทำการคำนวณในตาราง 2.

- ที่. ความสัมพันธ์ระหว่างจำนวนเงินลงทุน X และผลผลิต Y ถือว่าใกล้เคียงกันเพราะ -

เราหาค่าสัมประสิทธิ์การตัดสินใจโดยใช้สูตร