ชีวประวัติ ลักษณะเฉพาะ การวิเคราะห์

ค่ามัธยฐาน การหาฐานนิยมและค่ามัธยฐานด้วยวิธีกราฟิก

ในปี พ.ศ. 2449 ฟรานซิส กัลตัน นักวิทยาศาสตร์ผู้ยิ่งใหญ่และนักสุพันธุศาสตร์ผู้มีชื่อเสียงได้เยี่ยมชมนิทรรศการสัตว์และสัตว์ปีกประจำปีทางตะวันตกของอังกฤษ โดยบังเอิญ เขาได้ทำการทดลองที่น่าสนใจ

ตามที่ James Surowetsky ผู้เขียน The Wisdom of the Crowd มีการแข่งขันที่ Galton Fair ซึ่งผู้คนต้องเดาน้ำหนักของวัวที่ถูกฆ่า ชื่อใกล้เคียง จำนวนจริงประกาศผู้ชนะ

Galton เป็นที่รู้จักในเรื่องการดูถูกเหยียดหยาม ความสามารถทางปัญญา คนธรรมดา. เขาเชื่อว่าผู้เชี่ยวชาญที่แท้จริงเท่านั้นที่จะสามารถให้คำชี้แจงที่ถูกต้องเกี่ยวกับน้ำหนักของวัวกระทิงได้ และผู้เข้าร่วมการแข่งขัน 787 คนไม่ใช่ผู้เชี่ยวชาญ

นักวิทยาศาสตร์กำลังจะพิสูจน์ความสามารถของฝูงชนโดยการคำนวณจำนวนเฉลี่ยจากคำตอบของผู้เข้าร่วม เขาแปลกใจอะไรเมื่อปรากฎว่าผลลัพธ์ที่เขาได้รับนั้นเกือบจะตรงกับน้ำหนักที่แท้จริงของวัว!

ค่าเฉลี่ย - การประดิษฐ์ล่าช้า

แน่นอน ความแม่นยำของคำตอบทำให้ผู้วิจัยประหลาดใจ แต่ที่น่าทึ่งยิ่งกว่าคือความจริงที่ว่า Galton คิดว่าจะใช้ค่าเฉลี่ยทั้งหมด

ในโลกปัจจุบัน ค่าเฉลี่ยและสิ่งที่เรียกว่าค่ามัธยฐานมีอยู่ทุกรอบ: อุณหภูมิเฉลี่ยในนิวยอร์กในเดือนเมษายนคือ 52 องศาฟาเรนไฮต์ Stephen Curry เฉลี่ย 30 คะแนนต่อเกม; รายได้เฉลี่ยของครัวเรือนในสหรัฐอเมริกาอยู่ที่ 51,939 ดอลลาร์ต่อปี

อย่างไรก็ตาม แนวคิดที่ว่าผลลัพธ์ที่แตกต่างกันจำนวนมากสามารถแสดงด้วยตัวเลขเดียวนั้นค่อนข้างใหม่ จนถึงศตวรรษที่ 17 ค่าเฉลี่ยไม่ได้ถูกใช้โดยทั่วไป

แนวคิดเรื่องค่าเฉลี่ยและค่ามัธยฐานเกิดขึ้นและพัฒนาได้อย่างไร? และกลายเป็นเทคนิคการวัดหลักในยุคของเราได้อย่างไร

ความเด่นของค่าเฉลี่ยเหนือค่ามัธยฐานมีผลอย่างมากต่อความเข้าใจข้อมูลของเรา และมักทำให้คนหลงทาง

ค่าเฉลี่ยและค่ามัธยฐาน

จินตนาการว่าคุณกำลังเล่าเรื่องราวเกี่ยวกับคน 4 คนที่ทานอาหารกับคุณเมื่อคืนที่ร้านอาหารแห่งหนึ่ง คุณจะให้เวลาหนึ่งในนั้น 20 ปี อีก 30 ปี ครั้งที่สาม 40 และครั้งที่สี่ 50 ปี คุณจะพูดอะไรเกี่ยวกับอายุของพวกเขาในเรื่องราวของคุณ

เป็นไปได้มากที่คุณจะเรียกพวกเขาว่าอายุเฉลี่ย

ค่าเฉลี่ยมักจะใช้เพื่อถ่ายทอดข้อมูลเกี่ยวกับบางสิ่งบางอย่าง เช่นเดียวกับการอธิบายชุดการวัด ในทางเทคนิคแล้ว ค่าเฉลี่ยคือสิ่งที่นักคณิตศาสตร์เรียกว่า "ค่าเฉลี่ยเลขคณิต" ซึ่งเป็นผลรวมของการวัดทั้งหมดหารด้วยจำนวนการวัด

แม้ว่าคำว่า "เฉลี่ย" มักถูกใช้เป็นคำพ้องความหมายสำหรับคำว่า "ค่ามัธยฐาน" (ค่ามัธยฐาน) แต่คำหลังนี้มักเรียกว่าตรงกลางของบางสิ่ง คำนี้มาจากภาษาละติน "medianus" ซึ่งแปลว่า "กลาง"

ค่ามัธยฐานใน กรีกโบราณ

ประวัติของค่ามัธยฐานมีต้นกำเนิดมาจากคำสอนของพีทาโกรัส นักคณิตศาสตร์ชาวกรีกโบราณ สำหรับพีทาโกรัสและโรงเรียนของเขา ค่ามัธยฐานมีคำจำกัดความที่ชัดเจนและแตกต่างจากที่เราเข้าใจค่าเฉลี่ยในปัจจุบันอย่างมาก ใช้ในวิชาคณิตศาสตร์เท่านั้น ไม่ใช่ในการวิเคราะห์ข้อมูล

ที่โรงเรียนของ Pythagoreans ค่ามัธยฐานเป็นเลขกลางในลำดับเลขสามพจน์ มีความสัมพันธ์ "เท่ากัน" กับศัพท์ข้างเคียง อัตราส่วน "เท่ากัน" อาจหมายถึงระยะทางเท่ากัน ตัวอย่างเช่น หมายเลข 4 ในแถว 2,4,6 อย่างไรก็ตาม มันยังสามารถแสดง ความก้าวหน้าทางเรขาคณิตเช่น 10 ในลำดับ 1,10,100

นักสถิติ Churchill Eisenhart อธิบายว่าในสมัยกรีกโบราณ ค่ามัธยฐานไม่ได้ถูกใช้เป็นตัวแทนหรือใช้แทนชุดตัวเลขใดๆ ใช้แทนค่ากลางและมักใช้ในการพิสูจน์ทางคณิตศาสตร์

ไอเซนฮาร์ตใช้เวลาสิบปีศึกษาค่าเฉลี่ยและค่ามัธยฐาน ในขั้นต้น เขาพยายามค้นหาฟังก์ชันตัวแทนของค่ามัธยฐานในโครงสร้างทางวิทยาศาสตร์ยุคแรก อย่างไรก็ตาม เขากลับพบว่านักฟิสิกส์และนักดาราศาสตร์ในยุคแรก ๆ ส่วนใหญ่อาศัยการวัดแบบเดี่ยวที่ทำขึ้นอย่างชำนาญ และไม่มีวิธีการใดให้เลือก ผลลัพธ์ที่ดีที่สุดท่ามกลางข้อสังเกตมากมาย

นักวิจัยสมัยใหม่ใช้ข้อสรุปในการรวบรวมข้อมูลจำนวนมาก เช่น นักชีววิทยาศึกษาจีโนมมนุษย์ ในทางกลับกัน นักวิทยาศาสตร์สมัยโบราณสามารถวัดได้หลายอย่าง แต่เลือกเฉพาะสิ่งที่ดีที่สุดสำหรับการสร้างทฤษฎีของตน

ดังที่นักประวัติศาสตร์ด้านดาราศาสตร์ Otto Neugebauer เขียนว่า “สิ่งนี้สอดคล้องกับความปรารถนาอย่างมีสติ คนโบราณลดจำนวนหลักฐานเชิงประจักษ์ในวิทยาศาสตร์ลง เพราะพวกเขาไม่เชื่อในความแม่นยำของการสังเกตโดยตรง"

ตัวอย่างเช่น ปโตเลมี นักคณิตศาสตร์และนักดาราศาสตร์ชาวกรีกคำนวณเส้นผ่านศูนย์กลางเชิงมุมของดวงจันทร์โดยใช้วิธีการสังเกตและทฤษฎีการเคลื่อนที่ของโลก คะแนนของเขาคือ 31'20 ปัจจุบันเราทราบแล้วว่าเส้นผ่านศูนย์กลางของดวงจันทร์อยู่ในช่วง 29'20 ถึง 34'6 ขึ้นอยู่กับระยะทางจากโลก ปโตเลมีใช้ข้อมูลเพียงเล็กน้อยในการคำนวณ แต่เขามีเหตุผลทุกประการที่จะเชื่อได้ว่าข้อมูลเหล่านี้ถูกต้อง

Eisenhart เขียนว่า: "ต้องระลึกไว้เสมอว่าความสัมพันธ์ระหว่างการสังเกตและทฤษฎีในสมัยโบราณนั้นแตกต่างจากที่เป็นอยู่ในปัจจุบัน ผลของการสังเกตไม่ได้ถูกเข้าใจว่าเป็นข้อเท็จจริงที่ควรปรับปรุงทฤษฎี แต่เป็นกรณีที่เป็นรูปธรรมที่สามารถเป็นประโยชน์ได้เฉพาะตัวอย่างที่แสดงให้เห็นความจริงของทฤษฎีเท่านั้น

ในที่สุด นักวิทยาศาสตร์จะหันไปใช้การวัดข้อมูลแบบตัวแทน แต่ในตอนแรกไม่ได้ใช้วิธีใดหรือค่ามัธยฐานในบทบาทนี้ ตั้งแต่สมัยโบราณจนถึง วันนี้ในฐานะที่เป็นตัวแทนหมายถึงแนวคิดทางคณิตศาสตร์อื่นถูกนำมาใช้ - ผลรวมครึ่งหนึ่งของค่าสุดโต่ง

ผลรวมครึ่งหนึ่งของค่ามาก

ใหม่ วิธีการทางวิทยาศาสตร์มักจะเกิดขึ้นจากความต้องการในการแก้ปัญหาบางอย่างในวินัยใด ๆ จำเป็นต้องค้นหา คุ้มค่าที่สุดในหลายมิติเกิดจากความต้องการระบุที่ตั้งทางภูมิศาสตร์อย่างแม่นยำ

Al-Biruni ยักษ์ใหญ่ทางปัญญาในศตวรรษที่ 11 เป็นที่รู้จักกันว่าเป็นหนึ่งในคนกลุ่มแรก ๆ ที่ใช้วิธีการของความหมายที่เป็นตัวแทน Al-Biruni เขียนว่าเมื่อเขามีการวัดจำนวนมากและต้องการหาสิ่งที่ดีที่สุดในหมู่พวกเขา เขาใช้ "กฎ" ต่อไปนี้: คุณต้องหาตัวเลขที่ตรงกับค่ากลางระหว่างค่าสุดโต่งสองค่า เมื่อคำนวณผลรวมครึ่งหนึ่งของค่าสุดขั้ว ตัวเลขทั้งหมดระหว่างค่าสูงสุดและ ค่าต่ำสุดและหาค่าเฉลี่ยสำหรับตัวเลขสองตัวนี้เท่านั้น

Al-Biruni ใช้วิธีนี้ในด้านต่าง ๆ รวมถึงการคำนวณลองจิจูดของเมือง Ghazni ซึ่งตั้งอยู่ในดินแดนของอัฟกานิสถานในปัจจุบันรวมถึงในการศึกษาคุณสมบัติของโลหะ

อย่างไรก็ตาม ในช่วงสองสามศตวรรษที่ผ่านมา ผลรวมครึ่งหนึ่งของค่าสุดขั้วถูกใช้น้อยลงเรื่อยๆ ในความเป็นจริงใน วิทยาศาสตร์สมัยใหม่มันไม่เกี่ยวข้องเลย ค่ามัธยฐานแทนที่ผลรวมครึ่งหนึ่ง

การเปลี่ยนไปสู่ค่าเฉลี่ย

ในช่วงต้นศตวรรษที่ 19 การใช้ค่ามัธยฐาน/ค่าเฉลี่ยได้กลายเป็นวิธีทั่วไปในการหาค่าตัวแทนที่แม่นยำที่สุดจากกลุ่มข้อมูล ฟรีดริช ฟอน เกาส์ นักคณิตศาสตร์ที่โดดเด่นในยุคนั้น เขียนไว้ในปี 1809 ว่า "เชื่อกันว่าหากตัวเลขจำนวนหนึ่งถูกกำหนดโดยการสังเกตโดยตรงหลายครั้งภายใต้เงื่อนไขเดียวกัน ดังนั้นค่าเฉลี่ย ค่าเลขคณิตคือคุณค่าที่แท้จริงที่สุด หากไม่เข้มงวดนัก อย่างน้อยที่สุดก็ใกล้เคียงกับความเป็นจริง ดังนั้นจึงวางใจได้เสมอ

เหตุใดจึงมีการเปลี่ยนแปลงวิธีการเช่นนี้

คำถามนี้ตอบค่อนข้างยาก ในงานวิจัยของเขา เชอร์ชิลล์ ไอเซนฮาร์ตเสนอว่าวิธีการหาค่าเฉลี่ยเลขคณิตอาจมาจากการวัดค่าเบี่ยงเบนแม่เหล็ก นั่นคือ การหาความแตกต่างระหว่างทิศทางของเข็มทิศที่ชี้ไปทางทิศเหนือและทิศเหนือจริง การวัดนี้มีความสำคัญอย่างยิ่งในช่วงยุคแห่งการค้นพบ

Eisenhart พบว่าจนถึงสิ้นศตวรรษที่ 16 นักวิทยาศาสตร์ส่วนใหญ่ที่วัดความเบี่ยงเบนของสนามแม่เหล็กใช้วิธีเฉพาะกิจ (จากภาษาละติน "ถึงสิ่งนี้ สำหรับโอกาสนี้ เพื่อจุดประสงค์นี้") ในการเลือกการวัดที่แม่นยำที่สุด

แต่ในปี ค.ศ. 1580 นักวิทยาศาสตร์วิลเลียมเขตเลือกตั้งเข้าหาปัญหาแตกต่างกัน เขาวัดค่าการเบี่ยงเบนที่แตกต่างกันแปดแบบและเปรียบเทียบค่าเหล่านี้ และสรุปว่าค่าที่อ่านได้แม่นยำที่สุดคือระหว่าง 11 ⅓ ถึง 11 ¼ องศา เขาคงคำนวณค่าเฉลี่ยเลขคณิตซึ่งอยู่ในช่วงนี้ อย่างไรก็ตาม Borough เองไม่ได้เรียกวิธีการใหม่ของเขาอย่างเปิดเผย

ก่อนปี 1635 ไม่มีกรณีที่ชัดเจนในการใช้ค่าเฉลี่ยเป็นตัวเลขตัวแทนเลย อย่างไรก็ตาม ในตอนนั้นเองที่ Henry Gellibrand นักดาราศาสตร์ชาวอังกฤษได้ทำการวัดค่าการเบี่ยงเบนของสนามแม่เหล็กที่แตกต่างกันสองครั้ง หนึ่งเสร็จในตอนเช้า (11 องศา) และอีกอันในตอนบ่าย (11 องศาและ 32 นาที) คิดเลขมากที่สุด มูลค่าที่แท้จริง, เขาเขียน:

“หากเราพบค่าเฉลี่ยเลขคณิต เราสามารถพูดได้ว่ามีความเป็นไปได้สูงที่ผลลัพธ์ของการวัดที่แม่นยำควรอยู่ที่ประมาณ 11 องศา 16 ลิปดา”

เป็นไปได้ว่านี่เป็นครั้งแรกที่ใช้ค่าเฉลี่ยที่ใกล้เคียงความจริงมากที่สุด!

คำว่า "ปานกลาง" ถูกนำมาใช้ใน ภาษาอังกฤษในตอนต้นของศตวรรษที่ 16 เพื่อแสดงถึงการสูญเสียทางการเงินจากความเสียหายที่เรือหรือสินค้าประสบระหว่างการเดินทาง ในอีกร้อยปีข้างหน้า มันแสดงถึงความสูญเสียเหล่านี้อย่างแม่นยำ ซึ่งคำนวณเป็นค่าเฉลี่ยเลขคณิต ตัวอย่างเช่น หากเรือได้รับความเสียหายระหว่างการเดินทางและลูกเรือต้องทิ้งสินค้าลงน้ำเพื่อลดน้ำหนักของเรือ นักลงทุนจะประสบความสูญเสียทางการเงินเทียบเท่ากับจำนวนเงินที่ลงทุน - การสูญเสียเหล่านี้คำนวณในลักษณะเดียวกับ ค่าเฉลี่ยเลขคณิต ดังนั้นค่าเฉลี่ย (ค่าเฉลี่ย) และค่าเฉลี่ยเลขคณิตจึงค่อยๆบรรจบกัน

ค่ามัธยฐาน

ทุกวันนี้ ค่าเฉลี่ยหรือค่าเฉลี่ยเลขคณิตถูกใช้เป็นวิธีหลักในการเลือกค่าตัวแทนของชุดการวัด มันเกิดขึ้นได้อย่างไร? เหตุใดจึงไม่กำหนดบทบาทนี้ให้กับค่ามัธยฐาน

Francis Galton เป็นแชมป์เฉลี่ย

คำว่า "ค่ามัธยฐาน" (ค่ามัธยฐาน) ซึ่งเป็นคำที่อยู่ตรงกลางในชุดของตัวเลข หารชุดนี้ด้วยครึ่ง - ปรากฏขึ้นในเวลาเดียวกันกับค่าเฉลี่ยเลขคณิต ในปี ค.ศ. 1599 นักคณิตศาสตร์ เอ็ดเวิร์ด ไรท์ ซึ่งกำลังแก้ปัญหาความเบี่ยงเบนปกติในเข็มทิศ เสนอแนะให้ใช้ค่ามัธยฐานก่อน

“... สมมติว่ามีนักธนูจำนวนมากยิงไปที่เป้าหมาย เป้าหมายจะถูกลบออกในภายหลัง คุณจะทราบได้อย่างไรว่าเป้าหมายอยู่ที่ไหน คุณต้องหาจุดกึ่งกลางระหว่างลูกศรทั้งหมด ในทำนองเดียวกันผลจากการสังเกตชุดที่ใกล้เคียงความจริงที่สุดจะเป็นชุดที่อยู่ตรงกลาง

ค่ามัธยฐานถูกนำมาใช้อย่างแพร่หลายในศตวรรษที่ 19 และกลายเป็นส่วนที่ขาดไม่ได้ในการวิเคราะห์ข้อมูลใดๆ ในเวลานั้น นอกจากนี้ยังใช้โดย Francis Galton นักวิเคราะห์ที่มีชื่อเสียงในศตวรรษที่ 19 ในเรื่องราวการชั่งน้ำหนักวัวในตอนต้นของบทความนี้ แต่เดิม Galton ใช้ค่ามัธยฐานเป็นตัวแทนความคิดเห็นของฝูงชน

นักวิเคราะห์หลายคนรวมถึง Galton เลือกใช้ค่ามัธยฐานเนื่องจากง่ายต่อการคำนวณสำหรับชุดข้อมูลขนาดเล็ก

อย่างไรก็ตามค่ามัธยฐานไม่เคยได้รับความนิยมมากไปกว่าค่าเฉลี่ย เป็นไปได้มากว่าสิ่งนี้เกิดขึ้นเนื่องจากความพิเศษ คุณสมบัติทางสถิติที่มีอยู่ในค่าเฉลี่ยตลอดจนความสัมพันธ์กับการแจกแจงแบบปกติ

ความสัมพันธ์ระหว่างค่าเฉลี่ยและ การแจกแจงแบบปกติ

เมื่อเราทำการวัดหลายครั้ง ผลลัพธ์จะเป็นดังที่นักสถิติกล่าวว่า "กระจายตามปกติ" ซึ่งหมายความว่าหากข้อมูลนี้ถูกลงจุดบนกราฟ จุดบนกราฟจะแสดงสิ่งที่คล้ายกับระฆัง หากคุณเชื่อมต่อเข้าด้วยกัน คุณจะได้เส้นโค้ง "รูประฆัง" สถิติจำนวนมากเหมาะสมกับการแจกแจงแบบปกติ เช่น ความสูงของคน ไอคิว และอุณหภูมิสูงสุดประจำปี

เมื่อกระจายข้อมูลตามปกติ ค่าเฉลี่ยจะใกล้เคียงมาก จุดสูงสุดบนเส้นโค้งระฆัง และการวัดจำนวนมากจะใกล้เคียงกับค่าเฉลี่ย มีแม้กระทั่งสูตรที่ทำนายจำนวนการวัดที่จะอยู่ห่างจากค่าเฉลี่ย

ดังนั้น การคำนวณค่าเฉลี่ยทำให้นักวิจัยได้รับข้อมูลเพิ่มเติมมากมาย

ความสัมพันธ์ของค่าเฉลี่ยกับ ส่วนเบี่ยงเบนมาตรฐานให้ข้อได้เปรียบอย่างมากเนื่องจากค่ามัธยฐานไม่มีความสัมพันธ์ดังกล่าว การเชื่อมต่อนี้คือ ส่วนสำคัญการวิเคราะห์ข้อมูลการทดลองและ การประมวลผลทางสถิติข้อมูล. นั่นเป็นสาเหตุที่ค่าเฉลี่ยกลายเป็นแกนหลักของสถิติและวิทยาศาสตร์ทั้งหมดที่อาศัยข้อมูลหลายอย่างในการสรุป

ข้อดีของค่าเฉลี่ยนั้นเกิดจากการที่คอมพิวเตอร์คำนวณได้ง่าย แม้ว่าค่ามัธยฐานสำหรับกลุ่มข้อมูลขนาดเล็กจะค่อนข้างง่ายในการคำนวณด้วยตัวคุณเอง แต่ก็ยังง่ายกว่ามากในการเขียน โปรแกรมคอมพิวเตอร์ซึ่งจะหาค่าเฉลี่ย หากคุณกำลังใช้ ไมโครซอฟต์ เอ็กเซลคุณอาจจะรู้ว่าฟังก์ชันมัธยฐานนั้นคำนวณไม่ง่ายเหมือนฟังก์ชันค่าเฉลี่ย

สุดท้ายนี้ขอขอบคุณผู้ยิ่งใหญ่ คุณค่าทางวิทยาศาสตร์และใช้งานง่าย ค่าเฉลี่ยได้กลายเป็นค่าตัวแทนหลัก อย่างไรก็ตาม ตัวเลือกนี้ไม่ได้ดีที่สุดเสมอไป

ข้อดีของค่ามัธยฐาน

ในหลายกรณีที่เราต้องการคำนวณจุดศูนย์กลางของการกระจาย ค่ามัธยฐานเป็นตัววัดที่ดีที่สุด เนื่องจากค่าเฉลี่ยส่วนใหญ่ถูกกำหนดโดย ผลลัพธ์สุดขีดการวัด

นักวิเคราะห์หลายคนเชื่อว่าการใช้ค่าเฉลี่ยอย่างไม่ยั้งคิดส่งผลเสียต่อความเข้าใจของเราเกี่ยวกับข้อมูลเชิงปริมาณ ผู้คนมองค่าเฉลี่ยและคิดว่ามัน "ปกติ" แต่ในความเป็นจริงมันสามารถกำหนดได้โดยคนใดคนหนึ่งที่โดดเด่นมาก ชุดที่เป็นเนื้อเดียวกันสมาชิก.

ลองนึกภาพนักวิเคราะห์ที่ต้องการทราบค่าตัวแทนสำหรับมูลค่าบ้านห้าหลัง บ้านสี่หลังมีมูลค่า $100,000 และหลังที่ห้ามีมูลค่า $900,000 ค่าเฉลี่ยจะเท่ากับ 200,000 ดอลลาร์ และค่ามัธยฐานจะเท่ากับ 100,000 ดอลลาร์ ในกรณีนี้เช่นเดียวกับในกรณีอื่น ๆ ค่ามัธยฐานจะให้ ความเข้าใจที่ดีขึ้นสิ่งที่เรียกว่า "มาตรฐาน"

ตระหนักดีว่าแข็งแกร่งเพียงใด ค่ามากอาจส่งผลต่อค่าเฉลี่ย ค่ามัธยฐานใช้เพื่อสะท้อนการเปลี่ยนแปลงของรายได้ครัวเรือนของสหรัฐฯ

ค่ามัธยฐานยังมีความไวน้อยกว่าต่อข้อมูลที่ "สกปรก" ที่นักวิเคราะห์จัดการในปัจจุบัน นักสถิติและนักวิเคราะห์จำนวนมากรวบรวมข้อมูลโดยการสัมภาษณ์ผู้คนทางอินเทอร์เน็ต หากผู้ใช้เพิ่มศูนย์พิเศษในคำตอบโดยไม่ตั้งใจ ซึ่งเปลี่ยน 100 เป็น 1,000 ข้อผิดพลาดนี้จะส่งผลต่อค่าเฉลี่ยมากกว่าค่ามัธยฐาน

ค่าเฉลี่ยหรือค่ามัธยฐาน?

การเลือกระหว่างค่ามัธยฐานและค่าเฉลี่ยมีความหมายกว้างไกล ตั้งแต่ความเข้าใจของเราเกี่ยวกับผลกระทบของยาต่อสุขภาพ ไปจนถึงความรู้ของเราเกี่ยวกับงบประมาณมาตรฐานของครอบครัว

เมื่อการรวบรวมและวิเคราะห์ข้อมูลกำหนดวิธีที่เราเข้าใจโลกมากขึ้นเรื่อยๆ มูลค่าของปริมาณที่เราใช้ก็เช่นกัน ในโลกอุดมคติ นักวิเคราะห์จะใช้ทั้งค่าเฉลี่ยและค่ามัธยฐานในการวางแผนข้อมูล

แต่เราอยู่ในเงื่อนไขของเวลาและความสนใจที่จำกัด เนื่องจากข้อจำกัดเหล่านี้ เรามักจะต้องเลือกเพียงอย่างใดอย่างหนึ่ง และในหลายกรณี ค่ามัธยฐานจะดีกว่า

ค่าเฉลี่ยเลขคณิต (ต่อไปนี้จะเรียกว่าค่าเฉลี่ย) อาจเป็นพารามิเตอร์ทางสถิติที่ได้รับความนิยมมากที่สุด แนวคิดนี้ใช้ทุกที่ตั้งแต่คำว่า "อุณหภูมิเฉลี่ยในโรงพยาบาล" ไปจนถึงเรื่องจริงจัง ผลงานทางวิทยาศาสตร์. อย่างไรก็ตาม น่าแปลกที่ค่าเฉลี่ยเป็นแนวคิดที่ยุ่งยาก ซึ่งมักทำให้เข้าใจผิด แทนที่จะให้ความชัดเจนและความชัดเจน

ถ้าพูดถึง งานทางวิทยาศาสตร์, แล้ว การวิเคราะห์ทางสถิติใช้ข้อมูลเกือบทั้งหมด วิทยาศาสตร์ประยุกต์แม้แต่ในมนุษยศาสตร์ (เช่น จิตวิทยา) ค่าเฉลี่ยจะคำนวณสำหรับคุณลักษณะที่วัดด้วยมาตราส่วนต่อเนื่องที่เรียกว่า สัญญาณดังกล่าว ได้แก่ ความเข้มข้นของสารในเลือด, ส่วนสูง, น้ำหนัก, อายุ ค่าเฉลี่ยเลขคณิตสามารถคำนวณได้ง่ายและสิ่งนี้สอนใน มัธยม. อย่างไรก็ตาม(ตาม สถิติทางคณิตศาสตร์) ค่าเฉลี่ยเป็นการวัดที่เพียงพอของแนวโน้มเข้าสู่ส่วนกลางในตัวอย่างเฉพาะในกรณีของการกระจายลักษณะปกติ (Gaussian) (รูปที่ 1) ข้าว. 1. การแจกแจงแบบปกติ (เกาส์เซียน) ของคุณลักษณะในตัวอย่าง ค่าเฉลี่ย (M) และค่ามัธยฐาน (Me) เท่ากัน

ในกรณีของการเบี่ยงเบนของการแจกแจงจากกฎหมายปกติ การใช้ค่าเฉลี่ยนั้นไม่ถูกต้องเนื่องจากมีความอ่อนไหวต่อสิ่งที่เรียกว่า "ค่าผิดปกติ" มากเกินไป ซึ่งไม่เป็นไปตามปกติสำหรับตัวอย่างภายใต้การศึกษา ใหญ่เกินไปหรือเล็กเกินไป ( รูปที่ 2) ในกรณีนี้ ควรใช้พารามิเตอร์อื่น ค่ามัธยฐาน เพื่อระบุลักษณะแนวโน้มศูนย์กลางในตัวอย่าง ค่ามัธยฐานคือค่าของแอตทริบิวต์ ทางด้านขวาและด้านซ้ายคือ จำนวนเท่ากันการสังเกต (อย่างละ 50%) พารามิเตอร์นี้ (ไม่เหมือนกับค่าเฉลี่ย) ทนต่อ "ค่าผิดปกติ" โปรดทราบว่าค่ามัธยฐานยังสามารถใช้ในกรณีของการแจกแจงแบบปกติ ซึ่งในกรณีนี้ค่ามัธยฐานจะเหมือนกับค่าเฉลี่ย

ข้าว. 2. การกระจายของคุณสมบัติในตัวอย่างแตกต่างจากปกติ ค่าเฉลี่ย (m) และค่ามัธยฐาน (ME) ไม่ตรงกัน

เพื่อที่จะทราบว่าการแจกแจงของคุณลักษณะในตัวอย่างเป็นเรื่องปกติ (เกาส์เซียน) หรือไม่ กล่าวคือ เพื่อที่จะค้นหาว่าควรใช้พารามิเตอร์ใด (ค่าเฉลี่ยหรือค่ามัธยฐาน) มีการทดสอบทางสถิติพิเศษ

ลองมาเป็นตัวอย่าง อัตราการตกตะกอนของเม็ดเลือดแดงในกลุ่มผู้ป่วยปอดอักเสบล่าสุดคือ 3, 5, 5, 7, 11, 12, 16, 16, 21, 42, 58 ค่าเฉลี่ยสำหรับตัวอย่างนี้คือ 17.8 ค่ามัธยฐานคือ 12 การกระจาย (ตามการทดสอบชาปิโร-วิลค์) ไม่ปกติ (รูปที่ 3) ดังนั้นจึงต้องใช้ค่ามัธยฐาน ข้าว. 3. ตัวอย่าง

ผิดปกติพอสมควร แต่ในบางพื้นที่ของเศรษฐกิจ ผู้สังเกตการณ์จากภายนอกไม่สามารถสังเกตเห็นอย่างน้อยร่องรอยของการประยุกต์ใช้สถิติทางคณิตศาสตร์ที่ถูกต้อง ดังนั้นเราจึงได้รับการบอกกล่าวอย่างต่อเนื่องเกี่ยวกับเงินเดือนโดยเฉลี่ย (เช่น ในสถาบันวิจัย) และตัวเลขเหล่านี้มักจะทำให้พนักงานธรรมดาประหลาดใจ ไม่เพียงเท่านั้น แต่ยังรวมถึงหัวหน้าแผนกด้วย (ปัจจุบันเรียกว่า "ผู้จัดการระดับกลาง") เราประหลาดใจที่เงินเดือนเฉลี่ยในมอสโกคือ 40,000 รูเบิล แต่แน่นอน เราเข้าใจว่าเรา "เฉลี่ย" กับผู้มีอำนาจ นี่คือตัวอย่างจากชีวิตของนักวิทยาศาสตร์: เงินเดือนของพนักงานห้องปฏิบัติการ (พันรูเบิล) คือ 3, 5, 5, 7, 11, 12, 16, 16, 21, 42, 58 ค่าเฉลี่ยคือ 17.8 ค่ามัธยฐาน คือ 12 ตกลงว่าเป็นตัวเลขที่แตกต่างกัน!

แน่นอนว่าไม่สามารถตัดออกได้ว่าการปิดบังคุณสมบัติของค่าเฉลี่ยนั้นเป็นความฉลาดแกมโกงเนื่องจากฝ่ายบริหารมักจะให้ผลกำไรมากกว่าในการนำเสนอสถานการณ์ด้วยเงินเดือนของพนักงานให้ดีกว่าที่เป็นจริง

ยังไม่ถึงเวลา ชุมชนวิทยาศาสตร์เรียกร้องให้ผู้นำของเราหยุดการใช้สถิติทางคณิตศาสตร์ในทางที่ผิด?

โอลก้า เรโบรวา
เอกสาร น้ำผึ้ง. วิทยาศาสตร์, รองอธิการบดี
การเสนอขายหุ้น "สมาคมผู้เชี่ยวชาญด้านการแพทย์ตามหลักฐาน"

ค่าจ้างแรงงานในภาคส่วนต่าง ๆ ของเศรษฐกิจ อุณหภูมิและปริมาณน้ำฝนในพื้นที่เดียวกันในช่วงเวลาที่เทียบเคียงกัน ผลผลิตพืชต่าง ๆ ภูมิภาคทางภูมิศาสตร์เป็นต้น อย่างไรก็ตาม ค่าเฉลี่ยไม่ได้เป็นเพียงตัวบ่งชี้ทั่วไป - ในบางกรณีอาจมีมากกว่านั้น การประเมินที่แม่นยำค่าเช่นค่ามัธยฐานมีความเหมาะสม ในทางสถิติ มีการใช้กันอย่างแพร่หลายในฐานะลักษณะเชิงพรรณนาเสริมของการกระจายคุณลักษณะในประชากรกลุ่มเดียว มาดูกันว่ามันแตกต่างจากค่าเฉลี่ยอย่างไรและอะไรที่ทำให้ต้องใช้

ค่ามัธยฐานในสถิติ: ความหมายและคุณสมบัติ

ลองนึกภาพสถานการณ์ต่อไปนี้: คน 10 คนทำงานร่วมกันกับผู้อำนวยการในบริษัทแห่งหนึ่ง พนักงานทั่วไปได้รับ 1,000 Hryvnia แต่ละคน และผู้จัดการของพวกเขาซึ่งเป็นเจ้าของจะได้รับ 10,000 Hryvnia หากเราคำนวณค่าเฉลี่ยเลขคณิตปรากฎว่าเงินเดือนเฉลี่ยสำหรับ องค์กรนี้เท่ากับ 1,900 UAH คำกล่าวนี้จะเป็นจริงหรือไม่? หรือเอาอย่างนี้ก็ได้เหมือนกัน หอผู้ป่วยในมีเก้าคนที่มีอุณหภูมิ 36.6 ° C และหนึ่งคนที่มีอุณหภูมิ 41 ° C ค่าเฉลี่ยเลขคณิตในกรณีนี้คือ: (36.6 * 9 + 41) / 10 \u003d 37.04 ° C แต่นี่ไม่ได้หมายความว่าทุกคนจะป่วย ทั้งหมดนี้ชี้ให้เห็นว่าค่าเฉลี่ยเพียงอย่างเดียวมักไม่เพียงพอ และนั่นคือเหตุผลที่ใช้ค่ามัธยฐานนอกเหนือจากค่ามัธยฐาน ในสถิติ ตัวบ่งชี้นี้เรียกว่าตัวแปรที่อยู่ตรงกลางของชุดรูปแบบที่สั่งซื้อ หากคุณคำนวณตามตัวอย่างของเรา คุณจะได้รับ 1,000 UAH ตามลำดับ และ 36.6 องศาเซลเซียส กล่าวอีกนัยหนึ่งค่ามัธยฐานในสถิติคือค่าที่แบ่งชุดข้อมูลออกเป็นสองส่วนในลักษณะที่ทั้งสองด้าน (ขึ้นหรือลง) ตั้งอยู่ หมายเลขเดียวกันหน่วยของประชากรนี้ เนื่องจากคุณสมบัตินี้ ตัวบ่งชี้นี้จึงมีชื่อเรียกอื่นๆ อีกหลายอย่าง: เปอร์เซ็นไทล์ที่ 50 หรือควอไทล์ 0.5

วิธีหาค่ามัธยฐานในสถิติ

วิธีการคำนวณค่านี้ส่วนใหญ่ขึ้นอยู่กับประเภทของชุดการเปลี่ยนแปลงที่เรามี: แบบแยกส่วนหรือแบบช่วงเวลา ในกรณีแรก ค่ามัธยฐานในสถิตินั้นค่อนข้างง่าย สิ่งที่คุณต้องทำคือหาผลรวมของความถี่ หารด้วย 2 แล้วบวก ½ เข้ากับผลลัพธ์ จะเป็นการดีที่สุดหากอธิบายหลักการคำนวณด้วยตัวอย่างต่อไปนี้ สมมติว่าเราได้จัดกลุ่มข้อมูลภาวะเจริญพันธุ์และต้องการทราบว่าค่ามัธยฐานคืออะไร

หมายเลขกลุ่มครอบครัวตามจำนวนบุตร

จำนวนครอบครัว

หลังจากทำการคำนวณง่ายๆ เราพบว่าตัวบ่งชี้ที่ต้องการเท่ากับ: 195/2 + ½ = ตัวเลือก เพื่อค้นหาความหมาย คุณควรสะสมความถี่ตามลำดับ โดยเริ่มจากตัวเลือกที่เล็กที่สุด ผลรวมของสองบรรทัดแรกให้ 30 เห็นได้ชัดว่าไม่มี 98 ตัวเลือกที่นี่ แต่ถ้าเราเพิ่มความถี่ของตัวเลือกที่สาม (70) ลงในผลลัพธ์ เราจะได้ผลรวมเท่ากับ 100 มันมีเพียงตัวเลือกที่ 98 ซึ่งหมายความว่าค่ามัธยฐานจะเป็นครอบครัวที่มีลูกสองคน

สำหรับอนุกรมช่วงเวลา มักใช้สูตรต่อไปนี้ที่นี่:

M e \u003d X Me + i Me * (∑f / 2 - S Me-1) / f Me ซึ่ง:

  • X Me - ค่าแรกของช่วงค่ามัธยฐาน
  • ∑f คือจำนวนของอนุกรม (ผลรวมของความถี่)
  • i Me - ค่าของช่วงมัธยฐาน
  • f Me - ความถี่ของช่วงมัธยฐาน
  • S Me-1 - ผลรวมของความถี่สะสมในช่วงก่อนหน้าค่ามัธยฐาน

อีกครั้ง เป็นการยากที่จะเข้าใจสิ่งนี้โดยไม่มีตัวอย่าง สมมติว่ามีข้อมูลเกี่ยวกับค่า

เงินเดือนพันรูเบิล

ความถี่สะสม

ในการใช้สูตรข้างต้น เราต้องกำหนดช่วงมัธยฐานก่อน เมื่อเลือกช่วงดังกล่าวแล้ว ความถี่สะสมซึ่งเกินหรือเท่ากับครึ่งหนึ่งของผลรวมของความถี่ทั้งหมด ดังนั้นเมื่อหาร 510 ด้วย 2 เราพบว่าเกณฑ์นี้สอดคล้องกับช่วงเวลาที่มีค่าเงินเดือน 250,000 รูเบิล มากถึง 300,000 รูเบิล ตอนนี้คุณสามารถแทนที่ข้อมูลทั้งหมดในสูตร:

M e \u003d X Me + i Me * (∑f / 2 - S Me-1) / f Me \u003d 250 + 50 * (510/2 - 170) / 115 \u003d 286.96 พันรูเบิล

เราหวังว่าบทความของเราจะมีประโยชน์ และตอนนี้คุณมีความคิดที่ชัดเจนว่าค่ามัธยฐานคืออะไรในสถิติและควรคำนวณอย่างไร

พร้อมทั้งค่าเฉลี่ยเป็น ลักษณะทางสถิติของอนุกรมการแจกแจงแปรผัน ค่าเฉลี่ยโครงสร้างคำนวณ - แฟชั่นและ ค่ามัธยฐาน.
แฟชั่น(Mo) แทนค่าของคุณลักษณะที่ศึกษา ทำซ้ำด้วยความถี่สูงสุด เช่น โหมดคือค่าของคุณสมบัติที่เกิดขึ้นบ่อยที่สุด
ค่ามัธยฐาน(Me) คือค่าของคุณลักษณะที่อยู่ตรงกลางของประชากรอันดับ (เรียงลำดับ) เช่น ค่ามัธยฐาน - ค่ากลางของชุดการเปลี่ยนแปลง
คุณสมบัติหลักของค่ามัธยฐานคือผลรวมของการเบี่ยงเบนสัมบูรณ์ของค่าแอตทริบิวต์จากค่ามัธยฐานมีค่าน้อยกว่าค่าอื่น ๆ ∑|x i - Me|=min

การกำหนดโหมดและค่ามัธยฐานจากข้อมูลที่ไม่ได้จัดกลุ่ม

พิจารณา การกำหนดฐานนิยมและค่ามัธยฐานจากข้อมูลที่ไม่ได้จัดกลุ่ม. สมมติว่าทีมงานประกอบด้วย 9 คนมีประเภทค่าจ้างต่อไปนี้: 4 3 4 5 3 3 3 6 2 6 . เนื่องจากทีมนี้มีพนักงานประเภทที่ 3 มากที่สุด หมวดหมู่อัตราค่าไฟฟ้านี้จึงเป็นโมดอล โม = 3
ในการพิจารณาค่ามัธยฐานจำเป็นต้องจัดอันดับ: 2 3 3 3 4 4 5 6 6 . ศูนย์กลางในชุดนี้เป็นผู้ปฏิบัติงานของหมวดที่ 4 ดังนั้นหมวดนี้จะเป็นค่ามัธยฐาน หากลำดับที่จัดอันดับมีจำนวนหน่วยเป็นเลขคู่ ค่ามัธยฐานจะถูกกำหนดเป็นค่าเฉลี่ยของค่ากลางสองค่า
หากโหมดสะท้อนถึงตัวแปรที่พบมากที่สุดของค่าของคุณลักษณะ ค่ามัธยฐานจะทำหน้าที่ของค่าเฉลี่ยสำหรับความแตกต่างที่ไม่ด้อยกว่า กฎหมายปกติการกระจายตัวของประชากร ให้เราอธิบายความสำคัญทางปัญญาด้วยตัวอย่างต่อไปนี้
สมมติว่าเราต้องระบุลักษณะรายได้เฉลี่ยของกลุ่มคนจำนวน 100 คน โดย 99 คนมีรายได้ในช่วงตั้งแต่ 100 ถึง 200 เหรียญต่อเดือน และรายได้ต่อเดือนของกลุ่มคนกลุ่มหลังคือ 50,000 เหรียญสหรัฐฯ (ตารางที่ 1)
ตารางที่ 1 - รายได้ต่อเดือนของกลุ่มคนที่ทำการศึกษา ถ้าเราใช้ค่าเฉลี่ยเลขคณิต เราจะมีรายได้เฉลี่ยประมาณ 600 - 700 ดอลลาร์ ซึ่งแทบไม่เหมือนกันกับรายได้ของส่วนหลักของกลุ่ม ค่ามัธยฐานเท่ากับ กรณีนี้ Me = 163 ดอลลาร์ จะให้คำอธิบายวัตถุประสงค์ของระดับรายได้ 99% ของคนกลุ่มนี้
พิจารณาคำจำกัดความของฐานนิยมและค่ามัธยฐานตามข้อมูลที่จัดกลุ่ม (ชุดการกระจาย)
สมมติว่ามีการกระจายคนงานของทั้งองค์กรโดยรวมตามประเภทภาษีที่มี มุมมองถัดไป(ตารางที่ 2).
ตารางที่ 2 - การกระจายคนงานขององค์กรตามประเภทภาษี

การคำนวณฐานนิยมและค่ามัธยฐานสำหรับอนุกรมที่ไม่ต่อเนื่อง

การคำนวณโหมดและค่ามัธยฐานสำหรับอนุกรมช่วงเวลา

การคำนวณโหมดและค่ามัธยฐานสำหรับชุดการเปลี่ยนแปลง

การกำหนดโหมดจากชุดรูปแบบที่ไม่ต่อเนื่อง

ใช้ชุดของค่าคุณลักษณะที่สร้างขึ้นก่อนหน้านี้ เรียงตามค่า ถ้าขนาดตัวอย่างเป็นเลขคี่ ให้ใช้ค่าศูนย์ ถ้าขนาดตัวอย่างเท่ากัน เราจะหาค่าเฉลี่ยเลขคณิตของค่ากลางสองค่า
การกำหนดโหมดจากชุดรูปแบบที่ไม่ต่อเนื่อง: ความถี่สูงสุด(60 คน) มีภาษีประเภทที่ 5 ดังนั้นจึงเป็นโมดอล โม = 5.
ในการหาค่ามัธยฐานของแอตทริบิวต์ จำนวนของหน่วยมัธยฐานของชุดข้อมูล (N Me) จะพบได้โดยใช้สูตรต่อไปนี้ โดยที่ n คือปริมาตรของประชากร
ในกรณีของเรา: .
ได้รับ ค่าเศษส่วนซึ่งเกิดขึ้นเสมอสำหรับหน่วยประชากรจำนวนคู่ แสดงว่าจุดกึ่งกลางที่แน่นอนอยู่ระหว่าง 95 ถึง 96 คน มีความจำเป็นต้องกำหนดว่าคนงานเหล่านี้เป็นกลุ่มใด หมายเลขซีเรียล. สามารถทำได้โดยการคำนวณความถี่สะสม ไม่มีพนักงานที่มีตัวเลขเหล่านี้ในกลุ่มแรก ซึ่งมีเพียง 12 คน และพวกเขาไม่ได้อยู่ในกลุ่มที่สอง (12+48=60) คนงานลำดับที่ 95 และ 96 อยู่ในกลุ่มที่สาม (12+48+56=116) ดังนั้น ค่าจ้างประเภทที่ 4 จึงเป็นค่ามัธยฐาน

การคำนวณโหมดและค่ามัธยฐานในอนุกรมช่วงเวลา

ซึ่งแตกต่างจากอนุกรมการแปรผันแบบไม่ต่อเนื่อง การกำหนดฐานนิยมและค่ามัธยฐานจากอนุกรมช่วงเวลาจำเป็นต้องมีการคำนวณตามสูตรต่อไปนี้:
, (5.6)
ที่ไหน x0- ขีด จำกัด ล่างของช่วงเวลาโมดอล (ช่วงเวลาที่มีความถี่สูงสุดเรียกว่าโมดอล)
ผมคือค่าของช่วงเวลาโมดอล
fMoคือความถี่ของช่วงกิริยา
ฉ Mo-1คือความถี่ของช่วงก่อนโมดอล
f โม +1คือความถี่ของช่วงหลังโมดอล
(5.7)
ที่ไหน x0– ขีดจำกัดล่างของช่วงค่ามัธยฐาน (ค่ามัธยฐานคือช่วงเวลาแรก ซึ่งความถี่สะสมเกินครึ่งหนึ่ง จำนวนเงินทั้งหมดความถี่);
ผมคือค่าของช่วงมัธยฐาน
เอสมี-1- ช่วงเวลาสะสมก่อนค่ามัธยฐาน
ฉ ฉันคือความถี่ของช่วงมัธยฐาน
เราแสดงการประยุกต์ใช้สูตรเหล่านี้โดยใช้ข้อมูลในตาราง 3.
ช่วงเวลาที่มีขอบเขต 60 - 80 ในการแจกแจงนี้จะเป็นโมดอลเพราะ มีความถี่สูงสุด ใช้สูตร (5.6) กำหนดโหมด:

ในการกำหนดช่วงเวลามัธยฐาน จำเป็นต้องกำหนดความถี่สะสมของแต่ละช่วงเวลาที่ตามมาจนกว่าจะเกินครึ่งหนึ่งของผลรวมของความถี่สะสม (ในกรณีของเราคือ 50%) (ตารางที่ 5.11)
พบว่าค่ามัธยฐานคือช่วงเวลาที่มีขอบเขต 100 - 120,000 รูเบิล ตอนนี้เรากำหนดค่ามัธยฐาน:

ตารางที่ 3 - การกระจายตัวของประชากรสหพันธรัฐรัสเซียตามระดับรายได้เงินสดเฉลี่ยต่อหัวในเดือนมีนาคม 2537
จัดกลุ่มตามระดับรายได้เฉลี่ยต่อหัวต่อเดือน, พันรูเบิลส่วนแบ่งของประชากร %
มากถึง 201,4
20 – 40 7,5
40 – 60 11,9
60 – 80 12,7
80 – 100 11,7
100 – 120 10,0
120 – 140 8,3
140 –160 6,8
160 – 180 5,5
180 – 200 4,4
200 – 220 3,5
220 – 240 2,9
240 – 260 2,3
260 – 280 1,9
280 – 300 1,5
มากกว่า 3007,7
ทั้งหมด100,0

ตารางที่ 4 - คำจำกัดความของช่วงเวลามัธยฐาน
ดังนั้น ค่าเฉลี่ยเลขคณิต ฐานนิยม และค่ามัธยฐานสามารถใช้เป็นลักษณะทั่วไปของค่าของแอตทริบิวต์เฉพาะสำหรับหน่วยของประชากรอันดับ
ลักษณะสำคัญของศูนย์กระจายสินค้าคือค่าเฉลี่ยเลขคณิตซึ่งมีลักษณะเฉพาะจากข้อเท็จจริงที่ว่าการเบี่ยงเบนทั้งหมด (บวกและลบ) รวมกันเป็นศูนย์ เป็นเรื่องปกติสำหรับค่ามัธยฐานที่ผลรวมของการเบี่ยงเบนจากโมดูลัสมีค่าน้อยที่สุด และโหมดคือค่าของคุณลักษณะที่เกิดขึ้นบ่อยที่สุด
อัตราส่วนของฐานนิยม ค่ามัธยฐาน และค่าเฉลี่ยเลขคณิตบ่งชี้ถึงลักษณะของการแจกแจงลักษณะโดยรวม ทำให้เราสามารถประเมินความไม่สมมาตรของมันได้ ในการแจกแจงแบบสมมาตร คุณลักษณะทั้งสามจะเหมือนกัน ยิ่งความแตกต่างระหว่างฐานนิยมและค่าเฉลี่ยเลขคณิตมากเท่าใด อนุกรมก็จะยิ่งไม่สมมาตรมากขึ้นเท่านั้น สำหรับอนุกรมที่เบ้ปานกลาง ความแตกต่างระหว่างฐานนิยมและค่าเฉลี่ยเลขคณิตคือความแตกต่างระหว่างค่ามัธยฐานและค่าเฉลี่ยประมาณสามเท่า นั่นคือ:
|โม–`x| = 3 |ฉัน –`x|.

การหาฐานนิยมและค่ามัธยฐานด้วยวิธีกราฟิก

โหมดและมัธยฐานใน ซีรีย์ช่วงเวลาสามารถกำหนดแบบกราฟิกได้. โหมดถูกกำหนดจากฮิสโตแกรมของการกระจาย เมื่อต้องการทำเช่นนี้ เลือกสี่เหลี่ยมผืนผ้าที่สูงที่สุด ซึ่งในกรณีนี้คือโมดอล จากนั้นเชื่อมต่อจุดยอดด้านขวาของสี่เหลี่ยมผืนผ้าโมดอลทางด้านขวา มุมบนสี่เหลี่ยมผืนผ้าก่อนหน้า และจุดยอดด้านซ้ายของสี่เหลี่ยมผืนผ้าโมดอลจะอยู่ที่มุมซ้ายบนของสี่เหลี่ยมผืนผ้าถัดไป จากจุดตัดกัน เราลดการตั้งฉากกับแกน abscissa abscissa ของจุดตัดของเส้นเหล่านี้จะเป็นโหมดการกระจาย (รูปที่ 5.3)


ข้าว. 5.3. ความหมายกราฟิกโหมดฮิสโตแกรม


ข้าว. 5.4. การหาค่ามัธยฐานแบบกราฟิกโดยการสะสม
ในการกำหนดค่ามัธยฐานจากจุดบนสเกลความถี่สะสม (ความถี่) ที่สอดคล้องกับ 50% ให้ลากเส้นตรงขนานกับแกน abscissa ไปยังจุดตัดกับค่ามัธยฐาน จากนั้นจากจุดตัดเส้นตั้งฉากจะลดลงไปที่แกน abscissa abscissa ของจุดตัดคือค่ามัธยฐาน

ควอไทล์ เดซิล เปอร์เซ็นไทล์

ในทำนองเดียวกัน การหาค่ามัธยฐานในชุดการแจกแจงแปรผัน คุณสามารถค้นหาค่าของคุณลักษณะสำหรับหน่วยใดๆ ของชุดการจัดอันดับตามลำดับ ตัวอย่างเช่น คุณสามารถค้นหาค่าของคุณลักษณะในหน่วยที่แบ่งชุดข้อมูลออกเป็นสี่ส่วนเท่าๆ กัน ออกเป็น 10 หรือ 100 ส่วน ค่าเหล่านี้เรียกว่า "ควอไทล์", "เดซิลี", "เปอร์เซ็นไทล์"
ควอไทล์คือค่าของคุณลักษณะที่แบ่งประชากรที่อยู่ในระยะออกเป็น 4 ส่วนเท่าๆ กัน
มีควอไทล์ที่ต่ำกว่า (Q 1) คั่น ¼ ของประชากรด้วย ค่าที่น้อยที่สุดคุณลักษณะและควอไทล์บน (Q 3) ตัดส่วนที่มีค่าสูงสุดของคุณลักษณะออก ¼ ซึ่งหมายความว่า 25% ของหน่วยประชากรจะน้อยกว่า Q 1 ; ยูนิต 25% จะถูกปิดล้อมระหว่าง Q 1 และ Q 2 ; 25% - ระหว่าง Q 2 ถึง Q 3 และ 25% ที่เหลือดีกว่า Q 3 ควอไทล์กลางของ Q 2 คือค่ามัธยฐาน
ในการคำนวณควอไทล์ตามชุดการเปลี่ยนแปลงช่วงเวลา จะใช้สูตรต่อไปนี้:
, ,
ที่ไหน x คำถามที่ 1– ขีดจำกัดล่างของช่วงเวลาที่ประกอบด้วยควอไทล์ล่าง (ช่วงเวลาถูกกำหนดโดยความถี่สะสม ครั้งแรกที่เกิน 25%)
x คำถามที่ 3– ขีด จำกัด ล่างของช่วงเวลาที่ประกอบด้วยควอไทล์บน (ช่วงเวลาถูกกำหนดโดยความถี่สะสม, ครั้งแรกที่เกิน 75%);
ผม– ค่าช่วงเวลา
เอสคิว 1-1คือความถี่สะสมของช่วงก่อนช่วงที่มีควอไทล์ต่ำกว่า
เอสคิว 3-1คือความถี่สะสมของช่วงก่อนช่วงที่มีควอไทล์บน
ฉ ถาม 1คือความถี่ของช่วงที่มีควอไทล์ล่าง
ฉ ถาม 3คือความถี่ของช่วงที่มีควอไทล์บน
พิจารณาการคำนวณควอไทล์ล่างและควอไทล์บนตามตาราง 5.10. ควอไทล์ล่างอยู่ในช่วง 60 - 80 ซึ่งมีความถี่สะสมอยู่ที่ 33.5% ควอไทล์บนอยู่ในช่วง 160 - 180 โดยมีความถี่สะสม 75.8% เมื่อคำนึงถึงสิ่งนี้ เราจะได้รับ:
,
.
นอกเหนือจากควอไทล์แล้ว เดซิลีสามารถกำหนดได้ในอันดับการแจกแจงแบบแปรผัน - ตัวเลือกที่แบ่งอนุกรมการแปรผันตามช่วงด้วยสิบ ส่วนเท่ากัน. ทศนิยมแรก (d 1) แบ่งประชากร 1/10 ถึง 9/10 ทศนิยมที่สอง (d 1) 2/10 ถึง 8/10 ไปเรื่อยๆ
คำนวณตามสูตร:
, .
ค่าคุณลักษณะที่แบ่งซีรีส์ออกเป็นหนึ่งร้อยส่วนเรียกว่าเปอร์เซ็นไทล์ อัตราส่วนของค่ามัธยฐาน ควอไทล์ เดซิเลส และเปอร์เซ็นไทล์แสดงในรูปที่ 5.5.

แนวโน้มศูนย์กลางของข้อมูลสามารถพิจารณาได้ไม่เพียง แต่เป็นค่าที่มีความเบี่ยงเบนรวมเป็นศูนย์ (ค่าเฉลี่ยเลขคณิต) หรือความถี่สูงสุด (โหมด) แต่ยังเป็นเครื่องหมายที่แน่นอน (ระดับหนึ่งของตัวบ่งชี้ที่วิเคราะห์) ที่แบ่งอันดับ ข้อมูล (เรียงลำดับจากน้อยไปหามากหรือมากไปน้อย) ออกเป็นสองส่วนเท่า ๆ กัน นั่นคือครึ่งหนึ่งของข้อมูลเริ่มต้นมีค่าน้อยกว่าเครื่องหมายนี้และครึ่งหนึ่งมีค่ามากกว่านั้น นั่นคือสิ่งที่มันเป็น ค่ามัธยฐาน. โหมดและมัธยฐาน - ตัวชี้วัดที่สำคัญซึ่งสะท้อนถึงโครงสร้างของข้อมูลและบางครั้งใช้แทนค่าเฉลี่ยเลขคณิต

ค่ามัธยฐานคือระดับของตัวบ่งชี้ที่แบ่งชุดข้อมูลหนึ่งๆ ออกเป็นสองซีกเท่าๆ กัน เพื่อเป็นตัวอย่างการสาธิตเรากลับไปที่ชุดอีกครั้ง ตัวเลขสุ่ม. การกระจายดังกล่าวสำหรับ ในจำนวนมากคุณค่าในวรรณคดีถูกอธิบายว่าเป็นเหตุการณ์ทั่วไป นี่คือข้อมูลในรูปแบบของรูปภาพ

เห็นได้ชัดว่าด้วยการแจกแจงแบบสมมาตรตรงกลางซึ่งแบ่งประชากรออกเป็นสองส่วนจะอยู่ตรงกลาง - ในตำแหน่งเดียวกับค่าเฉลี่ยเลขคณิต (และฐานนิยม) นี่คือสถานการณ์ในอุดมคติเมื่อฐานนิยม มัธยฐาน และค่าเฉลี่ยเลขคณิตตรงกัน และคุณสมบัติทั้งหมดของพวกมันตกอยู่ที่จุดเดียว - ความถี่สูงสุด การแบ่งครึ่ง ผลรวมของการเบี่ยงเบนเป็นศูนย์ - ทั้งหมดนี้รวมอยู่ในที่เดียว อย่างไรก็ตาม ชีวิตไม่สมมาตรเท่ากับการแจกแจงแบบปกติ ดังนั้น ลองดูการกระจายตัวแบบอสมมาตร และเกิดอะไรขึ้นกับแนวโน้มศูนย์กลางของเราที่นั่น

สมมติว่าเรากำลังเผชิญกับการวัดทางเทคนิคของการเบี่ยงเบนจากค่าที่คาดหวังของบางสิ่ง (เนื้อหาขององค์ประกอบ ระยะทาง ระดับ มวล ฯลฯ ฯลฯ) หากทุกอย่างเรียบร้อยดี ค่าเบี่ยงเบนส่วนใหญ่จะถูกแจกจ่ายตามกฎหมายที่ใกล้เคียงค่าปกติโดยประมาณตามภาพด้านบน (การฝึกฝนหักล้างข้อสันนิษฐานดังกล่าว แต่ก็ดี) แต่ถ้ามีปัจจัยที่สำคัญและไม่สามารถควบคุมได้ในกระบวนการวิเคราะห์ ค่าที่ผิดปกติอาจปรากฏขึ้นในการสังเกต ซึ่งจะส่งผลต่อค่าเฉลี่ยเลขคณิตอย่างมีนัยสำคัญ แต่แทบไม่ส่งผลต่อค่ามัธยฐานซึ่งเห็นได้อย่างชัดเจนในฮิสโตแกรมต่อไปนี้

ค่ามัธยฐานเป็นทางเลือกหลักแทนค่าเฉลี่ยเลขคณิต เนื่องจาก มีความทนทานต่อการเบี่ยงเบนที่ผิดปกติ (ค่าผิดปกติ) บทความนี้พูดถึงวิธีที่ค่าเฉลี่ยเลขคณิตทำงานอย่างไรกับค่าผิดปกติและวิธีจัดการกับค่าเฉลี่ยเลขคณิต นั่นคือวิธีทำให้ค่าผิดปกติขึ้นอยู่กับค่าผิดปกติน้อยลง ตัวเลือกหลักคือการเพิ่มจำนวนการสังเกตและ/หรือกำจัดความผิดปกติออกจากตัวอย่างการวิเคราะห์ ดังนั้น การเปลี่ยนจากค่าเฉลี่ยเลขคณิตเป็นค่ามัธยฐานจึงเป็นอีกวิธีหนึ่งในการประมาณค่าความคาดหมายทางคณิตศาสตร์ที่เสถียร (แข็งแกร่ง) อีกสิ่งหนึ่งคือคุณสมบัติของค่าเฉลี่ยเลขคณิตจะหายไปตลอดกาล แต่ที่นี่คุณต้องดูว่าอะไรสำคัญกว่ากัน

ตัวอย่างการใช้จริงของค่ามัธยฐานในสถิติ เมื่อวิเคราะห์เงินเดือนเฉลี่ยในประเทศสามารถใช้ค่ามัธยฐานแทนค่าเฉลี่ยเลขคณิตได้ ผู้คนไม่ชอบเมื่อเงินเดือนของตัวเองต่ำกว่าค่าเฉลี่ย (เลขคณิต) ในประเทศ สิ่งนี้ทำให้เกิดพายุแห่งอารมณ์และการเปิดเผยในการคำนวณที่ไม่ถูกต้อง เช่น ฉันมีเงินเดือน 100 รูเบิล และผู้อำนวยการมี 1,000 รูเบิล ดังนั้นมันจึงกลายเป็นค่าเฉลี่ย 550 รูเบิล สิ่งที่ประชาชนไม่พอใจไม่เป็นที่รู้จักและไม่สนใจ แต่ถ้าคุณใช้ค่ามัธยฐานจะเห็นได้ชัดว่าครึ่งหนึ่งของประชากรได้รับรายได้น้อยกว่าค่ามัธยฐานและมากกว่าครึ่งหนึ่ง

ตัวบ่งชี้นี้ยังใช้ในสถิติประชากรในการวิเคราะห์เชิงปริมาณและต่างๆ ลักษณะคุณภาพ(ความแข็งแรงของวัสดุ เนื้อหาขององค์ประกอบ เวลาในการทำงาน จำนวนความล้มเหลว ฯลฯ) แม้แต่ผู้ค้า forex ยังใช้ค่ามัธยฐานเป็นสัญญาณลับบางอย่างเพื่อเริ่มดำเนินการ แม้ว่าส่วนใหญ่จะไม่บันทึก

ทางคณิตศาสตร์ คุณสมบัติเฉลี่ยคือผลรวมของการเบี่ยงเบนสัมบูรณ์ (โมดูโล) จากค่ามัธยฐานจะให้ค่าที่เป็นไปได้น้อยที่สุดเมื่อเปรียบเทียบกับค่าเบี่ยงเบนจากค่าอื่นๆ น้อยกว่าค่าเฉลี่ยเลขคณิตด้วยซ้ำ โอ้โห! ข้อเท็จจริงนี้ค้นหาแอปพลิเคชันในการแก้ปัญหา งานขนส่งเมื่อจำเป็นต้องคำนวณสถานที่ก่อสร้างของวัตถุใกล้ถนนในลักษณะที่ความยาวรวมของเที่ยวบินไปยังสถานที่ต่างๆ น้อยที่สุด (จุดจอด ปั๊มน้ำมัน คลังสินค้า ฯลฯ เป็นต้น) หมายเหตุถึงนักโลจิสติกส์

(โมดูล 111)

สูตรมัธยฐานสำหรับ ไม่ต่อเนื่องข้อมูลค่อนข้างชวนให้นึกถึงสูตรแฟชั่น กล่าวคือความจริงที่ว่าไม่มีสูตรเช่นนี้ ค่ามัธยฐานถูกเลือกจากข้อมูลที่มีอยู่ และหากไม่สามารถทำได้ จะทำการคำนวณอย่างง่าย

ก่อนอื่น ข้อมูลจะถูกจัดลำดับ (เรียงลำดับจากมากไปน้อย) ถัดไปมีสองตัวเลือก หากจำนวนของค่าเป็นเลขคี่ ค่ามัธยฐานจะตรงกับค่ากลางของซีรีส์ จำนวนที่สามารถกำหนดได้โดยสูตร:

ไม่ฉันคือจำนวนของค่าที่สอดคล้องกับค่ามัธยฐาน

เอ็นคือจำนวนค่าในชุดข้อมูล

จากนั้นค่ามัธยฐานจะแสดงเป็น

นี่เป็นกรณีแรกที่มีค่ากลางหนึ่งค่าในข้อมูล ตัวเลือกที่สองเกิดขึ้นเมื่อจำนวนข้อมูลเท่ากัน นั่นคือ แทนที่จะเป็นหนึ่ง มีค่ากลางสองค่า วิธีแก้ปัญหานั้นง่าย: ใช้ค่าเฉลี่ยเลขคณิตของค่ากลางสองค่า:

นี่คือวิธีการค้นหาหรือการคำนวณที่เกิดขึ้นในข้อมูลแยก อย่างไรก็ตาม ข้อมูลก็อาจจะ ช่วงเวลาที่ไม่สามารถเลือกค่าใดค่าหนึ่งได้ เนื่องจากไม่มีค่าใดค่าหนึ่ง ตามปกติแล้ว ค่ามัธยฐานในกรณีนี้จะคำนวณตามกฎที่ยอมรับโดยทั่วไปบางข้อ โดยอิงจากสมมติฐานบางอย่าง นั่นคือ ตรวจด้วยตา และปรากฎว่าดีฉันบอกคุณ!

เริ่มต้นด้วย (หลังจากจัดลำดับข้อมูล) ค้นหา ช่วงมัธยฐาน. นี่คือช่วงเวลาที่ผ่านค่ามัธยฐานที่ต้องการ กำหนดโดยใช้สัดส่วนสะสมของช่วงจัดอันดับ ในกรณีที่ส่วนแบ่งสะสมในครั้งแรกเกิน 50% ของค่าทั้งหมด จะมีช่วงค่ามัธยฐานด้วย

ฉันไม่รู้ว่าใครเป็นคนคิดสูตรมัธยฐาน แต่เห็นได้ชัดว่าพวกเขาดำเนินการตามสมมติฐานที่ว่าการกระจายของข้อมูลภายในช่วงมัธยฐานนั้นเหมือนกัน (เช่น 30% ของความกว้างของช่วงคือ 30% ของค่า, 80% ของ ความกว้างคือ 80% ของค่า เป็นต้น) ดังนั้นการทราบจำนวนของค่าจากจุดเริ่มต้นของช่วงค่ามัธยฐานถึง 50% ของค่าทั้งหมดในประชากร (ความแตกต่างระหว่างครึ่งหนึ่งของค่าทั้งหมดและความถี่สะสมของช่วงก่อนค่ามัธยฐาน) คุณสามารถค้นหาส่วนแบ่งที่พวกเขาครอบครองในช่วงเวลามัธยฐานทั้งหมด ส่วนแบ่งนี้จะถูกถ่ายโอนไปยังความกว้างของช่วงเวลามัธยฐาน โดยระบุค่าเฉพาะ ซึ่งภายหลังเรียกว่าค่ามัธยฐาน

โดยไม่ต้องกังวลใจอีกต่อไป เรามาดูไดอะแกรมภาพกัน - จะชัดเจนยิ่งขึ้น

มันค่อนข้างยุ่งยาก แต่ตอนนี้ฉันหวังว่าทุกอย่างชัดเจนและเข้าใจได้ เพื่อไม่ให้วาดกราฟทุกครั้งระหว่างการคำนวณคุณสามารถใช้สูตรสำเร็จรูปได้ สูตรมัธยฐานคือ:

ที่ไหน x ฉัน- ขีด จำกัด ล่างของช่วงเวลามัธยฐาน

ฉัน ฉัน- ความกว้างของช่วงมัธยฐาน

∑f/2- จำนวนของค่าทั้งหมดหารด้วย 2 (สอง)

เอส (มี-1)- จำนวนการสังเกตทั้งหมดที่สะสมก่อนช่วงเริ่มต้นของค่ามัธยฐาน เช่น ความถี่สะสมของช่วงพรีเมียน

ฉ ฉัน- จำนวนการสังเกตในช่วงเวลามัธยฐาน

อย่างที่คุณเห็นได้อย่างง่ายดาย สูตรค่ามัธยฐานประกอบด้วยคำศัพท์สองคำ: 1 - ค่าของจุดเริ่มต้นของช่วงเวลามัธยฐาน และ 2 - ส่วนที่เป็นสัดส่วนกับส่วนแบ่งสะสมที่ขาดหายไปมากถึง 50% สิ่งที่คล้ายกับสูตรแฟชั่น ความแตกต่างอยู่ในการค้นหาจุดภายในช่วงเวลา

ตัวอย่างเช่น ลองคำนวณค่ามัธยฐานสำหรับข้อมูลต่อไปนี้

จำเป็นต้องหาราคากลาง คือ ราคาที่ถูกกว่าและแพงกว่าครึ่งหนึ่งของปริมาณสินค้า ในการเริ่มต้น เราจะทำการคำนวณเสริมของความถี่สะสม เศษส่วนสะสม ทั้งหมดสินค้า. ทีนี้มาดูอีกครั้งว่ามีอะไรบ้าง

ตามคอลัมน์สุดท้าย "ส่วนแบ่งสะสม" เรากำหนดช่วงเวลามัธยฐาน - 300-400 รูเบิล (ส่วนแบ่งสะสมเป็นครั้งแรกมากกว่า 50%) ความกว้างของช่วงเวลา - 100 รูเบิล ตอนนี้ยังคงแทนที่ข้อมูลในสูตรด้านบนและคำนวณค่ามัธยฐาน

นั่นคือราคาครึ่งหนึ่งของสินค้าต่ำกว่า 350 รูเบิลสำหรับอีกครึ่งหนึ่งจะสูงกว่า ทุกอย่างเป็นเรื่องง่าย ค่าเฉลี่ยเลขคณิตที่คำนวณจากข้อมูลเดียวกันคือ 355 รูเบิล ความแตกต่างนั้นไม่มีนัยสำคัญ แต่มันคือ

การคำนวณค่ามัธยฐานใน Excel

สถิติที่ไม่มีการคำนวณอัตโนมัติ – ศตวรรษที่ผ่านมา. ค่ามัธยฐานของตัวเลขง่ายต่อการค้นหาโดยใช้ ฟังก์ชันเอกเซลซึ่งเรียกว่าค่ามัธยฐาน ใช้อาร์คิซิมเพิล เปิดใช้งานเซลล์สำหรับการคำนวณ เรียกใช้ฟังก์ชัน เลือกช่วงข้อมูลและ "ตกลง" ไม่มีอะไรจะถกกันอีกแล้ว เหมาะสำหรับข้อมูลจำนวนคู่และเลขคี่

อีกสิ่งหนึ่งคือข้อมูลช่วงเวลา ไม่มีฟังก์ชันที่สอดคล้องกันใน Excel ดังนั้นจึงต้องใช้สูตรข้างต้น คุณทำอะไรได้บ้าง? แต่นี่ไม่ใช่เรื่องน่าเศร้านักเนื่องจากการคำนวณค่ามัธยฐานจากข้อมูลช่วงเวลาเป็นกรณีที่หายาก คุณสามารถคำนวณได้ด้วยเครื่องคิดเลข

โดยวิธีการที่ค่ามัธยฐานแบ่งข้อมูลออกเป็นสองส่วนเท่า ๆ กันนั้นทำให้นึกถึงวิธีการจัดกลุ่มบางอย่าง แน่นอน หลังจากหาค่ามัธยฐานแล้ว เราก็ได้กลุ่มสองกลุ่มที่มีค่าเท่ากัน การพัฒนาแนวคิดนี้ การแบ่งออกเป็นกลุ่มสามารถทำได้ไม่เฉพาะตามหลักการ 50/50 แต่ยังตามการแบ่งปันอื่นๆ ตัวอย่างเช่น 20% ค่าสูงสุดไม่ใช่ใครอื่นนอกจากกลุ่ม A ในการวิเคราะห์ ABC เกี่ยวกับหุ้นอื่น ๆ ในบทความอื่น ดูว่าวิธีการตัดกันที่ดูเหมือนไม่เกี่ยวข้องกันเป็นอย่างไร?

เรื่องราวของฉันกำลังจะจบลง สถิติค่ามัธยฐาน ฉันหวังว่าเขาจะไม่เหนื่อย สุดท้ายนี้ผมขอเสนอปริศนาในแบบทดสอบทางทีวี "ใครอยากเป็นเศรษฐี" มีชุดข้อมูล 15, 5, 20, 5, 10. ค่าเฉลี่ยคืออะไร? สี่ตัวเลือก:

ฉันยังแนะนำให้ดูวิดีโอในหัวข้อการคำนวณค่ามัธยฐานใน Excel