Biografi Ciri-ciri Analisis

purata median. Penentuan mod dan median dengan kaedah grafik

Pada tahun 1906, saintis hebat dan ahli eugenik terkenal Francis Galton melawat Pameran Haiwan dan Ayam tahunan di barat England, di mana, secara kebetulan, dia melakukan eksperimen yang menarik.

Menurut James Surowetsky, pengarang The Wisdom of the Crowd, terdapat pertandingan di Pameran Galton di mana orang ramai perlu meneka berat seekor lembu jantan yang disembelih. dinamakan paling dekat dengan nombor benar diisytiharkan sebagai pemenang.

Galton terkenal dengan penghinaannya keupayaan intelek orang biasa. Dia percaya bahawa hanya pakar sebenar akan dapat membuat kenyataan yang tepat tentang berat lembu jantan itu. Dan 787 peserta pertandingan itu bukan pakar.

Saintis itu akan membuktikan ketidakcekapan orang ramai dengan mengira bilangan purata daripada jawapan peserta. Apa yang mengejutkannya apabila ternyata keputusan yang diterimanya hampir sama dengan berat sebenar lembu jantan itu!

Nilai purata - ciptaan lewat

Sudah tentu, ketepatan jawapan itu memukau pengkaji. Tetapi yang lebih luar biasa ialah hakikat bahawa Galton terfikir untuk menggunakan purata sama sekali.

Dalam dunia hari ini, purata dan apa yang dipanggil median ditemui pada setiap selekoh: suhu purata di New York pada bulan April ialah 52 darjah Fahrenheit; Stephen Curry purata 30 mata setiap permainan; Pendapatan isi rumah median di AS ialah $51,939/tahun.

Walau bagaimanapun, idea bahawa banyak hasil yang berbeza boleh diwakili oleh satu nombor adalah agak baru. Sehingga abad ke-17, purata tidak digunakan secara umum.

Bagaimanakah konsep purata dan median muncul dan berkembang? Dan bagaimana ia berjaya menjadi teknik pengukuran utama pada zaman kita?

Penguasaan cara ke atas median mempunyai akibat yang meluas untuk pemahaman kita tentang maklumat. Dan selalunya ia menyesatkan manusia.

Nilai min dan median

Bayangkan anda bercerita tentang empat orang yang makan malam bersama anda di sebuah restoran. Anda akan memberi salah seorang daripada mereka 20 tahun, 30 lagi, yang ketiga 40, dan yang keempat 50. Apakah yang anda akan katakan tentang umur mereka dalam cerita anda?

Kemungkinan besar, anda akan memanggil mereka umur purata.

Min sering digunakan untuk menyampaikan maklumat tentang sesuatu, serta untuk menerangkan satu set ukuran. Secara teknikal, purata ialah apa yang dipanggil oleh ahli matematik sebagai "min aritmetik" - jumlah semua ukuran dibahagikan dengan bilangan ukuran.

Walaupun perkataan "purata" sering digunakan sebagai sinonim untuk perkataan "median" (median), yang terakhir lebih sering dirujuk sebagai pertengahan sesuatu. Perkataan ini berasal dari bahasa Latin "medianus", yang bermaksud "tengah".

Nilai median dalam Yunani purba

Sejarah nilai median berasal dari ajaran ahli matematik Yunani kuno Pythagoras. Bagi Pythagoras dan sekolahnya, median mempunyai definisi yang jelas dan sangat berbeza daripada cara kita memahami purata hari ini. Ia hanya digunakan dalam matematik, bukan dalam analisis data.

Di sekolah Pythagoreans nilai median ialah nombor tengah dalam urutan tiga sebutan nombor, berada dalam hubungan "sama" dengan sebutan jiran. Nisbah "sama" boleh bermakna jarak yang sama. Sebagai contoh, nombor 4 dalam baris 2,4,6. Walau bagaimanapun, ia juga boleh menyatakan janjang geometri, contohnya 10 dalam urutan 1,10,100.

Ahli statistik Churchill Eisenhart menjelaskan bahawa di Greece purba, median tidak digunakan sebagai wakil atau pengganti untuk sebarang set nombor. Ia hanya menandakan tengah, dan sering digunakan dalam pembuktian matematik.

Eisenhart menghabiskan sepuluh tahun mempelajari min dan median. Pada mulanya, beliau cuba mencari fungsi perwakilan median dalam pembinaan saintifik awal. Sebaliknya, bagaimanapun, beliau mendapati bahawa kebanyakan ahli fizik dan astronomi awal bergantung pada pengukuran tunggal yang dibuat dengan mahir, dan mereka tidak mempunyai metodologi untuk dipilih. hasil terbaik antara banyak pemerhatian.

Penyelidik moden mendasarkan kesimpulan mereka pada pengumpulan sejumlah besar data, sebagai contoh, ahli biologi yang mengkaji genom manusia. Para saintis purba, sebaliknya, boleh mengambil beberapa ukuran, tetapi hanya memilih yang terbaik untuk membina teori mereka.

Seperti yang ditulis oleh ahli sejarah astronomi Otto Neugebauer, “Ini selaras dengan keinginan sedar orang zaman dahulu meminimumkan jumlah bukti empirikal dalam sains kerana mereka tidak percaya pada ketepatan pemerhatian langsung."

Sebagai contoh, ahli matematik dan astronomi Yunani Ptolemy mengira diameter sudut bulan menggunakan kaedah pemerhatian dan teori pergerakan bumi. Markahnya ialah 31'20. Hari ini kita tahu bahawa diameter Bulan adalah antara 29'20 hingga 34'6, bergantung pada jarak dari Bumi. Ptolemy menggunakan sedikit data dalam pengiraannya, tetapi dia mempunyai sebab untuk mempercayai bahawa ia adalah tepat.

Eisenhart menulis: “Perlu diingat bahawa hubungan antara pemerhatian dan teori pada zaman dahulu adalah berbeza daripada hari ini. Hasil pemerhatian difahami bukan sebagai fakta yang teorinya harus diselaraskan, tetapi sebagai kes konkrit yang boleh berguna hanya sebagai contoh ilustrasi kebenaran teori.

Akhirnya, saintis akan beralih kepada pengukuran mewakili data, tetapi pada mulanya cara mahupun median tidak digunakan dalam peranan ini. Dari zaman dahulu hingga hari ini sebagai wakil bermakna, satu lagi konsep matematik digunakan - separuh jumlah nilai ekstrem.

Separuh jumlah nilai melampau

Baru cara saintifik hampir selalu timbul daripada keperluan untuk menyelesaikan masalah tertentu dalam mana-mana disiplin. Perlu mencari nilai terbaik antara banyak dimensi timbul daripada keperluan untuk menentukan lokasi geografi dengan tepat.

Gergasi intelektual abad ke-11 Al-Biruni dikenali sebagai antara orang pertama yang menggunakan metodologi makna perwakilan. Al-Biruni menulis bahawa apabila dia mempunyai banyak ukuran yang boleh digunakan dan ingin mencari yang terbaik di antara mereka, dia menggunakan "peraturan" berikut: anda perlu mencari nombor yang sepadan dengan tengah antara dua nilai ekstrem. Apabila mengira separuh jumlah nilai ekstrem, semua nombor antara maksimum dan nilai minimum, dan purata didapati hanya untuk dua nombor ini.

Al-Biruni menggunakan kaedah ini dalam pelbagai bidang, termasuk untuk mengira longitud kota Ghazni, yang terletak di wilayah Afghanistan moden, serta dalam kajiannya tentang sifat-sifat logam.

Walau bagaimanapun, dalam beberapa abad kebelakangan ini, separuh jumlah ekstrem telah digunakan semakin kurang. Malah, dalam sains moden ia tidak relevan sama sekali. Nilai median menggantikan separuh jumlah.

Peralihan kepada Purata

Menjelang awal abad ke-19, penggunaan median/min telah menjadi kaedah biasa untuk mencari nilai perwakilan yang paling tepat daripada sekumpulan data. Friedrich von Gauss, seorang ahli matematik yang cemerlang pada zamannya, menulis pada tahun 1809: “Adalah dipercayai bahawa jika nombor tertentu ditentukan oleh beberapa pemerhatian langsung yang dibuat di bawah keadaan yang sama, maka purata nilai aritmetik adalah nilai yang paling benar. Sekiranya ia tidak begitu ketat, maka sekurang-kurangnya ia hampir dengan realiti, dan oleh itu seseorang sentiasa boleh bergantung padanya.

Mengapakah terdapat peralihan dalam metodologi?

Soalan ini agak sukar untuk dijawab. Dalam kajiannya, Churchill Eisenhart mencadangkan bahawa kaedah mencari min aritmetik mungkin berasal dari bidang pengukuran sisihan magnetik, iaitu dalam mencari perbezaan antara arah jarum kompas yang menghala ke utara dan utara sebenar. Pengukuran ini amat penting semasa Zaman Penemuan.

Eisenhart mendapati bahawa sehingga akhir abad ke-16, kebanyakan saintis yang mengukur sisihan magnet menggunakan kaedah ad hoc (dari bahasa Latin "ke ini, untuk kesempatan ini, untuk tujuan ini") dalam memilih ukuran yang paling tepat.

Tetapi pada tahun 1580 saintis William Borough mendekati masalah secara berbeza. Dia mengambil lapan ukuran pesongan yang berbeza dan membandingkannya, dan membuat kesimpulan bahawa bacaan paling tepat adalah antara 11 ⅓ dan 11 ¼ darjah. Dia mungkin mengira min aritmetik, yang berada dalam julat ini. Bagaimanapun, Borough sendiri tidak secara terbuka menyebut pendekatannya sebagai kaedah baharu.

Sebelum 1635, tidak ada kes yang jelas menggunakan nilai purata sebagai nombor wakil sama sekali. Walau bagaimanapun, pada masa itu ahli astronomi Inggeris Henry Gellibrand mengambil dua ukuran berbeza bagi pesongan magnetik. Satu dilakukan pada waktu pagi (11 darjah) dan satu lagi pada sebelah petang (11 darjah dan 32 minit). Mengira paling banyak nilai sebenar, dia menulis:

"Jika kita mendapati min aritmetik, kita boleh mengatakan dengan kebarangkalian tinggi bahawa hasil pengukuran yang tepat mestilah kira-kira 11 darjah 16 minit."

Berkemungkinan ini adalah kali pertama purata digunakan sebagai yang paling hampir dengan yang benar!

Perkataan "purata" digunakan dalam Bahasa Inggeris pada awal abad ke-16 untuk menunjukkan kerugian kewangan daripada kerosakan yang dialami kapal atau kargo semasa pelayaran. Untuk seratus tahun akan datang, ia menandakan kerugian ini dengan tepat, yang dikira sebagai min aritmetik. Sebagai contoh, jika kapal rosak semasa pelayaran dan anak kapal terpaksa membuang beberapa barang ke laut untuk menjimatkan berat kapal, pelabur mengalami kerugian kewangan bersamaan dengan jumlah pelaburan mereka - kerugian ini dikira dengan cara yang sama seperti purata aritmetik. Jadi secara beransur-ansur nilai purata (purata) dan min aritmetik menumpu.

Nilai median

Hari ini, purata atau min aritmetik digunakan sebagai cara utama untuk memilih nilai perwakilan bagi satu set ukuran. Bagaimana ia berlaku? Mengapakah peranan ini tidak diberikan kepada nilai median?

Francis Galton adalah juara median

Istilah "nilai median" (median) - sebutan tengah dalam satu siri nombor, membahagikan siri ini dengan separuh - muncul pada masa yang sama dengan min aritmetik. Pada tahun 1599, ahli matematik Edward Wright, yang sedang mengusahakan masalah sisihan normal dalam kompas, mula-mula mencadangkan menggunakan nilai median.

“... Katakan ramai pemanah menembak sasaran tertentu. Sasaran kemudiannya dikeluarkan. Bagaimana anda boleh mengetahui di mana sasaran itu? Anda perlu mencari tempat tengah antara semua anak panah. Begitu juga, antara set hasil pemerhatian, yang paling hampir dengan kebenaran adalah yang di tengah.

Median digunakan secara meluas pada abad kesembilan belas, menjadi bahagian yang sangat diperlukan dalam mana-mana analisis data pada masa itu. Ia juga digunakan oleh Francis Galton, penganalisis abad kesembilan belas yang terkenal. Dalam cerita timbangan lembu jantan pada permulaan artikel ini, Galton pada asalnya menggunakan median sebagai mewakili pendapat orang ramai.

Ramai penganalisis, termasuk Galton, memilih median kerana lebih mudah untuk mengira set data yang lebih kecil.

Walau bagaimanapun, median tidak pernah lebih popular daripada min. Kemungkinan besar, ini berlaku kerana istimewa sifat statistik, wujud dalam nilai min, serta hubungannya dengan taburan normal.

Hubungan antara min dan taburan normal

Apabila kita mengambil banyak ukuran, hasilnya, seperti yang dikatakan oleh ahli statistik, "teredar secara normal." Ini bermakna jika data ini diplot pada graf, maka titik di atasnya akan menggambarkan sesuatu yang serupa dengan loceng. Jika anda menyambungkannya, anda akan mendapat lengkung "berbentuk loceng". Banyak statistik sesuai dengan taburan normal, seperti ketinggian orang, IQ, dan suhu tahunan tertinggi.

Apabila data diedarkan secara normal, min akan menjadi sangat hampir titik tertinggi pada lengkung loceng, dan bilangan ukuran yang sangat besar akan mendekati min. Malah terdapat formula yang meramalkan berapa banyak ukuran yang akan berada pada jarak tertentu daripada purata.

Oleh itu, pengiraan min memberi penyelidik banyak maklumat tambahan.

Hubungan nilai purata dengan sisihan piawai memberikan kelebihan yang besar, kerana nilai median tidak mempunyai hubungan sedemikian. Sambungan ini adalah bahagian utama analisis data eksperimen dan pemprosesan statistik maklumat. Itulah sebabnya purata telah menjadi teras statistik dan semua sains yang bergantung pada berbilang data untuk kesimpulan mereka.

Kelebihan min juga disebabkan oleh fakta bahawa ia mudah dikira oleh komputer. Walaupun nilai median untuk sekumpulan kecil data agak mudah untuk dikira sendiri, ia masih lebih mudah untuk ditulis program komputer, yang akan mencari nilai purata. Jika anda menggunakan Microsoft Excel, maka anda mungkin tahu bahawa fungsi median tidak semudah dikira sebagai fungsi nilai min.

Akhirnya, terima kasih kepada yang hebat nilai saintifik dan kemudahan penggunaan, min telah menjadi nilai perwakilan utama. Walau bagaimanapun, pilihan ini tidak selalunya yang terbaik.

Kelebihan nilai median

Dalam kebanyakan kes di mana kita ingin mengira pusat taburan, median ialah ukuran terbaik. Ini kerana nilai purata sebahagian besarnya ditentukan oleh keputusan yang melampau ukuran.

Ramai penganalisis percaya bahawa penggunaan purata yang tidak bertimbang rasa memberi kesan negatif kepada pemahaman kita tentang maklumat kuantitatif. Orang ramai melihat purata dan menganggapnya "biasa". Tetapi sebenarnya ia boleh ditakrifkan oleh mana-mana yang sangat menonjol siri homogen ahli.

Bayangkan seorang penganalisis yang ingin mengetahui nilai perwakilan untuk nilai lima rumah. Empat rumah bernilai $100,000 dan yang kelima ialah $900,000. Puratanya ialah $200,000 dan median ialah $100,000. Dalam hal ini, seperti dalam banyak kes lain, nilai median memberi pemahaman yang lebih baik apa yang boleh dipanggil "standard".

Menyedari betapa nilai yang melampau boleh menjejaskan purata, median digunakan untuk menggambarkan perubahan dalam pendapatan isi rumah AS.

Median juga kurang sensitif terhadap data "kotor" yang ditangani oleh penganalisis hari ini. Ramai ahli statistik dan penganalisis mengumpul maklumat dengan menemu bual orang di Internet. Jika pengguna secara tidak sengaja menambah sifar tambahan pada jawapan, yang bertukar 100 kepada 1000, maka ralat ini akan menjejaskan min lebih daripada median.

Min atau median?

Memilih antara median dan min mempunyai implikasi yang luas, daripada pemahaman kita tentang kesan ubat-ubatan terhadap kesihatan kepada pengetahuan kita tentang belanjawan standard keluarga.

Memandangkan pengumpulan dan analisis data semakin menentukan cara kita memahami dunia, begitu juga dengan nilai kuantiti yang kita gunakan. Dalam dunia yang ideal, penganalisis akan menggunakan kedua-dua min dan median untuk merancang data.

Tetapi kita hidup dalam keadaan masa dan perhatian yang terhad. Kerana batasan ini, kita selalunya perlu memilih hanya satu. Dan dalam banyak kes, nilai median adalah lebih baik.

Purata aritmetik (selepas ini dirujuk sebagai purata) mungkin merupakan parameter statistik yang paling popular. Konsep ini digunakan di mana-mana - dari pepatah "suhu purata di hospital" hingga serius karya ilmiah. Walau bagaimanapun, anehnya, purata adalah konsep yang rumit, selalunya mengelirukan, bukannya memberikan kejelasan dan kejelasan.

Jika bercakap tentang kerja saintifik, kemudian Analisis statistik data digunakan dalam hampir semua sains gunaan, walaupun dalam bidang kemanusiaan (contohnya, psikologi). Nilai min dikira untuk ciri yang diukur pada apa yang dipanggil skala berterusan. Tanda-tanda sedemikian adalah, sebagai contoh, kepekatan bahan dalam serum darah, ketinggian, berat, umur. Min aritmetik boleh dikira dengan mudah, dan ini diajar dalam sekolah Menengah. Walau bagaimanapun (sesuai dengan statistik matematik) nilai min ialah ukuran yang mencukupi bagi kecenderungan memusat dalam sampel hanya dalam kes taburan normal (Gaussian) bagi sifat (Rajah 1). nasi. 1. Taburan normal (Gaussian) bagi sesuatu ciri dalam sampel. Min (M) dan median (Me) adalah sama

Dalam kes sisihan taburan daripada undang-undang biasa, adalah tidak betul untuk menggunakan nilai purata, kerana ia terlalu sensitif kepada apa yang dipanggil "outliers" - tidak sesuai untuk sampel yang dikaji, terlalu besar atau terlalu kecil ( Rajah 2). Dalam kes ini, parameter lain, median, harus digunakan untuk mencirikan arah aliran pusat dalam sampel. Median ialah nilai atribut, di sebelah kanan dan kirinya ialah nombor yang sama pemerhatian (50% setiap satu). Parameter ini (tidak seperti nilai purata) tahan kepada "outlier". Perhatikan juga bahawa median juga boleh digunakan dalam kes taburan normal, di mana median adalah sama dengan min.

nasi. 2. Taburan ciri dalam sampel adalah berbeza daripada biasa. Min (m) dan median (ME) tidak sepadan

Untuk mengetahui sama ada taburan ciri dalam sampel adalah normal (Gaussian) atau tidak, iaitu, untuk mengetahui parameter mana yang harus digunakan (min atau median), terdapat ujian statistik khas.

Mari kita ambil contoh. Kadar pemendapan eritrosit dalam kumpulan pesakit dengan radang paru-paru baru-baru ini ialah 3, 5, 5, 7, 11, 12, 16, 16, 21, 42, 58. Nilai min bagi sampel ini ialah 17.8, median ialah 12. Taburan (mengikut ujian Shapiro-Wilk) tidak normal (Rajah 3), jadi median mesti digunakan. nasi. 3. Contoh

Anehnya, tetapi dalam beberapa bidang ekonomi, pemerhati luar tidak dapat melihat sekurang-kurangnya beberapa kesan penggunaan statistik matematik yang betul. Jadi, kami sentiasa diberitahu tentang gaji purata (contohnya, di institut penyelidikan), dan angka ini biasanya mengejutkan bukan sahaja pekerja biasa, tetapi juga ketua jabatan (kini dipanggil "pengurus pertengahan"). Kami terkejut bahawa gaji purata di Moscow adalah 40 ribu rubel, tetapi, tentu saja, kami faham bahawa kami telah "purata" dengan oligarki. Berikut adalah contoh dari kehidupan saintis: gaji pekerja makmal (ribu rubel) ialah 3, 5, 5, 7, 11, 12, 16, 16, 21, 42, 58. Nilai purata ialah 17.8, median ialah 12. Setuju bahawa ini adalah nombor yang berbeza!

Sudah tentu, ia tidak boleh diketepikan bahawa menyenyapkan harta rata-rata adalah kelicikan, kerana ia sentiasa lebih menguntungkan bagi pengurusan untuk membentangkan situasi dengan gaji pekerja yang lebih baik daripada yang sebenarnya.

Bukankah sudah tiba masanya komuniti saintifik menyeru pemimpin kita untuk menghentikan penyalahgunaan statistik matematik?

Olga Rebrova,
doc. sayang. Sains, Naib Presiden
IPO "Masyarakat Pakar Perubatan Berasaskan Bukti"

Upah dalam pelbagai sektor ekonomi, suhu dan kerpasan di kawasan yang sama untuk tempoh masa yang setanding, hasil tanaman dalam berbeza kawasan geografi dll. Walau bagaimanapun, purata bukanlah satu-satunya penunjuk umum - dalam beberapa kes untuk lebih penilaian yang tepat nilai seperti median adalah sesuai. Dalam statistik, ia digunakan secara meluas sebagai ciri deskriptif tambahan bagi taburan ciri dalam populasi tunggal. Mari lihat bagaimana ia berbeza daripada purata, dan juga apa yang menyebabkan keperluan untuk menggunakannya.

Median dalam statistik: definisi dan sifat

Bayangkan situasi berikut: 10 orang bekerja bersama-sama dengan pengarah dalam sebuah syarikat. Pekerja biasa menerima 1,000 Hryvnia setiap seorang, dan pengurus mereka, yang, lebih-lebih lagi, adalah pemilik, menerima 10,000 Hryvnia. Jika dikira min aritmetik, ternyata purata gaji untuk perusahaan ini bersamaan dengan 1900 UAH. Adakah kenyataan ini benar? Atau ambil contoh ini, dalam yang sama wad hospital terdapat sembilan orang dengan suhu 36.6 ° C, dan seorang yang suhunya 41 ° C. Purata aritmetik dalam kes ini ialah: (36.6 * 9 + 41) / 10 \u003d 37.04 ° C. Tetapi ini tidak bermakna semua yang hadir sakit. Semua ini menunjukkan bahawa purata sahaja selalunya tidak mencukupi, dan itulah sebabnya median digunakan sebagai tambahan kepadanya. Dalam statistik, penunjuk ini dipanggil varian yang terletak betul-betul di tengah-tengah siri variasi tertib. Jika anda mengiranya untuk contoh kami, anda mendapat, masing-masing, 1000 UAH. dan 36.6 ° С. Dalam erti kata lain, median dalam statistik ialah nilai yang membahagikan siri kepada separuh dengan cara yang pada kedua-dua belahnya (atas atau bawah) terletak. nombor yang sama unit populasi ini. Kerana sifat ini, penunjuk ini mempunyai beberapa nama lain: persentil ke-50 atau kuantil 0.5.

Bagaimana untuk mencari median dalam statistik

Kaedah pengiraan nilai ini sebahagian besarnya bergantung pada jenis siri variasi yang kita ada: diskret atau selang. Dalam kes pertama, median dalam statistik agak mudah. Apa yang anda perlu lakukan ialah mencari jumlah frekuensi, bahagikan dengan 2, dan kemudian tambah ½ kepada hasilnya. Adalah lebih baik untuk menerangkan prinsip pengiraan dengan contoh berikut. Katakan kita telah mengumpulkan data kesuburan dan ingin mengetahui apakah median itu.

Nombor kumpulan keluarga mengikut bilangan anak

Bilangan keluarga

Setelah menjalankan beberapa pengiraan mudah, kami mendapat bahawa penunjuk yang dikehendaki adalah sama dengan: 195/2 + ½ = pilihan. Untuk mengetahui maksud ini, anda harus mengumpulkan frekuensi secara berurutan, bermula dengan pilihan terkecil. Jadi, jumlah dua baris pertama memberi kita 30. Jelas sekali, tiada 98 pilihan di sini. Tetapi jika kita menambah kekerapan pilihan ketiga (70) kepada hasilnya, kita mendapat jumlah yang sama dengan 100. Ia hanya mengandungi pilihan ke-98, yang bermaksud bahawa median akan menjadi keluarga yang mempunyai dua anak.

Bagi siri selang, formula berikut biasanya digunakan di sini:

M e \u003d X Me + i Me * (∑f / 2 - S Me-1) / f Me, di mana:

  • X Me - nilai pertama selang median;
  • ∑f ialah bilangan siri (jumlah frekuensinya);
  • i Me - nilai julat median;
  • f Me - kekerapan julat median;
  • S Me-1 - jumlah kekerapan terkumpul dalam julat sebelum median.

Sekali lagi, sukar untuk memikirkan perkara ini tanpa contoh. Katakan terdapat data pada nilai

Gaji, ribuan rubel

Frekuensi Terkumpul

Untuk menggunakan formula di atas, kita perlu menentukan selang median terlebih dahulu. Oleh itu julat sedemikian, satu dipilih, kekerapan terkumpulnya melebihi atau sama dengan separuh daripada jumlah keseluruhan frekuensi. Jadi, membahagikan 510 dengan 2, kita mendapat bahawa kriteria ini sepadan dengan selang dengan nilai gaji 250,000 rubel. sehingga 300,000 rubel Sekarang anda boleh menggantikan semua data dalam formula:

M e \u003d X Me + i Me * (∑f / 2 - S Me-1) / f Me \u003d 250 + 50 * (510/2 - 170) / 115 \u003d 286.96 ribu rubel.

Kami berharap artikel kami berguna, dan kini anda mempunyai idea yang jelas tentang apa median dalam statistik dan bagaimana ia harus dikira.

Bersama-sama dengan nilai purata sebagai ciri statistik siri pengagihan variasi, purata struktur dikira - fesyen dan median.
Fesyen(Mo) mewakili nilai ciri yang dikaji, diulang dengan kekerapan tertinggi, i.e. mod ialah nilai ciri yang paling kerap berlaku.
median(Saya) ialah nilai ciri yang berada di tengah-tengah populasi berperingkat (tertib), i.e. median - nilai pusat siri variasi.
Sifat utama median ialah jumlah sisihan mutlak nilai atribut daripada median adalah kurang daripada mana-mana nilai lain ∑|x i - Me|=min.

Menentukan Mod dan Median daripada Data Tidak Berkumpulan

Pertimbangkan penentuan mod dan median daripada data tidak terkumpul. Andaikan kru kerja yang terdiri daripada 9 orang mempunyai kategori upah berikut: 4 3 4 5 3 3 6 2 6 . Memandangkan pasukan ini mempunyai pekerja paling ramai dalam kategori ke-3, kategori tarif ini akan menjadi modal. Mo = 3.
Untuk menentukan median, adalah perlu untuk meletakkan kedudukan: 2 3 3 3 4 4 5 6 6 . Pusat dalam siri ini ialah pekerja kategori ke-4, oleh itu, kategori ini akan menjadi median. Jika siri kedudukan termasuk bilangan unit genap, maka median ditakrifkan sebagai purata dua nilai pusat.
Jika mod mencerminkan varian nilai ciri yang paling biasa, maka median secara praktikal melaksanakan fungsi purata untuk heterogen, bukan subordinat. undang-undang biasa taburan penduduk. Mari kita jelaskan kepentingan kognitifnya dengan contoh berikut.
Katakan kita perlu mencirikan purata pendapatan sekumpulan orang yang berjumlah 100 orang, di mana 99 daripadanya mempunyai pendapatan dalam julat dari $100 hingga $200 sebulan, dan pendapatan bulanan mereka ialah $50,000 (Jadual 1).
Jadual 1 - Pendapatan bulanan kumpulan orang yang dikaji. Jika kita menggunakan min aritmetik, kita mendapat pendapatan purata kira-kira 600 - 700 dolar, yang mempunyai sedikit persamaan dengan pendapatan bahagian utama kumpulan. Median adalah sama dengan kes ini Saya = 163 dolar, akan memberikan penerangan objektif tahap pendapatan 99% daripada kumpulan orang ini.
Pertimbangkan takrifan mod dan median mengikut data terkumpul (siri pengedaran).
Katakan pengagihan pekerja keseluruhan perusahaan secara keseluruhan mengikut kategori tarif telah pandangan seterusnya(Jadual 2).
Jadual 2 - Pengagihan pekerja perusahaan mengikut kategori tarif

Pengiraan mod dan median untuk siri diskret

Pengiraan mod dan median untuk siri selang waktu

Pengiraan mod dan median untuk siri variasi

Menentukan Mod daripada Siri Variasi Diskret

Siri nilai ciri yang dibina lebih awal, diisih mengikut nilai, digunakan. Jika saiz sampel adalah ganjil, ambil nilai tengah; jika saiz sampel adalah sekata, kita mengambil min aritmetik bagi dua nilai pusat.
Menentukan Mod daripada Siri Variasi Diskret: kekerapan tertinggi(60 orang) mempunyai kategori tarif ke-5, oleh itu, ia adalah modal. Mo = 5.
Untuk menentukan nilai median atribut, bilangan unit median siri (N Me) didapati menggunakan formula berikut: , dengan n ialah isipadu populasi.
Dalam kes kami: .
Menerima nilai pecahan, sentiasa berlaku untuk bilangan genap unit populasi, menunjukkan bahawa titik tengah yang tepat adalah antara 95 dan 96 pekerja. Adalah perlu untuk menentukan kumpulan pekerja mana yang mempunyai ini nombor siri. Ini boleh dilakukan dengan mengira frekuensi terkumpul. Tiada pekerja dengan nombor ini dalam kumpulan pertama, di mana hanya terdapat 12 orang, dan mereka tidak berada dalam kumpulan kedua (12+48=60). Pekerja ke-95 dan ke-96 berada dalam kumpulan ketiga (12+48+56=116), oleh itu, kategori gaji ke-4 ialah median.

Pengiraan mod dan median dalam siri selang

Tidak seperti siri variasi diskret, penentuan mod dan median daripada siri selang memerlukan pengiraan tertentu berdasarkan formula berikut:
, (5.6)
di mana x0- had bawah selang modal (selang dengan kekerapan tertinggi dipanggil modal);
i ialah nilai selang modal;
fMo ialah kekerapan selang modal;
f Mo-1 ialah kekerapan selang sebelum modal;
f Mo +1 ialah kekerapan selang berikutan modal.
(5.7)
di mana x0– had bawah selang median (median ialah selang pertama, kekerapan terkumpulnya melebihi separuh jumlah keseluruhan frekuensi);
i ialah nilai selang median;
S Saya-1- selang terkumpul sebelum median;
f Saya ialah kekerapan selang median.
Kami menggambarkan penggunaan formula ini menggunakan data dalam Jadual. 3.
Selang dengan sempadan 60 - 80 dalam pengedaran ini akan menjadi modal, kerana ia mempunyai frekuensi tertinggi. Menggunakan formula (5.6), kami menentukan mod:

Untuk mewujudkan selang median, adalah perlu untuk menentukan kekerapan terkumpul setiap selang berikutnya sehingga ia melebihi separuh daripada jumlah frekuensi terkumpul (dalam kes kami, 50%) (Jadual 5.11).
Didapati bahawa median adalah selang dengan sempadan 100 - 120 ribu rubel. Kami kini mentakrifkan median:

Jadual 3 - Taburan penduduk Persekutuan Rusia mengikut tahap purata pendapatan tunai nominal per kapita pada Mac 1994
Kumpulan mengikut tahap purata pendapatan bulanan per kapita, ribu rubelBahagian penduduk, %
sehingga 201,4
20 – 40 7,5
40 – 60 11,9
60 – 80 12,7
80 – 100 11,7
100 – 120 10,0
120 – 140 8,3
140 –160 6,8
160 – 180 5,5
180 – 200 4,4
200 – 220 3,5
220 – 240 2,9
240 – 260 2,3
260 – 280 1,9
280 – 300 1,5
Lebih 3007,7
Jumlah100,0

Jadual 4 - Definisi selang median
Oleh itu, min aritmetik, mod dan median boleh digunakan sebagai ciri umum nilai atribut tertentu untuk unit populasi berperingkat.
Ciri utama pusat pengedaran ialah min aritmetik, yang dicirikan oleh fakta bahawa semua sisihan daripadanya (positif dan negatif) menambah hingga sifar. Ia adalah tipikal untuk median bahawa jumlah sisihan daripadanya dalam modulus adalah minimum, dan mod ialah nilai ciri yang paling kerap berlaku.
Nisbah mod, median dan min aritmetik menunjukkan sifat taburan sifat dalam agregat, membolehkan kita menilai asimetrinya. Dalam taburan simetri, ketiga-tiga ciri adalah sama. Semakin besar percanggahan antara mod dan min aritmetik, semakin tidak simetri siri tersebut. Untuk siri yang condong sederhana, perbezaan antara mod dan min aritmetik adalah lebih kurang tiga kali ganda perbezaan antara median dan min, iaitu:
|Mo–`x| = 3 |Saya –`x|.

Penentuan mod dan median dengan kaedah grafik

Mod dan median masuk siri selang boleh ditentukan secara grafik. Mod ditentukan daripada histogram taburan. Untuk melakukan ini, segi empat tepat tertinggi dipilih, yang dalam kes ini adalah modal. Kemudian kami menyambungkan puncak kanan segi empat tepat modal dengan kanan bucu atas segi empat tepat sebelumnya. Dan bucu kiri segi empat tepat modal adalah dengan sudut kiri atas segi empat tepat berikutnya. Dari titik persimpangan mereka, kami menurunkan serenjang dengan paksi abscissa. Absis bagi titik persilangan garisan ini akan menjadi mod pengedaran (Rajah 5.3).


nasi. 5.3. Definisi grafik mod histogram.


nasi. 5.4. Penentuan grafik median secara terkumpul
Untuk menentukan median dari titik pada skala frekuensi terkumpul (frekuensi) bersamaan dengan 50%, garis lurus dilukis selari dengan paksi absis ke persilangan dengan terkumpul. Kemudian, dari titik persilangan, serenjang diturunkan ke paksi absis. Absis bagi titik persilangan ialah median.

Kuartil, Desil, Persentil

Begitu juga, dengan mencari median dalam siri variasi taburan, anda boleh mencari nilai ciri untuk mana-mana unit siri kedudukan mengikut urutan. Jadi, sebagai contoh, anda boleh mencari nilai ciri dalam unit yang membahagikan siri kepada empat bahagian yang sama, kepada 10 atau 100 bahagian. Nilai ini dipanggil "kuartil", "desil", "persentil".
Kuartil ialah nilai ciri yang membahagikan populasi julat kepada 4 bahagian yang sama.
Terdapat kuartil yang lebih rendah (Q 1), memisahkan ¼ daripada populasi dengan nilai terkecil ciri, dan kuartil atas (Q 3), memotong ¼ bahagian dengan nilai tertinggi ciri tersebut. Ini bermakna 25% daripada unit populasi akan kurang daripada Q 1; 25% unit akan disertakan antara Q 1 dan Q 2 ; 25% - antara Q 2 dan Q 3, dan baki 25% adalah lebih tinggi daripada Q 3. Kuartil tengah Q 2 ialah median.
Untuk mengira kuartil mengikut siri variasi selang, formula berikut digunakan:
, ,
di mana x Q 1– had bawah selang yang mengandungi kuartil bawah (selang ditentukan oleh kekerapan terkumpul, yang pertama melebihi 25%);
x Q 3– had bawah selang yang mengandungi kuartil atas (selang ditentukan oleh kekerapan terkumpul, yang pertama melebihi 75%);
i– nilai selang;
S Q 1-1 ialah kekerapan kumulatif selang sebelum selang yang mengandungi kuartil bawah;
S Q 3-1 ialah kekerapan terkumpul bagi selang sebelum selang yang mengandungi kuartil atas;
f Q 1 ialah kekerapan selang yang mengandungi kuartil bawah;
f Q 3 ialah kekerapan selang yang mengandungi kuartil atas.
Pertimbangkan pengiraan kuartil bawah dan atas mengikut Jadual. 5.10. Kuartil bawah berada dalam julat 60 - 80, kekerapan kumulatifnya ialah 33.5%. Kuartil atas terletak dalam julat 160 - 180 dengan kekerapan terkumpul 75.8%. Dengan ini, kami mendapat:
,
.
Sebagai tambahan kepada kuartil, desil boleh ditentukan dalam peringkat taburan variasi - pilihan yang membahagikan siri variasi julat dengan sepuluh bahagian yang sama. Desil pertama (d 1) membahagikan populasi 1/10 hingga 9/10, desil kedua (d 1) 2/10 hingga 8/10, dan seterusnya.
Mereka dikira mengikut formula:
, .
Nilai ciri yang membahagikan siri kepada seratus bahagian dipanggil persentil. Nisbah median, kuartil, desil dan persentil ditunjukkan dalam Rajah. 5.5.

Aliran pusat data boleh dianggap bukan sahaja sebagai nilai dengan jumlah sisihan sifar (min aritmetik) atau frekuensi maksimum (mod), tetapi juga sebagai tanda tertentu (tahap tertentu penunjuk yang dianalisis) yang membahagikan kedudukan data (disusun dalam susunan menaik atau menurun) kepada dua bahagian yang sama. Iaitu, separuh daripada data awal adalah kurang daripada tanda ini dalam nilainya, dan separuh lagi. Itulah yang berlaku median. Mod dan median - penunjuk penting, ia mencerminkan struktur data dan kadangkala digunakan dan bukannya min aritmetik.

Jadi, median ialah tahap penunjuk yang membahagikan set data tertentu kepada dua bahagian yang sama. Sebagai contoh demonstrasi, kita sekali lagi beralih kepada set nombor rawak. Pengedaran sedemikian untuk dalam jumlah yang banyak nilai dalam kesusasteraan digambarkan sebagai kejadian biasa. Berikut adalah data dalam bentuk gambar.

Jelas sekali, dengan taburan simetri, tengah, membahagikan populasi kepada separuh, akan berada di tengah - di tempat yang sama dengan min aritmetik (dan mod). Ini, boleh dikatakan, situasi yang ideal apabila mod, median dan min aritmetik bertepatan dan semua sifatnya jatuh pada satu titik - kekerapan maksimum, pembahagian dua, jumlah sifar sisihan - semuanya di satu tempat. Walau bagaimanapun, kehidupan tidak simetri seperti taburan normal. Oleh itu, mari kita lihat taburan asimetri, dan apa yang berlaku kepada arah aliran utama kami di sana.

Katakan kita berurusan dengan pengukuran teknikal penyimpangan daripada nilai jangkaan sesuatu (kandungan unsur, jarak, aras, jisim, dll., dll.). Jika semuanya OK, maka sisihan kemungkinan besar akan diedarkan mengikut undang-undang yang hampir normal, kira-kira seperti dalam rajah di atas (amalan menyangkal andaian sedemikian, tetapi oh well). Tetapi jika beberapa faktor penting dan tidak terkawal hadir dalam proses yang dianalisis, maka nilai anomali mungkin muncul dalam pemerhatian, yang akan memberi kesan ketara kepada min aritmetik, tetapi hampir tidak menjejaskan median, yang jelas dilihat dalam histogram berikut.

Median ialah alternatif utama kepada min aritmetik, kerana ia tahan terhadap penyelewengan anomali (outliers). Artikel ini membincangkan bagaimana min aritmetik berkelakuan dengan nilai yang tidak normal dan cara menanganinya, iaitu, bagaimana untuk menjadikannya kurang bergantung pada outlier. Pilihan utama adalah untuk menambah bilangan pemerhatian dan/atau menghapuskan anomali daripada sampel analisis. Jadi, peralihan daripada min aritmetik kepada median adalah satu lagi cara untuk mendapatkan anggaran jangkaan matematik yang stabil (teguh). Perkara lain ialah sifat-sifat min aritmetik akan hilang selama-lamanya, tetapi di sini anda perlu melihat apa yang lebih penting.

Sekarang contoh penggunaan sebenar median dalam statistik. Apabila menganalisis purata gaji di negara ini, median boleh digunakan dan bukannya min aritmetik. Rakyat tidak suka apabila gaji mereka sendiri di bawah purata (aritmetik) dalam negara. Ini menyebabkan ribut emosi dan pendedahan dalam pengiraan yang salah. Seperti, saya mempunyai gaji 100 rubel, dan pengarah mempunyai 1000 rubel, jadi ternyata purata 550 rubel. Apa yang rakyat tidak puas hati tidak diketahui dan tidak berminat. Tetapi jika anda menggunakan median, ia akan menjadi jelas bahawa separuh daripada penduduk menerima pendapatan kurang daripada nilai median, dan separuh - lebih.

Penunjuk ini juga digunakan dalam statistik demografi, dalam analisis pelbagai kuantitatif dan ciri kualiti(kekuatan bahan, kandungan elemen, masa operasi, bilangan kegagalan, dsb.). Malah peniaga forex menggunakan median sebagai beberapa jenis isyarat rahsia untuk memulakan tindakan. Walaupun kebanyakannya ia tidak menjimatkan.

matematik harta median ialah jumlah sisihan mutlak (modulo) daripada nilai median memberikan nilai minimum yang mungkin jika dibandingkan dengan sisihan daripada sebarang nilai lain. Malah kurang daripada min aritmetik, oh bagaimana! Fakta ini mendapati aplikasinya, sebagai contoh, dalam penyelesaian tugas pengangkutan apabila perlu untuk mengira tapak pembinaan objek berhampiran jalan sedemikian rupa sehingga jumlah panjang penerbangan ke sana dari tempat yang berbeza adalah minimum (hentian, stesen minyak, gudang, dll., dll.). Nota kepada ahli logistik.

(modul 111)

Formula median untuk diskret data agak mengingatkan formula fesyen. Iaitu, hakikat bahawa tiada formula seperti itu. Nilai median dipilih daripada data yang tersedia, dan hanya jika ini tidak mungkin, pengiraan mudah dijalankan.

Pertama sekali, data ditarafkan (diisih dalam susunan menurun). Seterusnya, terdapat dua pilihan. Jika bilangan nilai adalah ganjil, maka median akan sepadan dengan nilai pusat siri, bilangan yang boleh ditentukan oleh formula:

Tidak. Saya ialah bilangan nilai yang sepadan dengan median,

N ialah bilangan nilai dalam set data.

Kemudian median akan dilambangkan sebagai

Ini adalah kes pertama di mana terdapat satu nilai pusat dalam data. Pilihan kedua berlaku apabila jumlah data adalah genap, iaitu, bukannya satu, terdapat dua nilai pusat. Penyelesaiannya adalah mudah: min aritmetik bagi dua nilai pusat diambil:

Beginilah cara carian atau pengiraan berlaku dalam data diskret. Walau bagaimanapun, data mungkin juga selang waktu, di mana tidak mungkin untuk memilih nilai tertentu, kerana tiada nilai khusus. Seperti dalam fesyen, median dalam kes ini dikira mengikut beberapa peraturan yang diterima umum, berdasarkan andaian tertentu, iaitu, dengan mata. Dan ternyata baik, saya beritahu anda!

Untuk bermula dengan (selepas kedudukan data) cari selang median. Ini ialah selang di mana nilai median yang dikehendaki berlalu. Ditentukan menggunakan perkadaran terkumpul selang kedudukan. Jika bahagian terkumpul buat kali pertama melebihi 50% daripada semua nilai, terdapat juga selang median.

Saya tidak tahu siapa yang menghasilkan formula median, tetapi mereka jelas meneruskan dari andaian bahawa pengagihan data dalam selang median adalah seragam (iaitu 30% daripada lebar selang ialah 30% daripada nilai, 80% daripada lebar ialah 80% daripada nilai, dsb.) . Oleh itu, mengetahui bilangan nilai dari permulaan selang median hingga 50% daripada semua nilai dalam populasi (perbezaan antara separuh bilangan semua nilai dan kekerapan terkumpul selang pra-median) , anda boleh mencari bahagian yang mereka duduki dalam keseluruhan selang median. Bahagian ini betul-betul dipindahkan ke lebar selang median, menunjukkan nilai tertentu, kemudian dipanggil median.

Tanpa berlengah lagi, mari beralih kepada gambar rajah visual - ia akan menjadi lebih jelas.

Ternyata sedikit menyusahkan, tetapi sekarang, saya harap, semuanya jelas dan boleh difahami. Untuk tidak melukis graf sedemikian setiap kali semasa pengiraan, anda boleh menggunakan formula siap sedia. Formula median ialah:

di mana x Saya- had bawah selang median;

i Saya- lebar selang median;

∑f/2- bilangan semua nilai dibahagikan dengan 2 (dua);

S (Saya-1)- jumlah bilangan cerapan yang terkumpul sebelum permulaan selang median, i.e. kekerapan terkumpul selang premedian;

f Saya- bilangan cerapan dalam selang median.

Seperti yang anda boleh lihat dengan mudah, formula median terdiri daripada dua istilah: 1 - nilai permulaan selang median dan 2 - bahagian paling yang berkadar dengan bahagian terkumpul yang hilang sehingga 50%. Sesuatu yang serupa dengan formula fesyen. Perbezaannya terletak pada pencarian titik di dalam selang.

Sebagai contoh, mari kita hitung median untuk data berikut.

Ia dikehendaki mencari harga median iaitu harga yang lebih murah dan lebih mahal daripada separuh kuantiti barang. Sebagai permulaan, kami akan membuat pengiraan tambahan bagi kekerapan terkumpul, pecahan terkumpul, jumlah barang. Sekarang mari kita lihat semula apa yang kita ada.

Menurut lajur terakhir "Bahagian terkumpul", kami menentukan selang median - 300-400 rubel (bahagian terkumpul untuk kali pertama adalah lebih daripada 50%). Lebar selang - 100 rubel. Sekarang ia kekal untuk menggantikan data dalam formula di atas dan mengira median.

Iaitu, untuk separuh daripada barangan harganya lebih rendah daripada 350 rubel, untuk separuh lagi ia lebih tinggi. Semuanya mudah. Purata aritmetik yang dikira daripada data yang sama ialah 355 rubel. Perbezaannya tidak ketara, tetapi ia adalah.

Pengiraan Median dalam Excel

Statistik tanpa pengiraan automatik - abad yang lalu. Median nombor mudah dicari menggunakan Fungsi Excel, yang dipanggil MEDIAN. Digunakan archisimple. Sel untuk pengiraan diaktifkan, fungsi dipanggil, julat data dipilih dan "OK". Tiada apa lagi yang perlu dibincangkan. Sesuai untuk kedua-dua jumlah data genap dan ganjil.

Perkara lain ialah data selang. Tiada fungsi yang sepadan dalam Excel. Oleh itu, formula di atas mesti digunakan. Apa yang kau boleh buat? Tetapi ini tidak begitu tragis, kerana pengiraan median daripada data selang adalah kes yang jarang berlaku. Anda juga boleh mengiranya pada kalkulator.

Dengan cara ini, fakta bahawa median membahagikan data kepada dua bahagian yang sama adalah mengingatkan beberapa kaedah pengelompokan. Sesungguhnya, selepas mencari median, kita juga mendapat dua kumpulan dengan bilangan nilai yang sama. Membangunkan idea ini, pembahagian kepada kumpulan boleh dibuat bukan sahaja mengikut prinsip 50/50, tetapi juga mengikut saham lain. Contohnya, 20% Nilai tertinggi adalah tidak lain daripada kumpulan A dalam analisis ABC. Mengenai perkongsian lain entah bagaimana dalam artikel lain. Lihat bagaimana kaedah yang kelihatan tidak berkaitan bersilang?

Kisah saya akan sampai ke penghujungnya statistik median. Saya harap dia tidak penat. Akhirnya, saya mencadangkan teka-teki dalam gaya kuiz TV "Siapa yang mahu menjadi jutawan?". Terdapat set data. 15, 5, 20, 5, 10. Berapakah purata? Empat Pilihan:

Saya juga mencadangkan menonton video mengenai topik pengiraan median dalam Excel.