Біографії Характеристики Аналіз

Медіанне усереднення. Визначення моди та медіани графічним методом

У 1906 році великий вчений і відомий фахівець з євгеніки Френсіс Гальтон відвідав щорічну виставку досягнень тваринництва та птахівництва у західній Англії, де випадково провів цікавий експеримент.

Як зазначає Джеймс Суровецьки, автор книги «Мудрість натовпу», на ярмарку Гальтона зацікавило одне змагання, в рамках якого люди мали вгадати вагу забитого бика. Назвав найближче до істинному числуоголошувався переможцем.

Гальтон був відомий своєю зневагою до інтелектуальним здібностям звичайних людей. Він вважав, що лише справжні експерти зможуть зробити точні твердження про вагу бика. А 787 учасників змагання не були експертами.

Вчений збирався довести некомпетентність натовпу, обчисливши середню кількість відповідей учасників. Яке ж було його здивування, коли виявилося, що отриманий ним результат майже точно відповідав справжній вазі бика!

Середнє значення - пізніше винахід

Звісно, ​​точність відповіді вразила дослідника. Але ще примітнішим є той факт, що Гальтон взагалі здогадався скористатися середнім значенням.

У сьогоднішньому світі середні і так звані медіанні показники зустрічаються на кожному кроці: Середня температурау Нью-Йорку у квітні дорівнює 52 градусам за Фаренгейтом; Стівен Каррі в середньому заробляє 30 очок за гру; медіанний сімейний дохід у США становить $51 939/рік.

Однак ідея про те, що безліч різних результатів можна репрезентувати одним числом, задоволена нова. До 17 століття середні числа взагалі не використовувалися.

Яким чином з'явилася і розвинулася концепція середніх і медіанних значень? І як їй удалося стати головною вимірювальною методикою в наш час?

Переважання середніх значень над медіанними мало далекосяжні наслідки для нашого розуміння інформації. І нерідко воно приводило людей в оману.

Середнє та медіанне значення

Уявіть, що ви розповідаєте історію про чотирьох людей, які вечеряли минулого вечора з вами в ресторані. Одному з них ви дали б 20 років, іншому — 30, третьому — 40, а четвертому — 50. Що ви скажете про їх вік у своїй історії?

Швидше за все, ви назвете їхній середній вік.

Середнє значення часто використовується передачі інформації про що-небудь, і навіть для опису деякого безлічі вимірів. Технічно, середнє значення — те, що математики називають «середнім арифметичним» — сума всіх вимірів, поділена на число вимірів.

Хоча слово "середнє" (average) часто використовується як синонім слова "медіанне" (median), останнім частіше позначається середина чогось. Це слово походить від латинського "medianus", що означає "середина".

Медіанне значення в Стародавню Грецію

Історія медіанного значення бере свій початок із вчення давньогрецького математика Піфагора. Для Піфагора та його школи медіана мала чітке визначення і дуже відрізнялася від того, як ми розуміємо середнє значення сьогодні. Воно використовувалося лише у математиці, а чи не в аналізі даних.

У школі піфагорійців медіанне значеннябуло середнім числом у тричленної послідовності чисел, що у «рівному» відношенні із сусідніми членами. «Рівне» ставлення могло означати однакову відстань. Наприклад, число 4 у рядку 2,4,6. Однак воно також могло висловлювати геометричну прогресію, Наприклад 10 послідовності 1,10,100.

Статистик Черчілль Ейзенхарт пояснює, що в Стародавній Греції, медіанне значення не використовувалося як репрезентуючий чи заміняє якийсь набір чисел. Воно просто означало середину і часто використовувалося в математичних доказах.

Ейзенхарт присвятив цілих десять років вивченню середнього та медіанного значень. Спочатку він намагався знайти репрезентуючу функцію медіани в ранніх наукових побудовах. Однак натомість він виявив, що більшість ранніх фізиків та астрономів спиралися на одиничні, вміло проведені виміри, і у них не було методології, що дозволяла вибрати найкращий результатсеред безлічі спостережень.

Сучасні дослідники ґрунтують свої висновки на збиранні великих обсягів даних, як, наприклад, біологи, які вивчають людський геном. Давні вчені могли провести кілька вимірів, але вибирали лише найкраще для побудови своїх теорій.

Як писав історик астрономії Отто Нойгебауер, «це узгоджується з усвідомленим прагненням античних людеймінімізувати кількість емпіричних даних у науці, тому що вони не вірили у точність безпосередніх спостережень».

Наприклад, грецький математик та астроном Птолемей обчислив кутовий діаметр Місяця, використовуючи метод спостереження та теорію руху землі. Його результат дорівнював 31'20. Сьогодні ми знаємо, що діаметр Місяця коливається від 29'20 до 34'6 залежно від відстані від Землі. Птолемей у своїх обчисленнях використовував мало даних, але він мав усі підстави вважати, що вони були точними.

Ейзенхарт пише: «Необхідно мати на увазі, що зв'язок між спостереженням і теорією в античності був інший, ніж сьогодні. Результати спостережень розумілися не як факти, під які повинна підлаштовуватися теорія, але як конкретні випадки, які можуть бути корисними лише як ілюстративні приклади істинності теорії»

Зрештою, вчені звернуться до репрезентативних вимірювань даних, але спочатку ні середні, ні медіанні значення не використовувалися в цій ролі. З часів античності до сьогоднішнього дняяк такий репрезентативний засіб використовувався інший математичний концепт — напівсума крайніх значень.

Напівсума крайніх значень

Нові наукові засобимайже завжди виникають із необхідності вирішити певне завдання у будь-якій дисципліні. Необхідність знайти найкраще значеннясеред безлічі вимірювань виникло потреба точно визначити географічне положення.

Інтелектуальний гігант 11-го століття Аль-Біруні відомий як один з перших людей, які використовували методологію значень, що репрезентують. Аль-Біруні писав, що коли в його розпорядженні було безліч вимірів, і він хотів знайти найкраще серед них, він використав таке «правило»: потрібно відшукати число, що відповідає середині між двома крайніми значеннями. При обчисленні напівсуми крайніх значень не беруться до уваги всі числа між максимальним і мінімальними значеннями, А знаходиться середнє тільки для цих двох чисел.

Аль-Біруні застосовував цей метод у різних галузях, у тому числі для обчислення довготи міста Газні, що знаходиться на території сучасного Афганістану, а також у своїх дослідженнях властивостей металів.

Проте останні кілька століть напівсума крайніх значень використовується дедалі рідше. Насправді, в сучасній науцівона й не актуальна. На місце напівсуми прийшло медіанне значення.

Перехід до середніх значень

На початку 19-го століття використання медіанного/середнього значення стало поширеним методом знаходження найбільш точно репрезентує значення групи даних. Фрідріх фон Гаус, видатний математик свого часу, в 1809-му році писав: «Вважалося, що якщо деяке число було визначено кількома прямими спостереженнями, досконалими в однакових умовах, то середнє арифметичне значенняє найбільш дійсним значенням. Якщо воно й не зовсім строге, то принаймні воно близьке до дійсності, і тому на нього завжди можна покластися».

Чому відбулося подібне зрушення в методології?

На це питання важко відповісти. У своєму дослідженні Черчілль Ейзенхарт припускає, що метод знаходження середнього арифметичного міг зародитися в галузі вимірювання магнітного відхилення, тобто у відшуканні відмінності між напрямком стрілки компаса, що вказує на північ і реальною північчю. Цей вимір був украй важливим в епоху Великих Географічних Відкриттів.

Ейзенхарт з'ясував, що до кінця 16-го століття більшість вчених, що вимірювали магнетичне відхилення, використовували метод ad hoc (від лат. «до цього, для даного випадку, для цієї мети») при виборі найбільш точного вимірювання.

Але у 1580-му році вчений ВільямБоро підійшов до проблеми інакше. Він взяв вісім різних вимірів відхилення і, порівнявши їх, дійшов висновку, що найбільш точне значення було між 11⅓ і 11? градусами. Ймовірно, він вирахував середнє арифметичне, яке знаходилось у цьому діапазоні. Проте сам Боро відкрито не називав свого підходу новим методом.

До 1635-го року взагалі було однозначних випадків використання середнього значення як репрезентуючого числа. Однак саме тоді англійський астроном Генрі Геллібренд взяв два різні результати вимірювання магнетичного відхилення. Одна з них була зроблена вранці (11 градусів), а інша — вдень (11 градусів та 32 хвилини). Обчислюючи найбільш справжнє значення, він писав:

"Якщо ми знайдемо середнє арифметичне, ми з великою ймовірністю можемо стверджувати, що результат точного вимірювання має бути близько 11 градусів 16 хвилин".

Цілком імовірно, що це був перший випадок використання середнього значення як найближчого до істинного!

Слово «середнє» (average) застосовувалося в англійській мовіна початку 16-го століття для позначення фінансових втрат від шкоди, яке отримало судно або вантаж, що перевозився під час плавання. Протягом наступних ста років воно означало саме ці втрати, які вираховувалися як середнє арифметичне. Наприклад, якщо корабель під час плавання був пошкоджений, і команді доводилося викидати за борт деякі товари, щоб зберегти вагу судна, інвестори зазнавали фінансових втрат, еквівалентних сумі їх інвестиції — ці втрати обчислювалися так само, як середнє арифметичне. Так поступово значення середнього (average) та середнього арифметичного зближалися.

Медіанне значення

У наші дні середнє або середнє арифметичне використовуються як основний спосіб для вибору репрезентативного значення безлічі вимірювань. Як це сталося? Чому ця роль була відведена медіанному значенню?

Френк Гальтон був чемпіоном медіанного значення

Термін «медіанне значення» (median) - середній член у ряді чисел, що розділяє цей ряд наполовину - з'явився приблизно в той же час, що середнє арифметичне. У 1599 році математик Едвард Райт, який працював над проблемою нормального відхилення в компасі, вперше запропонував використовувати медіанне значення.

«…Припустимо, безліч лучників стріляють у певну мету. Мету згодом прибирають. Як можна дізнатися, де була мета? Потрібно знайти середнє місце між усіма стрілами. Аналогічно, серед багатьох результатів спостережень найближче до істини буде те, що знаходиться посередині».

Медіанне значення широко використовувалося у ХІХ столітті, ставши обов'язковою частиною будь-якого аналізу даних у той час. Ним також користувався і Френк Гальтон, видатний аналітик дев'ятнадцятого століття. В історії про зважування бика, розказаної на початку цієї статті, Гальтон спочатку використовував медіанне значення як думка натовпу.

Безліч аналітиків, включаючи Гальтона, надавали перевагу медіанному значенню, оскільки його легше розрахувати для невеликих наборів даних.

Тим не менш, медіа значення ніколи не було більш популярним, ніж середнє. Швидше за все, це сталося через особливі статистичних властивостей, притаманні середньому значенню, а також його ставлення до нормального розподілу.

Зв'язок середнього значення та нормального розподілу

Коли ми проводимо безліч вимірів, їх результати, як свідчать статистики, «нормально розподілені». Це означає, що якщо ці дані нанести на графік, то точки на ньому зображатимуть щось схоже на дзвін. Якщо їх з'єднати, вийде «дзвоноподібна» крива. Нормальному розподілу відповідають багато статистичних даних, наприклад, зростання людей, показник інтелекту, а також показник найвищої річної температури.

Коли дані нормально розподілені, середнє значення буде дуже близьким до вищій точціна дзвонову криву, і дуже велика кількість вимірювань буде близьким до середнього значення. Існує навіть формула, яка передбачає, як багато результатів вимірювань будуть знаходитися на деякій відстані від середнього значення.

Отже, обчислення середнього значення дає дослідникам багато додаткової інформації.

Зв'язок середнього значення зі стандартним відхиленнямдає йому велику перевагу, адже у медіанного значення такого зв'язку немає. Цей зв'язок важлива частинааналізу експериментальних даних та статистичної обробкиінформації. Саме тому середнє значення стало ядром статистики та всіх наук, які покладаються у своїх висновках на численні дані.

Перевага середнього значення також пов'язана з тим, що легко обчислюється комп'ютерами. Хоча медіанне значення для невеликої групи даних досить легко обчислити самостійно, все ж таки набагато простіше написати комп'ютерну програмуяка знаходила б середнє значення. Якщо ви користуєтеся Microsoft Excel, то, напевно, знаєте, що медіанну функцію не так просто розрахувати, як функцію середнього значення.

У результаті, завдяки великому науковому значеннюі простоті використання середнє значення стало головною репрезентативною величиною Тим не менш, цей варіант далеко не завжди є найкращим.

Переваги медіанного значення

У багатьох випадках, коли хочемо обчислити центральне значення розподілу, медіанне значення є найкращим показником. Так відбувається тому, що середнє значення багато в чому визначається крайніми результатамивимірів.

Багато аналітиків вважають, що бездумне використання середнього значення негативно позначається на нашому розумінні кількісної інформації. Люди дивляться на середнє значення і думають, що це норма. Але насправді воно може бути визначене якимось одним дуже видатним з однорідного рядучленом.

Уявіть собі аналітика, який бажає дізнатися репрезентативне значення вартості п'яти будинків. Чотири будинки коштують $100,000, а п'ятий - $900,000. Середнє значення, таким чином, дорівнюватиме $200,000, а медіанне - $100,000. У цьому, як і в багатьох інших випадках, медіане значення дає краще розуміннятого, що можна назвати "стандартом".

Розуміючи, наскільки сильно крайні значенняможуть зашкодити середньому, для відображення змін у сімейних доходах США використовується медіанне значення.

Медіанний показник також менш чутливий до «брудних» даних, з якими сьогодні мають справу аналітики. Багато статистики та аналітики збирають інформацію, опитуючи людей в інтернеті. Якщо користувач випадково додасть у відповідь зайвий нуль, який перетворить 100 на 1000, то ця помилка набагато сильніше позначиться на середньому значенні, ніж медіанному.

Середнє чи медіанне?

Вибір між медіанним та середнім значенням має далекосяжні наслідки — від нашого розуміння впливу ліків на здоров'я до знань щодо того, який сімейний бюджет можна назвати стандартним.

Оскільки збирання та аналіз даних дедалі більше визначає те, як ми розуміємо світ, зростає і значення використовуваних нами величин. В ідеальному світі аналітики використовували б і середнє, і медіа значення для графічного вираження даних.

Але ми живемо в умовах обмеженого часу та уваги. Через ці обмеження часто нам необхідно вибрати лише щось одне. І в багатьох випадках краще саме медіанне значення.

Середнє арифметичне значення (далі за текстом - середнє), мабуть, найпопулярніший статистичний параметр. Цим поняттям користуються повсюдно - починаючи від приказки "середня температура по лікарні" і кінчаючи серйозними науковими працями. Однак, як не дивно, середнє значення — підступне поняття, яке часто вводить в оману, замість того, щоб надавати чіткості викладу та вносити ясність.

Якщо говорити про науковій роботі, то статистичний аналізданих застосовується майже у всіх прикладних науках, навіть у гуманітарних (наприклад, психології). Середнє значення обчислюється для ознак, що вимірюються у так званих безперервних шкалах. Такими ознаками є, наприклад, концентрації речовин у сироватці крові, зростання, вага, вік. Середнє арифметичне можна легко вирахувати, і цьому вчать ще в середній школі. Однак (відповідно до положень математичної статистики) середнє значення є адекватною мірою центральної тенденції у вибірці лише у разі нормального (гаусового) розподілу ознаки (рис. 1). Рис. 1. Нормальний (гаусовий) розподіл ознаки у вибірці. Середнє (М) та медіана (Ме) збігаються

У разі відхилення розподілу від нормального закону середнє значення використовувати некоректно, оскільки воно є надто чутливим параметром до так званих «викидів» — нехарактерним для вибірки, що вивчається, занадто великим або занадто малим значенням (рис. 2). У цьому випадку для характеристики центральної тенденції у вибірці має застосовуватися інший параметр – медіана. Медіана - це значення ознаки, праворуч і ліворуч від якої знаходиться рівне числоспостережень (по 50%). Цей параметр (на відміну від середнього значення) стійкий до викидів. Зауважимо також, що медіана може використовуватися і у разі нормального розподілу – у цьому випадку медіана збігається із середнім значенням.

Рис. 2. Розподіл ознаки у вибірці, відмінне від нормального. Середнє (м) та медіана (МЕ) не збігаються

Щоб дізнатися, чи є розподіл ознаки у вибірці нормальним (гаусовим) чи ні, т. е. у тому, щоб дізнатися, який із параметрів слід застосовувати (середнє значення чи медіану), існують спеціальні статистичні тести.

Наведемо приклад. Швидкість осідання еритроцитів у групі пацієнтів, які недавно перенесли пневмонію, - 3, 5, 5, 7, 11, 12, 16, 16, 21, 42, 58. Середнє значення для цієї вибірки дорівнює 17,8, медіана - 12. за тестом Шапіро-Вилка) нормальним не є (рис. 3), тому використовувати треба медіану. Рис. 3. Приклад

Як не дивно, але в деяких сферах економіки сторонній спостерігач не може помітити хоч якогось сліду коректного застосування математичної статистики. Так, нам постійно говорять про середню зарплату (наприклад, у НДІ), і ці числа зазвичай дивують не лише рядових співробітників, а й керівників підрозділів (нині званих менеджерами середньої ланки). Ми дивуємось, що середня зарплата в Москві — 40 тис. руб., але, звичайно, розуміємо, що нас «усереднили» з олігархами. Ось приклад із життя науковців: зарплати співробітників лабораторії (тис. руб.) - 3, 5, 5, 7, 11, 12, 16, 16, 21, 42, 58. Середнє значення - 17,8, медіана - 12. Погодьтеся, що це різні числа!

Звичайно, не можна виключити, що замовчування властивостей середнього — лукавство, оскільки керівництву завжди вигідніше уявити ситуацію із зарплатою співробітників краще, ніж вона є насправді.

Чи не час науковій спільнотізакликати наших керівників припинити некоректне використання математичної статистики?

Ольга Реброва,
докт. мед. наук, віце-президент
МГО «Товариство фахівців доказової медицини»

Зарплат у різних галузях економіки, температуру та рівень опадів на одній і тій же території за порівняні періоди часу, врожайність культур, що вирощуються в різних географічних регіонахі т. д. Втім, середня є аж ніяк не єдиним узагальнюючим показником - у ряді випадків для більш точної оцінкипідходить така величина як медіана. У статистиці вона широко застосовується як допоміжна описова характеристика розподілу будь-якої ознаки в окремо взятій сукупності. Давайте розберемося, чим вона відрізняється від середньої, і чим викликана необхідність її використання.

Медіана у статистиці: визначення та властивості

Уявіть собі таку ситуацію: на фірмі разом із директором працюють 10 осіб. Прості працівники отримують по 1000 грн., а їхній керівник, який, до того ж, є власником, – 10000 грн. Якщо вирахувати середнє арифметичне, то вийде, що в середньому зарплата на даному підприємствідорівнює 1900 грн. Чи буде справедливим це твердження? Або візьмемо такий приклад, в одній і тій же лікарняній палатізнаходиться дев'ять осіб із температурою 36,6 °С, і одна людина, у якої вона дорівнює 41 °С. Арифметичне середнє у разі одно: (36,6*9+41)/10 = 37,04 °С. Але це зовсім не означає, що кожен із присутніх хворий. Все це наштовхує на думку, що однієї середньої часто буває недостатньо, і саме тому на додаток до неї використовується медіана. У статистиці цим показником називають варіант, розташований рівно посередині упорядкованого варіаційного ряду. Якщо порахувати її для наших прикладів, то вийде відповідно 1000 грн. та 36,6 °С. Іншими словами, медіаною у статистиці називається значення, яке ділить ряд навпіл таким чином, що по обидва боки від неї (вниз чи вгору) розташоване однакове числоодиниць цієї сукупності. Через цю властивість цей показник має ще кілька назв: 50-й перцентиль або квантиль 0,5.

Як знайти медіану у статистиці

Спосіб розрахунку цієї величини багато в чому залежить від того, який тип варіаційного ряду ми маємо: дискретний чи інтервальний. У першому випадку медіана в статистиці знаходиться досить просто. Все, що потрібно зробити, це знайти суму частот, розділити її на 2 і потім додати результату ½. Найкраще пояснити принцип розрахунку на наступному прикладі. Припустимо, у нас є згруповані дані народжуваності, і потрібно з'ясувати, чому дорівнює медіана.

Номер групи сімей за кількістю дітей

Кількість сімей

Провівши нехитрі підрахунки, отримаємо, що показник, що шукається, дорівнює: 195/2 + ½ = варіанти. Щоб з'ясувати, що це означає, слід послідовно накопичувати частоти, починаючи з найменшої варіанти. Отже, сума перших двох рядків дає нам 30. Зрозуміло, що тут 98 варіантів немає. Але якщо додати до результату частоту третьої варіанти (70), то вийде сума, що дорівнює 100. У ній якраз і знаходиться 98 варіанта, а значить медіаною буде сім'я, у якої є двоє дітей.

Що ж до інтервального ряду, то тут зазвичай використовують таку формулу:

М е = Х Ме + i Ме * (∑f/2 - S Me-1)/f Ме, в якій:

  • Х Ме – перше значення медіанного інтервалу;
  • ∑f – чисельність ряду (сума його частот);
  • i Ме – величина медіанного діапазону;
  • f Ме – частота медіанного діапазону;
  • S Ме-1 – сума кумулятивних частот у діапазонах, що передують медіанному.

Знову ж таки, без прикладу тут розібратися досить складно. Припустимо, є дані за величиною

Зарплата, тис. руб.

Накопичені частоти

Щоб скористатися наведеною вище формулою, спочатку нам потрібно визначити медіанний інтервал. Як такий діапазон вибирають той, накопичена частота якого перевищує половину всієї суми частот або дорівнює їй. Отже, розділивши 510 на 2, отримуємо, що цьому критерію відповідає інтервал зі значенням зарплати від 250 000 руб. до 300 000 руб. Тепер можна підставляти всі дані у формулу:

М е = Х Ме + i Ме * (∑f/2 - S Ме-1) / f Ме = 250 + 50 * (510/2 - 170) / 115 = 286,96 тис. руб.

Сподіваємося, наша стаття виявилася корисною, і тепер ви маєте чітке уявлення про те, що таке медіана у статистиці та як її слід розраховувати.

Поряд із середніми величинами як статистичних характеристикваріаційних рядів розподілу розраховуються структурні середні – модаі медіана.
Мода(Mo) є значення досліджуваного ознаки, що повторюється з найбільшою частотою, тобто. мода - значення ознаки, що зустрічається найчастіше.
Медіаною(Me) називається значення ознаки, що припадає на середину ранжированной (упорядкованої) сукупності, тобто. медіана – центральне значення варіаційного ряду.
Головна властивість медіани полягає в тому, що сума абсолютних відхилень значень ознаки від медіани менша, ніж від будь-якої іншої величини ∑|x i - Me|=min.

Визначення моди та медіани за несгрупованими даними

Розглянемо визначення моди та медіани за несгрупованими даними. Припустимо, робочі бригади, що з 9 людина, мають такі тарифні розряди: 4 3 4 5 3 3 6 2 6 . Оскільки у цій бригаді найбільше робочих 3-го розряду, цей тарифний розряд буде модальним. Mo = 3.
Для визначення медіани необхідно провести ранжування: 2 3 3 3 4 4 5 6 6 . Центральним у цьому ряду є робітник 4-го розряду, отже, цей розряд і буде медіанним. Якщо ранжований ряд включає парне число одиниць, медіана визначається як середня з двох центральних значень.
Якщо мода відображає найпоширеніший варіант значення ознаки, то медіана практично виконує функції середньої для неоднорідної, що не підкоряється нормальному законурозподілу сукупності. Проілюструємо її пізнавальне значення наступним прикладом.
Допустимо, нам необхідно дати характеристику середнього доходу групи людей, що налічує 100 осіб, з яких 99 мають доходи в інтервалі від 100 до 200 доларів на місяць, а місячні доходи останнього становлять 50 000 доларів (табл. 1).
Таблиця 1 – Місячні доходи досліджуваної групи людей. Якщо скористатися середньою арифметичною, то отримаємо середній дохід, що дорівнює приблизно 600 – 700 доларів, який має мало спільного з доходами основної частини групи. Медіана ж, рівна в даному випадку Me = 163 долари, дозволить дати об'єктивну характеристику рівня доходів 99% цієї групи людей.
Розглянемо визначення моди та медіани за згрупованими даними (рядами розподілу).
Припустимо, розподіл робітників всього підприємства загалом за тарифним розрядом має наступний вигляд(Табл. 2).
Таблиця 2 - Розподіл робітників підприємства за тарифним розрядом

Розрахунок моди та медіани для дискретного ряду

Розрахунок моди та медіани для інтервального ряду

Розрахунок моди та медіани для варіаційного ряду

Визначення моди по дискретному варіаційному ряду

Використовується побудований раніше ряд значень ознаки, відсортованих за величиною. Якщо обсяг вибірки непарний, беремо центральне значення; якщо обсяг вибірки парний, беремо середнє арифметичне двох центральних значень.
Визначення моди по дискретному варіаційному ряду: найбільшу частоту(60 осіб) має 5-й тарифний розряд, отже, він і є модальним. Mo = 5.
Для визначення медіанного значення ознаки за такою формулою знаходять номер медіанної одиниці ряду (N Me): де n - обсяг сукупності.
У нашому випадку: .
Отримане дробове значення, що завжди має місце при парному числі одиниць сукупності, вказує, що точна середина знаходиться між 95 і 96 робітниками. Необхідно визначити, до якої групи належать робітники із цими. порядковими номерами. Це можна зробити, розрахувавши накопичені частоти. Робітників із цими номерами немає у першій групі, де лише 12 людина, немає їх у другій групі (12+48=60). 95-й та 96-й робітники перебувають у третій групі (12+48+56=116), отже, медіанним є 4-й тарифний розряд.

Розрахунок моди та медіани в інтервальному ряду

На відміну від дискретних варіаційних рядів визначення моди та медіани за інтервальними рядами вимагає проведення певних розрахунків на основі таких формул:
, (5.6)
де x 0- нижня межа модального інтервалу (модальним називається інтервал, що має найбільшу частоту);
i- Величина модального інтервалу;
f Mo- Частота модального інтервалу;
f Mo -1– частота інтервалу, що передує модальному;
f Mo +1- Частота інтервалу, наступного за модальним.
(5.7)
де x 0- нижня межа медіанного інтервалу (медіанним називається перший інтервал, накопичена частота якого перевищує половину загальної сумичастот);
i- Величина медіанного інтервалу;
S Me -1– накопичена інтервалу, що передує медіанному;
f Me- Частота медіанного інтервалу.
Проілюструємо застосування цих формул, використовуючи дані табл. 3.
Інтервал із межами 60 – 80 у цьому розподілі буде модальним, т.к. він має максимальну частоту. Використовую формулу (5.6), визначимо моду:

Для встановлення медіанного інтервалу необхідно визначати накопичену частоту кожного наступного інтервалу доти, доки вона не перевищить половини суми накопичених частот (у нашому випадку 50%) (табл. 5.11).
Встановили, що медіанним є інтервал із межами 100 – 120 тис. руб. Визначимо тепер медіану:

Таблиця 3 - Розподіл населення РФ за рівнем середньодушових номінальних грошових доходів у березні 1994р.
групи за рівнем середньодушового місячного доходу, тис. руб.Питома вага населення, %
До 201,4
20 – 40 7,5
40 – 60 11,9
60 – 80 12,7
80 – 100 11,7
100 – 120 10,0
120 – 140 8,3
140 –160 6,8
160 – 180 5,5
180 – 200 4,4
200 – 220 3,5
220 – 240 2,9
240 – 260 2,3
260 – 280 1,9
280 – 300 1,5
Понад 3007,7
Разом100,0

Таблиця 4 - Визначення медіанного інтервалу
Таким чином, як узагальнену характеристику значень певної ознаки в одиниць ранжованої сукупності можуть бути використані середня арифметична, мода і медіана.
Основною характеристикою центру розподілу є середня арифметична, для якої характерно те, що всі відхилення від неї (позитивні та негативні) у сумі дорівнюють нулю. Для медіани характерно, що сума відхилень від неї за модулем є мінімальною, а мода є значенням ознаки, яке найчастіше зустрічається.
Співвідношення моди, медіани та середньої арифметичної вказує на характер розподілу ознаки в сукупності, що дозволяє оцінити його асиметрію. У симетричних розподілах всі три показники збігаються. Чим більша розбіжність між модою і середньою арифметичною, тим асиметричніший ряд. Для помірно асиметричних рядів різниця між модою та середньою арифметичною приблизно втричі перевищує різницю між медіаною та середньою, тобто:
|Mo –`x| = 3 | Me - x |.

Визначення моди та медіани графічним методом

Моду та медіану в інтервальному рядуможна визначити графічно. Мода визначається за гістограмою розподілу. Для цього вибирається найвищий прямокутник, який є в даному випадку модальним. Потім праву вершину модального прямокутника з'єднуємо з правим верхнім кутомпопереднього прямокутника. А ліву вершину модального прямокутника – з верхнім лівим кутом наступного прямокутника. З точки їхнього перетину опускаємо перпендикуляр на вісь абсцис. Абсцис точки перетину цих прямих і буде модою розподілу (рис. 5.3).


Рис. 5.3. Графічне визначеннямоди за гістограмою.


Рис. 5.4. Графічне визначення медіани за кумулятом
Для визначення медіани з точки на шкалі накопичених частот (частин), що відповідає 50%, проводиться пряма, паралельна осі абсцис до перетину з кумулятою. Потім із точки перетину опускається перпендикуляр на вісь абсцис. Абсцис точки перетину є медіаною.

Квартили, децилі, перцентілі

Аналогічно з знаходженням медіани в варіаційних рядах розподілу можна знайти значення ознаки у будь-якій порядку одиниці ранжованого ряду. Так, наприклад, можна знайти значення ознаки у одиниць, що ділять ряд на чотири рівні частини, на 10 або на 100 частин. Ці величини називаються "квартілі", "децили", "перцентілі".
Квартілі є значенням ознаки, що ділить ранжовану сукупність на 4 рівновеликі частини.
Розрізняють квартиль нижній (Q 1), що відокремлює ¼ частину сукупності з найменшими значеннямиознаки, і квартиль верхній (Q 3), що осікає частину ¼ з найбільшими значеннями ознаки. Це означає, що 25 % одиниць сукупності будуть меншими за величиною Q 1 ; 25% одиниць будуть укладені між Q1 і Q2; 25% - між Q2 і Q3, а решта 25% перевищують Q3. Середнім квартилем Q2 є медіана.
Для розрахунку квартилів за інтервальним варіаційним рядом використовуються формули:
, ,
де x Q 1– нижня межа інтервалу, що містить нижній квартиль (інтервал визначається за накопиченою частотою, що перша перевищує 25 %);
x Q 3- нижня межа інтервалу, що містить верхній квартиль (інтервал визначається за накопиченою частотою, першою, що перевищує 75%);
i- Величина інтервалу;
S Q 1-1– накопичена частота інтервалу, що передує інтервалу, що містить нижній квартиль;
S Q 3-1- накопичена частота інтервалу, що передує інтервалу, що містить верхній квартиль;
f Q 1- Частота інтервалу, що містить нижній квартиль;
f Q 3- Частота інтервалу, що містить верхній квартиль.
Розглянемо розрахунок нижнього та верхнього квартилів за даними табл. 5.10. Нижній квартиль знаходиться в інтервалі 60 - 80, накопичена частота якого дорівнює 335%. Верхній квартиль лежить в інтервалі 160 – 180 із накопиченою частотою 75,8 %. З урахуванням цього отримаємо:
,
.
Окрім квартилів у варіаційних радах розподілу можуть визначатися децилі – варіанти, що ділять ранжований варіаційний ряд на десять. рівних частин. Перший дециль (d 1) ділить сукупність у співвідношенні 1/10 до 9/10, другий дециль (d 1) - у співвідношенні 2/10 до 8/10 і т.д.
Обчислюються вони за формулами:
, .
Значення ознаки, що ділять ряд на 100 частин, називаються перцентилями. Співвідношення медіани, квартилів, децилів та перцентилів представлені на рис. 5.5.

Центральну тенденцію даних можна розглядати не тільки як значення з нульовим сумарним відхиленням (середня арифметична) або максимальну частоту (мода), але і як деяку позначку (певний рівень аналізованого показника), що ділить ранжовані дані (відсортовані за зростанням або зменшенням) на дві рівні частини. Тобто половина вихідних даних за своїм значенням менше від цієї позначки, а половина – більше. Це і є медіана. Мода та медіана важливі показники, вони відображають структуру даних і іноді використовуються замість середньої арифметичної.

Отже, медіана – це рівень показника, який поділяє певний набір даних на дві рівні половини. Як демонстраційний приклад знову звернемося до набору випадкових чисел. Такий розподіл при велику кількістьзначень у літературі описується, як звичайне явище. Ось дані у вигляді малюнка.

Вочевидь, що з симетричному розподілі середина, ділить сукупність навпіл, перебуватиме у самому центрі – там, де середня арифметична (і мода). Це, так би мовити, ідеальна ситуація, коли мода, медіана та середня арифметична збігаються і всі їхні властивості припадають на одну точку – максимальна частота, поділ навпіл, нульова сума відхилень – все в одному місці. Однак, життя не таке симетричне, як нормальний розподіл. Тому подивимося на асиметричний розподіл і що там відбувається з центральними нашими тенденціями.

Припустимо, ми маємо справу з технічними вимірами відхилень від очікуваної величини чогось (змісту елементів, відстані, рівня, маси і т.п.). Якщо всі ОК, то відхилення, швидше за все, будуть розподілені за законом, близьким до нормального, приблизно, як на малюнку вище (практика таке припущення спростовує, ну та гаразд). Але якщо в аналізованому процесі є якийсь суттєвий і неконтрольований фактор, то в спостереженнях можуть з'явитися аномальні значення, які значною мірою вплинуть на середню арифметичну, але при цьому майже не торкнуться медіани, що чітко видно на наступній гістограмі.

Медіана – основна альтернатива середньої арифметичної, т.к. вона стійка до аномальних відхилень (викидів). У цій статті розповідається про те, як поводиться середня арифметична при аномальних значеннях і як із цим боротися, тобто як зробити її менш залежною від викидів. Основні варіанти – це збільшення числа спостережень та/або усунення аномалій з аналітичної вибірки. Отже, перехід від середньої арифметичної до медіани – ще один спосіб отримати стійку (робастну) оцінку математичного очікування. Інша річ, що властивості середньої арифметичної будуть назавжди втрачені, але тут треба дивитися, що важливіше.

Наразі приклади реального використання медіани у статистиці. При аналізі середньої латки країною замість середньої арифметичної можуть задіяти медіану. Народу не подобається, коли їхня власна зарплатня виявляється нижче середньої (арифметичної) по країні. Це викликає бурю емоцій та викриттів у неправильних підрахунках. Мовляв, у мене зарплата 100 рублів, а у директора 1000 рублів, от і виходить у середньому по 550 рублів. Що таке невдоволеним громадянам невідомо і не цікаво. А от якщо використовувати медіану, то буде зрозуміло, що половина населення отримує дохід менший від медіанного значення, а половина – більше.

Цей показник також застосовується в демографічній статистиці, при аналізі різних кількісних і якісних характеристик(Міцність матеріалу, зміст елементів, час роботи, кількість відмов та ін.). Навіть трейдери forex використовують медіану, як деякий секретний сигнал до початку дій. Хоча більшість із них це не рятує.

Математичним властивістю медіаниє те, що сума абсолютних (за модулем) відхилень від медіанного значення дає мінімально можливе значення, якщо порівнювати з відхиленнями від будь-якої іншої величини. Навіть менше, ніж від середньої арифметичної, як! Цей фактзнаходить своє застосування, наприклад, при вирішенні транспортних завданьколи потрібно розрахувати місце будівництва об'єкта біля дороги таким чином, щоб сумарна довжина рейсів до нього з різних місць була мінімальною (зупинки, заправки, склади і т.п.). Логістам і на замітку.

(Module 111)

Формула медіани для дискретнихданих чимось нагадує формулу моди. А саме тим, що формули як такої немає. Медіанне значення вибирають із наявних даних і лише, якщо це неможливо, проводять нескладний розрахунок.

Насамперед дані ранжують (сортують за спаданням). Далі є два варіанти. Якщо кількість значень непарна, то медіана відповідатиме центральному значенню ряду, номер якого можна визначити за такою формулою:

№ Me– номер значення, що відповідає медіані,

N- Кількість значень у сукупності даних.

Тоді медіана позначатиметься, як

Це перший варіант, коли даних є одне центральне значення. Другий варіант настає тоді, коли кількість даних парно, тобто замість одного є два центральні значення. Вихід простий: береться середня арифметична із двох центральних значень:

Так відбувається пошук чи розрахунок у дискретних даних. Однак дані можуть бути ще й інтервальними, де вибрати конкретне значення неможливо, оскільки конкретних значень просто немає. Як і в моді, медіану в такому разі розраховують за деяким загальноприйнятим правилом, виходячи з певного припущення, тобто на вічко. І нормально виходить, я вам скажу!

Для початку (після ранжування даних) знаходять медіанний інтервал. Це такий інтервал, через який проходить медіане значення. Визначається за допомогою накопиченої частки ранжованих інтервалів. Де накопичена частка вперше перевалила через 50% від усіх значень, там і медіанний інтервал.

Не знаю, хто вигадав формулу медіани, але виходили явно з того припущення, що розподіл даних усередині медіанного інтервалу рівномірний (тобто 30% ширини інтервалу – це 30% значень, 80% ширини – 80% значень тощо) . Звідси, знаючи кількість значень від початку медіанного інтервалу до 50% всіх значень сукупності (різниця між половиною кількості всіх значень та накопиченою частотою передмедіанного інтервалу), можна знайти, яку частку вони займають у всьому медіанному інтервалі. Ось ця частка якраз переноситься на ширину медіанного інтервалу, вказуючи на конкретне значення, що називається згодом медіаною.

Не мудруючи лукаво, краще звернемося до наочної схеми – зрозуміліше буде.

Трохи громіздко вийшло, але тепер, сподіваюся, наочно і зрозуміло. Щоб при розрахунку щоразу не малювати такий графік, можна скористатися готовою формулою. Формула медіани має такий вигляд:

де x Me- нижня межа медіанного інтервалу;

i Me- Ширина медіанного інтервалу;

∑f/2- кількість всіх значень, поділена на 2 (два);

S (Me-1)- сумарне кількість спостережень, яке було накопичено на початок медіанного інтервалу, тобто. накопичена частота передмедіанного інтервалу;

f Me- Число спостережень у медіанному інтервалі.

Як неважко помітити, формула медіани складається з двох доданків: 1 - значення початку медіанного інтервалу і 2 - та сама частина, яка пропорційна недостатньої накопиченої частки до 50%. Чимось навіть схоже на формулу моди. Відмінність полягає у пошуку точки всередині інтервалу.

Наприклад розрахуємо медіану за такими даними.

Потрібно знайти медіанну ціну, тобто ту ціну, дешевшу і дорожчу за яку по половині кількості товарів. Для початку зробимо допоміжні розрахунки накопиченої частоти, накопиченої частки, загальної кількостітоварів. Тепер ще раз подивимося, що ми маємо.

По останній колонці "Накопичена частка" визначаємо медіанний інтервал - 300-400 руб (накопичена частка вперше більше 50%). Ширина інтервалу – 100 руб. Тепер залишається підставити дані у наведену вище формулу та розрахувати медіану.

Тобто в однієї половини товарів ціна нижча, ніж 350 руб., В іншої половини - вище. Все просто. Середня арифметична, розрахована за тими самими даними, дорівнює 355 крб. Відмінність не значна, але вона є.

Розрахунок медіани в Excel

Статистика без автоматичних розрахунків – минулий вік. Медіану чисел легко знайти, використовуючи функцію Excel, Яка так і називається - МЕДІАНА. Використовується архіпросто. Активується осередок для розрахунку, викликається функція, вибирається діапазон даних та «ОК». Більше й обговорювати нема чого. Підходить і для парного, і для непарної кількості даних.

Інша справа – інтервальні дані. Відповідної функції у Excel немає. Тому потрібно задіяти наведену вище формулу. Що поробиш? Але це не дуже трагічно, тому що розрахунок медіани за інтервальними даними – рідкісний випадок. Можна і на калькуляторі раз порахувати.

До речі, той факт, що медіана ділить дані на дві рівні частини, нагадує деякі методи угруповання. Справді, після знаходження медіани ми також отримуємо дві групи з рівною кількістю значень. Розвиваючи цю ідею, розподіл групи можна виробляти як за принципом 50/50, а й у інших часткам. Наприклад, 20% найбільших значеньє не що інше, як група А в ABC-аналізі. Про інші частини якось в іншій статті. Бачите, як перетинаються, начебто, не пов'язані методи?

Добігає кінця моя розповідь про статистичному показникумедіану. Сподіваюся, він був невтомним. Насамкінець пропоную завдання у стилі телевікторини «Хто хоче стати мільйонером?». Є набір даних. 15, 5, 20, 5, 10. Яке середнє значення? Чотири варіанти:

Пропоную також переглянути відеоролик на тему розрахунку медіани в Excel.