Биографии Характеристики Анализ

средно осредняване. Определяне на мода и медиана по графичен метод

През 1906 г. великият учен и известен евгеник Франсис Галтън посещава годишната изложба за животни и птици в Западна Англия, където случайно прави интересен експеримент.

Според Джеймс Суровецки, автор на „Мъдростта на тълпата“, на панаира в Галтън имаше състезание, в което хората трябваше да познаят теглото на заклан бик. наречен най-близо до истинско числообявен за победител.

Галтън беше известен с пренебрежението си към интелектуална способност обикновените хора. Той вярваше, че само истински експерти биха могли да направят точни твърдения за теглото на бика. А 787 участници в състезанието не са били експерти.

Ученият щеше да докаже некомпетентността на тълпата, като изчисли средния брой от отговорите на участниците. Каква беше изненадата му, когато се оказа, че полученият резултат отговаря почти точно на реалното тегло на бика!

Средна стойност - късно изобретение

Разбира се, точността на отговора учуди изследователя. Но още по-забележителен е фактът, че Галтън изобщо се сети да използва средната стойност.

В днешния свят средните стойности и така наречените медиани се срещат на всяка крачка: средна температурав Ню Йорк през април е 52 градуса по Фаренхайт; Стивън Къри има средно 30 точки на мач; Средният доход на домакинство в САЩ е 51 939 долара на година.

Идеята обаче, че много различни резултати могат да бъдат представени с едно число, е доста нова. До 17 век средните стойности обикновено не са били използвани.

Как възникна и се разви концепцията за средни и медиани? И как успя да се превърне в основна измервателна техника в наше време?

Преобладаването на средните стойности над медианите имаше далечни последици за нашето разбиране на информацията. И често подвеждаше хората.

Средни и медианни стойности

Представете си, че разказвате история за четирима души, които вечеряха с вас снощи в ресторант. Бихте дали на един от тях 20 години, на друг 30, на трети 40 и на четвърти 50. Какво ще кажете за възрастта им във вашата история?

Най-вероятно ще ги наречете средна възраст.

Средната стойност често се използва за предаване на информация за нещо, както и за описание на набор от измервания. Технически средната стойност е това, което математиците наричат ​​„средно аритметично“ – сумата от всички измервания, разделена на броя на измерванията.

Въпреки че думата "среден" често се използва като синоним на думата "медиана" (медиана), последната по-често се нарича средата на нещо. Тази дума идва от латинското "medianus", което означава "среден".

Средна стойност в Древна Гърция

Историята на средната стойност води началото си от учението на древногръцкия математик Питагор. За Питагор и неговата школа медианата имаше ясна дефиниция и беше много различна от начина, по който разбираме средната стойност днес. Използва се само в математиката, не и в анализа на данни.

В школата на питагорейците средна стойностбеше средното число в тричленна последователност от числа, намирайки се в "равно" отношение със съседните членове. „Равно“ съотношение може да означава същото разстояние. Например числото 4 в реда 2,4,6. Може обаче и да изрази геометрична прогресия, например 10 в последователността 1,10,100.

Статистикът Чърчил Айзенхарт обяснява, че в древна Гърция медианата не е била използвана като представител или заместител на набор от числа. Той просто обозначаваше средата и често се използваше в математически доказателства.

Айзенхарт прекарва десет години в изучаване на средната стойност и медианата. Първоначално той се опитва да намери представителната функция на медианата в ранните научни конструкции. Вместо това обаче той установи, че повечето от ранните физици и астрономи разчитат на единични, умело направени измервания и не са имали методология, която да изберат най-добър резултатсред многото наблюдения.

Съвременните изследователи базират заключенията си на събирането на големи количества данни, както например биолозите, изучаващи човешкия геном. Древните учени, от друга страна, са можели да направят няколко измервания, но са избрали само най-доброто за изграждане на своите теории.

Както пише историкът на астрономията Ото Нойгебауер, „Това е в съответствие със съзнателното желание древни хораминимизираха количеството емпирични доказателства в науката, защото не вярваха в точността на преките наблюдения."

Например гръцкият математик и астроном Птолемей изчислява ъгловия диаметър на Луната, използвайки метода на наблюдение и теорията за движението на Земята. Резултатът му беше 31'20. Днес знаем, че диаметърът на Луната варира от 29'20 до 34'6, в зависимост от разстоянието от Земята. Птолемей използва малко данни в изчисленията си, но имаше всички основания да вярва, че са точни.

Айзенхарт пише: „Трябва да се има предвид, че връзката между наблюдението и теорията в древността е била различна от тази днес. Резултатите от наблюденията се разбират не като факти, към които теорията трябва да се коригира, а като конкретни случаи, които могат да бъдат полезни само като илюстративни примери за истинността на теорията.

В крайна сметка учените ще се обърнат към представителни измервания на данните, но първоначално нито средства, нито медиани са били използвани в тази роля. От древността до днескато такова представително средство е използвано друго математическо понятие - полусумата на екстремните стойности.

Половин сбор от екстремни стойности

Нов научни средствапочти винаги възникват от необходимостта да се реши определен проблем във всяка дисциплина. Трябва да се намери най-ценносред много измерения възникна от необходимостта да се определи точно географското местоположение.

Интелектуалният гигант от 11-ти век Ал-Бируни е известен като един от първите хора, използвали методологията на представителните значения. Ал-Бируни пише, че когато е имал много измервания на свое разположение и е искал да намери най-доброто сред тях, той е използвал следното "правило": трябва да намерите число, съответстващо на средата между две крайни стойности. При изчисляване на полусумата на екстремните стойности, всички числа между максимума и минимални стойности, а средната стойност се намира само за тези две числа.

Ал-Бируни прилага този метод в различни области, включително за изчисляване на географската дължина на град Газни, който се намира на територията на съвременен Афганистан, както и в изследванията си на свойствата на металите.

През последните няколко века обаче полусумата на екстремумите се използва все по-рядко. Всъщност в съвременна наукаизобщо не е релевантно. Средната стойност замени полусумата.

Преход към средни стойности

До началото на 19 век използването на медианата/средната стойност се е превърнало в обичаен метод за намиране на най-точно представителната стойност от група данни. Фридрих фон Гаус, изключителен математик на своето време, пише през 1809 г.: „Смяташе се, че ако определено число се определя от няколко преки наблюдения, направени при едни и същи условия, тогава средната стойност аритметична стойносте най-истинската стойност. Ако не е съвсем строг, то поне е близо до реалността и затова винаги може да се разчита на него.

Защо е настъпила такава промяна в методологията?

На този въпрос е доста трудно да се отговори. В своето изследване Чърчил Айзенхарт предполага, че методът за намиране на средната аритметична стойност може да е възникнал в областта на измерването на магнитното отклонение, тоест при намирането на разликата между посоката на стрелката на компаса, сочеща на север, и реалния север. Това измерване е било изключително важно през епохата на откритията.

Айзенхарт установява, че до края на 16 век повечето учени, които измерват магнитното отклонение, са използвали ad hoc метода (от латински „към това, за този случай, за тази цел“) при избора на най-точното измерване.

Но през 1580г учен Уилям Borough подходи към проблема по различен начин. Той направи осем различни измервания на отклонението и ги сравни и заключи, че най-точното отчитане е между 11 ⅓ и 11 ¼ градуса. Вероятно е изчислил средноаритметичното, което е в този диапазон. Самият Бороу обаче не нарича открито своя подход новия метод.

Преди 1635 г. изобщо не е имало недвусмислени случаи на използване на средната стойност като представително число. Тогава обаче английският астроном Хенри Гелибранд направи две различни измервания на магнитното отклонение. Едната е направена сутрин (11 градуса), а другата следобед (11 градуса и 32 минути). Изчисляване на най-много истинска стойност, той написа:

„Ако намерим средната аритметична стойност, можем да кажем с голяма вероятност, че резултатът от точно измерване трябва да бъде около 11 градуса и 16 минути.“

Вероятно това е първият път, когато средната стойност е използвана като най-близка до истината!

Думата "среден" беше използвана в английски езикв началото на 16-ти век за обозначаване на финансови загуби от щети, претърпени от кораб или товар по време на пътуване. През следващите сто години той обозначава точно тези загуби, които се изчисляват като средно аритметично. Например, ако кораб е бил повреден по време на пътуване и екипажът е трябвало да изхвърли някои стоки зад борда, за да спести теглото на кораба, инвеститорите са претърпели финансова загуба, еквивалентна на сумата на тяхната инвестиция - тези загуби са изчислени по същия начин като средно аритметично. Така постепенно стойностите на средната (средната) и средната аритметична стойност се сближиха.

Средна стойност

Днес средната или средната аритметична стойност се използва като основен начин за избор на представителна стойност на набор от измервания. Как се случи това? Защо тази роля не е приписана на средната стойност?

Франсис Галтън беше средният шампион

Терминът "средна стойност" (медиана) - средният член в редица числа, разделящи тази серия наполовина - се появи приблизително по същото време като средното аритметично. През 1599 г. математикът Едуард Райт, който работи върху проблема за нормалното отклонение в компаса, за първи път предложи да се използва средната стойност.

„... Да речем, че много стрелци стрелят по някаква цел. Впоследствие целта се премахва. Как можете да разберете къде е била целта? Трябва да намерите средното място между всички стрелки. По същия начин, сред набора от резултати от наблюдения, най-близо до истината ще бъде този в средата.

Медианата се използва широко през деветнадесети век, превръщайки се в незаменима част от всеки анализ на данни по това време. Използван е и от Франсис Галтън, видният анализатор от деветнадесети век. В историята с претеглянето на бика в началото на тази статия Галтън първоначално използва медианата като представяне на мнението на тълпата.

Много анализатори, включително Галтън, предпочетоха медианата, защото е по-лесна за изчисляване за по-малки набори от данни.

Медианата обаче никога не е била по-популярна от средната. Най-вероятно това се е случило поради специални статистически свойства, присъща на средната стойност, както и връзката й с нормалното разпределение.

Връзка между средно и нормална дистрибуция

Когато правим много измервания, резултатите са, както казват статистиците, „нормално разпределени“. Това означава, че ако тези данни се начертаят на графика, тогава точките върху нея ще изобразяват нещо подобно на камбана. Ако ги свържете, ще получите "камбановидна" крива. Много статистики отговарят на нормалното разпределение, като ръст на хората, IQ и най-висока годишна температура.

Когато данните са нормално разпределени, средната стойност ще бъде много близка до най-високата точкавърху камбановидна крива и много голям брой измервания ще бъдат близки до средната стойност. Има дори формула, която предвижда колко измервания ще бъдат на известно разстояние от средното.

По този начин изчисляването на средната стойност дава на изследователите много допълнителна информация.

Връзката на средната стойност с стандартно отклонениедава голямо предимство, тъй като средната стойност няма такава връзка. Тази връзка е Главна частанализ на експериментални данни и статистическа обработкаинформация. Ето защо средната стойност се превърна в ядрото на статистиката и всички науки, които разчитат на множество данни за своите заключения.

Предимството на средната стойност се дължи и на факта, че тя лесно се изчислява от компютри. Въпреки че средната стойност за малка група данни е доста лесно да се изчисли самостоятелно, все пак е много по-лесно да се напише компютърна програма, което ще намери средната стойност. Ако използвате Microsoft Excel, тогава вероятно знаете, че функцията на медианата не е толкова лесна за изчисляване, колкото функцията на средната стойност.

И накрая, благодарение на великия научна стойности лекота на използване, средната стойност се е превърнала в основна представителна стойност. Тази опция обаче не винаги е най-добрата.

Предимства на медианната стойност

В много случаи, когато искаме да изчислим центъра на разпределението, медианата е най-добрата мярка. Това е така, защото средната стойност до голяма степен се определя от екстремни резултатиизмервания.

Много анализатори смятат, че необмисленото използване на средната стойност се отразява негативно на разбирането ни за количествената информация. Хората гледат средното и смятат, че е „нормално“. Но всъщност може да се определи от всеки един много виден хомогенни сериичлен.

Представете си анализатор, който иска да знае представителна стойност за стойността на пет къщи. Четири къщи струват 100 000 долара, а петата е 900 000 долара. Тогава средната стойност ще бъде $200 000, а медианата ще бъде $100 000. В този, както и в много други случаи, средната стойност дава по-добро разбиранетова, което може да се нарече "стандарт".

Осъзнавайки колко силно екстремни стойностиможе да повлияе на средната стойност, медианата се използва за отразяване на промените в доходите на домакинствата в САЩ.

Медианата също е по-малко чувствителна към "мръсните" данни, с които анализаторите работят днес. Много статистици и анализатори събират информация, като интервюират хора в Интернет. Ако потребителят случайно добави допълнителна нула към отговора, което превръща 100 в 1000, тогава тази грешка ще повлияе на средната стойност много повече от медианата.

Средна стойност или медиана?

Изборът между медианата и средната стойност има далечни последици, от разбирането ни за ефектите на лекарствата върху здравето до познанията ни за стандартния бюджет на семейството.

Тъй като събирането и анализът на данни все повече определя начина, по който разбираме света, се променя и стойността на количествата, които използваме. В един идеален свят анализаторите биха използвали както средната, така и медианата, за да начертаят данните.

Но ние живеем в условия на ограничено време и внимание. Поради тези ограничения често трябва да изберем само един. И в много случаи средната стойност е за предпочитане.

Средната аритметична стойност (наричана по-долу средна) е може би най-популярният статистически параметър. Тази концепция се използва навсякъде - от поговорката "средна температура в болницата" до сериозни научни трудове. Въпреки това, колкото и да е странно, средната стойност е сложна концепция, често подвеждаща, вместо да дава яснота и яснота.

Ако говорим за научна работа, тогава Статистически анализданни се използват в почти всички Приложни науки, дори и в хуманитарните науки (например психология). Средната стойност се изчислява за характеристики, измерени на така наречените непрекъснати скали. Такива признаци са например концентрацията на вещества в кръвния серум, ръст, тегло, възраст. Средната аритметична може лесно да се изчисли и това се учи в гимназия. Въпреки това (в съответствие с математическа статистика) средната стойност е адекватна мярка за централната тенденция в извадката само в случай на нормално (гаусово) разпределение на признака (фиг. 1). Ориз. 1. Нормално (гаусово) разпределение на характеристика в извадката. Средното (M) и медианата (Me) са еднакви

В случай на отклонение на разпределението от нормалния закон е неправилно да се използва средната стойност, тъй като тя е твърде чувствителна към така наречените „извънредни стойности“ - нехарактерни за изследваната извадка, твърде големи или твърде малки ( Фиг. 2). В този случай трябва да се използва друг параметър, медианата, за характеризиране на централната тенденция в извадката. Медианата е стойността на атрибута, отдясно и отляво на който е равен бройнаблюдения (по 50%). Този параметър (за разлика от средната стойност) е устойчив на „отклонения“. Обърнете внимание също, че медианата може да се използва и в случай на нормално разпределение, в който случай медианата е същата като средната.

Ориз. 2. Разпределението на признака в извадката е различно от нормалното. Средната стойност (m) и медианата (ME) не съвпадат

За да се установи дали разпределението на даден признак в извадката е нормално (гаусово) или не, т.е., за да се установи кой от параметрите трябва да се използва (среден или медианен), има специални статистически тестове.

Да вземем пример. Скоростта на утаяване на еритроцитите в групата пациенти със скорошна пневмония е 3, 5, 5, 7, 11, 12, 16, 16, 21, 42, 58. Средната стойност за тази проба е 17,8, медианата е 12. Разпределение (според теста на Shapiro-Wilk) не е нормално (фиг. 3), така че трябва да се използва медианата. Ориз. 3. Пример

Колкото и да е странно, но в някои области на икономиката външен наблюдател не може да забележи поне някаква следа от правилното прилагане на математическата статистика. И така, постоянно ни казват за средната заплата (например в изследователски институти) и тези цифри обикновено изненадват не само обикновените служители, но и ръководителите на отдели (сега наричани „среден мениджър“). Изненадани сме, че средната заплата в Москва е 40 хиляди рубли, но, разбира се, разбираме, че сме „осреднени“ с олигарсите. Ето един пример от живота на учените: заплатите на служителите в лабораторията (хиляди рубли) са 3, 5, 5, 7, 11, 12, 16, 16, 21, 42, 58. Средната стойност е 17,8, медианата е 12. Съгласете се, че това са различни числа!

Разбира се, не може да се изключи, че премълчаването на свойствата на средния е лукавство, тъй като за ръководството винаги е по-изгодно да представи ситуацията със заплатите на служителите по-добре, отколкото е в действителност.

Не е ли време научна общностпризоваваме нашите лидери да спрат злоупотребата с математическата статистика?

Олга Реброва,
док. пчелен мед. науки, вицепрезидент
IPO "Общество на специалистите по медицина, базирана на доказателства"

Заплатите в различни сектори на икономиката, температурата и валежите в една и съща област за съпоставими периоди от време, добивите в различни географски регионии т.н. Средната обаче съвсем не е единственият обобщаващ показател – в някои случаи и повече точна оценкаподходяща е стойност като медианата. В статистиката се използва широко като спомагателна описателна характеристика на разпределението на признак в отделна популация. Нека да видим как се различава от средното, както и какво е причинило необходимостта от използването му.

Медиана в статистиката: определение и свойства

Представете си следната ситуация: 10 души работят заедно с директора в една фирма. Обикновените служители получават по 1000 гривни, а техният мениджър, който освен това е собственик, получава 10 000 гривни. Ако изчислим средноаритметичното, се оказва, че средната заплата за това предприятиеравна на 1900 UAH. Ще бъде ли вярно това твърдение? Или вземете този пример, в същото болнично отделениеима девет души с температура 36,6°C и един човек с температура 41°C. Средната аритметична стойност в този случай е: (36,6 * 9 + 41) / 10 \u003d 37,04 ° C. Но това не означава, че всички присъстващи са болни. Всичко това подсказва, че самата средна стойност често не е достатъчна и затова се използва медиана като допълнение към нея. В статистиката този индикатор се нарича вариант, който се намира точно в средата на подредена вариационна серия. Ако го изчислите за нашите примери, получавате съответно 1000 UAH. и 36,6 °С. С други думи, медианата в статистиката е стойността, която разделя серията наполовина по такъв начин, че от двете й страни (нагоре или надолу) се намира същото числоединици от тази популация. Поради това свойство този показател има няколко други имена: 50-ти персентил или 0,5 квантил.

Как да намерите медианата в статистиката

Методът за изчисляване на тази стойност до голяма степен зависи от това какъв тип вариационна серия имаме: дискретна или интервална. В първия случай медианата в статистиката е доста проста. Всичко, което трябва да направите, е да намерите сумата от честотите, да разделите на 2 и след това да добавите ½ към резултата. Най-добре би било да обясните принципа на изчисление със следния пример. Да предположим, че сме групирали данни за раждаемостта и искаме да разберем каква е медианата.

Номер на семейната група по брой деца

Брой семейства

След като извършихме някои прости изчисления, получаваме, че желаният индикатор е равен на: 195/2 + ½ = опция. За да разберете какво означава това, трябва последователно да натрупвате честоти, като започнете от най-малките опции. И така, сумата от първите два реда ни дава 30. Ясно е, че тук няма 98 опции. Но ако добавим честотата на третата опция (70) към резултата, получаваме сума, равна на 100. Тя съдържа само 98-та опция, което означава, че медианата ще бъде семейство, което има две деца.

Що се отнася до интервалните серии, тук обикновено се използва следната формула:

M e \u003d X Me + i Me * (∑f / 2 - S Me-1) / f Me, в което:

  • X Me - първата стойност на медианния интервал;
  • ∑f е номерът на серията (сумата от нейните честоти);
  • i Me - стойността на медианния диапазон;
  • f Me - честота на медианния диапазон;
  • S Me-1 - сумата от кумулативните честоти в диапазоните, предхождащи медианата.

Отново е трудно да се разбере това без пример. Да предположим, че има данни за стойността

Заплата, хиляди рубли

Натрупани честоти

За да използваме горната формула, първо трябва да определим средния интервал. Като такъв диапазон се избира такъв, чиято натрупана честота надвишава или е равна на половината от общата сума на честотите. Така че, разделяйки 510 на 2, получаваме, че този критерий съответства на интервал със стойност на заплатата от 250 000 рубли. до 300 000 рубли Сега можете да замените всички данни във формулата:

M e \u003d X Me + i Me * (∑f / 2 - S Me-1) / f Me \u003d 250 + 50 * (510/2 - 170) / 115 \u003d 286,96 хиляди рубли.

Надяваме се, че нашата статия е била полезна и сега имате ясна представа какво е медианата в статистиката и как трябва да се изчислява.

Заедно със средните стойности като статистически характеристикина вариационни серии на разпределение, структурните средни се изчисляват - модаи Медиана.
Мода(Mo) представлява стойността на изследвания признак, повтарящ се с най-висока честота, т.е. mode е стойността на характеристиката, която се среща най-често.
Медиана(Me) е стойността на характеристиката, която попада в средата на класираната (подредена) популация, т.е. медиана - централната стойност на вариационната серия.
Основното свойство на медианата е, че сумата от абсолютните отклонения на стойностите на атрибута от медианата е по-малка от всяка друга стойност ∑|x i - Me|=min.

Определяне на режим и медиана от негрупирани данни

Обмисли определяне на режим и медиана от негрупирани данни. Да приемем, че работните бригади, състоящи се от 9 души, имат следните категории заплати: 4 3 4 5 3 3 6 2 6 . Тъй като в този екип има най-много работници от 3-та категория, тази тарифна категория ще бъде модална. Mo = 3.
За определяне на медианата е необходимо да се класира: 2 3 3 3 4 4 5 6 6 . Централен в тази серия е работникът от 4-та категория, следователно тази категория ще бъде медианата. Ако класираната поредица включва четен брой единици, тогава медианата се определя като средната стойност на двете централни стойности.
Ако режимът отразява най-често срещания вариант на стойността на характеристиката, тогава медианата на практика изпълнява функциите на средна стойност за разнороден, неподчинен нормален законразпределение на населението. Нека илюстрираме когнитивното му значение със следния пример.
Да предположим, че трябва да характеризираме средния доход на група хора от 100 души, от които 99 имат доходи в диапазона от $100 до $200 на месец, а месечният доход на последните е $50 000 (Таблица 1).
Таблица 1 - Месечни доходи на изследваната група хора. Ако използваме средно аритметично, получаваме среден доход от около 600 - 700 долара, който няма много общо с доходите на основната част от групата. Медианата е равна на този случайАз = 163 долара, ще даде обективно описание на нивото на доходите на 99% от тази група хора.
Разгледайте дефиницията на режима и медианата чрез групирани данни (серия на разпределение).
Да предположим, че има разпределение на работниците на цялото предприятие като цяло според тарифната категория следващ изглед(Таблица 2).
Таблица 2 - Разпределение на работниците в предприятието според тарифната категория

Изчисляване на режим и медиана за дискретна серия

Изчисляване на режим и медиана за интервална серия

Изчисляване на режим и медиана за вариационна серия

Определяне на режима от серия от дискретни вариации

Използва се поредицата от стойности на функции, изградени по-рано, сортирани по стойност. Ако размерът на извадката е нечетен, вземете централната стойност; ако размерът на извадката е четен, вземаме средната аритметична стойност на двете централни стойности.
Определяне на режима от серия от дискретни вариации: най-висока честота(60 души) има 5-та тарифна категория, следователно е модална. Mo = 5.
За да се определи средната стойност на атрибута, числото на средната единица на серията (N Me) се намира по следната формула: , където n е обемът на съвкупността.
В нашия случай: .
получено дробна стойност, винаги срещащ се за четен брой единици от съвкупността, показва, че точната средна точка е между 95 и 96 работници. Необходимо е да се определи към коя група са работниците с тези серийни номера. Това може да стане чрез изчисляване на натрупаните честоти. В първата група, където са само 12 души, няма работници с тези бройки, а във втора група ги няма (12+48=60). 95-ти и 96-ти работници са в трета група (12+48+56=116), следователно 4-та категория заплата е медианата.

Изчисляване на мода и медиана в интервална серия

За разлика от дискретните вариационни серии, определянето на модата и медианата от интервални серии изисква определени изчисления въз основа на следните формули:
, (5.6)
където x0- долната граница на модалния интервал (интервалът с най-висока честота се нарича модален);
азе стойността на модалния интервал;
fMoе честотата на модалния интервал;
f Mo-1е честотата на интервала, предхождащ модала;
f Mo +1е честотата на интервала след модала.
(5.7)
където x0– долната граница на средния интервал (медианата е първият интервал, чиято натрупана честота надвишава половината обща сумачестоти);
азе стойността на средния интервал;
S Me-1- натрупан интервал, предхождащ медианата;
е азе честотата на средния интервал.
Ние илюстрираме приложението на тези формули с помощта на данните в табл. 3.
Интервалът с граници 60 - 80 в това разпределение ще бъде модален, т.к има най-висока честота. Използвайки формула (5.6), определяме режима:

За да се установи медианният интервал, е необходимо да се определи натрупаната честота на всеки следващ интервал, докато тя надхвърли половината от сумата на натрупаните честоти (в нашия случай 50%) (Таблица 5.11).
Установено е, че медианата е интервалът с граници от 100 - 120 хиляди рубли. Сега определяме медианата:

Таблица 3 - Разпределение на населението на Руската федерация по нивото на средния номинален паричен доход на глава от населението през март 1994 г.
Групи по ниво на среден месечен доход на глава от населението, хиляди рублиДял от населението, %
до 201,4
20 – 40 7,5
40 – 60 11,9
60 – 80 12,7
80 – 100 11,7
100 – 120 10,0
120 – 140 8,3
140 –160 6,8
160 – 180 5,5
180 – 200 4,4
200 – 220 3,5
220 – 240 2,9
240 – 260 2,3
260 – 280 1,9
280 – 300 1,5
Над 3007,7
Обща сума100,0

Таблица 4 - Дефиниция на медианния интервал
По този начин средната аритметична стойност, модата и медианата могат да се използват като обобщена характеристика на стойностите на определен атрибут за единици от класирана популация.
Основната характеристика на разпределителния център е средноаритметичното, което се характеризира с това, че всички отклонения от него (положителни и отрицателни) се събират до нула. Характерно за медианата е, че сумата на отклоненията от нея по модул е ​​минимална, а модата е стойността на най-често срещания признак.
Съотношението на режима, медианата и средното аритметично показва естеството на разпределението на признака в съвкупността, позволява да се оцени неговата асиметрия. При симетричните разпределения и трите характеристики са еднакви. Колкото по-голямо е несъответствието между модата и средната аритметична стойност, толкова по-асиметрична е серията. За умерено изкривени серии разликата между режима и средната аритметична стойност е приблизително три пъти разликата между медианата и средната стойност, т.е.:
|Mo–`x| = 3 |Me –`x|.

Определяне на мода и медиана по графичен метод

Режим и медиана в интервални серииможе да се определи графично. Режимът се определя от хистограмата на разпределението. За целта се избира най-високият правоъгълник, който в случая е модален. След това свързваме десния връх на модалния правоъгълник с десния горен ъгълпредишен правоъгълник. А левият връх на модалния правоъгълник е с горния ляв ъгъл на следващия правоъгълник. От точката на тяхното пресичане спускаме перпендикуляра към абсцисната ос. Абсцисата на пресечната точка на тези линии ще бъде режимът на разпределение (фиг. 5.3).


Ориз. 5.3. Графична дефинициярежими на хистограма.


Ориз. 5.4. Графично определяне на медианата чрез кумулат
За определяне на медианата от точка на скалата на натрупаните честоти (честоти), съответстваща на 50%, се начертава права линия, успоредна на абсцисната ос до пресечната точка с кумулата. След това от точката на пресичане се спуска перпендикуляр към абсцисната ос. Абсцисата на пресечната точка е медианата.

Квартили, децили, процентили

По същия начин, с намирането на медианата във вариационната серия на разпределение, можете да намерите стойността на характеристика за всяка единица от класираната серия по ред. Така например можете да намерите стойността на характеристика в единици, които разделят серията на четири равни части, на 10 или 100 части. Тези стойности се наричат ​​"квартили", "децили", "перцентили".
Квартилите са стойността на характеристика, която разделя обособената съвкупност на 4 равни части.
Има долен квартил (Q 1), разделящ ¼ от населението с най-малките стойностифункция и горния квартил (Q 3), отрязвайки ¼ от частта с най-високи стойности на характеристиката. Това означава, че 25% от единиците на съвкупността ще бъдат по-малки от Q 1 ; 25% единици ще бъдат затворени между Q 1 и Q 2; 25% - между Q 2 и Q 3, а останалите 25% са по-добри от Q 3. Средният квартил на Q 2 е медианата.
За изчисляване на квартилите чрез интервални вариационни серии се използват следните формули:
, ,
където x Q 1– долната граница на интервала, съдържащ долния квартил (интервалът се определя от натрупаната честота, като първата надвишава 25%);
x Q 3– долната граница на интервала, съдържащ горния квартил (интервалът се определя от натрупаната честота, като първата надвишава 75%);
аз– интервална стойност;
S Q 1-1е кумулативната честота на интервала, предхождащ интервала, съдържащ долния квартил;
S Q 3-1е кумулативната честота на интервала, предхождащ интервала, съдържащ горния квартил;
f Q 1е честотата на интервала, съдържащ долния квартил;
f Q 3е честотата на интервала, съдържащ горния квартил.
Помислете за изчисляването на долния и горния квартил съгласно табл. 5.10. Долният квартил е в диапазона 60 - 80, чиято кумулативна честота е 33,5%. Горният квартил е в диапазона 160 - 180 с акумулирана честота от 75,8%. Имайки това предвид, получаваме:
,
.
В допълнение към квартилите, децилите могат да бъдат определени в ранговете на вариационното разпределение - опции, които разделят диапазонираните вариационни серии на десет равни части. Първият децил (d 1) разделя съвкупността от 1/10 до 9/10, вторият децил (d 1) от 2/10 до 8/10 и т.н.
Те се изчисляват по формулите:
, .
Стойностите на характеристиките, които разделят серията на сто части, се наричат ​​процентили. Съотношенията на медианата, квартилите, децилите и процентилите са показани на фиг. 5.5.

Централният тренд на данните може да се разглежда не само като стойност с нулево общо отклонение (средно аритметично) или максимална честота (мода), но и като определен знак (определено ниво на анализирания индикатор), който разделя класираните данни (сортирани във възходящ или низходящ ред) на две равни части. Тоест, половината от първоначалните данни са по-малки от тази марка в неговата стойност, а половината са повече. Това е, което е Медиана. Режим и медиана - важни показатели, те отразяват структурата на данните и понякога се използват вместо средно аритметично.

И така, медианата е нивото на индикатора, което разделя определен набор от данни на две равни половини. Като демонстрационен пример отново се обръщаме към комплекта произволни числа. Такова разпределение за в големи количествастойности в литературата се описва като често срещано явление. Ето данните под формата на снимка.

Очевидно при симетрично разпределение средата, разделяща съвкупността наполовина, ще бъде в самия център - на същото място като средното аритметично (и режим). Това е, така да се каже, идеална ситуация, когато модата, медианата и средната аритметична съвпадат и всичките им свойства попадат в една точка - максимална честота, бисекция, нулева сума на отклоненията - всичко на едно място. Животът обаче не е толкова симетричен, колкото нормалното разпределение. Затова нека да разгледаме асиметричното разпределение и какво се случва с нашите централни тенденции там.

Да предположим, че имаме работа с технически измервания на отклонения от очакваната стойност на нещо (съдържание на елементи, разстояние, ниво, маса и т.н. и т.н.). Ако всичко е наред, тогава отклоненията най-вероятно ще бъдат разпределени по закон, близък до нормалния, приблизително както на фигурата по-горе (практиката опровергава подобно предположение, но добре). Но ако в анализирания процес присъства някакъв значим и неконтролируем фактор, тогава в наблюденията могат да се появят аномални стойности, които значително ще повлияят на средната аритметична стойност, но почти няма да повлияят на медианата, което ясно се вижда в следващата хистограма.

Медианата е основната алтернатива на средноаритметичното, т.к той е устойчив на аномални отклонения (отклонения). Тази статия говори за това как средноаритметичната стойност се държи с анормални стойности и как да се справим с нея, тоест как да я направим по-малко зависима от извънредните стойности. Основните възможности са да се увеличи броят на наблюденията и/или да се премахнат аномалиите от аналитичната проба. И така, преходът от средната аритметична към медианата е друг начин за получаване на стабилна (здрава) оценка на математическото очакване. Друго нещо е, че свойствата на средната аритметична стойност ще бъдат загубени завинаги, но тук трябва да погледнете кое е по-важно.

Сега примери за реалното използване на медианата в статистиката. При анализ на средната работна заплата в страната може да се използва медианата вместо средноаритметичната. Хората не обичат собствената им заплата да е под средната (аритметична) в страната. Това предизвиква буря от емоции и разкрития в неправилни изчисления. Например, аз имам заплата от 100 рубли, а директорът има 1000 рубли, така че се оказва средно 550 рубли. Какво е недоволните граждани е неизвестно и не се интересува. Но ако използвате медианата, ще стане ясно, че половината от населението получава доход по-малък от средната стойност, а половината - повече.

Този показател се използва и в демографската статистика, при анализа на различни количествени и качествени характеристики(якост на материала, съдържание на елементи, време на работа, брой повреди и др.). Дори форекс търговците използват медианата като някакъв вид таен сигнал за започване на действие. Въпреки че повечето от тях не спасява.

математически медиен имоте, че сборът от абсолютните (по модул) отклонения от средната стойност дава минималната възможна стойност в сравнение с отклоненията от всяка друга стойност. Дори по-малко от средноаритметичното, о, как! Този фактнамира приложение например при решаване транспортни задачикогато е необходимо да се изчисли строителната площадка на обект в близост до пътя по такъв начин, че общата дължина на полетите до него от различни места да е минимална (спирки, бензиностанции, складове и т.н. и т.н.). Бележка към логистиците.

(модул 111)

Медианна формула за отделенданни донякъде напомня на модната формула. А именно фактът, че няма формула като такава. Средната стойност се избира от наличните данни и само ако това не е възможно, се извършва просто изчисление.

Първо, данните се класират (сортират се в низходящ ред). След това има два варианта. Ако броят на стойностите е нечетен, тогава медианата ще съответства на централната стойност на серията, чийто брой може да се определи по формулата:

Не, азе числото на стойността, съответстваща на медианата,

не броят на стойностите в набора от данни.

Тогава медианата ще бъде означена като

Това е първият случай, при който има една централна стойност в данните. Вторият вариант възниква, когато количеството данни е равномерно, т.е. вместо една има две централни стойности. Решението е просто: взема се средноаритметичната стойност на двете централни стойности:

Ето как се извършва търсене или изчисление в дискретни данни. Въпреки това, данните също могат да бъдат интервал, където не е възможно да изберете конкретна стойност, тъй като просто няма конкретни стойности. Както в модата, медианата в този случай се изчислява според някакво общоприето правило, въз основа на определено предположение, тоест на око. И добре се получава, казвам ви!

Като начало (след класиране на данните) намерете среден интервал. Това е интервалът, през който преминава желаната средна стойност. Определя се с помощта на натрупаната част от класираните интервали. Там, където натрупаният дял за първи път надхвърля 50% от всички стойности, също има среден интервал.

Не знам кой е измислил медианната формула, но те очевидно изхождат от предположението, че разпределението на данните в медианния интервал е равномерно (т.е. 30% от ширината на интервала е 30% от стойностите, 80% от ширината е 80% от стойностите и т.н.) . Следователно, знаейки броя на стойностите от началото на средния интервал до 50% от всички стойности в популацията (разликата между половината от броя на всички стойности и натрупаната честота на предмедианния интервал) , можете да разберете какъв дял заемат в целия среден интервал. Този дял се пренася точно върху ширината на средния интервал, като се посочва конкретна стойност, по-късно наречена медиана.

Без повече шум, нека се обърнем към визуална диаграма - ще бъде по-ясно.

Оказа се малко тромаво, но сега, надявам се, всичко е ясно и разбираемо. За да не рисувате такава графика всеки път по време на изчислението, можете да използвате готовата формула. Формулата на медианата е:

където x Аз- долната граница на средния интервал;

аз- средна ширина на интервала;

∑f/2- броят на всички стойности, разделен на 2 (две);

S (Me-1)- общият брой наблюдения, натрупани преди началото на средния интервал, т.е. акумулирана честота на премедианния интервал;

е аз- брой наблюдения в медианния интервал.

Както можете лесно да видите, формулата на медианата се състои от два члена: 1 - стойността на началото на медианния интервал и 2 - самата част, която е пропорционална на липсващия натрупан дял до 50%. Нещо дори подобно на модната формула. Разликата е в търсенето на точка вътре в интервала.

Например, нека изчислим медианата за следните данни.

Необходимо е да се намери средната цена, т.е. цената, която е по-евтина и по-скъпа от половината от количеството стоки. Като начало ще направим спомагателни изчисления на кумулативната честота, кумулативната част, обща сумастоки. Сега нека погледнем отново какво имаме.

Според последната колона „Натрупан дял“ определяме средния интервал - 300-400 рубли (натрупаният дял за първи път е повече от 50%). Ширина на интервала - 100 рубли. Сега остава да заместим данните в горната формула и да изчислим медианата.

Тоест, за половината от стоките цената е по-ниска от 350 рубли, за другата половина е по-висока. Всичко е просто. Средната аритметична стойност, изчислена от същите данни, е 355 рубли. Разликата не е съществена, но е.

Изчисляване на медианата в Excel

Статистика без автоматични изчисления – последния век. Медианата на числата е лесна за намиране Функция на Excel, която се нарича МЕДИАНА. Използван archisimple. Активира се клетката за изчисление, извиква се функцията, избира се обхватът на данните и се "OK". Няма какво повече да обсъждаме. Подходящ както за четни, така и за нечетни количества данни.

Друго нещо са интервалните данни. В Excel няма съответна функция. Следователно трябва да се използва горната формула. Какво можеш да направиш? Но това не е много трагично, тъй като изчисляването на медианата от интервални данни е рядък случай. Можете също да го изчислите на калкулатор.

Между другото, фактът, че медианата разделя данните на две равни части, напомня някои методи за групиране. Наистина, след като намерим медианата, получаваме и две групи с еднакъв брой стойности. Развивайки тази идея, разделянето на групи може да се извърши не само по принципа 50/50, но и по други дялове. Например 20% най-високи стойностине е нищо друго освен група А в ABC анализа. За други акции по някакъв начин в друга статия. Вижте как се пресичат привидно несвързани методи?

Моята история е към своя край статистикаМедиана. Дано не е бил уморителен. И накрая, предлагам пъзел в стила на телевизионната викторина "Кой иска да стане милионер?". Има набор от данни. 15, 5, 20, 5, 10. Каква е средната стойност? Четири опции:

Също така предлагам да гледате видеоклип по темата за изчисляване на медианата в Excel.