Биографии Характеристики Анализ

Среднее значение рангов. Ранговая статистика

Достаточно хорошо аппроксимирует Р. с. Т, и разность пренебрежимо мала, когда . При справедливости гипотезы H 0 , согласно к-рой компоненты Х 1 , ... , Х n случайного вектора Xсуть независимые случайные величины, проекция Р. с. Топределяется по формуле

где (см. ).

Существует внутренняя связь между Р. с. и . Как показано в , при справедливости гипотезы H 0 проекция коэффициента корреляции Кендалла в семейство линейных Р. с. с точностью до постоянного множителя совпадает с коэффициентом ранговой корреляции Спирмена , а именно:


Из этого равенства следует, что коэффициент корреляции соrr между и равен


т. е. при больших пР. с. и асимптотически эквивалентны (см. ).

Лит. : Г а е к Я., Ш и д а к З., Теория ранговых критериев, пер. с англ., М., 1971; К е n d a l l M. G., Rank correlation methods, 4ed., L., 1970. М. С. Никулин.


Математическая энциклопедия. - М.: Советская энциклопедия . И. М. Виноградов . 1977-1985 .

Смотреть что такое "РАНГОВАЯ СТАТИСТИКА" в других словарях:

    ранговая статистика - — [А.С.Гольдберг. Англо русский энергетический словарь. 2006 г.] Тематики энергетика в целом EN rank statistics … Справочник технического переводчика

    У этого термина существуют и другие значения, см. Статистика (значения). Статистика (в узком смысле) это измеримая числовая функция от выборки, не зависящая от неизвестных параметров распределения. В широком смысле термин (математическая)… … Википедия

    - (statistics) 1. Совокупность данных и математических методов, используемых для изучения связей между различными переменными. Она включает такие методы, как линейная регрессия (linear regression) и ранговая корреляция. 2. Значения, использующиеся… … Экономический словарь

    СТАТИСТИКА - 1. Вид деятельности, направленной на получение, обработку и анализ информации, характеризующей количественные закономерности жизни об ва во всем ее многообразии, в неразрывной связи с ее качественным содержанием. В более узком смысле слова… … Российская социологическая энциклопедия

    - (non parametric statistics) Статистические технические приемы, которые не допускают особенных функциональных форм для отношений между переменными. Ранговая корреляция двух переменных является тому примером. Использование подобных технических… … Экономический словарь - К. м., получившие свое назв. благодаря тому, что основываются на «со отношении» («co relation») переменных, представляют собой статистические методы, начало к рым было положено в работах Карла Пирсона примерно в конце XIX в. Они тесно связаны с… … Психологическая энциклопедия

    Разработчик Digital Illusions CE Издатель … Википедия

    Карл Пирсон Karl (Carl) Pearson Дата рождения … Википедия

В анализе социально-экономических явлений часто приходится прибегать к различным условным оценкам с помощью рангов, а взаимосвязь между отдельными признаками измерять с помощью непараметрических коэффициентов связи.

Ранжирование - это процедура упорядочения объектов изучения, которая выполняется на основе предпочтения.

Ранг - это порядковый номер значений признака, расположенных в порядке возрастания или убывания их величин. Если значения признака имеют одинаковую количественную оценку, то ранг всех этих значений принимается равным средней арифметической из соответствующих номеров мест, которые они определяют. Данные ранги называются связными.

Среди непараметрических методов оценки тесноты связи наибольшее значение имеют ранговые коэффициенты корреляции Спирмена (р1?/) и Кендалла (т^). Эти коэффициенты могут быть использованы для определения тесноты связи между как количественными, так и качественными признаками.

Коэффициент корреляции рангов (коэффициент Спирмена) рассчитывают по формуле

где (11 - квадраты разности рангов; п - число наблюдений (число пар рангов).

Коэффициент Спирмена принимает любые значения в интервале [-1; 1].

Пример. 11о данным о покупке и продаже гражданами субъектов Приволжского федерального округа РФ валюты через кредитные организации в 2010 г. определим зависимость между этими признаками с помощью коэффициента Спирмена (табл. 7.14).

Таблица 7.14. Расчет коэффициента Спирмена

Субъект

Покупка валюты х, млн руб.

Продажа валюты у, млн руб.

Ранг

поп а рангов

Квадрат разности рангов

$

К

Ry

1. Республика Башкортостан

2. Республика Марий Эл

3. Республика Мордовия

4. Республика Татарстан

5. Удмуртская Республика

6. Чувашская

Республики

7. Пермский край

8. Кировская область

9. Нижегородская область

10. Оренбургская область

11. Пензенская область

12. Самарская область

13. Саратовская область

14. Ульяновская область

Рассчитаем коэффициент корреляции рангов Спирмена:

В результате расчета мы определили, что связь между покупкой и продажей валюты гражданами субъектов Приволжского федерального округа РФ через кредитные организации в 2010 г. сильная, близкая к функциональной.

Ранговый коэффициент корреляции Кендалла также используют для измерения степени тесноты и направления связи между качественными и количественными признаками, характеризующими однородные объекты и ранжированными по одному принципу. Расчет рангового коэффициента Кендалла осуществляют но формуле

где 5 - сумма разностей между числом последовательностей и числом инверсий по второму признаку; п - число наблюдений.

Расчет данного коэффициента выполняется в такой последовательности.

  • 1. Значения х ранжируются в порядке возрастания или убывания.
  • 2. Значения у располагаются в порядке, соответствующем значениям х.
  • 3. Для каждого ранга у определяется число следующих за ним значений рангов, превышающих его величину. Таким образом, путем сложения чисел определяется величина Р как мера соответствия последовательностей рангов пох и у, которая учитывается со знаком "+".
  • 4. Для каждого ранга у определяется число следующих за ним значений рангов, меньших его величины. Суммарная величина обозначается через (2 и фиксируется со знаком "-".
  • 5. Определяется сумма баллов по всем членам ряда.

Связь между признаками признается статистически значимой, если коэффициенты ранговой корреляции Спирмена и Кендалла больше 0,5.

По данным табл. 7.14 получены результаты, представленные в табл. 7.15.

Таким образом, ранговый коэффициент корреляции Кендалла составит

Таблица 7.15.

что также свидетельствует о сильной связи между покупкой и продажей валюты гражданами субъектов Приволжского федерального округа РФ через кредитные организации в 2009 г.

Множественный коэффициент ранговой корреляции (коэффициент конкордации) применяют для определения тесноты связи между произвольным числом ранжированных признаков. Его вычисляют по формуле

где 5 - отклонение суммы квадратов рангов от средней квадратов рангов; т - количество факторов; п - число наблюдений.

Пример. Определим степень тесноты связи между такими основными показателями торговли технологиями со странами СНГ в 2010 г., как число экспортных соглашений, стоимость предмета соглашения и поступление средств (табл. 7.16).

Таблица 7.16. Расчет коэффициента конкордации

Страна

Число соглашений

X

Стоимость предмета соглашения у, млн долл.

Поступление средств за год г, млн долл.

К

Сумма строк

Квадрат суммы

1. Азербайджан

2. Армения

3. Беларусь

4. Казахстан

5. Киргизия

6. Республика Молдова

Рангом элемента выборки называется порядковый номер этого элемента в вариационном ряду или, другими словами, число элементов выборки меньших или равных

Следовательно, выборочному значению соответствует порядковая статистика вариационного ряда.

Ранговым вектором выборки называется перестановка чисел 1, 2, которая получается при замене элементов выборки их рангами. Ранговой статистикой называется произвольная функция от рангового вектора. Ранговый алгоритм предписывает сравнение некоторой ранговой статистики с порогом.

Исходную выборку можно восстановить, если известен вектор порядковых статистик и ранговый вектор R. Отдельно любой из этих двух векторов представляет необратимое нелинейное преобразование исходной выборки. Для однородной независимой выборки случайные векторы и R независимы.

Ранг элемента выборки размером при помощи функции единичного скачка или знаковой функции можно представить следующим образом:

(13.168 а)

Из (13.168 a и б) следует, что ранги являются знаковыми статистиками от разностей выборочных значений.

Для однородной независимой выборки функция правдоподобия инвариантна к группе перестановок аргументов. Отсюда следует, что для указанной выборки все ранговые векторы равновероятны, каково бы ни было распределение, которому принадлежит выборка. Общее число возможных ранговых векторов, соответствующих выборке размером , равно числу перестановок чисел, т. е. Следовательно, выборочное пространство ранговых векторов состоит из дискретных точек -мерного эвклидового пространства. Вероятность попадания рангового вектора R наблюдаемой выборки в любую точку этого дискретного множества равна , т. е. для любого распределения однородной независимой выборки

Таким образом, ранговый алгоритм - непараметрический по отношению гипотезе Н о том, что выборка из произвольного распределения однородная и независимая. Для альтернативы К о том, что независимая выборка неоднородная, ранги перестают быть равновероятными. Для определения функции распределения рангового вектора при альтернативе К необходимо вычислить интеграл

где область включает те точки выборочного пространства, которым при упорядочивании соответствует заданный вектор

Этот интеграл

(13.170)

Практическое использование формулы (13.170), за исключением специальных случаев, сопряжено с трудно выполнимыми вычислениями. Из-за сложности распределения (13.170) синтез оптимального по критерию Неймана - Пирсона рангового алгоритма проверки гипотез при конечном размере выборки практически нереализуем. Это также одна из причин того, что указанный синтез осуществляют на эвристической основе (см. п. 13.7.4).

Отметим, что ранговый вектор однородной независимой выборки инвариантен к безынерционному преобразованию выборки

так как такое преобразование не изменяет относительного расположения элементов выборки . Из (13.171) следует, что ранговый алгоритм сохраняет непараметрическое свойство и после указанного нелинейного преобразования.

Использование порядковой шкалы позволяет присваивать ранги объектам по какому-либо признаку. Таким образом, метрические значения переводятся в ранговые. При этом фиксируются различия в степени выраженности свойств. В процессе ранжирования следует придерживаться 2 правил.

Правило порядка ранжирования. Надо решить, кто получает первый ранг: объект с самой большей степенью выраженности какого-либо качества или наоборот. Чаще всего это абсолютно безразлично и не отражается на конечном результате. Традиционно принято первый ранг приписывать объектам с большей степенью выраженности качества (большему значению – меньший ранг). Например, чемпиону присуждают первое место, а не наоборот. Хотя, и здесь если бы был принят обратный порядок, то результаты от этого не изменились бы. Так что порядок ранжирования каждый исследователь вправе определять сам. Например, Е. В. Сидоренко рекомендует меньшему значению приписывать меньший ранг. В некоторых случаях это удобнее, но непривычнее.

Например: имеется неупорядоченная выборка, данные которой необходимо проранжировать. {2, 7, 6, 8, 11, 15, 9}. После упорядочивания выборки ранжируем ее.

Метрические данные

Альтернативный вариант:

Метрические данные

Отдельно следует сказать следующее. Существует группа редко используемых непараметрических критериев (Т-критерий Вилкоксона, U-критерий Манна-Уитни,Q-критерий Розенбаума и др.), при работе с которыми всегда надо меньшему значению приписывать меньший ранг.

Правило связанных рангов. Объектам с одинаковой выраженностью свойств приписывается один и тот же ранг. Этот ранг представляет собой среднее значение тех рангов, которые они получили бы, если бы не были равны. Например, надо проранжировать выборку, содержащую ряд одинаковых метрических данных: {4, 5, 9, 2, 6, 5, 9, 7, 5, 12}. После упорядочивания выборки следует вычислить среднее арифметическое значение связанных рангов.

Метрические данные

Предварительное ранжирование

Окончательное ранжирование

Задания для самостоятельной работы.

    Проранжировать выборку по правилу «большему значению – меньший ранг»: {111, 104, 115, 107, 95, 104, 104}.

    Проранжировать выборку по правилу «меньшему значению – меньший ранг» {20, 25, 8, 7, 20, 14, 27}.

    Объединить две предыдущие выборки и провести ранжирование по правилу «большему значению – меньший ранг»

    Показатели каких признаков из Таблицы Iявляются номинативными, каких – метрическими?

    Перевести показатели осведомленности из Таблицы IПриложения в ранговую шкалу. Выделить уровни выраженности показателей посредством их перевода в номинативную шкалу.

      Таблица I Данные для обработки

учащиеся

профиль ВУЗа

осведомленность

скрытые фигуры

пропущенные

арифметика

понятливость

исключение

изображений

аналогии

числовые ряды

умозаключения

геометрическое сложение

заучивание слов

средний IQ

экстраверсия-

интроверсия

нейротизм

средняя отметка

Профиль ВУЗа: 0 - выбор учеником гуманитарного профиля;

1 - выбор учеником математического или естественно-научного профиля

Коэффициент тесноты связи между признаками, рассмотренный в предыдущем разделе, можно применять, если изучаемые признаки являются количественными. При этом используется вычисление основных параметров распределения (средних величин, дисперсий), т.е. параметрический метод.

В статистической практике изучения общественно-экономических явлений и процессов приходится сталкиваться с задачами измерения связи между качественными признаками, к которым параметрические методы анализа в их обычном виде неприменимы. В этом случае используют так называемые непараметрические методы.

В анализе социально-экономических явлений широко используются ранговые коэффициенты корреляции (коэффициенты корреляции рангов), когда коррелируют не непосредственные значения х и у, а их ранги, т.е. номера их мест, занимаемых в каждом ряду значений по возрастанию или убыванию. К таким непараметрическим коэффициентам относятся коэффициенты рангов Спирмена и Кендалла.

Если п вариантов ряда расположены в соответствии с возрастанием или убыванием признака х, то говорят, что объекты ранжированы по этому признаку. Ранг для х,- указывает место, которое занимает i-e значение признака среди других п значений признака х (/ = 1,2,___, п).

Например, при исследовании рынка можно задаться целью выяснения предпочтений потребителей при выборе товара (при покупке акций, мороженого, автомобиля и т.п.) таким образом, чтобы они распределили товар в порядке возрастания (или убывания) своих потребительских предпочтений. Если имеется два набора ранжированных данных, то можно установить степень линейной зависимости между ними.

Пример 6.7. Предположим, имеется 5 продуктов (табл. 6.7), которые ранжированы по порядку предпочтений от 1 до 5 в соответствии с двумя характеристиками Aw В.

Исходные ранжировки

Таблица 6 .7

Необходимо исследовать тесноту статистической связи между характеристиками.

Решение. Использование для определения интенсивности связи между признаками коэффициента Пирсона будет неверным, так как этот коэффициент применяется для признаков, измеряемых количественно. Так, например, при определении взаимосвязи между ростом и весом мы измеряем рост в сантиметрах, а вес в килограммах, при этом есть возможность точно определить на шкале измерений разность значений этих признаков для любого человека (иначе - расстояние между ними на шкале измерений). Возьмем признак, измеренный в ранговой шкале, - экзаменационная оценка. Значит ли, что у получившего двойку студента знаний в два раза меньше, чем у того, кто получил четверку? Или двое студентов, получивших тройки, имеют абсолютно одинаковый уровень знаний? Ответ - нет, преподаватель упорядочивает их уровень знаний в определенной последовательности, в соответствии с критериями оценки знаний по конкретному предмету, но расстояние между значениями признаков на такой шкале не является строго фиксированным.

Для определения наличия взаимосвязи между ранговыми оценками используется коэффициент ранговой корреляции Спирмена. Его расчет основан на различиях между рангами.

Обозначим разность рангов d = ранг А ~ ранг В.

Коэффициент Спирмена

где п - число пар ранжированных наблюдений.

В примере имеем пять пар рангов, следовательно, п- 5. Сумма ct равна

Тогда коэффициент Спирмена

Коэффициент Спирмена изменяется в интервале [-1; 1] и интерпретируется так же, как и коэффициент Пирсона. Отличие в том, что он вычисляется для ранжированных данных.

Значение 0,6 позволяет сделать вывод о заметной линейной связи между двумя характеристиками товаров.

Значимость коэффициента Спирмена проверяется на основе t критерия Стьюдента по формуле

Значение коэффициента считается существенным, если t paсч > > 6фит;а (и - 2) для заданного уровня значимости а.

Коэффициент корреляции рангов (при условии, что ранги не повторяются) может быть рассчитан и по формуле, предложенной английским статистиком М. Кендаллом:


где S - фактическая разность рангов; ~ п (п - l) - максимальная сумма рангов.

Этот коэффициент изменяется в интервале от [-1; 1] и интерпретируется так же, как и коэффициент Пирсона, но дает более строгую

оценку связи, чем коэффициент Спирмена, причем р = - т. Это соотношение выполняется при большом числе наблюдений (п > 30), и слабых либо умеренно тесных связях.

При расчете коэффициента Кендалла соблюдается следующая последовательность действий:

  • 1. Значения х ранжируются в порядке возрастания.
  • 2. Значения у располагаются в порядке, соответствующем значениям х.
  • 3. Для каждого ранга у определяется число следующих за ним значений рангов, превышающих его величину. Результат записывается в столбец «+».
  • 4. Для каждого ранга у определяется число следующих за ним меньших значений рангов. Результат записывается в столбец «-».
  • 5. Находится сумма в столбце «+» и обозначается Р, в столбце «-» и обозначается Q. Определяется S = P- Q.

Значимость коэффициента корреляции рангов Кендалла проверяется по формуле


где щ_ а/2 (п - 2) - квантиль, определяемый по таблице нормального распределения для выбранного уровня значимости а и заданного п.

Пример 6.8. Рассчитаем коэффициент Кендалла на основании данных примера 6.7.

Решение. Проведем необходимые расчеты в табл. 6.8.

Действительно, если полученное значение т умножить на 1,5, то получим 0,6 - значение коэффициента Спирмена, рассчитанное в примере 6.7.

Расчетная таблица

Рассмотрим корреляцию альтернативных признаков, т.е.признаков, принимающих только два возможных значения. Исследования их корреляции основано на показателях, построенных на четырехклеточных таблицах, в которые сводится число единиц для заданных значений признаков:

Решение. Для измерения тесноты взаимосвязи признаков производится расчет коэффициента контингенции по формуле

Коэффициент контингенции принимает значения на интервале [-1; 1 ]. Интерпретация аналогична коэффициенту корреляции. Мы получили слабую отрицательную связь.

Другой метод измерения связи основан на расчете коэффициента ассоциации:

„ л 30x5-20x15 л „

Получим: Q =-= -0,33

Знак «минус» перед коэффициентом указывает на то, что чем больше студентов было привито от гриппа, тем ниже заболеваемость.

Коэффициент контингенции всегда бывает меньше коэффициента ассоциации и дает более корректную оценку тесноты связи.

Для оценки тесноты связи между признаками, принимающими любое число вариантов значений (категориальные, номинальные признаки), применяется коэффициент взаимной сопряженности Пирсона. Основой изучения связи между категориальными признаками служит таблица сопряженности - двумерное распределение единиц совокупности по признакам. Вся информация о наличии или отсутствии связи содержится в совместных частотах сочетаний признаков.

Информация для оценки этой связи группируется в виде таблицы (например, для трех значений первого признака и двух - второго), табл. 6.10.

Таблица 6.10

Пример таблицы сопряженности

Признак

Итого

Ъгпц

ЪЪгпц

Обозначения: ту - частоты взаимного сочетания двух атрибутивных признаков; п = YLmy - число наблюдений.

Коэффициент взаимной сопряженности Пирсона определяется по формуле

где ср - показатель средней квадратической сопряженности:

Коэффициент взаимной сопряженности принимает значения в интервале и интерпретируется подобно коэффициенту парной линейной корреляции Пирсона.

Пример 6.10. Для изучения влияния условий труда на взаимоотношения в коллективе было проведено выборочное обследование 250 работников предприятия, ответы которых распределились, как представлено в табл. 6.11.

Таблица 6.11

Исходные данные об условиях труда и взаимоотношениях в коллективе

Требуется охарактеризовать связь между исследуемыми показателями с помощью коэффициента взаимной сопряженности Пирсона.

Решение.

Полученное значение коэффициента сопряженности свидетельствует, что связь между условиями труда и взаимоотношениями в коллективе умеренная.