Условия применения дисперсионного анализа ANOVA. Проблема множественных сравнений
Один из путей устранения влияния тренировки на результаты оценки Н. р. - формирование устойчивого навыка в работе с соответствующей методикой перед проведением тест-ретеста. Однако количество повторений теста при этом неизбежно возрастает, что приводит к увеличению числа запомнившихся решений. Такой прием может быть рекомендован для методик типа тестов скорости, содержащих большое количество элементов тестового материала.
Для других методик, очевидно, единственным приемлемым путем снижения влияния тренировки остается увеличение интервала ретеста, что, однако, как уже говорилось выше, вступает в противоречие с определением надежности как характеристики теста.
Для большинства тестов общих способностей характерно улучшение показателей Н. р. с возрастом испытуемых за счет лучшего контроля условий их выполнения. Другим фактором увеличения расчетных показателей Н. р. является относительное замедление с возрастом темпа психического развития в области тех характеристик, которые могут стать объектом измерения или влиять на результат теста. Благодаря этому, спустя время, составляющее интервал ретеста, случайные колебания результатов обследования становятся менее выраженными. Это искусственно завышает показатели Н. р. Эта закономерность требует отдельных измерений Н. р. в разных возрастных контингентах испытуемых, что особенно существенно для методик, предназначенных для обследования в широком возрастном диапазоне (см. Станфорд-Бине умственного развития шкала, Векслера интеллекта измерения шкалы).
Указанные особенности и недостатки метода определения надежности путем ретеста делают его пригодным лишь для ограниченного числа методик, допускающих многократное повторное обследование. К их числу относятся сенсомоторные пробы, тесты скорости и ряд других методик, отличающихся большим количеством пунктов (см. Миннесотский многоаспектный личностный опросник).
НАДЕЖНОСТЬ ФАКТОРНО-ДИСПЕРСИОННАЯ - способ определения надежности, основанный на дисперсионном анализе результатов теста. Надежность теста соответствует отношению истинной дисперсии (т. е. дисперсии самого исследуемого фактора) к реально полученной эмпирической дисперсии. Последняя складывается из истинной дисперсии и дисперсии погрешности измерения (см. Ошибка измерения). Факторно-аналитический подход к определению надежности дополнительно расчленяет и дисперсию истинного показателя (Дж. Гилфорд, 1956).
Дисперсия истинного показателя, в свою очередь, может состоять из дисперсии общего фактора для групп аналогичных тестов (см. Фактор G), особых факторов, обеспечивающих тесты специфической направленности (см. Факторы групповые) и дисперсии факторов, присущих конкретной тестовой методике. Следовательно, полная дисперсия теста равна сумме дисперсий для общих, специфических и единичных факторов плюс дисперсия погрешности:
где σ 2 t - дисперсия теста, - дисперсия общих, групповых и единичных факторов, - дисперсия погрешности. Разделив уравнение на σ 2 t получим:
что может быть записано в виде:
где - доля дисперсии, выраженная общим фактором а, и т. д.
Таким образом, коэффициент надежности теста равен:
Факторно-дисперсионный способ определения надежности подходит для оценки уже факторизованного теста (см. Факторно-аналитический принцип), но не для тестов, измеряющих широкий набор разнообразных параметров, так как некоторые из них могут не входить в установленную область валидности методики.
НАДЕЖНОСТЬ ЧАСТЕЙ ТЕСТА - характеристика надежности психодиагностической методики, получаемая путем анализа устойчивости результатов отдельных совокупностей тестовых задач или единичных пунктов (заданий) теста.
Наиболее простым и распространенным способом определения Н. ч. т. является метод расщепления, суть которого заключается в выполнении испытуемым заданий двух равноценных частей теста. Обоснованием метода является вывод о том, что при нормальном или близком к нормальному распределении оценок по полному тесту (см. Нормальное распределение) выполнение любого случайного набора из частей теста даст аналогичное распределение (при условии, что части однородны по характеру заданий по отношению к тесту в целом).
Для оценки надежности методом расщепления выбирают две эквивалентные по характеру и степени трудности группы задач (см. Внутренняя согласованность, Трудность заданий теста). Разделение объема заданий теста на сопоставимые части достигается:
Распределением заданий на четные и нечетные (в том случае, если задания в тесте строго ранжированы по степени субъективной трудности);
Распределением пунктов по принципу близости или равенства значений индексов трудности и дискриминативности (см. Дискриминативность заданий теста). Такой принцип разделения пригоден для тестов достижений, в которых обязателен ответ испытуемых на все пункты;
Распределением задач по времени решения каждой из частей (для тестов скорости).
Для испытуемых в выборке определения надежности (раздельно для каждой из частей теста) вычисляются оценки успешности решений, среднеквадратические отклонения первого и второго рядов оценок и коэффициенты корреляции сравниваемых рядов. Естественно, эти коэффициенты будут характеризовать надежность лишь половины теста.
Уравнение Спирмена-Брауна отражает влияние изменения количества заданий на коэффициент надежности теста:
где r t - коэффициент надежности для полного объема заданий, - его значение после изменения числа заданий, п - отношение нового числа заданий к первоначальному (если число заданий полного теста - 100, а его части, полученной методом расщепления на половины, - 50, то п = 0,5). Отсюда для полного теста:
Приведенные формулы справедливы для случаев равных стандартных отклонений обеих половин теста (σ х1 = σ х2). Если σ х1 отличается от σ х2 , для определения коэффициента надежности применяется формула Фланагана:
Этот же показатель для малых выборок рассчитывается по формуле Кристофа:
При определении r t целого теста можно воспользоваться формулой Рюлона:
где - дисперсия разностей между результатами каждого испытуемого по двум половинам теста, - дисперсия суммарных результатов. В данном случае коэффициент надежности рассчитывается как доля «истинной» дисперсии результатов теста (см. Надежность, Ошибка измерения).
При расщеплении тестов скорости применяется особая процедура группировки заданий. Определяется минимальное время (t min) решения целого теста, затем отсчитываются половина и четвертая часть этого времени. Все испытуемые работают половину минимального времени, после чего ставят отметку против задания, выполняемого в момент подачи сигнала, и продолжают работать еще четверть минимального времени. Коэффициент надежности в этом случае будет соответствовать степени корреляции между числом задач, решенных до первого сигнала (0,5t min) и решенных за время между первым и вторым сигналами (0,25t mjn ).
Разделение заданий теста на равноценные половины является лишь частным случаем Н. ч. т. Вполне возможно расщепление на три, четыре и более частей. В предельном случае число частей равно числу пунктов. При этом для определения надежности применяют анализ внутренней согласованности.
При разделении всего набора заданий теста на любое количество групп для правильного определения Н. ч. т., как уже указывалось выше, должно соблюдаться требование равноценности таких групп. Поэтому при вычислении коэффициента надежности методом анализа внутренней согласованности отобранные задания теста должны быть в высокой степени однородны по содержанию и трудности (гомогенны). При гетерогенных задачах значения r t ниже истинных.
Наиболее распространенным методом оценки надежности отдельных заданий является вычисление коэффициента Кьюдера-Ричардсона:
где - дисперсия первичных оценок теста, р - индекс трудности, выраженный в виде доли - - (см. Трудность заданий 100 теста), q = 1 - р, r pb - коэффициент дискриминации (см. Дискриминатив-ность заданий теста).
В целях упрощения вычисления может быть применена формула Гуликсена:
где k - число заданий в тесте.
Это уравнение может быть упрощено следующим образом:
При отсутствии коэффициента дискриминации применим вариант формулы Кьюдера-Ричардсона:
Пример вычислений r t по методу Кьюдера - Ричардсона приведен в табл. 17.
Таблица 17
Определение коэффициента надежности методом Кьюдера-Ричардсона (n = 50; = 8,01;k = 16)
Предложенные выше формулы для определения коэффициента надежности пригодны для случаев, когда задания оцениваются в дихотомической шкале (см. Шкалы измерительные) по принципу «выполнено - не выполнено». Для случаев с более дифференцированной оценкой применима формула коэффициента альфа:
где - сумма дисперсий результатов отдельных заданий.
В практике психологической диагностики считается, что тест надежен, если r t ≥ 0,6.
Коэффициент надежности обладает доверительным интервалом, определение которого особенно важно в связи с большим количеством факторов, способных влиять на его значение. Доверительный интервал для r t определяется как
где - стандартная ошибка коэффициента надежности - преобразование Фишера (определяется по статистическим таблицам). На практике применяется только нижняя граница r t (Z крит при γ = 0,05 составляет 1,96, при α = 0,01 -2,58).
Характеристика надежности по типу Н. ч. т. имеет серьезные преимущества по сравнению с надежностью ретестовой и надежностью параллельных, форм, главным образом благодаря отсутствию необходимости в повторном обследовании. Таким образом, снимается влияние многих посторонних факторов, в частности тренировки, запоминания решений и т. д. Это обстоятельство определяет широкое распространение методов характеристики Н. ч. т. по сравнению с другими типами надежности. К недостаткам метода относится невозможность проверить устойчивость результатов теста спустя определенное время. Это требует комбинирования метода Н. ч. т. с другими типами характеристики надежности психологической методики.
«НАРИСУЙ ИСТОРИЮ» (Draw-a-Story, DAS) - проективная методика исследования личности. Предложена Р. Силвером в 1987 г. Предназначена для раннего обнаружения депрессии, в частности - скрытой депрессии.
«Н. и.» основывается на обычных для проективных методик положениях: а) детское восприятие одних и тех же рисунков различно; б) на восприятие оказывает влияние личный опыт; в) рисунки могут отражать элементы личности, поддающиеся квантификации.
В методике комбинируются исследовательские процедуры разных проективных техник. Первоначально обследуемый должен выбрать из 14 картин две и по ним придумать историю (на предлагаемых картинах в основном содержатся изображения людей и животных). Затем необходимо сделать рисунок по мотивам ранее воображенной истории. Наконец, предлагается записать историю. Темы рисунка и истории оцениваются по 7-балльной шкале (от «выражение негативная» до «выраженно позитивная»). Негативные темы содержат указания на «грусть», «печаль», «смерть», «беспомощность», «будущее без надежд на лучшее» и т. п. и рассматриваются как знаки депрессии.
«Н. и.» предназначена для группового обследования детей и подростков, начиная с 5-летнего возраста. Сообщается о высокой надежности методики. Так, надежность ретестовая (интервал ретеста - неделя) при обследовании детей с эмоциональными расстройствами - 0,87.
Данные о валидности ограниченны, тем не менее имеются сведения о том, что темы депрессивных детей и подростков оцениваются в основном как «выражение негативные», чего не наблюдается в других группах. Имеются нормативные данные, полученные при обследовании 380 детей и подростков, однако они не могут быть признаны репрезентативными.
Сведений об использовании в СНГ нет.
«НАРИСУЙ ЧЕЛОВЕКА» ТЕСТ (Draw-A-Person Test, DAP) - проективная методика исследования личности. Разработана К. Маховер в 1948 г. на основе теста Ф. Гудинаф, предназначенного для определения уровня интеллектуального развития детей и подростков с помощью выполненного ими рисунка мужчины (см. Гудинаф «Нарисуй человека» тест).
«Н. ч.» т. можно использовать для обследования как взрослых, так и детей, допускается групповое обследование.
Обследуемому предлагают карандашом на чистом листе бумаги нарисовать человека. После выполнения рисунка ему дают задание нарисовать человека противоположного пола. Заключительный этап обследования - опрос. К. Маховер составлены специальные перечни вопросов о нарисованных фигурах. Эти вопросы касаются возраста, образования, семейного положения, привычек и т. д.
При интерпретации полученных данных автор исходит из идеи о том, что рисунок является выражением «Я» обследуемого. Значительное внимание уделяется анализу разнообразных деталей рисунка, прежде всего особенностям изображения основных частей тела, которые зачастую оценивают в соответствии с психоаналитической символикой. Изучение валидности «Н. ч.» т. западными психологами привело к противоречивым результатам в силу умозрительности предлагаемых автором интерпретаций. Имеются данные о том, что общие субъективные оценки более валидны и надежны, нежели оценки по отдельным деталям рисунка.
В СССР «Н. ч.» т. первоначально применялся в клинико-психологических исследованиях. Анализировались преимущественно формальные аспекты рисунков, напр, размер фигуры, ее расположение на листе бумаги, степень законченности рисунка и т. п. (Ю. С. Савенко, 1970). Полученные при обследовании пациента результаты соотносились с клинической картиной заболевания, обогащая и уточняя представление о больном. Начиная с 90-х годов сфера использования теста существенно расширяется, выполнено немало исследований в возрастной и педагогической психологии.
НАРУШЕНИЙ ПСИХИЧЕСКОЙ АДАПТАЦИИ ОПРОСНИК (НПА) - опросник личностный, разработан А. И. Скорик и Л. С. Свердловым в 1993 г. Предназначен для предварительной диагностики адаптационных нарушений.
Методика носит скрининговый характер (см. Отсеивание). Исследование, проводимое при помощи НПА, позволяет получить общее представление о наличии или отсутствии проявлений психической дезадаптации, их основных особенностях. Требования,предъявляемые к такого рода ускоренной диагностике, обусловили небольшой объем опросника и простоту обработки первичных данных.
Опросник НПА состоит из 37 утверждений, касающихся личностных качеств и психологических особенностей испытуемого, состояния соматической сферы, представлений о психическом здоровье, восприятия некоторых обыденных жизненных проблем. Задания опросника требуют только утвердительных или отрицательных ответов («да»-«нет», «верно»- «неверно», «согласен»-«не согласен»). Ответ «не знаю» не допускается. Опросник может применяться при индивидуальном и групповом обследовании. Оценки первичные подсчитываются в соответствии с «ключом», раздельно по 6 шкалам опросника. Особенностью первичной обработки является то, что подсчитывается не просто число совпадений с ключом с оценкой 1 балл за каждое совпадение, а суммируются удельные веса каждого из совпавших с ключевым значением ответов (см. Внутренняя согласованность). Весовая величина каждого пункта рассчитывалась на основе определения факторной нагрузки (см. Факторный анализ) данного ответа в измеряемом шкалой признаке. Расчет сделан таким образом, что веса пунктов выражаются целыми числами от 1 до 9. Сырые оценки переводятся в стандартные Т-баллы (см. Оценки шкальные). Результаты представляются графически на специальном бланке в виде оценок профильных.
Шкалы опросника разработаны на основе результатов факторного анализа первичного статистического материала, полученного в соответствующих клинических группах испытуемых: 1. (В) Описывает переживание общего физического и психического комфорта. В норме у адаптированных испытуемых оценка по данной шкале имеет тенденцию к повышению. 2. (Н) Шкала «ипохондрии» - отражает степень фиксации на соматическом неблагополучии. При нарушениях адаптации оценка по данной шкале повышается. 3. (М) Шкала «гипоманиакальности» - фиксирует ощущение комфорта с оттенком эйфории, «форсированного благополучия», беспечности. При нарушении адаптации оценка снижается. 4. (Р) Шкала описывает депрессивное состояние. Результат отрицательно коррелирует с данными по шкале М. В норме наблюдается низкая оценка. 5. (N) Шкала «невротизации» - описывает состояние эффективно-вегетативного дисбаланса, возникающего при эмоциональном напряжении, «нервозность». При нарушениях адаптации оценка повышается. 6. (S) Шкала фиксирует нарушения в сфере социальных отношений. У дезадаптированных оценка повышается.
При интерпретации данных НПА основное значение имеет анализ «профиля». Наряду с этим авторы предлагают простые формальные критерии диагностики дезадаптации. Простейшим из них является критерий, основанный на высоте профиля. Дезадаптация имеет место в том случае, если оценки хотя бы двух шкал превышают значения 70 Т или опускаются ниже 30 Т либо одна из шкал превышает 80 Т или опускается ниже 20 Т. По данным авторов, вероятность необнаружения реально существующей дезадаптации составляет лишь 5%. Однако вероятность того, что достаточно адаптированные лица будут причислены к дезадаптированным, составляет 22,5%. Это делает данный критерий малопригодным, в частности при проведении массовых эпидемиологических исследований. Более сложным и точным (10% вероятности того, что адаптированные будут причислены к дезадаптированным) является критерий, учитывающий дифференцированный результат по «шкалам благополучия» (В, М) и «шкалам неблагополучия» (Н, D, N, S). Дезадаптация диагностируется в тех случаях, когда В + М составляют 79 Т или когда сумма Н, D, N и S превышает 255 Т. Сравнительные исследования на материале контрастных групп показали высокую корреляцию комплексного критерия дезадаптации с верифицированным диагнозом (r = 0,85, Р< 0,001).
Надежность ретестовая НПА (при интервале ретеста 1 сутки) по различным шкалам колеблется в интервале r t = 0,74-0,90. Имеются сведения о валидности текущей, которая изучалась путем сопоставления данных контрастных групп (группы психически здоровых адекватно адаптированных, психически здоровых с нарушениями адаптации и больных с неврозоподобными состояниями). Сведения о надежности и валидности опросника НПА дают основание предполагать эффективность методики в индивидуальном и массовом скрининге состояний психической дезадаптации.
НЕСУЩЕСТВУЮЩЕЕ ЖИВОТНОЕ - проективная методика исследования личности; предложена М. 3. Друкаревич.
Испытуемому предлагают придумать и нарисовать несуществующее животное, а также дать ему ранее не существовавшее имя. Из имеющейся литературы видно, что процедура обследования не стандартизована (используются разных размеров листы бумаги для рисования, в одних случаях рисунок выполняется цветными карандашами, в других - одним цветом и т. д.). Общепринятой системы оценки рисунка не существует. Теоретические посылки, положенные в основу создания методики, совпадают с таковыми у прочих проективных методик. Как и многие другие рисуночные тесты, Н. ж. направлен на диагностику личностных особенностей, иногда ее творческих потенций.
Показана удовлетворительная валидность конвергентная методики путем установления связи между результатами, полученными с ее помощью, и данными других личностных методик на материале обследования пациентов психиатрической клиники и лиц, проходящих профотбор в штат МВД (П. В.Яньшин, 1988, 1990). Валидность также подтверждена при дифференциации больных неврозами и здоровых (Т. И. Краско, 1995). Н. ж. - одна из наиболее популярных рисуночных методик и широко используется психологами СНГ при обследовании детей и взрослых, больных и здоровых чаще всего в качестве ориентирующей методики, т. е. такой, данные которой позволяют выдвинуть некоторые гипотезы об особенностях личности.
НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ - вид распределения переменных. Н. р. наблюдается при изменении признака (переменной) под влиянием множества относительно независимых факторов. График уравнения Н. р. представляет собой симметричную унимодальную колоколообразную кривую, осью симметрии которой является вертикаль (ордината), проведенная через точку 0 (рис. 46).
Рис. 46. Процентное распределение случаев под нормальной кривой
Кривая Н. р. была построена для простого аппроксимативного решения задачи вероятности частот событий. Нормальная кривая описывается формулой де Муавра
U - высота кривой над каждым заданным значением x i , - среднее арифметическое x i , - среднеквадратическое отклонение от .
Теоретически существует бесконечное множество нормальных кривых с кон-летными значениями М и σ. При стандартизации тестовых оценок и в некоторых других случаях используется Н. р. со следующими характеристиками: М = 0; σ= 1; площадь под нормальной кривой равна единице. Такое распределение носит название стандартного (единичного) Н. р. Для любого Н. р. в пределах значений х 1 . М + σ лежит около 68%, в пределах М ± 2σ - 95%, М ± 3σ - 99,7% площади под кривой. Частоты случаев, укладывающихся в интервалы, ограниченные значениями от М ± σ до М ± σ, составляют 68,26%; 95,44%; 99,72%; 99,98 % соответственно (рис. 46). Высота кривой (U) над значением М приблизительно равна 0,3989. Асимметрия стандартной, как и любой другой нормальной, кривой равна нулю, эксцесс (Q) - трем (см. Оценка типа распределения). Распределение показателей, получаемых в эмпирических психологических и психодиагностических исследованиях при большом числе наблюдений, как правило, приближается к Н. р.
На практике важную роль имеет вычисление площади слева от любой точки на оси абсцисс, ограниченной участком нормальной кривой и ординатой этой точки. Так как площадь стандартного Н. р. равна единице, то доля этой площади отражает частоту случаев с х i , меньшими, чем данное значение на оси X. Решение уравнения де Муавра для любого значения х неудобно, поэтому для определения площади слева от данного значения в различных Н. р. (по оси z ) имеются специальные таблицы (см. табл. 1 Приложения III).
Важнейшим качеством Н. р. является то, что для семейства нормальных кривых характерны одинаковые доли площадей, лежащих под участками, ограниченными равными значениями σ. При этом любую нормальную кривую можно свести к единичной и таким образом ответить на вопрос о площади между выбранными точками на кривой или высоте кривой над любой из точек оси X. Форма нормальной кривой не изменяется при вычитании среднего значения и делении на σ. Так, если нужно выяснить, какая часть площади лежит слева от значения х = x l
Площадь слева от z для этого значения составит 0,1020 (10,2%). Следовательно, число лиц, имеющих оценку ниже 8,3, составляет 89,8%, а число лиц с оценкой в интервале 8,3-10,4 составляет 97,5-89,8 = 7,7%.
Число случаев в пределах стандартного отклонения можно легко определить без расчетов. Так, в интервале оценок, соответствующих -2 и - , находится 13,6% обследованных (см. рис. 46).
Дисперсионный анализ – статистический метод, предназначенный для оценки влияния различных факторов на результат эксперимента, а также для последующего планирования аналогичных экспериментов.
Первоначально (1918г.) дисперсионный анализ был разработан английским математиком – статистиком Р.А. Фишером для обработки результатов агрономических опытов по выявлению условий получения максимального урожая различных сортов сельскохозяйственных культур.
При постановке опыта необходимо соблюдение условий:
Каждый вариант опыта необходимо проводить на нескольких единицах наблюдения (групп животных, участков поля и т.п.)
Распределение единиц наблюдения между вариантами опыта должно быть случайным, а не преднамеренным.
В дисперсионном анализе используется F -критерий (критерий Р.А. Фишера), представляющий отношение двух дисперсий:
где d факт, d ост – факторная (межгрупповая) и остаточная (внутригрупповая) дисперсии на одну степень свободы соответственно.
Факторная и остаточная дисперсии являются оценками дисперсии совокупности, рассчитываются по выборочным данным с учетом числа степеней свободы вариации.
Факторная (межгрупповая) дисперсия объясняет вариацию результативного признака под влиянием изучаемого фактора.
Остаточная (внутригрупповая) дисперсия объясняет вариацию результативного признака, обусловленную влиянием прочих факторов (за исключением влияния изучаемого фактора).
В сумме факторная и остаточная дисперсии дают общую дисперсию, выражающую влияние всех факторных признаков на результативный.
Порядок проведения дисперсионного анализа:
1. Опытные данные заносятся в расчетную таблицу и определяются суммы и средние значения в каждой группе изучаемой совокупности, а также общая сумма и среднее значение по всей совокупности (табл.1).
Таблица 1
Значение результативного признака для i-й единицы в j-й группе, x ij |
Число наблюдений, f j |
Средние (групповые и общая), х j |
|
x 11 , x 12 , …, х 1 n х 21 , х 22 , …, х 2 n х m 1 , х m 2 , …, х mn | |||
Общее количество наблюдений n рассчитывается как сумма числа наблюдений f j в каждой группе:
Если во всех группах число элементов одинаковое, то общая средняя находится из групповых средних как простая средняя арифметическая:
Если же число элементов в группах разное, то общая средняя рассчитывается по формуле средней арифметической взвешенной:
2. Определяется общая дисперсия D общ как сумма квадратов отклонений индивидуальных значений результативного признака от общей средней :
3. Рассчитывается факторная (межгрупповая) дисперсия D факт как сумма квадратов отклонений групповых средних от общей средней , умноженных на число наблюдений:
4. Определяется величина остаточной (внутригрупповой) дисперсии D ост как разность между общей D общ и факторной D факт дисперсиями:
5.
Рассчитываются число степеней свободы
факторной
дисперсии
как разница между числом группm
и единицей:
6.
Определяется число степеней свободы
для остаточной дисперсии
как
разница между количеством индивидуальных
значений признакаn
и числом групп m
:
7.
Рассчитывается величина факторной
дисперсии на одну степень свободы d
факт
как отношение факторной дисперсии D
факт
к числу степеней свободы факторной
дисперсии
:
8.
Определяется величина остаточной
дисперсии на одну степень свободыd
ост
как отношение остаточной дисперсии
D
ост
к числу
степеней свободы остаточной дисперсии
:
9. Определяется расчетное значение F-критерия F -расч как отношение факторной дисперсии на одну степень свободыd факт к остаточной дисперсии на одну степень свободы d ост :
10. По таблице F-критерия Фишера с учетом принятого в исследовании уровня значимости, а также с учетом степеней свободы для факторной и остаточной дисперсий находят теоретическое значение F табл .
5%-ному уровню значимости соответствует 95%-ный уровень вероятности, 1%-ному – 99%-ный уровень вероятности. В большинстве случаев используют 5%-ный уровень значимости.
Теоретическое значение F табл при заданном уровне значимости определяют по таблицам на пересечении строки и столбца, соответствующим двум степеням свободы дисперсий:
по строке – остаточной;
по столбцу – факторной.
11. Результаты расчетов оформляются в таблицу (табл.2).
Рассмотренные выше приемы проверки статистических гипотез о существенности различий между двумя средними на практике имеют ограниченное применение. Это связано с тем, что для выявления действия всех возможных условий и факторов на результативный признак полевые и лабораторные опыты, как правило, проводят с использованием не двух, а большего числа выборок (1220 и более).
Часто исследователи сравнивают средние нескольких выборок, объединенных в единый комплекс. Например, изучая влияние различных видов и доз удобрений на урожайность сельскохозяйственных культур опыты повторяют в разных вариантах. В этих случаях попарные сравнения становятся громоздкими, а статистический анализ всего комплекса требует применения особого метода. Такой метод, разработанный в математической статистике, получил название дисперсионного анализа. Впервые его применил английский статистик Р. Фишер при обработке результатов агрономических опытов (1938 г.).
Дисперсионный анализ - это метод статистической оценки надежности проявления зависимости результативного признака от одного или нескольких факторов. С помощью метода дисперсионного анализа проводится проверка статистических гипотез относительно средних в нескольких генеральных совокупностях, имеющих нормальное распределение.
Дисперсионный анализ является одним из основных методов статистической оценки результатов эксперимента. Все более широкое применение получает он и в анализе экономической информации. Дисперсионный анализ дает возможность установить, насколько выборочные показатели связи результативного и факторных признаков достаточны для распространения полученных по выборке данных на генеральную совокупность. Достоинством этого метода является то, что он дает достаточно надежные выводы по выборкам небольшого численности.
Исследуя вариацию результативного признака под влиянием одного или нескольких факторов с помощью дисперсионного анализа можно получить помимо общих оценок существенности зависимостей, также и оценку различий в величине средних, которые формируются при различных уровнях факторов, и существенности взаимодействия факторов. Дисперсионный анализ применяется для изучения зависимостей как количественных, так и качественных признаков, а также при их сочетании.
Суть этого метода заключается в статистическом изучении вероятности влияния одного или нескольких факторов, а также их взаимодействия на результативный признак. Согласно этого с помощью дисперсионного анализа решаются три основных задачи: 1) общая оценка существенности различий между групповыми средними; 2) оценка вероятности взаимодействия факторов; 3) оценка существенности различий между парами средних. Чаще всего такие задачи приходится решать исследователям при проведении полевых и зоотехнических опытов, когда изучается влияние нескольких факторов на результативный признак.
Принципиальная схема дисперсионного анализа включает установление основных источников варьирование результативного признака и определение объемов вариации (сумм квадратов отклонений) по источникам ее образования; определение числа степеней свободы, соответствующих компонентам общей вариации; вычисления дисперсий как отношение соответствующих объемов вариации к их числу степеней свободы; анализ соотношения между дисперсиями; оценка достоверности разницы между средними и формулирование выводов.
Указанная схема сохраняется как при простых моделях дисперсионного анализа, когда данные группируются по одному признаку, так и при сложных моделях, когда данные группируются по двумя и большим числом признаков. Однако с увеличением числа групповых признаков усложняется процесс разложение общей вариации по источникам ее образования.
Согласно принципиальной схемы дисперсионный анализ можно представить в виде пяти последовательно выполняемых этапов:
1) определение и разложения вариации;
2) определение числа степеней свободы вариации;
3) вычисление дисперсий и их соотношений;
4) анализ дисперсий и их соотношений;
5) оценка достоверности разницы между средними и формулировка выводов по проверке нулевой гипотезы.
Наиболее трудоемкой частью дисперсионного анализа является первый этап - определение и разложения вариации по источникам ее образования. Порядок разложения общего объема вариации подробно рассматривался в главе 5.
В основе решения задач дисперсионного анализа лежит закон разложения (добавление) вариации, согласно которого общая вариация (колебания) результативного признака делится на две: вариацию, обусловленную действием исследуемого фактора (факторов), и вариацию, вызванную действием случайных причин, то есть
Предположим, что исследуемая совокупность поделена по факторным признаком на несколько групп, каждая из которых характеризуется своей средней величине результативного признака. При этом вариацию этих величин можно объяснить двумя видами причин: такими, которые действуют на результативный признак систематически и поддаются регулировке в ходе проводимого эксперимента и регулировке не поддаются. Очевидно, что межгрупповая (факторная или систематическая) вариация зависит преимущественно от действия исследуемого фактора, а внутригрупповая (остаточная или случайная) - от действия случайных факторов.
Чтобы оценить достоверность различий между групповыми средними, необходимо определить межгрупповую и внутригрупповое вариации. Если межгрупповая (факторная) вариация значительно превышает внутригрупповое (остаточную) вариацию, то фактор влиял на результативный признак, существенно изменяя значения групповых средних величин. Но возникает вопрос, каково соотношение между міжгруповою и внутрішньогруповою вариациями можно рассматривать как достаточное для вывода о достоверности (существенности) различий между групповыми средними.
Для оценки существенности различий между средними и формулировка выводов по проверке нулевой гипотезы (Н0:х1 = х2 =... = хп) в дисперсионном анализе используется своеобразный норматив - Г-критерий, закон распределения которого установил Р.фишер. Этот критерий представляет собой отношение двух дисперсий: факторного, порождаемой действием изучаемого фактора, и остаточной, обусловленной действием случайных причин:
Дисперсионное отношение Г= £>и : £*2 американским статистиком Снедекором предложено обозначать буквой Г в честь изобретателя дисперсионного анализа Р.Фішера.
Дисперсии °2 іо2 являются оценками дисперсии генеральной совокупности. Если выборки с дисперсиями °2 °2 сделаны из одной и той же генеральной совокупности, где вариация величин имела случайный характер, то расхождение в величинах °2 °2 также случайна.
Если в эксперименте проверяют влияние нескольких факторов (А, В, С и т.д.) на результативный признак одновременно, то дисперсия, обусловленная действием каждого из них, должна быть сравнима с °е.гР , то есть
Если значение факторной дисперсии значительно больше остаточной, то фактор существенно влиял на результативный признак и наоборот.
В многофакторных экспериментах кроме вариации, обусловленной действием каждого фактора, практически всегда есть вариация, обусловленная взаимодействием факторов ($ав: ^лс ^вс $лііс). Суть взаимодействия заключается в том, что эффект одного фактора существенно меняется на разных уровнях второго (например, эффективность качества Почвы при разных дозах удобрений).
Взаимодействие факторов также должна быть оценена путем сравнения соответствующих дисперсий 3 ^в.гр:
При исчислении фактического значения Б-критерия в числителе берется большая из дисперсий, поэтому Б > 1. Очевидно, что чем больше критерий Бы, тем значительнее различия между дисперсиями. Если Б = 1, то вопрос об оценке существенности различий дисперсий снимается.
Для определения пределов случайных колебаний отношение дисперсий Г. Фишер разработал специальные таблицы Б-распределения (прил. 4 и 5). Критерий Бы функционально связанный с вероятностью и зависит от числа степеней свободы вариации к1 и к2 двух сравниваемых дисперсий. Обычно используются две таблицы, позволяющие делать выводы о предельно высокое значение критерия для уровней значимости 0,05 и 0,01. Уровень значимости 0,05 (или 5%) означает, что только в 5 случаях из 100 критерий Б может принимать значение, равное указанному в таблице или выше его. Снижение уровня значимости с 0,05 до 0,01 приводит к увеличению значения критерия Бы между двумя дисперсиями в силу действия только случайных причин.
Значение критерия также зависит непосредственно от числа степеней свободы двух сравниваемых дисперсий. Если число степеней свободы стремится к бесконечности (к-ме), то отношение Бы для двух дисперсий стремится к единице.
Табличное значение критерия Б показывает возможную случайную величину отношения двух дисперсий при заданном уровне значимости и соответствующем числе степеней свободы для каждой из сравниваемых дисперсий. В указанных таблицах приводится величина Б для выборок, сделанных из одной и той же генеральной совокупности, где причины изменения величин только случайные.
Значение Г находят по таблицам (прил. 4 и 5) на пересечении соответствующего столбца (число степеней свободы для большей дисперсии - к1) и строки (число степеней свободы для меньшей дисперсии - к2). Так, если большей дисперсии (числитель Г) к1 = 4, а меньшей (знаменатель Г) к2 = 9, то Га при уровне значимости а = 0,05 составит 3,63 (прил. 4). Итак, в результате действия случайных причин, поскольку малочисленные выборки, дисперсия одной выборки может при 5%-ном уровне значимости превышать дисперсию для второй выборки в 3,63 раза. При снижении уровня значимости с 0,05 до 0,01 табличное значение критерия Г, как отмечалось выше, будет увеличиваться. Так, при тех же степенях свободы к1 = 4 и к2 = 9 и а = 0,01 табличное значение критерия Г составит 6,99 (прил. 5).
Рассмотрим порядок определения числа степеней свободы в дисперсионном анализе. Число степеней свободы, что соответствует общей сумме квадратов отклонений, раскладывается на соответствующие компоненты аналогично разложению сумм квадратов отклонений (^общ = №^гр + ]¥вхр) , то есть общее число степеней свободы (к") раскладывается на число степеней свободы для межгрупповой (к1) и внутригрупповой (к2) вариаций.
Так, если выборочная совокупность, состоящая из N наблюдений, деленная на т групп (число вариантов опыта) и п подгрупп (количество повторностей), то число степеней свободы к соответственно составит:
а) для общей суммы квадратов отклонений (й7заг)
б) для межгрупповой суммы квадратов отклонений ^м.гР)
в) для внутригрупповой суммы квадратов отклонений в в.гР)
Согласно правилу сложения вариации:
Например, если в опыте было сформировано четыре варианта опыта (т = 4) в пяти повторностях каждый (п = 5), и общее количество наблюдений N = = т o п = 4 * 5 = 20, то число степеней свободы соответственно равно:
Зная суммы квадратов отклонений число степеней свободы, можно определить несмещенные (скорректированные) оценки для трех дисперсий:
Нулевую гипотезу Н0 по критерию Б проверяют так же, как и по и-критерию Стьюдента. Чтобы принять решение по проверки Н0, необходимо рассчитать фактическое значение критерия и сравнить его с табличным значением Ба для принятого уровня значимости а и числа степеней свободы к1 и к2 для двух дисперсий.
Если Бфакг > Ба, то в соответствии с принятым уровнем значимости можно сделать вывод, что различия выборочных дисперсий определяются не только случайными факторами; они существенные. Нулевую гипотезу в этом случае отклоняют и есть основание утверждать, что фактор существенно влияет на результативный признак. Если же < Ба, то нулевую гипотезу принимают и есть основание утверждать, что различия между сравниваемыми дисперсиями находятся в границах возможных случайных колебаний: действие фактора на результативный признак не является существенным.
Применение той или иной модели дисперсионного анализа зависит как от количества изучаемых факторов, так и от способа формирования выборок.
в Зависимости от количества факторов, определяющих вариацию результативного признака, выборки могут быть сформированы по одним, двумя и большим числом факторов. Согласно этому дисперсионный анализ делится на однофакторный и многофакторный. Иначе его еще называют однофакторним и многофакторным дисперсионным комплексом.
Схема разложение общей вариации зависит от формирования групп. Оно может быть случайным (наблюдение одной группы не связаны с наблюдениями второй группы) и неслучайным (наблюдение двух выборок связаны между собой общностью условий эксперимента). Соответственно получают независимые и зависимые выборки. Независимые выборки могут быть сформированы как с ровной, так и неровной численностью. Формирование зависимых выборок предполагает их равную численность.
Если группы сформированы в невипадковому порядке, то общий объем вариации результативного признака включает в себя наряду с факторным (міжгруповою) и остаточной вариацией вариацию повторностей, то есть
На практике в большинстве случаев приходится рассматривать зависимые выборки, когда условия для групп и подгрупп выравниваются. Так, в полевом опыте весь участок разбивают на блоки, с максимально вирівняннями условиями. При этом каждый вариант опыта получает равные возможности быть представленным во всех блоках, чем достигается выравнивание условий для всех проверяемых вариантов, опыта. Такой метод построения опыта получил название метода рендомізованих блоков. Аналогично проводятся и опыты с животными.
При обработке методом дисперсионного анализа социально-экономических данных необходимо иметь в виду, что в силу багаточисельності факторов и их взаимосвязи трудно даже при самом тщательном выравнивании условий установить степень объективного влияния каждого отдельного фактора на результативный признак. Поэтому уровень остаточной вариации определяется не только случайными причинами, но и существенными факторами, которые не были учтены при построении модели дисперсионного анализа. В результате этого остаточная, дисперсия как база сравнения иногда становится неадекватным своему назначению, она явно завышается по величине и не может выступать как критерий существенности влияния факторов. В связи с этим при построении моделей дисперсионного анализа становится актуальной проблема отбора важнейших факторов и выравнивания условий для проявления действия каждого из них. Кроме того. применение дисперсионного анализа предполагает нормальный или близкий к нормальному распределение исследуемых статистических совокупностей. Если это условие не выдерживается, то оценки, полученные в дисперсионном анализе, окажутся преувеличенными.
Дисперсионный анализ – анализ изменчивости результативного признака под влиянием каких-либо контролируемых переменных факторов. (В зарубежной литературе именуется ANOVA – «Analisis of Variance»).
Результативный признак называют также зависимым признаком, а влияющие факторы – независимыми признаками.
Ограничение метода: независимые признаки могут измеряться по номинальной, порядковой или метрической шкале, зависимые – только по метрической. Для проведения дисперсионного анализа выделяют несколько градаций факторных признаков, а все элементы выборки группируют в соответствии с этими градациями.
Формулировка гипотез в дисперсионном анализе.
Нулевая гипотеза: «Средние величины результативного признака во всех условиях действия фактора (или градациях фактора) одинаковы».
Альтернативная гипотеза: «Средние величины результативного признака в разных условиях действия фактора различны».
Дисперсионный анализ можно подразделить на несколько категорий в зависимости:
от количества рассматриваемых независимых факторов;
от количества результативных переменных, подверженных действию факторов;
от характера, природы получения и наличия взаимосвязи сравниваемых выборок значений.
При наличии одного фактора, влияние которого исследуется, дисперсионный анализ именуется однофакторным, и распадается на две разновидности:
- Анализ несвязанных (то есть – различных) выборок . Например, одна группа респондентов решает задачу в условиях тишины, вторая – в шумной комнате. (В этом случае, к слову, нулевая гипотеза звучала бы так: «среднее время решения задач такого-то типа будет одинаково в тишине и в шумном помещении», то есть не зависит от фактора шума.)
- Анализ связанных выборок , то есть, двух замеров, проведенных на одной и той же группе респондентов в разных условиях. Тот же пример: в первый раз задача решалась в тишине, второй – сходная задача – в условиях шумовых помех. (На практике к подобным опытам следует подходить с осторожностью, поскольку в действие может вступить неучтенный фактор «научаемость», влияние которого исследователь рискует приписать изменению условий, а именно, - шуму.)
В случае если исследуется одновременное воздействие двух или более факторов, мы имеем дело с многофакторным дисперсионным анализом, который также можно подразделить по типу выборки.
Если же воздействию факторов подвержено несколько переменных, - речь идет о многомерном анализе . Проведение многомерного дисперсионного анализа предпочтительнее одномерного только в том случае, когда зависимые переменные не являются независимыми друг от друга и коррелируют между собой.
Обобщенно задача дисперсионного анализа состоит в том, чтобы из общей вариативности признака выделить три частные вариативности:
вариативность, обусловленную действием каждой из исследуемых независимых переменных (факторов).
вариативность, обусловленную взаимодействием исследуемых независимых переменных.
вариативность случайную, обусловленную всеми неучтенными обстоятельствами.
Для оценки вариативности, обусловленной действием исследуемых переменных и их взаимодействием вычисляется отношение соответствующего показателя вариативности и случайной вариативности. Показателем этого соотношения является F – критерий Фишера.
Чем в большей степени вариативность признака обусловлена действием влияющих факторов или их взаимодействием, тем выше эмпирические значения критерия .
В формулу расчета критерия входят оценки дисперсий, и, следовательно, этот метод относится к разряду параметрических.
Непараметрическим аналогом однофакторного дисперсионного анализа для независимых выборок является критерий Краскела-Уоллеса. Он подобен критерию Манна-Уитни для двух независимых выборок, за тем исключением, что он суммирует ранги для каждой из групп.
Кроме этого, в дисперсионном анализе может быть применен медианный критерий. При его использовании для каждой группы определяются число наблюдений, которые превышают медиану, вычисленную по всем группам, и число наблюдений, которые меньше медианы, после чего строится двумерная таблица сопряженности.
Критерий Фридмана является непараметрическим обобщением парного t-критерия для случая выборок с повторными измерениями, когда количество сравниваемых переменных больше двух.
В отличие от корреляционного анализа, в дисперсионном анализе исследователь исходит из предположения, что одни переменные выступают как влияющие (именуемые факторами или независимыми переменными), а другие (результативные признаки или зависимые переменные) – подвержены влиянию этих факторов. Хотя такое допущение и лежит в основе математических процедур расчета, оно, однако, требует осторожности при выводах о причине и следствии.
Например, если мы выдвигаем гипотезу о зависимости успешности работы должностного лица от фактора Н (социальной смелости по Кэттелу), то не исключено обратное: социальная смелость респондента как раз и может возникнуть (усилиться) вследствие успешности его работы – это с одной стороны. С другой: следует отдать себе отчет в том, как именно измерялась «успешность»? Если за ее основу взяты были не объективные характеристики (модные нынче «объемы продаж» и проч.), а экспертные оценки сослуживцев, то имеется вероятность того, что «успешность» может быть подменена поведенческими или личностными характеристиками (волевыми, коммуникативными, внешними проявлениями агрессивности etc.).
Дисперсионный анализ – метод статистического исследования, с помощью которого изучается влияние отдельных факторов на результативный показатель. Он позволяет среди множества факторов выделить один и оценить его влияние на вариацию результативного признака и влияние всех других факторов в совокупности на вариацию результативного признака.
Целью дисперсионного анализа является проверка значимости различия между средними с помощью сравнения дисперсий. Дисперсию измеряемого признака разлагают на независимые слагаемые, каждое из которых характеризует влияние того или иного фактора или их взаимодействия. Последующее сравнение таких слагаемых позволяет оценить значимость каждого изучаемого фактора, а также их комбинации.
Этапы проведения дисперсионного анализа:
1. Определяется множество факторов, потенциально влияющих на Y.
2. Из всех факторов выделяется один основной.
3. Проводится группировка всей совокупности данных по выбранному признаку (число, интервал).
4. Рассчитывается общая дисперсия Y(по всей совокупности): .
5. Рассчитывается
межгрупповая дисперсия – характеризует
вариацию Yпод влиянием
фактора, положенного в основу группировки:
,
где: n j – объем группы; – среднее значение признака внутри группы.
6. Вариация Yпод влиянием прочих факторов оценивается
с помощью средней из внутригрупповых
дисперсий:
.
7. Проверка: сумма
межгрупповой дисперсии и средней из
внутригрупповых дисперсий должна
равняться общей дисперсии (теорема
сложения дисперсии):
.
8. Правильность выбора фактора оценивается с помощью относительных показателей вариации:
– коэффициент
детерминации:
– характеризует долю вариацииY,
обусловленную влиянием фактора (например,
70% – т.е. 70% вариации Y
объясняется влиянием фактора);
– эмпирическое
корреляционное отношение:
–
характеризует тесноту связи (по шкале
Чеддока).
Как правило, дисперсионный анализ проводится итеративным способом, когда происходит последовательный анализ влияния факторов на Yдо тех пор, пока не будут определены наиболее важные факторы.
30. Использование индексного метода в анализе экономической информации
Индекс – относительный показатель характеризующий изменение величины какого либо явления во времени, в пространстве или по сравнению с любым этапом.
Индексный метод – метод статистического исследования, с помощью которого характеризуется развитие явления во времени, в пространстве, в сравнении с эталоном, а также изучается роль факторов в изменении сложных явлений.
Статистический индекс – это относительная величина сравнения сложных совокупностей и отдельных их единиц путем сопоставления абсолютных величин.
Основой индексного метода при определении изменений в производстве и обращении товаров является переход от натурально-вещественной формы выражения товарных масс к стоимостным (денежным) измерителям. Именно посредством денежного выражения стоимости отдельных товаров устраняется их несравнимость как потребительских стоимостей и достигается единство.
При вычислении индексов выделяют:
– сравниваемый уровень (уровень текущего периода, данного предприятия);
– основание сравнения (уровень базисного периода, плановый уровень, уровень по к.-л. объекту).
Виды индексов:
1. По степени охвата: индивидуальные, общие.
2. По базе сравнения: динамические (изменение во времени), территориальные.
3. Динамические: базисные (i 1 = q 1 / q 0 ;i 2 = q 2 / q 0 ) и цепные (i 1 = q 1 / q 0 ;i 2 = q 2 / q 1 ).
4. По характеру объема исследования: количественные, качественные.
5. По охвату явления: постоянного, переменного состава.
6. По периоду исчисления: годовые, квартальные..
Индивидуальные – характеризуют изменение отдельных единиц статистической совокупности или свойства единицы совокупности. Числитель – то, что изучается. Знаменатель – база, с чем сравнивается.
,
,
,
Общие – характеризуют сводные результаты изменения всех единиц в совокупности:
Для характеристики изменения: I Q = Q 1 / Q 0 .
Агрегатные – в числителе и знаменателе содержатся соединенные наборы элементов изучаемых совокупностей. Сопоставимость разнородных единиц достигается введением в индекс специальных сомножителей – соизмерителей. При этом значение соизмерителя и в числителе, и в знаменателе фиксируется на одном уровне (базовом или текущем):
(Пааше),
(Ласпейрес),I
pq
=
I
р
I
q
.
Тогда:
,
.
(Фишер).
Средние (используют реальные экономические категории в качестве соизмерителей):
–
(средняя
гармоническая взвешанная форма);
–
(средняя
арифметическая взвешанная).
Индекс переменного , постоянного состава и структурных сдвигов – средняя рентабельность:
,
,
Абсолютное изменение показателей под влиянием факторов:
Δ pq = ∑ p 1 q 1 – ∑ p 0 q 0 .
Δ p = ∑ p 1 q 1 – ∑ p 0 q 1 .
Δ q = ∑ p 0 q 1 – ∑ p 0 q 0 .