Біографії Характеристики Аналіз

Як зробити однофакторний дисперсійний аналіз у статистиці. Однорідність дисперсії та підступів

Курсова роботапо математиці

Вступ

Поняття дисперсійного аналізу

Однофакторний дисперсійний аналіз(Практична реалізація в IBM SPSS Statistics 20)

Однофакторний дисперсійний аналіз (Практична реалізація в Microsoft Office 2013)

Висновок

Список використаних джерел

Вступ

Актуальність теми. Розвиток математичної статистикипочинається з робіт знаменитого німецького математика Карла Фрідріха Гауса в 1795 році і досі розвивається. У статистичному аналізі є параметричний метод «Однофакторний дисперсійний аналіз». В даний час його використовують в економіці при проведенні дослідження ринку для сумісності результатів (наприклад, проводячи опитування з приводу споживання будь-якого товару в різних регіонах країни, необхідно зробити висновки, наскільки дані опитування відрізняються або не відрізняються один від одного, в психології при проведенні різноманітних досліджень), при складанні наукових тестів порівняння, або дослідженні будь-яких соціальних груп, Та й для вирішення завдань зі статистики.

Мета роботи. Познайомиться з таким статистичним методом, як однофакторний дисперсійний аналіз, а також з реалізацією його на ПК в різних програмах і порівняння цих програм.

Вивчити теорію однофакторного дисперсійного аналізу.

Вивчити програми на вирішення завдань на однофакторный аналіз.

Провести порівняльний аналізданих програм.

Досягнення роботи: Практична частина роботи повністю зроблена автором: підбір програм, підбір завдань, їх вирішення на ПК, після проведено порівняльний аналіз. У теоретичній частині проведено класифікацію груп дисперсійного аналізу. Ця роботабула апробована як доповідь на студентській науковій сесії «Вибрані питання вищої математики та методики викладання математики»

Структура та обсяг роботи. Робота складається з вступу, висновків, змісту та списку літератури, що включає 4 найменування. Повний обсяг роботи – 25 сторінок друкованого тексту. Робота містить 1 приклад, вирішений 2 програмами.

Поняття дисперсійного аналізу

Часто виникає необхідність дослідити вплив однієї чи кількох незалежних змінних (чинників) однією чи кілька залежних змінних (результативних ознак), подібні завдання можна вирішувати методами дисперсійного аналізу, автором якого є Р. Фішер.

Дисперсійний аналіз ANOVA – сукупність статистичних методів обробки даних, що дозволяють аналізувати мінливість однієї чи кількох результативних ознак під впливом контрольованих факторів (незалежних змінних). Тут під чинником розуміється деяка величина, визначальна властивості досліджуваного об'єкта чи системи, тобто. причина, що впливає кінцевий результат. Під час проведення дисперсійного аналізу важливо правильно вибрати джерело та об'єкт впливу, тобто. визначити залежні та незалежні змінні.

Залежно від ознак класифікації розрізняють кілька класифікаційних груп дисперсійного аналізу (табл. 1).

За кількістю факторів, що враховуються: Однофакторний аналіз - досліджується вплив одного фактора; Багатофакторний аналіз - вивчається одночасний вплив двох або більше факторів. різних умовах. (Перевірюється нульова гіпотеза H0: середнє значення залежної змінної однаково в різних умовах виміру, тобто не залежить від досліджуваного фактора.); Аналіз пов'язаних (одних і тих же) вибірок - проводиться для двох і більше вимірів, проведених на одній і тій ж групі досліджуваних об'єктів у різних умовах. Тут можливий вплив неврахованого фактора, який можна помилково приписати зміні умов. За кількістю залежних змінних, схильних до впливу факторів. - багатовимірний коваріаційний аналіз) - впливу факторів схильно кілька залежних змінних. За метою дослідження. з генеральної сукупностірівнів фактора (перевіряється гіпотеза Н0 про те, що дисперсія середніх значень відгуку, обчислена для різних рівнів фактора, не відрізняється від нуля);

У однофакторному дисперсійному аналізі проводиться перевірка статистичної значущості відмінностей вибіркових середніх двох чи більше сукупностей при цьому попередньо формуються гіпотези.

Нульова гіпотеза H0: середні величини результативної ознаки у всіх умовах дії фактора (або градаціях фактора) однакові

Альтернативна гіпотеза H1: середні величини результативної ознаки за всіх умов впливу чинника різні.

Методи дисперсійного аналізу можуть застосовуватися для нормально розподілених сукупностей (багатомірні аналоги параметричних тестів) та для сукупностей, які не мають певних розподілів (багатомірні аналоги непараметричних тестів). У першому випадку необхідно заздалегідь встановити, що розподіл результативної ознаки є нормальним. Для перевірки нормальності розподілу ознак можна використовувати показники асиметрії A = , , та ексцеса E = , , де , . - значення результативної ознаки та її середнє значення; - середньоквадратичне відхилення результативної ознаки; .

Число спостережень;

Помилки репрезентативності для показників A та E

Якщо показники асиметрії та ексцесу вбираються у більш ніж 3 разу свої помилки репрезентативності, тобто. А<3тА и Е <3тЕ, то распределение можно считать нормальным. Для нормальных распределений показатели А и Е равны нулю.

Дані, що стосуються однієї умови дії фактора (однієї градації), називають дисперсійним комплексом. При проведенні дисперсійного аналізу має дотримуватися рівність дисперсій між комплексами. При цьому вибір елементів має здійснюватися випадковим чином.

У другому випадку, коли вибіркові сукупності мають довільні розподіли, використовуються непараметричні (рангові) аналоги дисперсійного однофакторного аналізу (критерії Крускала - Уолліса, Фрідмана).

Розглянемо графічну ілюстрацію залежності ставки прибутковості акцій від стану справ економіки країни (рис. 1, а). Тут досліджуваним фактором є рівень стану економіки (точніше, три рівні її стану), а результативною ознакою – ставка доходності. Наведене розподіл показує, що це чинник істотно впливає дохідність, тобто. з поліпшенням справ економіки зростає і дохідність акцій, що суперечить здоровому глузду.

Зауважимо, обраний чинник має градації, тобто. його величина змінювалася під час переходу від однієї градації до іншої (від одного стану економіки до іншого).

Рис. 1. Співвідношення вплив фактора та внутрішньогрупового розкиду: а-суттєвий вплив фактора; б - незначний вплив фактора

Група градацій фактора є лише окремим випадком, крім того, фактор може мати градації, представлені навіть у номінальній шкалі. Тому частіше говорять не про градації фактора, а про різні умови його дії.

Розглянемо тепер ідею дисперсійного аналізу, в основі якої лежить правило складання дисперсій: загальна дисперсія дорівнює сумі міжгрупової та середньої із внутрішньогрупових дисперсій:

Загальна дисперсія, що виникає під впливом усіх факторів

міжгрупова дисперсія, обумовлена ​​впливом всіх інших факторів;

Середня внутрішньогрупова дисперсія, спричинена впливом групувальної ознаки.

Вплив групованої ознаки добре видно на рис.1 а, так як вплив фактора істотно в порівнянні з внутрішньогруповим розкидом, отже, міжгрупова дисперсія буде більшою за внутрішньогрупову ( > ), але в рис. 1 б спостерігається зворотна картина: тут переважає внутрішньогруповий розкид і практично відсутня вплив фактора.

На цьому принципі побудований і дисперсійний аналіз, тільки в ньому використовуються не дисперсії, а середні квадратів відхилень ( , , ), що є незміщеними оцінками відповідних дисперсій. Їх одержують розподілом сум квадратів відхилень на відповідну кількість ступенів свободи

сукупності загалом;

Внутрішньогрупові середні;

Міжгрупові середні;

Загальна середня за всіма вимірами (за всіма групами);

Групова середня для j-ї градації фактора.

Математичні очікування відповідно для внутрішньогрупової та міжгрупової суми квадратів відхилень обчислюються за формулами: (Модь з фіксованим фактором),

.

Е ( ) = Е ( ) = , то нульова гіпотеза H0 про відсутність відмінностей між середніми підтверджується, отже, досліджуваний фактор не істотно впливає (див. рис. 1, б). Якщо фактичне значення F-критерію Фішера F = Е ( ) /Е ( ) виявиться більше критичного то нульова гіпотеза H0 за рівня значимості , відкидається і приймається альтернативна гіпотеза H1 - про суттєвий вплив фактора рис. 1, а. .

Однофакторний дисперсійний аналіз

Дисперсійний аналіз, який розглядає лише одну змінну, називається однофакторним дисперсійним аналізом (One-Way ANOVA).

Є група з п об'єктів спостереження з виміряними значеннями деякої досліджуваної змінної . На змінну впливає певний якісний фактор з кількома рівнями (градаціями) дії. Виміряні значення змінної при різних рівнях фактора наведено у таблиці 2 (вони також можуть бути представлені в матричному вигляді).

Таблиця 2.

Таблична форма завдання вихідних даних для однофакторного аналізу

Номер об'єкта спостереження ()Значення змінної при рівні (градації) фактора (найнижчий) (низький)… (найвищий)1 2 … n .Тут кожен рівень може містити різну кількість відгуків, виміряних за одного рівня фактора, тоді кожному стовпцю буде відповідати своє значення . Потрібно оцінити значущість впливу даного фактора на змінну, що досліджується. Для розв'язання цього завдання можна використовувати однофакторна модель дисперсійного аналізу. Однофакторна дисперсійна модель.

Значення досліджуваної зміною для об'єкта спостереження при -му рівні фактора;

Групова середня для - го рівня фактора;

Ефект, обумовлений впливом рівня фактора;

Випадкова компонента або обурення, викликане впливом неконтрольованих факторів. Отже виділимо основні обмеження використання дисперсійного аналізу:

Рівність нулю математичного очікування випадкової компоненти: = 0.

Випадковий компонент , а отже, і мають нормальний закон розподілу.

Число градацій факторів має бути не менше трьох.

Ця модель в залежності від рівнів фактора за допомогою F-критерію Фішера дозволяє перевірити одну з нульових гіпотез.

При виконанні дисперсійного аналізу для пов'язаних вибірок можлива перевірка ще однієї нульової гіпотези H0(і) - індивідуальні відмінності між об'єктами спостереження виражені не більше ніж відмінності, зумовлені випадковими причинами.

Однофакторний дисперсійний аналіз

(Практична реалізація в IBM SPSS Statistics 20)

Дослідника цікавить питання, як змінюється певна ознака у різних умовах дії змінної (чинника). Вивчається дія лише однієї змінної (чинника) на досліджувану ознаку. Ми вже розглянули приклад з економіки тепер наведемо приклад із психології наприклад, як змінюється час вирішення завдання за різних умов мотивації випробуваних (низькою, середньою, високою мотивацією) або за різних способів пред'явлення задачі (усно, письмово або у вигляді тексту з графіками та ілюстраціями) , у різних умовах роботи із завданням (наодинці, у кімнаті з викладачем, у класі). У першому випадку фактором є мотивація, у другому – ступінь наочності, у третьому – фактор публічності.

У цьому варіанті способу впливу кожної з градацій піддаються різні вибірки піддослідних. Градацій фактора має бути не менше трьох.

Приклад 1. Три різні групи із шести піддослідних отримали списки з десяти слів. Першій групі слова пред'являлися з низькою швидкістю -1 слово в 5 секунд, другий групі із середньою швидкістю - 1 слово в 2 секунди, і третій групі з великою швидкістю - 1 слово в секунду. Було передбачено, що відтворення залежатимуть від швидкості пред'явлення слів (табл. 3) .

Таблиця 3

Кількість відтворених слів

ВипробуваногоГрупа 1 низька швидкістьГрупа 2 середня швидкістьГрупа 3 висока швидкість187427853953454656626874суми433724середнє7,176,174,00

Сформулюємо гіпотези: відмінності в обсязі відтворення слів між групами є не більш вираженими, ніж випадкові відмінності всередині кожної групи.

Рішення проведемо в середовищі SPSS за таким алгоритмом

Запустимо програму SPSS

Введемо числові значення у вікні дані

Рис. 1. Введення значень у SPSS

У вікні Змінні опишемо всі вихідні дані, згідно з умовою

Завдання

Малюнок 2 Вікно змінне

Для наочності у графі мітка опишемо назву таблиць

В графі Значення опишемо номер кожної групи

Малюнок 3 Мітки значень

Усе це робиться наочності тобто. цими налаштуваннями можна знехтувати

В графі шкала , у другому стовпці потрібно поставити номінальне значення

У вікні дані замовимо однофакторний дисперсійний аналіз за допомогою меню «Аналіз» Порівняння середніх

Однофакторний дисперсійний аналіз.

Рисунок 4 Функція Однофакторний дисперсійний аналіз

У діалоговому вікні, що відкрилося. Однофакторний дисперсійний аналіз виділимо залежну змінну і внесемо її в список залежних , а змінну фактор у вікно фактор

Малюнок 5 виділення списку залежних та фактора

Налаштуємо деякі параметри для якісного виведення даних

Рисунок 6 Параметри для якісного виведення даних

Обчислення за вибраним алгоритмом однофакторного дисперсійного аналізу починається після клацання ОК

Після закінчення обчислень у вікні перегляду виводяться результати розрахунку

Описові статистикиГрупа СереднєСтд. ВідхиленняСтд. Помилка95% довірчий інтервал для середньогоМінімумМаксимумНижня межаВерхня межанизька швидкість67,171,472,6015,628,7159середня швидкість66,171,472,6014,627,7148висока швидкість744,244 Таблиця 2. Описові статистики

У таблиці Описові статистики наведено основні показники за швидкостями у групах та їх підсумкові значення

Кількість спостережень у кожній групі та сумарне

Середнє - середнє арифметичне спостережень у кожній групі та по всіх групах разом

Стд. Відхилення, Стд. Помилка - середнє квадратичне відхилення та стандартні відхилення

% довірчий інтервал для середнього - ці інтервали є найбільш точними для кожної групи та по всіх групах разом, ніж якщо взяти інтервали нижче або вище за ці межі.

Мінімум, Максимум - мінімальні та максимальні значення для кожної групи, які почули випробувані

однофакторний дисперсійний випадковий

Критерій однорідності дисперсій Статистика Лівіняст.св.1ст.св.2Знч.,089215,915

Критерій однорідності Лівін використовується для перевірки дисперсій на гомогенність (однорідність). У даному випадкувін підтверджує незначущість відмінностей між дисперсіями, оскільки значення = 0.915, тобто явно більше 0.05. Тому результати, отримані за допомогою дисперсійного аналізу, визнаються коректними.

У таблиці однофакторний дисперсійний аналіз наведено результати однофакторного ТАК

Сума квадратів «між групами» є сумою квадратів різниць між загальним середнім значенням і середніми значеннями в кожній групі з урахуванням вагових коефіцієнтів, рівних кількості об'єктів у групі

«Всередині груп» є сумою квадратів різниць середнього значення кожної групи та кожного значення цієї групи

Стовпець «ст.св.» містить число ступенів свободи V:

Міжгрупове (v = число груп - 1);

Внутрішньогрупове (v = число об'єктів - число груп - 1);

«Середній квадрат» містить відношення суми квадратів до ступенів свободи.

У стовпці "F" наведено відношення середнього квадрата між групами до середнього квадрата всередині груп.

У стовпці «ЗНЧ» міститься значення ймовірності того, що спостерігаються відмінності випадкові

Таблиця 4 Формули

Графіки середніх

За графіком видно, що він зменшується. Також можна визначити по таблиці Fк k1=2, k2=15 табличне значення статистики дорівнює 3,68. За правилом якщо , то нульова гіпотеза приймається, інакше приймається альтернативна гіпотеза. Для нашого прикладу (7.45>3.68), отже приймається альтернативна гіпотеза. Таким чином повертаючись до умови завдання, можна зробити висновок нульова гіпотеза відхиляється та приймається альтернативна : відмінності обсягом відтворення слів між групами є більш вираженими, ніж випадкові відмінності всередині кожної групи ). Т.о. швидкість пред'явлення слів впливає обсяг їх відтворення.

Однофакторний дисперсійний аналіз

(Практична реалізація у Microsoft Office 2013)

На цьому прикладі розглянемо однофакторний дисперсійний аналіз у Microsoft Office 2013

Розв'язання задачі в Microsoft Excel

Відкриємо Microsoft Excel.


Рисунок 1. Запис даних у Excel

Перетворимо дані на числовий формат. Для цього на вкладці головне є пункт Формат а в ньому є підпункт Формат осередку . На екрані з'явиться вікно Формат осередків. Рис. 2 Виберемо Числовий форматта введені дані перетворюються. Як показано на Рис.3

Рисунок 2 Перетворимо на числовий формат

Малюнок 3 Результат після перетворення

На вкладці дані є пункт аналіз даних клацнемо по ньому.

Виберемо однофакторний дисперсійний аналіз

Рисунок 6 Аналіз даних

На екрані з'явиться вікно Однофакторний дисперсійний аналіз проведення дисперсійного аналізу даних (Рис.7). Зробимо налаштування параметрів

Рис. 7 Налаштування параметрів для однофакторного аналізу

Клацніть мишею в полі Вхідний інтервал. Виділимо діапазон осередків B2::F9, дані в якому потрібно проаналізувати. У полі Вхідний інтервал групи елементів керування Вхідні дані з'явиться вказаний діапазон.

Якщо в групі елементів керування Вхідні дані не встановлено перемикач рядків, то встановіть його, щоб програма Ехcel сприймала групи даних рядків.

Якщо потрібно Встановіть прапорець Мітки в першому рядку групи елементів керування Вхідні дані, якщо перший стовпець виділеного діапазону даних містить назви рядків.

У полі введення Альфа групи елементів керування Вхідні дані за умовчанням відображається величина 0,05, яка пов'язана з ймовірністю виникнення помилки дисперсійного аналізу.

Якщо в групі елементів керування Параметри виведення не встановлено перемикач вихідний інтервал, то встановимо його або виберемо перемикач новий робочий лист, щоб дані були перенесені на новий лист.

Натисніть кнопку ОК, щоб закрити вікно Однофакторний дисперсійний аналіз. З'являться результати дисперсійного аналізу (рис.8).

Малюнок 8 Виведення даних

У діапазоні осередків А4:Е7 розташовані результати описової статистики. У рядку 4 знаходяться назви параметрів, у рядках 5 - 7 - статистичні значення, обчислені за партіями. У стовпці «Рахунок» розташовані кількості вимірювань, у стовпці «Сума» – суми величин, у стовпці «Середнє» – середні арифметичні значення, у стовпці «Дисперсія» – дисперсії.

Отримані результати показують, що найбільше середнє розривне навантаження партії №1, а найбільша дисперсія розривного навантаження -партії №2, №1.

У діапазоні осередків А10:G15 відображається інформація, що стосується суттєвості розбіжностей між групами даних. У рядку 11 знаходяться назви параметрів дисперсійного аналізу, у рядку 12 – результати міжгрупової обробки, у рядку 13 – результати внутрішньогрупової обробки, а у рядку 15 – суми значень цих двох рядків.

У шпальті SS розташовані величини варіювання, тобто. суми квадратів за всіма відхиленнями. Варіювання, як і дисперсія, характеризує розкид даних.

У стовпці df є значення чисел ступенів свободи. Дані числа вказують на кількість незалежних відхилень, за якими обчислюватиметься дисперсія. Наприклад, міжгрупове число ступенів свободи дорівнює різниці кількості груп даних та одиниці. Чим більше числостепенів свободи, тим вища надійність дисперсійних параметрів. Дані ступенів свобод у таблиці показують, що для внутрішньогрупових результатів надійність вища, ніж міжгрупових параметрів.

У стовпці MS розташовані величини дисперсії, що визначаються ставленням варіювання та числа ступенів свобод. Дисперсія характеризує ступінь розкиду даних, але на відміну величини варіювання, немає прямої тенденції збільшуватися зі зростанням числа ступенів свобод. З таблиці видно, що міжгрупова дисперсія значно більша за внутрішньогрупову дисперсію.

У стовпці F знаходиться значення F-статистики, що обчислюється відношенням міжгрупової та внутрішньогрупової дисперсій.

У стовпці F критичне розташоване F-критичне значення, що розраховується за ступенем свободи та величиною Альфа. F-статистика та F-критичне значення використовують критерій Фішера-Снедекору.

Якщо F-статистика більша за F-критичне значення, то можна стверджувати, що відмінності між групами даних носять невипадковий характер. тобто. на рівні значимості α = 0 ,05 (з надійністю 0,95) нульова гіпотеза відкидається і приймається альтернативна: швидкість пред'явлення слів впливає обсяг їх відтворення. У стовпці Р-значення є значення ймовірності того, що розбіжність між групами випадкова. Так як у таблиці дана можливість дуже мала, то відхилення між групами носить невипадковий характер.

Порівняння IBM SPSS Statistics 20 та Microsoft Office 2013

однофакторний дисперсійний випадковий програма

Подивімося на висновки програм, для цього поглянемо ще раз на скріншоти.

Однофакторний дисперсійний аналіз Сума квадратівст.св.Середній квадратFЗнч.Між групами31,444215,7227,447,006Всередині груп31,667152,111Разом63,11117

Таким чином програма IBM SPSS Statistics 20 краще здійснює рахунок, може округляти числа, будувати наочний графік(Див. повне рішення) яким можна визначити відповідь, у ній докладніше описані, як умови завдання, і їх вирішення. У Microsoft Office 2013 є свої плюси, по-перше це, звичайно, його поширеність оскільки Microsoft Office 2013 встановлений майже в кожному комп'ютері, він виводить Fкритичне, що не передбачено в SPSS Statistics, а також там теж просто і зручно вважати. Все-таки обидві ці програми дуже добре підходять для вирішення завдань на однофакторний дисперсійний аналіз, кожна з них має свої плюси та мінуси, але якщо рахувати великі завданняз більшими умовами рекомендував би SPSS Statistics.

Висновок

Дисперсійний аналіз застосовується у всіх галузях наукових досліджень про, де необхідно проаналізувати вплив різних чинників на досліджувану змінну. У сучасному світіІснує безліч завдань на однофакторний дисперсійний аналіз як в економіці, психології, біології. В результаті вивчення теоретичного матеріалу було встановлено, що основою дисперсійного аналізу є теорема про складання дисперсій, з безлічі пакетів прикладних програм, в яких реалізовано апарат дисперсійного аналізу, підібрані найкращі та включені в роботу. Завдяки появі нових технологій кожен з нас може проводити дослідження (рішення), витрачаючи при цьому менше часу та зусиль на обчислення за допомогою ЕОМ. У процесі роботи було поставлено цілі, завдання, яких було досягнуто.

писок літератури

Сидоренко, Є.В. Методи математичної обробки у психології [Текст]/СПб. 2011. – 256 с.

Математична статистика для психологів Єрмолаєв О.Ю [Текст] / Москва_2009 -336с

Лекція 7. Аналітична статистика [ Електронний ресурс]. , Дата доступу: 14.05.14

Теорія ймовірностей та математична статистика [Текст] / Гмурман В.Є 2010 -479с

Усі люди від природи прагнуть знання. (Арістотель. Метафізика)

Дисперсійний аналіз

Вступний огляд

У цьому розділі ми розглянемо основні методи, припущення та термінологію дисперсійного аналізу.

Зазначимо, що у англомовної літературі дисперсійний аналіз зазвичай називається аналізом варіації. Тому, для стислості, нижче ми іноді використовуватимемо термін ANOVA (An alysis o f va riation) для звичайного дисперсійного аналізу та термін MANOVAдля багатовимірного дисперсійного аналізу У цьому розділі ми послідовно розглянемо основні ідеї дисперсійного аналізу ( ANOVA), коваріаційного аналізу ( ANCOVA), багатовимірного дисперсійного аналізу ( MANOVA) та багатовимірного коваріаційного аналізу ( MANCOVA). Після короткого обговорення переваг аналізу контрастів та апостеріорних критеріїврозглянемо припущення, на яких ґрунтуються методи дисперсійного аналізу. Ближче до кінця цього розділу пояснюються переваги багатовимірного підходу для аналізу повторних вимірів, порівняно з традиційним одновимірним підходом.

Основні ідеї

Ціль дисперсійного аналізу.Основною метою дисперсійного аналізу є дослідження значущості різницю між середніми. Глава (глава 8) містить короткий вступу дослідження статистичної значимості. Якщо ви просто порівнюєте середні у двох вибірках, дисперсійний аналіз дасть той самий результат, що й звичайний t- критерій для незалежних вибірок (якщо порівнюються дві незалежні групи об'єктів чи спостережень) або t- критерій для залежних вибірок (якщо порівнюються дві змінні одному й тому безлічі об'єктів чи спостережень). Якщо ви мало знайомі з цими умовами, радимо звернутися до вступного огляду глави (Глава 9).

Звідки походить назва Дисперсійний аналіз? Може здатися дивним, що порівняння середніх називається дисперсійним аналізом. Насправді це пов'язано з тим, що при дослідженні статистичної значущості відмінності між середніми ми насправді аналізуємо дисперсії.

Розбиття суми квадратів

Для вибірки обсягу n вибіркова дисперсіяобчислюється як сума квадратів відхилень від вибіркового середнього, поділена на n-1 (обсяг вибірки мінус одиниця). Таким чином, при фіксованому обсязі вибірки n дисперсія є функція суми квадратів (відхилень), що позначається для стислості, SS(Від англійської Sum of Squares - Сума Квадратів). В основі дисперсійного аналізу лежить поділ (або розбиття) дисперсії на частини. Розглянемо наступний набір даних:

Середні дві групи істотно різні (2 і 6 відповідно). Сума квадратів відхилень всерединікожної групи дорівнює 2. Складаючи їх, отримуємо 4. Якщо тепер повторити ці обчислення без урахуваннягрупової приналежності, тобто якщо обчислити SSвиходячи із загального середнього цих двох вибірок, то отримаємо 28. Іншими словами, дисперсія (сума квадратів), заснована на внутрішньогруповій мінливості, призводить до набагато менших значень, ніж при обчисленні на основі загальної мінливості (щодо загальної середньої). Причина цього, очевидно, полягає у суттєвій різниці між середніми значеннями, і ця різниця між середніми і пояснює існуюча різницяміж сумами квадратів Справді, якщо використовувати для аналізу наведених даних модуль Дисперсійний аналіз, будуть отримані такі результати:

Як видно з таблиці, загальна сума квадратів SS=28 розбита у сумі квадратів, обумовлену внутрішньогруповиймінливістю ( 2+2=4 ; див. другий рядок таблиці) та суму квадратів, обумовлену різницею середніх значень. (28-(2+2)=24; див. перший рядок таблиці).

SS помилок таSS ефект.Внутрішньогрупова мінливість ( SS) зазвичай називається дисперсією помилки.Це означає, що зазвичай під час проведення експерименту вона може бути передбачена чи пояснена. З іншого боку, SS ефекту(або міжгрупову мінливість) можна пояснити різницею між середніми значеннями в групах, що вивчаються. Іншими словами, приналежність до певної групи пояснюєміжгрупову мінливість, т.к. нам відомо, що ці групи мають різні середні значення.

Перевірка важливості.Основні ідеї перевірки статистичної значимості обговорюються у розділі Елементарні поняття статистики(Глава 8). У цьому розділі пояснюються причини, через які багато критеріїв використовують ставлення поясненої і непоясненої дисперсії. Приклад такого використання є сам дисперсійний аналіз. Перевірка значущості в дисперсійному аналізі полягає в порівнянні дисперсії, обумовленої міжгруповим розкидом (названої середнім квадратом ефектуабо MSефект) та дисперсії, обумовленої внутрішньогруповим розкидом (названою середнім квадратом помилкиабо MSпомилка). Якщо вірна нульова гіпотеза (рівність середніх у двох популяціях), можна очікувати порівняно невелике різницю у вибіркових середніх через випадкової мінливості. Тому при нульовій гіпотезі внутрішньогрупова дисперсія практично співпадатиме із загальною дисперсією, підрахованою без урахування групою належності. Отримані внутрішньогрупові дисперсії можна порівняти за допомогою F- критерію, що перевіряє, чи справді відношення дисперсій значно більше 1. У розглянутому вище прикладі F- критерій показує, що різницю між середніми статистично значимо.

Основна логіка дисперсійного аналізу.Підсумовуючи, можна сказати, що метою дисперсійного аналізу є перевірка статистичної значущості різниці між середніми (для груп чи змінних). Ця перевірка проводиться з допомогою аналізу дисперсії, тобто. за допомогою розбиття загальної дисперсії (варіації) на частини, одна з яких обумовлена ​​випадковою помилкою (тобто внутрішньогруповою мінливістю), а друга пов'язана з різницею середніх значень. Остання компонент дисперсії потім використовується для аналізу статистичної значущості відмінності між середніми значеннями. Якщо ця відмінність значуща, нульова гіпотеза відкидається і приймається альтернативна гіпотеза існування різниці між середніми.

Залежні та незалежні змінні.Змінні, значення яких визначається за допомогою вимірювань у ході експерименту (наприклад, бал, набраний під час тестування), називаються залежнимизмінними. Змінні, якими можна керувати під час проведення експерименту (наприклад, методи навчання чи інші критерії, що дозволяють розділити спостереження групи) називаються факторамиабо незалежнимизмінними. Докладніше ці поняття описані у розділі Елементарні поняття статистики(Глава 8).

Багатофакторний дисперсійний аналіз

У розглянутому вище простому прикладі ви могли б відразу обчислити t-критерій для незалежних вибірок, використовуючи відповідну опцію модуля Основні статистики та таблиці.Отримані результати, звісно, ​​збігатимуться з результатами дисперсійного аналізу. Однак дисперсійний аналіз містить гнучкі та потужні технічні засоби, які можуть бути використані для більш складних досліджень.

Безліч факторів.Світ за своєю природою складний і багатовимірний. Ситуації, коли деяке явище повністю описується однією змінною, надзвичайно рідкісні. Наприклад, якщо ми намагаємося навчитися вирощувати великі помідори, слід розглядати фактори, пов'язані з генетичною структурою рослин, типом ґрунту, освітленістю, температурою тощо. Таким чином, при проведенні типового експерименту доводиться мати справу з великою кількістю факторів. Основна причина, з якої використання дисперсійного аналізу краще повторного порівняння двох вибірок при різних рівняхфакторів за допомогою t- критерію, полягає в тому, що дисперсійний аналіз більш ефективнийі для малих вибірок, більш інформативний.

Управління факторами.Припустимо, що у розглянутому вище прикладі аналізу двох вибірок ми додамо ще один фактор, наприклад, Стать- Gender. Нехай кожна група складається з 3 чоловіків та 3 жінок. План цього експерименту можна подати у вигляді таблиці 2 на 2:

Експеримент. Група 1 Експеримент. Група 2
Чоловіки2 6
3 7
1 5
Середнє2 6
Жінки4 8
5 9
3 7
Середнє4 8

До проведення обчислень можна помітити, що в цьому прикладі загальна дисперсія має принаймні три джерела:

(1) випадкова помилка (внутрішньогрупова дисперсія),

(2) мінливість, пов'язана з приналежністю до експериментальної групи, та

(3) мінливість, обумовлена ​​статтю об'єктів спостереження.

(Зазначимо, що існує ще одне можливе джерело мінливості – взаємодія факторів, який ми обговоримо пізніше). Що станеться, якщо ми не включатимемо статьgenderяк фактор при проведенні аналізу та обчислимо звичайний t-Критерій? Якщо ми обчислюватимемо суми квадратів, ігноруючи стать -gender(тобто об'єднуючи об'єкти різної статі в одну групу при обчисленні внутрішньогрупової дисперсії, отримавши при цьому суму квадратів для кожної групи рівну SS=10, та загальну сумуквадратів SS= 10+10 = 20), то отримаємо більше значення внутрішньогрупової дисперсії, ніж при більш точному аналізі з додатковим розбиттям на підгрупи підлозі - gender(при цьому внутрішньогрупові середні дорівнюватимуть 2, а загальна внутрішньогрупова сума квадратів дорівнює SS = 2+2+2+2 = 8). Ця різниця пов'язана з тим, що середнє значення для чоловіків - malesменше, ніж середнє значення для жінок –female, і це різницю у середніх значеннях збільшує сумарну внутригрупповую мінливість, якщо чинник статі не враховується. Управління дисперсією помилки збільшує чутливість (потужність) критерію.

На цьому прикладі видно ще одну перевагу дисперсійного аналізу порівняно зі звичайним t-Крітерієм для двох вибірок. Дисперсійний аналіз дозволяє вивчати кожен чинник, керуючи значеннями інших чинників. Це насправді і є основною причиною його більшої статистичної потужності (для отримання значних результатів потрібні менші обсяги вибірок). Тому дисперсійний аналіз навіть на невеликих вибірках дає статистично більш значущі результати, ніж простий t- критерій.

Ефекти взаємодії

Існує ще одна перевага застосування дисперсійного аналізу порівняно із звичайним t- критерієм: дисперсійний аналіз дозволяє виявити взаємодіяміж факторами і, отже, дозволяє вивчати складніші моделі. Для ілюстрації розглянемо ще один приклад.

Головні ефекти, попарні (двофакторні) взаємодії.Припустимо, що є дві групи студентів, причому психологічно студенти першої групи налаштовані виконання поставлених завдань і більш цілеспрямовані, ніж студенти другої групи, що з більш лінивих студентів. Розіб'ємо кожну групу випадково навпіл і запропонуємо одній половині в кожній групі складне завдання, а іншій - легке. Після цього виміряємо, як напружено студенти працюють над цими завданнями. Середні значення для цього (вигаданого) дослідження показані в таблиці:

Який висновок можна зробити із цих результатів? Чи можна зробити висновок, що: (1) над складним завданням студенти працюють більш напружено; (2) цілеспрямовані студенти працюють наполегливіше, ніж ліниві? Жодне з цих тверджень не відображає суть систематичного характерусередніх, наведених у таблиці. Аналізуючи результати, правильніше було б сказати, що над складними завданнямипрацюють наполегливіше лише цілеспрямовані студенти, тоді як над легкими завданнями тільки ліниві працюють наполегливіше. Тобто характер студентів та складність завдання взаємодіючиміж собою впливають на витрачається зусилля. Це приклад парної взаємодіїміж характером студентів та складністю завдання. Зазначимо, що твердження 1 та 2 описують головні ефекти.

Взаємодія вищих порядків.У той час, як пояснити попарні взаємодії ще порівняно легко, взаємодії вищих порядків пояснити значно складніше. Уявімо, що в аналізований вище приклад введено ще один фактор стать -Genderі ми отримали наступну таблицю середніх значень:

Які висновки можна зробити з отриманих результатів? Графіки середніх дозволяють легко інтерпретувати складні ефекти. Модуль дисперсійного аналізу дозволяє будувати ці графіки практично одним клацанням мишки.

Зображення на графіках внизу являє собою трифакторну взаємодію, що вивчається.

Дивлячись на графіки, можна сказати, що у жінок існує взаємодія між характером та складністю тесту: цілеспрямовані жінки працюють над важким завданням більш напружено, ніж над легким. У чоловіків ця ж взаємодія має зворотний характер. Видно, що опис взаємодії між факторами стає більш заплутаним.

Загальний спосібопис взаємодій.У випадку взаємодія між чинниками описується як зміни одного ефекту під впливом іншого. У розглянутому вище прикладі двофакторну взаємодію можна описати як зміну головного ефекту фактора, що характеризує складність завдання під впливом фактора, що описує характер студента. Для взаємодії трьох факторів із попереднього параграфа можна сказати, що взаємодія двох факторів (складності завдання та характеру студента) змінюється під впливом статіGender. Якщо вивчається взаємодія чотирьох чинників, можна сказати, взаємодія трьох чинників, змінюється під впливом четвертого чинника, тобто. існують різні типи взаємодій різних рівнях четвертого чинника. Виявилося, що в багатьох областях взаємодія п'яти чи навіть більшої кількостіфакторів не є чимось незвичним.

Складні плани

Міжгрупові та внутрішньогрупові плани (плани з повторними вимірами)

При порівнянні двох різних груп зазвичай використовується t- критерій для незалежних вибірок (з модуля Основні статистики та таблиці). Коли порівнюються дві змінні на тому самому безлічі об'єктів (спостережень), використовується t-Критерій для залежних вибірок. Для дисперсійного аналізу також важливо залежні чи ні вибірки. Якщо є повторні вимірювання тих самих змінних (за різних умов або в різний час) для тих самих об'єктів, то говорять про наявність фактора повторних вимірів(називається також внутрішньогруповим фактором,оскільки з оцінки його значимості обчислюється внутригрупповая сума квадратів). Якщо порівнюються різні групи об'єктів (наприклад, чоловіки та жінки, три штами бактерій тощо), то різниця між групами описується міжгруповий фактор.Способи обчислення критеріїв значущості для двох описаних типів факторів різні, але їх загальна логіка та інтерпретації збігається.

Між- та внутрішньогрупові плани.У багатьох випадках експеримент вимагає включення до плану і міжгрупового фактора, і фактора повторних вимірів. Наприклад, вимірюються математичні навички студентів жіночої та чоловічої статі (де стать -Gender-міжгруповий фактор) на початку та наприкінці семестру. Два виміри навичок кожного студента утворюють внутрішньогруповий фактор (фактор повторних вимірів). Інтерпретація головних ефектів та взаємодій для міжгрупових факторів та факторів повторних вимірювань збігається, і обидва типи факторів можуть, очевидно, взаємодіяти між собою (наприклад, жінки набувають навичок протягом семестру, а чоловіки їх втрачають).

Неповні (гніздові) плани

У багатьох випадках можна знехтувати ефектом взаємодії. Це відбувається або коли відомо, що у популяції ефект взаємодії відсутній, або коли здійснення повного факторногоплану неможливо. Наприклад, вивчається вплив чотирьох добавок до палива на витрату пального. Вибираються чотири автомобілі та чотири водії. Повний факторнийЕксперимент вимагає, щоб кожна комбінація: добавка, водій, автомобіль – з'явилися хоча б один раз. Для цього потрібно не менше 4 x 4 x 4 = 64 груп випробувань, що потребує надто великих часових витрат. Крім того, навряд чи існує взаємодія між водієм та добавкою до палива. Зважаючи на це, можна використовувати план Латинські квадрати,в якому міститься лише 16 груп випробувань (чотири добавки позначаються буквами A, B, C та D):

Латинські квадрати описані в більшості книг з планування експериментів (наприклад, Hays, 1988; Lindman, 1974; Milliken and Johnson, 1984; Winer, 1962), і тут вони не будуть детально обговорюватися. Зазначимо, що латинські квадрати це неnолніплани, у яких беруть участь в повному обсязі комбінації рівнів чинників. Наприклад, водій 1 керує автомобілем 1 тільки з добавкою А водій 3 керує автомобілем 1 тільки з добавкою С. Рівні фактора добавок ( A, B, C і D) вкладені в комірки таблиці автомобіль x водій -як яйця в гнізда. Це мнемонічне правило корисне для розуміння природи гніздових чи вкладенихпланів. Модуль Дисперсійний аналізнадає прості способианаліз планів такого типу.

Коваріаційний аналіз

Основна ідея

В розділі Основні ідеїкоротко обговорювалася ідея управління факторами та те, яким чином включення адитивних факторів дозволяє зменшувати суму квадратів помилок та збільшувати статистичну потужність плану. Все це може бути поширене і на змінні з безперервним безліччю значень. Коли такі безперервні змінні включаються в план як фактори, вони називаються підступами.

Фіксовані коваріати

Припустимо, що порівнюються математичні навички двох груп студентів, які навчалися за двома різними підручниками. Припустимо, що є дані про коефіцієнт інтелекту (IQ) для кожного студента. Можна припустити, що коефіцієнт інтелекту пов'язаний з математичними навичками та використовувати цю інформацію. Для кожної з двох груп студентів можна визначити коефіцієнт кореляції між IQ і математичними навичками. Використовуючи цей коефіцієнт кореляції, можна виділити частку дисперсії в групах, що пояснюється впливом IQ і нез'ясовну частку дисперсії (див. також Елементарні поняття статистики(глава 8) та Основні статистики та таблиці(Глава 9)). Частка дисперсії, що залишилася, використовується при проведенні аналізу як дисперсія помилки. Якщо є кореляція між IQ та математичними навичками, то можна суттєво зменшити дисперсії помилки SS/(n-1) .

Вплив коваріат наF- критерій. F-критерій оцінює статистичну значущість відмінності середніх значень у групах, при цьому обчислюється відношення міжгрупової дисперсії ( MSефект) до дисперсії помилок ( MSerror) . Якщо MSerrorзменшується, наприклад, при врахуванні фактора IQ, значення Fзбільшується.

Безліч коваріат.Міркування, використані вище для однієї кваріати (IQ), легко поширюються на кілька коваріат. Наприклад, крім IQ, можна включити вимір мотивації, просторового мислення тощо. Замість звичайного коефіцієнта кореляції використовується множинний коефіцієнткореляції.

Коли значенняF -Критерію зменшується.Іноді введення коваріату в план експерименту зменшує значення F-критерія . Зазвичай це вказує на те, що коваріати корелюються не тільки із залежною змінною (наприклад, математичними навичками), а й з факторами (наприклад, із різними підручниками). Припустимо, що IQ вимірюється в кінці семестру, після майже річного навчаннядвох груп студентів за двома різними підручниками. Хоча студенти розбивалися на групи випадковим чином, може виявитися, що відмінність підручників настільки велика, що і IQ та математичні навички у різних групах сильно відрізнятимуться. У цьому випадку, каварыати не лише зменшують дисперсію помилок, а й міжгрупову дисперсію. Іншими словами, після контролю за різницею IQ у різних групах, різниця в математичних навичках вже буде несуттєвою. Можна сказати інакше. Після “виключення” впливу IQ, ненавмисно виключається вплив підручника на розвиток математичних навичок.

Кориговані середні.Коли коваріату впливає міжгруповий чинник, слід обчислювати скориговані середні, тобто. такі середні, які виходять після видалення всіх оцінок коваріату.

Взаємодія між коваріатами та факторами.Також як досліджується взаємодія між факторами, можна досліджувати взаємодію між коваріатами та між групами факторів. Припустимо, що один із підручників особливо підходить для розумних студентів. Другий підручник для розумних студентів з'їде, а для менш розумних студентів цей же підручник важкий. В результаті є позитивна кореляція між IQ і результатом навчання в першій групі (розумніші студенти, кращий результат) і нульова чи невелика негативна кореляція у другій групі (ніж розумніший студент, Тим не менш ймовірно набуття математичних навичок з другого підручника). У деяких дослідженнях ця ситуація обговорюється як приклад порушення припущень коварійного аналізу. Однак так як у модулі Дисперсійний аналіз використовуються найзагальніші способи коваріаційного аналізу, можна, зокрема, оцінити статистичну значущість взаємодії між факторами та коваріатами.

Змінні коваріати

У той час, як фіксовані кваріати обговорюються в підручниках досить часто, змінні кваріати згадуються набагато рідше. Зазвичай, під час проведення експериментів з повторними вимірами, нас цікавлять розбіжності у вимірах тих самих величин у різні моменти часу. Зокрема, нас цікавить значимість цих відмінностей. Якщо одночасно з вимірюваннями залежних змінних проводиться вимірювання коваріат, можна обчислити кореляцію між коваріатою та залежною змінною.

Наприклад, можна вивчати інтерес до математики та математичні навички на початку та в кінці семестру. Цікаво було б перевірити, чи корельовані між собою зміни на користь математики зі зміною математичних навичок.

Модуль Дисперсійний аналізв STATISTICAавтоматично оцінює статистичну значущість зміни коваріат у тих планах, де це можливо.

Багатомірні плани: багатовимірний дисперсійний та коварійний аналіз

Міжгрупові плани

Всі приклади, що розглядалися раніше, включали тільки одну залежну змінну. Коли одночасно є кілька залежних змінних, зростає лише складність обчислень, а зміст та основні принципи не змінюються.

Наприклад, проводиться дослідження двох різних підручників. При цьому вивчаються успіхи студентів у вивченні фізики та математики. У цьому випадку є дві залежні змінні і потрібно з'ясувати, як впливають на них одночасно два різні підручники. Для цього можна скористатися багатовимірним дисперсійним аналізом (MANOVA). Замість одновимірного Fкритерію, використовується багатовимірний Fкритерій (l-критерій Вілкса), заснований на порівнянні матриці коваріаційної матриці помилок і міжгрупової матриці коваріаційної.

Якщо залежні змінні корелированы між собою, це кореляція повинна враховуватися при обчисленні критерію значимості. Очевидно, якщо один і той самий вимір повторюється двічі, то нічого нового отримати при цьому не можна. Якщо до наявного виміру додається корельований з ним вимір, то виходить деяка нова інформація, але при цьому нова змінна містить надмірну інформацію, яка відображається в коваріації між змінними.

Інтерпретація результатів.Якщо загальний багатовимірний критерій значимий, можна зробити висновок, що відповідний ефект (наприклад, тип підручника) значимий. Проте встають наступні питання. Чи впливає тип підручника на покращення лише математичних навичок, лише фізичних навичок, або одночасно на покращення тих та інших навичок. Насправді, після отримання значущого багатовимірного критерію для окремого головного ефекту або взаємодії досліджується одномірний Fкритерій. Іншими словами, окремо досліджуються залежні змінні, які роблять внесок у значущість багатовимірного критерію.

Плани з повторними вимірами

Якщо вимірюються математичні та фізичні навички студентів на початку семестру та наприкінці, то це і є повторні виміри. Вивчення критерію значущості у таких планах це логічний розвиток одновимірного випадку. Зауважимо, що методи багатовимірного дисперсійного аналізу зазвичай також використовуються для дослідження значущості одновимірних факторів повторних вимірів, що мають більш як два рівні. Відповідні застосування будуть розглянуті пізніше у цій частині.

Підсумовування значень змінних та багатовимірний дисперсійний аналіз

Навіть досвідчені користувачі одновимірного та багатовимірного дисперсійного аналізу часто утрудняються, отримуючи різні результати при застосуванні багатовимірного дисперсійного аналізу, наприклад, для трьох змінних, і при застосуванні одновимірного дисперсійного аналізу до суми цих трьох змінних, як до однієї змінної.

Ідея підсумовуваннязмінних полягає в тому, що кожна змінна містить у собі деяку істинну змінну, яка і досліджується, а також випадкову помилкувимірювання. Тому при усередненні значень змінних помилка вимірювання буде ближче до 0 для всіх вимірювань і усереднене значень буде більш надійним. Насправді, в цьому випадку застосування дисперсійного аналізу до суми змінних є розумним і є потужним методом. Однак якщо залежні змінні за своєю природою багатовимірні, підсумовування значень змінних є недоречним.

Наприклад, нехай залежні змінні складаються з чотирьох показників успіху у суспільстві. Кожен показник характеризує абсолютно незалежну сторону людської діяльності(наприклад, професійний успіх, успішність у бізнесі, сімейний добробут тощо). Додавання цих змінних подібне до додавання яблука і апельсина. Сума цих змінних не буде відповідним одновимірним показником. Тому з такими даними потрібно поводитися як з багатовимірними показниками багатовимірному дисперсійному аналізі.

Аналіз контрастів та апостеріорні критерії

Чому порівнюються окремі множини середніх?

Зазвичай гіпотези щодо експериментальних даних формулюються непросто у термінах основних ефектів чи взаємодій. Прикладом може бути така гіпотеза: деякий підручник підвищує математичні навички лише в студентів чоловічої статі, тоді як інший підручник приблизно однаково ефективний обох статей, проте менш ефективний чоловікам. Можна передбачити, що ефективність підручника взаємодіє зі статтю студента. Однак цей прогноз стосується також природивзаємодії. Очікується значне різницю між статями для учнів з однієї книжці і майже залежні від статі результати для які у інших книжці. Такий тип гіпотез зазвичай досліджується за допомогою аналізу контрастів.

Аналіз контрастів

Якщо говорити коротко, аналіз контрастів дозволяє оцінювати статистичну значимість деяких лінійних комбінацій ефектів складного плану. Аналіз контрастів головний та обов'язковий елементбудь-якого складного плану дисперсійного аналізу Модуль Дисперсійний аналізмає досить різноманітні можливості аналізу контрастів, які дозволяють виділяти та аналізувати будь-які типи порівнянь середніх.

Апостеріорніпорівняння

Іноді внаслідок обробки експерименту виявляється несподіваний ефект. Хоча в більшості випадків творчий дослідникзможе пояснити будь-який результат, це не дає можливостей для подальшого аналізу та отримання оцінок для прогнозу. Ця проблема є однією з тих, для яких використовуються апостеріорні критерії, тобто критерії, які не використовують апріорнігіпотези. Для ілюстрації розглянемо такий експеримент. Припустимо, що у 100 картках записані числа від 1 до 10. Опустивши всі ці картки в шапку, ми випадково вибираємо 20 разів по 5 карток, і обчислюємо кожної вибірки середнє значення (середнє чисел, записаних на картки). Чи можна очікувати, що знайдуться дві вибірки, у яких середні значення значно відрізняються? Це дуже правдоподібно! Вибираючи дві вибірки з максимальним і мінімальним середнім, можна отримати різницю середніх, що відрізняється від різниці середніх, наприклад, перших двох вибірок. Цю різницю можна дослідити, наприклад, за допомогою аналізу контрастів. Якщо не вдаватися в деталі, то існує кілька так званих апостеріорнихкритеріїв, які засновані в точності на першому сценарії (взяття екстремальних середніх із 20 вибірок), тобто ці критерії засновані на виборі найбільш відмінних середніх для порівняння всіх середніх значень у плані. Ці критерії застосовуються для того, щоб суто випадково не отримати штучний ефект, наприклад, виявити значну різницю між середніми, коли його немає. Модуль Дисперсійний аналізпропонує широкий вибір таких критеріїв. Коли в експерименті, пов'язаному з кількома групами, трапляються несподівані результати, то використовуються апостеріорніпроцедури на дослідження статистичної значимості отриманих результатів.

Сума квадратів типу I, II, III та IV

Багатомірна регресія та дисперсійний аналіз

Існує тісний взаємозв'язокміж методом багатовимірної регресії та дисперсійним аналізом (аналізом варіацій). І в тому, і в іншому методі досліджується лінійна модель. Якщо говорити коротко, то практично всі плани експерименту можна досліджувати за допомогою багатовимірної регресії. Розглянемо наступний простий міжгруповий 2 x 2 план.

DV A B AxB
3 1 1 1
4 1 1 1
4 1 -1 -1
5 1 -1 -1
6 -1 1 -1
6 -1 1 -1
3 -1 -1 1
2 -1 -1 1

Стовпці А та В містять коди, що характеризують рівні факторів А та В, стовпець АxВ містить добуток двох стовпців А та В. Ми можемо аналізувати ці дані за допомогою багатовимірної регресії. Змінна DVвизначається як залежна змінна, змінні від Aдо AxBяк незалежні змінні. Дослідження значущості для коефіцієнтів регресії співпадатиме з обчисленнями у дисперсійному аналізі значимості головних ефектів факторів Aі Bта ефекту взаємодії AxB.

Незбалансовані та збалансовані плани

При обчисленні кореляційної матриці для всіх змінних, наприклад для даних, зображених вище, можна помітити, що головні ефекти факторів Aі Bта ефект взаємодії AxBнекорельовані. Цю властивість ефектів називають також ортогональністю. Говорять, що ефекти Aі B - ортогональніабо незалежніодин від одного. Якщо всі ефекти в плані ортогональні один одному, як у наведеному вище прикладі, то кажуть, що план збалансований.

Збалансовані плани мають “хорошу властивість”. Обчислення під час аналізу таких планів дуже прості. Усі обчислення зводяться до обчислення кореляції між ефектами та залежними змінними. Так як ефекти ортогональні, приватні кореляції (як у повній багатовимірноїрегресії) не обчислюються. Однак у реальному житті плани не завжди збалансовані.

Розглянемо реальні дані з нерівним числом спостережень у осередках.

Фактор A Фактор B
B1 B2
A1 3 4, 5
A2 6, 6, 7 2

Якщо закодувати ці дані як вище та обчислити кореляційну матрицю для всіх змінних, то виявиться, що фактори плану корелюються один з одним. Фактори в плані тепер не ортогональні і такі плани називаються незбалансованими.Зауважимо, що в прикладі, що розглядається, кореляція між факторами повністю пов'язана з відмінністю частот 1 і -1 в стовпцях матриці даних. Іншими словами, плани експериментів з нерівними обсягами осередків (точніше, непропорційними обсягами) будуть незбалансованими, це означає, що головні ефекти та взаємодії змішуватимуться. І тут для обчислення статистичної значущості ефектів необхідно повністю обчислювати багатовимірну регресію. Тут є кілька стратегій.

Сума квадратів типу I, II, III та IV

Сума квадратів типуIіIII. Для вивчення значущості кожного фактора в багатовимірній моделі можна обчислювати приватну кореляцію кожного фактора за умови, що всі інші фактори вже враховані в моделі. Можна також вводити фактори в модель покроковим способом, фіксуючи всі фактори, що вже введені в модель і ігноруючи всі інші фактори. Взагалі, в цьому і полягає різниця між типом IIIі типомIсуми квадратів (ця термінологія була введена в SAS, див. наприклад, SAS, 1982; детальне обговорення можна також знайти в Searle, 1987, стор. 461; Woodward, Bonett, and Brecht, 1990, стор. 216; або Milliken and Johnson, 1984, стор 138).

Сума квадратів типуІІ.Наступна “проміжна” стратегія формування моделі полягає: у контролі всіх основних ефектів щодо значимості окремого головного ефекту; у контролі всіх основних ефектів та всіх попарних взаємодій, коли досліджується значимість окремої попарної взаємодії; у контролі всіх основних ефектів всіх попарних взаємодій та всіх взаємодій трьох факторів; щодо окремого взаємодії трьох чинників тощо. Суми квадратів для ефектів, що обчислюються таким способом, називаються типомIIсуми квадратів. Отже, типIIсуми квадратів контролює всі ефекти того ж порядку та нижче, ігноруючи всі ефекти вищого порядку.

Сума квадратів типуIV. Нарешті, для деяких спеціальних планів із пропущеними осередками (неповними планами) можна обчислювати, так звані, типу IVсуми квадратів. Цей метод обговорюватиметься пізніше у зв'язку з неповними планами (планами з пропущеними осередками).

Інтерпретація гіпотези про суму квадратів типу I, II та III

Суму квадратів типуIIIнайлегше інтерпретувати. Нагадаємо, що суми квадратів типуIIIдосліджують ефекти після контролю всіх інших ефектів. Наприклад, після знаходження статистично значущого типуIIIефекту для фактора Aу модулі Дисперсійний аналіз, можна сказати, що існує єдиний значущий ефект фактора Aпісля введення всіх інших ефектів (факторів) і відповідно інтерпретувати цей ефект. Ймовірно, у 99% усіх додатків дисперсійного аналізу саме цей тип критерію цікавить дослідника. Цей тип суми квадратів зазвичай обчислюється в модулі Дисперсійний аналізза замовчуванням, незалежно від того вибрано опцію Регресійний підхідчи ні (стандартні підходи прийняті в модулі Дисперсійний аналізобговорюються нижче).

Значні ефекти, отримані за допомогою сум квадратів типуабо типуIIсуми квадратів інтерпретувати не так просто. Найкраще їх інтерпретувати в контексті покрокової багатовимірної регресії. Якщо при використанні суми квадратів типуIголовний ефект фактора В виявився значимим (після включення в модель фактора А, але перед додаванням взаємодії між А і В), можна зробити висновок, що існує значний головний ефект фактора В, за умови, що немає взаємодії між факторами А і В. (Якщо при використання критерію типуIII, фактор В також виявився значним, то можна зробити висновок, що існує значний головний ефект фактора B, після введення в модель всіх інших факторів та їх взаємодій).

У термінах маргінальних середніх гіпотези типуIі типуIIзазвичай немає простої інтерпретації. У таких випадках кажуть, що не можна інтерпретувати значущість ефектів, розглядаючи лише маргінальні середні. Швидше представлені pзначень середніх мають відношення до складної гіпотези, яка комбінує середні та обсяг вибірки. Наприклад, типIIгіпотези для фактора А в простому прикладі плану 2 x 2, що раніше розглядаються (див. Woodward, Bonett, and Brecht, 1990, стор 219):

nij- Число спостережень в осередку

uij- Середнє значення в осередку

n. j- маргінальне середнє

Якщо не вдаватися в деталі (детальніше див. Milliken and Johnson, 1984, глава 10), то ясно, що це не прості гіпотези і в більшості випадків жодна з них не має особливого інтересу у дослідника. Однак існують випадки, коли гіпотези типуIможуть бути цікавими.

Обчислювальний підхід у модулі, що приймається за умовчанням Дисперсійний аналіз

За замовчуванням, якщо не зазначено опцію Регресійний підхід, модуль Дисперсійний аналізвикористовує модель середніх по осередках. Для цієї моделі характерно, що суми квадратів для різних ефектів обчислюються для лінійних комбінацій середніх значень осередків. У повному факторному експерименті це призводить до сум квадратів, які збігаються з сумами квадратів, які раніше обговорювали як тип III. Однак у опції Сплановані порівняння(у вікні Результати дисперсійного аналізу), користувач може перевіряти гіпотезу щодо будь-якої лінійної комбінації зважених або незважених середніх по осередках. Таким чином, користувач може перевіряти не лише гіпотези типуIIIале гіпотези будь-якого типу (включаючи типIV). Цей загальний підхідособливо корисний, коли досліджуються плани із пропущеними осередками (так звані неповні плани).

Для повних факторних планів цей підхід корисно також використовувати у випадках, коли хочуть аналізувати зважені маргінальні середні. Наприклад, припустимо, що в аналізованому раніше простому 2 x 2 плані, потрібно порівняти виважені (за рівнями фактора B) маргінальні середні для фактора А. Це буває корисним, коли розподіл спостережень по осередках не готувалося експериментатором, а будувалося випадково, і ця випадковість відображається у розподілі числа спостережень за рівнями фактора B у сукупності.

Наприклад, є фактор – вік вдів. Можлива вибірка респондентів розбита на дві групи: молодше 40 років та старше 40 (фактор В). Другий чинник (фактор А) у плані - отримували чи ні соціальну підтримку вдови у певному агентстві (при цьому одні вдови були обрані випадково, інші служили як контроль). У цьому випадку розподіл удів за віком у вибірці відображає дійсний розподіл вдів за віком у сукупності. Оцінка ефективності групи соціальної підтримки вдів з всім вікомбуде відповідати виважене середнє для двох вікових груп (з вагами, що відповідають числу спостережень у групі).

Сплановані порівняння

Зауважимо, що сума запроваджених коефіцієнтів контрастів не обов'язково дорівнює 0 (нулю). Натомість програма автоматично вносити поправки, щоб відповідні гіпотези не змішувалися із загальним середнім.

Для ілюстрації цього повернемося знову до простого 2 x 2 плану, розглянутого раніше. Нагадаємо, що числа спостережень у осередках цього незбалансованого плану -1, 2, 3, і 1. Припустимо, що ми хочемо порівняти зважені середні маргінальні для фактора А (зважені з частотою рівнів фактора В). Можна ввести коефіцієнти розмаїття:

Зауважимо, що ці коефіцієнти не дають у сумі 0. Програма встановлюватиме коефіцієнти так, що в сумі вони даватиму 0, і при цьому зберігатимуться їх відносні значення, Т. е.:

1/3 2/3 -3/4 -1/4

Ці контрасти порівнюватимуть зважені середні для фактора А.

Гіпотези про головне середнє.Гіпотеза, у тому, що ні зважене головне середнє дорівнює 0 може досліджуватися з допомогою коефіцієнтів:

Гіпотеза про те, що зважене головне середнє 0 перевіряється за допомогою:

У жодному разі програма не здійснює коригування коефіцієнтів контрастів.

Аналіз планів із пропущеними осередками (неповні плани)

Факторні плани, що містять порожні осередки (обробка комбінацій осередків, у яких немає спостережень), називаються неповними. У таких планах деякі фактори зазвичай не ортогональні і деякі взаємодії не можуть бути обчислені. Взагалі немає кращого методу аналізу таких планів.

Регресійний підхід

У деяких старих програмах, які ґрунтуються на аналізі планів дисперсійного аналізу за допомогою багатовимірної регресії, фактори у неповних планах за замовчуванням задаються звичайним чином(як план повний). Потім проводиться багатовимірний регресійний аналіздля цих фіктивно закодованих факторів. На жаль, цей метод призводить до результатів, які дуже важко, або навіть неможливо, інтерпретувати, оскільки неясно, як кожен ефект бере участь у лінійній комбінації середніх значень. Розглянемо наступний приклад.

Фактор A Фактор B
B1 B2
A1 3 4, 5
A2 6, 6, 7 Пропущено

Якщо виконуватиметься багатовимірна регресія виду Залежна змінна = Константа + Фактор A + Фактор B, то гіпотеза про значимість факторів A і B в термінах лінійних середніх комбінацій виглядає так:

Фактор A: Осередок A1, B1 = Осередок A2, B1

Фактор B: Осередок A1, B1 = Осередок A1, B2

Цей випадок простий. У складніших планах неможливо фактично визначити, що точно досліджуватиметься.

Середні осередки, підхід дисперсійного аналізу , гіпотези типу IV

Підхід, який рекомендується в літературі і який здається кращим – дослідження осмислених (з точки зору дослідницьких завдань) апріорнихгіпотез про середні, що спостерігаються в осередках плану. Докладне обговорення цього підходу можна знайти в Dodge (1985), Heiberger (1989), Milliken and Johnson (1984), Searle (1987) або Woodward, Bonett, and Brecht (1990). Суми квадратів, асоційовані з гіпотезами про лінійну комбінацію середніх у неповних планах, що досліджують оцінки частини ефектів, називаються також сумами квадратів IV.

Автоматична генерація гіпотез типуIV. Коли багатофакторні плани мають складний характерпропущених осередків, бажано визначити ортогональні (незалежні) гіпотези, дослідження яких еквівалентне дослідженню головних ефектів чи взаємодій. Були розвинені алгоритмічні (обчислювальні) стратегії (засновані на псевдозворотній матриці плану) для генерування ваги для таких порівнянь. На жаль, остаточні гіпотези визначаються не єдиним чином. Звичайно, вони залежать від порядку, в якому були визначені ефекти і рідко допускають просту інтерпретацію. Тому рекомендується уважно вивчити характер пропущених осередків, потім формулювати гіпотези типуIV, які найбільш змістовно відповідають цілям дослідження. Потім дослідити ці гіпотези, використовуючи опцію Сплановані порівнянняу вікні Результати. Самий легкий шляхвстановити порівняння в цьому випадку - вимагати введення вектора контрастів для всіх факторів разому вікні Сплановані порівняння.Після виклику діалогового вікна Сплановані порівняннябудуть показані всі групи поточного плану та позначені ті, що пропущені.

Пропущені осередки та перевірка специфічного ефекту

Існує кілька типів планів, у яких розташування пропущених осередків невипадково, але ретельно сплановано, що дозволяє проводити простий аналіз головних ефектів не торкаючись інших ефектів. Наприклад, коли необхідна кількість комірок у плані недоступна, часто використовуються плани. Латинські квадратидля оцінювання основних ефектів кількох чинників із великою кількістю рівнів. Наприклад, 4 x 4 x 4 x 4 факторний план потребує 256 осередків. У той же час можна використовувати Греко-латинський квадратдля оцінки головних ефектів, маючи лише 16 осередків у плані (глава Планування експерименту, том IV містить детальний опис таких планів). Неповні плани, в яких головні ефекти (і деякі взаємодії) можуть бути оцінені за допомогою простих лінійних середніх комбінацій, називаються збалансованими неповними планами.

У збалансованих планах стандартний (за замовчуванням) метод генерування контрастів (ваг) для головних ефектів і взаємодій буде проводити аналіз таблиці дисперсій, в якій суми квадратів для відповідних ефектів не змішуються один з одним. Опція Специфічний ефектвікна Результатибуде генерувати пропущені контрасти, записуючи нуль у пропущені комірки плану. Відразу після того, як буде запрошено опцію Специфічний ефектдля користувача, який вивчає деяку гіпотезу, з'являється таблиця результатів із фактичними вагами. Зауважимо, що у збалансованому плані, суми квадратів відповідних ефектів обчислюються тільки, якщо ці ефекти ортогональні (незалежні) всім іншим головним ефектам та взаємодіям. В іншому випадку потрібно скористатися опцією Сплановані порівняннявивчення змістовних порівнянь між середніми.

Пропущені осередки та об'єднані ефекти/члени помилки

Якщо опція Регресійний підхіду стартовій панелі модуля Дисперсійний аналізне вибрано, то при обчисленні суми квадратів для ефектів використовуватиметься модель середніх за комірками (установка за замовчуванням). Якщо план не збалансований, то при поєднанні неортогональних ефектів (див. вище обговорення опції Пропущені осередки та специфічний ефект) можна отримати суму квадратів, що складається з неортогональних (або перекриваються) компонентів. Отримані при цьому результати зазвичай не інтерпретовані. Тому треба бути дуже обережним під час виборів та реалізації складних неповних експериментальних планів.

Існує багато книг із детальним обговоренням планів різного типу. (Dodge, 1985; Heiberger, 1989; Lindman, 1974; Milliken and Johnson, 1984; Searle, 1987; Woodward and Bonett, 1990), але така інформація лежить поза межами цього підручника. Тим не менш, пізніше в цьому розділі буде продемонстровано аналіз різного типупланів.

Припущення та ефекти порушення припущень

Відхилення від припущення щодо нормальності розподілів

Припустимо, що залежна змінна виміряна у числовій шкалі. Припустимо також, що залежна змінна має нормальний розподіл усередині кожної групи. Дисперсійний аналізмістить широкий набір графіків та статистик для обґрунтування цього припущення.

Ефекти порушення.Взагалі Fкритерій дуже стійкий до відхилення від нормальності (докладні результати див. у роботі Lindman, 1974). Якщо ексцес більший за 0, то значення статистики Fможе стати дуже маленьким. Нульова гіпотеза у своїй приймається, хоча може бути й неправильна. Ситуація змінюється на протилежну, коли ексцес менший за 0. Асиметрія розподілу зазвичай незначно впливає на Fстатистику. Якщо кількість спостережень у осередку досить велика, то відхилення від нормальності немає особливого значенняв силу центральної граничної теореми, відповідно до якої, розподіл середнього значення близький до нормального, незалежно від початкового розподілу. Детальне обговорення стійкості FСтатистики можна знайти в Box and Anderson (1955), або Lindman (1974).

Однорідність дисперсії

Припущення.Передбачається, що дисперсії різних груп плану однакові. Це припущення називається припущенням про однорідності дисперсії.Згадаймо, що на початку цього розділу, описуючи обчислення суми квадратів помилок, ми робили підсумовування всередині кожної групи. Якщо дисперсії у двох групах відрізняються один від одного, то додавання їх не дуже природне і не дає оцінки загальної внутрішньогрупової дисперсії (оскільки в цьому випадку загальної дисперсії взагалі не існує). Модуль Дисперсійний аналіз -ANOVA/MANOVAмістить великий набір статистичних критеріїввиявлення відхилень від припущень однорідності дисперсії

Ефекти порушення.Ліндман (Lindman 1974, стор 33) показує, що Fкритерій цілком стійкий щодо порушення припущень однорідності дисперсії ( неоднорідністьдисперсії, див. також Box, 1954a, 1954b; Hsu, 1938).

Спеціальний випадок: кореленість середніх та дисперсій.Бувають випадки, коли Fстатистика може ввести в оману.Це буває, коли в осередках плану середні значення корелюються з дисперсією. Модуль Дисперсійний аналіздозволяє будувати діаграми розсіювання дисперсії або стандартного відхилення щодо середніх виявлення такої кореляції. Причина, через яку така кореляція небезпечна, полягає в наступному. Уявімо, що є 8 осередків у плані, 7 з яких мають майже однакове середнє, а в одному осередку середнє набагато більше за інших. Тоді Fкритерій може виявити статистично значущий ефект. Але припустимо, що у осередку з великим середнім значенням і дисперсія значно більше інших, тобто. середнє значення і дисперсія в осередках залежні (що більше середнє, то більше вписувалося дисперсія). І тут велике середнє значення ненадійно, оскільки може бути викликано великий дисперсією даних. Однак Fстатистика, заснована на об'єднаноюдисперсії всередині осередків, фіксуватиме велике середнє, хоча критерії, засновані на дисперсії у кожному осередку, в повному обсязі відмінності середніх вважатимуть значимими.

Такий характер даних (велике середнє і велика дисперсія) - часто зустрічається, коли є спостереження, що різко виділяються. Одне або два різко виділяються спостережень сильно зміщують середнє значення і дуже збільшують дисперсію.

Однорідність дисперсії та підступів

Припущення.У багатовимірних планах, з багатовимірними залежними вимірами, також застосовуються припущення однорідності дисперсії, описані раніше. Однак так як існують багатовимірні залежні змінні, то потрібно так само, щоб їх взаємні кореляції (коваріації) були однорідними по всіх осередках плану. Модуль Дисперсійний аналізпропонує різні способиперевірки цих припущень.

Ефекти порушення. Багатовимірний аналог F- критерію - λ-критерій Вілкса. Не так багато відомо про стійкість (робастність) λ-критерію Вілкса щодо порушення зазначених вище припущень. Тим не менш, так як інтерпретація результатів модуля Дисперсійний аналізґрунтується зазвичай на значущості одновимірних ефектів (після встановлення значущості загального критерію), обговорення робастності стосується переважно одномірного дисперсійного аналізу. Тому має бути уважно досліджено значущість одновимірних ефектів.

Спеціальний випадок: підступний аналіз.Особливо серйозні порушення однорідності дисперсії/коваріацій можуть відбуватися, коли до плану включаються коваріати. Зокрема, якщо кореляція між коваріатами і залежними вимірами різна в різних осередках плану, може бути неправильне тлумачення результатів. Слід пам'ятати, що в коваріаційному аналізі, по суті, проводиться регресійний аналіз усередині кожного осередку для того, щоб виділити ту частину дисперсії, яка відповідає коваріату. Припущення про однорідність дисперсії/коваріації передбачає, що цей регресійний аналіз проводиться за наступного обмеження: всі регресійні рівняння (нахили) всім осередків однакові. Якщо це не передбачається, то можуть виникнути великі помилки. Модуль Дисперсійний аналізмає кілька спеціальних критеріїв для перевірки цього припущення. Можна порадити використовувати ці критерії, щоб переконатися, що регресійні рівняння для різних осередків приблизно однакові.

Сферичність та складна симетрія: причини використання багатовимірного підходу до повторних вимірів у дисперсійному аналізі

У планах, що містять фактори повторних вимірювань з більш ніж двома рівнями, застосування одновимірного дисперсійного аналізу потребує додаткових припущень: припущення складної симетрії та припущення сферичності. Ці припущення рідко виконуються (див. нижче). Тому в останні роки багатовимірний дисперсійний аналіз завоював популярність у таких планах (обидва підходи поєднані в модулі Дисперсійний аналіз).

Припущення про складну симетріюПрипущення складної симетрії у тому, що дисперсії (загальні внутригрупповые) і ковариации (по групам) щодо різних повторних вимірів однорідні (однакові). Це достатня умова для того, щоб одномірний критерій F для повторних вимірювань був обґрунтованим (тобто видані F-значення в середньому відповідали F-розподілу). Проте в даному випадку ця умова не є необхідною.

Припущення про сферичність.Припущення про сферичність є необхідним та достатньою умовоютого, щоб F-критерій був обґрунтованим. Воно у тому, що у груп всі спостереження незалежні і однаково розподілені. Природа цих припущень, а також вплив їх порушень зазвичай не дуже добре описані в книгах дисперсійного аналізу - ця буде описана в наступних параграфах. Там буде показано, що результати одновимірного підходу можуть відрізнятися від результатів багатовимірного підходу, і буде пояснено, що це означає.

Необхідність незалежності гіпотез.Загальний спосіб аналізу даних у дисперсійному аналізі – це припасування моделі. Якщо щодо моделі, що відповідає даним, є деякі апріорнігіпотези, то дисперсія розбивається для перевірки цих гіпотез (критерії основних ефектів, взаємодій). З погляду обчислень, цей підхід генерує кілька контрастів (множина порівнянь середніх у плані). Однак якщо контрасти не незалежні один від одного, розбиття дисперсій стає беззмістовним. Наприклад, якщо два контрасти Aі Bтотожні і виділяється відповідна їм частина з дисперсії, то та сама частина виділяється двічі. Наприклад, безглуздо і безглуздо виділяти дві гіпотези: "середнє в осередку 1 вище середнього в осередку 2" і "середнє в осередку 1 вище середнього в осередку 2". Отже, гіпотези мають бути незалежні або ортогональні.

Незалежні гіпотези при повторних вимірах. Загальний алгоритм, реалізований у модулі Дисперсійний аналіз, намагатиметься для кожного ефекту генерувати незалежні (ортогональні) контрасти. Для фактора повторних вимірювань ці контрасти задають безліч гіпотез щодо різницьміж рівнями аналізованого фактора. Однак якщо ці різниці корелюються всередині груп, то результуючі контрасти не є більш незалежними. Наприклад, у навчанні, де учні вимірюються тричі за один семестр, може статися, що зміни між 1 і 2 виміром негативно корелюють зі зміною між 2 та 3 вимірами суб'єктів. Ті, хто велику частинуматеріалу освоїв між 1 і 2 вимірами, освоюють меншу частину протягом того часу, який пройшов між 2 і 3 виміром. Насправді, для більшості випадків, де дисперсійний аналіз використовуються при повторних вимірах, можна припустити, що зміни за рівнями корелюються суб'єктами. Однак коли це трапляється, припущення про складну симетрію та припущення про сферичність не виконуються і незалежні контрасти не можуть бути обчислені.

Вплив порушень та способи їх виправлення.Коли припущення про складну симетрію або сферичність не виконуються, дисперсійний аналіз може видати помилкові результати. До того, як були розроблені багатовимірні процедури, було запропоновано кілька припущень для компенсації порушень цих припущень. (див., наприклад, роботи Greenhouse & Geisser, 1959 та Huynh & Feldt, 1970). Ці методи досі широко використовуються (тому вони представлені в модулі Дисперсійний аналіз).

Підхід багатовимірного дисперсійного аналізу до повторних вимірів.Загалом проблеми складної симетрії та сферичності відносяться до того факту, що безліч контрастів, включених у дослідження ефектів факторів повторних вимірів (з числом рівнів більшим, ніж 2) не незалежні один від одного. Однак їм не обов'язково бути незалежними, якщо використовується багатовимірнийкритерій для одночасної перевірки статистичного значеннядвох чи більше контрастів фактора повторних вимірів. Це є причиною того, що методи багатовимірного дисперсійного аналізу стали частіше використовуватися для перевірки значущості факторів одновимірних повторних вимірів з більш ніж 2 рівнями. Цей підхід широко поширений, тому що він, у загальному випадку, не вимагає припущення про складну симетрію та припущення про сферичність.

Випадки, в яких підхід багатовимірного дисперсійного аналізу не може бути використаний.Існують приклади (плани), коли підхід багатовимірного дисперсійного аналізу може бути застосований. Зазвичай це випадки, коли є невелика кількість суб'єктів у плані та багато рівнів у факторі повторних вимірів. Тоді для проведення багатовимірного аналізу може бути замало спостережень. Наприклад, якщо є 12 суб'єктів, p = 4 фактора повторних вимірювань, і кожен фактор має k = 3 рівнів. Тоді взаємодія 4-х факторів "витрачатиме" (k-1) P = 2 4 = 16 степенів свободи. Проте є лише 12 суб'єктів, отже, у цьому прикладі багатовимірний тест може бути проведено. Модуль Дисперсійний аналізсамостійно виявить ці спостереження та обчислить лише одномірні критерії.

Відмінності в одновимірних та багатовимірних результатах.Якщо дослідження включає велику кількість повторних вимірювань, можуть виникнути випадки, коли одновимірний підхід дисперсійного аналізу до повторних вимірювань дає результати, які сильно відрізняються від тих, які були отримані при багатовимірному підході. Це означає, що різниці між рівнями відповідних повторних вимірів корелюються суб'єктами. Іноді цей факт представляє певний самостійний інтерес.

Багатомірний дисперсійний аналіз та структурне моделювання рівнянь

В останні роки моделювання структурних рівнянь стало популярним як альтернатива багатовимірному аналізу дисперсії (див. наприклад, Bagozzi and Yi, 1989; Bagozzi, Yi, and Singh, 1991; Cole, Maxwell, Arvey, and Salas, 1993). Цей підхід дозволяє перевіряти гіпотези не тільки про середні в різних групах, але так само і про кореляційні матриці залежних змінних. Наприклад, можна послабити припущення про однорідність дисперсії та підступів і явно включити в модель для кожної групи дисперсії та підступності помилки. Модуль STATISTICAМоделювання структурними рівняннями (SEPATH) (див. Том III) дозволяє проводити такий аналіз.

Дисперсійний аналіз дозволяє досліджувати різницю між групами даних, визначати, чи носять ці розбіжності випадковий характер чи викликані конкретними обставинами. Наприклад, якщо продажі фірми в одному з регіонів знизилися, то за допомогою дисперсійного аналізу можна з'ясувати, чи випадково зниження оборотів у цьому регіоні порівняно з іншими, і за необхідності зробити організаційні зміни. За виконання експерименту в різних умовах дисперсійний аналіз допоможе визначити, наскільки впливають зовнішні чинникина виміри, чи відхилення носять випадковий характер. Якщо на виробництві для поліпшення якості продукції змінюють режим процесів, дисперсійний аналіз дозволяє оцінити результати впливу даного фактора.

На цьому прикладіми покажемо, як виконувати дисперсійний аналіз експериментальних даних.

Завдання 1. Є чотири партії сировини для текстильної промисловості. З кожної партії відібрано по п'ять зразків та проведено випробування на визначення величини розривного навантаження. Результати випробувань наведено у таблиці.

71" height="29" bgcolor="white" style="border:.75pt solid black; vertical-align:top;background:white">

Рис.1


> Відкрийте табличний процесор Microsoft Excel. Клацніть на ярлику Лист2 (Sheet2), щоб перейти на інший робочий лист.

> Введіть дані дисперсійного аналізу, зображені на рис.1.

> Перетворіть дані на числовий формат. Для цього виберіть команду меню Формат Комірки. На екрані з'явиться вікно формат комірок (Мал.2). Виберіть Числовий формат і введені дані перетворюються на вигляд, показаний на рис. 3

> Виберіть команду меню Сервіс Аналіз даних (Тоо1s * Data Апа1уsis). На екрані з'явиться вікно Аналіз даних (Data Апа1уsis) (Рис.4).

> Клацніть на рядку Однофакторний дисперсійний аналіз (Аnоvа: Single Factor) у списку Інструменти аналізу (Апа1уsis Тоо1s).

> Натисніть кнопку ОК, щоб закрити вікно Аналіз даних (Data Апа1уsis). На екрані з'явиться вікно Однофакторний дисперсійний аналіз для дисперсійного аналізу даних (Рис.5).

https://pandia.ru/text/78/446/images/image006_46.jpg" width="311" height="214 src=">

Рис.5

> Якщо у групі елементів керування Вхідні дані(Input) не встановлений перемикач по рядках, то встановіть його, щоб програма Ехcel сприймала групи даних по рядках – партіям.

> Встановіть прапорець Міткиу першому рядку (Labels in Firts Rom) у групі елементів керування Вхідні дані (Input), якщо перший стовпець виділеного діапазону даних містить назви рядків.

> У полі введення Альфа(А1рhа) групи елементів керування Вхідні дані за умовчанням відображається величина 0,05, яка пов'язана з ймовірністю виникнення помилки дисперсійного аналізу.

> Якщо в групі елементів керування Параметри виводу (Input options) не встановлено перемикач Новий робочий лист (Nev Worksheet Ply), то встановіть його, щоб результати дисперсійного аналізу були поміщені на новий робочий лист

> Натисніть кнопку ОК, щоб закрити вікно Однофакторний дисперсійний аналіз (Аnоvа: Single Factor). На новому робочому аркуші з'являться результати дисперсійного аналізу (рис. 6).

У діапазоні осередків А4:Е6 розташовані результати описової статистики. У рядку 4 є назви параметрів, у рядках статистичні значення, обчислені за партіями.

У стовпці Рахунок(Соunt) розташовані кількості вимірювань, у стовпці Сума – суми величин, у стовпці Середнє (Avегаgе) – середні арифметичні значення, у стовпці Дисперсія (Vаriаnсе) – дисперсії.

Отримані результати показують, що найбільше середнє розривне навантаження партії №3, а найбільша дисперсія розривного навантаження – партії №1.

У діапазоні осередків А11:G16 відображається інформація, що стосується суттєвості розбіжностей між групами даних. У рядку 12 знаходяться назви параметрів дисперсійного аналізу, у рядку 13 – результати міжгрупової обробки, у рядку 14 – результати внутрішньогрупової обробки, а в рядку 16 – суми значень згадуваних двох рядків.

У стовпці SS (Qi) розташовані величини варіювання, тобто суми квадратів за всіма відхиленнями. Варіювання, як і дисперсія, характеризує розкид даних. По таблиці можна побачити, що міжгруповий розкид розривної навантаження значно вище величини внутригруппового варіювання.

У стовпці df (k) є значення чисел ступенів свободи. Дані числа вказують на кількість незалежних відхилень, за якими обчислюватиметься дисперсія. Наприклад, міжгрупове число ступенів свободи дорівнює різниці кількості груп даних та одиниці. Чим більша кількість ступенів свободи, тим вища надійність дисперсійних параметрів. Дані ступенів свобод у таблиці показують, що для внутрішньогрупових результатів надійність вища, ніж міжгрупових параметрів.

У стовпці MS (S2 ) розташовані величини дисперсії, які визначаються ставленням варіювання та числа ступенів свобод. Дисперсія характеризує ступінь розкиду даних, але на відміну величини варіювання, немає прямої тенденції збільшуватися зі зростанням числа ступенів свобод. З таблиці видно, що міжгрупова дисперсія значно більша за внутрішньогрупову дисперсію.

У стовпці Fзнаходиться, значення F-статистики, що обчислюється відношенням міжгрупової та внутрішньогрупової дисперсій

У стовпці Fкритичне(F crit) розташоване F-критичне значення, що розраховується за кількістю ступенів свободи та величиною Альфа (А1рhа). F-статистика та F-критичне значення використовують критерій Фішера-Сніданок.

Якщо F-статистика більша за F-критичне значення, то можна стверджувати, що відмінності між групами даних носять невипадковий характер. тобто на рівні значимості α = 0,05 (з надійністю 0,95) нульова гіпотеза відкидається і приймається альтернативна: Відмінність між партіями сировини істотно впливає на величину розривного навантаження.

У стовпці Р-значення (Р-value) є значення ймовірності того, що розбіжність між групами випадкова. Так як у таблиці дана можливість дуже мала, то відхилення між групами носить невипадковий характер.

2. Розв'язання задач двофакторного дисперсійного аналізу без повторень

Microsoft Excel має функцію Anova: (Two-Factor Without Replication), яка використовується для виявлення факту впливу контрольованих факторів А і У на результативну ознаку на основі вибіркових даних, причому кожному рівню факторів А і У відповідає лише одна вибірка. Для виклику цієї функції необхідно на панелі меню вибрати команду Сервіс - Аналіз даних. На екрані відкриється вікно Аналіз даних, в якому слід вибрати значення Двофакторний дисперсійний аналіз без повтореньта клацнути на кнопці ОК. У результаті екрані розкриється діалогове вікно, показане малюнку 1.

78" height="42" bgcolor="white" style="border:.75pt solid black; vertical-align:top;background:white">

2. Прапорець опції Мітки (Labels) встановлюється, якщо перший рядок у вхідному діапазоні містить заголовки стовпців. Якщо заголовки відсутні, прапорець слід скинути. У цьому випадку для даних вихідного діапазону будуть автоматично створені стандартні назви.

3. У полі Альфа вводиться прийнятий рівень значимості α , Що відповідає ймовірності виникнення помилки першого роду.

4. Перемикач групи Output options може бути встановлений в одне з трьох положень: Output Range (Вихідний діапазон), New Worksheet Ply (Новий робочий лист) або New Workbook (Нова робоча книга).

приклад.

Двофакторний дисперсійний аналіз без повторень(Anova: Two-Factor Without Replication) на наступному прикладі.

На малюнку. 2 представлені дані про врожайність (ц/га) чотирьох сортів пшениці (чотири рівні фактора А), досягнутої при використанні п'яти типів добрив (п'ять рівнів фактора). Дані отримані на 20 ділянках однакового розміру та аналогічного ґрунтового покриву. Необхідно визначитичи впливає сорт і тип добрива на врожайність пшениці.

Двофакторний дисперсійний аналіз без повтореньпредставлені малюнку 3.

Як бачимо за результатами, розрахункове значення величини F-статистики для фактора А (тип добрива) FА= l,67 а критична область утворюється правостороннім інтервалом (3,49; +∞). Так як FА= l,67 не потрапляє у критичну область, гіпотезу НА: a 1 = a 2 + = ak приймаємо, тобто вважаємо, що в цьому експерименті тип добрива не вплинув на врожайність.

Розрахункове значення величини F-статистики для фактора (сорт пшениці) FУ =2,03 а критична область утворюється правостороннім інтервалом (3,259;+∞).

Так як FУ=2,03 не потрапляє у критичну область, гіпотезу НВ: b1 = b2 = ... = bm

також приймаємо, тобто вважаємо, що в даному Експеримент сорт пшениці також не вплинув на врожайність.

2. Двофакторний дисперсійний аналізcповтореннями

Microsoft Excel має функцію Anova: Двофакторний дисперсійний аналіз з повтореннями (Two-Factor With Replication), яка також використовується для виявлення факту впливу контрольованих факторів А і В на результативну ознаку на основі вибіркових даних, однак кожному рівню одного з факторів А (або В) відповідає більше однієї вибірки даних.

Розглянемо використання функції Двофакторний дисперсійний аналіз із повтореннямина прикладі.

Приклад 2. В таблиці. 6 наведено добові прирости (г) зібраних для дослідження 18 поросят залежно від методу утримання поросят (фактор А) та якості їх годування (фактор В).

75" height="33" bgcolor="white" style="border:.75pt solid black; vertical-align:top;background:white">

У цьому діалоговому вікні задаються такі параметри.

1. У полі Вхідний інтервал (Input Range) вводиться посилання діапазон осередків, що містить аналізовані дані. Необхідно виділити комірки від G 4 до I 13.

2. У полі Число рядків для вибірки (Rows per sample) визначається число вибірок, яке припадає на кожний рівень одного з факторів. Кожен рівень фактора повинен містити те саме кількість вибірок (рядок таблиці). У нашому випадку кількість рядків дорівнює трьом.

3. У полі Альфа (Alpha) вводиться прийняте значення рівня значимості α , Що дорівнює ймовірності виникнення помилки першого роду.

4. Перемикач групи Output options може бути встановлений в одне з трьох положень: Output Range (Вихідний інтервал), New Worksheet Ply (Новий робочий лист) або New Workbook (Нова робоча книга).

Результати двофакторного дисперсійного аналізу за допомогою функції Двофакторний дисперсійний аналіз з суттєвими повтореннями.В силу того, що взаємодія зазначених чинників незначна (на 5%-ном рівні).

Завдання додому

1. Протягом шести років використовувалися п'ять різних технологій вирощування сільськогосподарської культури. Дані з експерименту (у ц/га) наведено у таблиці:

https://pandia.ru/text/78/446/images/image024_11.jpg" width="642" height="190 src=">

Потрібно лише на рівні значимості α = 0,05 встановити залежність випуску якісних плиток від лінії випуску (фактора А).

3. Є такі дані про врожайність чотирьох сортів пшениці на виділених п'яти ділянках землі (блоках):

https://pandia.ru/text/78/446/images/image026_9.jpg" width="598" height="165 src=">

Потрібно лише на рівні значимості α = 0,05 встановити впливом геть продуктивність праці технологій (фактора А) і підприємств (фактора У).

) призначений для порівняння виключно двох сукупностей. Однак часто він невірно використовується для порівняння попарного більшої кількості груп (рис. 1), що викликає т.зв. ефект множинних порівнянь(англ. multiple comparisons;Гланц 1999, с. 101-104). Про цей ефект і як з ним боротися, ми поговоримо пізніше. У цьому повідомленні я опишу принципи однофакторного дисперсійного аналізу, якраз призначеного для одночасногопорівняння середніх значень двох та більше груп. Принципи дисперсійного аналізу (англ. an alysis o f va riance, ANOVA) були розроблені в 1920-х роках. сером Рональдом Ейлмером Фішером (англ. Ronald Aylmer Fisher) - "генієм, який мало не поодинці заклав основи сучасної статистики" (Hald 1998).

Може виникнути питання: чому метод, який використовується для порівняння середніхзначень, називається дисперсійниманалізом? Справа в тому, що при встановленні різниці між середніми значеннями ми насправді порівнюємо дисперсії аналізованих сукупностей. Однак про все по порядку...

Постановка задачі

Розглянутий нижче приклад запозичений із книги Maindonald & Braun(2010). Є дані про вагу томатів (вся рослина цілком; weight, в кг), які вирощували протягом 2 місяців за трьох різних експериментальних умов (trt, від treatment) - на воді (water ), у середовищі з додаванням добрива (nutrient ), а також у середовищі з додаванням добрива та гербіциду 2,4-D (nutrient+24D ):

# Створимо таблицю з даними: tomato<- data.frame (weight= c (1.5 , 1.9 , 1.3 , 1.5 , 2.4 , 1.5 , # water 1.5 , 1.2 , 1.2 , 2.1 , 2.9 , 1.6 , # nutrient 1.9 , 1.6 , 0.8 , 1.15 , 0.9 , 1.6 ) , # nutrient+24D trt = rep (c ("Water" , "Nutrient" , "Nutrient+24D" ) , c (6 , 6 , 6 ) ) ) # Переглянемо результат: weight weight trt 1 1.50 Water 2 1.90 Water 3 1.30 Water 4 1.50 Water 5 2.40 Water 6 1.50 Water 7 1.50 Nutrient 8 1.20 Nutrient 9 1.20 Nutrient 10 2.10 Nutrient 11 2.90 Nutrient 12 1.60 Nutrient 13 1.90 Nutrient+24D 14 1.60 Nutrient+24D 15 0.80 Nutrient+24D 16 1.15 Nutrient+24D 17 0.90 Nutrient+24D 18 1.60 Nutrient+24D


Змінна trt є фактором з трьома рівнями. Для наочного порівняння експериментальних умов у подальшому, зробимо рівень " water " базовим (англ. reference), тобто. рівнем, з яким R порівнюватиме всі інші рівні. Це можна зробити за допомогою функції relevel() :


Щоб краще зрозуміти властивості наявних даних, візуалізуємо їх за допомогою спостережуваних відмінностей між груповими середніми несуттєвими і викликані впливом випадкових факторів (тобто насправді всі отримані вимірювання ваги рослин походять з однієї нормально розподіленої генеральної сукупності):

Підкреслимо ще раз, що приклад, що розглядається, відповідає нагоді однофакторногодисперсійного аналізу: вивчається дія одного фактора - умов вирощування (з трьома рівнями - Water, Nutrient і Nutrient+24D) на змінну-відгук, що цікавить нас, - вага рослин.

На жаль, дослідник майже ніколи не має змоги вивчити всю генеральну сукупність. Як нам тоді дізнатися, чи правильна наведена вище нульова гіпотеза, маючи лише вибірковими даними? Ми можемо сформулювати це питання інакше: яка ймовірність отримати спостерігаються відмінності між груповими середніми, одержуючи випадкові вибірки з однієї нормально розподіленої генеральної сукупності? Для відповіді це питання нам потрібно статистичний критерій, який кількісно характеризував б величину відмінностей між порівнюваними групами.

Завдання. Студентів 1-го курсу опитували для виявлення занять, яким вони присвячують свій вільний час. Перевірте, чи різняться розподіл вербальних та невербальних переваг студентів.

Рішенняпроводимо з використанням калькулятора.
Знаходимо групові середні:

NП 1П 2
1 12 17
2 18 19
3 23 25
4 10 7
5 15 17
x ср 15.6 17

Позначимо р - кількість рівнів фактора (р = 2). Число вимірів на кожному рівні однаково і дорівнює q=5.
В останньому рядку розміщені групові середні для кожного рівня фактора.
Загальну середню можна отримати як середнє арифметичне групових середніх:
(1)
На розкид групових середніх процентів відмови щодо загальної середньої впливають як зміни рівня аналізованого фактора, так і випадкові фактори.
Щоб врахувати вплив даного фактора, загальна вибіркова дисперсія розбивається на дві частини, перша з яких називається факторною S 2 ф, а друга - залишкової S 2 зуп.
З метою обліку цих складових спочатку розраховується загальна сума квадратів відхилень варіант від загальної середньої:

та факторна сума квадратів відхилень групових середніх від загальної середньої, яка і характеризує вплив даного фактора:

Останній вираз отримано шляхом заміни кожної варіанти у виразі R загальної групової середньої для даного фактора.
Залишкова сума квадратів відхилень виходить як різниця:
R ост = R заг - R ф
Для визначення загальної вибіркової дисперсії необхідно R заг розділити на число вимірювань pq:

а для отримання незміщеної загальної вибіркової дисперсії цей вираз потрібно помножити на pq/(pq-1):

Відповідно, для незміщеної факторної вибіркової дисперсії:

де p-1 – число ступенів свободи незміщеної факторної вибіркової дисперсії.
З метою оцінки впливу фактора на зміни параметра, що розглядається, розраховується величина:

Так як відношення двох вибіркових дисперсій S 2 ф і S 2 ост розподілено за законом Фішера-Снедекору, отримане значення f набл порівнюють зі значенням функції розподілу

у критичній точці f кр, що відповідає обраному рівню значимості a.
Якщо f набл >f кр, то чинник істотно впливає і його слід враховувати, інакше він має незначний вплив, яким можна знехтувати.
Для розрахунку R набл і R ф можуть бути використані формули:
(4)
(5)
Знаходимо загальну середню за формулою (1):
Для розрахунку Rзаг за формулою (4) складаємо таблицю 2 квадратів варіант:
NП 2 1П 2 2
1 144 289
2 324 361
3 529 625
4 100 49
5 225 289
1322 1613

Загальна середня обчислюється за формулою (1):

R заг = 1322 + 1613 - 5 2 16.3 2 = 278.1
Знаходимо R ф за формулою (5):
R ф = 5 (15.6 2 + 17 2) - 2 16.3 2 = 4.9
Отримуємо R ост: R ост = R заг - R ф = 278.1 - 4.9 = 273.2
Визначаємо факторну та залишкову дисперсії:


Якщо середні значення випадкової величини, обчислені за окремими вибірками однакові, оцінки факторної і залишкової дисперсій є незміщеними оцінками генеральної дисперсії і різняться несуттєво.
Тоді зіставлення оцінок цих дисперсій за критерієм Фішера має показати, що нульову гіпотезупро рівність факторної та залишкової дисперсій відкинути немає підстав.
Оцінка факторної дисперсії менша за оцінку залишкової дисперсіїтому можна відразу стверджувати справедливість нульової гіпотези про рівність математичних очікуваньза шарами вибірки.
Інакше висловлюючись, у цьому прикладі чинник Ф надає істотного впливу випадкову величину.
Перевіримо нульову гіпотезу H0: рівність середніх значень х.
Знаходимо f набл

Для рівня значущості α=0.05, чисел ступенів свободи 1 та 8 знаходимо f кр з таблиці розподілу Фішера-Снедекору.
f кр (0.05; 1; 8) = 5.32
У зв'язку з тим, що f набл< f кр, нулевую гипотезу о существенном влиянии фактора на результаты экспериментов отклоняем.
Інакше кажучи, розподіл вербальних і невербальних переваг студентів різняться.

Завдання. На заводі встановлено чотири лінії з випуску облицювальної плитки. З кожної лінії випадково протягом зміни відібрано по 10 плиток і зроблено виміри їх товщини (мм). Відхилення від номінального розміру наведено у таблиці. Потрібно лише на рівні значимості a = 0,05 встановити наявність залежності випуску якісних плиток від лінії випуску (фактор A).

Завдання. На рівні важливості a = 0,05 вивчити вплив кольору фарби на термін служби покриття.

Приклад №1. Зроблено 13 випробувань, з них – 4 на першому рівні фактора, 4 – на другому, 3 – на третьому та 2 на четвертому. Методом дисперсійного аналізу за рівня значущості 0,05 перевірити нульову гіпотезу про рівність групових середніх. Передбачається, що вибірки вилучені із нормальних сукупностей з однаковими дисперсіями. Результати випробувань наведено у таблиці.

Рішення:
Знаходимо групові середні:

NП 1П 2П 3П 4
1 1.38 1.41 1.32 1.31
2 1.38 1.42 1.33 1.33
3 1.42 1.44 1.34 -
4 1.42 1.45 - -
5.6 5.72 3.99 2.64
x ср 1.4 1.43 1.33 1.32

Позначимо р - кількість рівнів фактора (р = 4). Число вимірів на кожному рівні дорівнює: 4,4,3,2
В останньому рядку розміщені групові середні для кожного рівня фактора.
Загальна середня обчислюється за такою формулою:

Для розрахунку Sзаг за формулою (4) складаємо таблицю 2 квадратів варіант:

NП 2 1П 2 2П 2 3П 2 4
1 1.9 1.99 1.74 1.72
2 1.9 2.02 1.77 1.77
3 2.02 2.07 1.8 -
4 2.02 2.1 - -
7.84 8.18 5.31 3.49

Загальну суму квадратів відхилень знаходять за такою формулою:


Знаходимо S ф за формулою:


Отримуємо S ост: S ост = S заг - S ф = 0.0293 - 0.0263 = 0.003
Визначаємо факторну дисперсію:

та залишкову дисперсію:

Якщо середні значення випадкової величини, обчислені за окремими вибірками однакові, оцінки факторної і залишкової дисперсій є незміщеними оцінками генеральної дисперсії і різняться несуттєво.
Тоді зіставлення оцінок цих дисперсій за критерієм Фішера має показати, що нульову гіпотезу про рівність факторної та залишкової дисперсій відкинути немає підстав.
Оцінка факторної дисперсії більша за оцінку залишкової дисперсії, тому можна відразу стверджувати не справедливість нульової гіпотези про рівність математичних очікувань за шарами вибірки.
Інакше висловлюючись, у цьому прикладі чинник Ф істотно впливає на випадкову величину.
Перевіримо нульову гіпотезу H0: рівність середніх значень х.
Знаходимо f набл

Для рівня значущості α=0.05, чисел ступенів свободи 3 і 12 знаходимо f кр таблиці розподілу Фішера-Снедекора.
f кр (0.05; 3; 12) = 3.49
У зв'язку з тим, що f набл > f кр, нульову гіпотезу про суттєвий вплив фактора на результати експериментів приймаємо (нульову гіпотезу про рівність групових середніх відкидаємо). Інакше кажучи, групові середні загалом різняться значимо.

Приклад №2. У школі 5 шостих класів. Психологу ставиться завдання, визначити, чи однаковий середній рівеньситуативної тривожності у класах. Для цього було наведено в таблиці. Перевірити рівень значення α=0.05 припущення, що середня ситуативна тривожність у класах не відрізняється.

Приклад №3. Для вивчення величини X проведено 4 випробування кожному з п'яти рівнів чинника F. Результати випробувань наведено у таблиці. З'ясувати, чи суттєво вплив фактора F на величину X. Прийняти α = 0.05. Передбачається, що вибірки вилучені із нормальних сукупностей з однаковими дисперсіями.

Приклад №4. Припустимо, що в педагогічний експериментбрали участь три групи студентів по 10 осіб у кожній. У групах застосували різні методи навчання: у першій – традиційний (F 1), у другій – заснований на комп'ютерних технологіях (F 2), у третій – метод, який широко використовує завдання для самостійної роботи (F 3). Знання оцінювалися за десятибальною системою.
Потрібно опрацювати отримані дані про екзамени і зробити висновок про те, чи важливий вплив методу викладання, взявши за рівень значущості α=0.05.
Результати іспитів задані таблицею, F j - рівень фактора x ij - оцінка i-го учня, який навчається за методикою F j .

Рівень фактора

Приклад №5. Показано результати конкурсного сортовипробування культур (врожайність у ц.с га). Кожен сорт випробовувався на чотирьох ділянках. Методом дисперсійного аналізу вивчіть вплив ґатунку на врожайність. Встановіть суттєвість впливу фактора (частку міжгрупової варіації у загальній варіації) та значущість результатів досвіду при рівні значущості 0,05.
Урожайність на сортовипробувальних ділянках

Сорт Врожайність за повторностями ц. з га
1 2 3 4
1
2
3
42,4
52,5
52,3
37,4
50,1
53,0
40,7
53,8
51,4
38,2
50,7
53,6