Біографії Характеристики Аналіз

Який термін означає достовірність статистичної інформації? Дивитись що таке "достовірність статистична" в інших словниках

Основні риси будь-якої залежності між змінними.

Можна відзначити дві найпростіші властивості залежності між змінними: (a) величина залежності та (b) надійність залежності.

- Величина . Величину залежності легше зрозуміти та виміряти, ніж надійність. Наприклад, якщо будь-який чоловік у вибірці мав значення числа лейкоцитів (WCC) вище ніж будь-яка жінка, ви можете сказати, що залежність між двома змінними (Пол і WCC) дуже висока. Іншими словами, ви могли б передбачити значення однієї змінної за значеннями іншої.

- Надійність ("Істинність"). Надійність взаємозалежності – менш наочне поняття, ніж величина залежності, проте надзвичайно важливе. Надійність залежності безпосередньо пов'язана із репрезентативністю певної вибірки, на основі якої будуються висновки. Іншими словами, надійність говорить про те, наскільки ймовірно, що залежність буде знову виявлена ​​(іншими словами, підтвердиться) на даних іншої вибірки, витягнутої з тієї самої популяції.

Слід пам'ятати, що кінцевою метою майже ніколи не є вивчення цієї конкретної вибірки значень; вибірка цікавить лише остільки, оскільки вона дає інформацію про всій популяції. Якщо дослідження задовольняє деяким спеціальним критеріям, то надійність знайдених залежностей між змінними вибірками можна кількісно оцінити та подати за допомогою стандартного статистичного заходу.

Величина залежності та надійність становлять дві різні характеристики залежностей між змінними. Проте не можна сказати, що вони абсолютно незалежні. Чим більша величина залежності (зв'язку) між змінними у вибірці звичайного обсягу, тим більше вона надійна (див. наступний розділ).

Статистична значимість результату (p-рівень) є оціненою мірою впевненості у його " істинності " (у сенсі " репрезентативності вибірки " ). p align="justify"> Висловлюючись більш технічно, p-рівень - це показник, що знаходиться в спадній залежності від надійності результату. Вищий p-рівень відповідає нижчому рівню довіри до знайденої у вибірці залежності між змінними. Саме p-рівень є ймовірністю помилки, пов'язаної з поширенням спостережуваного результату на всю популяцію.

Наприклад, p-рівень = 0.05(Тобто 1/20) показує, що є 5% ймовірність, що знайдена у вибірці зв'язок між змінними є лише випадковою особливістю даної вибірки. У багатьох дослідженнях p-рівень 0.05 сприймається як " прийнятна межа " рівня помилки.

Не існує ніякого способу уникнути свавілля після ухвалення рішення про те, який рівень значущості слід дійсно вважати "значущим". Вибір певного рівня значимості, вище якого результати відкидаються як хибні, досить довільним.



Насправді остаточне рішення зазвичай залежить від цього, був результат передбачений апріорі (тобто. до проведення досвіду) чи виявлено апостеріорно внаслідок багатьох аналізів і порівнянь, виконаних з безліччю даних, і навіть на традиції, що у цій галузі досліджень.

Зазвичай у багатьох областях результат p .05 є прийнятною межею статистичної значущості, проте слід пам'ятати, що цей рівень все ще включає ймовірність помилки (5%).

Результати, значущі лише на рівні p .01 зазвичай розглядаються як статистично значущі, а результати з рівнем p .005 чи p . 001 як значні. Однак слід розуміти, що дана класифікація рівнів значущості досить довільна і є лише неформальною угодою, прийнятою на основі практичного досвіду. у тій чи іншій галузі дослідження.

Зрозуміло, що чим більше аналізів буде проведено із сукупністю зібраних даних, тим більше значущих (на обраному рівні) результатів буде виявлено суто випадково.

Деякі статистичні методи, що включають багато порівнянь, і, таким чином, мають значний шанс повторити такі помилки, роблять спеціальне коригування або поправку на загальну кількість порівнянь. Тим не менш, багато статистичних методів (особливо прості методи розвідувального аналізу даних) не пропонують будь-якого способу вирішення даної проблеми.

Якщо зв'язок між змінними "об'єктивно" слабка, то немає іншого способу перевірити таку залежність, крім дослідити вибірку великого обсягу. Навіть якщо вибірка є абсолютно репрезентативною, ефект не буде статистично значущим, якщо вибірка мала. Аналогічно, якщо залежність "об'єктивно" дуже сильна, тоді вона може бути знайдена з високим ступенем значущості навіть на дуже маленькій вибірці.

Чим слабкіша залежність між змінними, тим більшого обсягу потрібна вибірка, щоб значуще її виявити.

Розроблено багато різних заходів взаємозв'язку між змінними. Вибір певної міри у конкретному дослідженні залежить від кількості змінних, використовуваних шкал виміру, природи залежностей тощо.

Більшість цих заходів, тим не менш, підпорядковуються загальному принципу: вони намагаються оцінити залежність, що спостерігається, порівнюючи її з "максимальною мислимою залежністю" між аналізованими змінними. Технічно кажучи, звичайний спосіб виконати такі оцінки полягає в тому, щоб подивитися, як варіюються значення змінних і потім підрахувати, яку частину всієї наявної варіації можна пояснити наявністю "загальної" ("спільної") варіації двох (або більше) змінних.

Значимість залежить переважно від обсягу вибірки. Як уже пояснювалося, у дуже великих вибірках навіть дуже слабкі залежності між змінними будуть значущими, тоді як у малих вибірках навіть дуже сильні залежності не є надійними.

Таким чином, щоб визначити рівень статистичної значущості, потрібна функція, яка представляла б залежність між "величиною" і "значимістю" залежності між змінними для кожного обсягу вибірки.

Така функція вказала б точно "наскільки можливо отримати залежність даної величини (або більше) у вибірці даного обсягу, припущення, що в популяції такої залежності немає". Іншими словами, ця функція давала б рівень значущості
(p -рівень), і, отже, можливість помилково відхилити припущення про відсутність цієї залежності у популяції.

Ця "альтернативна" гіпотеза (що полягає в тому, що немає залежності у популяції) зазвичай називається нульовою гіпотезою.

Було б ідеально, якби функція, яка обчислює ймовірність помилки, була лінійною і мала лише різні нахили для різних обсягів вибірки. На жаль, ця функція значно складніша і не завжди точно одна і та ж. Проте, здебільшого її форма відома, і її можна використовувати визначення рівнів значимості щодо вибірок заданого розміру. Більшість цих функцій пов'язані з класом розподілів, що називаються нормальним .

При обґрунтуванні статистичного висновку слід вирішити питання, де проходить лінія між прийняттям і запереченням нульової гіпотези? У силу наявності в експерименті випадкових впливів цей кордон не може бути проведений абсолютно точно. Вона базується на понятті рівня значимості. рівнем значимості називається ймовірність помилкового відхилення нульової гіпотези. Або, іншими словами, рівень значущості - це ймовірність помилки першого роду після ухвалення рішення. Для позначення цієї ймовірності, як правило, вживають або грецьку букву α, або латинську букву нар.Надалі ми вживатимемо літеру нар.

Історично склалося так, що у прикладних науках, що використовують статистику, і зокрема у психології, вважається, що нижчим рівнем статистичної значущості є рівень р = 0,05; достатнім - рівень р= 0,01 та вищим рівень р = 0,001. Тому в статистичних таблицях, які наводяться у додатку до підручників зі статистики, зазвичай даються табличні значення для рівнів р = 0,05, р = 0,01 та р= 0,001. Іноді даються табличні значення для рівнів р - 0,025 та р = 0,005.

Величини 0,05, 0,01 та 0,001 – це так звані стандартні рівні статистичної значущості. При статистичному аналізі експериментальних даних психолог залежно від завдань та гіпотез дослідження має вибрати необхідний рівень значущості. Як бачимо, тут найбільша величина, або нижня межа рівня статистичної значущості, дорівнює 0,05 - це означає, що допускається п'ять помилок у вибірці зі ста елементів (випадків, випробуваних) або одна помилка із двадцяти елементів (випадків, випробуваних). Вважається, що ні шість, ні сім, ні більше разів зі ста ми помилитися не можемо. Ціна таких помилок буде надто великою.

Зауважимо, що у сучасних статистичних пакетах на ЕОМ використовуються не стандартні рівні значимості, а рівні, що підраховуються безпосередньо у процесі роботи з відповідним статистичним методом. Ці рівні, що позначаються буквою р,можуть мати різний числовий вираз в інтервалі від 0 до 1, наприклад, р = 0,7, р= 0,23 або р= 0,012. Зрозуміло, що у перших двох випадках отримані рівні значущості занадто великі і говорити, що результат значимий не можна. У той самий час у разі результати значимі лише на рівні 12 тисячних. Це достовірний рівень.

Правило прийняття статистичного висновку таке: на підставі отриманих експериментальних даних психолог підраховує за вибраним ним статистичним методом так звану емпіричну статистику, або емпіричне значення. Цю величину зручно позначити як Ч емп . Потім емпірична статистика Ч емп порівнюється з двома критичними величинами, які відповідають рівням значимості 5% і 1% для обраного статистичного методу і які позначаються як Ч кр . Величини Ч кр знаходяться для даного статистичного методу за відповідними таблицями, наведеними у додатку до будь-якого підручника зі статистики. Ці величини, як правило, завжди різні і їх надалі для зручності можна назвати як Ч кр1і Ч кр2 . Знайдені за таблицями величини критичних значень Ч кр1і Ч кр2зручно представляти у наступній стандартній формі записи:

Підкреслимо, однак, що ми використовували позначення Ч емп і Ч кр як скорочення слова "число". У всіх статистичних методах прийнято свої символічні позначення всіх цих величин: як підрахованої за відповідним статистичним методом емпіричної величини, так і знайдених за відповідними таблицями критичних величин. Наприклад, при підрахунку рангового коефіцієнта кореляції Спірмена за таблицею критичних значень цього коефіцієнта знайшли наступні величини критичних значень, які цього методу позначаються грецької буквою ρ («ро»). Так для р = 0,05 за таблицею знайдено величину ρ кр 1 = 0,61 і для р = 0,01 величина ρ кр 2 = 0,76.

У прийнятій у подальшому викладі стандартної формі запису це виглядає так:

Тепер нам необхідно порівняти наше емпіричне значення із двома знайденими за таблицями критичними значеннями. Найкраще це зробити, розташувавши всі три числа на так званій осі значущості. «Вісь значущості» являє собою пряму, на лівому кінці якої розташовується 0, хоча він, як правило, не відзначається на цій прямій, і зліва направо йде збільшення числового ряду. По суті, це звична шкільна вісь абсцис ОХдекартової системи координат. Однак особливість цієї осі в тому, що на ній виділено три ділянки, зони. Одна крайня зона називається зоною незначущості, друга крайня зона – зоною значимості, а проміжна – зоною невизначеності. Кордонами всіх трьох зон є Ч кр1для р = 0,05 та Ч кр2 для р = 0,01, як показано малюнку.

Залежно від правила ухвалення рішення (правила висновку), запропонованого в даному статистичному методі, можливо два варіанти.

Перший варіант: альтернативна гіпотеза приймається, якщо Ч емпЧ кр .

Або другий варіант: альтернативна гіпотеза приймається, якщо Ч емпЧ кр .

Підраховане Ч емп за будь-яким статистичним методом має обов'язково потрапити до однієї з трьох зон.

Якщо емпіричне значення потрапляє до зони незначущості, приймається гіпотеза Н 0 про відсутність відмінностей.

Якщо Ч емп потрапило до зони значимості, приймається альтернативна гіпотеза Н 1 про наявності відмінностей, а гіпотеза Н0 відхиляється.

Якщо Ч емп потрапляє у зону невизначеності, перед дослідником стоїть дилема. Так, в залежності від важливості розв'язуваної задачі він може вважати отриману статистичну оцінку достовірною на рівні 5%, і прийняти, тим самим гіпотезу Н1, відхиливши гіпотезу Н0 , або - недостовірною лише на рівні 1%, прийнявши цим, гіпотезу Н 0 . Підкреслимо, однак, що це саме той випадок, коли психолог може припуститися помилок першого чи другого роду. Як уже говорилося вище, за цих обставин найкраще збільшити обсяг вибірки.

Підкреслимо також, що величина Ч емп може точно збігтися або з Ч кр1або Ч кр2 . У першому випадку вважатимуться, що оцінка достовірна точно лише на рівні 5% і прийняти гіпотезу Н 1 , чи, навпаки, прийняти гіпотезу Н 0 . У другий випадок, зазвичай, приймається альтернативна гіпотеза Н 1 про наявність відмінностей, а гіпотеза Н 0 відхиляється.

Поняття про статистичну достовірність

Статистична достовірність має важливе значення у розрахунковій практиці ФКС. Раніше було зазначено, що з однієї і тієї ж генеральної сукупності може бути обрано безліч вибірок:

Якщо вони підібрані коректно, їх середні показники і показники генеральної сукупності незначно відрізняються один від одного величиною помилки репрезентативності з урахуванням прийнятої надійності;

Якщо вони обираються з різних генеральних сукупностей, різницю між ними виявляється суттєвим. У статистиці повсюдно розглядається порівняння вибірок;

Якщо вони відрізняються несуттєво, непринципово, незначно, тобто фактично належать до однієї і тієї ж генеральної сукупності, різниця між ними називається статистично недостовірним.

Статистично достовірнимВідмінністю вибірок називається вибірка, що відрізняється значуще й важливо, т. е. належить різним генеральним сукупностям.

У ФКС оцінка статистичної достовірності відмінностей вибірок означає розв'язання багатьох практичних завдань. Наприклад, запровадження нових методик навчання, програм, комплексів вправ, тестів, контрольних вправ пов'язані з їх експериментальної перевіркою, що має показати, що випробувана група принципово відрізняється від контрольної. Тому застосовують спеціальні статистичні методи критеріями статистичної достовірності,що дозволяють виявити наявність чи відсутність статистично достовірної різниці між вибірками.

Усі критерії поділяються на дві групи: параметричні та непараметричні. Параметричні критеріїпередбачають обов'язкове наявність нормального закону розподілу, тобто. мається на увазі обов'язкове визначення основних показників нормального закону – середньої арифметичної величини хта середнього квадратичного відхилення о. Параметричні критерії є найбільш точними та коректними. Непараметричні критеріїзасновані на рангових (порядкових) відмінностях між елементами вибірок.

Наведемо основні критерії статистичної достовірності, які у практиці ФКС: критерій Стьюдента, критерій Фішера, критерій Вилкоксона, критерій Уайта, критерій Ван-дер-Вардена (критерій символів).

Критерій Стьюдентаназвано на честь англійського вченого К. Госсета (Стьюдент - псевдонім), який відкрив цей метод. Критерій Стьюдента є параметричним,використовується для порівняння абсолютних показників вибірок. Вибірки можуть бути різними за обсягом.

Критерій Стьюдента визначається так.

1. Знаходимо критерій Стьюдента tза наступною формулою:

де Xi, x 2 - середні арифметичні порівнювані вибірки; /я ь w 2 - помилки репрезентативності, виявлені на підставі показників порівнюваних вибірок.

2. Практика у ФКС показала, що для спортивної роботи достатньо прийняти надійність рахунку Р= 0,95.

63 Для надійності рахунку: Р= 0,95 (а = 0,05), при числі ступенів; свободи k= «! + п 2 - 2 за таблицею додатка 4 знаходимо велич- \ ну граничного значення критерію (^гр).

3. На підставі властивостей нормального закону розподілу за критеріями Стьюдента здійснюється порівняння tі t^.

4. Робимо висновки:

Якщо t > ftp, то різницю між порівнюваними вибірками статистично достовірно;

Якщо t< 7 Ф, то відмінність статистично недостовірна.

Для дослідників у галузі ФКС оцінка статистичної достовірності є першим кроком у вирішенні конкретного завдання: принципово чи непринципово різняться між; собою порівнювані вибірки. Наступний крок полягає в; оцінки цієї відмінності з педагогічної точки зору, що визначається умовою завдання.

Статистична значимість

Результати, отримані за допомогою певної процедури дослідження, називають статистично значущимиякщо ймовірність їх випадкової появи дуже мала. Цю концепцію можна проілюструвати з прикладу кидання монети. Припустимо, що монету підкинули 30 разів; 17 разів випав «орел» та 13 разів випала «решка». Чи є значущимвідхилення цього результату від очікуваного (15 випадень «орла» та 15 – «решки»), чи це відхилення випадково? Щоб відповісти на це питання, можна, наприклад, багато разів кидати ту саму монету по 30 разів поспіль, і при цьому відзначати, скільки разів повториться співвідношення «орлів» та «грашок» 17:13. Статистичний аналіз позбавляє нас цього утомливого процесу. З його допомогою після перших 30 кидань монети можна провести оцінку можливої ​​кількості випадкових випадень 17 «орлів» та 13 «решок». Така оцінка називається ймовірним твердженням.

У науковій літературі з індустріально-організаційної психології ймовірне твердження в математичній формі позначається виразом р(ймовірність)< (менее) 0,05 (5 %), которое следует читать как «вероятность менее 5 %». В примере с киданием монеты это утверждение будет означать, что если исследователь проведет 100 опытов, каждый раз кидая монету по 30 раз, то он может ожидать случайного выпадения комбинации из 17 «орлов» и 13 «решек» менее, чем в 5 опытах. Этот результат будет сочтен статистически значимым, поскольку в индустриально-организационной психологии уже давно приняты стандарты статистической значимости 0,05 и 0,01 (р< 0,01). Цей факт важливий для розуміння літератури, але не слід вважати, що він говорить про безглуздість проведення спостережень, які не відповідають цим стандартам. Так звані незначні результати досліджень (спостереження, які можна одержати випадково більшеодного або п'яти разів зі 100) можуть бути дуже корисними для виявлення тенденцій і як керівництво до майбутніх досліджень.

Необхідно також зауважити, що не всі психологи погоджуються з традиційними стандартами та процедурами (наприклад, Cohen, 1994; Sauley & Bedeian, 1989). Питання, пов'язані з вимірами, самі по собі є головною темою роботи багатьох дослідників, які вивчають точність методів вимірювань та передумови, що лежать в основі існуючих методів та стандартів, а також розробляють нові медики та інструменти. Можливо, колись у майбутньому дослідження у цій владі призведуть до зміни традиційних стандартів оцінки статистичної значимості, і це зміни завоюють загальне визнання. (П'яте відділення Американської психологічної асоціації об'єднує психологів, які спеціалізуються на вивченні оцінок, вимірів та статистики.)

У звітах про дослідження ймовірне твердження, таке як р< 0,05, пов'язано деякою статистикою,тобто числом, отримане в результаті проведення певного набору математичних обчислювальних процедур. Імовірнісне підтвердження отримують шляхом порівняння цієї статистики з даними спеціальних таблиць, які публікуються для цієї мети. В індустріально-організаційних психологічних дослідженнях часто трапляються такі статистики, як r, F, t, г>(читається «хі квадрат») та R(читається «множинний R»).У кожному випадку статистику (одне число), отриману в результаті аналізу серії спостережень, можна порівняти числами з таблиці. Після цього можна сформулювати ймовірнісне твердження про можливість випадкового отримання цього числа, тобто зробити висновок про значущість спостережень.

Для розуміння досліджень, описаних у цій книзі, достатньо мати чітке уявлення про концепцію статистичної значущості та необов'язково знати, як розраховуються згадані вище статистики. Однак було б корисно обговорити одне припущення, яке є основою всіх цих процедур. Це припущення про те, що всі змінні, що спостерігаються, розподіляються приблизно за нормальним законом. Крім того, при читанні звітів про індустріально-організаційні психологічні дослідження часто зустрічаються ще три концепції, які відіграють важливу роль - по-перше, кореляція та кореляційний зв'язок, по-друге, детермінант/передбачувальна змінна та «ANOVA» (дисперсійний аналіз), -третє, група статистичних методів під загальною назвою «метааналіз».

Розглянемо типовий приклад застосування статистичних методів у медицині. Автори препарату припускають, що він підвищує діурез пропорційно прийнятій дозі. Для перевірки цього припущення вони призначають п'ятьом добровольцям різні дози препарату.

За наслідками спостережень будують графік залежності діурезу від дози (рис. 1.2А). Залежність видно неозброєним оком. Дослідники вітають один одного з відкриттям, а світ – з новим діуретиком.

Насправді, дані дозволяють достовірно стверджувати лише те, що залежність діурезу від дози спостерігалася у цих п'яти добровольців. Те, що ця залежність виявиться у всіх людей, які прийматимуть препарат, - не більше ніж передбачувана.
зЯ

з

ження. Не можна сказати, що воно безпідставне - інакше, навіщо ставити експерименти?

Але препарат надійшов у продаж. Все більше людей приймають його, сподіваючись збільшити свій діурез. І що ми бачимо? Ми бачимо рис 1.2Б, який свідчить про відсутність будь-якого зв'язку між дозою препарату та діурезом. Чорними кружками відзначені дані початкового дослідження. Статистика має в своєму розпорядженні методи, що дозволяють оцінити ймовірність отримання настільки «непредставницької», більше того, що збиває з пантелику вибірки. Виявляється відсутність зв'язку між діурезом і дозою препарату отримана «залежність» спостерігалася б приблизно в 5 з 1000 експериментів. Отже, у разі дослідникам просто пощастило. Якби вони застосували навіть найдосконаліші статистичні методи, це все одно не врятувало б їх від помилки.

Цей вигаданий, але зовсім не далекий від реальності приклад, ми навели не для того, щоб вказати на марне.
ність статистики. Він говорить про інше, про імовірнісний характер її висновків. В результаті застосування статистичного методу ми отримуємо не істину в останній інстанції, а лише оцінку ймовірності того чи іншого припущення. Крім того, кожен статистичний метод заснований на власній математичній моделі і результати його правильні настільки, наскільки ця модель відповідає дійсності.

Ще за темою ПЕРЕВІДНІСТЬ І СТАТИСТИЧНА ЗНАЧНІСТЬ:

  1. Статистично значущі відмінності показників якості життя
  2. Статистична сукупність. Облікові ознаки. Поняття про суцільні та вибіркові дослідження. Вимоги до статистичної сукупності та використання обліково-звітних документів
  3. РЕФЕРАТ. ДОСЛІДЖЕННЯ ПОВЕРНОСТІ ПОКАЗАНЬ ТОНОМЕТРА ДЛЯ ВИМІРЮВАННЯ ВНУТРІШНЬОЧНОГО ТИСКУ ЧЕРЕЗ ВЕКО2018, 2018