Біографії Характеристики Аналіз

Валідність методики, види валідності. Кореляційний аналіз як один із прийомів визначення надійності та валідності

Людина користується різними методиками та інструментами, щоб перевірити чи виміряти якусь якість. Наскільки ця методика та інструмент здатні якісно видати результати, позначає їхню валідність. Що означає це поняття в психології? Які є види валідності? У психології зазвичай ця властивість застосовується до тестів і методик, якими користуються фахівці.

Що таке валідність?

У поняття існує багато визначень. Що таке валідність? Це придатність та обґрунтованість застосування якоїсь методики чи результату у конкретній ситуації. Прикладне значення цього слова – ступінь відповідності результатів та методик поставленим завданням.

Валідність – це вимір іншого показника, який вимірює конкретні якості. Таким чином, методика спрямована на вимірювання конкретної якості, наприклад інтелекту, а її валідність повинна показувати, наскільки добре дана методика допомагає в отриманні результатів.

Іншим словом валідність можна назвати достовірністю. Вона вимірює ті тести та методики, які займаються вимірами певних психологічних якостей. Чим краще вони вимірюють ті якості, які вимірюють, тим вища їхня валідність.

Валідність стає важливою у двох випадках:

  1. Коли якась методика розробляється.
  2. Коли деяка методика показує результати, необхідно встановити, наскільки якісні дані результати.

Таким чином, валідність – це характеристика, яка вказує на придатність конкретної методики для вимірювання якоїсь якості та корисність, якісність, ефективність даної методики.

Зазвичай використовують кілька видів валідності, щоб провести перевірку конкретного тесту або методики. Тут також відбувається порівняння показників, які надаються різними інструментами. Існує безліч способів вимірювання тієї чи іншої психологічної якості чи характеристики. Найчастіше психологами використовуватиметься та методика, яка дає більш достовірні результати. Це і показуватиме її високу валідність.

Разом із валідністю часто розглядається таке поняття, як надійність. Методики та тести мають бути надійними, тобто вони мають бути постійними, достовірними. Експериментатор має бути впевненим у тому, що він розглядає саме ту якість, яку він бажає розглянути. Ось чому надійність не завжди може бути валідною, проте валідність завжди має бути надійною.

Валідність у психології

Валідність використовується у багатьох сферах життя, де відбуваються виміри різних показників. У психології валідність також стає необхідною, особливо у експериментальної психології. Валідність у психології – це:

  • впевненість експериментатора у цьому, що він вимірює необхідну йому якість;
  • достовірність показників, які вимірюють цю якість.

Якщо читач хоч раз проходив психологічні тести, він знає про внутрішнє бажання отримати конкретну відповідь на поставлене питання. Валідність тесту показує експериментатору конкретний результат, якого досягає шляхом тестування. Тут стоїть конкретне завдання, відповідь яку він має одержати після здійснення всіх необхідних дій.

Методики та тести мають бути корисними та достовірними, що й вимірюється шляхом їх валідності.

Існує три способи перевірки на валідність:

  1. Оцінювання змістовної валідності – відповідність результатам оцінювання випробуваного реальними якостями, які виявляються насправді. Тут використовується таке поняття, як лицьова валідність – людина має бачити реальний зв'язок між змістом самої методики та її результатами та дійсністю, в якій проявляється вимірювана якість.
  2. Оцінювання конструктної валідності – визначення того, що методика обчислює науково обґрунтовані та задані конструкти. Конвергентна валідизація дозволяє використовувати кілька методик, які розглядає схожі характеристики і дають точніші результати аналізованої якості. Дискримінантна валідизація виключає інші методики, що розглядають якості, що не мають кореляції з необхідною якістю.
  3. Оцінювання критеріальної валідності – це відповідність результатам очікуваним показникам, які виявляються іншими способами. Тут використовується прогностична валідність, яка допомагає спрогнозувати подальшу поведінку.

Види валідності

Існує кілька видів валідності, які розглянемо нижче:

  1. Зовнішня валідність – узагальнення виведення ситуації, популяції, незалежних змінних. Вона поділяється на:
  • Операційну валідність.
  • Конструктну валідність – пояснення поведінки людини на момент проходження тесту.
  1. Внутрішня валідність – зміна у процесі експерименту під впливом незмінних факторів.
  2. Диференційна валідність.
  3. Інкрементна валідність.
  4. Екологічна валідність – показник того, що людина здатна до здійснення різних дій, які в одній ситуації можуть бути успішними, а в іншій немає.

Ця класифікація використовується експериментальною психологією. Організаційною психологією та психодіагностикою використовується інша класифікація:

  1. Конструктна валідність. Вона поділяється на:
  • Конвергентна валідність.
  • Дивергентну валідність.
  1. Критеріальна (емпірична) валідність – підрахунок кореляції за балом за тестом зовнішнього параметра, який був обраний як валідний показник. Вона поділяється на:
  • Поточну валідність – вивчення параметра тепер.
  • Ретроспективна валідність – стан чи подія, яка була в минулому.
  • Прогностичну валідність – прогноз поведінки, якості.
  1. Змістовна валідність - використовується в експериментах, де розглядається деяка взаємодія, діяльність. Має підвид:
  • Очевидна валідність.

Іншими видами валідності є:

  • Апріорна.
  • Конгруентна.
  • Супутня.
  • Конструктивна.
  • Консенсусна.
  • Факторіальна.
  • Теоретична та ін.

Що таке валідність тесту?

Багато людей проходять випробування. Є спеціальні психологічні тести, які застосовують психологи, та інші, бульварні тести. Що таке валідність тесту, що є важливим її критерієм? Це показник відповідності характеристики, якості, властивості тесту, який їх вимірює.

Тести бувають різними. Вони використовуються для вимірювання психофізіологічних властивостей людини. Найвищим показником валідності залишається 80%. Корисність застосування тестів стає в тому випадку, коли вони дозволяють отримати точні дані з тих чи інших конкретних характеристик. Існує кілька підходів щодо валідності тесту:

  1. Конструктивна валідність, що дозволяє глибше вивчити якості людини у ситуації, діяльності, системі.
  2. Валідність за критерієм – вивчення параметра у часі і прогнозування їх у майбутньому.
  3. Змістовна валідність – відповідність психологічних конструктів, їх різноманіття.
  4. Прогностична валідність – передбачає розвиток конкретної якості в майбутньому, що є скрутним, оскільки воно може розвиватися по-різному у різних людей.

Поки надійність та валідність тесту не визначені, його не застосовують у психологічній практиці. Багато залежить від того, в яких сферах застосовуються тести. Є навчальні, професійні та інші тести, що застосовуються в окремих установах для прогнозування та виявлення характеристик претендентів.

На сайті психологічної допомоги сайт ви також можете пройти тести, які вже мають високу валідність і показують достовірні результати.

Що таке валідність методики?

Що таке валідність методики? Це показник, який позначає, чи займається розглянута методика вивченням тієї якості, характеристики, на яку вона призначена. При цьому наголошується на тому, що випробуваний, який проходить тестування, може інакше бачити і характеризувати самого себе. Ось чому не завжди результати зважають на думку людей, які можуть не помічати за собою певних характеристик.

Валідизацією називається перевірка валідності методики. Щоб визначити дієвість, ефективність, практичність використовуваної методики, застосовується зовнішній незалежний показник – якість, що спостерігається у повсякденному житті. Тут виділяють 4 типи зовнішніх показників:

  1. Критерій виконання – витрачений час, кількість роботи, рівень успішності, зростання професійних навичок тощо.
  2. Суб'єктивні критерії – думка, погляди, перевага, ставлення випробуваного до когось чи чогось. Тут використовуються анкети, інтерв'ю, опитувальники.
  3. Фізіологічні критерії - вплив зовнішнього світу на психіку та організм людини. Тут вимірюються пульс, частота дихання, симптоми стомлення та ін.
  4. Критерій випадковості – чи можливий, наприклад, підбір осіб, які схильні до нещасних випадків? Вивчення впливу певного випадку.

Теоретичний похід у вимірі валідності методів дозволяє розпізнати, чи технологія дійсно вивчає саме ту якість, для якої вона була призначена.

Валідність також визначається зустрічальністю досліджуваної якості. Добре, якщо воно є поширеним, що робить методику потрібною і корисною. Також важливими стають етичні та культурні зміни суспільства.

Підсумок

У психологічній практиці часто використовуються тести та методики, які допомагають у вивченні особистості людини. Тут йдеться, зокрема, про внутрішні параметри, які не видно оком. Якості характеру, манера поведінки, можливий прогноз на майбутнє, яким людина буде і яким буде її життя, — все це вивчається різними тестами та методиками, які переслідують єдиний результат – вивчення людини.

Підсумком успішного визначення валідності того чи іншого інструменту є успішне пізнання кожної людини, незважаючи на те, як вона дивиться сама на себе. Люди часто не помічають у себе певних якостей, рідко дивляться він тверезим поглядом. Тести та методики дозволяють розкрити в собі окремі параметри.

Прогноз валідних тестів та методик – швидке та якісне пізнання іншої людини з можливістю їй допомогти у вирішенні будь-якої психологічної проблеми. Це досягається нескоро, проте наявні інструменти показали свою ефективність. Зазвичай це питання цікавить лише тих людей, які займаються визначенням якості тестів та методик. Однак і простим людям буде корисно знати, яким вправам слід довіряти, а яким ні.

Білет № 9

Опитувальники мотивації та його характеристика.

Опитувальники мотивів – група опитувальників, призначених для діагностики мотиваційно-потребової сфери особистості, яка дозволяє встановити, потім спрямована активність індивідуума (мотиви як, які визначають вибір спрямованості поведінки). Крім цього, важливе значення має питання, як здійснюється регулювання динаміки поведінки. І тут нерідко вдаються до вимірювання установок. Розробка опитувальників мотивів у психодіагностиці багато в чому пов'язана з необхідністю оцінки впливу фактора "соціальної бажаності", що має настановну природу і знижує достовірність даних, які отримуються за допомогою особистісних опитувальників. До найвідоміших опитувальників мотивів належить розроблений А. Едвардсом "Список особистісних переваг" (1954), який призначений для вимірювання "сили" потреб, запозичених із переліку, запропонованого Г. Мюрреєм до тематичної аперцепції тесту. До цих потреб ставляться, наприклад, потреби у досягненні успіху, повазі, лідерстві та інших. “Сила” кожної потреби виявляється над абсолютних величинах, а щодо “сили” інших потреб, тобто. використовуються особистісні показники. Для вивчення ролі фактора "соціальної бажаності" А. Едвардсом (1957) запропоновано спеціальний опитувальник. Досить широко застосовуються інші опитувальники мотивів, наприклад, “Форма вивчення особистості” Д. Джексона (1967), опитувальники А. Мехрабяна (1970) та інших.

Іншим після надійності ключовим критерієм оцінки якості методик є валідність. Питання про валідність методики вирішується лише після того, як встановлено достатню її надійність, оскільки ненадійна методика не може бути валідною. Але найнадійніша методика без знання її валідності є практично марною.

Слід зауважити, що питання про валідність до останнього часу є одним із найскладніших. Найбільш укоріненим визначенням цього поняття є те, що наведено в книзі А. Анастазі: «Валідність тесту - поняття, що вказує нам, що тест вимірює і наскільки добре він це робить» .

З цієї причини не існує єдиного універсального підходу до визначення валідності. Залежно від цього, яку бік валідності хоче розглянути дослідник, використовуються різні способи докази. Іншими словами, поняття валідності включає різні її види, що мають свій особливий зміст. Перевірка валідності методики називається валідизацією.



Валідність у першому її розумінні має відношення до самої методики, тобто це валідність вимірювального інструменту. Така перевірка називається теоретичною валідизацією. Валідність у другому розумінні вже відноситься не так до методики, як до мети її використання. Це прагматична валідизація.

Узагальнюючи, можна сказати:

при теоретичній валідизації дослідника цікавить сама властивість, що вимірюється методикою. Це, сутнісно, ​​означає, що проводиться власне психологічна валідизація;

при прагматичній валідизації суть предмета виміру (психологічної властивості) виявляється поза увагою. Головний акцент зроблено на те, щоб довести, що щось, що вимірюється методикою, має зв'язок із певними областями практики.

Провести теоретичну валідизацію, на відміну прагматичної, часом виявляється значно важче. Не вдаючись поки в конкретні деталі, зупинимося в загальних рисах на тому, як перевіряється прагматична валідність: вибирається якийсь незалежний від методики зовнішній критерій, що визначає успіх у тій чи іншій діяльності (навчальній, професійній тощо), і з ним порівнюються результати діагностичної методики. Якщо зв'язок між ними визнається задовільним, то робиться висновок про практичну значущість, ефективність, дієвість діагностичної методики.

Для визначення теоретичної валідності визначити будь-який незалежний критерій, що лежить поза методикою, набагато складніше. Тому на ранніх стадіях розвитку тестології, коли концепція валідності тільки складалася, існувало інтуїтивне уявлення про те, що тест вимірює:

1) методика називалася валідною, тому що те, що вона вимірює, просто очевидно;

2) доказ валідності ґрунтувався на впевненості дослідника в тому, що його метод дозволяє зрозуміти випробуваного;

3) методика розглядалася як валідна (тобто приймалося твердження, що такий тест вимірює таку якість) тільки тому, що теорія, на підставі якої будувалася методика, дуже хороша.

Прийняття на віру голослівних тверджень про валідність методики не могло тривати тривалий час. Перші прояви справді наукової критики розвінчали такий підхід: розпочалися пошуки науково обґрунтованих доказів.

Таким чином, провести теоретичну валідизацію методики – це довести, що методика вимірює саме ту властивість, якість, яку вона за задумом дослідника має вимірювати.

Так, наприклад, якщо якийсь тест розроблявся для того, щоб діагностувати розумовий розвиток дітей, треба проаналізувати, чи справді він вимірює саме цей розвиток, а не якісь інші особливості (наприклад, особистість, характер тощо). Отже, для теоретичної валідизації кардинальною проблемою є ставлення між психологічними явищами та його показниками, з яких ці психологічні явища намагаються пізнати. Це показує, наскільки задум автора та результати методики збігаються.

Не так складно провести теоретичну валідизацію нової методики, якщо для вимірювання цієї властивості вже є методика з доведеною валідністю. Наявність кореляції між новою та аналогічною вже перевіреною методикою вказує на те, що розроблена методика вимірює ту саму психологічну якість, що й еталонна. І якщо новий метод одночасно виявляється компактнішим і економічнішим у проведенні та обробці результатів, то психодіагности отримують можливість використовувати новий інструмент замість старого.

Але теоретична валідність доводиться як шляхом зіставлення з спорідненими показниками, а й з тими, де, з гіпотези, значних зв'язків повинно бути. Таким чином, для перевірки теоретичної валідності важливо, з одного боку, встановити ступінь зв'язку з спорідненою методикою (конвергентна валідність) та відсутність цього зв'язку з методиками, що мають іншу теоретичну основу (дискримінантна валідність).

Набагато важче провести теоретичну валідизацію методики тоді, коли такий шлях перевірки неможливий. Найчастіше саме з такою ситуацією стикається дослідник. У таких обставинах лише поступове накопичення різноманітної інформації про досліджувану властивість, аналіз теоретичних передумов та експериментальних даних, значний досвід роботи з методикою дозволяє розкрити її психологічний зміст.

Важливу роль розуміння те, що методика вимірює, грає зіставлення її показників із практичними формами діяльності. Але тут особливо важливо, щоб методика була ретельно опрацьована в теоретичному плані, тобто, щоб була міцна, обґрунтована наукова база. Тоді при зіставленні методики із взятим із повсякденної практики зовнішнім критерієм, що відповідає тому, що вона вимірює, може бути отримана інформація, що підкріплює теоретичні уявлення про її сутність.

Важливо пам'ятати, що якщо доведено теоретичну валідність, то інтерпретація отриманих показників стає більш ясною та однозначною, а назва методики відповідає сфері її застосування. Що ж до прагматичної валідизації, вона передбачає перевірку методики з погляду її практичної ефективності, значущості, корисності, оскільки діагностичною методикою має сенс користуватися лише тоді, коли доведено, що вимірюване властивість проявляється у певних життєвих ситуаціях, у певних видах діяльності. Їй надають великого значення особливо там, де постає питання відбору.

Якщо знову звернутися до історії розвитку тестології , можна виділити такий період (20-30-ті рр. XX в.), коли науковий зміст тестів та його теоретичний багаж цікавили меншою мірою. Важливо було, щоб тест працював, допомагав швидко відбирати найпідготовленіших людей. Емпіричний критерій оцінки тестових завдань вважався єдино вірним орієнтиром у вирішенні наукових та прикладних завдань.

Використання діагностичних методик із суто емпіричним обґрунтуванням, без чіткої теоретичної бази нерідко призводило до псевдонаукових висновків, до невиправданих практичних рекомендацій. Не можна було назвати ті особливості, якості, які тести виявляли. Фактично вони були сліпими пробами.

Такий підхід до проблеми валідності тестів був характерний аж до початку 50-х років. XX ст. у США, а й у інших країнах. Теоретична слабкість емпіричних методів валідизації не могла не викликати критики з боку вчених, які в розробці тестів закликали спиратися не тільки на голу емпірику і практику, але і на теоретичну концепцію. Практика без теорії, як відомо, сліпа, а теорія без практики мертва. Нині теоретико-практична оцінка валідності методик сприймається як найбільш продуктивна.

Для проведення прагматичної валідизації методики, т. е. з метою оцінки її ефективності, дієвості, практичної значущості, зазвичай використовується незалежний зовнішній критерій - показник прояви досліджуваної якості у повсякденному житті. Таким критерієм може бути успішність (для тестів здібностей до навчання, тестів досягнень, тестів інтелекту), і виробничі досягнення (для методик професійної спрямованості), і ефективність реальної діяльності - малювання, моделювання і т. д. (для тестів спеціальних здібностей), суб'єктивні оцінки (для тестів особистості).

Американські дослідники Д. Тіфін і Е. Мак-Кормік, провівши аналіз використовуваних для доказу валідності зовнішніх критеріїв, виділяють чотири їх типи [31):

1) критерії виконання (до них можуть входити такі, як кількість виконаної роботи, успішність, час, витрачений на навчання, темп зростання кваліфікації тощо);

2) суб'єктивні критерії (вони включають різні види відповідей, які відображають ставлення людини до чогось або до когось, її думку, погляди, переваги; зазвичай суб'єктивні критерії отримують за допомогою інтерв'ю, опитувальників, анкет);

3) фізіологічні критерії (вони використовуються при вивченні впливу навколишнього середовища та інших ситуаційних змінних на організм і психіку людини; заміряється частота пульсу, тиск крові, електроопір шкіри, симптоми стомлення тощо);

4) критерії випадковостей (застосовуються, коли мета дослідження стосується, наприклад, проблеми відбору для роботи таких осіб, які менш схильні до нещасних випадків).

Зовнішній критерій має відповідати трьом основним вимогам:

він має бути релевантним;

вільним від перешкод;

надійним.

Під релевантністю мають на увазі смислове відповідність діагностичного інструменту незалежному життєво важливому критерію. Інакше кажучи, має бути упевненість у цьому, що у критерії задіяні саме особливості індивідуальної психіки, які вимірюються і діагностичною методикою. Зовнішній критерій та діагностична методика повинні перебувати між собою у внутрішній смисловій відповідності, бути якісно однорідними за психологічною сутністю. Якщо, наприклад, тест вимірює індивідуальні особливості мислення, вміння виконувати логічні дії з певними об'єктами, поняттями, то й у критерії слід шукати прояв саме цих умінь. Це однаково відноситься і до професійної діяльності. Вона має не одну, а кілька цілей, завдань, кожна з яких специфічна і ставить свої умови до виконання. Із цього випливає існування кількох критеріїв виконання професійної діяльності. Тому не слід проводити зіставлення успішності за діагностичними методиками з виробничою ефективністю загалом. Необхідно знайти такий критерій, який характером виконуваних операцій співвідносний з методикою.

Якщо щодо зовнішнього критерію невідомо, чи релевантний він вимірюваній властивості чи ні, то зіставлення з ним результатів психодіагностичної методики стає практично марним. Воно не дозволяє дійти будь-яких висновків, які б дати оцінку валідності методики.

Вимоги свободи від перешкод викликаються тим, що, наприклад, навчальна чи виробнича успішність залежить від двох змінних: від самої людини, її індивідуальних особливостей, що вимірюються методиками, та від ситуації, умов навчання, праці, які можуть привнести перешкоди, «забруднити» застосовуваний критерій . Щоб певною мірою уникнути цього, слід відбирати для дослідження такі групи людей, які перебувають у більш менш однакових умовах. Можна використовувати інший метод. Він полягає у коригуванні впливу перешкод. Це коригування носить зазвичай статистичний характер. Так, наприклад, продуктивність слід брати не за абсолютними значеннями, а щодо середньої продуктивності робочих, що працюють в аналогічних умовах.

Коли кажуть, що критерій повинен мати статистично достовірну надійність, це означає, що він повинен відображати постійність та стійкість досліджуваної функції.

Пошуки адекватного критерію, що легко виявляється, відносяться до дуже важливих і складних завдань валідизації. У західній тестології багато методик дискваліфіковано лише тому, що не вдалося знайти відповідного критерію для їхньої перевірки. Наприклад, у більшості анкет дані щодо їх валідності сумнівні, тому що важко знайти адекватний зовнішній критерій, що відповідає тому, що вони вимірюють.

Оцінка валідності методик може мати кількісний і якісний характер.

Для обчислення кількісного показника – коефіцієнта валідності – зіставляються результати, отримані при застосуванні діагностичної методики, з даними, отриманими за зовнішнім критерієм, тих самих осіб. Використовуються різні види лінійної кореляції (за Спірменом, за Пірсоном).

Скільки досліджуваних необхідно для розрахунку валідності?

Практика показала, що їх не повинно бути менше 50, проте найкраще понад 200. Часто виникає питання, якою має бути величина коефіцієнта валідності, щоб вона вважалася прийнятною? Загалом зазначається, що достатньо того, щоб коефіцієнт валідності був статистично значущим. Низьким визнається коефіцієнт валідності порядку 0,20-0,30, середнім – 0,30-0,50 та високим – понад 0,60.

Але, як підкреслюють А. Анастазі, К. М. Гуревич та інших., який завжди для обчислення коефіцієнта валідності правомірно використовувати лінійну кореляцію. Цей прийом виправданий лише тоді, коли доведено, що успіх у якійсь діяльності прямо пропорційний до успіху у виконанні діагностичної проби. Позиція зарубіжних тестологів, особливо тих, хто займається профпридатністю та профвідбором, найчастіше зводиться до беззастережного визнання того, що для професії більше підійде той, хто виконав завдання в тесті. Але може бути і так, що для успіху в діяльності потрібно мати властивість на рівні 40% рішення тесту. Подальший успіх у тесті вже не має жодного значення для професії. Наочний приклад з монографії К. М. Гуревича: листоноша має вміти читати, але чи читає він зі звичайною швидкістю або з дуже великою швидкістю - це вже не має професійного значення. При такому співвідношенні показників методики та зовнішнього критерію найбільш адекватним способом встановлення валідності може бути критерій відмінностей.

Можливий і інший випадок: більш високий рівень якості, ніж це вимагає професія, є на заваді професійному успіху. Так, ще на зорі XX ст. американський дослідник Ф. Тейлор виявив, що найрозвиненіші робітниці виробництва мають невисоку продуктивність праці. Тобто високий рівень їхнього розумового розвитку заважав їм високопродуктивно працювати. І тут для обчислення коефіцієнта валідності більше підійшов би дисперсійний аналіз чи обчислення кореляційних відносин.

Як показав досвід роботи зарубіжних тестологів, жодна статистична процедура не в змозі повністю відобразити різноманітність індивідуальних оцінок. Тому часто для доказу валідності методик використовують іншу модель – клінічні оцінки. Це не що інше, як якісний опис сутності якості, що вивчається. У цьому випадку йдеться про використання прийомів, що не спираються на статистичну обробку.

Види валідності

Валідність за своєю суттю - це комплексна характеристика, що включає, з одного боку, відомості про те, чи придатна методика для вимірювання того, для чого вона була створена, а з іншого боку, якою є її дієвість, ефективність, практична корисність.

Перевірка валідності методики називається валідизацією.

Для проведення прагматичної валідизації методики, т. е. з метою оцінки її ефективності, дієвості, практичної значущості, зазвичай використовується незалежний зовнішній критерій - показник прояви досліджуваної якості у повсякденному житті. Таким критерієм може бути успішність (для тестів здібностей до навчання, тестів досягнень, тестів інтелекту), і виробничі досягнення (для методик професійної спрямованості), і ефективність реальної діяльності - малювання, моделювання і т. д. (для тестів спеціальних здібностей), суб'єктивні оцінки (для тестів особистості).

4 типи зовнішніх критеріїв:

критерії виконання (до них можуть входити такі, як кількість виконаної роботи, успішність, час, витрачений на навчання, темп зростання кваліфікації тощо);

суб'єктивні критерії (вони включають різні види відповідей, які відображають ставлення людини до чогось або до когось, її думку, погляди, переваги; зазвичай суб'єктивні критерії отримують за допомогою інтерв'ю, опитувальників, анкет);

фізіологічні критерії (вони використовуються щодо впливу навколишнього середовища та інших ситуаційних змінних на організм і психіку людини; заміряється частота пульсу, тиск крові, електроопір шкіри, симптоми втоми і т.д.);

критерії випадковостей (застосовуються, коли мета дослідження стосується, наприклад, проблеми відбору для роботи таких осіб, які менш схильні до нещасних випадків).

Емпірична валідність.

Якщо у випадку зі змістовною валідністю оцінка тесту проводиться за рахунок експертів (встановлюють відповідність завдань тесту змісту предмета вимірювання), то емпірична валідність вимірюється завжди за допомогою статистичного корелювання: підраховується кореляція двох рядів значень - балів за тестом та показників за зовнішнім параметром, обраним як критерію валідності.

Конструктна валідність.

Конструктна валідність має відношення до теоретичного конструкту самого по собі і включає пошук факторів, що пояснюють поведінку при виконанні тесту. Як особливий тип конструктна валідність канонізована у статті Кронбаха та Міля (1955). Автори оцінювали з допомогою цього типу валідності всі тестові дослідження, які були спрямовані на передбачення деяких значимих критеріїв. Дослідження містило інформацію про психологічні конструктахл.

Валідність "за змістом".

Змістовна валідність вимагає того, щоб кожне завдання, завдання чи питання, що належать до певної галузі, мали рівні шанси стати завданнями тесту. Валідність за змістом оцінює відповідність змісту тесту (завдань, питань) вимірюваної галузі поведінки. Тести, складені двома командами розробників, проводяться вибірці піддослідних. Надійність тестів підраховується шляхом розщеплення завдань на дві частини, у результаті отримують індекс змістовної валідності.

"Прогностична" валідність.

"Прогностична" валідність визначається також за досить надійним зовнішнім критерієм, але інформація щодо нього збирається через деякий час після випробування. Зовнішнім критерієм зазвичай буває виражена в якихось оцінках здатність людини до того виду діяльності, на яку він відбирався за результатами діагностичних випробувань. Хоча цей прийом найбільше відповідає задачі діагностичних методик - передбаченню майбутньої успішності, застосовувати його дуже важко. Точність прогнозу залежить від часу, заданого для такого прогнозування. Чим більше проходить часу після виміру, тим більше факторів потрібно враховувати в оцінці прогностичної значущості методики. Проте врахувати всі чинники, які впливають пророцтво, практично неможливо.

"Ретроспективна" валідність.

Вона визначається з урахуванням критерію, що відбиває події чи стан якості у минулому. Може бути використана для швидкого отримання відомостей про передбачувальні можливості методики. Так, для перевірки того, якою мірою хороші результати тесту здібностей відповідають швидкому навчанню, можна зіставити попередні оцінки успішності, попередні експертні висновки і т.д. у осіб з високими та низькими на даний момент діагностичними показниками.

Конвергентна та дискримінантна валідність.

Від того, як психолог визначає діагностичний конструкт, залежить стратегія включення до тесту певних пунктів. Якщо Айзенк визначає властивість «нейротизм» як незалежну від екстраверсії-інтроверсії, то це означає, що в його опитувальнику приблизно порівну мають бути представлені пункти, з якими погоджуватимуться невротичні інтроверти та невротичні екстраверти. Якщо ж на практиці виявиться, що в тесті переважатимуть пункти з квадранту «Нейротизм-Інтроверсія», то, з погляду теорії Айзенка, це означає, що фактор «нейротизм» виявляється навантаженим іррелевантним фактором – «інтроверсією». (Точно такий же ефект виникає, якщо з'явиться перекіс у вибірці – якщо в ній буде більше невротичних інтровертів, ніж невротичних екстравертів.)

Щоб не стикатися з такими складнощами, психологи хотіли б мати справу з такими емпіричними показниками (пунктами), які однозначно інформують тільки про один фактор. Але ця вимога реально ніколи не виконується: всякий емпіричний показник виявляється детермінованим не лише тим чинником, який нам потрібен, а й іншими – іррелевантними завданнями виміру.

Таким чином, стосовно факторів, які концептуально визначаються як ортогональні до вимірюваного (що зустрічаються з ним у всіх комбінаціях), укладач тесту повинен при відборі пунктів застосувати стратегію штучного балансування.

Відповідність пунктів вимірюваного фактора забезпечує конвергентну валідність тесту. Збалансованість пунктів щодо іррелевантних факторів забезпечує дискримінантну валідність. Емпірично вона виявляється у відсутності значної кореляції з тестом, що вимірює концептуально незалежну властивість.

Види валідності

Існує кілька видів валідності, зумовлених особливостями діагностичних методик, а також тимчасовим статусом зовнішнього критерію. У багатьох роботах (А Анастазі, 1982; Л.Ф Бурлачук, С.М. Морозов, 1989; У Черни, 1983; "Загальна психодіагностика", 1987 та ін) називаються найчастіше такі:

1. Валідність "за змістом". Цей прийом використовується переважно у тестах досягнень. Зазвичай до тестів досягнень включається не весь матеріал, який пройшли учні, а якась його невелика частина (3-4 питання). Чи можна бути впевненим у тому, що правильні відповіді на ці небагато питань свідчать про засвоєння всього матеріалу. На це має відповісти перевірка валідності за змістом. Для цього проводиться зіставлення успішності тесту з експертними оцінками вчителів (за даним матеріалом). Валідність "за змістом" також підходить до критеріально-орієнтованих тестів. Іноді цей прийом називають логічною валідністю.

2. Валідність "за одночасністю", або поточна валідність, визначається за допомогою зовнішнього критерію, за яким інформація збирається одночасно з експериментами за методикою, що перевіряється. Іншими словами, збираються дані, що відносяться до теперішнього часу успішність у період випробування, продуктивність у цей же період і т.д. З ним корелюють результати успішності по тесту.

3. "передбачувана" валідність (інша назва - "прогностична" валідність). Визначається також за досить надійним зовнішнім критерієм, але інформація по ньому збирається через деякий час після випробування. Зовнішнім критерієм зазвичай буває виражена в якихось оцінках здатність людини до того виду діяльності, на яку він відбирався за результатами діагностичних випробувань. Хоча цей прийом найбільше відповідає задачі діагностичних методик - передбаченню майбутньої успішності, застосовувати його дуже важко. Точність прогнозу залежить від часу, заданого для такого прогнозування. Чим більше проходить часу після виміру, тим більше факторів потрібно враховувати в оцінці прогностичної значущості методики. Проте врахувати всі чинники, які впливають пророцтво, практично неможливо.

4. "Ретроспективна" валідність. Вона визначається з урахуванням критерію, що відбиває події чи стан якості у минулому. Може бути використана для швидкого отримання відомостей про передбачувальні можливості методики. Так, для перевірки того, якою мірою хороші результати тесту здібностей відповідають швидкому навчанню, можна зіставити попередні оцінки успішності, попередні експертні висновки і т.д. у осіб з високими та низькими на даний момент діагностичними показниками.

Кореляція

Кореляція (кореляційна залежність) - статистичний взаємозв'язок двох або кількох випадкових величин (або величин, які можна з деяким допустимим ступенем точності вважати такими). При цьому зміни значень однієї або декількох з цих величин призводять до систематичної зміни значень іншої або інших величин. Математичною мірою кореляції двох випадкових величин служить кореляційне відношення або коефіцієнт кореляції (або). У разі, якщо зміна однієї випадкової величини не веде до закономірної зміни іншої випадкової величини, але призводить до зміни іншої статистичної характеристики даної випадкової величини, то подібний зв'язок не вважається кореляційним, хоча є статистичним.

Вперше до наукового обігу термін «кореляція» ввів французький палеонтолог Жорж Кюв'є у XVIII столітті. Він розробив «закон кореляції» частин і органів живих істот, за допомогою якого можна відновити вигляд викопної тварини, маючи лише частину її останків. У статистиці слово «кореляція» першим почав використовувати англійський біолог і статистик Френсіс Гальтон наприкінці ХІХ століття.

Деякі види коефіцієнтів кореляції можуть бути позитивними або негативними (можлива ситуація відсутності статистичного взаємозв'язку - наприклад, для незалежних випадкових величин). Якщо передбачається, що значення змінних задано ставлення суворого порядку, то негативна кореляція - кореляція, коли він збільшення однієї змінної пов'язані з зменшенням інший змінної, у своїй коефіцієнт кореляції може бути негативним; позитивна кореляція за таких умов - кореляція, коли він збільшення однієї змінної пов'язані з збільшенням інший змінної, у своїй коефіцієнт кореляції може бути позитивним.

Валідність (від англ. valid - «дійсний, придатний, що має силу») - комплексна характеристика методики (тесту), що включає відомості про область досліджуваних явищ та репрезентативність діагностичної процедури по відношенню до них.

У найпростішому та загальному формулюванні валідність тесту - це «поняття, що вказує нам, що тест вимірює і наскільки добре він це робить». У стандартних вимогах до психологічних та освітніх тестів валідність визначається як комплекс відомостей про те, щодо яких груп психологічних властивостей особистості можуть бути зроблені висновки за допомогою методики, а також про ступінь обґрунтованості висновків під час використання конкретних тестових оцінок чи інших форм оцінювання. У психодіагностиці валідність - обов'язкова та найважливіша частина відомостей про методику, що включає (поряд із зазначеними вище) дані про ступінь узгодженості результатів тесту з іншими відомостями про досліджувану особу, отриманими з різних джерел (теоретичних очікувань, спостережень, експертних оцінок, результатів інших методик, достовірність яких встановлено і т. д.), судження про обґрунтованість прогнозу розвитку досліджуваної якості, зв'язок галузі поведінки, що вивчається, або особливості особистості з певними психологічними конструктами. Валідність визначає також конкретну спрямованість методики (контингент піддослідних за віком, рівнем освіти, соціально-культурної власності тощо.) і ступінь обгрунтованості висновків у умовах використання тесту. У сукупності відомостей, що характеризують валідність тесту, міститься інформація про адекватність застосовуваної моделі діяльності з точки зору відображення в ній психологічної особливості, що вивчається, про ступінь однорідності завдань (субтестів), включених у тест, їх сумісності при кількісній оцінці результатів тесту в цілому.

Найважливіша складова валідності - визначення галузі досліджуваних якостей - має важливе теоретичне і практичного значення під час виборів методики дослідження та інтерпретації її даних. Інформація, що міститься в назві тесту, як правило, недостатня для судження про сферу його застосування. Це лише позначення, ім'я конкретної процедури дослідження.

Види валідності тіста. Способи визначення валідності

За визначенням американського текстолога А. Анастазі, "валідність тесту - поняття, що вказує нам, що тест вимірює і наскільки добре він це робить". Валідність свідчить про те, чи придатна методика для вимірювання певних якостей, особливостей та наскільки ефективно вона це робить. Найбільш поширеним способом знаходження теоретичної валідності тесту (методики) є конвергентна валідність, тобто зіставлення даної методики з авторитетними спорідненими методиками та доказ значимих зв'язків із ними.

Зіставлення з методиками, що мають іншу теоретичну основу, та констанція відсутності значних зв'язків з ними називається дискримінантною валідністю. Інший вид валідності – прагматична валідність – перевірка методики з погляду її практичної значущості, ефективності, корисності. Для проведення такої перевірки зазвичай використовуються так звані незалежні зовнішні критерії, тобто використовується незалежне від тесту, зовнішнє джерело інформації про прояви в реальному житті та діяльності людей вимірюваної психічної властивості. Серед таких зовнішніх критеріїв можуть бути успішність, професійні досягнення, успіхи у різних видах діяльності, суб'єктивні оцінки (або самооцінки). Якщо, наприклад, методика вимірює особливості розвитку професійно важливих якостей, то критерію необхідно знайти таку діяльність чи окремі операції, де саме ці якості реалізуються.

Для перевірки валідності тесту можна використовувати метод відомих груп, коли запрошуються люди, про яких відомо, до якої групи за критерієм вони належать (наприклад, група «високоуспішних, дисциплінованих студентів» – високий критерій та група «неуспішних, недисциплінованих студентів» – низький критерій, а студенти із середніми значеннями не беруть участь у тестуванні), проводять тестування та знаходять кореляцію між результатами тесту та критерієм.

Тут a - число піддослідних, що потрапили у високу групу за тестом і критерієм, c - число піддослідних, що потрапили у високу групу за критерієм і мають низькі результати тесту. При повній валідності тесту елементи b і c повинні дорівнювати нулю. Міру збігу, кореляції між крайніми групами за тестом та критерієм оцінюють за допомогою фі-коефіцієнта Гілфорда. Існує досить багато різних способів доказу валідності тесту. Тест називається валідним, якщо він вимірює те, для виміру чого призначений. Валідність зовнішня - стосовно психодіагностичних методик означає відповідність результатів психодіагностики, що проводиться за допомогою даної методики, незалежним від методики зовнішнім ознакам, що належать до суб'єкта обстеження. Означає приблизно те саме, що валідність емпірична, з тією різницею, що йдеться про зв'язок між показниками методики і найважливішими, ключовими зовнішніми ознаками, що відносяться до поведінки випробуваного. Психодіагностична методика вважається зовні валідною, якщо, наприклад, її за допомогою оцінюються риси характеру індивіда та його зовні спостерігається поведінка узгоджується з результатами проведеного тестування.

Валідність внутрішня - стосовно психодіагностичних методик означає відповідність завдань, що містять у ній, субтестів; відповідність результатів психодіагностики, проведеної у вигляді даної методики, визначенню оцінюваного психологічного властивості, використаному у самій методиці. Методика вважається внутрішньо не валідною або недостатньо валідною, коли всі або частина включених до неї питань, завдань та субтестів вимірюють не те, що потрібно цією методикою. Очевидна валідність - визначає уявлення про тесті, що склалися у випробуваного. Тест має сприйматися обстежуваним як серйозний інструмент пізнання його особистості. Очевидна валідність набуває особливого значення в сучасних умовах, коли уявлення про тести у суспільній свідомості формується численними публікаціями в популярних газетах та журналах того, що можна назвати квазітестами, за допомогою яких читачеві пропонується визначити все, що завгодно: від інтелекту до сумісності з майбутнім чоловіком.

Конкурентна валідність оцінюється за кореляцією розробленого тесту з іншими, валідність яких щодо параметра встановлено. П. Клайн зазначає, що дані про конкурентну валідність корисні тоді, коли є тести, що незадовільно працюють, для вимірювання деяких змінних, а нові створюються для того, щоб поліпшити якість вимірювання. Але виникає питання: якщо вже існує ефективний тест, то навіщо потрібен такий самий новий? Прогностична валідність встановлюється за допомогою кореляції між показниками тесту і деяким критерієм, що характеризує властивість, що вимірюється, але в більш пізній час. Наприклад, прогностична валідність будь-якого тесту інтелекту може бути показана кореляцією його показників, отриманих у випробуваного віком 10 років, з академічною успішністю в період закінчення середньої школи. Л. Кронбах вважає прогностичну валідність найбільш переконливим доказом того, що тест вимірює саме те, для чого він був призначений. Основна проблема, з якою стикається дослідник, який намагається встановити прогностичну валідність свого тесту, полягає у виборі зовнішнього критерію. Особливо це стосується вимірювання особистісних змінних, де підбір зовнішнього критерію - надзвичайно складне завдання, вирішення якої потребує чималої винахідливості. Дещо простіше ситуація при визначенні зовнішнього критерію для когнітивних тестів, однак і в цьому випадку досліднику доводиться «закривати очі» на багато проблем. Так, академічна успішність традиційно використовується як зовнішній критерій при валідизації тестів інтелекту, але в той же час добре відомо, що успіхи в навчанні далеко не єдине свідчення високого інтелекту. Інкрементна валідність має обмежене значення і стосується випадку, коли один тест із батареї тестів може мати низьку кореляцію з критерієм, але не перекриватися іншими тестами з цієї батареї. У цьому випадку даний тест має інкрементну валідність. Це може бути корисним при проведенні профвідбору за допомогою психологічних тестів. Диференційна валідність може бути проілюстрована з прикладу тестів інтересів. Тести інтересів зазвичай корелюють із академічною успішністю, але по-різному для різних дисциплін. Значення диференціальної валідності, як і інкрементної, обмежено .

Змістовна валідність визначається через підтвердження того, що завдання тесту відображають усі аспекти області поведінки, що вивчається. Зазвичай вона визначається у тестів досягнень (сенс вимірюваного параметра повністю зрозумілий), які, як говорилося, тестами, власне психологічними є. Насправді визначення змістовної валідності підбираються експерти, які вказують, яка область поведінки найважливіша, наприклад, для музичних здібностей, та був, виходячи з цього, генеруються завдання тесту, які знову оцінюють експерти. Конструктна валідність тесту демонструється повним наскільки це можливо описом змінної, для вимірювання якої призначається тест. По суті, конструктна валідність включає всі підходи до визначення валідності, які були перераховані вище. Кронбах і Міл, які запровадили у психодіагностику поняття конструктної валідності, намагалися вирішити проблему відбору критеріїв під час валідизації тесту. Вони підкреслювали, що у багатьох випадках жоден окремо взятий критерій неспроможна служити для валідизації окремого тесту. Можна вважати, що вирішення питання про конструктну валідність тесту є пошуком відповіді на два питання:1) чи існує реально деяка властивість; 2) чи надійно вимірює даний тест індивідуальні відмінності у цій властивості. Цілком зрозуміло, що з конструктною валідністю пов'язана проблема об'єктивності в інтерпретації результатів вивчення конструктної валідності, проте ця проблема загальнопсихологічна і виходить за рамки валідності.

Для того щоб психолого-педагогічний експеримент був досить надійним засобом дослідження і дозволяв отримувати цілком достовірні результати, яким можна довіряти і на основі яких можна робити правильні практичні висновки, необхідно, щоб психодіагностичні методи, що використовуються, були науково обґрунтованими. Такими вважають методи, що відповідають таким вимогам: валідність, надійність, однозначність та точність.

Термін "валідність" буквально означає: "повноцінний", "придатний", "відповідний". Валідність за своєю суттю - це комплексна характеристика, що включає, з одного боку, відомості про те, чи придатна методика для вимірювання того, для чого вона була створена, а з іншого боку, якою є її дієвість, ефективність. Перевірка валідності методики називається валідизацією.

Є кілька різновидів валідності, кожну з яких слід розглядати та оцінювати окремо, коли стоїть питання про з'ясування валідності психодіагностичної методики. Валідність може бути теоретичної та практичної (емпіричної), внутрішньої та зовнішньої.

Валідність теоретичнавизначається за відповідністю показників досліджуваної якості, одержуваних за допомогою даної методики, показниками, що одержуються за допомогою інших методик - таких, з показниками яких має існувати теоретично обґрунтована залежність. Теоретичну валідність перевіряють за кореляціями показників однієї й тієї ж властивості, одержуваним за допомогою різних методик, що спираються або виходять з однієї і тієї ж теорії.

Валидність емпіричнаперевіряється за відповідністю діагностичних показників реальному поведінці, діям і реакціям випробуваного. Якщо, наприклад, з допомогою деякої методики оцінюємо риси характеру в даного випробуваного, то застосовувана методика вважатиметься практично чи емпірично валідною тоді, коли ми встановимо, що це людина поводиться саме так, як передбачає методика, тобто. відповідно до наявної в нього риси характеру. За критерієм емпіричної валідності методику перевіряють шляхом порівняння її показників із реальною життєвою поведінкою чи результатами практичної діяльності людей.

Валидність внутрішняозначає відповідність завдань, субтестів, суджень тощо. загальної мети та задуму методики в цілому. Вона вважається внутрішньо невалідною або недостатньо внутрішньо валідною тоді, коли всі або частина включених до неї питань, завдань або субтестів вимірюють не те, що потрібно від даної методики.

Валидність зовнішня - це приблизно те саме, що й емпірична валідність, з тією лише різницею, що в даному випадку йдеться про зв'язок між показниками методики та найбільш важливими, ключовими зовнішніми ознаками, що відносяться до поведінки випробуваного.


Під час створення методики відразу оцінити її валідність важко. Зазвичай валідність методики перевіряється та уточнюється в процесі її досить тривалого використання, тим більше, що йдеться про перевірку щонайменше з чотирьох описаних вище сторін.

Не існує єдиного універсального підходу до визначення валідності. Залежно від цього, яку бік валідності хоче розглянути дослідник, використовуються різні способи докази. Іншими словами, поняття валідності включає різні її види, що мають свій особливий зміст.

Існує чотири типи зовнішніх критеріїв , що використовуються для доказу валідності:

1) критерії виконання (до них можуть входити такі, як кількість виконаної роботи, успішність, час, витрачений на навчання, темп зростання кваліфікації;

2) суб'єктивні критерії (вони включають різні види відповідей, які
відображають ставлення людини до чогось або до когось, її думку, погляди,
вподобання; зазвичай суб'єктивні критерії одержують за допомогою інтерв'ю, опитувальників, анкет);

3) фізіологічні критерії (вони використовуються щодо впливу навколишнього середовища та інших ситуаційних змінних на організм і психіку людини; заміряється частота пульсу, тиск крові, електроопір шкіри, симптоми втоми і т.д.);

4) критерії випадковостей (застосовуються, коли мета дослідження стосується, наприклад, проблеми відбору для роботи таких осіб, які менш схильні до нещасних випадків).

Пошуки адекватного критерію, що легко виявляється, відносяться до дуже важливих і складних завдань валідизації.

Існує декілька видів валідності, обумовлених особливостями діагностичних методик, а також тимчасовим статусом зовнішнього критерію:

1) Валідність "за змістом". Цей прийом використовується переважно у тестах досягнень. Зазвичай до тестів досягнень включається не весь матеріал, який пройшли учні, а якась його невелика частина (3-4 питання). Чи можна бути впевненим у тому, що правильні відповіді на ці небагато питань свідчать про засвоєння всього матеріалу. На це має відповісти перевірка валідності за змістом. Для цього проводиться зіставлення успішності тесту з експертними оцінками вчителів (за даним матеріалом). Валідність "за змістом" також підходить до критеріально-орієнтованих тестів. Іноді цей прийом називають логічною валідністю.

2) Валідність "за одночасністю", або поточна валідність, визначається за допомогою зовнішнього критерію, за яким інформація збирається одночасно з
експериментами за методикою, що перевіряється. Іншими словами, збираються дані, що відносяться до теперішнього часу (успішність у період випробування, продуктивність у цей же період тощо). З ними корелюють результати успішності тесту.

3) "Прогностична валідність . Визначається також за досить надійним зовнішнім критерієм, але інформація по ньому збирається через деякий час після випробування. Зовнішнім критерієм зазвичай буває виражена в якихось оцінках здатність людини до того виду діяльності, на яку він відбирався за результатами діагностичних випробувань. Хоча цей прийом найбільше відповідає задачі діагностичних методик - передбаченню майбутньої успішності, застосовувати його дуже важко. Точність прогнозу залежить від часу, заданого для такого прогнозування. Чим більше проходить часу після виміру, тим більше факторів потрібно враховувати в оцінці прогностичної значущості методики. Проте врахувати всі чинники, які впливають пророцтво, практично неможливо.

4) "Ретроспективна" валідність. Вона визначається на основі критерію,
відображає події або стан якості у минулому. Може бути використана для швидкого отримання відомостей про передбачувальні можливості методики. Так, для перевірки того, якою мірою хороші результати тесту здібностей відповідають швидкому навчанню, можна зіставити попередні оцінки успішності, попередні експертні висновки і т.д. у осіб з високими та низькими на даний момент діагностичними показниками.

При наведенні даних про валідність розробленої методики важливо точно вказати, який вид валідності мають на увазі (за змістом, одночасності і т.д.). Бажано також повідомляти відомості про чисельність та особливості індивідів, на яких проводилася валідизація. Така інформація дозволяє досліднику, що користується методикою, вирішити, наскільки валідний цей прийом для тієї групи,
якою він збирається його застосовувати. Як і у випадку з надійністю, необхідно пам'ятати, що в одній вибірці методика може мати високу валідність, а в іншій - низьку. Тому якщо дослідник планує використовувати методику на вибірці піддослідних, яка істотно відрізняється від тієї, на якій проводилася перевірка валідності, йому необхідно провести таку перевірку.

Крім видів валідності, важливо знати критерії валідності . Це основні ознаки, за якими можна практично судити про те, чи є дана методика валідною. Такими критеріями можуть стати такі:

1. Поведінкові показники - реакції, дії та вчинки випробуваного у різних життєвих ситуаціях.

2. Досягнення випробуваного у різних видах діяльності: навчальної, трудової, творчої та інших.

3. Дані, що свідчать про виконання різних контрольних проб та завдань.

4. Дані, що отримуються за допомогою інших методик, валідність або зв'язок яких з методикою, що перевіряється, вважається достовірно встановленою.

12. Поняття валідності, надійності, достовірності у психодіагностиці.

Надійність– один із критеріїв перевірки методик. У розробку цього критерію зробили свій внесок А. Анастазі, Кронбах, Торндайк.

Надійність - відносна сталість, стійкість, узгодженість результатів тестів при первинному і повторному вимірі на тих самих випробуваних. Необхідний повторний вимір на тій самій вибірці. Розбіжності можливі, але вони мають бути незначними. Таким чином, надійність говорить про точність та стійкість результатів до дії випадкових факторів.

Загальний розкид може бути результатом двох груп причин:

    Мінливість, властива самому ознакою.

    Чинники зовнішнього середовища, які можуть вплинути

Процедури обчислення надійності:

    Проведення однієї і тієї ж форми тесту. (Ретестова надійність), обчислення коефіцієнта кореляції. Інтервал між проведенням тестування – від одного до кількох місяців.

    Проведення паралельних форм тестів. Під час проведення дослідження з допомогою еквівалентної форми тесту фахівець переконується у правильності обраної ознаки. Щоб форми тесту вважалися еквівалентними, необхідно однакову кількість завдань в обох тестах, завдання повинні бути уніфіковані, завдання повинні розташовуватися однаково за ступенем складності, повинні бути однакові середні та стандартне відхилення. Використовують два підходи для обчислення надійності за допомогою паралельних форм тестів:

    Одні й самі випробувані обстежуються з допомогою одного тесту. А потім іншого і якщо коефіцієнт кореляції більший за 0.7, то надійність висока.

    Досліджувані діляться на дві групи, одна група проходить тест А, інша тест Б, через тиждень – навпаки.

    Розщеплення тесту та обчислення коефіцієнта кореляції. Досліджувані виконують дві частини тесту, які рівноцінні. До однієї частини потрапляють усі парні завдання, до іншої – непарні. Ця процедура показує послідовність тесту в собі, міру адекватності добору питань. Обчислюється коефіцієнт кореляції.

Коефіцієнт надійності відповідає коефіцієнту кореляції Спірмена чи Пісрона.

Надійність факторно-дисперсійна - спосіб визначення надійності, заснована на дисперсійному аналізі результатів тесту. Надійність тесту відповідає відношенню істинної дисперсії (тобто дисперсії самого досліджуваного фактора) до реально одержаної емпіричної дисперсії. Остання складається з істинної дисперсії та дисперсії похибки виміру. Факторно-аналітичний підхід до визначення надійності додатково розчленовує дисперсію істинного показника (Дж. Гілфорд, 1956).

Дисперсія справжнього показника, своєю чергою, може складатися з дисперсії загального чинника для груп аналогічних тестів, особливих чинників, які забезпечують тести специфічної спрямованості та дисперсії чинників, властивих конкретної тестової методики. Отже, повна дисперсія тесту дорівнює сумі дисперсій для загальних, специфічних та одиничних факторів плюс дисперсія похибки

Факторно-дисперсійний спосіб визначення надійності підходить для оцінки вже факторизованого тесту, але не для тестів, що вимірюють широкий набір різноманітних параметрів, так як деякі з них можуть не входити у встановлену область методики валідності.

Достовірність та припустима помилка вимірювання:

Достовірність визначається критерієм помилки виміру. Помилка – це статистичний показник, що характеризує рівень точності окремих вимірів. Передбачається, що з будь-якої риси кожен індивід має справжній показник. Будь-який показник, отриманий у тесті, відрізняється від його справжнього значення на якусь випадкову похибку. І якщо протестувати людину кілька разів, вийде розкид показника довкола справжнього значення. Це значення коливається у певних межах. Коливання цього значення може залежати від систематичних помилок та випадкових. Причинами систематичних помилок може бути неправильне проведення тесту, недотримання процедури, неточність в обробці, низька валідність методики. Імовірні й випадкові помилки, пов'язані з людським чинником. Якщо методиці не закладено подібні збої, її можна вважати точної. При великій кількості спостережень індивідуальні оцінки утворюють певний тип розподілу статистичного показника, які виявлятимуть помилки виміру. Помилка виміру визначається статистичними методами – величиною квадратичного відхилення, що з дисперсією розподілу окремих вимірів. Похибка має перевищувати 5 %.

Валідність:

Валідність – здатність тесту виміряти те, що він має виміряти за задумом автора. Це поняття відноситься більше не до тесту, а до його мети. Тест може бути надійним, але не валідним. Але якщо тест валідний, то він надійний.

Джерела ідей валідності:

    Перші ідеї виникли ще до створення тестів. Часто дослідники пов'язували результати дослідження із майбутніми успіхами. Наприклад, Піфагор, пов'язував мислення та мова за допомогою інтуїції.

    Ідея необхідність практичної перевірки придатності тесту. Поза практикою проблема валідності не може існувати.

    Філософські ідеї: істина-відповідність думки дійсності. Критерій істинності – корисність.

    Вимірювання, які ми робимо не очевидні, вимагають теоретичної основи. Теоретико = емпірична валідність.

    Розвиток статистичної науки – кореляції та факторного аналізу.

П'ять джерел породили п'ять видів валідності.

На початку ХХ століття провідну роль грала інтуїція. Якщо творцем тесту була відома людина, то віра у валідність приймалася на слово.

У 20-30 роки зростали запити практики, стали створюватися випробування з урахуванням емпіричних джерел. Було розроблено 3 емпіричні підходи:

    Всі, хто вступає на роботу, проходять тест. Через якийсь час вимірюється їхня продуктивність праці та ефективність. Потім йшло корелювання показників. Таким чином, випробування використовувалися для корисності.

    Спочатку тестуються ті, хто вже успішно працює, а потім результати цього тестування корелюються з результатами кандидатів. Якщо є взаємозв'язок, тест валідний.

    Роботи Біне та Симона. Для певності, що тест вимірює саме інтелект. Усі завдання тесту проводилися двох груп, які відбиралися не психологами, а вчителями. У 1 групі були діти з високими розумовими здібностями, у 2 – з невираженими здібностями. Цей спосіб отримав назву «експертного». Далі проводилося тестування. І якщо в обох групах більшість відповідала відповідно до очікувань авторів, то тест визнавався валідним.

Таким чином, емпіричні методи обґрунтування валідності проіснували до 50-х років. Почали вважати, що доводити валідність можна не лише за допомогою практики. Аналіз та відповідність теорії та практики. Валідність за змістом, порівняння з програмою дослідження та змісту тесту. Порівняння полегшується, коли у програмі виділяється проблема, мета та основні поняття. Концептуальна валідність, оскільки психологи цікавляться співвідношенням наукових понять з фактами, що емпірично спостерігаються.

У емпіричних методах докази валідності особливу роль відіграють зовнішні критерії, які є доказом валідності. Американські психологи Тіффані та МакКормік провели аналіз використання зовнішніх критеріїв і виділили їх 4 типи:

    Критерій виконання – кількість виконаної роботи, темп зростання майстерності

    Суб'єктивний критерій – включення різних видів відповідей, які відбивають ставлення до чогось.

    Фізіологічний критерій - використовується щодо довкілля.

    Критерій випадковості – облік багатьох чинників.

Зовнішні критерії мають відповідати вимогам релевантності, свободи від перешкод, надійності. Релевантність – смислова відповідність між тестом та незалежним від нього життєво важливим критерієм. Свобода від перешкод (контамінація) вважається важливою, оскільки на діяльність впливає сама людина та умови її праці. Надійність – сталість результатів

Діагностична (конкурентна). відображає здатність тесту диференціювати випробуваних за ознакою, що вивчається. Аналіз діагностичної Ст має відношення до встановлення відповідності показників тесту реальному стану психологічних особливостей випробуваного в момент обстеження. Прикладом визначення цього типу Ст може бути дослідження за методом контрастних груп. Проведення тесту інтелекту у дітей, що нормально розвиваються, та їх однолітків з порушеннями в інтелектуальному розвитку може виявити глибокі кількісні та якісні відмінності у виконанні завдань порівнюваними групами. Ступінь надійності диференціації дітей першої та другої груп за даними тесту буде характеристикою діагностичної Ст оцінки розумового розвитку, одержуваної за допомогою даної методики.

Валідність змістовна(Внутрішня, логічна) - комплекс відомостей про репрезентативність завдань тесту по відношенню до вимірюваних властивостей та особливостей. Однією з основних вимог при валідизації методики у цьому напрямі є відображення у змісті тесту ключових сторін психологічного феномену, що вивчається. Якщо область поведінки чи особливість дуже складна, то змістовна Ст вимагає подання в завданнях тесту всіх найважливіших складових елементів досліджуваного явища.

Диференційна У. - валідність, що розглядає внутрішні взаємини між психологічними факторами, що діагностуються за допомогою психодіагностичної методики. Зміст Д.В. може бути ілюстровано на прикладі тестів інтересів, які в більшості випадків зазвичай помірно корелюють з показниками загальної академічної успішності, проте різною мірою пов'язані з успішністю з окремих дисциплін. В. д. особливо важлива як показник діагностичної цінності методик, що використовуються у профвідборі.

Ілюзорна Ст.(хибна) – ілюзія відповідності висновку за результатами тестування особистісним характеристикам обстежуваного. Виникає як наслідок використання гранично загальних, а тому застосовних практично до всіх обстежуваних формулювань, таких, наприклад, як «розумний у виборі мети», «що прагне кращого життя» і т. п. Такі твердження приймаються майже всіма людьми як точний опис їх особистості, що створює ґрунт для діяльності різного роду віщунів та провісників.

Інкрементна У. - (англ. incremental - збільшення, прибуток) - один із компонентів критеріальної валідності, прогностичної валідності тесту, що відображає практичну цінність методики при проведенні відбору. Ст і. може бути виражена кількісно за допомогою валідності коефіцієнта.

Консесусна В. (Consensual validity) - тип валідності, що ґрунтується на встановленні зв'язку (кореляції) тестових даних з даними, отриманими від зовнішніх експертів, добре знайомих з тими особами, які були піддані тестуванню. Поняття і процедура В. до. запроваджено Р. Мак-Крае в 1982 р. з метою забезпечення валідизації опитувальників особистісних, яка нерідко утруднена (а іноді й неможлива) у зв'язку з відсутністю необхідних для встановлення валідності критеріїв.

Конструктна Ст-один з основних типів валідності, що відображає ступінь репрезентації досліджуваного психологічного конструкту в результатах тесту. Як конструкт можуть виступати практичний або вербальний інтелект, емоційна нестійкість, інтроверсія, розуміння мови, переключення уваги і т. д. Інакше кажучи, Ст до. визначає область теоретичної структури психологічних явищ, що вимірюються тестом.

Слід, однак, зауважити, що, на відміну від критеріальної валідизації, при аналізі Ст не вимагається високого ступеня зв'язку результатів двох тестів. Якщо виявиться, що новий і еталонний тести практично ідентичні за змістом і результатами і методика, що розробляється, не має переваги стислості або легкості застосування, це означає лише дублювання тесту, виправдане тільки з т. з. створення паралельної форми тесту. Сенс процедури Ст до полягає в встановленні одночасно як подібності, так і відмінності психологічних феноменів, що вимірюються новим тестом порівняно з відомим.

Важливим аспектом Ст до. є внутрішня узгодженість, що відображає те, наскільки певні пункти (завдання, питання), що становлять матеріал тесту, підпорядковані основному напрямку тесту як цілого, орієнтовані на вивчення одних і тих самих конструктів. Аналіз внутрішньої узгодженості здійснюється шляхом корелювання відповідей кожне завдання із загальним результатом тесту. При визначенні Ст до. важливе місце належить вивченню динаміки конструкту. При цьому ми можемо спиратися на гіпотези про його віковий розвиток, вплив тренувань, навчання, освоєння професії тощо.

Критеріальна Ст - комплекс характеристик, що включає валідність поточну та прогностичну методики і відображає відповідність діагнозу та прогнозу певному колу критеріїв вимірюваного явища. Як валідизації критерію виступають незалежні від результатів тесту та безпосередні заходи досліджуваної якості, такі як рівень досягнень у будь-якій діяльності, ступінь розвитку здібності, вираженість певної властивості особистості тощо. обстежуваного у певній галузі, з академічними оцінками, контрольними перевірками тощо. У разі валідизації профорієнтаційних тестів та методик тестові оцінки порівнюються як з експертними оцінками колег та керівників, так і з об'єктивними показниками досягнень у професійній сфері.

Очевидна В. - уявлення про тест, сферу його застосування, результативності та прогностичної цінності, яке виникає у випробуваного або іншої особи, яка не має спеціальних відомостей про характер використання та цілі методики. Ст о. не є компонентом валідності, що об'єктивно встановлюється. Водночас висока Ст о. здебільшого є дуже бажаною. Вона виступає як фактор, що спонукає досліджуваних до обстеження, сприяє більш серйозному і відповідальному відношенню до роботи з виконання завдань тесту і до висновків, що формулюються психологом.

Достатній рівень Ст о. особливо значущий для методик обстеження дорослих. Уявлення піддослідних та користувачів психодіагностичною інформацією про В. о. у значній мірі визначаються назвою методики, оскільки ця частина відомостей про тест найбільш доступна нефахівцям. Ст о. суттєво покращує застосування зрозумілих формулювань та термінів, а також завдань, які за змістом є найбільш природними з урахуванням вікової, статевої, професійної специфіки піддослідних. Неадекватно завищена Ст о. сприяє більш вираженому прояву ефекту контамінації критерію.

Ст о. іноді називається зовнішньої (face validity), або «довірчої» (faith validity), валідності.

Ст за віковою диференціацією - один із компонентів валідності конструктної, пов'язаний з віковою динамікою змін досліджуваної якості. Характеристика валідності за конструктом тут полягає у визначенні відповідності результатів тесту теоретично очікуваним віковим змінам даного конструкту або властивості, що практично спостерігаються.

Прогностична В. - інформація про те, з яким ступенем точності та обґрунтованості методика (тест) дозволяє судити про діагностовану психологічну якість через певний час після вимірювання. Ст п. відбиває тимчасовий інтервал, на який поширюється обґрунтування такого судження. Відомості про Ст п. мають безпосереднє відношення до розкриття передбачуваної сили методики, з'ясування ступеня обґрунтованості сформульованого на її основі найближчого і більш віддаленого прогнозу, аналізу значущості показників, що одержуються в тесті, з т. з. екстраполювання результатів у майбутнє.

В якості валідизації критерію можуть виступати не тільки показники актуальної поведінки, але й очікувані результати діяльності, лікування, навчання і т. д. Процедура визначення В. "п. результатом лікування і т. п. Разом з тим відмінність двох видів критеріальної валідності пов'язана не тільки з тимчасовими межами критеріальних зіставлень.Валідність поточна і В.п. розвитку якості чи успіху у діяльності - з іншого.

Важливість показників Ст при аналізі тестових процедур, спрямованих на відбір, підкреслюється введенням спеціального поняття валідності інкрементної. Цей показник Ст дає інформацію про те, наскільки покращується процедура відбору із застосуванням даного тесту в порівнянні з традиційною (що базується лише на формальних відомостях про попередню діяльність, аналіз документів особистої справи, бесіди).

Комплекс відомостей Ст с. Зазвичай має найбільше значення для тестів, що досліджують діяльність, близьку чи збігається з реальною (найчастіше навчальної чи професійної). Досліджувана діяльність носить, як правило, синтетичний характер, складається з багатьох, часом різнорідних факторів (прояви особистісних особливостей, комплекс необхідних знань та навичок, специфічні здібності тощо). Тому однією з найважливіших завдань створення адекватної моделі тестованої діяльності є підбір таких завдань, які охоплюватимуть головні аспекти феномена, що вивчається, у правильній пропорції до реальної діяльності в цілому.

Поточна Ст (діагностична, конкурентна) - характеристика тесту, що відображає його здатність розрізняти піддослідних на підставі діагностичної ознаки, що є об'єктом дослідження в даній методиці. Як такі ознак можуть виступати рівні загальних здібностей, домагань, вербальний інтелект, тривожність і т. д. У більш вузькому значенні Ст т. - встановлення відповідності результатів тесту, що валідується незалежному критерію, що відображає стан досліджуваного тестом якості в момент проведення дослідження.

Своєрідним показником Ст є комплекс відомостей про те, наскільки зручний, економічний тест у порівнянні з отриманням інформації про досліджувану якість з інших джерел (спостереження, аналіз об'єктивних даних, експертна оцінка і т. д.).

Екологічна Ст - валідність тесту по відношенню до вимірюваної властивості в контексті певної ситуації. Ст е.. є властивістю тесту, що у тому, що його застосування під час вирішення різних практичних завдань веде до якісно різної інтерпретації результатів тестування (У. М. Дружинін, 1990).

Емпірична В.-сукупність характеристик валідності тесту, отриманих порівняльним статистичним способом оцінювання. Має відношення головним чином до галузі валідності критеріальної та двох її видів: валідності поточної та валідності прогностичної. Якщо при визначенні валідності змістовної оцінка тесту проводиться за допомогою різних якісних процедур отримання інформації описовими методами з використанням експертних оцінок та інших джерел інформації (для винесення міркування щодо відповідності завдань тесту змісту предмета виміру), то Ст е. вимірюється завжди за допомогою статистичного корелювання. Проводиться кореляційний аналіз зв'язку двох рядів значень – оцінок тесту та показників за зовнішнім параметром досліджуваної властивості (або результатів іншого тесту, валідність якого відома).