Біографії Характеристики Аналіз

Основні засади класичної теорії тестів. Основні поняття теорії тестів

Що таке тестування

Відповідно до IEEE Std 829-1983 Тестування- це процес аналізу ПЗ, спрямований на виявлення відмінностей між його реально існуючими та необхідними властивостями (дефект) та на оцінку властивостей ПЗ.

За ГОСТ Р ІСО МЕК 12207-99 в життєвому цикліПЗ визначено серед інших допоміжні процеси верифікації, атестації, спільного аналізу та аудиту. Процес верифікації є процесом визначення того, що програмні продукти функціонують у повній відповідності до вимог або умов, реалізованих у попередніх роботах. Цей процес може включати аналіз, перевірку та випробування (тестування). Процес атестації є процесом визначення повноти відповідності встановлених вимог, створеної системи чи програмного продуктуїхнього функціонального призначення. p align="justify"> Процес спільного аналізу є процесом оцінки станів і, при необхідності, результатів робіт (продуктів) за проектом. Процес аудиту є процесом визначення відповідності вимогам, планам та умовам договору. У сумі ці процеси і становлять те, що зазвичай називають тестуванням.

Тестування ґрунтується на тестових процедурах з конкретними вхідними даними, початковими умовами та очікуваним результатом, розробленими для певної мети, такою як перевірка окремої програми або верифікація відповідності на певна вимога. Тестові процедури можуть перевіряти різні аспекти функціонування програми – від правильної роботи окремої функції до адекватного виконання бізнес-вимог.

При виконанні проекту необхідно враховувати, відповідно до яких стандартів та вимог буде проводитися тестування продукту. Які інструментальні засоби будуть (якщо будуть) використовуватися для пошуку та документування знайдених дефектів. Якщо пам'ятати про тестування з самого початку виконання проекту, тестування продукту, що розробляється, не доставить неприємних несподіванок. Отже, і якість продукту, швидше за все, буде досить високою.

Життєвий цикл продукту та тестування

Все частіше використовуються ітеративні процеси розробки ПЗ, зокрема, технологія RUP - Rational Unified Process(Мал. 1). При використанні такого підходу тестування перестає бути процесом на відшибі, який запускається після того, як програмісти написали весь необхідний код. Робота над тестами починається з початкового етапу виявлення вимог до майбутнього продукту і тісно інтегрується з поточними завданнями. І це висуває нові вимоги до тестувальників. Їхня роль не зводиться просто до виявлення помилок якомога повніше і якомога раніше. Вони повинні брати участь у загальному процесі виявлення та усунення найістотніших ризиків проекту. Для цього на кожну ітерацію визначається мета тестування та методи її досягнення. А наприкінці кожної ітерації визначається, наскільки цієї мети досягнуто, чи потрібні додаткові випробування, і чи не потрібно змінити принципи та інструменти проведення тестів. У свою чергу кожен виявлений дефект повинен пройти через свій власний життєвий цикл.

Рис. 1. Життєвий цикл продукту за RUP

Тестування зазвичай проводиться циклами, кожен із яких має конкретний список завдань і цілей. Цикл тестування може збігатися з ітерацією або відповідати певній частині. Як правило, цикл тестування проводиться для конкретного збирання системи.

Життєвий цикл програмного продукту складається із серії щодо коротких ітерацій (Рис. 2). Ітерація - це закінчений цикл розробки, що призводить до випуску кінцевого продукту або деякої його скороченої версії, яка розширюється від ітерації до ітерації, щоб, зрештою, стати закінченою системою.

Кожна ітерація включає, як правило, завдання планування робіт, аналізу, проектування, реалізації, тестування та оцінки досягнутих результатів. Однак співвідношення цих завдань може суттєво змінюватися. У відповідність до співвідношенням різних завдань в ітерації вони групуються у фази. У першій фазі – початок – основна увага приділяється завданням аналізу. В ітераціях другої фази – Розробка – основна увага приділяється проектуванню та випробуванню ключових проектних рішень. У третій фазі - Побудова - найбільша частка завдань розробки та тестування. А в останній фазі – Передача – вирішуються найбільшою мірою завдання тестування та передачі системи Замовнику.

Рис. 2. Ітерації життєвого циклу програмного продукту

Кожна фаза має свої специфічні цілі у життєвому циклі продукту та вважається виконаною, коли ці цілі досягнуті. Всі ітерації, крім, можливо, ітерацій фази Початок, завершуються створенням функціонуючої версії системи, що розробляється.

Категорії тестування

Тести суттєво різняться по завданням, які з їх допомогою вирішуються, і по техніці, що використовується.

Категорії тестування Опис категорії Види тестування
Поточне тестування Набір тестів, що виконується визначення працездатності доданих нових можливостей системи.
  • тестування навантаження;
  • тестування бізнес-циклів;
  • стресове тестування.
Регресійне тестування Мета регресійного тестування полягає у перевірці те, що додавання до системи не зменшили її можливостей, тобто. тестування проводиться згідно з вимогами, які вже були виконані перед додаванням нових можливостей.
  • тестування навантаження;
  • тестування бізнес-циклів;
  • стресове тестування.

Підкатегорії тестування

Підкатегорії тестування Опис виду тестування Підвиди тестування
Тестування навантаження Застосовується для тестування всіх функцій програми. У даному випадкупослідовність тестування функцій немає значення.
  • функціональне тестування;
  • тестування інтерфейсу;
  • тестування БД
Тестування бізнес циклів Застосовується для тестування функцій програми у послідовності їхнього виклику користувачем. Наприклад, імітація всіх дій бухгалтера за 1 квартал.
  • unit-тестування (модульне тестування);
  • функціональне тестування;
  • тестування інтерфейсу;
  • тестування БД.
Стресове тестування

Застосовується для тестування

Продуктивність програми. Мета даного тестування – визначити рамки стабільної роботи програми. При цьому тестування здійснюється викликом усіх доступних функцій.

  • unit-тестування (модульне тестування);
  • функціональне тестування;
  • тестування інтерфейсу;
  • тестування БД.

Види тестування

Unit-тестування (модульне тестування) - даний вид має на увазі тестування окремих модулів програми. Для отримання максимального результату тестування проводиться одночасно із розробкою модулів.

Функціональне тестування - Мета даного тестування полягає в тому, щоб переконатися у належному функціонуванні об'єкта тестування. Тестується правильність навігації по об'єкту, а також введення, обробка та виведення даних.

Тестування БД - перевірка працездатності БД при нормальній роботі програми, в моменти перевантажень і розрахованому на багато користувачів режимі.

Unit-тестування

Для ООП звичайна організація модульного тестування полягає у тестуванні методів кожного класу, потім класу кожного пакета тощо. Поступово ми переходимо до тестування всього проекту, а попередні тести мають вигляд регресійних.

У вихідну документацію даних тестів входять тестові процедури, вхідні дані, код виконує тест, вихідні дані. Далі подано вид вихідної документації.

Функціональне тестування

Функціональне тестування об'єкта тестування планується та проводиться на основі вимог до тестування, заданих на етапі визначення вимог. Як вимоги виступають бізнес-правила, діаграми use-case, бізнес-функції, а також за наявності діаграми активності. Мета функціональних тестів у тому, щоб перевірити відповідність розроблених графічних компонентів встановленим вимогам.

Цей вид тестування може бути повністю автоматизований. Отже, він поділяється на:

  • Автоматизоване тестування (використовуватиметься у разі, де можна перевірити вихідну інформацію).

Мета: протестувати введення, обробку та виведення даних;

  • Ручне тестування (в інших випадках).

Мета: тестується правильність виконання вимог користувача.

Необхідно виконати (програти) кожен із use-case, використовуючи як правильні значення, так і свідомо помилкові, для підтвердження правильного функціонування, за такими критеріями:

  • продукт адекватно реагує на всі дані, що вводяться (виводяться очікувані результати у відповідь на правильно введені дані);
  • продукт адекватно реагує на неправильні дані (з'являються відповідні повідомлення про помилки).

Тестування БД

Мета даного тестування - переконатися в надійності методів доступу до баз даних, їх правильному виконанні, без порушення цілісності даних.

Необхідно послідовно використовувати максимально можливу кількість звернень до бази даних. Використовується підхід, у якому тест складається в такий спосіб, щоб «навантажити» базу послідовністю, як правильних значень, і свідомо помилкових. Визначається реакція БД на введення даних, оцінюються часові інтервали їхньої обробки.

Основи теорії тестів 1. Основні поняття теорії тестів 2. Надійність тестів та шляхи її визначення

Контрольні запитання 1. Що називається тестом? 2. Які вимоги висуваються до тесту? 3. Які тести називаються автентичними? 4. Що називається надійністю тесту? 5. Перелічити причини, що викликають варіацію результатів під час повторного тестування. 6. У чому відмінність внутрішньокласової варіації від міжкласової? 7. Як практично визначити надійність тесту? 8. У чому відмінність узгодженості тестів від стабільності? 9. У чому полягає еквівалентність тестів? 10. Що таке гомогенний комплекс тестів? 11. Що таке гетерогенний комплекс тестів? 12. Шляхи підвищення надійності тестів.

Тест - це вимір чи випробування, яке з метою визначення стану чи здібностей людини. Не всякі виміри можна використовувати як тести, лише ті, які відповідають спеціальним вимогам. До них належать: 1. стандартизованість (процедура та умови тестування повинні бути однаковими у всіх випадках застосування тесту); 2. надійність; 3. інформативність; 4. наявність системи оцінок.

Вимоги тестів: Інформативність - ступінь точності, з якою він вимірює властивість (якість, здатність, характеристику), з метою оцінки якої використовується. n Надійність - ступінь збігу результатів при повторному тестуванні тих самих людей за однакових умов. Узгодженість - (різні люди, але однакові прилади та однакові умови). n n Стандартність умов - (однакові умови при повторних вимірах). n Наявність системи оцінок - (переведення в систему оцінок. Як у школі 5 -4 -3...).

Тести, що задовольняють вимогам надійності та інформативності, називають добротними або автентичними (грец. автентико - достовірним чином)

Процес випробувань називається тестуванням; отримане результаті вимірювання числове значення - результатом тестування (чи результатом тесту). Наприклад, біг 100 м – це тест, процедура проведення забігів та хронометражу – тестування, час забігу – результат тесту.

Тести, основу яких лежать рухові завдання, називають руховими чи моторними. Результатами їх можуть бути або рухові досягнення (час проходження дистанції, кількість повторень, пройдена відстань тощо), або фізіологічні та біохімічні показники.

Іноді використовується не один, а кілька тестів, що мають єдину кінцеву мету (наприклад, оцінку стану спортсмена у періоді змагання тренування). Така група тестів називається комплексом чи батареєю тестів.

Один і той же тест, застосований до тих самих досліджуваних, повинен дати в однакових умовах збігаються результати (якщо тільки не змінилися самі досліджувані). Однак при найсуворішій стандартизації та точної апаратури результати тестування завжди дещо варіюють. Наприклад, досліджуваний, що щойно показав у тесті станової динамометрії результат 215 к. р, при повторному виконанні показує лише 190 к. р.

Надійність тестів та шляхи її визначення Надійністю тесту називається ступінь збігу результатів при повторному тестуванні тих самих людей (або інших об'єктів) в однакових умовах.

Варіацію результатів при повторному тестуванні називають усередині індивідуальної, або усередині групової, або внутрішньокласової. Чотири основні причини викликають цю варіацію: 1. Зміна стану досліджуваних (втома, впрацьовування, «навчання», зміна мотивації, концентрації уваги тощо). 2. Неконтрольовані зміни зовнішніх умов та апаратури (температура, вітер, вологість, напруга в електромережі, присутність сторонніх осіб тощо), тобто все те, що поєднується терміном “ випадкова помилкавиміру”.

Чотири основні причини викликають цю варіацію: 3. Зміна стану людини, яка проводить або оцінює тест (і, звичайно, заміна одного експериментатора чи судді іншим). 4. Недосконалість тесту (є такі тести, які свідомо малонадійні. Наприклад, якщо досліджувані виконують штрафні кидки в баскетбольний кошик, то навіть баскетболіст, який має високий відсоток влучень, може випадково помилитися при перших кидках).

Поняття справжній результат тесту є абстракцією (в досвіді виміряти не можна). Тому доводиться використовувати непрямі методи. Найбільш переважний для оцінки надійності дисперсійний аналіз із подальшим розрахунком внутрішньокласових коефіцієнтів кореляції. Дисперсійний аналіз дозволяє розкласти зареєстровану у досвіді варіацію результатів тесту на складові, що зумовлені впливом окремих факторів.

Якщо зареєструвати у досліджуваних їх результати в якомусь тесті, повторюючи цей тест різні дні, причому кожен день робити по кілька спроб, періодично змінюючи експериментаторів, то матимуть місце варіації: а) від випробуваного до випробуваного; n б) від дня до дня; n в) від експериментатора до експериментатора; г) від спроби до спроби. Дисперсійний аналіз дає можливість виділити та оцінити ці варіації. n

Таким чином, щоб оцінити практично надійність тесту, треба, n по-перше, виконати дисперсійний аналіз, n по-друге, розрахувати внутрішньокласовий коефіцієнт кореляції (коефіцієнт надійності).

Говорячи про надійність тестів, необхідно розрізняти їхню стабільність (відтворюваність), узгодженість, еквівалентність. n n Під стабільністю тесту розуміють відтворюваність результатів при його повторенні через певний час у однакових умовах. Повторне тестування зазвичай називають ретестом. Узгодженість тесту характеризується незалежністю результатів тестування від особистих якостей особи, яка проводить або оцінює тест.

Якщо всі тести, що входять до якогось комплексу тестів, високо еквівалентні, він називається гомогенним. Весь цей комплекс вимірює одну якусь властивість моторики людини (наприклад, комплекс, що складається зі стрибків з місця в довжину, вгору та потрійного; оцінюється рівень розвитку швидкісно-силових якостей). Якщо в комплексі немає еквівалентних тестів, тобто тести, що входять до нього, вимірюють різні властивості, то він називається гетерогенним (наприклад, комплекс, що складається зі станової динамометрії, стрибка вгору по Абалакову, бігу на 100 м).

Надійність тестів може бути підвищена до певної міри шляхом: n n n а) суворішої стандартизації тестування; б) збільшення кількості спроб; в) збільшення числа оцінювачів (суддів, експериментів) та підвищення узгодженості їх думок; г) збільшення кількості еквівалентних тестів; буд) кращої мотивації досліджуваних.

Перший компонент, теорія тестів, містить опис статистичних моделейобробки діагностичних даних Тут містяться моделі аналізу відповідей у ​​тестових завданнях та моделі підрахунку сумарних результатів тесту. Мелленберг (1980, 1990) назвав це "психометрією". Класична теорія тестів, сучасна теорія тестів (або модель аналізу відповідей на завдання тестів - IRT) та модель


вибірки завдань складають три найбільш важливих типумоделей теорії тестів Предметом розгляду психодіагностики є перші дві моделі.

Класична теорія тестів. На основі цієї теорії розроблено більшість інтелектуальних та особистісних тестів. Центральним поняттям цієї теорії є поняття «надійності». Під надійністю розуміється узгодженість результатів при повторному оцінюванні. У довідкових посібниках це поняття зазвичай надається дуже коротко, а потім дається докладний описапарату математичної статистики У цьому вступному розділі ми представимо стислий описосновне значення зазначеного поняття. У класичної теоріїтестів під надійністю розуміється повторюваність результатів кількох процедур виміру (переважно вимірів з допомогою тестів). Поняття надійності передбачає обчислення помилки виміру. Результати, отримані в процесі тестування, можуть бути подані як сума істинного результату та помилки виміру:

Xi = Ti+ Їй

де Xi- Оцінка отриманих результатів, Ti - справжній результат, а Їй- Помилка вимірювання.

Оцінка одержаних результатів – це, як правило, кількість правильних відповідей на завдання тесту. Справжній результат можна як справжню оцінку в платонівському сенсі (Gulliksen, 1950). Широко поширеним є поняття очікуваних результатів, тобто. уявлень про бали, які можуть бути отримані внаслідок великої кількості повторень процедур вимірювання (Lord & Novich, 1968). Але проведення однієї й тієї ж процедури оцінювання з однією людиною неможливо. Тому необхідний пошук інших варіантів вирішення проблеми (Witlman, 1988).

У рамках цієї концепції робляться деякі припущення щодо справжніх результатів та помилок виміру. Останні приймаються як незалежний фактор, що, звичайно, є цілком обґрунтованим припущенням, оскільки випадкові коливання результатів не дають підступів: r ЇЇ =0.

Передбачається, що кореляції між істинними балами та помилками виміру не існує: r EE =0.


Сумарна помилка дорівнює 0 т.к. як справжня оцінка береться середнє арифметичне значення:

Ці припущення призводять нас до відомого визначення надійності як ставлення справжнього результату до загальної дисперсіїабо виразу: 1 мінус відношення, у чисельнику якого помилка виміру, а в знаменнику - загальна дисперсія:


, АБО

З цієї формули визначення надійності отримуємо, що дисперсія помилки S 2 (E)дорівнює загальній дисперсії у числі випадків (1 – r XX”); таким чином, стандартна помилкавимірювання визначається за такою формулою:

Після теоретичного обґрунтування надійності та її похідних необхідно визначити індекс надійності того чи іншого тесту. Існують практичні процедури оцінювання надійності тестів, такі як використання взаємозамінних форм (паралельні тести), розщеплення завдань на дві частини, повторне тестування та вимірювання внутрішньої узгодженості. Кожен довідник містить індекси сталості тестових результатів:

r XX ' =r(x 1 , x 2)

де r XX ’ - Коефіцієнт стабільності, а x 1 і x 2 - Результати двох вимірів.

Поняття надійності взаємозамінних форм запроваджено та розроблено Гулліксеном (1950). Ця процедура досить трудомістка, оскільки пов'язана з необхідністю створення паралельної серії завдань

r XX ' =r(x 1 , x 2)

де r XX ’ - Коефіцієнт еквівалентності, а x 1 і x 2 - Два паралельні тести.

Наступна процедура – ​​розщеплення основного тесту на дві частини А та В – більш проста у використанні. Показники, отримані з обох частин тесту, корелюються. За допомогою формули Спірмена-Брауна оцінюється надійність тесту загалом:

де А і В – дві паралельні частини тіста.

Наступний метод – визначення внутрішньої узгодженості виконання завдань тесту. Цей метод ґрунтується на визначенні підступів окремих завдань. Sg - дисперсія довільно обраного завдання, та Sgh - коваріація двох довільно обраних завдань. Найчастіше використовуваний коефіцієнт визначення внутрішньої узгодженості - це «коефіцієнт альфа» Кронбаха. Використовуються також формула КР20 та λ-2(лямбда-2).

У класичній концепції надійності визначаються помилки виміру, що виникають як у процесі тестування, і у процесі спостережень. Джерела цих помилок різні: це можуть бути і особистісні особливості, особливості умов тестування, і самі тестові завдання. Існують конкретні методи обчислення помилок. Ми знаємо, що наші спостереження можуть виявитися помилковими, наші методичні інструменти недосконалі так само, як і самі люди. (Як не згадати Шекспіра: «Ненадійна ти, чиє ім'я людина»). Те, що в класичній теорії тестів помилки виміру експлікуються та пояснюються, є важливим позитивним моментом.

Класична теорія тестів має низку суттєвих особливостей, які можна розглядати та як її недоліки. Деякі з цих характеристик відзначаються в довідниках, але їх значення (з життєвої точки зору) підкреслюється нечасто, як не наголошується і на тому, що з теоретичної чи методичної точки зору їх слід вважати недоліками.

Перше. Класична теорія тестів і поняття надійності орієнтовані на підрахунок сумарних тестових показників, що є результатом складання оцінок, отриманих в окремих завданнях. Так, під час роботи


Друге. Коефіцієнт надійності передбачає оцінку величини розкиду показників, що вимірюються. Звідси випливає, що коефіцієнт надійності буде нижчим, якщо (при рівності інших показників) вибірка є одноріднішою. Немає єдиного коефіцієнта внутрішньої узгодженості завдань тесту, цей коефіцієнт завжди «контекстуальний». Крокер і Альджина (1986), наприклад, пропонують спеціальну формулу «корекції для гомогенної вибірки», призначену для найвищих і найнижчих результатів, отриманих тестування. Для діагноста важливо знати характеристики варіацій у вибірковій сукупності, інакше він зможе використовувати коефіцієнти внутрішньої узгодженості, зазначені у посібнику до даного тесту.

Третє. Феномен зведення до показника середнього арифметичного є наслідком класичної концепції надійності. Якщо оцінка в тесті коливається (тобто вона недостатньо надійна), то цілком можливо, що при повторенні процедури суб'єкти, які мають низькі показники, отримають більше високі бали, і навпаки, суб'єкти з високими показниками – низькі. Цей артефакт процедури виміру не можна помилково прийняти за справжнє зміна чи прояв процесів розвитку. Але водночас розмежувати їх важко, т.к. ніколи не можна виключити можливість зміни у ході розвитку. Для повної впевненості необхідне порівняння з контрольною групою.

Четверта характеристика тестів, розроблених відповідно до принципів класичної теорії, - наявність нормативних даних. Знання тестових норм дозволяє досліднику адекватно інтерпретувати результати тестованих. Поза нормами тестові оцінки позбавлені сенсу. Вироблення тестових норм - це досить дороге підприємство, оскільки психолог має отримати результати тестування на репрезентативній вибірці.

2 Я. тер Лаак

Якщо говорити про недоліки класичної концепції надійності, то тут доречно навести висловлювання Сій-тсма (1992, р. 123-125). Він зазначає, що перше і головне припущення класичної теорії тестів у тому, що тестові результати підкоряються інтервальному принципу. Проте жодних досліджень, які б підтверджували це припущення, немає. По суті, це «вимірювання за довільно встановленим правилом». Ця особливість ставить класичну теорію тестів менш вигідне становище проти шкалами виміру установок і, звісно ж, проти сучасної теорією тестів. Багато методів аналізу даних (дисперсійний аналіз. регресійний аналіз, кореляційний та факторний аналіз) засновані на допущенні існування інтервальної шкали. Проте воно немає твердого обгрунтування. Розглядати шкалу справжніх результатів як шкалу значень психологічних характеристик (наприклад, арифметичних здібностей, інтелекту, нейротизму) можна лише приблизно.

Друге зауваження стосується того, що результати виконання тесту – це не абсолютні показникитієї чи іншої психологічної характеристики тестованого, їх слід розглядати лише як результати виконання тієї чи іншої тесту. Два тести можуть претендувати на вивчення одних і тих же психологічних характеристик (наприклад, інтелекту, вербальних здібностей, екстраверсії), але це не означає, що ці два тести рівноцінні і мають однакові можливості. Порівняння показників двох людей, які пройшли тестування різними тестами, є некоректним. Те саме стосується і до заповнення двох різних тестів одним випробуваним. Третє зауваження відноситься до припущення, що стандартна помилка вимірювання однакова стосовно будь-якого рівня вимірюваних здібностей індивіда. Проте немає емпіричної перевірки цього припущення. Так, наприклад, немає гарантії того, що тестований з добрими математичними здібностямипід час роботи з відносно простим арифметичним тестом отримає високі бали. У цьому випадку високу оцінку швидше отримає людина з низькими чи середніми здібностями.

У рамках сучасної теорії тестів або теорії аналізу відповідей у ​​завданнях тесту міститься опис великого


кількості моделей можливих відповідей респондентів Ці моделі розрізняються покладеними в їх основу припущеннями, а також вимогами щодо даних, що одержуються. Модель Раша часто розглядається як синонім теорій аналізу відповідей у ​​завданнях тесту (1RT). Насправді це лише одна з моделей. Подана в ній формула для опису характеристичної кривої завдання g виглядає так:

де g- окреме завдання тесту; ехр- функція експоненти (нелінійна залежність); δ («дельта») - рівень складності тесту.

Інші завдання тесту, наприклад h,також одержують власні характеристичні криві. Виконання умови δ h >δ g (gозначає, що h- Більше важке завдання. Отже, для будь-якого значення показника Θ («тета» - латентні властивості здібностей тестованих) ймовірність успішного виконання завдання hменше. Ця модель називається строгою, оскільки очевидно, що за низького ступеня вираженості риси ймовірність виконання завдання близька до нуля. У цій моделі немає місця вгадуванням та припущенням. Для завдань із варіантами вибору немає необхідності робити припущення про можливість успіху. Крім того, ця модель сувора в тому сенсі, що всі завдання тесту повинні мати однакову дискримінативну здатність (висока дискримінативність відображається в крутості кривої; тут можлива побудова шкали Гут-тмана, згідно з якою в кожній точці характеристичної кривої ймовірність виконання завдання змінюється від ПРО до 1). Через це умови не всі завдання можуть бути включені до тестів, створених на основі моделі Раша.

Існує кілька варіантів цієї моделі (наприклад, Birnbaura, 1968, Див. Lord & Novik). Вона допускає існування завдань з різною дискримінативною

здатністю.

Голландський дослідник Моккен (1971) розробив дві моделі аналізу відповідей у ​​завданнях тесту, вимоги яких так суворі, як і моделі Раша, і тому, можливо, більш реалістичні. Як основний усло-

Моккен висуває положення про те, що характеристична крива завдання повинна слідувати монотонно, без обривів. Усі завдання тесту у своїй спрямовані вивчення однієї й тієї психологічної характеристики, вимірювати яку має в.Допускається будь-яка форма цієї залежності, доки вона не перерветься. Отже, форма характеристичної кривої не визначається якоюсь специфічною функцією. Така «свобода» дозволяє використовувати більше завдань тесту, і рівень оцінювання при цьому виявляється не вищим, ніж звичайний.

Методологія моделей відповідей на завдання тесту (IRT) відрізняється від методології більшості експериментальних та кореляційних досліджень. Математична модель призначена для вивчення поведінкових, когнітивних, емоційних характеристик, і навіть феноменів розвитку. Ці феномени, що розглядаються, часто обмежуються відповідями на завдання, що дозволило Мелленбергу (1990) назвати теорію IRT «міні-теорією про міні-поведінку». Результати дослідження можуть бути певною мірою представлені як криві узгодженості, особливо в тих випадках, коли теоретичні уявлення про досліджувані характеристики відсутні. До цього часу у нашому розпорядженні є лише одиниці тестів інтелекту, здібностей і особистісних тестів, створених з урахуванням численних моделей теорії IRT. Варіанти моделі Раша частіше використовуються для розробки тестів досягнень (Verhelst, 1993), а моделі Моккена більше підходять для феноменів розвитку (див. також гл. 6).

Відповідь тестованого завдання тесту є основною одиницею моделей IRT. Тип відповіді визначається ступенем вираженості в людини характеристики, що вивчається. Такою характеристикою можуть бути, наприклад, арифметичні чи просторові здібності. Найчастіше це той чи інший аспект інтелекту, характеристики досягнень чи особистісні особливості. Передбачається, що між положенням цього конкретної людинив деякому діапазоні досліджуваної характеристики та ймовірністю успішного виконання того чи іншого завдання існує нелінійна залежність. Нелінійність цієї залежності певному сенсі інтуїтивно зрозуміла. Відомі фрази«Всяке початок важко» (повільний не-


лінійний старт) та «Стати святим не так просто», означають що подальше вдосконалення після досягнення певного рівня йдеважко. Крива повільно наближається, але майже ніколи не досягає 100%-го рівня успіху.

Деякі моделі радше суперечать нашому інтуїтивному розумінню. Візьмемо такий приклад. Людина з індексом вираженості довільної характеристики рівним 1,5 має 60-відсоткову ймовірність успіху під час виконання завдання. Це суперечить нашому інтуїтивному розумінню такої ситуації, адже можна успішно впоратися із завданням, або не впоратися з ним взагалі. Візьмемо такий приклад: 100 разів людина намагається взяти висоту 1м 50 див. Успіх супроводжує йому 60 разів, тобто. він має 60-відсоткову ймовірність успіху.

Для оцінки ступеня вираженості характеристики необхідно принаймні два завдання. Модель Раша передбачає визначення виразності показників незалежно від проблеми завдання. Це також суперечить нашому інтуїтивному розумінню: припустимо, що людина має 80-відсоткову ймовірність стрибнути вище 1,30 м. Якщо це так, то відповідно до характеристичної кривої завдань вона має 60-відсоткову ймовірність стрибнути вище 1,50 м та 40-відсоткову. можливість стрибнути вище 1,70 м. Отже, незалежно від значення незалежної змінної (висоти) можна оцінити здатність людини стрибати у висоту.

Існує близько 50 моделей IRT (Goldstein & Wood, 1989). Є безліч нелінійних функцій, що описують (пояснюють) ймовірність успіху у виконанні завдання або групи завдань. Вимоги та обмеження цих моделей різні, і ці відмінності можуть бути виявлені при зіставленні моделі Раша та шкали Моккена. До вимог цих моделей можна віднести:

1) необхідність визначення досліджуваної характеристики та оцінку позиції людини у діапазоні цієї риси;

2) оцінку послідовності завдань;

3) перевірку конкретних моделей. У психометрії розроблено безліч процедур перевірки моделі.

У деяких довідкових посібниках теорія IRT сприймається як форма аналізу завдань тесту (див., наприклад,

Croker & Algina, J 986). Можна, проте, обстоювати той погляд, що теорія IRT - це «міні-теорія про міні-поведінці». Прихильники теорії IRT зауважують, що якщо недосконалі концепції (моделі) середнього рівня, то що ж можна сказати про складніші конструкти в психології?

Класична та сучасна теорія тестів. Люди не можуть не порівнювати речі, які виглядають майже однаково. (Можливо, життєвий еквівалент психометрії і полягає, головним чином, у порівнянні людей за значущими характеристиками та вибором між ними). Кожна з представлених теорій - і теорія виміру помилок оцінювання, і математична модель відповіді завдання тесту - має своїх прибічників (Goldstein & Wood, 1986).

Моделі IRT не викликають закидів у тому, що це "оцінювання за правилами", на відміну від класичної теорії тестів. Модель IRT орієнтована аналіз оцінюваних характеристик. Характеристики особистості та характеристики завдань оцінюються за допомогою шкал (порядкових чи інтервальних). Понад те, можливе зіставлення показників виконання різних тестів, вкладених у вивчення подібних характеристик. Нарешті, надійність неоднакова кожного значення на шкалі, а середні показники зазвичай є більш надійними, ніж показники, розташовані на початку і наприкінці шкали. Таким чином, моделі IRT у теоретичному відношенні видаються більш досконалими. Існує і відмінності в практичному використаннісучасної теорії тестів та класичної теорії (Sijstma, 1992, стор 127-130). Сучасна теорія тестів складніша порівняно з класичною, тому вона рідше використовується нефахівцями. Понад те, IRT пред'являє особливі вимоги до завдань. Це означає, що завдання повинні бути виключені з тесту, якщо вони не відповідають вимогам моделі. Це правило відноситься далі до тих завдань, які входили до складу широко використовуваних тестів, побудованих за принципами класичної теорії. Тест стає коротшим, і, отже, надійність його знижується.

IRT пропонує математичні моделі вивчення реальних феноменів. Моделі повинні допомогти нам зрозуміти ключові аспекти цих феноменів. Однак тут криється основне теоретичне питання. Моделі можна розглянути-


вати як підхід до вивчення складної реальності, в якій ми живемо. Але модель і реальність - не те саме. Відповідно до песимістичного погляду, можливе моделювання лише одиничних (і до того ж не найцікавіших) типів поведінки. Також можна зустріти твердження, що реальність взагалі підлягає моделюванню, т.к. вона підпорядковується не лише причинно-наслідковим законам. У найкращому випадкуможливе моделювання окремих (ідеальних) поведінкових феноменів. Існує й інший, більш оптимістичний, погляд на можливості моделювання. Наведена вище позиція блокує можливість глибокого розуміння природи феноменів людської поведінки. Застосування тієї чи іншої моделі порушує деякі загальні, фундаментальні питання. На наш погляд, не підлягає сумніву, що IRT є концепцією теоретично та технічно перевершує класичну теорію тестів.

Практичним призначенням тестів, який би теоретичної основі де вони створювалися, є визначення значних критеріїв і встановлення їх основі характеристик тих чи інших психологічних конструктів. Чи має модель IRT переваги і щодо цього? Цілком можливо, що тести, створені на основі цієї моделі, не дають більш точного прогнозу порівняно з тестами, створеними на основі класичної теорії, і можливо, що їхній внесок у розробку психологічних конструктів не є більш вагомим. Діагности віддають перевагу таким критеріям, які безпосередньо відносяться до окремої людини, інституту або спільноти. Модель, досконаліша у науковому відношенні, «ipso facto»* не визначає більш відповідний критерій і певною мірою обмежена у поясненні наукових конструктів. Очевидно, що розробка тестів на основі класичної теорії продовжуватиметься, але разом з тим будуть створюватися і нові моделі IRT, що поширюються на вивчення більшої кількості психологічних феноменів.

У класичної теорії тестів різняться поняття «надійності» та «валідності». Тестові результати повинні бути надійні, тобто. результати початкового та повторного тестування повинні узгоджуватися. Крім того,

* ipso facto(лак) - сама по собі (прим. перекл.).

результати мають бути вільними (наскільки це можливо) від помилок оцінювання. Наявність валідності - одна з вимог, що висуваються до отриманих результатів. При цьому надійність сприймається як необхідна, але ще не достатня умова валідності тесту.

Поняття валідності передбачає, що отримані результати відносяться до чогось важливого у практичному чи теоретичному відношенні. Висновки, зроблені на основі тестових оцінок, мають бути валідними. Найчастіше говорять про два види валідності: прогностичної (критеріальної) та конструктної. Існують також інші види валідності (див. гл. 3). Крім того, валідність може бути визначена і у разі квазіекспериментів (Cook & Campbell, 1976, Cook & Shadish, 1994). Однак основним видом валідності все ж таки є прогностична валідність, під якою розуміється можливість пророкувати за тестовим результатом щось суттєве про поведінку в майбутньому, а також можливість глибшого розуміння того чи іншого психологічного властивості чи якості.

Подані типи валідності обговорюються у кожному довіднику та супроводжуються описом методів аналізу валідності тесту. Факторний аналіз більш підходить для визначення конструктної валідизації, а рівняння лінійної регресіївикористовуються для аналізу прогностичної валідності. Ті чи інші характеристики (успішність, ефективність терапії) можуть бути передбачені на основі одного або декількох показників, отриманих при роботі з інтелектуальними або особистісними тестами. Такі техніки обробки даних, як кореляційний, регресійний, дисперсійний аналіз, аналіз часткових кореляцій та дисперсій, служать визначення прогностичної валідності тесту.

Також часто описується змістовна валідність. Передбачається, що всі завдання та завдання тесту повинні належати до специфічної галузі (психічних властивостей, поведінки тощо). Поняття змістовної валідності характеризує відповідність кожного завдання тесту вимірюваної області. Змістовна валідність іноді розглядається як частина надійності або узагальнюваність (Cronbach, Gleser, Nanda & Rajaratnam, 1972). Однак при


Виборі завдань для тестів досягнень у конкретній предметній області важливо також звертати увагу на правила включення завдань до тесту.

У класичній теорії тестів надійність та валідність розглядаються відносно незалежно один від одного. Але є й інше розуміння співвідношення цих понять. Сучасна теоріятестів ґрунтується на застосуванні моделей. Параметри оцінюються всередині певної моделі. Якщо завдання відповідає вимогам моделі, то рамках цієї моделі воно визнається невалідним. Конструктна валідизація є частиною перевірки самої моделі. Ця валідизації відноситься головним чином до перевірки існування одномірної латентної риси досліджуваної з відомими шкальними характеристиками. Шкальні оцінки, безсумнівно, можуть бути використані для визначення відповідних критеріїв, і можлива їхня кореляція з показниками інших конструктів для збору інформації про конвергентну та дивергентну валідність конструкту.

Психодіагностика аналогічна мові, що описується як єдність чотирьох компонентів, представлених на трьох рівнях. Перший компонент, теорія тестів, аналогічний синтаксису, граматиці мови. Породжувальна (генеративна) граматика - це, з одного боку, дотепна модель, з іншого - система, що підкоряється правилам. За допомогою цих правил на основі простих ствердних пропозиційбудуються складні. Однак, дана модель залишає осторонь опис того, як організований процес комунікації (що передається і що сприймається), і з якими цілями він здійснюється. Для цього потрібні додаткові знання. Те саме можна сказати і про теорію тестів: вона є необхідною в психодіагностиці, але вона не здатна пояснити, що психодіагност робить і які його цілі.

1.3.2. Психологічні теоріїта психологічні конструкти

Психодіагностика – це завжди діагностика чогось конкретного: особистісних характеристик, поведінки, мислення, емоцій. Тести призначені для оцінювання індивідуальних відмінностей. Існує кілька концепцій

індивідуальних відмінностей, кожна з яких має відмінні риси. Якщо визнається, що психодіагностика не обмежується лише оцінкою індивідуальних відмінностей, то тоді й інші теорії набувають істотного значення для психодіагностики. Прикладом є оцінка відмінностей процесів психічного розвитку та відмінностей у соціальному оточенні. Хоча оцінка індивідуальних відмінностей не є неодмінним атрибутом психодіагностики, проте існують певні традиції дослідження у цій галузі. Психодіагностика починалася з оцінки відмінностей інтелекту. Основним завданням тестів було визначення спадкової передачі геніальності (Gallon) або відбір дітей для навчання (Binet, Simon). Вимір коефіцієнта інтелектуальності отримало теоретичне осмислення і практичну розробку в працях Спірмена (Великобританія) і Терстоуна (США). Раймонд Б.Кеттел зробив таке для оцінки особистісних характеристик. Психодіагностика стає нерозривно пов'язаною з теоріями та уявленнями про індивідуальні відмінності у досягненнях (оцінка граничних можливостей) та форми поведінки (рівень типового функціонування). Ця традиція продовжує залишатись ефективною і сьогодні. У навчальних посібниках з психодіагностики набагато рідше оцінюються відмінності у соціальному оточенні проти розглядом особливостей самих процесів розвитку. Для цього немає жодних розумних пояснень. З одного боку, діагностика не обмежується певними теоріями та поняттями. З іншого боку, вона потребує теорій, оскільки саме їх визначається діагностується зміст (тобто. «що» діагностується). Так, наприклад, інтелект може розглядатися і як Загальна характеристикаі як основа для безлічі незалежних один від одного здібностей. Якщо психодіагностика намагається «відійти» від тієї чи іншої теорії, то тоді основою психодіагностичного процесу стають уявлення здорового глузду. У дослідженнях застосовуються різні способианалізу даних, та загальна логікадосліджень визначає вибір тієї чи іншої математичної моделі та визначає структуру використовуваних психологічних понять. Такі методи математичної статистики


ки, як дисперсійний аналіз, регресійний аналіз, факторний аналіз, підрахунок кореляцій передбачають існування лінійних залежностей. У разі некоректного застосування цих методів вони «привносять» свою структуру в отримані дані та конструкти, що використовуються.

Уявлення про відмінності у соціальному оточенні та про розвиток особистості майже не вплинули на психодіагностику. У навчальних посібниках (див., наприклад, Murphy & Davidshofer, 1988) розглядається класична теорія тестів та обговорюються відповідні методи статистичної обробки, описуються відомі тести, Розглядаються питання використання психодіагностики в практиці: в психології управління, при відборі персоналу, при оцінці психологічних характеристик людини.

Теорії індивідуальних відмінностей (а також уявлення про відмінності між соціальним оточенням та про психічний розвиток) аналогічні до вивчення семантики мови. Це вивчення і сутності, змісту, і значення. Значення структуруються певним чином (подібно до психологічних конструктів), наприклад, за подібністю або контрастом (аналогія, конвергенція, дивергенція).

1.3.3. Психологічні тести та інші методичні засоби

Третій компонент запропонованої схеми – тести, процедури та методичні засоби, за допомогою яких відбувається збір інформації про характеристики особистості. Дрені та Сійтсма (1990, стор. 31) дають таке визначення тестам: «Психологічний тест розглядається як класифікація згідно певній системіабо як процедура вимірювання, яка дозволяє винести певне судження про одну або декілька емпірично виділених або теоретично обґрунтованих характеристик конкретної сторони поведінки людини (за рамками тестової ситуації). При цьому розглядається реакція респондентів на певну кількість ретельно підібраних стимулів, а отримані відповіді порівнюються із тестовими нормами».

Діагностиці необхідні тести та методики для збору надійної, точної та валідної інформації про особливості

і характерних рисахособистості, про мислення, емоції та поведінку людини. Крім розробки тестових процедур у цей компонент входять також такі питання: як створюються тести, як формулюються та відбираються завдання, як протікає процес тестування, які вимоги до умов проведення тестування, як враховуються помилки вимірювання, як підраховуються та інтерпретуються тестові результати.

У процесі розробки тестів різняться раціональна та емпірична стратегія. Застосування раціональної стратегії починається з визначення основних понять (наприклад, поняття інтелекту, екстраверсії), і відповідно до цих уявлень формулюються завдання тесту. Прикладом такої стратегії може бути концепція аспектного аналізу (the facet theory) Гуттмана (1957, 1968, 1978). Спочатку визначаються різні аспекти основних конструктів, потім підбираються завдання та завдання таким чином, щоб було враховано кожен із цих аспектів. Друга стратегія у тому, що завдання підбираються на емпіричній основі. Наприклад, якщо дослідник спробує створити тест професійних інтересів, який дозволяв би диференціювати медиків від інженерів, то процедура має бути такою. Обидві групи респондентів повинні відповісти на всі завдання тесту, і ті пункти, у відповідях на які виявлено статистично значущі відмінності, входять до остаточного варіанта тесту. Якщо, наприклад, між групами існують відмінності у відповідях твердження «Я люблю ловити рибу», це твердження стає елементом тесту. Основним становищем цієї книги є те, що тест пов'язаний з концептуальною або таксономічною теорією, яка визначає ці характеристики.

Призначення тесту зазвичай визначено в інструкції щодо його застосування. Тест має бути стандартизований для того, щоб за його допомогою можна було оцінити різницю між людьми, а не між умовами тестування. Існують, однак, відхилення від стандартизації у процедурах, які називаються «тестуванням меж можливостей» (testing the limits) та «тести оцінки потенційних можливостей у навчанні» (learning potential tests). У цих умовах респондентові надається допомога у процесі


тестування та потім оцінюється вплив такої процедури на результат. Підрахунок балів за відповіді завдання об'єктивний, тобто. здійснюється відповідно до стандартної процедури. Інтерпретація одержаних результатів також суворо визначена та здійснюється на основі тестових норм.

Третій компонент психодіагностики – психологічні тести, інструменти, процедури – містить певні завдання, які є найменшими одиницями психодіагностики та в цьому сенсі завдання аналогічні фонемам мови. Число можливих поєднань фонем обмежено. Лише певні фонематичні структури можуть утворювати слова та речення, що забезпечують доведення інформації до слухача. Також ітестові завдання: лише у певному поєднанні один з одним вони можуть стати ефективним засобомоцінки відповідного конструкту


Основні питання: Тест як інструмент виміру. Основні теорії тестування. Функції, можливості та обмеження тестування. Застосування тестів щодо оцінки персоналу. Переваги та недоліки використання тестів. Форми та види тестових завдань. Технологія побудови завдання. Оцінка якості тесту. Достовірність та валідність. Програмне забезпечення розробки тестів. 2




Тест як інструмент виміру Основні поняття у тестології: вимір, тест, зміст та форма завдань, надійність та валідність результатів виміру. Крім того, у тестології використовуються такі поняття статистичної науки, як вибіркова та генеральна сукупність, середні показники, варіація, кореляція, регресія та ін.




Тестове завдання - це дидактично та технологічно ефективна одиниця контрольного матеріалу, частина тесту, що відповідає вимогам предметної чистоти змісту (або одномірності), змістовної та логічної правильності, правильності форми, прийнятності геометричного образу завдання. 6




Традиційний тест є стандартизованим методом діагностики рівня та структури підготовленості. У такому тесті всі випробувані відповідають на одні й самі завдання, в однаковий час, в однакових умовах і з однаковими правилами оцінювання відповідей. Для досягнення мети тестування можна створити незліченну кількістьтестів, і всі вони можуть відповідати досягненню поставленого завдання. 8


Професіограма (від лат. Professio спеціальність + Gramma запис) система ознак, що описують ту чи іншу професію, а також включає перелік норм і вимог, що пред'являються цією професією або спеціальністю до працівника. Зокрема, професіограма може включати перелік психологічних характеристик, яким повинні відповідати представники конкретних професійних груп. 9


Основні теорії тестування Перші наукові праці з теорії тестів з'явилися на початку ХХ століття, на стику психології, соціології, педагогіки та інших, про поведінкових наук. Зарубіжні психологи називають цю науку психометрикою (Psychometrika), а педагоги – педагогічним виміром (Educational measurement). Незамутнена ідеологією та політикою, інтерпретація назви «тестологія» проста та прозора: наука про тести. 10


Перший етап - передісторія - з давніх-давен до кінця XIXстоліття, коли були поширені донаукові форми контролю знань та здібностей; другий період, класичний, продовжувався з початку 20-х до кінця 60-х років, протягом якого створювалася класична теорія тестів; третій період - технологічний - що розпочався з 70-х років - час розробки методів адаптивного тестування та навчання, методологію ефективної розробки тестів та тестових завдань для параметричної оцінки піддослідних за вимірюваною латентною якістю. 11


Функції, можливості та обмеження тестування Тести, що застосовуються при відборі, призначені для того, щоб отримати психологічний портреткандидата, оцінити його здібності, а також професійні знання та навички. Тести дозволяють порівнювати кандидатів між собою чи з еталонами, тобто ідеальним кандидатом. Тести використовуються для вимірювання якостей людини, необхідні результативного виконання роботи. Деякі тести влаштовані таким чином, щоб роботодавець сам адміністрував тестування та підраховував результати. Інші вимагають послуг досвідчених консультантів, щоб забезпечити їхнє правильне застосування. 12


Обмеження використання тестів пов'язані з їх дорогим адмініструванням; - З придатністю для оцінки здібностей людини; - тести успішніші для прогнозування успішності в роботі, що містить короткі за часом професійні завдання, і не дуже зручні у випадках, коли завдання, які вирішуються на роботі, займають кілька днів або тижнів. 13








2. Використовувана термінологія повинна бути підібрана з розрахунку на конкретну цільову аудиторію. Також потрібно виключити зайві статті або статті, що включають два або більше запитань, оскільки вони іноді спантеличують респондента і ускладнюють інтерпретацію. 17


3. Щоб задовольнити всім цим вимогам, слід переглянути весь банк питань статтю за статтею та проаналізувати, якою метою є кожна з них. Наприклад, якщо тест розробляється для вимірювання аналітичних здібностей стажистів – бухгалтерів, варто подумати, що в цьому випадку означає поняття «аналітичні здібності». 18




5. Коли питання та формати підрахунку результатів обрані, їх потрібно перетворити на зручний для користувача формат, з чітко написаними інструкціями та питаннями - прикладами; так, щоб кандидати, які виконують тест, повністю розуміли, що від них вимагається. 20


6. Дуже часто на цьому етапі розробки тест включають більше питань, ніж потрібно. За деякими оцінками, втричі більше, ніж залишиться в остаточному тесті чи системі виміру. Тоді вихідним заходом стане перевірка тесту, що розробляється на відносно широкій вибірці з числа існуючих працівників, щоб переконатися в тому, що всі питання легко зрозумілі. 21


7. Тести на визначення знань зазвичай починаються з простих питань, що поступово ускладнюються до кінця. Коли тести призначаються для вимірювання соціальних установок та особистісних характеристик, можливо, буде корисним чергувати негативно та позитивно сформульовані статті, щоб уникнути непродуманих відповідей. 22


8. Останній етап є застосування тесту на широкій репрезентативної вибірці, щоб встановити норми виконання, достовірності та валідності ще до початку його використання як інструмент відбору. Крім того, необхідно визначити справедливість тесту, щоб переконатися, що він не дискримінує жодних підгруп населення (наприклад, етнічних відмінностей). 23


Оцінка якості тесту Щоб методи відбору були достатньо результативними, вони повинні бути надійними, валідними та достовірними. Достовірність методу відбору характеризується його несхильністю до систематичних помилок при вимірі, тобто його спроможності за різних умов. 24


Насправді достовірність при винесенні суджень досягається порівнянням результатів двох і більше аналогічних тестів, проведених у різні дні. Інший шлях підвищення достовірності – порівняння результатів кількох альтернативних методів відбору (наприклад, тест та розмова). Якщо результати подібні чи однакові, вважатимуться їх правильними. 25


Надійність означає, що проведені виміри дадуть той самий результат, що й попередні, тобто результати оцінки не впливають сторонні чинники. Валідність означає, що цей метод вимірює саме те, навіщо він призначений. Максимально можлива точність інформації, одержуваної спеціально розробленими методиками наукових дослідженнях, обмежена технічними факторами та не перевищує 0,8. 26


У практиці відбору персоналу зазначається, що надійність різних методівоцінки розміщується в інтервалах: 0,1 - 0,2 - традиційне інтерв'ю; 0,2 – 0,3 – рекомендації; 0,3 – 0,5 – професійні випробування; 0,5 – 0,6 – структуроване інтерв'ю, інтерв'ю з компетенцій; 0,5 – 0,7 – когнітивні та особистісні тести; 0,6 – 0,7 – компетентнісний підхід (асесмент – центр). 27


Під обґрунтованістю розуміється те, з яким ступенем точності даний результат, метод чи критерій «передбачає» майбутню результативність людини, що тестується. Обгрунтованість методів відноситься до висновків, зроблених на основі тієї чи іншої процедури, а не самої процедури. Тобто метод відбору може сам бути достовірним, але не відповідати конкретному завданню: вимірювати не те, що потрібно в даному випадку. 28


Програмне забезпечення для розробки тестів вітчизняній практиціпредставлені різні комплексні програми з модулем «Психодіагностика», наприклад, програма «1 С: Зарплата та Управління Персоналом 8.0» з модулем «Психодіагностика», розроблена спільно з групою викладачів кафедри психології особистості та загальної психологіїфакультету психології МДУ ім. М. Ст Ломоносова під керівництвом д. псих. наук, проф. А. Н. Гусєва. Навчальний тренажер для розробки систем оцінки персоналу та адаптації тестових методик факультету психології ТГУ, розроблений також на базі «1С:Підприємство 8.2» фірмою Персонал Софт. 29


Література: Відбір та найм персоналу: технології тестування та оцінки / Домінік Купер, Іван Т. Робертсон, Гордон Тінлайн. - М., вид-во «Вершина, - 156 с. Психологічне забезпечення професійної діяльності: теорія та практика / За ред. Проф. Г. С. Нікіфорова. - СПб.: Мова, - 816 с. 30

Основні поняття теорії тестів.

Вимір або випробування, що проводиться з метою визначення стану або здібностей спортсмена, називається тестом. Будь-який тест включає вимірювання. Але не всяка зміна є тестом. Процедура вимірів чи випробувань називається тестуванням.

Тест, основу якого лежать рухові завдання, називається руховим. Існує три групи рухових тестів:

  • 1. Контрольні вправи, виконуючи які спортсмен отримує завдання показати максимальний результат.
  • 2. Стандартні функціональні проби, у ході завдання, однакове всім, дозується або за величиною виконаної роботи, або за величиною фізіологічних зрушень.
  • 3. Максимальні функціональні проби, під час яких спортсмен має показати максимальний результат.

Високоякісне тестування передбачає знання теорії вимірів.

Основні поняття теорії вимірів.

Вимір - це виявлення відповідності між досліджуваним явищем з одного боку, і числами - з іншого.

Основи теорії вимірів становлять три поняття: шкали вимірів, одиниці вимірів та точність вимірів.

Шкали вимірів.

Шкала виміру - це закон, яким чисельне значення присвоюється вимірюваному результату з його зростання чи спадання. Розглянемо деякі з шкал, що застосовуються в спорті.

Шкала найменувань (номінальна шкала).

Це найпростіша з усіх шкал. У ній числа виконують роль ярликів і служать виявлення і розрізнення об'єктів, що вивчаються (наприклад, нумерація гравців футбольної команди). Числа, що становлять шкалу найменувань, дозволяється змінювати метами. У цій шкалі немає відносин типу «більше-менше», тому деякі вважають, що застосування шкали найменувань не слід вважати виміром. При використанні шкали, найменувань можуть проводитись лише деякі математичні операції. Наприклад, її числа не можна складати чи віднімати, але можна підраховувати, скільки разів (як часто) зустрічається те чи інше число.

Шкала порядку.

Є види спорту, де результат спортсмена визначається лише місцем, зайнятим на змаганнях (наприклад, єдиноборства). Після таких змагань ясно, хто зі спортсменів сильніший, а хто слабший. Але наскільки сильнішими чи слабшими, сказати не можна. Якщо три спортсмени зайняли відповідно перше, друге і третє місця, то які відмінності в їх спортивній майстерності, залишається незрозумілим: другий спортсмен може бути майже дорівнює першому, а може бути слабшим за нього і бути майже однаковим з третім. Місця, які займають у шкалі порядку, називаються рангами, а сама шкала називається ранговою або неметричною. У такій шкалі складові її числа впорядковані за рангами (тобто місцями, що займаються), але інтервали між ними точно виміряти не можна. На відміну від шкали найменувань шкала порядку дозволяє не тільки встановити факт рівності або нерівності об'єктів, що вимірюваються, але й визначити характер нерівності у вигляді суджень: «більше - менше», «краще - гірше» і т.п.

За допомогою шкал порядку можна вимірювати якісні, що не мають суворої кількісної міри, показники. Особливо широко ці шкали використовуються в гуманітарних науках: педагогіки, психології, соціології

До ранг шкали порядку можна застосовувати більше математичних операцій, ніж до числа шкали найменувань.

Шкала інтервалів.

Це шкала, у якій числа не лише впорядковані за рангами, а й розділені певними інтервалами. Особливість, що відрізняє її від шкали відносин, що описується далі, полягає в тому, що нульова точка вибирається довільно. Прикладами можуть бути календарний час (початок літочислення в різних календаряхвстановлювалося з випадкових причин), суглобовий кут (кут у ліктьовому суглобі при повному розгинанні передпліччя може прийматися рівним або нулю, або 180°), температура, потенційна енергіяпіднятого вантажу, потенціал електричного поля та ін.

Результати вимірювань за шкалою інтервалів можна обробляти всіма математичними методами, Окрім обчислення відносин. Дані шкали інтервалів дають відповідь на запитання: «на скільки більше», але не дозволяють стверджувати, що одне значення виміряної величини в стільки разів більше або менше. Наприклад, якщо температура підвищилася з 10 до 20 С, то не можна сказати, що стало вдвічі тепліше.

Шкала стосунків.

Ця шкала відрізняється від шкали інтервалів лише тим, що у ній суворо визначено положення нульової точки. Завдяки цьому шкала відносин не накладає жодних обмежень на математичний апарат, що використовується для обробки результатів спостережень

У спорті за шкалою відносин вимірюють відстань, силу, швидкість та десятки інших змінних. За шкалою відносин вимірюють і ті величини, які утворюються як різниці чисел, відрахованих за шкалою інтервалів. Так, календарний час відраховується за шкалою інтервалів, а інтервали часу - за шкалою відносин. При використанні шкали відносин (і тільки в цьому випадку!) Вимір будь-якої величини зводиться до експериментального визначення відношення цієї величини до іншої подібної, прийнятої за одиницю. Вимірюючи довжину стрибка, ми дізнаємося, у скільки разів ця довжина більша за довжину іншого тіла, прийнятого за одиницю довжини (метрової лінійки в окремому випадку); зважуючи штангу, визначаємо відношення її маси до маси іншого тіла - одиничної гирі "кілограма" і т.п. Якщо обмежитися лише застосуванням шкал відносин, можна дати інше (вужче, приватне) визначення виміру: виміряти якусь величину -- отже знайти досвідченим шляхом її ставлення до відповідної одиниці виміру.

Одиниці вимірів.

Щоб результати різних вимірів можна було порівняти один з одним, вони повинні бути виражені в тих самих одиницях. У 1960 році на Міжнародній генеральній конференції з заходів та ваг була прийнята Міжнародна системаодиниць, що отримала скорочену назву СІ (від початкових буквслів System International). В даний час встановлено переважне застосування цієї системи у всіх галузях науки і техніки, народному господарстві, а також під час викладання.

СІ в даний час включає сім незалежних один від одного основних одиниць (див. таблицю 2.1)

Таблиця 1.1.

З зазначених основних одиниць як похідні виводять одиниці інших фізичних величин. Похідні одиниці визначаються на основі формул, що зв'язують між собою фізичні величини. Наприклад, одиниця довжини (метр) і одиниця часу (секунда) - основні одиниці, а одиниця швидкості (метр за секунду) - похідна.

Крім основних, в СІ виділено дві додаткові одиниці: радіан - одиниця плоского кута і стерадіан - одиниця тілесного кута (кута в просторі).

Точність вимірів.

Жодний вимір не може бути виконаний абсолютно точно. Результат вимірювання неминуче містить похибку, величина якої тим менша, чим точніше метод вимірювання та вимірювальний прилад. Наприклад, за допомогою звичайної лінійки з міліметровими поділками не можна виміряти довжину з точністю до 0,01 мм.

Основна та додаткова похибка.

Основна похибка - це похибка методу вимірювання або вимірювального приладу, яка має місце в нормальних умовахїх застосування.

Додаткова похибка-це похибка вимірювального приладу, викликана відхиленням умов його роботи від нормальних. Зрозуміло, що прилади, призначені для роботи при кімнатній температурі, будуть давати не точні показання, якщо користуватися ним влітку на стадіоні під сонцем, що палить, або взимку на морозі. Похибки вимірювання можуть виникати в тому випадку, коли напруга електричної мережі або джерела живлення нижче норми або непостійно за величиною.

Абсолютна та відносна похибки.

Величина E = А-Ао, рівне різниці між показанням вимірювального приладу (А) і справжнім значенням вимірюваної величини (Ао), називається абсолютною похибкою вимірювання. Вона вимірюється у тих самих одиницях, як і сама вимірювана величина.

Насправді часто зручно користуватися не абсолютною, а відносною похибкою. Відносна похибка вимірювання буває двох видів - дійсної і наведеної. Справжньою відносною похибкою називається ставлення абсолютної похибкидо справжнього значення вимірюваної величини:

А Д =--------- * 100%

Наведена відносна похибка - це відношення абсолютної похибки до максимально можливого значення вимірюваної величини:

Ап =----------* 100%

Систематична та випадкова похибки.

Систематичною називається похибка, величина якої не змінюється від виміру до виміру. У силу своєї особливості систематична похибка часто може бути передбачена заздалегідь або, в крайньому випадку, виявлена ​​і усунена після закінчення процесу вимірювання.

Спосіб усунення систематичної похибки залежить насамперед від її природи. Систематичні похибки виміру можна поділити на три групи:

похибки відомого походженнята відомої величини;

похибки відомого походження, але невідомої величини;

похибки невідомого походження та невідомої величини. Найнешкідливіші - похибки першої групи. Вони легко усуваються

шляхом введення відповідних поправок у результат виміру.

До другої групи належать, перш за все, похибки, пов'язані з недосконалістю методу вимірювання та вимірювальної апаратури. Наприклад, похибка вимірювання фізичної працездатності за допомогою маски для забору повітря, що видихається: маска ускладнює дихання, і спортсмен закономірно демонструє фізичну працездатність, занижену в порівнянні з істинною, що вимірюється без маски. Величину цієї похибки не можна передбачити заздалегідь: вона залежить від індивідуальних здібностей спортсмена та його самопочуття на момент дослідження.

Інший приклад систематичної похибки цієї групи - похибка, пов'язана з недосконалістю апаратури, коли вимірювальний прилад явно завищує або занижує справжнє значення вимірюваної величини, але величина похибки невідома.

Похибки третьої групи найбільш небезпечні, їхня поява буває пов'язана як з недосконалістю методу виміру, так і з особливостями об'єкта виміру - спортсмена.

Випадкові похибки виникають під впливом різноманітних чинників, які передбачити заздалегідь, ні точно врахувати не вдається. Випадкові похибки принципово не можна усунути. Однак, скориставшись методами математичної статистики, можна оцінити величину випадкової похибки та врахувати її при інтерпретації результатів виміру. Без статистичної обробки результати вимірів що неспроможні вважатися достовірними.