( 1 ) Величина теста. Для обеспечения надежности необходимо от
20 до 30 заданий.
(2) Содержание. В большинстве тестов желательно использование
настолько широкого разнообразия заданий, насколько возможно. Это
в равной степени важно, например, как для математических тестов,
где необходимы задания, выявляющие знания испытуемых в соответ-
ствии со всеми требованиями курса обучения, так и для тестов лич-
ности, с помощью которых должны измеряться столь же широкие
области релевантных аспектов поведения. Например, для экстравер-
сии это будут: общительность, оптимистичность, преобладание бод-
рого настроения и разговорчивость.
(3) Корреляция заданий с общим показателем. Это основной кри-
терий. Чем выше корреляция, тем лучше задание. Ясно, что следует
оставлять в тесте те задания, которые имеют высокую корреляцию с
общим показателем, однако на больших выборках эти цифры могут
быть и низкими. В идеале, все задания должны иметь корреляцию с
общим показателем не ниже 0,2 .
(4) Уровень трудности. Это также важный критерий. Для боль-
шинства тестов принято, что задания со значением Р от 0,80 до 0,20
считаются удовлетворительными. В то же время задание, эффектив-
ное в других отношениях, но со значением Р= 0,19 не должно быть
отброшено. Однако, в некоторых тестах способностей может быть
желательна максимальная дискриминативность для некоторого
уровня измеряемой переменной. Например, для отбора в среднюю
школу в некоторых областях страны требовались тесты с максималь-
ной дискриминативностью на уровне 115-120 IQ; в других регионах,
там, где было меньше мест в средних школах, максимум дискрими-
нативности был на уровне 125 IQ. Чтобы достичь этого, были необхо-
димы задания различного уровня трудности.
Такое утверждение существенно упрощает истинное положение дел. Определяю-
щим является не количество заданий, а их характер (особенности) и назначение
теста (Прим .ред.)
194
Отбор заданий тестов
Простейшая процедура отбора заданий для теста, которая должна
удовлетворять нашей модели измерения (и без каких-либо специаль-
ных уровней трудности) приведена ниже:
(1) Выберите те задания, которые во всех процедурах их анализа
удовлетворяют статистическим критериям ГрЬи и Р .
(2) Изучите те задания, которые не прошли одну из процедур
анализа, чтобы увидеть, не повлияла ли на это какая-либо особая
характеристика выборки. Например, для выборки из учителей автор
данной книги обнаружил, что задание, касающееся дисциплины,
имеет совершенно другие статистические оценки, чем для других
выборок. Это открытие позволило принять решение об использова-
нии этого задания. С другой стороны, задание, касающееся ухода за
детьми, на котором выявились большие различия в зависимости от
пола испытуемых, было удалено, поскольку можно было ожидать,
что такие различия будут иметь место всегда. При сравнения заданий
на мужской и женской выборках были обнаружены множество эф-
фективных заданий для мужчин и множество эффективных заданий
для женщин, но они имели относительно малое пересечение, следо-
вательно, это было явным показанием к тому, что на этих множест-
вах желательно создание отдельных тестов.
(3) Проверьте содержание отобранных заданий. Охватывают ли
они все характеристики, которые мы предполагали измерять при
помощи данного теста? Если нет, то изучите отбракованные задания,
чтобы посмотреть, есть ли среди них такие, которые измеряют эти
черты и почти удовлетворяет статистическим критериям. Если есть
несколько таких заданий, они должны быть введены в тест. Если нет,
то из этого вытекают два следствия: (а) эти задания, при предъявле-
нии вместе с отобранными, не образуют однородный тест; или (б) мы
сформулировали неудачные задания. Если мы остановимся на (б), то
задания должны быть переформулированы и опять подвергнуты ис-
пытаниям (см. стр. 197).
(4) Подсчитайте количество отобранных заданий. Если их коли-
чество приближается к рекомендованному (20-30) и охватывает все
содержание теста, вычислите коэффициент надежности K-R20. Он
всегда должен быть не менее 0,7; в противном случае в силу ряда
причин, как об этом говорилось при обсуждении процедуры отбора
по внутренней согласованности, можно ожидать более низкой одно-
родности теста. Если же значение надежности удовлетворительно, то
первое испытание заданий может быть окончено. Сконструирован
однородный, надежный, очевидно релевантный по содержанию тест.
т 195
(5) Если значение коэффициента надежности невысокое, то мож-
но добавить к тесту задания, имеющие наилучшие показатели по
статистическим критериям из оставшихся. Затем пересчитывается
коэффициент надежности K-R20 всякий раз, когда мы пытаемся
добавлением заданий увеличить значение надежности. Однако, уда-
стся ли это сделать - зависит от случая. Если нововведенные задания
слабо коррелируют с общим показателем, то они не смогут значи-
тельно увеличить надежность. Необходимо испытывать новые зада-
ния (см. стр. 197).
(6) Если испытание заданий завершилось созданием теста, надеж-
ного и удовлетворительного по содержанию, есть смысл изучить рас-
пределение показателей. Обычно распределение должно быть сим-
метричным. Практически, поскольку наибольшие значения корре-
ляции, вычисленной по формуле rpbis , бывают присущи заданиям,
близким к средним по уровню трудности, то почти неизбежно будет
получено симметричное распределение. Если же оно значительно
смещено, то для его корректировки нам могут понадобиться новые
задания, но в процессе стандартизации возможно приведение пока-
зателей к другому виду распределения.
Следует изучить дисперсию. Она должна быть настолько боль-
шой, насколько возможно, так как это означает, что тест является
эффективно дискриминирующим. При малом значении дисперсии в
тест нужно вводить новые задания. Если большое количество испы-
туемых получили максимальные и минимальные показатели, то для
этих уровней трудности могут потребоваться новые задания, по-
скольку ясно, что наш тест не является дискриминативным на этих
уровнях, и на более крупных выборках из изучаемой популяции
следует ожидать еще большего количества таких испытуемых.
(7) Если тест представляется удовлетворительным по дисперсии и
дискриминативности, вычислите Ферпосона. Если ее значение пре-
вышает 0,9 , то с уверенностью можно сказать, что тест является
дискриминативным.
(8) Если все получилось и похоже, что нам удалось сконструиро-
вать удовлетворительный набор заданий, проведите процедуру ана-
лиза этих заданий на новой выборке. Если более, чем одно или два
задания не удовлетворяют статистическим критериям rpbis и Р , яв-
ляющимся единственными критериями, интересующими нас при
этой повторной проверке, то эти задания должны быть переформули-
рованы и испытаны вновь.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96