Таким образом, весьма легкие задания, которые были изъяты из
обычного стандартизованного теста из-за их низкой разрешающей спо-
собности, даже те, с которыми справляется 100Їо испытуемых, как раз
и включаются в тест владения навыком. Аналогично тест, проводимый
перед началом обучения с тем, чтобы выявить учеников, уже освоивших
подлежащие выработке навыки, должен состоять из заданий с весьма
низким р. В этом случае задания с очень низким и даже нулевым р впол-
не допустимы, поскольку они выявляют то, что еще осталось неус-
военным.
Из приведенных примеров явствует, что уровень трудности заданий
зависит от назначения теста. Хотя в большинстве случаев максимум ин-
Ввиду специфики многих тестов, термин <упражнение> к-ячяттгя Дпгтрр v--ru
187
АНАЛИЗ ЗАДАНИЙ
формации об индивидуальном уровне выполнения теста обеспечивают
задания средней трудности (0,50), решение о трудности задания нельзя
принимать бездумно, без учета того, как предполагается использовать
тест.
ВАЛИДШИСТЬ ЗАДАНИЙ
Соотношение между заданием и контрольным критерием. Все
индексы валидности заданий основаны на соотношении между выполне-
нием задания и критериальным выполнением. Любой критерий, исполь-
зуемый для определения валидности теста, годится и для валидации за-
даний, анализ которых может быть использован для повышения не
только конвергентной, но и дискриминантной валидности теста (см.
гл. 6). Задания, таким образом, можно выбирать по признаку высокой
корреляции с критерием и низкой корреляции с безотносительными
к тесту факторами, влияющими на выполнение теста испытуемым. При
разработке, например, теста на арифметическое мышление задания, зна-
чимо коррелирующие с тестом на понимание читаемого текста, должны
быть изъяты.
Поскольку обычно регистрируется лишь факт выполнения или невы-
полнения задания, измерение его валидности, как правило, означает со-
поставление дихотомического показателя (результат выполнения зада-
ния) с непрерывной переменной (критерием). В известных ситуациях
критерий может быть также дихотомичным (например, окончание кол-
леджа или отчисление из него, успех или неудача в работе). Более того,
непрерывный критерий для целей анализа может быть превращен в ди-
хотомический. На рис. 26 изображены три характеристические кривые,
иллюстрирующие основные соотношения между заданием и критерием.
Каждая из этих кривых дает представление о взаимосвязи между про-
центом справившихся с заданием испытуемых и соответствующим клас-
сом интервалов критериального показателя. Нетрудно видеть, что зада-
ние 1 обладает низкой валидностью, поскольку его выполняет приблизи-
тельно один и тот же процент испытуемых во всем диапазоне критерия.
С заданиями 2 и 3 дело обстоит лучше, поскольку соответствие между
процентом выполнивших задания и критериальным показателем выра-
жено более четко. Из этих двух более валидно задание 3, ибо его харак-
теристическая кривая круче идет вверх.
Рис. 26. Харокте-
.ристические кри-
вые для трех ги-
потетических зада-
188 ПРИНЦИПЫ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯ
Характеристические кривые заданий дают наглядное представление
о различиях между заданиями с точки зрения их валидности. Вместе
с тем отбор заданий лучше осуществлять, если валидность каждого из
них выражена числовым индексом. В настоящее время при разработке
тестов используется свыше пятидесяти таких индексов. Они, в частности,
различаются по признаку применимости к дихотомическим или
непрерывным мерам. Более того, среди индексов, применимых к дихото-
мическим переменным, одни предполагают непрерывность и нормальное
распределение измеряемого с помощью теста свойства, на которое ис-
кусственно накладывается дихотомия, тогда как другие вводятся в пред-
положении истинной дихотомии. Одни меры валидности не зависят от
трудности заданий, в то время как валидность других тем выше, чем
ближе уровень трудности к 0,50.
Независимо от способа получения и исходных допущений большин-
ство индексов валидности задания дают весьма сходные результаты. Хо-
тя численные значения индексов могут быть разными, на их основе со-
храняются или отвергаются в основном одни и те же задания.
Собственно говоря, колебания данных о валидности задания от выборки
к выборке в целом больше, чем при использовании различных методов
их получения. Поэтому выбор метода часто определяется удобством вы-
числений и наличием соответствующих таблиц и номограмм. Последние
представляют собой расчетные диаграммы, по которым, например, зна-
чение корреляции между заданием и критерием легко вычисляется, если
известен процент испытуемых, справившихся с заданием в группах с вы-
соким и низким критериальным выполнением (J.P. Guilford, В. Fruchter,
1973, р. 445-458; S. Henrysson, 1971).
Использование экстремальных групп. Распространенный ме-
тод анализа заданий-сравнение числа выполнивших задание в двух
группах с контрастирующим критериальным выполнением. Если крите-
рий выражен в непрерывной шкале (как. скажем, в случае годовых оце-
нок, субъективных оценок качества работы, показателей производитель-
ности труда и т.д.), то по распределению значений критериальных
показателей, по верхнему (В) и нижнему (Я), формируются крите-
риальные группы. Очевидно, что группы с экстремальными показателя-
ми резче отличаются друг от друга. Однако использование для включе-
ния в группу предельных значений, скажем верхних и нижних 10%,
уменьшит надежность результатов вследствие малочисленности групп.
В случае нормального распределения оптимальный вариант, уравнове-
шивающий эти два условия, достигается при верхних и нижних 27Їо
(T.L. Kelley, 1939). Когда распределение более плоско, чем нормальная
кривая, оптимальная цифра приближается к 33Їо (E.E.Cureton, 1957).
В случае малых групп-таких, как обычный класс,-ошибка выборки при
анализе заданий настолько велика, что можно рассчитывать только на
грубые оценки. Поэтому здесь не приходится заботиться о точном про-
центе случаев в двух контрастных группах. Приемлема любая цифра ме-
жду 25 и 33Ї".
Большие и нормально распределенные выборки используются при
разработке стандартизованного теста, и в этом случае обычно берут
189 АНАЛИЗ ЗАДАНИЙ
верхние и нижние 27Їо распределения значений критериальных показате-
лей. Многие таблицы и номограммы, по которым рассчитываются пока-
затели валидности заданий, составлены в предположении, что сравни-
ваемые группы формировались согласно <правилу 27Ї">. По-видимому,
распространение быстродействующих компьютеров позволит заменить
различные вспомогательные приемы, разработанные для облегчения ана-
лиза заданий, более точными и совершенными методами.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143
обычного стандартизованного теста из-за их низкой разрешающей спо-
собности, даже те, с которыми справляется 100Їо испытуемых, как раз
и включаются в тест владения навыком. Аналогично тест, проводимый
перед началом обучения с тем, чтобы выявить учеников, уже освоивших
подлежащие выработке навыки, должен состоять из заданий с весьма
низким р. В этом случае задания с очень низким и даже нулевым р впол-
не допустимы, поскольку они выявляют то, что еще осталось неус-
военным.
Из приведенных примеров явствует, что уровень трудности заданий
зависит от назначения теста. Хотя в большинстве случаев максимум ин-
Ввиду специфики многих тестов, термин <упражнение> к-ячяттгя Дпгтрр v--ru
187
АНАЛИЗ ЗАДАНИЙ
формации об индивидуальном уровне выполнения теста обеспечивают
задания средней трудности (0,50), решение о трудности задания нельзя
принимать бездумно, без учета того, как предполагается использовать
тест.
ВАЛИДШИСТЬ ЗАДАНИЙ
Соотношение между заданием и контрольным критерием. Все
индексы валидности заданий основаны на соотношении между выполне-
нием задания и критериальным выполнением. Любой критерий, исполь-
зуемый для определения валидности теста, годится и для валидации за-
даний, анализ которых может быть использован для повышения не
только конвергентной, но и дискриминантной валидности теста (см.
гл. 6). Задания, таким образом, можно выбирать по признаку высокой
корреляции с критерием и низкой корреляции с безотносительными
к тесту факторами, влияющими на выполнение теста испытуемым. При
разработке, например, теста на арифметическое мышление задания, зна-
чимо коррелирующие с тестом на понимание читаемого текста, должны
быть изъяты.
Поскольку обычно регистрируется лишь факт выполнения или невы-
полнения задания, измерение его валидности, как правило, означает со-
поставление дихотомического показателя (результат выполнения зада-
ния) с непрерывной переменной (критерием). В известных ситуациях
критерий может быть также дихотомичным (например, окончание кол-
леджа или отчисление из него, успех или неудача в работе). Более того,
непрерывный критерий для целей анализа может быть превращен в ди-
хотомический. На рис. 26 изображены три характеристические кривые,
иллюстрирующие основные соотношения между заданием и критерием.
Каждая из этих кривых дает представление о взаимосвязи между про-
центом справившихся с заданием испытуемых и соответствующим клас-
сом интервалов критериального показателя. Нетрудно видеть, что зада-
ние 1 обладает низкой валидностью, поскольку его выполняет приблизи-
тельно один и тот же процент испытуемых во всем диапазоне критерия.
С заданиями 2 и 3 дело обстоит лучше, поскольку соответствие между
процентом выполнивших задания и критериальным показателем выра-
жено более четко. Из этих двух более валидно задание 3, ибо его харак-
теристическая кривая круче идет вверх.
Рис. 26. Харокте-
.ристические кри-
вые для трех ги-
потетических зада-
188 ПРИНЦИПЫ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯ
Характеристические кривые заданий дают наглядное представление
о различиях между заданиями с точки зрения их валидности. Вместе
с тем отбор заданий лучше осуществлять, если валидность каждого из
них выражена числовым индексом. В настоящее время при разработке
тестов используется свыше пятидесяти таких индексов. Они, в частности,
различаются по признаку применимости к дихотомическим или
непрерывным мерам. Более того, среди индексов, применимых к дихото-
мическим переменным, одни предполагают непрерывность и нормальное
распределение измеряемого с помощью теста свойства, на которое ис-
кусственно накладывается дихотомия, тогда как другие вводятся в пред-
положении истинной дихотомии. Одни меры валидности не зависят от
трудности заданий, в то время как валидность других тем выше, чем
ближе уровень трудности к 0,50.
Независимо от способа получения и исходных допущений большин-
ство индексов валидности задания дают весьма сходные результаты. Хо-
тя численные значения индексов могут быть разными, на их основе со-
храняются или отвергаются в основном одни и те же задания.
Собственно говоря, колебания данных о валидности задания от выборки
к выборке в целом больше, чем при использовании различных методов
их получения. Поэтому выбор метода часто определяется удобством вы-
числений и наличием соответствующих таблиц и номограмм. Последние
представляют собой расчетные диаграммы, по которым, например, зна-
чение корреляции между заданием и критерием легко вычисляется, если
известен процент испытуемых, справившихся с заданием в группах с вы-
соким и низким критериальным выполнением (J.P. Guilford, В. Fruchter,
1973, р. 445-458; S. Henrysson, 1971).
Использование экстремальных групп. Распространенный ме-
тод анализа заданий-сравнение числа выполнивших задание в двух
группах с контрастирующим критериальным выполнением. Если крите-
рий выражен в непрерывной шкале (как. скажем, в случае годовых оце-
нок, субъективных оценок качества работы, показателей производитель-
ности труда и т.д.), то по распределению значений критериальных
показателей, по верхнему (В) и нижнему (Я), формируются крите-
риальные группы. Очевидно, что группы с экстремальными показателя-
ми резче отличаются друг от друга. Однако использование для включе-
ния в группу предельных значений, скажем верхних и нижних 10%,
уменьшит надежность результатов вследствие малочисленности групп.
В случае нормального распределения оптимальный вариант, уравнове-
шивающий эти два условия, достигается при верхних и нижних 27Їо
(T.L. Kelley, 1939). Когда распределение более плоско, чем нормальная
кривая, оптимальная цифра приближается к 33Їо (E.E.Cureton, 1957).
В случае малых групп-таких, как обычный класс,-ошибка выборки при
анализе заданий настолько велика, что можно рассчитывать только на
грубые оценки. Поэтому здесь не приходится заботиться о точном про-
центе случаев в двух контрастных группах. Приемлема любая цифра ме-
жду 25 и 33Ї".
Большие и нормально распределенные выборки используются при
разработке стандартизованного теста, и в этом случае обычно берут
189 АНАЛИЗ ЗАДАНИЙ
верхние и нижние 27Їо распределения значений критериальных показате-
лей. Многие таблицы и номограммы, по которым рассчитываются пока-
затели валидности заданий, составлены в предположении, что сравни-
ваемые группы формировались согласно <правилу 27Ї">. По-видимому,
распространение быстродействующих компьютеров позволит заменить
различные вспомогательные приемы, разработанные для облегчения ана-
лиза заданий, более точными и совершенными методами.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143