ТВОРЧЕСТВО

ПОЗНАНИЕ

А  Б  В  Г  Д  Е  Ж  З  И  Й  К  Л  М  Н  О  П  Р  С  Т  У  Ф  Х  Ц  Ч  Ш  Щ  Э  Ю  Я  AZ

 

е. по ответам ис-
пытуемых из всей выборки.
ВНУТРЕННЯЯ СОГЛАСОВАННОСТЬ
Анализ заданий нередко проводится относительно суммарного результа-
та теста. Этот метод находит свое применение в тестах достижений
и особенно при составлении учителем контрольных работ, когда трудно
получить внешние критериальные данные. Как отмечалось в главе 6,
этот подход позволяет получить меру внутренней согласованности, а не
внешней валидности. Он годится для уточнения валидации по содержа-
нию и некоторых аспектов конструктной валидации.
Однако если тест должен быть валидным относительно критерия,
использование суммарного результата для анализа заданий нуждается
в тщательном изучении. При определенных условиях эти два подхода
могут привести к противоположным выводам: задания, выбираемые по
Формулу для ет можно найти в любом учебнике статистики (J. P. Guilford,
194 ПРИНЦИПЫ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯ
признаку внешней валидности, могут оказаться неудовлетворительными
с точки зрения внутренней согласованности. Предположим, что предва-
рительная форма теста способности к обучению состоит из 100 арифме-
тических и 50 словарных заданий. Для отбора заданий из первоначаль-
ной их совокупности методом внутренней согласованности можно
воспользоваться бисериальной корреляцией между выполнением каждо-
го задания и суммарными результатами по всем 150 заданиям. Очевид-
но, что такая бисериальная корреляция будет выше для арифметических,
а не для лексических заданий, потому что суммарный результат основан
на вдвое большем числе арифметических заданий. Если в окончательной
форме теста предполагается сохранить лучшие 75 заданий, то вполне ве-
роятно, что в большинстве своем они будут состоять из арифметических
заданий. Но с точки зрения достижений в учении словарные задания мо-
гут оказаться по сравнению с арифметическими более валидными
предикторами. В этом случае анализ заданий будет служить не повыше-
нию, а понижению валидности теста.
Изъятие заданий, имеющих низкую корреляцию с суммарным ре-
зультатом, является средством повышения однородности, или <очище-
ния>, теста. Благодаря применению этой процедуры сохраняются зада-
ния с наибольшими средними взаимокорреляциями. Данный метод
отбора заданий повышает валидность теста, только когда первоначаль-
ная совокупность заданий измеряет одно и то же свойство и когда это
свойство присутствует и в критерии. Однако некоторые типы тестов из-
меряют комбинацию свойств, отвечающих сложному критерию. В таком
случае очищение теста от инородных элементов может сузить охват та-
кого критерия и тем самым понизить валидность.
Отбор заданий с целью довести до максимума валидность теста
аналогичен отбору тестов, с тем чтобы получить батарею тестов с на-
иболее высокой валидностью. Напомним (гл. 7), что вклад теста в ва-
лидность батареи тем больше, чем выше его корреляция с критерием
и чем ниже корреляция с другими тестами батареи. Если этот принцип
применить к отбору заданий, то наилучшими окажутся задания, имею-
щие наибольшие значения валидности и наименьшие коэффициенты вну-
тренней согласованности. На этой основе можно определить чистую эф-
фективность задания, т.е. чистый прирост валидности теста при
добавлении к нему конкретного задания. Так, если задание тесно корре-
лирует с внешним критерием, но относительно слабо коррелирует с сум-
марным показателем теста, то оно предпочтительнее такого задания, ко-
торое имеет высокую корреляцию и с критерием, и с тестом в целом,
ибо первое задание, по-видимому, измеряет некоторый аспект критерия,
не учитываемый должным образом остальными заданиями.
Может показаться, что к отбору заданий применимы те же методы,
что и при комплектовании батареи тестов. В частности, можно было бы
ориентироваться на корреляцию задания с критерием и с другими зада-
ниями. Лучшим заданиям, отобранным таким путем, можно было бы за-
тем приписать веса и представить в уравнении регрессии. Такая процеду-
ра, однако, неосуществима и теоретически несостоятельна. Дело не
Такая корреляция части и целого будет несколько завышенной в силу присутствия
общей специфической дисперсии и дисперсии ошибки в задании и в тесте, частью которо-
го оно является. Существуют формулы, вносящие необходимую поправку в коэффициент
195 АНАЛИЗ ЗАДАНИЙ
только в усилиях, которые потребовались бы для проведения необхо-
димых вычислений. Более существенно то обстоятельство, что корреля-
ция между заданиями подвержена зависящим от выборки колебаниям
и найденные параметры регрессии слишком неустойчивы, чтобы на них
можно было основывать отбор заданий, не прибегая к чрезвычайно
большим выборкам. По этой причине для отбора заданий по их чистому
вкладу в валидность теста было разработано несколько методов апрок-
симации. Некоторые из этих методов основаны на эмпирическом процес-
се построения теста, при котором набор заданий растет постепенно,
а при добавлении задания валидность всего набора каждый раз под-
считывается заново. Согласно другим методам, вначале берется полный
набор заданий, из которого последовательно изымаются наименее
удачные, пока не достигается требуемая валидность теста. Поскольку да-
же такие методы требуют большого объема вычислений, к ним целесо-
образно обращаться только при наличии вычислительной техники
(J.A.Fossum, 1973; S.Henrysson, 1971).
Следует отметить, что все способы отбора заданий по их чистой эф-
фективности представляют подход, обратный тому, который ориентиро-
ван на внутреннюю согласованность. В первом случае чем выше корре-
ляция между заданием и тестом, тем больше шансов на то, что задание
будет изъято; во втором же случае чем выше такая корреляция, тем
больше вероятность того, что задание будет включено в тест. Цели обо-
их подходов, разумеется, различны. Один направлен на наиболее широ-
кий охват критерия и меньшее дублирование заданий; второй же предус-
матривает повышение однородности теста. И то и другое желательно
иметь в виду при составлении теста. Выбор конкретной процедуры
в большой степени зависит от характера теста и его назначения. Так,
в биографическом опроснике задания (вопросы) можно оценивать и от-
бирать только в соответствии с внешним критерием, причем охватывае-
мое опросником содержание в высшей степени неоднородно. Примером
совсем иного рода может служить тест на правописание, весьма одно-
родный по содержанию; здесь уже существенным ориентиром для отбо-
ра заданий является внутренняя согласованность.
Применительно ко многим задачам тестирования удовлетворитель-
ное решение означает распределение сравнительно однородных заданий
по отдельным тестам или субтестам, каждый из которых относится к ка-
кому-то одному аспекту критерия.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143