ТВОРЧЕСТВО

ПОЗНАНИЕ

А  Б  В  Г  Д  Е  Ж  З  И  Й  К  Л  М  Н  О  П  Р  С  Т  У  Ф  Х  Ц  Ч  Ш  Щ  Э  Ю  Я  AZ

 

Следовательно, в этом случае можно было бы
ожидать, что выборочный тест будет высоко надежным, потому что
генеральная совокупность истинных заданий была сама однородна. В
самом деле, большинство эффективных тестов способностей дейст-
165
вительно имеют высокие значения коэффициента О., поскольку в
сфере способностей каждый фактор является обычно четко опреде-
ленным и дискретным. Если тест валиден - то есть если его задания
взяты из той генеральной совокупности заданий, которую мы имели
в виду - то в сфере способностей высокая надежность является,
вероятно; обязательным, условием.
Однако, этот пример также дает нам основания для аргумента
против слишком высокой надежности, то есть речь идет о том, что
высокая надежность является антитезой высокой валидности. Давай-
те представим, что наш тест вербальных способностей состоит из
вопросов по антонимам, синонимам, пониманию, словарному запасу
и краткому конспективному изложению. Такие средства измерения,
при тщательной их разработке, имели высокие значения надежнос-
ти, порядка 0,90. Однако, если бы в стремлении достичь высокой
надежности мы использовали только один тип заданий, скажем, за-
дания на антонимы, то это значение надежности могло, несомненно,
возрасти. Однако, (и надеюсь, большинству читателей это понятно),
очень маловероятно, чтобы этот последний тест вербальных способ-
ностей имел бы более высокую валидность.
В терминах классической модели погрешностей измерений мы
можем ясно увидеть, почему этот тест с более высокой надежностью
является менее валидным. Высокая надежность теста антонимов от-
ражает тот факт, что наша выборка заданий теста (на антонимы) в
высокой степени коррелирует с гипотетической генеральной сово-
купностью заданий, то есть со всеми возможными заданиями на
антонимы. Однако, этот истинный показатель отражает не вербаль-
ные способности, а только способность подбирать антонимы. Таким
образом, можно создать валидные тесты, ограничивая выбор заданий
и конструируя генеральную совокупность заданий, однако это будет
достигнуто только за счет уменьшения валидности. Так, из этого
примера можно видеть, каким образом утверждение о том, что высо-
кая надежность противостоит высокой валидности, не является про-
тиворечащим классической модели погрешностей измерения. Как
отмечалось, все зависит от психологического значения истинных по-
казателей (в данном примере отличия вербальных способностей от
способности подбирать антонимы).
В нашем примере из сферы способностей большинство разработ-
чиков тестов не сделали бы такой ошибки, создавая высоконадежный
тест путем ограничения себя лишь одним типом заданий, потому что
конструкт вербальных способностей хорошо понятен и одних заданий
на антонимы для него недостаточно. Однако в других областях пси-
хологических измерений, особенно личности и мотивов, это не так.
166
Многие разработчики тестов, например, Кэттелл, Гилфорд и Айзенк
для очерчивания области и определения конструктов используют
факторно-аналитические методы.
Следовательно, в том случае, когда переменная не может быть
определена a priori, существует реальная опасность создания тестов
с такой высокой надежностью, что, и это существенно, генеральная
совокупность заданий будет настолько ограничена, что не будет
представлять сколь-нибудь значительного психологического интере-
са, или, говоря статистическим языком, истинный показатель будет
очень специфичным и не будет коррелировать практически ни с чем.
Это в особенности имеет место тогда, когда мы имеем дело с попыткой
измерить такую переменную, как экстраверсия, которая является
некоторым кластером или синдромом характеристик. Обычно счита-
ется, что экстраверсия (напр., Eysenck и Eysenck, 1975) включает в
себя социабельность, разговорчивость, бодрость, оптимистичность,
уверенность в себе и, помимо всего прочего, интерес к внешнему
миру, а не внутреннему. Шкала экстраверсии, которая содержит в
себе все эти переменные, будет однородной, потому что они вместе
действительно образуют кластер. Однако, она неизбежно будет ме-
нее однородна и, следовательно, будет иметь меньшую надежность,
чем шкала, построенная по такой составляющей этого фактора, как
социабельность. Хотя, разумеется, последняя как тест экстраверсии
будет, несомненно, менее валидной.
Из этого рассмотрения должно быть ясно, что высокая надежность
по внутренней согласованности может противоречить высокой ва-
лидности тогда, когда измеряемая переменная охватывает широкую
область. Это утверждение, как мы уже видели, никоим образом не
обесценивает роль статистической теории погрешностей измерения,
из которой следует, что для того, чтобы результаты измерения не
зависели от погрешностей, существенно важно добиться высокого
значения надежности. Все зависит от значения истинных показате-
лей и состава генеральной совокупности заданий. Из этого следует,
что тест должен быть сделан настолько внутренне согласованным,
насколько возможно, но только не за счет ограничения содержания
заданий. Следовательно, при конструировании тестов необходимо
иметь четкое представление о заданиях, которые мы собираемся
включить в окончательную версию теста (в том, что касается их
содержания), а не просто отбирать из множества заданий те, которые
обеспечивают наибольшее значение надежности. В противном слу-
чае мы создадим тесты ложных особенностей (bloated specifics) (Cat-
tell, 1973). Таким образом, можно заключить, как это и предполага-
ется в нашей модели погрешностей измерения, что надежность явля-
ется существенной характеристикой, но не главной.
Источники неудовлетворительной надежности
Теперь мы должны обратиться к одному важному вопросу, с кото-
рым теория погрешностей измерения сталкивается, однако на реше-
ние которого она не направлена - к вопросу об источниках неудов-
летворительной надежности. Этот вопрос имеет огромное значение
для практики разработки тестов, вероятно даже большее, чем для
теории, поскольку если эти источники нам известны, то становится
возможным, по крайней мере в некоторых случаях, устранить их
влияние при помощи процедур конструирования тестов.
(1) Субъективное оценивание. Субъективное оценивание являет-
ся общим источником ошибок. При таком оценивании допускаются
различия между результатами различных экспериментаторов и меж-
ду результатами работы одного и того же экспериментатора в разных
случаях. Очевидно, что это снижает корреляции между заданиями и,
следовательно, резко уменьшает значение коэффициента а.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96