Специфи-
ческие группы должны быть достаточно большими, не только для
выявления статистически значимых различий, но также такими,
чтобы с уверенностью могли быть сделаны обобщения. В терминах
нашей психометрической модели доказательство конструктной ва-
лидности предполагает демонстрирование того, что генеральная со-
вокупность заданий, из которой отобраны задания для данного теста,
является фактически такой, как мы и надеялись.
Выводы
Очевидно, что, в отличие от надежности и дискриминативности,
валидность теста не может быть представлена просто в виде одного
коэффициента. Вместо этого валидность теста устанавливается сери-
ями результатов, вид которых обсуждался выше в различных проце-
дурах. Если следовать процедурам, описанным в предыдущих разде-
лах, то результаты исследований не могут быть опровергнуты с точки
зрения методологии. Однако, в исследованиях валидности все зави-
сит от психологических знаний и проницательности разработчика
212
тестов. Так, тесты, подвергнутые исследованию конкурентной ва-
лидности, могут как пройти, так и не пройти эту проверку, если даже
она будет выполнена в соответствии с хорошо обоснованной методи-
кой. Аналогично, для локализации в факторном пространстве требу-
ется, чтобы в исследование были включены соответствующие пара-
метры этого пространства. Если это не так, то несмотря на тщатель-
ное выполнение процедуры, конструктная валидность показана не
будет.
Хотя доказательство валидности является в некоторой степени
субъективным, серьезные разногласия возникают редко. Это проис-
ходит потому, что если переменная понимается соответствующим
образом, то в большинстве случаев не возникает сомнений, с какими
другими переменными она будет или не будет коррелировать, какое
место она займет в факторном пространстве и какие группы проде-
монстрируют по ней хорошие показатели, а какие нет. Когда же
переменная не понятна, вопрос о валидности не поднимается. В про-
тивном случае, изучение валидности превращается в эксперимен-
тально-описательные исследования, которыми и определяется пере-
менная.
Глава 8. Стандартизация тестов
В главе 1 было показано, что одно из преимуществ, которыми
обладают психологические тесты по сравнению с другими видами
измерений, - это то, что они стандартизованы. Следовательно, воз-
можно сравнение показателя некоторого испытуемого с таковыми в
генеральной совокупности или других релевантных группах, что в
конечном счете дает возможность адекватной интерпретации пол-
ученного показателя.
Из сказанного следует, что стандартизация тестов наиболее важ-
на в тех случаях, когда осуществляется явное или неявное сравнение
показателей испытуемых, как, например, при профориентации или
отборе в целях обучения. Нормы также могут быть полезны и в
крупномасштабных скрининговых исследованиях. При использова-
нии психологических тестов в научном исследовании свойств чело-
века - в психометрии индивидуальных различий - нормы не столь
важны. В этом случае удовлетворительными являются и непосредст-
венные, не подвергнутые обработке ("сырые") показатели теста. По-
скольку указание норм обычно обязательно для тестов способностей,
наше обсуждение того, как следует проводить стандартизацию теста,
будет касаться, в основном, этой категории тестов.
Стандартизация выборки
Это определяющий аспект стандартизации: все зависит от выбор-
ки. При формировании выборки следует учитывать две важные пере-
менные: объем и репрезентативность выборки. Выборка должна точ-
но отражать категорию лиц, для которых предназначен тест (конеч-
но, может быть несколько таких категорий и, следовательно, и не-
сколько выборок), а также быть достаточной большой для обеспече-
ния столь малой стандартной погрешности нормативных данных,
чтобы ею можно было пренебречь.
Объем выборки
Для простого уменьшения значения стандартной погрешности
вполне адекватной будет выборка из 500 испытуемых. Однако, ре-
презентативность выборки не зависит от ее объема. При получении
нормы для общей популяции, например, детей школьного возраста,
необходима выборка объемом около 10 000 испытуемых. Выборка из
столь ограниченной популяции, как укротители львов или факиры,
конечно, не должна быть столь большой. Таким образом, нельзя
сделать никакого утверждения относительно объема выборки безот-
носительно той популяции (категории лиц), из которой она подбира-
214
ется. И здесь проясняется тот момент, что репрезентативность выбор-
ки является более важной, чем ее размер. Маленькая, но репрезен-
тативная нормативная выборка будет предпочтительнее, чем боль-
шая, но неравномерно представленная. Некоторые примеры, взятые
из реальных тестов, позволят показать очевидность этого замечания,
и также помогут указать разработчикам тестов наилучшие методы
получения стандартизационных выборок.
Получение репрезентативной нормативной выборки
Ясно, что наиболее неоднородной популяцией является генераль-
ная популяция (все население), а все остальные являются ее подмно-
жествами. По этой причине получить выборку заданного, определен-
ного качества из генеральной популяции - наиболее трудная задача.
В первом примере показана известная попытка сделать это - стан-
дартизация теста интеллекта Лордж-Торндайка (Lorge-Thorndike
Intelligence Test) (Lorge и Thorndike, 1957) для детей.
ПРИМЕР 1: ВЫБОРКА ИЗ ГЕНЕРАЛЬНОЙ ПОПУЛЯЦИИ ДЛЯ
ТЕСТА ЛОРДЖ-ТОРНДАЙКА
Так как нормы теста способностей должны быть связаны с возра-
стом, мы будем рассматривать выборки для каждой возрастной груп-
пы.
Возрастные группы> Было выделено двенадцать возрастных
групп, от 6 лет до 17 лет. Это удовлетворительное разделение на
возрастные группы, хотя разделение с интервалом в шесть или даже
в три месяца было бы, вероятно, предпочтительнее. Общее количест-
во испытуемых было 136 000, то есть более, чем 11 000 на каждую
возрастную группу. Очевидно, что статистическая выборочная по-
грешность должна быть практически нулевой.
Репрезентативность выборки. Чтобы устранить неравномерную
представленность, была взята стратифицированная выборка из раз-
ных социальных групп, а основой для стратификации послужили
факторы, которые наиболее связаны с уровнем интеллекта: (1) про-
цент грамотного взрослого населения; (2) пропорция профессиональ-
ных рабочих в популяции; (3) процент домовладельцев и (4) среднее
количество снимающих жилье. Каждая социальная группа была за-
тем классифицирована по этим четырем переменным на "очень вы-
сокий", "высокий", "средний", "низкий" и "очень низкий" уровни.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96
ческие группы должны быть достаточно большими, не только для
выявления статистически значимых различий, но также такими,
чтобы с уверенностью могли быть сделаны обобщения. В терминах
нашей психометрической модели доказательство конструктной ва-
лидности предполагает демонстрирование того, что генеральная со-
вокупность заданий, из которой отобраны задания для данного теста,
является фактически такой, как мы и надеялись.
Выводы
Очевидно, что, в отличие от надежности и дискриминативности,
валидность теста не может быть представлена просто в виде одного
коэффициента. Вместо этого валидность теста устанавливается сери-
ями результатов, вид которых обсуждался выше в различных проце-
дурах. Если следовать процедурам, описанным в предыдущих разде-
лах, то результаты исследований не могут быть опровергнуты с точки
зрения методологии. Однако, в исследованиях валидности все зави-
сит от психологических знаний и проницательности разработчика
212
тестов. Так, тесты, подвергнутые исследованию конкурентной ва-
лидности, могут как пройти, так и не пройти эту проверку, если даже
она будет выполнена в соответствии с хорошо обоснованной методи-
кой. Аналогично, для локализации в факторном пространстве требу-
ется, чтобы в исследование были включены соответствующие пара-
метры этого пространства. Если это не так, то несмотря на тщатель-
ное выполнение процедуры, конструктная валидность показана не
будет.
Хотя доказательство валидности является в некоторой степени
субъективным, серьезные разногласия возникают редко. Это проис-
ходит потому, что если переменная понимается соответствующим
образом, то в большинстве случаев не возникает сомнений, с какими
другими переменными она будет или не будет коррелировать, какое
место она займет в факторном пространстве и какие группы проде-
монстрируют по ней хорошие показатели, а какие нет. Когда же
переменная не понятна, вопрос о валидности не поднимается. В про-
тивном случае, изучение валидности превращается в эксперимен-
тально-описательные исследования, которыми и определяется пере-
менная.
Глава 8. Стандартизация тестов
В главе 1 было показано, что одно из преимуществ, которыми
обладают психологические тесты по сравнению с другими видами
измерений, - это то, что они стандартизованы. Следовательно, воз-
можно сравнение показателя некоторого испытуемого с таковыми в
генеральной совокупности или других релевантных группах, что в
конечном счете дает возможность адекватной интерпретации пол-
ученного показателя.
Из сказанного следует, что стандартизация тестов наиболее важ-
на в тех случаях, когда осуществляется явное или неявное сравнение
показателей испытуемых, как, например, при профориентации или
отборе в целях обучения. Нормы также могут быть полезны и в
крупномасштабных скрининговых исследованиях. При использова-
нии психологических тестов в научном исследовании свойств чело-
века - в психометрии индивидуальных различий - нормы не столь
важны. В этом случае удовлетворительными являются и непосредст-
венные, не подвергнутые обработке ("сырые") показатели теста. По-
скольку указание норм обычно обязательно для тестов способностей,
наше обсуждение того, как следует проводить стандартизацию теста,
будет касаться, в основном, этой категории тестов.
Стандартизация выборки
Это определяющий аспект стандартизации: все зависит от выбор-
ки. При формировании выборки следует учитывать две важные пере-
менные: объем и репрезентативность выборки. Выборка должна точ-
но отражать категорию лиц, для которых предназначен тест (конеч-
но, может быть несколько таких категорий и, следовательно, и не-
сколько выборок), а также быть достаточной большой для обеспече-
ния столь малой стандартной погрешности нормативных данных,
чтобы ею можно было пренебречь.
Объем выборки
Для простого уменьшения значения стандартной погрешности
вполне адекватной будет выборка из 500 испытуемых. Однако, ре-
презентативность выборки не зависит от ее объема. При получении
нормы для общей популяции, например, детей школьного возраста,
необходима выборка объемом около 10 000 испытуемых. Выборка из
столь ограниченной популяции, как укротители львов или факиры,
конечно, не должна быть столь большой. Таким образом, нельзя
сделать никакого утверждения относительно объема выборки безот-
носительно той популяции (категории лиц), из которой она подбира-
214
ется. И здесь проясняется тот момент, что репрезентативность выбор-
ки является более важной, чем ее размер. Маленькая, но репрезен-
тативная нормативная выборка будет предпочтительнее, чем боль-
шая, но неравномерно представленная. Некоторые примеры, взятые
из реальных тестов, позволят показать очевидность этого замечания,
и также помогут указать разработчикам тестов наилучшие методы
получения стандартизационных выборок.
Получение репрезентативной нормативной выборки
Ясно, что наиболее неоднородной популяцией является генераль-
ная популяция (все население), а все остальные являются ее подмно-
жествами. По этой причине получить выборку заданного, определен-
ного качества из генеральной популяции - наиболее трудная задача.
В первом примере показана известная попытка сделать это - стан-
дартизация теста интеллекта Лордж-Торндайка (Lorge-Thorndike
Intelligence Test) (Lorge и Thorndike, 1957) для детей.
ПРИМЕР 1: ВЫБОРКА ИЗ ГЕНЕРАЛЬНОЙ ПОПУЛЯЦИИ ДЛЯ
ТЕСТА ЛОРДЖ-ТОРНДАЙКА
Так как нормы теста способностей должны быть связаны с возра-
стом, мы будем рассматривать выборки для каждой возрастной груп-
пы.
Возрастные группы> Было выделено двенадцать возрастных
групп, от 6 лет до 17 лет. Это удовлетворительное разделение на
возрастные группы, хотя разделение с интервалом в шесть или даже
в три месяца было бы, вероятно, предпочтительнее. Общее количест-
во испытуемых было 136 000, то есть более, чем 11 000 на каждую
возрастную группу. Очевидно, что статистическая выборочная по-
грешность должна быть практически нулевой.
Репрезентативность выборки. Чтобы устранить неравномерную
представленность, была взята стратифицированная выборка из раз-
ных социальных групп, а основой для стратификации послужили
факторы, которые наиболее связаны с уровнем интеллекта: (1) про-
цент грамотного взрослого населения; (2) пропорция профессиональ-
ных рабочих в популяции; (3) процент домовладельцев и (4) среднее
количество снимающих жилье. Каждая социальная группа была за-
тем классифицирована по этим четырем переменным на "очень вы-
сокий", "высокий", "средний", "низкий" и "очень низкий" уровни.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96