Факторно-аналитический подход к определению на-
дежности основан на тех же предположениях, но, как указывает
Guilford (1956), в нем расчленяется понятие дисперсии истинного
показателя.
ФАКТОРНО-АНАЛИТИЧЕСКАЯ МОДЕЛЬ ДИСПЕРСИИ ИС-
ТИННОГО ПОКАЗАТЕЛЯ
Дисперсия истинного показателя состоит из дисперсии общего
фактора плюс дисперсия специфичного фактора. Например, диспер-
сия истинного показателя для группового теста вербального интел-
лекта (group verbal intelligence test) может состоять из дисперсий для
gt, gc и V (это три общих фактора) плюс дисперсия фактора, специ-
фичного для данного конкретного набора заданий. Это означает, что
полная дисперсия теста равна сумме дисперсий для общих факторов
плюс дисперсии специфичных факторов, плюс дисперсия погрешно-
сти. Следуя Guilford (1956), это может быть записано:
Of = Оа + Оь + ... + On + 0s + Ое
где Of - дисперсия теста, от Оа до 0ц - дисперсии для общих
факторов, Оц - дисперсия для специфичного фактора, и (Те-
дисперсия погрешности.
f)
Можно поделить это уравнение на 0( . Тогда мы получим:
,2
g? - gi , oj
о? о? о?
of
+ - = 1.00
of
Это может быть записано в виде:
\=а1 +bi +
+ni +sl +ei
f)
где a x - доля дисперсии теста, вносимая общим фактором а , и
Таким образом, надежность теста равна:
п=1 -е =а1 +bl + ..
179
+ni +sl
Следовательно, если мы произведем факторный анализ теста,
возведем в квадрат и просуммируем нагрузки его факторов, то мы
получим его надежность, поскольку нагрузки факторов представля-
ют корреляцию теста с общими или специфичными факторами. Из
сказанного ясно: факторный подход к пониманию дисперсии теста -
это просто расширение классической модели погрешностей измере-
ния, и из этого следует, что надежность (по внутренней согласован-
ности) может быть оценена по общности теста, хотя, строго говоря,
общность определяется как дисперсия общих факторов и не должна
включать в себя дисперсии специфичных факторов, как надежность.
ВЫЧИСЛЕНИЕ НАДЕЖНОСТИ ПРИ ПОМОЩИ ФАКТОР-
НОГО АНАЛИЗА (ВЫЧИСЛЕНИЕ 5.7)
( 1 ) Выполните факторный анализ данного теста с настолько боль-
шим количеством разнообразных переменных, насколько возможно.
(2) Возведите в квадрат и просуммируйте нагрузки факторов для
данного теста.
Этот метод установления надежности сильно зависит от других
переменных, с которыми факторизуется данный тест. Так, если бы у
нас был тест математических способностей, и мы факторизовали бы
его совместно с личностными и мотивационными переменными, то
почти не было бы факторов, которые данный тест мог бы нагрузить.
Оценка его надежности, основанная на этой выборке переменных,
была бы неадекватной. С другой стороны, если бы этот тест фактори-
зовался совместно с двумя или тремя тестами всех основных факто-
ров способностей, так чтобы каждый тест мог нагружать соответству-
ющие ему факторы, тогда этот метод был бы, по всей вероятности,
весьма точным. Понятно, что он больше подходит для оценки надеж-
ности уже факторизованного теста (который должен нагружать толь-
ко один или два общих фактора и специфичный фактор), чем для
тестов на основании критериально-ключевых признаков, которые
могут измерять широкий набор разнообразных факторов, некоторые
из которых могут и не входить в батарею исследуемых факторов.
Общность (communality) теста - сумма дисперсий для общих факторов а, Ь, . . .,
п; это та часть полной дисперсии данной переменной, которая обуславливается
общими для нескольких переменными факторами. Вторая часть полной дисперсии
(специфичная дисперсия и дисперсия, обусловленная погрешностью), связанная
с определенной переменной и свойственная только ей, называется характерно-
стью переменной (теста). См.: Я.Окунь (1974) (Прим.перев.)
180
Заключение
Выводы из нашего обсуждения и методики вычислений коэффи-
циентов надежности ясно очерчены и могут послужить кратким ре-
зюме для данной главы о надежности.
( 1 ) Все исследования надежности должны выполняться на боль-
ших (200 или более) и репрезентативных выборках.
(2) Должна быть установлена надежность по внутренней согласо-
ванности, хотя по оговоренным причинам она не обязательно должна
быть такой высокой, как это часто указывается в некоторых учебни-
ках.
(3) Очевидно, что для оценки надежности не существует единого
числового показателя. Для всех результатов должны указываться
объем и тип выборки, а также использовавшийся для вычислений
метод.
(4) Когда возможно, должен быть вычислен коэффициент (X или
его упрощенная версия, формула K-R20.
(5) Определение надежности путем расщепления теста должно
рассматриваться как прием для оценки реальной надежности только
в условиях, когда необходимо быстро получить результаты.
(6) Факторизованные оценки надежности должны использоваться
только с факторизованными тестами и тогда, когда есть широкий
набор других переменных.
(7) При слишком быстром проведении тестирования и для тестов,
оказавшихся трудными для испытуемых, коэффициенты внутренней
согласованности могут быть искусственно, необоснованно завышен-
ными.
(8) Должна быть оценена надежность параллельных форм (если
такие формы существуют).
(9) Должна быть вычислена ретестовая надежность. Интервал
времени между повторными тестированиями должен быть не менее
шести месяцев.
(10) Надежность - это важная характеристика теста, однако
следует помнить, что надежность сама по себе ценности не представ-
ляет. Ее ценность состоит в том, что часто она необходима для дости-
жения валидности. Однако, может случиться так, что тест будет
почти совершенно надежным, но почти полностью невалидным.
Глава 6. Отбор и оценивание заданий
В этой главе будут описаны процедуры, используемые для отбора
заданий с целью получения надежных, валидных и дискриминатив-
ных тестов. До сих пор изучение заданий в этой книге касалось
мастерства разработчика тестов - искусства приемов формулирова-
ния эффективных заданий. В этой главе предметом нашего рассмот-
рения являются научные методы.
Целью анализа заданий является отбор заданий, формирующих
однородную, дискриминативную шкалу. Наиболее часто используе-
мый метод состоит в определении корреляции каждого задания с
общим показателем и вычислении по полной выборке доли тех испы-
туемых, которые дали ключевые ответы. Однородный и дискримина-
тивный тест может быть получен путем отбора заданий, имеющих
высокую корреляцию с общим показателем и, помимо этого, долю
правильно ответивших (в соответствии с "ключом") испытуемых в
пределах 80%-20%.
Будучи сформулированными, задания теста должны быть испы-
таны на некоторой выборке испытуемых и подвергнуты процедуре
анализа.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96
дежности основан на тех же предположениях, но, как указывает
Guilford (1956), в нем расчленяется понятие дисперсии истинного
показателя.
ФАКТОРНО-АНАЛИТИЧЕСКАЯ МОДЕЛЬ ДИСПЕРСИИ ИС-
ТИННОГО ПОКАЗАТЕЛЯ
Дисперсия истинного показателя состоит из дисперсии общего
фактора плюс дисперсия специфичного фактора. Например, диспер-
сия истинного показателя для группового теста вербального интел-
лекта (group verbal intelligence test) может состоять из дисперсий для
gt, gc и V (это три общих фактора) плюс дисперсия фактора, специ-
фичного для данного конкретного набора заданий. Это означает, что
полная дисперсия теста равна сумме дисперсий для общих факторов
плюс дисперсии специфичных факторов, плюс дисперсия погрешно-
сти. Следуя Guilford (1956), это может быть записано:
Of = Оа + Оь + ... + On + 0s + Ое
где Of - дисперсия теста, от Оа до 0ц - дисперсии для общих
факторов, Оц - дисперсия для специфичного фактора, и (Те-
дисперсия погрешности.
f)
Можно поделить это уравнение на 0( . Тогда мы получим:
,2
g? - gi , oj
о? о? о?
of
+ - = 1.00
of
Это может быть записано в виде:
\=а1 +bi +
+ni +sl +ei
f)
где a x - доля дисперсии теста, вносимая общим фактором а , и
Таким образом, надежность теста равна:
п=1 -е =а1 +bl + ..
179
+ni +sl
Следовательно, если мы произведем факторный анализ теста,
возведем в квадрат и просуммируем нагрузки его факторов, то мы
получим его надежность, поскольку нагрузки факторов представля-
ют корреляцию теста с общими или специфичными факторами. Из
сказанного ясно: факторный подход к пониманию дисперсии теста -
это просто расширение классической модели погрешностей измере-
ния, и из этого следует, что надежность (по внутренней согласован-
ности) может быть оценена по общности теста, хотя, строго говоря,
общность определяется как дисперсия общих факторов и не должна
включать в себя дисперсии специфичных факторов, как надежность.
ВЫЧИСЛЕНИЕ НАДЕЖНОСТИ ПРИ ПОМОЩИ ФАКТОР-
НОГО АНАЛИЗА (ВЫЧИСЛЕНИЕ 5.7)
( 1 ) Выполните факторный анализ данного теста с настолько боль-
шим количеством разнообразных переменных, насколько возможно.
(2) Возведите в квадрат и просуммируйте нагрузки факторов для
данного теста.
Этот метод установления надежности сильно зависит от других
переменных, с которыми факторизуется данный тест. Так, если бы у
нас был тест математических способностей, и мы факторизовали бы
его совместно с личностными и мотивационными переменными, то
почти не было бы факторов, которые данный тест мог бы нагрузить.
Оценка его надежности, основанная на этой выборке переменных,
была бы неадекватной. С другой стороны, если бы этот тест фактори-
зовался совместно с двумя или тремя тестами всех основных факто-
ров способностей, так чтобы каждый тест мог нагружать соответству-
ющие ему факторы, тогда этот метод был бы, по всей вероятности,
весьма точным. Понятно, что он больше подходит для оценки надеж-
ности уже факторизованного теста (который должен нагружать толь-
ко один или два общих фактора и специфичный фактор), чем для
тестов на основании критериально-ключевых признаков, которые
могут измерять широкий набор разнообразных факторов, некоторые
из которых могут и не входить в батарею исследуемых факторов.
Общность (communality) теста - сумма дисперсий для общих факторов а, Ь, . . .,
п; это та часть полной дисперсии данной переменной, которая обуславливается
общими для нескольких переменными факторами. Вторая часть полной дисперсии
(специфичная дисперсия и дисперсия, обусловленная погрешностью), связанная
с определенной переменной и свойственная только ей, называется характерно-
стью переменной (теста). См.: Я.Окунь (1974) (Прим.перев.)
180
Заключение
Выводы из нашего обсуждения и методики вычислений коэффи-
циентов надежности ясно очерчены и могут послужить кратким ре-
зюме для данной главы о надежности.
( 1 ) Все исследования надежности должны выполняться на боль-
ших (200 или более) и репрезентативных выборках.
(2) Должна быть установлена надежность по внутренней согласо-
ванности, хотя по оговоренным причинам она не обязательно должна
быть такой высокой, как это часто указывается в некоторых учебни-
ках.
(3) Очевидно, что для оценки надежности не существует единого
числового показателя. Для всех результатов должны указываться
объем и тип выборки, а также использовавшийся для вычислений
метод.
(4) Когда возможно, должен быть вычислен коэффициент (X или
его упрощенная версия, формула K-R20.
(5) Определение надежности путем расщепления теста должно
рассматриваться как прием для оценки реальной надежности только
в условиях, когда необходимо быстро получить результаты.
(6) Факторизованные оценки надежности должны использоваться
только с факторизованными тестами и тогда, когда есть широкий
набор других переменных.
(7) При слишком быстром проведении тестирования и для тестов,
оказавшихся трудными для испытуемых, коэффициенты внутренней
согласованности могут быть искусственно, необоснованно завышен-
ными.
(8) Должна быть оценена надежность параллельных форм (если
такие формы существуют).
(9) Должна быть вычислена ретестовая надежность. Интервал
времени между повторными тестированиями должен быть не менее
шести месяцев.
(10) Надежность - это важная характеристика теста, однако
следует помнить, что надежность сама по себе ценности не представ-
ляет. Ее ценность состоит в том, что часто она необходима для дости-
жения валидности. Однако, может случиться так, что тест будет
почти совершенно надежным, но почти полностью невалидным.
Глава 6. Отбор и оценивание заданий
В этой главе будут описаны процедуры, используемые для отбора
заданий с целью получения надежных, валидных и дискриминатив-
ных тестов. До сих пор изучение заданий в этой книге касалось
мастерства разработчика тестов - искусства приемов формулирова-
ния эффективных заданий. В этой главе предметом нашего рассмот-
рения являются научные методы.
Целью анализа заданий является отбор заданий, формирующих
однородную, дискриминативную шкалу. Наиболее часто используе-
мый метод состоит в определении корреляции каждого задания с
общим показателем и вычислении по полной выборке доли тех испы-
туемых, которые дали ключевые ответы. Однородный и дискримина-
тивный тест может быть получен путем отбора заданий, имеющих
высокую корреляцию с общим показателем и, помимо этого, долю
правильно ответивших (в соответствии с "ключом") испытуемых в
пределах 80%-20%.
Будучи сформулированными, задания теста должны быть испы-
таны на некоторой выборке испытуемых и подвергнуты процедуре
анализа.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96