Аналогичные рассуждения, касающиеся взаимосвязи заданий,
могут быть применены к надежности, параллельных форм. тестов. В данном случае
каждый из параллельных тестов рассматривается как случайная выборка из генеральной
совокупности заданий. Средние значения и дисперсии тестов отличаются от истинного
показателя только случайным образом. Следовательно, в приведенном выше уравнении
значения для заданий могут быть заменены показателями для тестов (т.е.наборов
заданий).
Так как корреляции между заданиями или параллельными тестами на практике не
являются идентичными, должно быть некоторое распределение их вокруг истинного
значения. Если предположить, что такое распределение является нормальным (см.
Нормальное распределение), можно оценить точность коэффици-бнта надежности г" путем
вычисления стандартной ошибки (см. Ошибка измерения) средней взаимной корреляции
за-Даний или тестов в генеральной совокуп-"ости (Дж. Наннелли, 1978):
о,
ций заданий внутри теста и п - количество заданий в тесте.
Из уравнения видно, что по мере возрастания а. возрастают различия между
корреляциями и по мере возрастания п стандартная погрешность уменьшается, то есть
чем больше заданий, тем выше точность оценки коэффициента надежности.
Действительно, если предположить, что ет,.. .для некоторого теста равна 0,15, а
количество заданий варьирует от 10 до 30, то, подставив соответствующие значения в
уравнение, получим следующие погрешности: для теста из 10 заданий - 0,02; для теста из
20 заданий - 0,01; для теста из 30 заданий - 0,007.
Вслед за Дж. Наннелли (1978), П. Клайн (1986) распространяет суждение о возрастании
точности коэффициента надежности при увеличении состава теста и на саму величину
надежности. В самом деле, поскольку истинные показатели теста определяются через
меру представленности заданий генеральной совокупности, должно выполняться пред-
положение о том, что чем больше тест, тем выше корреляция с истинным показателем.
Предельным случаем будет гипотетическая ситуация, когда тест состоит из всех заданий
генеральной совокупности за исключением одного. Для доказательства надежности теста,
задания которого, как заранее известно, принадлежат одной генеральной совокупности,
можно воспользоваться формулой Спирмена- Брауна:
пг,,
где г, - надежность теста, п
количе-
где ст, - стандартная ошибка измерения, Ї,, - стандартное отклонение корреля-
ство заданий, г,. - средняя взаимная корреляция заданий. В формуле Спирмена- Брауна
показатель г/ (см. Надежность частей теста) заменен на ?, что вытекает из вывода
модели коэффициента надежности.
197
НАД -----------------
Предположим, имеются три набора заданий {п = 10, 2Q"30), средняя корреляция между
которыми равна 0,20, тогда:
-для 10 заданий: =
10-0,20
-для 20 заданий: =
- для 30 заданий: =
1+(9-0,20)
20-0,20 1+09-0,20)
30-0.20 1+(29-0,20)
=0,667;
=0,800;
=0,959.
Причем эти показатели получены для заданий, взаимная корреляция которых была низкой.
Для более однородного теста из 30 заданий при /ц- = 40 получаем:
30-0,40 12
1+029-0,40) 13
=0,923.
Таким образом, при наличии набора однородных заданий тест будет заведомо надежным.
Даже если разделить совокупность заданий на две параллельные формы по 15 пунктов,
они обе также будут иметь удовлетворительную надежность.
Теоретические значения коэффициента надежности при данном способе определения
существенно превышают эмпирические значения надежности ретесто-вой и надежности
параллельных форм. Это происходит из-за ряда допущений. Прежде всего следует указать
на то, что при определении Н. п. в. с. не учитываются другие источники погрешности
измерений, связанные с неконтролируемыми факторами среды, состояния и мотивации
испытуемого (см. Надежность}. В этой связи между Н. п. в. с. и ретестовой надежностью
имеется противоречие. Ретес-товая надежность может уменьшаться при увеличении
состава заданий (чем больше заданий, тем выше вероятность случайного или
закономерного изменения ответа при ретесте). Противоречие может быть снято за счет
признания некорректности допущения о равенстве интеркорреляций между заданиями,
зависимости погрешности лишь от представленности в тесте генеральной совокупности
заданий. В противном случае необходимо было бы согласиться с тем, что в двух тестах,
связанных общим фактором и имеющих одинаковое количество заданий, но совершенно
разных по характеру выполнения и трудности, надежность будет одинаковой, что
невозможно.
Следует обратить внимание на невозможность определения таким способом надежности
тестов скорости, так как связь каждого из заданий исследуемой генеральной совокупности
не определена из-за большого количества заданий, интеркорреляции заданий могут терять
смысл (см., напр., Корректурная проба).
Важным аспектом оценки применимости Н. п. в. с. является парадокс, возникающий в этом
случае при сочетании показателей надежности и валидности теста. Кажется, что высокая
внутренняя согласованность должна быть основной целью разработчиков теста (Л.
Кронбах, 1920). Такая точка зрения является довольно распространенной. Однако Р. Кэт-
телл (1977) обоснованно утверждает, что высокая внутренняя согласованность (особенно
при изучении сложных психологических конструктов, личностных показателей) в известном
смысле противостоит высокой валидности.
Возникающее противоречие можно иллюстрировать следующим примером. Тест
вербальных способностей может включать задания (и соответственно, субтесты) на
подбор антонимов, синонимов, понимание слов, словарный запас. Предположим, что
каждый из субтестов имеет высокие показатели Н. п.в.с. Однако если бы мы
воспользовались только одним субтестом (например, подбором антонимов), то показатель
Н. п. в. с. теста несомненно возрос бы по сравнению с полным набором субтестов, так как
используется
только один тип высокосогласованных заданий. Высокая надежность субтеста антонимов
будет отражать тот факт, что эта выборка заданий в высокой степени коррелирует с
гипотетической генеральной совокупностью заданий на антонимы. Однако этот истинный
показатель отражает не вербальные способности, а только способность подбирать
антонимы (т. е.валид-ность теста станет низкой по отношению к измерению вербальных
способностей).
Приведенные данные свидетельствуют о специфичности применения каждого из
имеющихся подходов к характеристике надежности теста. Н. п. в. с. имеет, очевидно, в
основном теоретическое значение. Как и надежность частей теста в предельном случае
разбивания материала на отдельные задания, рассматриваемый способ имеет
практическое значение для оценки точности коэффициента надежности, а также при
характеристике некоторых тестов, состоящих из специально подобранных
факторизованных заданий (см.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159
могут быть применены к надежности, параллельных форм. тестов. В данном случае
каждый из параллельных тестов рассматривается как случайная выборка из генеральной
совокупности заданий. Средние значения и дисперсии тестов отличаются от истинного
показателя только случайным образом. Следовательно, в приведенном выше уравнении
значения для заданий могут быть заменены показателями для тестов (т.е.наборов
заданий).
Так как корреляции между заданиями или параллельными тестами на практике не
являются идентичными, должно быть некоторое распределение их вокруг истинного
значения. Если предположить, что такое распределение является нормальным (см.
Нормальное распределение), можно оценить точность коэффици-бнта надежности г" путем
вычисления стандартной ошибки (см. Ошибка измерения) средней взаимной корреляции
за-Даний или тестов в генеральной совокуп-"ости (Дж. Наннелли, 1978):
о,
ций заданий внутри теста и п - количество заданий в тесте.
Из уравнения видно, что по мере возрастания а. возрастают различия между
корреляциями и по мере возрастания п стандартная погрешность уменьшается, то есть
чем больше заданий, тем выше точность оценки коэффициента надежности.
Действительно, если предположить, что ет,.. .для некоторого теста равна 0,15, а
количество заданий варьирует от 10 до 30, то, подставив соответствующие значения в
уравнение, получим следующие погрешности: для теста из 10 заданий - 0,02; для теста из
20 заданий - 0,01; для теста из 30 заданий - 0,007.
Вслед за Дж. Наннелли (1978), П. Клайн (1986) распространяет суждение о возрастании
точности коэффициента надежности при увеличении состава теста и на саму величину
надежности. В самом деле, поскольку истинные показатели теста определяются через
меру представленности заданий генеральной совокупности, должно выполняться пред-
положение о том, что чем больше тест, тем выше корреляция с истинным показателем.
Предельным случаем будет гипотетическая ситуация, когда тест состоит из всех заданий
генеральной совокупности за исключением одного. Для доказательства надежности теста,
задания которого, как заранее известно, принадлежат одной генеральной совокупности,
можно воспользоваться формулой Спирмена- Брауна:
пг,,
где г, - надежность теста, п
количе-
где ст, - стандартная ошибка измерения, Ї,, - стандартное отклонение корреля-
ство заданий, г,. - средняя взаимная корреляция заданий. В формуле Спирмена- Брауна
показатель г/ (см. Надежность частей теста) заменен на ?, что вытекает из вывода
модели коэффициента надежности.
197
НАД -----------------
Предположим, имеются три набора заданий {п = 10, 2Q"30), средняя корреляция между
которыми равна 0,20, тогда:
-для 10 заданий: =
10-0,20
-для 20 заданий: =
- для 30 заданий: =
1+(9-0,20)
20-0,20 1+09-0,20)
30-0.20 1+(29-0,20)
=0,667;
=0,800;
=0,959.
Причем эти показатели получены для заданий, взаимная корреляция которых была низкой.
Для более однородного теста из 30 заданий при /ц- = 40 получаем:
30-0,40 12
1+029-0,40) 13
=0,923.
Таким образом, при наличии набора однородных заданий тест будет заведомо надежным.
Даже если разделить совокупность заданий на две параллельные формы по 15 пунктов,
они обе также будут иметь удовлетворительную надежность.
Теоретические значения коэффициента надежности при данном способе определения
существенно превышают эмпирические значения надежности ретесто-вой и надежности
параллельных форм. Это происходит из-за ряда допущений. Прежде всего следует указать
на то, что при определении Н. п. в. с. не учитываются другие источники погрешности
измерений, связанные с неконтролируемыми факторами среды, состояния и мотивации
испытуемого (см. Надежность}. В этой связи между Н. п. в. с. и ретестовой надежностью
имеется противоречие. Ретес-товая надежность может уменьшаться при увеличении
состава заданий (чем больше заданий, тем выше вероятность случайного или
закономерного изменения ответа при ретесте). Противоречие может быть снято за счет
признания некорректности допущения о равенстве интеркорреляций между заданиями,
зависимости погрешности лишь от представленности в тесте генеральной совокупности
заданий. В противном случае необходимо было бы согласиться с тем, что в двух тестах,
связанных общим фактором и имеющих одинаковое количество заданий, но совершенно
разных по характеру выполнения и трудности, надежность будет одинаковой, что
невозможно.
Следует обратить внимание на невозможность определения таким способом надежности
тестов скорости, так как связь каждого из заданий исследуемой генеральной совокупности
не определена из-за большого количества заданий, интеркорреляции заданий могут терять
смысл (см., напр., Корректурная проба).
Важным аспектом оценки применимости Н. п. в. с. является парадокс, возникающий в этом
случае при сочетании показателей надежности и валидности теста. Кажется, что высокая
внутренняя согласованность должна быть основной целью разработчиков теста (Л.
Кронбах, 1920). Такая точка зрения является довольно распространенной. Однако Р. Кэт-
телл (1977) обоснованно утверждает, что высокая внутренняя согласованность (особенно
при изучении сложных психологических конструктов, личностных показателей) в известном
смысле противостоит высокой валидности.
Возникающее противоречие можно иллюстрировать следующим примером. Тест
вербальных способностей может включать задания (и соответственно, субтесты) на
подбор антонимов, синонимов, понимание слов, словарный запас. Предположим, что
каждый из субтестов имеет высокие показатели Н. п.в.с. Однако если бы мы
воспользовались только одним субтестом (например, подбором антонимов), то показатель
Н. п. в. с. теста несомненно возрос бы по сравнению с полным набором субтестов, так как
используется
только один тип высокосогласованных заданий. Высокая надежность субтеста антонимов
будет отражать тот факт, что эта выборка заданий в высокой степени коррелирует с
гипотетической генеральной совокупностью заданий на антонимы. Однако этот истинный
показатель отражает не вербальные способности, а только способность подбирать
антонимы (т. е.валид-ность теста станет низкой по отношению к измерению вербальных
способностей).
Приведенные данные свидетельствуют о специфичности применения каждого из
имеющихся подходов к характеристике надежности теста. Н. п. в. с. имеет, очевидно, в
основном теоретическое значение. Как и надежность частей теста в предельном случае
разбивания материала на отдельные задания, рассматриваемый способ имеет
практическое значение для оценки точности коэффициента надежности, а также при
характеристике некоторых тестов, состоящих из специально подобранных
факторизованных заданий (см.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159