Очевид-
ным решением этой проблемы будет использование только тех типов
заданий, результаты выполнения которых могут быть обработаны
объективно. При использовании таких заданий источником неудов-
летворительной надежности может стать только случайная ошибка
при подсчетах. Все полезные типы заданий для разных тестов уже
обсуждались в главах 2-4.
(2) Угадывание. Эта проблема обсуждалось уже в главе 2 (стр. 88).
Угадывание ответов испытуемыми действительно снижает надеж-
ность тестов. Однако, как указывалось, оно в основном влияет на
задания с ответами типа "истинно-ложно", использование которых
не рекомендуется в любом случае. При большом количестве заданий
влиянием угадывания вообще можно пренебречь.
(3) Понятные задания. Как указывалось в главе 3, использование
понятных, недвусмысленных заданий улучшает надежность лично-
стных тестов (стр. 97).
(4) Величина теста. Как было показано в главе 1 (стр. 36), чем
длиннее тест, тем он надежнее. Для удовлетворительной надежности
обычно достаточно двадцати заданий.
(5) Инструкции к тесту. Инструкции к тесту должны быть не-
двусмысленными и понятными. Неоднозначные инструкции приво-
дят к неудовлетворительной надежности. При помощи инструкций
можно легко изменять уровень трудности заданий. Например, с ин-
струкцией "составьте эту фигуру из четырех элементов", задание
выполнить легче, чем с инструкцией "составьте эту фигуру из эле-
168
ментов", если испытуемым предъявляется шесть элементов. Если
необходимо изменить инструкции, то следует заново провести все
статистические процедуры.
(6) Неудовлетворительная ретестовая надежность. Nunnally
( 1978) проводит различия между ошибками, встречающимися в рам-
ках проведения одного теста, и ошибками, появляющимися при тес-
тированиях, проведенных через определенный промежуток времени;
последние являются источником неудовлетворительной ретестовой
надежности. Очевидно, что здесь важными факторами являются из-
менения в условиях тестирования, а также вариации в самочувствии
обследуемых. Могут сыграть роль как субъективность оценивания
показателей, так и реальные различия между заданиями, если ис-
пользуются параллельные формы теста. Нельзя путать реальные
изменения в выраженности измеряемой переменной с неудовлетво-
рительной надежностью или погрешностью измерения.
(7) Другие источники ошибок. Другие источники ошибок при
измерениях исходят от испытуемых, а не от заданий теста. Достаточ-
но лишь упомянуть о них. Испытуемый может почувствовать себя
нехорошо в процессе работы над тестом, так что его производитель-
ность ухудшится. Для некоторых может быть слишком жарко или
слишком холодно в помещении. Испытуемые могут ошибиться в фор-
ме задания и, следовательно, указать неверные ответы, или они мо-
гут перевернуть две страницы одновременно, и таким образом про-
пустят ряд вопросов. Могут проявиться усталость, скука и повлиять
на результаты выполнения последних заданий. Очевидно, что суще-
ствует большое количество таких возможных причин ошибок.
Таковы основные источники ошибок в тестах, снижающие их
надежность.
Выборка испытуемых для изучения надежности
Все выводы, которые могут быть сделаны на основании надежно-
сти теста об отношении показателей теста к истинным показателям,
предполагают, конечно, что значения корреляций или дисперсий в
уравнениях являются точными. Истинно это или нет, зависит от
подбора адекватной выборки испытуемых в исследованиях надежно-
сти.
Решающее значение при формировании такой выборки имеют две
переменные.
Объем выборки
Поскольку, как и любая другая статистическая величина, стан-
дартная погрешность коэффициента корреляции связана с объемом
169
выборки, на которой она была получена, то вполне естественно, что
должны использоваться большие выборки, чтобы минимизировать
погрешность такого рода. Решение вопроса о том, каков минималь-
ный объем выборки, позволяющий пренебречь этим источником по-
грешности, является до некоторой степени произвольным. GuiSford
(1956), обсуждая этот момент по отношению к факторному анализу,
предполагает в качестве минимума 200 испытуемых. Nunnally
(1978), несколько более строго, говорит о 300. Автор этой книги
исследовал стандартные погрешности корреляций при указанных
объемах выборки и пришел к выводу, что с выборкой из 200 испыту-
емых этот источник погрешностей уже можно не принимать в расчет.
Таким образом, рекомендуется, чтобы исследования надежности те-
стов выполнялись на выборках с объемом не менее 200, хотя и жела-
тельны большие объемы. Для точности вычислений по формуле К-
R20, в которой используется процент от количества испытуемых,
давших ключевые ответы, необходимы большие выборки, и 200 - это
в данном случае, конечно, лишь желательный минимум.
Состав выборки
Однако, даже более важным, чем объем выборки, является ее
состав. Большая, но несоответствующая по составу, выборка может
дать нам полностью ошибочные значения надежности.
Во-первых, существенно, чтобы выборка отражала ту категорию
лиц (популяцию), для которой предназначен тест. Если мы разраба-
тываем тест для высококвалифицированных работников, то показа-
тели надежности должны быть получены именно на этой специали-
зированной выборке. Если тест предназначен для обычных граждан,
то наша выборка должна отражать данную категорию населения.
Аналогично, надежность теста, разработанного для нужд психиат-
рии, должна быть показана на соответствующих пациентах. Не име-
ет смысла доказывать, что тест для испытуемых с отклонениями от
нормы надежен, например, на выборке из школьников.
Для теста, предназначенного к использованию в разных группах,
часто полезно показать, что он надежен для каждой группы в отдель-
ности. Здесь допустимы объемы выборок ниже 200. Например, если
показана устойчивая, высокая надежность для выборок из 100 сту-
дентов, ЮОбывших пациентов психиатрической клиники и 100 шко-
льных учителей, тогда мы можембыть уверены, чтоонбудетнадежен
в этих группах. Обратите внимание, что одна конкретная выборка из
300 испытуемых нс была бы репрезентативной для каждой из этих
групп.
С точки зрения надежности тестирования, нет необходимости в
столь же тщательной комплектации выборок, как при стандартиза-
ЦЕИ (см. главу 8). Так, нет необходимости в том, чтобы выборка точно
отражала разнообразные параметры генеральной совокупности (все-
го населения). Однако, это не должны быть только студенты или
только почтовые служащие или лица из какой-либо другой особой
группы, которые, как это случается, могли быть протестированы.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96
ным решением этой проблемы будет использование только тех типов
заданий, результаты выполнения которых могут быть обработаны
объективно. При использовании таких заданий источником неудов-
летворительной надежности может стать только случайная ошибка
при подсчетах. Все полезные типы заданий для разных тестов уже
обсуждались в главах 2-4.
(2) Угадывание. Эта проблема обсуждалось уже в главе 2 (стр. 88).
Угадывание ответов испытуемыми действительно снижает надеж-
ность тестов. Однако, как указывалось, оно в основном влияет на
задания с ответами типа "истинно-ложно", использование которых
не рекомендуется в любом случае. При большом количестве заданий
влиянием угадывания вообще можно пренебречь.
(3) Понятные задания. Как указывалось в главе 3, использование
понятных, недвусмысленных заданий улучшает надежность лично-
стных тестов (стр. 97).
(4) Величина теста. Как было показано в главе 1 (стр. 36), чем
длиннее тест, тем он надежнее. Для удовлетворительной надежности
обычно достаточно двадцати заданий.
(5) Инструкции к тесту. Инструкции к тесту должны быть не-
двусмысленными и понятными. Неоднозначные инструкции приво-
дят к неудовлетворительной надежности. При помощи инструкций
можно легко изменять уровень трудности заданий. Например, с ин-
струкцией "составьте эту фигуру из четырех элементов", задание
выполнить легче, чем с инструкцией "составьте эту фигуру из эле-
168
ментов", если испытуемым предъявляется шесть элементов. Если
необходимо изменить инструкции, то следует заново провести все
статистические процедуры.
(6) Неудовлетворительная ретестовая надежность. Nunnally
( 1978) проводит различия между ошибками, встречающимися в рам-
ках проведения одного теста, и ошибками, появляющимися при тес-
тированиях, проведенных через определенный промежуток времени;
последние являются источником неудовлетворительной ретестовой
надежности. Очевидно, что здесь важными факторами являются из-
менения в условиях тестирования, а также вариации в самочувствии
обследуемых. Могут сыграть роль как субъективность оценивания
показателей, так и реальные различия между заданиями, если ис-
пользуются параллельные формы теста. Нельзя путать реальные
изменения в выраженности измеряемой переменной с неудовлетво-
рительной надежностью или погрешностью измерения.
(7) Другие источники ошибок. Другие источники ошибок при
измерениях исходят от испытуемых, а не от заданий теста. Достаточ-
но лишь упомянуть о них. Испытуемый может почувствовать себя
нехорошо в процессе работы над тестом, так что его производитель-
ность ухудшится. Для некоторых может быть слишком жарко или
слишком холодно в помещении. Испытуемые могут ошибиться в фор-
ме задания и, следовательно, указать неверные ответы, или они мо-
гут перевернуть две страницы одновременно, и таким образом про-
пустят ряд вопросов. Могут проявиться усталость, скука и повлиять
на результаты выполнения последних заданий. Очевидно, что суще-
ствует большое количество таких возможных причин ошибок.
Таковы основные источники ошибок в тестах, снижающие их
надежность.
Выборка испытуемых для изучения надежности
Все выводы, которые могут быть сделаны на основании надежно-
сти теста об отношении показателей теста к истинным показателям,
предполагают, конечно, что значения корреляций или дисперсий в
уравнениях являются точными. Истинно это или нет, зависит от
подбора адекватной выборки испытуемых в исследованиях надежно-
сти.
Решающее значение при формировании такой выборки имеют две
переменные.
Объем выборки
Поскольку, как и любая другая статистическая величина, стан-
дартная погрешность коэффициента корреляции связана с объемом
169
выборки, на которой она была получена, то вполне естественно, что
должны использоваться большие выборки, чтобы минимизировать
погрешность такого рода. Решение вопроса о том, каков минималь-
ный объем выборки, позволяющий пренебречь этим источником по-
грешности, является до некоторой степени произвольным. GuiSford
(1956), обсуждая этот момент по отношению к факторному анализу,
предполагает в качестве минимума 200 испытуемых. Nunnally
(1978), несколько более строго, говорит о 300. Автор этой книги
исследовал стандартные погрешности корреляций при указанных
объемах выборки и пришел к выводу, что с выборкой из 200 испыту-
емых этот источник погрешностей уже можно не принимать в расчет.
Таким образом, рекомендуется, чтобы исследования надежности те-
стов выполнялись на выборках с объемом не менее 200, хотя и жела-
тельны большие объемы. Для точности вычислений по формуле К-
R20, в которой используется процент от количества испытуемых,
давших ключевые ответы, необходимы большие выборки, и 200 - это
в данном случае, конечно, лишь желательный минимум.
Состав выборки
Однако, даже более важным, чем объем выборки, является ее
состав. Большая, но несоответствующая по составу, выборка может
дать нам полностью ошибочные значения надежности.
Во-первых, существенно, чтобы выборка отражала ту категорию
лиц (популяцию), для которой предназначен тест. Если мы разраба-
тываем тест для высококвалифицированных работников, то показа-
тели надежности должны быть получены именно на этой специали-
зированной выборке. Если тест предназначен для обычных граждан,
то наша выборка должна отражать данную категорию населения.
Аналогично, надежность теста, разработанного для нужд психиат-
рии, должна быть показана на соответствующих пациентах. Не име-
ет смысла доказывать, что тест для испытуемых с отклонениями от
нормы надежен, например, на выборке из школьников.
Для теста, предназначенного к использованию в разных группах,
часто полезно показать, что он надежен для каждой группы в отдель-
ности. Здесь допустимы объемы выборок ниже 200. Например, если
показана устойчивая, высокая надежность для выборок из 100 сту-
дентов, ЮОбывших пациентов психиатрической клиники и 100 шко-
льных учителей, тогда мы можембыть уверены, чтоонбудетнадежен
в этих группах. Обратите внимание, что одна конкретная выборка из
300 испытуемых нс была бы репрезентативной для каждой из этих
групп.
С точки зрения надежности тестирования, нет необходимости в
столь же тщательной комплектации выборок, как при стандартиза-
ЦЕИ (см. главу 8). Так, нет необходимости в том, чтобы выборка точно
отражала разнообразные параметры генеральной совокупности (все-
го населения). Однако, это не должны быть только студенты или
только почтовые служащие или лица из какой-либо другой особой
группы, которые, как это случается, могли быть протестированы.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96