Тесттакженазываетсянадежным, еслиондаетодни
и те же показатели для каждого испытуемого (при условии, что
испытуемый не изменился) при повторном тестировании. Надеж-
ность при повторном тестировании по прошествии времени называ-
ется ретестовой надежностью (test-retest reliability).
Значение и важность надежности
по внутренней согласованности
В психометрии стремятся разрабатывать тесты, являющиеся в
высокой степени внутренне согласованными, по той очевидной при-
чине, что если некоторая переменная измеряется частью теста, то
тогда в других частях, если они не согласованы с первой, эта же
переменная измеряться не может. Таким образом оказывается, что
23
для того, чтобы тест был валидным (то есть измерял именно то, для
измерения чего он предназначен), он должен быть согласованным:
общепринятая в психометрии точка зрения состоит именно в том, что
высокая надежность является предпосылкой валидности (напр.,
Guilford, 1956; Nunnally, 1978).
Единственным, кто подвергает это положение сомнению, являет-
ся Кэттелл (см.напр. Cattell и Kline, 1977). Он аргументирует свою
точку зрения тем, что высокая внутренняя согласованность в дейст-
вительности является противоположностью валидности на том осно-
вании, что каждый вопрос должен затрагивать меньшую область или
иметь более узкое значение, чем критерий, подвергающийся измере-
нию. Таким образом, если все вопросы в высокой степени согласова-
ны, они значимо коррелируют, и, следовательно, надежный тест
будет измерять только лишь сравнительно "узкую" переменную с
малыми отклонениями. В качестве поддержки такой точки зрения
можно заметить следующее: (1) действительно, коэффициент а.
Кронбаха возрастает при увеличении интеркорреляции заданий; и
(2) при прогностическом изучении любой области со многими пере-
менными максимальное значение величины множественной корре-
ляции между тестами и критерием (в данном случае между задания-
ми теста и общим результатом) может быть получено, когда перемен-
ные между собой не коррелируют. Это очевидно, поскольку если две
переменные весьма значимо коррелируют, то одна из них не будет
предоставлять никакой новой информации.
Таким образом, максимум валидности, по рассуждениям Кэттел-
ла, может быть получен тогда, когда все задания теста не коррелиру-
ют друг с другом, а каждое из них имеет положительную корреляцию
с критерием. Однако, такой тест будет характеризоваться низкой
надежностью по внутренней согласованности. С моей точки зрения,
теоретически Кэттелл прав. Однако, насколько мне известно, ни
одному разработчику тестов не удалось сформулировать такие зада-
ния, которые, коррелируя с критерием, не коррелировали бы между
собой. Barrett и Kline (1982) исследовали личностный тест самого
Кэттелла (16 PF), в котором была сделана такая попытка, но оказа-
лось, что она не была полностью удачна.
Несмотря на эти комментарии, общее психометрическое правило
гласит: на практике валидные тесты являются в высокой степени
согласованными.
Ретестовая надежность (test-retest reliability)
Когда тест не может дать тот же самый результат для некоторого
испытуемого (при условии, что этот испытуемый не изменился) в
24
различных условиях, - значит, не все в порядке. Способ измерения
ретестовой надежности очень прост. Вычисляется корреляция пока-
зателей для выборки испытуемых, протестированных в двух случаях.
Наименьшим удовлетворительным значением для ретестовой на-
дежности является 0,7.
При более низком значении, как указывает Guilford (1956), ис-
пользование теста становится вряд ли целесообразным, поскольку
стандартная погрешность получаемых по нему показателей будет
настолько велика, что интерпретация показателей станет сомни-
тельной. Значение и влияние этой стандартной погрешности резуль-
тата будут обсуждаться в данной главе дальше, когда вы познакоми-
тесь с так называемой классической моделью погрешностей тестов
(Nunnally, 1978), рассматриваемой в рамках дискуссии о надежно-
сти.
Хотя ретестовая надежность проста в вычислении, следует быть
очень осторожным, чтобы не повысить ее искусственно проведением
слишком близких во времени испытаний, а выборки должны быть
достаточно репрезентативными применительно к той категории лиц,
для обследования которых предназначен тест.
И наконец, в связи с этим я должен упомянуть надежность парал-
лельных форм. В этом случае конструируются эквивалентные или
параллельные наборы заданий. Таким образом, испытуемые выпол-
няют совершенно другой тест при аналогичных условиях. Однако,
имеются трудности в доказательстве того, что обе формы являются
действительно эквивалентными. Несмотря на это, на практике па-
раллельные формы тестов оказываются полезными в установлении
надежности тестов.
Валидность
Кратко рассмотрим природу валидности, второй из основных ха-
рактеристик эффективных тестов. Как и при обсуждении надежно-
сти, целью этой главы является дать читателю общее представление
для понимания задач конструирования валидных тестов. Сами же
пути достижения валидности будут полностью представлены в этой
книге далее.
Тест называется валидным, если он измеряет то, для измерения
чего он предназначен. Однако такое определение не разъясняет удов-
летворительно значения валидности. В этом случае возникает новый
1 в известной мере условен. Для
Указанный предельный коэффициент надежности в известной мере уединен, wT
проективных и некоторых других тестов личности показатель ретестовой надеж-
ности может быть ниже, при этом диагностическая ценность методики не снижа-
ется (Прим.ред.)
вопрос: как мы узнаем, что тест измеряет то, для чего он предназна-
чен? В действительности, существует много различных способов до-
казательства валидноеT тестов, и каждый из них соответствует раз-
ным аспектам этого значения. О них и пойдет речь далее в этой главе.
Очевидная (внешняя) валидность (face validity)
Говорят, что тест является очевидно валидным, если о нем скла-
дывается впечатление, что он измеряет именно то, что подразумева-
ется, особенно с точки зрения испытуемых. Очевидная валидность не
имеет никакого отношения к истинной валидности и важна постоль-
ку, поскольку взрослые испытуемые обычно не включаются в работу
с тестами, которым недостает внешней валидности, полагая порой их
глупыми и даже оскорбительными. Дети, привыкшие к школьным
контрольным проверкам, не столь восприимчивы к внешним призна-
кам теста. Очевидная валидность, таким образом, лишь помогает
добиться сотрудничества с испытуемыми.
Конкурентная валидность (concurrent validity)
Эта валидность оценивается по корреляции результатов данного
теста с результатами других тестов.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96
и те же показатели для каждого испытуемого (при условии, что
испытуемый не изменился) при повторном тестировании. Надеж-
ность при повторном тестировании по прошествии времени называ-
ется ретестовой надежностью (test-retest reliability).
Значение и важность надежности
по внутренней согласованности
В психометрии стремятся разрабатывать тесты, являющиеся в
высокой степени внутренне согласованными, по той очевидной при-
чине, что если некоторая переменная измеряется частью теста, то
тогда в других частях, если они не согласованы с первой, эта же
переменная измеряться не может. Таким образом оказывается, что
23
для того, чтобы тест был валидным (то есть измерял именно то, для
измерения чего он предназначен), он должен быть согласованным:
общепринятая в психометрии точка зрения состоит именно в том, что
высокая надежность является предпосылкой валидности (напр.,
Guilford, 1956; Nunnally, 1978).
Единственным, кто подвергает это положение сомнению, являет-
ся Кэттелл (см.напр. Cattell и Kline, 1977). Он аргументирует свою
точку зрения тем, что высокая внутренняя согласованность в дейст-
вительности является противоположностью валидности на том осно-
вании, что каждый вопрос должен затрагивать меньшую область или
иметь более узкое значение, чем критерий, подвергающийся измере-
нию. Таким образом, если все вопросы в высокой степени согласова-
ны, они значимо коррелируют, и, следовательно, надежный тест
будет измерять только лишь сравнительно "узкую" переменную с
малыми отклонениями. В качестве поддержки такой точки зрения
можно заметить следующее: (1) действительно, коэффициент а.
Кронбаха возрастает при увеличении интеркорреляции заданий; и
(2) при прогностическом изучении любой области со многими пере-
менными максимальное значение величины множественной корре-
ляции между тестами и критерием (в данном случае между задания-
ми теста и общим результатом) может быть получено, когда перемен-
ные между собой не коррелируют. Это очевидно, поскольку если две
переменные весьма значимо коррелируют, то одна из них не будет
предоставлять никакой новой информации.
Таким образом, максимум валидности, по рассуждениям Кэттел-
ла, может быть получен тогда, когда все задания теста не коррелиру-
ют друг с другом, а каждое из них имеет положительную корреляцию
с критерием. Однако, такой тест будет характеризоваться низкой
надежностью по внутренней согласованности. С моей точки зрения,
теоретически Кэттелл прав. Однако, насколько мне известно, ни
одному разработчику тестов не удалось сформулировать такие зада-
ния, которые, коррелируя с критерием, не коррелировали бы между
собой. Barrett и Kline (1982) исследовали личностный тест самого
Кэттелла (16 PF), в котором была сделана такая попытка, но оказа-
лось, что она не была полностью удачна.
Несмотря на эти комментарии, общее психометрическое правило
гласит: на практике валидные тесты являются в высокой степени
согласованными.
Ретестовая надежность (test-retest reliability)
Когда тест не может дать тот же самый результат для некоторого
испытуемого (при условии, что этот испытуемый не изменился) в
24
различных условиях, - значит, не все в порядке. Способ измерения
ретестовой надежности очень прост. Вычисляется корреляция пока-
зателей для выборки испытуемых, протестированных в двух случаях.
Наименьшим удовлетворительным значением для ретестовой на-
дежности является 0,7.
При более низком значении, как указывает Guilford (1956), ис-
пользование теста становится вряд ли целесообразным, поскольку
стандартная погрешность получаемых по нему показателей будет
настолько велика, что интерпретация показателей станет сомни-
тельной. Значение и влияние этой стандартной погрешности резуль-
тата будут обсуждаться в данной главе дальше, когда вы познакоми-
тесь с так называемой классической моделью погрешностей тестов
(Nunnally, 1978), рассматриваемой в рамках дискуссии о надежно-
сти.
Хотя ретестовая надежность проста в вычислении, следует быть
очень осторожным, чтобы не повысить ее искусственно проведением
слишком близких во времени испытаний, а выборки должны быть
достаточно репрезентативными применительно к той категории лиц,
для обследования которых предназначен тест.
И наконец, в связи с этим я должен упомянуть надежность парал-
лельных форм. В этом случае конструируются эквивалентные или
параллельные наборы заданий. Таким образом, испытуемые выпол-
няют совершенно другой тест при аналогичных условиях. Однако,
имеются трудности в доказательстве того, что обе формы являются
действительно эквивалентными. Несмотря на это, на практике па-
раллельные формы тестов оказываются полезными в установлении
надежности тестов.
Валидность
Кратко рассмотрим природу валидности, второй из основных ха-
рактеристик эффективных тестов. Как и при обсуждении надежно-
сти, целью этой главы является дать читателю общее представление
для понимания задач конструирования валидных тестов. Сами же
пути достижения валидности будут полностью представлены в этой
книге далее.
Тест называется валидным, если он измеряет то, для измерения
чего он предназначен. Однако такое определение не разъясняет удов-
летворительно значения валидности. В этом случае возникает новый
1 в известной мере условен. Для
Указанный предельный коэффициент надежности в известной мере уединен, wT
проективных и некоторых других тестов личности показатель ретестовой надеж-
ности может быть ниже, при этом диагностическая ценность методики не снижа-
ется (Прим.ред.)
вопрос: как мы узнаем, что тест измеряет то, для чего он предназна-
чен? В действительности, существует много различных способов до-
казательства валидноеT тестов, и каждый из них соответствует раз-
ным аспектам этого значения. О них и пойдет речь далее в этой главе.
Очевидная (внешняя) валидность (face validity)
Говорят, что тест является очевидно валидным, если о нем скла-
дывается впечатление, что он измеряет именно то, что подразумева-
ется, особенно с точки зрения испытуемых. Очевидная валидность не
имеет никакого отношения к истинной валидности и важна постоль-
ку, поскольку взрослые испытуемые обычно не включаются в работу
с тестами, которым недостает внешней валидности, полагая порой их
глупыми и даже оскорбительными. Дети, привыкшие к школьным
контрольным проверкам, не столь восприимчивы к внешним призна-
кам теста. Очевидная валидность, таким образом, лишь помогает
добиться сотрудничества с испытуемыми.
Конкурентная валидность (concurrent validity)
Эта валидность оценивается по корреляции результатов данного
теста с результатами других тестов.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96