В индивидуальных случаях она будет неверной.
Из сказанного ясно, что коррекция на угадывание - это в лучшем
случае лишь грубое оценивание.
В общем, я соглашаюсь с Vernon (1950), который утверждает, что
на практике при условии, что тест имеет достаточное количество
заданий, угадыванием можно пренебречь. Это особенно верно для
заданий с несколькими вариантами выбора. Альтернативные задания
больше подвержены влиянию угадывания, и это является причиной
отказа от использования этого вида заданий, если только он не явля-
ется единственным удовлетворительным. Если требуется высокая
скорость выполнения тестов, то это подстегивает испытуемых к слу-
чайному угадыванию ответов. Однако проведение тестов в столь сжа-
тые сроки, что испытуемые не могут завершить их выполнения, не
будет хорошей практикой тестирования. Это привносит в тест внеш-
нюю переменную скорости выполнения. Короче говоря, случайное
угадывание не является основной проблемой тестирования, а коррек-
89
ция угадывания полезна только для тестов с альтернативными зада-
ниями, использование которых, однако, не рекомендовано.
Заключение
Полагаю, было сказано уже достаточно, чтобы основные положе-
ния формулирования заданий для тестов способностей и достижений
стали понятными. Имея большое количество правильно сконструи-
рованных заданий, не измеряющих тривиальные вещи лишь потому,
что их легко измерять, и используя статистические процедуры, кото-
рые будут обсуждаться в последующих главах, можно будет разраба-
тывать эффективные тесты для выявления способностей человека. Я
также надеюсь, что подробная демонстрация методик формулирова-
ния заданий (возможно, даже раздражающая своей подробностью)
выявила также, почему так много объективных тестов, особенно те-
стов достижений, являются такими слабыми. Многие объективные
тесты разрабатывались неопытными энтузиастами-любителями. Не
достаточно применять мощный статистический аппарат для подбора
заданий. Прежде всего сами задания должны быть эффективными.
Формулирование заданий не является простым делом. Основных
принципы, указанные в данном руководстве, должны способствовать
устранению многих крупных просчетов.
Глава 3. Создание надежных тестов II;
Личностные опросники. Разработка заданий
Личностные опросники - широко используемые методики изме-
рения личностных качеств, поскольку они могут разрабатываться
так, что им будут присущи многие атрибуты эффективных тестов:
надежность, дискриминативность и стандартизованность. Однако, в
силу природы личностных переменных, труднее всего бывает устано-
вить валидность именно этих методик.
Проблемы конструирования личностных опросников
Как и в случае тестов способностей, качество отдельных заданий
(вопросов, утверждений) является определяющим для всего опрос-
ника, и поэтому в данной главе будут рассматриваться трудности,
возникающие при формулировании заданий, а также преимущества
различных типов заданий.
При разработке заданий для личностных опросников необходимо
учитывать следующие проблемы, которые, если их не обойти, неиз-
бежно приведут к низкой валидности тестов.
(1) Установка на согласие (response set of acquiescence). Это
тенденция испытуемого соглашаться с утверждениями или отвечать
на вопросы "да" независимо от их содержания. Чаще всего проявля-
ется, согласно Guilford (1959), когда утверждения (вопросы) неодно-
значны и неопределенны.
(2) Установка на социально одобряемые ответы (response set of
social desirabiliiy). Это тенденция испытуемых отвечать на вопросы
теста так, чтобы выглядеть "социально положительным": если воз-
можен "социально желательный" ответ, то весьма вероятно, что
испытуемые будут его давать. Эта установка, как показал Edwards
(1957), оказывает, в частности, влияние на результаты теста ММР1
(Minnesota Multiphasic Personality Inventory).
(3) Установка на неопределенные или средние ответы (response
set of using the uncertain or middle category). Если в опроснике пред-
ставлена средняя категория ответов, отражающая нерешительность
или неуверенность в ответе (напр., "не уверен", "не знаю", или
"затрудняюсь ответить"), то многие испытуемые склонны к ней при-
бегать, как к безопасному компромиссу. Это приводит к снижению
валидности заданий, поскольку большинство методов анализа вопро-
сов основывается на крайних значениях показателей.
(4) Установка на "крайние? (расположенные по краям шкалы)
ответы (response set of using the extreme response). Эта установка
может проявляться при использовании многоэлементной рейтинго-
91
вой шкалы. Некоторые испытуемые, независимо от содержания воп-
росов предпочитают выбирать крайние ответы (Vernon, 1964).
(5) Очевидная валидность (face validity) вопросов (утвержде-
ний). Несомненно, в тестах личности необходима уверенность в том,
что ответы на вопросы могут рассматриваться как правдивые. Catfell
и Kline (1977) рассматривают данные опросника как данные Q и Qi.
Данные из первого множества рассматриваются так, как если бы они
отражали поведение испытуемого, данные из второго - как ответ на
отдельный вопрос, ответ, который либо нагружен некоторым факто-
ром, либо нет, независимо от того, отражает ли он поведение испы-
туемого.
(6) Выборка из генеральной совокупности вопросов. В тестах
интеллекта и специальных способностей, обсуждавшихся в предыду-
щей главе, относительно легко убедиться в том, что задания принад-
лежат или с высокой степенью вероятности выглядят принадлежа-
щими к подразумеваемой для них генеральной совокупности. Линг-
вистические задания нелегко перепутать с математическими или
какими-либо другими. Однако, в области особенностей личности и
темперамента все гораздо сложнее.
В самом деле, иногда даже опытные и искусные разработчики
вопросов (например, Cattell, 1957) бывают удивлены тем, что вопро-
сы нагружены не теми факторами, для выявления которых они были
созданы, а также тем, что вопросы вообще не нагружены ни одним из
факторов. Эта проблема с точки зрения классической теории тестов
состоит в трудности определения конкретной выборочной совокупно-
сти вопросов. В результате возникает проблема подбора адекватной
выборки из выборочной совокупности вопросов или утверждений для
теста, а без этого тест не может быть валидным.
(7) Выборка из генеральной совокупности испытуемых. Как ука-
зано выше, в личностных тестах труднее обеспечить адекватность
выборки из выборочной совокупности, чем в тестах способностей.
При использовании тестов способностей обычно известна вполне оп-
ределенная категория лиц (популяция), для которой данный тест
предназначен, и таким образом, по крайней мере в принципе, можно
эффективно подбирать выборки.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96
Из сказанного ясно, что коррекция на угадывание - это в лучшем
случае лишь грубое оценивание.
В общем, я соглашаюсь с Vernon (1950), который утверждает, что
на практике при условии, что тест имеет достаточное количество
заданий, угадыванием можно пренебречь. Это особенно верно для
заданий с несколькими вариантами выбора. Альтернативные задания
больше подвержены влиянию угадывания, и это является причиной
отказа от использования этого вида заданий, если только он не явля-
ется единственным удовлетворительным. Если требуется высокая
скорость выполнения тестов, то это подстегивает испытуемых к слу-
чайному угадыванию ответов. Однако проведение тестов в столь сжа-
тые сроки, что испытуемые не могут завершить их выполнения, не
будет хорошей практикой тестирования. Это привносит в тест внеш-
нюю переменную скорости выполнения. Короче говоря, случайное
угадывание не является основной проблемой тестирования, а коррек-
89
ция угадывания полезна только для тестов с альтернативными зада-
ниями, использование которых, однако, не рекомендовано.
Заключение
Полагаю, было сказано уже достаточно, чтобы основные положе-
ния формулирования заданий для тестов способностей и достижений
стали понятными. Имея большое количество правильно сконструи-
рованных заданий, не измеряющих тривиальные вещи лишь потому,
что их легко измерять, и используя статистические процедуры, кото-
рые будут обсуждаться в последующих главах, можно будет разраба-
тывать эффективные тесты для выявления способностей человека. Я
также надеюсь, что подробная демонстрация методик формулирова-
ния заданий (возможно, даже раздражающая своей подробностью)
выявила также, почему так много объективных тестов, особенно те-
стов достижений, являются такими слабыми. Многие объективные
тесты разрабатывались неопытными энтузиастами-любителями. Не
достаточно применять мощный статистический аппарат для подбора
заданий. Прежде всего сами задания должны быть эффективными.
Формулирование заданий не является простым делом. Основных
принципы, указанные в данном руководстве, должны способствовать
устранению многих крупных просчетов.
Глава 3. Создание надежных тестов II;
Личностные опросники. Разработка заданий
Личностные опросники - широко используемые методики изме-
рения личностных качеств, поскольку они могут разрабатываться
так, что им будут присущи многие атрибуты эффективных тестов:
надежность, дискриминативность и стандартизованность. Однако, в
силу природы личностных переменных, труднее всего бывает устано-
вить валидность именно этих методик.
Проблемы конструирования личностных опросников
Как и в случае тестов способностей, качество отдельных заданий
(вопросов, утверждений) является определяющим для всего опрос-
ника, и поэтому в данной главе будут рассматриваться трудности,
возникающие при формулировании заданий, а также преимущества
различных типов заданий.
При разработке заданий для личностных опросников необходимо
учитывать следующие проблемы, которые, если их не обойти, неиз-
бежно приведут к низкой валидности тестов.
(1) Установка на согласие (response set of acquiescence). Это
тенденция испытуемого соглашаться с утверждениями или отвечать
на вопросы "да" независимо от их содержания. Чаще всего проявля-
ется, согласно Guilford (1959), когда утверждения (вопросы) неодно-
значны и неопределенны.
(2) Установка на социально одобряемые ответы (response set of
social desirabiliiy). Это тенденция испытуемых отвечать на вопросы
теста так, чтобы выглядеть "социально положительным": если воз-
можен "социально желательный" ответ, то весьма вероятно, что
испытуемые будут его давать. Эта установка, как показал Edwards
(1957), оказывает, в частности, влияние на результаты теста ММР1
(Minnesota Multiphasic Personality Inventory).
(3) Установка на неопределенные или средние ответы (response
set of using the uncertain or middle category). Если в опроснике пред-
ставлена средняя категория ответов, отражающая нерешительность
или неуверенность в ответе (напр., "не уверен", "не знаю", или
"затрудняюсь ответить"), то многие испытуемые склонны к ней при-
бегать, как к безопасному компромиссу. Это приводит к снижению
валидности заданий, поскольку большинство методов анализа вопро-
сов основывается на крайних значениях показателей.
(4) Установка на "крайние? (расположенные по краям шкалы)
ответы (response set of using the extreme response). Эта установка
может проявляться при использовании многоэлементной рейтинго-
91
вой шкалы. Некоторые испытуемые, независимо от содержания воп-
росов предпочитают выбирать крайние ответы (Vernon, 1964).
(5) Очевидная валидность (face validity) вопросов (утвержде-
ний). Несомненно, в тестах личности необходима уверенность в том,
что ответы на вопросы могут рассматриваться как правдивые. Catfell
и Kline (1977) рассматривают данные опросника как данные Q и Qi.
Данные из первого множества рассматриваются так, как если бы они
отражали поведение испытуемого, данные из второго - как ответ на
отдельный вопрос, ответ, который либо нагружен некоторым факто-
ром, либо нет, независимо от того, отражает ли он поведение испы-
туемого.
(6) Выборка из генеральной совокупности вопросов. В тестах
интеллекта и специальных способностей, обсуждавшихся в предыду-
щей главе, относительно легко убедиться в том, что задания принад-
лежат или с высокой степенью вероятности выглядят принадлежа-
щими к подразумеваемой для них генеральной совокупности. Линг-
вистические задания нелегко перепутать с математическими или
какими-либо другими. Однако, в области особенностей личности и
темперамента все гораздо сложнее.
В самом деле, иногда даже опытные и искусные разработчики
вопросов (например, Cattell, 1957) бывают удивлены тем, что вопро-
сы нагружены не теми факторами, для выявления которых они были
созданы, а также тем, что вопросы вообще не нагружены ни одним из
факторов. Эта проблема с точки зрения классической теории тестов
состоит в трудности определения конкретной выборочной совокупно-
сти вопросов. В результате возникает проблема подбора адекватной
выборки из выборочной совокупности вопросов или утверждений для
теста, а без этого тест не может быть валидным.
(7) Выборка из генеральной совокупности испытуемых. Как ука-
зано выше, в личностных тестах труднее обеспечить адекватность
выборки из выборочной совокупности, чем в тестах способностей.
При использовании тестов способностей обычно известна вполне оп-
ределенная категория лиц (популяция), для которой данный тест
предназначен, и таким образом, по крайней мере в принципе, можно
эффективно подбирать выборки.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96