2) может быть записана в
виде га = \п1, где гц - корреляция показателей по тесту 1 и истин-
ного показателя, и гц -средняя корреляция теста 1 со всеми тестами
из генеральной совокупности.
Коэффициент надежности (reliability coefficient)
Средняя величина корреляции одноготеста или задания со всеми
тестами или заданиями из генеральной совокупности называется
34
коэффициентом надежности. Квадратный корень из коэффициента
надежности является корреляцией данного теста или задания с ис-
тинным показателем (как указывает формула (1.2)). Однако, на
практике невозможно точно вычислить это теоретическое значение
надежности Гц, потому что количество разработанных нами заданий
и тестов не является бесконечным. Это означает, что надежность
(Гц) некоторого теста можно оценить лишь приблизительно.
Таким образом, на практике коэффициенты надежности основа-
ны на корреляции одного теста с другими, и эта оценка может быть
не очень точной. Это, означает, что имеющая более существенное
значение корреляция теста или задания с истинным показателем
также может быть оценена неточно.
Выборочные показатели
Это показатели любого теста, то есть показатели, состоящие из
истинных показателей и погрешностей измерения. Любой коэффи-
циент надежности, который мы получаем на практике, гц, для неко-
торого теста или задания, будет аппроксимировать Гц. Если предпо-
ложить, что гц = г-ii, то r-it (корреляция истинного и выборочного
показателей) = Гц. Таким образом может быть получена оценка для
гц. Исходя из этого, можно получить оценки истинных стандартных
показателей из выборочных показателей по следующей формуле:
Zt = ru zi = VT-II 21 (1.3)
где zf - оценки истинных стандартных показателей, z, - стандарт-
ные показатели для выборочного измерения, гц - корреляция выбо-
рочных показателей и истинных показателей, и г-н - это надежность
переменной.
Так как квадрат коэффициента корреляции равен дисперсии од-
ной переменной, выраженной в терминах другой, гц - относительная
доля дисперсии истинных показателей, выраженная величиной вы-
борочного измерения, а гц = /;; , следовательно, квадрат надежно-
сти равен относительной доле дисперсии истинных показателей,
выраженной через значения выборочных измерений.
Действительно, как показано у Nunnally (1978), если показатели
теста являются смещенными или ненормализованными ("сырыми")
показателями (в отличие от стандартных показателей), то:
_о?
/"II - -у
of
2 35
(1.4)
тле of- дисперсия переменной I ,nfff- дисперсия переменной
1, выраженная в истинных показателях, а гц - надежность.
Это удобная формула для оценивания О?, так как //; и fff легко
вычисляются. Очевидно, что исходя из классической модели погреш-
ностей, надежность - это чрезвычайно важный параметр.
Однородность теста и надежность
Надежность теста связана со средней корреляцией между задани-
ями, то есть с его однородностью. Однако, поскольку корреляции
между заданиями не являются с очевидностью идентичными, должно
быть некоторое их распределение вокруг среднего значения. В клас-
сической модели измерения предполагается, что такое распределе-
ние является нормальным. Исходя из этого предположения, как ука-
зывает Nunnally, можно оценить точность коэффициента надежно-
сти при помощи вычисления стандартной погрешности оценивания
средней взаимной корреляции заданий во всей генеральной совокуп-
ности заданий.
ОГц
О гц
Vl/2 (k-D-l
(1.5)
где 0~Fij - стандартная погрешность оценивания Гц в генеральной
совокупности, О гц - стандартное отклонение корреляции заданий
внутри теста, и k - количество заданий в тесте.
Формула (1.5) указывает, что стандартная погрешность оценки
получается путем деления стандартного отклонения корреляций за-
даний на квадратный корень из количества возможных корреляций
между k заданиями. Вычитание единицы дает соответствующие сте-
пени свободы. Из формулы (1.5) видно, что: (а) по мере возрастания
стандартной погрешности этой оценки возрастают различия между
корреляциями; и (Ь) по мере возрастания стандартная погрешность
уменьшается, то есть чем больше заданий, тем больше точность
оценки коэффициента надежности. Таким образом, эта формула
показывает, что надежность возрастает с однородностью теста и его
величиной, или, точнее говоря, надежность оценки возрастает с уве-
личением размера теста.
Следует отличать понятие надежности оценок теста в соответствии с моделью
Nunnally от концептуального содержания ретестовой надежности как свойства
измерительной процедуры. Так, при увеличении числа заданий растет вероят-
ность различных ответов на каждое из них, что, естественно, снижает надежность
в смысле меры повторяемости результатов (Прим.ред.)
36
Эти выводы из формулы (1.5) настолько полезны для практиче-
ских разработчиков тестов, что мы еще вернемся к их обсуждению.
Прежде всего я должен напомнить читателям значение стандартной
погрешности оценки корреляции заданий.
Она означает, что 68 % всех средних корреляций выборки попада-
ют в интервал между арифметическим средним плюс-минус одна
величина стандартной погрешности, и что 95% попадают в интервал
между арифметическим средним плюс-минус две величины стандар-
тной погрешности. Если предположить, что стандартное отклонение
корреляций для некоторого теста равно 0,15 (а это отнюдь не необыч-
ный случай) и применить формулу (1.5) к тестам, состоящим из 10,
20 и 30 заданий, мы получим следующие стандартные погрешности:
для теста из 10 заданий: 0,02
для теста из 20 заданий: 0,01
для теста из 30 заданий: 0,007
Из этих результатов становится видно, что даже при такой не-
большой величине теста, как 10 заданий, точность оценки надежно-
сти является удивительно большой. Это происходит благодаря тому
факту, что знаменатель формулы (1,5) быстро возрастает с увеличе-
нием количества заданий.
С точки зрения разработчика тестов, такая точность является
весьма воодушевляющей. На практике это означает, что в оценке
надежности присутствует небольшая погрешность из-за случайной
ошибки в выборе заданий. Другой важный вывод, как указывает
Nunnally (1978), состоит в том, что если явно параллельные тесты
имеют низкую взаимную корреляцию, это не может быть отнесено за
счет случайной ошибки при выборе заданий. Либо задания должны
представлять различные генеральные совокупности заданий (напри-
мер, они измеряют различные переменные), либо есть ошибка выбор-
ки, вносимая испытуемыми.
Таким образом, легко видеть, что формула ( 1.5) дает разработчи-
ку тестов уверенность в том, что случайные ошибки, похоже, не
смогут нарушить логику построения теста. Даже при наличии не-
большого количества заданий оценки надежности могут быть точны-
ми.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96
виде га = \п1, где гц - корреляция показателей по тесту 1 и истин-
ного показателя, и гц -средняя корреляция теста 1 со всеми тестами
из генеральной совокупности.
Коэффициент надежности (reliability coefficient)
Средняя величина корреляции одноготеста или задания со всеми
тестами или заданиями из генеральной совокупности называется
34
коэффициентом надежности. Квадратный корень из коэффициента
надежности является корреляцией данного теста или задания с ис-
тинным показателем (как указывает формула (1.2)). Однако, на
практике невозможно точно вычислить это теоретическое значение
надежности Гц, потому что количество разработанных нами заданий
и тестов не является бесконечным. Это означает, что надежность
(Гц) некоторого теста можно оценить лишь приблизительно.
Таким образом, на практике коэффициенты надежности основа-
ны на корреляции одного теста с другими, и эта оценка может быть
не очень точной. Это, означает, что имеющая более существенное
значение корреляция теста или задания с истинным показателем
также может быть оценена неточно.
Выборочные показатели
Это показатели любого теста, то есть показатели, состоящие из
истинных показателей и погрешностей измерения. Любой коэффи-
циент надежности, который мы получаем на практике, гц, для неко-
торого теста или задания, будет аппроксимировать Гц. Если предпо-
ложить, что гц = г-ii, то r-it (корреляция истинного и выборочного
показателей) = Гц. Таким образом может быть получена оценка для
гц. Исходя из этого, можно получить оценки истинных стандартных
показателей из выборочных показателей по следующей формуле:
Zt = ru zi = VT-II 21 (1.3)
где zf - оценки истинных стандартных показателей, z, - стандарт-
ные показатели для выборочного измерения, гц - корреляция выбо-
рочных показателей и истинных показателей, и г-н - это надежность
переменной.
Так как квадрат коэффициента корреляции равен дисперсии од-
ной переменной, выраженной в терминах другой, гц - относительная
доля дисперсии истинных показателей, выраженная величиной вы-
борочного измерения, а гц = /;; , следовательно, квадрат надежно-
сти равен относительной доле дисперсии истинных показателей,
выраженной через значения выборочных измерений.
Действительно, как показано у Nunnally (1978), если показатели
теста являются смещенными или ненормализованными ("сырыми")
показателями (в отличие от стандартных показателей), то:
_о?
/"II - -у
of
2 35
(1.4)
тле of- дисперсия переменной I ,nfff- дисперсия переменной
1, выраженная в истинных показателях, а гц - надежность.
Это удобная формула для оценивания О?, так как //; и fff легко
вычисляются. Очевидно, что исходя из классической модели погреш-
ностей, надежность - это чрезвычайно важный параметр.
Однородность теста и надежность
Надежность теста связана со средней корреляцией между задани-
ями, то есть с его однородностью. Однако, поскольку корреляции
между заданиями не являются с очевидностью идентичными, должно
быть некоторое их распределение вокруг среднего значения. В клас-
сической модели измерения предполагается, что такое распределе-
ние является нормальным. Исходя из этого предположения, как ука-
зывает Nunnally, можно оценить точность коэффициента надежно-
сти при помощи вычисления стандартной погрешности оценивания
средней взаимной корреляции заданий во всей генеральной совокуп-
ности заданий.
ОГц
О гц
Vl/2 (k-D-l
(1.5)
где 0~Fij - стандартная погрешность оценивания Гц в генеральной
совокупности, О гц - стандартное отклонение корреляции заданий
внутри теста, и k - количество заданий в тесте.
Формула (1.5) указывает, что стандартная погрешность оценки
получается путем деления стандартного отклонения корреляций за-
даний на квадратный корень из количества возможных корреляций
между k заданиями. Вычитание единицы дает соответствующие сте-
пени свободы. Из формулы (1.5) видно, что: (а) по мере возрастания
стандартной погрешности этой оценки возрастают различия между
корреляциями; и (Ь) по мере возрастания стандартная погрешность
уменьшается, то есть чем больше заданий, тем больше точность
оценки коэффициента надежности. Таким образом, эта формула
показывает, что надежность возрастает с однородностью теста и его
величиной, или, точнее говоря, надежность оценки возрастает с уве-
личением размера теста.
Следует отличать понятие надежности оценок теста в соответствии с моделью
Nunnally от концептуального содержания ретестовой надежности как свойства
измерительной процедуры. Так, при увеличении числа заданий растет вероят-
ность различных ответов на каждое из них, что, естественно, снижает надежность
в смысле меры повторяемости результатов (Прим.ред.)
36
Эти выводы из формулы (1.5) настолько полезны для практиче-
ских разработчиков тестов, что мы еще вернемся к их обсуждению.
Прежде всего я должен напомнить читателям значение стандартной
погрешности оценки корреляции заданий.
Она означает, что 68 % всех средних корреляций выборки попада-
ют в интервал между арифметическим средним плюс-минус одна
величина стандартной погрешности, и что 95% попадают в интервал
между арифметическим средним плюс-минус две величины стандар-
тной погрешности. Если предположить, что стандартное отклонение
корреляций для некоторого теста равно 0,15 (а это отнюдь не необыч-
ный случай) и применить формулу (1.5) к тестам, состоящим из 10,
20 и 30 заданий, мы получим следующие стандартные погрешности:
для теста из 10 заданий: 0,02
для теста из 20 заданий: 0,01
для теста из 30 заданий: 0,007
Из этих результатов становится видно, что даже при такой не-
большой величине теста, как 10 заданий, точность оценки надежно-
сти является удивительно большой. Это происходит благодаря тому
факту, что знаменатель формулы (1,5) быстро возрастает с увеличе-
нием количества заданий.
С точки зрения разработчика тестов, такая точность является
весьма воодушевляющей. На практике это означает, что в оценке
надежности присутствует небольшая погрешность из-за случайной
ошибки в выборе заданий. Другой важный вывод, как указывает
Nunnally (1978), состоит в том, что если явно параллельные тесты
имеют низкую взаимную корреляцию, это не может быть отнесено за
счет случайной ошибки при выборе заданий. Либо задания должны
представлять различные генеральные совокупности заданий (напри-
мер, они измеряют различные переменные), либо есть ошибка выбор-
ки, вносимая испытуемыми.
Таким образом, легко видеть, что формула ( 1.5) дает разработчи-
ку тестов уверенность в том, что случайные ошибки, похоже, не
смогут нарушить логику построения теста. Даже при наличии не-
большого количества заданий оценки надежности могут быть точны-
ми.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96