Виктор Звонников - Контроль качества обучения при аттестации: компетентностный подход
Рис. 6.1. Столбчатая гистограмма для распределения баллов в табл. 6.3
Для дальнейшего анализа данных оцениваются меры центральной тенденции в распределении результатов тестирования, которые предназначены для выявления той точки, вокруг которой в основном группируются все результаты выполнения теста. При анализе результатов тестирования можно использовать разные подходы к определению такой центральной точки. Наиболее простой способ основан на выявлении моды распределения и среднего арифметического баллов.
Мода – это такое значение, которое встречается наиболее часто среди результатов выполнения теста. Например, для данных табл. 6.3 модой является балл 4, потому что он встречается чаще (3 раза) любого другого балла. Конечно, не всякое распределение имеет единственную моду, их может быть две или больше. В случае существования двух мод распределение называется бимодальным. Если все значения баллов студентов встречаются одинаково часто, принято считать, что моды у распределения нет.
Среднее выборочное (среднее арифметическое) определяется суммированием всех значений совокупности и последующим делением на их число. Для индивидуальных баллов Χ1, Χ2, …, ХN группы N испытуемых среднее значение X̅ будет:
(6.1)
Среднее арифметическое индивидуальных баллов испытуемых для рассматриваемого выше примера матрицы (см. табл. 6.2) равно
В отличие от моды, фиксирующей одно или несколько значений, на величину среднего влияют значения всех результатов распределения. Таким образом, среднее арифметическое характеризует все распределение в целом. Оно обобщает индивидуальные особенности составляющих распределения на основе уравнивания отдельных значений рассматриваемой величины.
Меры центральной тенденции полезны при оценке качества теста, если есть результаты апробации теста на репрезентативной выборке студентов. Обычно считают, что хороший нормативно-ориентированный тест обеспечивает нормальное распределение индивидуальных баллов репрезентативной выборки испытуемых, если среднее значение баллов находится в центре распределения, а остальные значения концентрируются вокруг среднего по нормальному закону, т.е. примерно 70% значений находятся в центре, а остальные сходят на нет к краям распределения, как на рис. 6.2.
Рис. 6.2. Нормальная кривая распределения индивидуальных баллов
Если тест обеспечивает распределение баллов, близкое к нормальному, то это означает, что на его основе можно определить устойчивое среднее, которое принимается в качестве одной из репрезентативных норм выполнения теста. Обратный вывод, вообще говоря, неверен: устойчивость тестовых норм не предполагает обязательного нормального распределения эмпирических результатов выполнения теста. Нормальная кривая – это изобретение математиков, которое в сглаженном, идеальном виде описывает реальный полигон частот. На практике никогда не была и не будет получена совокупность данных, распределенных точно по нормальному закону, просто иногда полезно, допуская определенную ошибку, утверждать, что распределение эмпирических данных близко к нормальной кривой.
Нормальное распределение унимодально и симметрично, т.е. половина результатов, расположенная ниже моды, в точности совпадает с другой половиной, расположенной выше, а мода и среднее значение равны. Отсутствие полной симметрии в полигоне частот на практике приводит к смещению моды относительно среднего значения.
В малых выборках мода, как и среднее значение, теряет свою стабильность, хотя причина нестабильности может быть другая, связанная с неправильным подбором по трудности заданий в тесте. Например, если на репрезентативной выборке студентов получилась гистограмма тестовых баллов с бимодальным распределением, то среднее значение распределения, находящееся в центре, никак не может служить нормой выполнения теста. Скорее всего, тест был сконструирован неудачно, что послужило причиной отсутствия нормального распределения эмпирических результатов выполнения теста. Смещение среднего значения баллов студентов влево или вправо говорит о слишком трудной либо слишком легкой подборке заданий теста соответственно.
Таким образом, правильно сконструированный нормативно-ориентированный тест на репрезентативной выборке студентов должен обеспечивать близкое к симметричному распределение индивидуальных баллов, когда мода и среднее значение примерно равны, а остальные результаты расположены вокруг среднего по нормальному закону.
Дальнейший анализ данных тестирования связан с оцениванием мер изменчивости в распределении индивидуальных баллов. Характеристика изменчивости указывает на особенности разброса эмпирических данных вокруг среднего значения баллов. Отдельные значения индивидуальных баллов могут быть тесно сгруппированы вокруг своего среднего балла либо, наоборот, сильно удалены от него. Для отражения характера рассеяния отдельных значений вокруг среднего используют различные меры: размах, дисперсию и стандартное отклонение.
Размах измеряет на шкале расстояние, в пределах которого изменяются все значения показателя в распределении. Например, для распределения индивидуальных баллов в табл. 6.3 размах равен 9 – 1 = 8. Вариационный размах легко вычисляется, но используется крайне редко при характеристике распределения баллов по тесту. Во-первых, размах является весьма приближенным показателем, так как не зависит от степени изменчивости промежуточных значений, расположенных между крайними значениями в распределении баллов по тесту. Во-вторых, крайние значения индивидуальных баллов, как правило, ненадежны, поскольку содержат в себе значительную ошибку измерения. В этой связи более удачной мерой изменчивости считается дисперсия.
Подсчет дисперсии основан на вычислении отклонений Xi – X̅ (i = 1, 2, …, N) каждого значения показателя от среднего арифметического в распределении. Для индивидуальных баллов значения отклонений несут информацию о вариации совокупности значений баллов N студентов, поскольку отражают меру неоднородности результатов по тесту. Совокупность с большей неоднородностью будет иметь большие по модулю отклонения, наоборот, для однородных распределений отклонения должны быть близки к нулю. Знак отклонения указывает место результата студента по отношению к среднему арифметическому по тесту. Для студента с индивидуальным баллом выше среднего значение разности Xi – X̅ будет положительно, а для тех, у кого результат ниже X̅, отклонение Xi – X̅ меньше нуля.
Если просуммировать все отклонения, взятые со своим знаком, то для симметричных распределений сумма будет равна нулю. В рассматриваемом примере матрицы сумма отклонений
Чтобы отрицательные и положительные слагаемые не уничтожали друг друга, каждое отклонение возводят в квадрат и находят сумму квадратов отклонений. Эта сумма будет большой, если результаты тестирования отличаются существенной неоднородностью, и малой в случае близких результатов испытуемых по тесту.
Для рассматриваемого примера данных сумма квадратов отклонений
Величина суммы зависит также от размера выборки испытуемых, выполнявших тест, поэтому для сопоставимости мер изменчивости распределений, отличающихся по объему, каждую сумму делят на N – 1, где N – число студентов, выполнявших тест. Определяемая таким образом мера изменчивости называется исправленной дисперсией. Она обычно обозначается символом Sx2 и вычисляется по формуле
(6.2)
Кроме дисперсии, для характеристики меры изменчивости распределения удобно использовать еще один показатель вариации, который называется стандартным отклонением и вычисляется путем извлечения квадратного корня из дисперсии:
(6.3)
Для рассматриваемого примера данных тестирования
Свойства дисперсии и стандартного отклонения рассматриваются подробно в учебниках по статистике. Заинтересованному читателю можно порекомендовать, например, книгу Дж. Гласс, Дж. Стенли «Статистические методы в педагогике и психологии» [7].
Дисперсия играет важную роль в оценке качества тестов. Низкая дисперсия указывает на плохое качество нормативно-ориентированного теста, поскольку не обеспечивает высокий дифференцирующий эффект. Излишне высокая дисперсия, характерная для случая, когда все студенты отличаются по числу выполненных заданий, также требует переработки теста из-за существенного отличия вида распределения баллов от планируемой нормальной кривой. В процессе коррекции теста следует руководствоваться простым правилом: если проверка согласованности эмпирического распределения с нормальным дает положительные результаты, а дисперсия растет, то это означает, что переработка приводит к повышению его качества.