Виктор Звонников - Контроль качества обучения при аттестации: компетентностный подход
Нормы – это совокупность показателей, отражающая результаты выполнения теста четко определенной выборкой испытуемых – релевантной нормативной группой, репрезентативно представляющей генеральную совокупность тестируемых студентов [1, 21, 28]. Нормы нельзя придумать или задать априорно, они устанавливаются в соответствии с эмпирическими данными по тесту. К ним обычно относят среднее значение тестовых баллов и показатель разброса (вариативности) вокруг среднего значения всех остальных баллов, полученных представительной выборкой тестируемых студентов. Имея нормы, можно установить положение каждого результата по отношению к среднему значению тестовых баллов, посмотреть, на сколько результат испытуемого выше или ниже среднего и как располагаются результаты остальных студентов вокруг среднего балла по тесту. Таким образом, соотнесение первичного результата испытуемого с нормами теста позволяет определить его место в выборке, использованной для подсчета.
Процесс определения норм называется стандартизацией теста. Этот процесс всегда осуществляется на репрезентативной выборке испытуемых, формирование которой обязательно при определении норм теста. Тестовых норм, пригодных для интерпретации результатов всех студентов по любым тестам, не существует вообще. Область применимости любой нормы ограничивается данным тестом и конкретной совокупностью испытуемых, поэтому нормы не абсолютны и не постоянны. Они отражают результаты выборки стандартизации на момент создания теста и подлежат систематическому обновлению и перепроверке.
Нормы обычно устанавливают в ситуации массового тестирования, например, при аттестации студентов или выпускников. В текущем контроле нормы выполнения теста, конечно, не определяются. В этом случае обычно используют не преобразованные (сырые) результаты выполнения тестов, подсчитанные путем суммирования оценок по отдельным заданиям, в том числе и с весовыми коэффициентами.
Руководству факультета нередко интересно узнать, по какому предмету отстает тот или иной студент. Для этого приходится сравнивать результаты студентов по предметным тестам. Подобное сравнение относительных позиций студента в тестах по разным предметам возможно в том случае, если они стандартизованы на одной и той же выборке испытуемых и представлены в одинаковых шкалах с общими средним значением и стандартным отклонением. В противном случае результаты сравнения тестовых баллов студента по отдельным предметам можно неверно интерпретировать из-за несопоставимости тестовых норм.
В педагогических измерениях термин «стандартизация» обычно используется гораздо чаще не только применительно к процессу установления норм выполнения теста. В расширенном понимании стандартизация предполагает единообразие всей процедуры выполнения теста. Для стандартизации, помимо норм, разработчик должен дать точные указания по форме предъявления теста, оптимальному времени его выполнения, составу выборки стандартизации, устные инструкции и ряд других деталей, влияющих на результаты выполнения теста.
К нормам предъявляют ряд требований:
• нормы должны быть дифференцированными. Например, тесты для аттестации студентов вузов, реализующих одинаковые направления подготовки, необходимо стандартизировать на собственных выборках в тех случаях, когда результаты аттестации используются только внутри самого вуза. В случае, если речь идет об аттестации студентов при комплексной проверке деятельности учебных заведений, стандартизация тестов должна проводиться на репрезентативной выборке, состоящей из студентов разных вузов России и отражающей пропорции генеральной совокупности всех студентов, получающих подготовку по данному направлению;
• нормы должны отражать реальный контингент и актуальные требования к качеству учебных достижений, вытекающие из современной ситуации в образовании;
• нормы должны быть репрезентативными, поэтому они всегда устанавливаются эмпирически в соответствии с результатами тестирования выборки стандартизации, обеспечивающей несмещенные оценки.
Норма – относительное понятие, тесно связанное с качеством выборки, использованной для стандартизации. Выборка должна точно отражать категорию (или несколько категорий) лиц, для которых предназначен тест, а также быть достаточно большой и сбалансированной для обеспечения столь малой стандартной погрешности, чтобы ею можно было пренебречь в процессе стандартизации теста. Таким образом, при формировании выборки стандартизации необходимо учитывать две переменные: объем и представительность (репрезентативность), обеспечивающие в совокупности высокую точность при оценивании норм выполнения теста. Если выборка не репрезентативна, то нормы неадекватно отражают характеристики подготовленности генеральной совокупности испытуемых. В этом случае результаты тестирования выборочной совокупности студентов не подлежат генерализации (распространению на всю генеральную совокупность), а сами нормы являются недостоверными (неточными), поэтому их нельзя использовать при интерпретации результатов выполнения тестов.
Если принимать во внимание только первую переменную – объем выборки, то для получения приемлемой точности оценивания норм вполне достаточно провести тестирование 200–500 испытуемых. Гораздо более важной характеристикой выборки, не зависящей от ее размера, является репрезентативность (представительность). В практической работе вполне допустимо ограничиться выборкой из 300, а иногда даже 200 испытуемых, поскольку маленькая, но репрезентативная нормативная выборка предпочтительнее, чем большая, но неравномерно представленная.
Для обеспечения равномерности представления различных специфических составляющих популяции испытуемых используют специальный процесс – стратификацию (расслоение выборки на страты, размеры которых должны быть пропорциональны размерам соответствующих популяций в генеральной совокупности). Обычно в качестве оснований для стратификации выделяют факторы, наиболее тесно связанные с переменной измерения и воспроизводящие реальную структуру генеральной совокупности по ряду признаков (возрастных, гендерных, психологических, социальных и др.). Например, к числу таких факторов для группы вузов можно отнести программу обучения, используемые учебники, специфику технологий обучения, социальное положение родителей студентов, регион, где расположен вуз и т.д. Внутри одного учебного заведения можно выделить формы обучения, методы обучения, кадровый состав преподавателей и т.д.
Для формирования выборки определенного типа чаще всего используют вероятностные методы, отличающиеся от других, невероятностных методов способами извлечения объектов из генеральной совокупности и дающие по сравнению с последними более высокий уровень репрезентативности выборочных совокупностей [21]. Среди распространенных типов выборок можно выделить простую случайную, элементы которой отбираются из генеральной совокупности случайно, т.е. с равной вероятностью без выделения оснований по стратификации. В том случае, когда фиксируется определенный шаг выборки при отборе ее элементов, случайная выборка превращается в систематическую.
Стратифицированный тип выборки является наиболее предпочтительным с точки зрения обеспечения ее высокой репрезентативности. При ее формировании каждый элемент генеральной совокупности, включенный в одну внутреннегомогенную страту, отбирается методом простой случайной выборки, а процесс стратификации производится способом, описанным выше. Реже встречаются кластерные и мультистадийные выборки, требующие предварительного формирования кластерных групп элементов в тех случаях, когда генеральная совокупность неоднородна.
Определение оптимального типа выборки производится на основе анализа ряда факторов, к числу которых относятся цель измерения, вид измерителя и его содержание, особенности генеральной совокупности, специфика переменных измерения, планируемая надежность результатов, предполагаемые выводы по результатам педагогических измерений.
В целом можно сформулировать общие правила получения репрезентативной выборки стандартизации:
• выборка должна быть стратифицирована на подгруппы по наиболее важным переменным, обычно отражающим не более четырех уровней стратификации;
• в каждой подгруппе необходимо выровнять число испытуемых, установив в качестве минимального числа не менее 100 испытуемых в одной подгруппе.
С учетом всех возможных сочетаний факторов, обычно выбираемых при массовом тестировании для стратификации, минимальный объем национальной выборки стандартизации во многих странах достигает 12–15 тыс. обучаемых. Для уменьшения этого объема минимизируют число оснований при делении на подгруппы – количество страт, – снижая тем самым затраты на стандартизацию национальных тестов.