Виктор Звонников - Контроль качества обучения при аттестации: компетентностный подход
В критериально-ориентированных тестах основную массу составляют достаточно легкие задания, которые выполняют верно не менее 80–90% испытуемых, чтобы обеспечить достаточно низкий процент не аттестованных студентов, не прошедших по результатам тестирования за критериальный балл.
Оценка правдоподобности дистракторов основана на подсчете долей испытуемых, выбравших каждый неправильный ответ. Анализ правдоподобности дистракторов, проведенный для результатов выполнения 39 заданий теста выборкой из 100 испытуемых, показан в табл. 6.6. В первом столбце таблицы помещены номера заданий теста. Второй столбец указывает на число испытуемых, выполнявших каждое из заданий. Все последующие столбцы содержат число и процент тестируемых, выбравших каждый из ответов к заданиям теста. Звездочкой отмечен процент, соответствующий правильному ответу к заданиям.
Таблица 6.6 Анализ правдоподобности дистракторов
Анализ строк таблицы позволяет собрать полезную информацию о качестве дистракторов. Например, в первом задании правильным является 3-й ответ, и поэтому число P1 =̣ 67% в столбце, соответствующем 3-му ответу, указывает на трудность. Из 96 испытуемых, выполнявших задание, 65 справились с ним успешно, а остальные (96 – 65 = 31) распределились между дистракторами следующим образом: 8 тестируемых выбрали 1-й дистрактор, 1 тестируемый выбрал 2-й дистрактор и 22 испытуемых остановились при выполнении задания на 4-м, неправильном ответе, который, по-видимому, очень похож на правильный и поэтому оказался таким привлекательным для незнающих учеников. Таким образом, второй ответ функцию дистрактора не выполняет, поэтому подлежит изменению либо удалению из теста. Несомненно, нуждаются в переработке 1-й и 4-й ответы из задания 6, поскольку их не выбрал ни один человек из шести (97 – 91 = 6), неправильно выполнивших это задание теста и т.д.
Таким образом, дистракторы, которые выбирают менее 5% неверно ответивших испытуемых, следует удалять из теста. Углубленный вариант дистракторного анализа построен на подсчете значения точечно-бисериального коэффициента корреляции для каждого дистрактора в заданиях теста. Отрицательные значения коэффициента корреляции указывают на ситуацию, когда хорошо выполнившие тест испытуемые не будут выбирать данный дистрактор в качестве правильного ответа.
Значения коэффициента точечно-бисериальной корреляции для примера из табл. 6.6 приводятся в табл. 6.7 (как и ранее, звездочка соответствует правильному ответу).
Таблица 6.7 Значения коэффициента точечно-бисериальной корреляции для дистракторов
Выделенные положительные значения коэффициента точечно-бисериальной корреляции для дистракторов (например 2-й ответ в задании 4, 2-й ответ в задании 8, 4-й в 13 и т. д.) указывают на то, что эти неверные ответы выбирают в качестве правильных сильные студенты, что недопустимо в хороших заданиях теста. При правильном положении вещей значения коэффициента точечно-бисериальной корреляции для дистракторов должны быть отрицательными и превышающими по модулю 0,2. Положительные или близкие к нулю значения коэффициента для дистракторов говорят о необходимости их исключения либо переделки неправильных ответов.
Правильные ответы, наоборот, должны выбирать сильные студенты, поэтому в хороших заданиях значения коэффициента точечно-бисериальной корреляции на месте ответов со звездочкой бывают только положительными и превышающими 0,5. Для случая, когда правильный ответ не выбирают сильные студенты (например, в задании 31 или в заданиях 17, 35 из табл. 6.7), коэффициент корреляции бывает близким к нулю или даже меньше нуля. Отрицательная или нулевая корреляция для верного ответа может отражать случайный характер ответов студентов, наличие систематических проблем в усвоении проверяемого материала, вызванных дефектами преподавания либо некорректной формулировкой задания теста.
Дискриминативностью (discriminatory power) называется способность задания дифференцировать студентов на лучших и худших. Высокая дискриминативность – важная характеристика удачного тестового задания, она определяет меру валидности задания, его адекватность целям создания теста. Поэтому хороший нормативно-ориентированный тест должен быть составлен из заданий с высокой дискриминативной способностью. Для критериально-ориентированных тестов дискриминативность не является решающим фактором при отборе заданий в тест, но в любом случае невалидные задания должны быть удалены из теста.
Для оценки дискриминативности задания применяются различные формулы. Наиболее простым является расчет по формуле rдисj= p1j – p0j, где rдисj – индекс дискриминативности для j-го задания теста; p1j – доля студентов, правильно выполнивших j-е задание в подгруппе из 27% лучших студентов по результатам выполнения теста; p0j – доля студентов, правильно выполнивших j-е задание в подгруппе из 27% худших студентов по результатам выполнения теста.
Значения индекса rдис для заданий теста обычно представляют собой десятичную дробь, принадлежащую интервалу [–1; 1]. Максимального значения 1,00 rдис достигнет в том случае, когда все студенты из подгруппы лучших верно выполнят j-е задание теста, а из подгруппы худших это задание не выполнит верно ни один студент. Тогда задание будет обладать максимальным дифференцирующим эффектом. Нулевого значения rдис достигнет в том случае, когда в обеих подгруппах будут равны доли студентов, правильно выполнивших j-е задание теста. И наконец, минимальное значение rдис = –1 будет в ситуации, когда данное задание теста все сильные студенты сделали неверно, а все слабые – верно. Естественно, что задания второго и третьего типа с rдис = 0 или rдис < 0 из теста следует удалить.
Более точное представление о дискриминативной способности задания можно составить, подсчитав точечный бисериальный коэффициент (rpbis) корреляции, процесс вычисления значений которого подробно рассмотрен выше в этом же разделе. Помимо приведенной формулы для rpbis, можно использовать другие, дающие близкие значения:
где (rpbis)j – точечно-бисериальный коэффициент корреляции для j-го задания; (X̅1)j — среднее значение индивидуальных баллов студентов, выполнивших верно j-е задание; (X̅0)j — среднее значение индивидуальных баллов учеников, выполнивших j-е задание неверно; X̅ — среднее значение баллов по всей выборке студентов; Sx — стандартное отклонение по множеству индивидуальных баллов.
По мнению многих специалистов (Крокер, Алгина, Клайна и др. ), в качестве критического числа следует выбрать значение 0,2, потому все задания со значением rpbis < 0,2 необходимо удалить из теста.
Интересна взаимосвязь показателей трудности и дискриминативности заданий теста. Задания с высокой дискриминативностью обычно имеют среднюю трудность, поскольку именно для них характерен высокий дифференцирующий эффект. Однако обратное заключение, вообще говоря, неверно. Задания с p =̣ 0,5 могут иметь как высокий, так и низкий дифференцирующий эффект.
При подсчете статистик по тесту всегда проводится проверка значимости значений дисперсии, асимметрии, эксцесса и т.д. Для этого к данным, собранным по тесту, необходимо добавить информацию о принимаемом уровне риска допустить ошибку в статистическом выводе. Наиболее приемлемым для педагогических измерений является уровень в 5%, который допускает ошибку в пяти случаях из ста. После выбора степени риска проверка значимости проводится одним из описанных в литературе методов.
При конструировании теста необходимо иметь четкое представление о содержании заданий, которые предполагается включить в окончательную версию теста. При одномерных измерениях содержание заданий должно отвечать свойству гомогенности, указывающему на степень его однородности с точки зрения оцениваемого параметра подготовленности ученика. Таким образом, гомогенность (однородность) – это характеристика задания, отражающая степень соответствия его содержания измеряемому свойству ученика.
Степень гомогенности содержания обычно оценивают с помощью факторного анализа. Для вывода о приемлемой степени гомогенности достаточно лишь того, чтобы доминирующий фактор, в основном определяющий результаты выполнения задания, был ориентирован на измеряемую переменную. Представление о степени гомогенности задания как составляющей системы заданий в тесте можно получить с помощью анализа парных корреляций (см. выше в данном разделе). Если какое-либо задание отрицательно коррелирует с остальными, то есть веские основания для сомнений в его гомогенности. Наоборот, значимые, высокие оценки корреляции указывают на высокую степень однородности содержания заданий теста. При увеличении интеркорреляции заданий сужается содержательная область, отраженная в тесте, что желательно в тематических, но недопустимо в итоговых тестах для оценки уровня подготовки по предмету. Поэтому при создании итоговых нормативно-ориентированных тестов стараются отобрать задания с положительными, но невысокими значениями коэффициентов парной корреляции в пределах интервала (0; 0,3).