Эта заметка - о так называемом тестировании. В сознании людей сегодня проблема тестирования переплелась с проблемой единого экзамена. С самого же начала ясно скажем, что это - разные проблемы. Некоторые считают, что единый экзамен провести иначе, чем посредством тестирования, невозможно, а остальные просто не задают себе соответствующего вопроса. Так вот, провести единый экзамен без тестирования можно. Но решить вопрос, нужен ли единый экзамен (предположим, что нам имеет смысл решать этот вопрос - хотя бы для того, чтобы иметь свое мнение и этим походить на людей), можно только оценив эффективность экзамена, а она зависит от метода. В частности, может оказаться, что при каких-то методах его проведения единый экзамен хорош, а при каких-то других - плох, да настолько, что не нужен вообще. Поэтому вопрос о методе проведения экзамена является первоочередным. Определить эфективность экзамена прямыми методами (по последующей учебной и рабочей биографии) трудно, поэтому возникает соблазн заменить этот анализ пустыми разговорами, общественной активностью и политической - то есть административной - волей.
В обыденном словоупотреблении тестирование - это решение испытуемым большого количества относительно простых задач, причем испытуемому предъявляется несколько вариантов ответов, из которых он должен выбрать правильный. Время испытания ограничено, но оно ограничено на любом экзамене. Поэтому главные признаки тестирования - это простота задач и наличие вариантов ответов. Попробуем понять, что именно проверяет, а что не проверяет такой экзамен.
Собственно обучение - по крайней мере, в естественных и точных науках - это приведение ученика в такое состояние, когда он может решать задачи, которые - по мнению учителя - могут возникнуть перед ним в дальнейшей жизни (в том числе и при дальнейшем обучении). Для решения задач человек должен знать факты, приемы решения, уметь выбрать прием и применить его. Возможно, что существует еще "нечто" (интуиция, вдохновение, озарение, прозрение, творческий экстаз, апперцептивное восприятие, единое информационное поле, эктоплазма и т.д.), но авторы, как преподаватели информатики и физики, полагают, что если не начинать сразу разговоры о душе и духе, то есть шансы разобраться в действительном устройстве мира и выяснить, что "нечто" сводится к фактам, приемам и их выбору, и еще - уровню адреналина в крови.
Действительно, мы знаем, что никакой эктоплазмы в компьютере нет. Представьте себе Гермеса Трисмегиста перед этим компьютером - скорее всего, он как раз и заговорит о "нечто". Возможно, что перед человеческим мозгом мы выглядим сегодня так, как великий Трисмегист - перед компьютером. Утешьтесь тем, что сегодня люди знают, как работает компьютер, а Г.Т. был для своего времени умнейший человек. В историю человечества вошел...
Так вот, хорошо построенные тесты проверяют знание фактов и умение применить один прием, причем распространенный. Редко применяемый, малоизвестный, экзотический прием в тест включить трудно - задача не будет простой. Тест проверяет умение применить прием, но слабо проверяет умение выбрать прием - выбор приема требует времени, тем большего, чем выбор менее очевиден. Наконец, тест почти не способен проверить умение применить несколько приемов - по той же причине. При этом тест проверяет умение выбрать прием из списка, причем малого (в действительно хорошем тесте каждый неправильный вариант ответа является результатом применения неправильного приема), в жизни же списков обычно не предъявляют. Есть, конечно, несколько исключений, и для этих ситуаций тесты эффективны. Это ситуации, когда все варианты выбора известны: ставить запятую или нет? ехать или пропустить? шасси или элероны?
Вдобавок довольно трудно написать тест так, чтобы все неправильные варианты выглядели одинаково. Довольно часто испытуемый "чует носом", что этот вариант или эти два варианта - явное не то. Следствие понятно: гадание из двух уже дает результат вдвое выше случайного (при четырех вариантах). Разумеется, у тестов есть своя сильная сторона - они позволяют проверить за относительно малое время знание многих фактов и многих приемов. Некоторые возражения против применения тестов некорректны. Например, утверждается, что нельзя построить тест, в один проход дающий хорошее разрешение во всем диапазоне, то есть отличающе знание на 5 от на 5+ и на 2 от на 2-. Но такой тест построить можно.
Однако самое важное не в этом. Многие из нас слышали, что существуют сложные задачи, а некоторые даже такие задачи видели. Сводится ли сложная задача к последовательному решению простых задач? Некоторые сторонники тестов отвечают, что да, сводится. И умение быстро решать простые задачи эквивалентно умению решать сложные - соответственно, за большее время. Но в Физико-математической школе при МИЭМе экспериментально показано, что это не так. В течение ряда лет мы принимаем экзамены следующим экзотическим способом. Школьники сдают два экзамена, оба - письменная математика, но один - тест: 60 задач на один час, другой - обычный: шесть задач на три часа. Так вот, корелляция между результатами довольно слаба. Можно лишь сказать, что тот, кто показал очень плохой результат на одном экзамене, не покажет очень хороший на другом.
Попробуем понять, чем это может объясняться. Первая (простейшая) причина - интеллектуальная выносливость. Одно дело - решать задачу минуту, другое - час. А сохранять интеллектуальную активность три часа? В древности олимпиады по математике в МГУ длились пять часов, и уйти раньше было стыдно. Но это сфера психологии, а что можно сказать в рамках собственно методологии интеллектуальной деятельности? Сложная задача - это не последовательность простых шагов, это дерево решения. Если в каждой точке можно применить пять приемов, то через пять шагов мы имеем за три тысячи вариантов. Причем внешне не очень успешный шаг может привести к успеху позже. Да ведь вы это знаете и без "Первого сентября"! Это же просто шахматы...
Умение быстро решать простые задачи также не означает умения решать сложные, как умение быстро выбрать лучший ход не означает умения выиграть партию. "Силовая атака", тупой перебор дела не спасает, иначе шахматные программы давно бы выигрывали у чемпионов мира. В компьютерных шахматных программах ключевое место - так называемая "оценка позиции", и название это не случайно: человек каким-то образом оценивает ситуацию в целом. Нечто похожее имеется и при решении задач. Человек смотрит на выражение и ворчит - не, не красиво... бред какой-то получается... или наоброт - во, так-то оно лучше, смотрите, как элегантно, тут квадрат, и тут квадрат, а ну-ка... Возможно, что именно это - умение оценить перспективность пути решения не проходя по всему этому пути - и есть то, что отличает человека, успешно решающего сложные задачи, от неумеющего их решать. Причем навык оценки позиции возникает только при решении большого количества сложных задач.
Кроме того, с помощью сложных задач может быть проверена одна весьма важная для жизни вещь - способность к обучению и навык обучения. Задача может быть построена (явно или неявно для ученика) так, что для ее решения необходимо наличие этой способности (навыка). Разумеется, такое делается редко, но с тестами это сделать вообще вряд ли возможно, причем по принципиальной причине: тест не осуществляет обратной связи, испытуемый не должен знать, правильно ли он решил задачу. В рамках сложной задачи обратная связь не только возможна, а неминуема: по дереву решения без обратной связи (оценки позиции) не пройти.
Поскольку тесты, как указано выше, имеют свои преимущества, возникает вопрос - нельзя ли совместить плюсы одного метода с плюсами другого. Отчасти можно, и по крайней мере двумя методами. Первый метод - найти некоторый промежуточный вариант, из средних по объему задач. Второй метод, который применили мы и независимо от нас применяют во многих тестах в Америке: "тест" содержит как типичные тестовые задачи, так и "большие" задачи. Возможно, что при создании системы тестов имело бы смысл изучить опыт педагогических систем, давно применяющих тестирование.
При ознакомлении с заданиями ЕГЭ возникает ощущение, что составители понимали ограничения, свойственные разным типам задач и пытались включить в задания как одноходовки с выбором ответа из списка (в России такие задачи называют тестами), так и творческие задачи. Задачи того и другого типа составляют в заданиях ЕГЭ отдельные блоки, а суммарная оценка зависит от результатов по каждому блоку. Но внесение в итоговый документ оценок по каждому блоку позволило бы потребителю оценок (например, вузу) устанавливать более сложные и содержательные критерии пригодности. Логика использования таких двумерных оценок совершенно очевидна и мы не будем на ней останавливаться.
Данные о результатах ЕГЭ-2003 по всем предметам, причем не только отдельно по частям А+В и по части С ("творческие задачи"), но и по корреляции этих результатов, приведены в издании "Новости образования" ## 17-18 за 2003 год. Воспользуемся этими данными, чтобы ответить на вопрос - задания частей С по каким именно предметам ЕГЭ являются более и менее творческими по сравнению с частью А+В.
Критерием творческого характера задания части С будем считать слабую корреляцию результата с результатом по частью А+В. Действительно, если результат по части С определяется результатом по части А+В, значит, ничего нового часть С в данном предмете от экзаменующегося не требует. Если же в данном предмете часть С предъявляет какие-то принципиально иные требования, связь результатов будет слабее. В названном выше издании результаты экзаменов приведены в форме изоуровней плотности распределения оценок в координатах (балл за А+В) - (балл за С). То есть для каждого сочетания оценок "А+В" и "С" указано, сколько экзаменующихся получили именно это сочетание. Соответствующие изолинии должны в общем случае иметь вид эллипсов. По мере усиления корреляции эллипсы должны делаться более узкими, а при полной корреляции вырождаться в прямые линии - каждой оценке за "А+В" соответствует одна оценка за "С", отклонений нет. По мере ослабления корреляции эллипсы делаются относительно шире, а при ее отсутствии превращаются в окружности - изменение одной оценки не отражается на среднем значении другой.
Если посмотреть на опубликованные данные, то видно, что по отношению осей эллипсов предметы распадаются на две группы. Для русского языка, обществознания, математики и физики это отношение лежит в пределах от 2 до 3, а для географии, истории России, биологии и химии - в пределах от 4 до 5. Это означает, что для первых четырех предметов степень "творческости" в задачах блока С по отношению к А+В больше, чем для остальных предметов. Если выражаться более осторожно, то можно сказать, что для первых четырех предметов блок С в ЕГЭ в большей степени проверяет нечто иное, нежели блок А+В.
Деление задач на "творческие" и "нетворческие" является экстремально примитивным. Можно, наверное, увидеть много параметров задач и выделить несколько "систем параметров", составленных из независимых параметров каждая. Собственно, это будет параметризация - один из основных шагов при научном подходе к феномену. Создание системы параметров плавно перетекает в создание модели явления. Если видеть задачу как "дерево" ходов (подобие шахматной партии), то есть преобразований исходных данных, то умение добраться до ответа будет зависеть от скорости элементарных ходов (преобразований), умения выбрать оптимальные путь по дереву и от морального фактора - усидчивости, которая отчасти компенсирует меньшие скорость и умение. В рамках такого понимания идеальной была бы ситуация, когда мы по любому предмету умеем составлять задачи, зондирующие каждое из этих трех свойств экзаменующегося или их заданное сочетание.
| © Интернет против Телеэкрана, 2002-2004 Перепечатка материалов приветствуется со ссылкой на contr-tv.ru E-mail: |