Paper- or Computer-Based Achievement Tests? A Generalizability Study on Mode Effects in Germany in the Context of TIMSS 2019,Papier- oder computerbasierte Kompetenztests? Eine Generalisierbarkeitsstudie zu Moduseffekten in Deutschland im Rahmen von TIMSS 2019
Die zunehmende Digitalisierung in Deutschland ist insbesondere in den Lernumwelten von Schüler:innen zu beobachten. So haben auch Schulvergleichsuntersuchungen zuletzt von papier- auf computerbasierte Tests umgestellt. In TIMSS 2019 wurde diese Umstellung durch eine Moduseffektstudie begleitet. Zwei Jahre vor der Haupterhebung nahmen 847 Viertklässler:innen an dieser Studie teil und bearbeiteten nach dem Zufallsprinzip entweder zuerst den papier- oder den computerbasierten Kompetenztest in Mathematik und den Naturwissenschaften. Wir gehen in diesem Beitrag der Frage nach, inwieweit der Lösungserfolg bei der Aufgabenbearbeitung vom Erhebungsmodus abhängt. Wir führen dazu erstens eine Generalisierbarkeitsstudie durch und bestimmen den Anteil der Varianz in den Schüler:innenantworten, der auf Moduseffekte zurückgeht. Zweitens wird untersucht, ob die Zusammenhänge zwischen schwierigkeitsgenerierenden Merkmalen der Testaufgaben und dem Lösungserfolg der Schüler:innen von Moduseffekten betroffen sind. Die Ergebnisse zeigen, dass die Erfassung der Schüler:innenkompetenzen in beiden Domänen mit kleinen Moduseffekten einhergeht. Der Lösungserfolg ist in den computerbasierten Leistungstests etwas niedriger (Mathematik: OR = 0.87, p = .006, Naturwissenschaften: OR = 0.86, p = .006). In Mathematik gilt dies besonders für Aufgaben in den Bereichen Daten und Problemlösen, für die Naturwissenschaften lässt sich keine entsprechende Aussage treffen. Die Bedeutsamkeit dieser Befunde für Schulvergleichsuntersuchungen und die unterrichtliche Praxis in Deutschland wird im Beitrag kritisch diskutiert.
The increasing digitization in Germany can be observed particularly in students’ learning environments. Large-scale assessments have also recently switched from paper-based to computer-based tests. In TIMSS 2019, this change was accompa- nied by a mode effect study 2 years before the main survey. In this study, 847 fourth-graders were randomly assigned to take either the paper-based or the computer-based achievement test in mathematics and science first. In this paper, we address the question to what extent student achievement depends on the sur- vey mode. We firstly conduct a generalizability study to assess the amount of vari- ance in item responses that is explained by mode effects. Secondly, we investigate how much the relations between difficulty-generating characteristics of the test items and student achievement differ by mode. The results show that the assess- ment of student achievement in both domains is affected by small mode effects. In the computer-based tests, student achievement is estimated to be slightly lower (mathematics: OR = 0.87, p = .006; science: OR = 0.86, p = .006). In mathematics, this holds true for items addressing data and problem-solving in particular. For science, we cannot make a similar claim. In the paper, the relevance of these find- ings for large-scale assessments and educational practice in Germany is critically discussed.