Wissenschaftliches Denken und das Rasch Modell

  • Theorie

  • Review

  • Simulationen

  • Diskussion

Wissenschaftliches Denken

  • Theorie
    • Wissenschaftliches Denken
    • Das Rasch Modell
  • Review

  • Simulationen

  • Diskussion

Wissenschaftliches Denken

  • Prozesse fĂĽr intentionale Wissenssuche und die Koordination von Theorie und Evidenz (Mayer et al., 2014).

  • Naturwissenschaftliche Fragen formulieren, Hypothesen generieren, Untersuchungen planen, Daten analysieren/Schlussfolgerungen ziehen (Mayer, 2007).

Wissenschaftliches Denken

  • Langfristiges Interesse an Entwicklung, Erlernen, Erhebung.

Wissenschaftliches Denken

  • Langfristiges Interesse an Entwicklung, Erlernen, Erhebung.
  • Variablenkontrolle (Piaget & Inhelder, 1958)
  • Theorie-Evidenz Koordination; beyond CVS (Sodian, Zaitchick, & Carey, 1991; Kuhn, Ramsey, & Arvidsson, 2015; Kuhn, 2007; Kuhn et al., 2008; Kuhn & Pease, 2008)
  • Reviews (Zimmerman, 2000, 2007)

Wissenschaftliches Denken

  • Langfristiges Interesse an Entwicklung, Erlernen, Erhebung.
  • Training: Review (Ross, 1988)
  • Training: Transfer (Chen & Klahr, 1999)
  • Training: Umfassend (Kuhn, Ramsey, & Arvidsson, 2015)

Wissenschaftliches Denken

  • Langfristiges Interesse an Lernen, Entwicklung, Erhebung.
  • Seit 75 Jahren (Blair, 1940)
  • Zwei Wellen der Testentwicklung (Opitz, Fischer, & Heene, submitted)
    • Welle I: 1970-1990.
    • Welle II: Seit 2000ern. Folgend PISA etc. Rasch Anwendung.

Das Rasch Modell

  • Theorie
    • Wissenschaftliches Denken
    • Das Rasch Modell
  • Review

  • Simulationen

  • Diskussion

Das Rasch Modell

  • Item Response Theorie
    • Wie beantworten Personen Fragen?
  • Mathematische/statistische Modellierung
  • Wahrscheinlichkeit von Antworten vorhergesagt durch Eigenschaften von Personen und Aufgaben

Das Rasch Modell

\(p(x_{pi})=\frac{exp(x_{pi}(\theta_p-\sigma_i))}{{1+exp(\theta_p-\sigma_i)}}\)

Personenfähigkeit \(\theta_p\), Aufgabenschwierigkeit \(\sigma_i\)

Das Rasch Modell

\(p(x_{pi})=\frac{exp(x_{pi}(\theta_p-\sigma_i))}{{1+exp(\theta_p-\sigma_i)}}\)

Personenfähigkeit \(\theta_p\), Aufgabenschwierigkeit \(\sigma_i\)

  • Klassische Testtheorie: Axiomatisch
  • Probabilistische Testtheorie: Parametrisiert

Das Rasch Modell

\(p(x_{pi})=\frac{exp(x_{pi}(\theta_p-\sigma_i))}{{1+exp(\theta_p-\sigma_i)}}\)

Personenfähigkeit \(\theta_p\), Aufgabenschwierigkeit \(\sigma_i\)

  • Suffiziente Statistiken
    • Alle Information ist im Summenscore.
  • Spezifische Objektivität
    • Die gleiche Information ĂĽber Stichproben beliebiger Personen oder Aufgaben.
  • Invariante Messung
    • Linking verschiedener Tests/Testteile in large-scale- und Längsschnittdesigns.

Das Rasch Modell

\(p(x_{pi})=\frac{exp(x_{pi}(\theta_p-\sigma_i))}{{1+exp(\theta_p-\sigma_i)}}\)

Personenfähigkeit \(\theta_p\), Aufgabenschwierigkeit \(\sigma_i\)

  • Eindimensionalität
    • Eine kohärente psychologische Eigenschaft
  • Lokale (stochastsche) Unabhängigkeit
    • Keine zusätzlichen systematischen EinflĂĽsse auf Antworten
  • Homogene Aufgaben-Trennschärfen

Das Rasch Modell

Starkes Modell, starke Annahmen.

  • Verschiedene Schulen der Rasch Modellierung.
    • Rasch Schule
    • IRT Schule
  • Praktiken in der Anwendung des Rasch Modells.
  • Praktiken in der Interpretation des Rasch Modells.

Anwendung

  • Theorie

  • Review
    • Anwendung
    • Interpretation
  • Simulationen

  • Diskussion

Anwendung

  • Review: Opitz, Fischer, & Heene (eingereicht): 7 Quellen
  • Referenz Infit Kriterium Reliabilität lrt irem mat Software
    Mayer at al. (2014) x - EAP/PV - - - ConQuest
    Koerber et al. (2014) x 0.85-1.15 (-) EAP/PV - x x ConQuest
    Hartmann et al. (2015) x - EAP/PV - x x ConQuest
    Nowak et al. (2013) x 0.8-1.2 (Adams, 2002) EAP/PV x x x ConQuest
    Grube (2010) x 0.8-1.2 (Adams, 2000) EAP/PV x x x ConQuest
    Heene (2007) x 0.8-1.2 (Wright, 2000) PSR/ISR - x - ConQuest, WS, FC, WM
    Brown et al. (2010) x - PSR - - - ConQuest

Itemfit

  • Basierend auf Residuen individueller Antworten
    \[ \begin{align} R_{pi} &= X_{pi} - E_{pi}\\ \end{align} \]
  • \[ \begin{equation} INFIT_i = \frac{\sum^n_{p=1}R^2_{pi}}{\sum^n_{p=1}VAR(X_{pi})} \end{equation} \]
  • Grad der Abweichung von Item-Scores gegeben Rasch Modell

Itemfit

  • Rasch Schule
  • Stark empfohlen (Wu, Wilson, Wang, Boone,…)
    • Hinweise auf Testprobleme.
    • Zentrales Kriterium fĂĽr Fit der Daten.
    • Aufgabenentfernung könnte Konstruktvalidität verringern.
  • Item infit statistiken sind generell eine passende Art das Rasch Modell zu ĂĽberprĂĽfen.

Itemfit

  • IRT Schule
  • Stark kritisiert (Christensen & Kreiner, 2013; Heene et al., 2014; Smith, 1995; Smith, 1996; Smith et al., 1998)
    • Underpowered.
    • Sollten nur angewandt werden nach ĂśberprĂĽfung von globalem modell Fit.
    • Aufgabenentfernung könnte Konstruktvalidität verringern.
  • Item infit statistiken sind generell keine passende Art das Rasch Modell zu ĂĽberprĂĽfen.

Inhomogenität

  • Theorie

  • Review

  • Simulationen
    • Inhomogenität
    • Mehrdimensionalität
  • Diskussion

Inhomogenität

  • Dichotome daten

Inhomogenität

  • ungleiche Aufgaben Trennschärfen
  • \(d_i \sim \text{lognormal}(0, \sigma)\)
  • \(\sigma\) .1, .3, .5

Inhomogenität

Inhomogenität

  • Ergebnis:
    • Anmerkung: Wir haben nicht das Rasch-Modell ĂĽberprĂĽft
    • Wir nahmen an dass das Rasch Modell hält und entfernten einige Aufgaben
    • Es ist nicht gesagt dass das Rasch Modell nun hält
    • Fakt ist, es tut dies nicht!

Mehrdimensionalität

  • Theorie

  • Review

  • Simulationen
    • Inhomogenität
    • Mehrdimensionalität
  • Diskussion

Mehrdimensionalität

  • Typisches theoretisches Modell
    • 3-5 korrelierte Faktoren des wissenschaftlichen Denkens
    • Simulierte Faktorenstruktur:
    • \(\left( \begin{array}{ccc} 1.0 & 0.6 & 0.5 & 0.4\\ 0.6 & 1.0 & 0.7 & 0.4\\ 0.5 & 0.7 & 1.0 & 0.3\\ 0.4 & 0.4 & 0.3 & 1.0 \end{array} \right)\)
    • Wie reagieren Infit Statistiken auf Daten aus diesem Modell?

Mehrdimensionalität

Mehrdimensionalität

  • Ergebnis:
    • komplette Verfehlung der ModellĂĽberprĂĽfung
    • Wenige Aufgaben "mĂĽssen entfernt werden"
    • Eindimensional: Geringe Reliabilität, ähnlich reviewte Artikel (etwa .5 - .6)
  • Simulierte Ergebnisse ähnlich Artikel.

Interpretation

  • Theorie

  • Review
    • Anwendung
    • Interpretation
  • Simulationen

  • Diskussion

Interpretation

  • Theorie

  • Review
    • Anwendung
    • Interpretation
  • Simulationen

  • Diskussion

Interpretation

Referenz Theoretische Modelle Gefittete Modelle Bester fit Reliabilität Itemfit
Mayer at al. (2014) 4D 1D na 1D 1D
Koerber et al. (2014) 1D, 5D 1D na 1D 1D
Hartmann et al. (2015) 1D 1D na 1D 1D
Nowak et al. (2013) 1D, 3D 1D, 3D 3D 1D 1D
Grube (2010) 4D 1D, 4D 4D 1D 1D
Heene (2007) 1D 1D na 1D 1D
Brown et al. (2010) 1D 1D na 1D 1D

Interpretation

  • Konklusionen in Artikeln:
    • "Skala misst eindimensionales Konstrukt", "Support fĂĽr das eindimensionale theoretische Modell", "good model data fit"

Schulen

  • Theorie

  • Review

  • Simulationen

  • Diskussion
    • Schulen
    • Ausblick

Schulen

  • Theoretische Modelle, Modellfit ĂśberprĂĽfung, Schlussfolgerungen: Inkonsistent? Fehlend? Tautologisch? Reduktionistisch?

Schulen

  • Zwei traditionelle Perspektiven auf Rasch: NĂĽtzlichkeit vs. Hypothesentestung (cf. Linacre, 2010).
    • Rasch macht eine Messung aus psychologischen Daten
    • vs
    • Rasch ĂĽberprĂĽft ob eine Messung stattfindet
  • Person Item Map vs. seitenweise Hypothesentests (Linacre, 2010)
  • Forscher wenden Praktiken der NĂĽtzlichkeits-Schule an. Potentielle GrĂĽnde?
    • Imitation bekannter Grossprojekte
    • Einschränkende Software (e.g., ConQuest)
    • Eingeschränktes Wissen ĂĽber verschiedene Zugänge

Schulen

Die IRT Schule (Andrich, 2004; Engelhard, 2013; Linacre, 2010).

  • Messmodelle ĂĽberprĂĽfen Messung.
  • Rasch ist eines unter vielen IRT Modellen.
  • Rasch ist nicht ideal type.
  • Modell muss Daten fitten.

Schulen

Die Rasch Schule (Andrich, 2004; Engelhard, 2013; Linacre, 2010).

  • NĂĽtzlichkeit.
  • Rasch ist Messung.
  • Rasch ist naturwissenschaftliche Messung.
  • Rasch ist ideal type.
  • Rasch ist nicht IRT.
  • Rasch ist fundamental measurement.
  • Rasch ist ein Instrument zur Erstellung von Intervallskalen.
  • Daten mĂĽssen Modell fitten.
  • Unterschiedliche Auffassungen, inkompatible Paradigmen (Andrich, 2004).

Schulen

Educational Testing vs. Psychological Theorizing.

  • Educational Testing: Rasch perspektive (utility).
    • Formatives Messmodell (Index).
    • Rasch als Skalierungsinstrument.
    • Erhebung von Kompetenzen.
    • ErwĂĽnschte Gewichtung von Teilkompetenzen. Modellfit nachrangig?
  • Psychological Theorizing: IRT perspektive (hypothesis testing).
    • Reflektives Messmodell (Trait).
    • Rasch als substantielles Modell.
    • Erhebung von Personeneigenschaften.
    • Empirische Gewichtung von Items. Modellfit vordergrĂĽndig?

Schulen

Educational Testing for Psychological Theorizing: Auswirkungen.

  • Informationsverlust.
    • Differentielle Validität.
    • Unterschätzte Reliabilität.
    • Angebliche Modellpassung.
    • Fehlerhafte Schlussfolgerunen (Zeit, Gruppen).
    • Ein- vs. Mehrdimensionalität.
  • Ergebnisse.
    • Ă„hnlich KTT (Fan, 1998; Moghadamzadeh et al., 2011).
    • WillkĂĽrliche Datenimputation (Alternativen: FIML, MI; Enders, 2010; van Buuren, 2012).
    • Einzigartige Kalibierung: In Frage gestellt (Goldstein, 1979; Robitzsch, 2015).

Ausblick

  • Theorie

  • Review

  • Simulationen

  • Diskussion
    • Schulen
    • Ausblick

Ausblick

Exkurs: Mehrdimensionalität.

  • Essentielle Eindimensionalität (Hattie et al., 1996; Nandakumar, 1991; Strout, 1990).
    • Grundlage: Eindimensionalität!
  • Vermeidung von Theorieablehnung (Heene, 2011).
  • Theorie schlägt Daten und Tests (cf. Fiedler, 2015).

Ausblick

  • Anerkennung und AusfĂĽhrung der Perspektive der Hypothesentestung
    • Andersen test (Personenhomogenität; Andersen, 1973)
    • Martin Löf test (Aufgabenhomogenität; Kreiner & Christensen, 2002)
    • Recursive Partitioning (Rasch Trees; Strobl et al., 2013)
    • M2 statistic (Maydeu-Olivares, 2013)
    • nonparametrische Statistiken (t1, t10; Koller et al., 2015)
    • posterior predictive checking (Bayesianisch; Fox, 2010; Sinharay, Johnson, & Stern, 2006)
    • SEM-ähnliche Statistiken (RMSEA, CFI, SRMR; Maydeu-Olivares, 2014)

Rasch needs to be battle-tested.

Use R.

Ausblick

  • Match des theoretischen und statistischen Modells
    • IRT: Multidimensionales Rasch Modell, 2PL, Mischverteilungsmodelle (Fischer & Molenaar, 1995)
    • Nonparametrische IRT: Mokken Skalierung (van der Graaf et al., 2015)
    • Angewandte IRT: cognitive diagnosis models (de la Torre & Minchen, 2014)

Ausblick

  • Anerkennen und BerĂĽckichtigung von Komplexität
    • Netzwerkmodelle (Schmittman et al., 2013)
    • Längsschnittliche und experimentelle Designs

Ausblick

Theoretische Foschung.

  • Aufarbeitung der Rasch-Schulen.
    • Empirische ĂśberprĂĽfung?
    • Auswirkungen auf Modelltestung?
    • Amerikanische Schule (IRT/2PL)?
    • Europäische Schule (Rasch)?
    • Wiener Schule (Hypothesentestung)?
  • TheorieĂĽbertragung auf Kompetenzmessung.
    • Eindimensionalität?
    • Modellfit?
    • Reliabilität?
  • Erarbeitung Modellierungsframeworks.
    • Wann Rasch, wann IRT?
    • Theoretische, statistische Konsequenzen?

Referenzen

Andersen, E. B. (1973). A goodness of fit test for the Rasch model. Psychometrika, 38(1), 123–140.

Andrich, D. (2004). Controversy and the Rasch model.

Blair, G. M. (1940). The validity of the Noll test of scientific thinking. Journal of Educational Psychology, 31(1), 53.

Brown, N. J. S., Nagashima, S. O., Fu, A., Timms, M., & Wilson, M. (2010). A Framework for Analyzing Scientific Reasoning in Assessments. Educational Assessment, 15(3-4), 142–174. http://doi.org/10.1080/10627197.2010.530562

Chen, Z., & Klahr, D. (1999). All other things being equal: Acquisition and transfer of the control of variables strategy. Child Development, 70(5), 1098–1120.

Christensen, K. B., Kreiner, S., & Mesbah, M. (2013). Itemfit Statistics.

Referenzen

Cullen, L. T. (2012). Rasch models: foundations, recent developments, and applications. [S.l.]: Springer.

De la Torre, J., & Minchen, N. (2014). Cognitively Diagnostic Assessments and the Cognitive Diagnosis Model Framework. Psicología Educativa, 20(2), 89–97. http://doi.org/10.1016/j.pse.2014.11.001

Enders, C. K. (2010). Applied missing data analysis. New York: Guilford Press.

Fan, X. (1998). Item response theory and classical test theory: An empirical comparison of their item/person statistics. Educational and Psychological Measurement, 58, 357-381.

Fox, J.-P. (2010). Bayesian Item Response Modeling. New York, NY: Springer New York.

Referenzen

Grube, C. (2010). Kompetenzen naturwissenschaflticher Erkenntnisgewinnung. Unveröffentlichte Dissertation an der Universität Kassel.

Hartmann, S., Upmeier zu Belzen, A., Krüger, D., & Pant, H. A. (2015). Scientific Reasoning in Higher Education: Constructing and Evaluating the Criterion-Related Validity of an Assessment of Preservice Science Teachers’ Competencies. Zeitschrift Für Psychologie, 223(1), 47–53. http://doi.org/10.1027/2151-2604/a000199

Hattie, J., Krakowski, K., Rogers, H. J., & Swaminathan, H. (1996). An assessment of Stout’s index of essential unidimensionality. Applied Psychological Measurement, 20(1), 1–14.

Heene, M. (2007). Konstruktion and Evaluation eines Studierendenauswahlverfahrens für Psychologie an der Universität Heidelberg. Unveröffentlichte Dissertation and er Universität Heidelberg.

Referenzen

Heene, M., (2011). An old problem with a new solution.

Heene, M., Bollmann, S., & Bühner, M. (2014). Much ado About Nothing, or Much to do About Something?: Effects of Scale Shortening on Criterion Validity and Mean Differences. Journal of Individual Differences, 35(4), 245–249. http://doi.org/10.1027/1614-0001/a000146

Koerber, S., Mayer, D., Osterhaus, C., Schwippert, K., & Sodian, B. (2014). The Development of Scientific Thinking in Elementary School: A Comprehensive Inventory. Child Development, n/a–n/a. http://doi.org/10.1111/cdev.12298

Koller, I., Maier, M. J., & Hatzinger, R. (2015). An Empirical Power Analysis of Quasi-Exact Tests for the Rasch Model: Measurement Invariance in Small Samples. Methodology: European Journal of Research Methods for the Behavioral and Social Sciences, 1(-1), 1–10. http://doi.org/10.1027/1614-2241/a000090

Referenzen

Kreiner, S., & Christensen, K. B. (2007). Validity and objectivity in health-related scales: analysis by graphical loglinear Rasch models. In Multivariate and mixture distribution Rasch models (pp. 329-346). Springer New York.

Kreiner, S., & Christensen, K. B. (2013). Analyses of model fit and robustness. a new look at the PISA scaling model underlying ranking of countries according to reading literacy. Psychometrika, 1–22.

Kuhn, D. (2007). Reasoning about multiple variables: Control of variables is not the only challenge. Science Education, 91(5), 710–726. http://doi.org/10.1002/sce.20214

Kuhn, D., Iordanou, K., Pease, M., & Wirkala, C. (2008). Beyond control of variables: What needs to develop to achieve skilled scientific thinking? Cognitive Development, 23(4), 435–451. http://doi.org/10.1016/j.cogdev.2008.09.006

Referenzen

Kuhn, D., & Pease, M. (2008). What Needs to Develop in the Development of Inquiry Skills? Cognition and Instruction, 26(4), 512–559. http://doi.org/10.1080/07370000802391745

Kuhn, D., Ramsey, S., & Arvidsson, T. S. (2015). Developing multivariable thinkers. Cognitive Development, 35, 92–110. http://doi.org/10.1016/j.cogdev.2014.11.003

Maydeu-Olivares, A. (2013). Goodness-of-Fit Assessment of Item Response Theory Models. Measurement: Interdisciplinary Research & Perspective, 11(3), 71–101. http://doi.org/10.1080/15366367.2013.831680

Maydeu-Olivares, A., & Joe, H. (2014). Assessing Approximate Fit in Categorical Data Analysis. Multivariate Behavioral Research, 49(4), 305–328. http://doi.org/10.1080/00273171.2014.911075

Referenzen

Mayer, D., Sodian, B., Koerber, S., & Schwippert, K. (2014). Scientific reasoning in elementary school children: Assessment and relations with cognitive abilities. Learning and Instruction, 29, 43–55. http://doi.org/10.1016/j.learninstruc.2013.07.005

Mayer, J. (2007). Erkenntnisgewinnung als wissenschaftliches Problemlösen. In Theorien in der biologiedidaktischen Forschung (pp. 177–186). Springer. Retrieved from http://link.springer.com/content/pdf/10.1007/978-3-540-68166-3_16.pdf

Moghadamzadeh, A., Salehi, K., & Khodaie, E. (2011). A comparison Method of Equating Classic and Item Response Theory (IRT): A Case of Iranian Study in the University Entrance Exam. Procedia - Social and Behavioral Sciences, 29, 1368–1372. http://doi.org/10.1016/j.sbspro.2011.11.375

Nandakumar, R. (1991). Traditional dimensionality versus essential dimensionality. Journal of Educational Measurement, 28(2), 99-117.

Referenzen

Nowak, K. H., Nehring, A., Tiemann, R., & Upmeier zu Belzen, A. (2013). Assessing students’ abilities in processes of scientific inquiry in biology using a paper-and-pencil test. Journal of Biological Education, 47(3), 182–188. http://doi.org/10.1080/00219266.2013.822747

Piaget, J., & Inhelder, B. (2013). The growth of logical thinking from childhood to adolescence: An essay on the construction of formal operational structures (Vol. 84). Routledge.

Ross, J. A. (1988). Controlling variables: A meta-analysis of training studies. Review of Educational Research, 58(4), 405–437.

Schmittmann, V. D., Cramer, A. O. J., Waldorp, L. J., Epskamp, S., Kievit, R. A., & Borsboom, D. (2013). Deconstructing the construct: A network perspective on psychological phenomena. New Ideas in Psychology, 31(1), 43–53. http://doi.org/10.1016/j.newideapsych.2011.02.007

Referenzen

Sinharay, S. (2006). Posterior Predictive Assessment of Item Response Theory Models. Applied Psychological Measurement, 30(4), 298–321. http://doi.org/10.1177/0146621605285517

Smith, R. M., & others. (1995). Using item mean squares to evaluate fit to the Rasch model. Retrieved from http://eric.ed.gov/?id=ED384617

Sodian, B., Zaitchik, D., & Carey, S. (1991). Young hcildren's differentiation of hypothetical beliefs from evidence. Child Development, 62, 753-766.

Strobl, C., Kopf, J., & Zeileis, A. (2013). Rasch trees: A new method for detecting differential item functioning in the Rasch model. Psychometrika, 1–28.

Strout, W. F. (1990). A new item response theory modeling approach with applications to unidimensionality assessment and ability estimation. Psychometrika, 55(2), 293–325.

Referenzen

Van Buuren, S. (2012). Flexible imputation of missing data. CRC press.

Van der Graaf, J., Segers, E., & Verhoeven, L. (2015). Scientific reasoning abilities in kindergarten: dynamic assessment of the control of variables strategy. Instructional Science, 43(3), 381–400. http://doi.org/10.1007/s11251-015-9344-y

Zimmerman, C. (2000). The Development of Scientific Reasoning Skills. Developmental Review, 20(1), 99–149. http://doi.org/10.1006/drev.1999.0497

Zimmerman, C. (2007). The development of scientific thinking skills in elementary and middle school. Developmental Review, 27(2), 172–223. http://doi.org/10.1016/j.dr.2006.12.001

Schulen

"a discrete quantitative difference need not be caused by a quantitative factor at all, let alone one that is a continuous quantity." (Michell, 2013)

  • Unsere Evidenz: Stage wise CVS

Schulen

Einfaches Modell mit versteckten TĂĽcken

  • Theoretische Basis mehrdeutig
    • Prozessmodell?
    • Instrument?