Fragebogendaten VR-Lav

Allgemeine Informationen

Die Erhebung fand in Muttenz vom 09. October 2024 bis zum 17. October 2024 statt. Teilgenommen haben 91 Personen.

Demographische Angaben

Die Stichprobe unteilt sich in rund zwei Drittel Menschen, die sich mit dem weiblichen Geschlecht identifizieren und einem Drittel mit dem männlichen Geschlecht. Eine Person bezeichnet sich als non-binär (vgl Figure 1). Etwas mehr als die Hälfte der Personen absolvierten eine gymnasiale oder Fachmatura, gegenüber knapp 40% mit einer Berufsmatura (vgl. Figure 2).

Figure 1: Geschlechtsidentität
Figure 2: Bildungsherkunft

Bei der Altersverteilung zeigt sich, dass die Teilnehmerinnen im Mittel (Mw= 21.79 ) ungefähr gleich alt sind, wie die männlichen Personen mit einem Durchschnittsalter von 21.91 Jahren (vgl. Figure 3).

(a) Die non-binäre Person wurde nicht aufgeführt, ist 21 Jahre alt.
Figure 3: Verteilung des Alters nach Geschlecht

SUS Skala

Der beobachtete, mittlere SUS-Wert in unserer Population beträgt 71,3. Dieser Wert liegt über dem allgemein anerkannten Durchschnitt von 68 und deutet darauf hin, dass das System von den Nutzern als überdurchschnittlich benutzerfreundlich wahrgenommen wird. Der folgende Plot (vgl. Figure 4) zeigt die Verteilung der SUS-Werte in unserer Population und verdeutlicht, wie dieser Wert im Verhältnis zu typischen Usability-Ergebnissen steht.

Figure 4: Verteilung der SUS-Werte

Wissenstest

Der Wissenstest bestand aus 13 Multiple-Choice Fragen.

Frage
Zeitpunkt 1
Zeitpunkt 2
Zeitpunkt 3
Mw SD Mw SD Mw SD
1 1.82 0.61 1.80 0.52 1.85 0.49
2 2.24 1.10 2.08 0.64 2.08 0.64
3 3.32 0.95 3.63 0.78 3.54 0.85
4 2.42 1.36 2.57 1.27 2.59 1.21
5 2.55 1.00 2.59 1.11 2.48 1.09
6 3.43 0.90 3.71 0.67 3.79 0.61
7 3.69 0.73 3.64 0.80 3.74 0.68
8 3.16 0.43 3.16 0.56 3.26 0.55
9 3.31 0.64 3.52 0.56 3.51 0.50
10 3.26 0.66 3.41 0.61 3.37 0.74
11 3.32 0.95 3.63 0.78 3.67 0.75
12 2.26 0.68 2.20 0.60 2.29 0.70
13 2.53 0.96 2.60 0.88 2.70 0.84

Angezeigt werden nur signifikante Korrelationsindices (p<.05).

Antworttendenz

Figure 5: Veränderung im Punktetotal des Wissenstests

Mittelwertunterschiede

Eine repeated measures Anova ergibt einen signifikanten Haupteffekt der Bedingung (VR vs. Labor, F(1, 89)=3.954, p=0.05, ηp² = 0.043) über alle Zeitpunkte. Wobei die Teilnehmenden, die mit der Laborbedingung begonnen einen signifikanten, aber geringen höheren Mittelwert (Mw=39, SD=3.795) aufweisen, als die VR-Bedingung (Mw=38.407, SD=4.039). Sowohl der Zeitpunkt (F(1, 89)=1.054, p=0.307), als auch die Interaktion (F(1, 89)=0.249, p=0.619)der beiden Effekte sind nicht signifikant (vgl. Figure 6).

Figure 6: Boxplot der Ergebnisse des Wissenstests nach Zeitpunkt und Bedingung

Antwortverhalten der Teilnehmenden

Es geht bei der Analyse des Antwortverhaltens von Teilnehmenden um die Identifikation von Werten, die nicht dem “wahren” Wert der Person entsprechen und als unzureichende Anstrengung beim Antworten (insufficient effort responding, IER) bezeichnet wird (Huang et al. 2012; Meade and Craig 2012). Dies kann aus unterschiedlichen Gründen auftreten, bspw. Müdigkeit, Missverständnis, falsche Interpretation der Frage oder Unaufmerksamkeit. Um die Güte der statistischen Methoden zu gewährleisten, können verschiedene Methoden angewandt werden, um solche Antworten, bzw. Datensätze zu identifizieren und ggf. aus der nachfolgenden Analyse auszuschliessen (Curran 2016). Der Auschluss von Daten einer Person, welche ein problematisches Verhalten an den Tag legt, aknn in einer verbesserten Aussagekraft der nachfolgenden Analysen münden (Huang et al. 2012).

Mahalanobis-Distanz

Die Mahalanobis-Distanz (D) basiert auf der Idee, dass die Antworten der Items einer Skala eine Distanz zum Mittelwert der Skala aufweisen. D berechnet die Abweichung von einem Vektor x (z.B. den Antworten einer Person) zum Mittelwert der Skala X und berücksichtigt dabei auch die Kovarianzmatrix der Items. Dies ist wichtig, da jedes Item unterschiedliche Varianzen aufweist und sich die Abweichungen daher in Abhängigkeit von der gemeinsamen Varianz der Items innerhalb der gleichen Skala unterscheiden können. Der Vergleich von D zu einer Normalverteilung kann Fälle identifizieren, die ausserhalb eines bestimmten Konfindenzintervalls liegen und daher als Ausreisser angesehen werden können. Für die folgende Analyse (Figure 7) wurde das 99%-Perzentil verwendet, welches extreme Ausreisser auszeichnet (Hair et al. 2019). Dabei werden nicht nur einzelene Items betrachtet, sondern die gemeinsame Distanz innerhalb einer Person zu der gesamten Skalenverteilung (Curran 2016). Die Analyse wird mit dem Careless Package durchgeführt (Yentes and Wilhelm, n.d.).

Bei den untersuchten Skalen wurde die Technologieakzeptanz zu t1 erhoben, alle anderen Skalen nach dem Durchlaufen der VR-Bedingung. Damit ein identifizierter Ausreisser zu einem allfälligen Auschluss führen könnte, müsste die Person wiederholt identifiziert werden. Dies ist nicht gegeben, da die Daten keiner Person in mehr als drei Skalen ausgewiesen wurden. Von 17 Ausreissern können 3 einer Person zugeordnet werden, 2 einer weiteren und die verbleibenden 12 Werte sind Einzelfälle.

Figure 7: Mahalanobis-Distanz im Vergleich zu einer Normalverteilung

Längste Folge identischer Antworten

Ein weiterer Ausdruck unaufmerksamen Verhaltens kann sich als lange Folge identischer Antworten ausdrücken. Im folgenden Plot (Figure 8) sind die längsten Ketten identischer Antworten für die drei zusammenhängend erfassten Messinstrumente aufgeführt. Um eine bessere Vergleichbarkeit zu erzielen, wurde die Anzahl aufeinanderfolgender identischer Antworten skaliert, wodurch der Maximalwert 1 bedeutet, dass 100% aller Antworten identisch sind. Desweiteren wurde die Analyse mit nicht umkodierten Items durchgeführt, um nur die Personen zu identifizieren, die sich “durchgeklickt” haben.

Die CAMIL-Batterie besteht aus fünf verschiedenen Konstrukten, diese wurden aber in randomisierter Reihenfolge gemeinsam abgefragt, weshalb sie auch hier zusammengefasst aufgeführt sind. Desweiteren wurde auch CAMIL und SUS noch gemeinsam geprüft, da diese beiden Skalen gemeinsam erhoben wurden und 25 Items als untere Grenze von Dunn (2018) angegeben wird. Es gibt keinen universell festgelegeten Cut-Off-Wert für die längste Folge. Curran (2016) empfiehlt alle Folgen, welche über die Hälfte der Items liegen, als supekt zu betrachten. Allerdings ist auch die Anzahl der Itmes entscheidend; die Technologieakzeptanz-Skala umfasst nur 4 Items und kann deshalb nur bedingt Auskunft über unaufmerksame Personen geben. Der CutOff-Wert für alle Skalen wurde, wie empfhlen, auf 0.5 festgelegt.

Figure 8: Längste Folge identischer Antworten

Inter-individuelle Antwortvariabilität

Die inter-individuelle Antwortvariabilität (intra-individual response variability, IRV) ist eine Erweiterung des Longstring Ansatzes und bezieht die Varianz in den fortlaufenden Antworten einer Person mit ein. Dies führt zu einer höheren Sensitivtät, da auch leichte Variationen im Antwortverhalten identifiziert werden können. Der IRV sollte über gemischte Skalen, einschliesslich umgekehrt codierter Items berechnet werden. Empfohlen werden mindestens 25 Items für die Analyse (Dunn et al. 2018). Aufgrund dieser Empfehlungen und der zeitlichen Abfolge der Abfrage der Items, wird die Technologieakzeptanzskala ausgeschlossen (zu kurz und zu Beginn der Untertsuchung durchgeführt) und die beiden verbleibenden (CAMIL und SUS) zusammengefasst. Damit erreichen wir 27 Items für die Analyse, welche aufeinanderfolgend nach Abschluss der VR Bedingung erhoben wurden. Der nachstehende Plot Figure 9 zeigt die Verteilung der Varianzen und die schwächsten 10% der errechneten Werte, welche zur anschliessenden Analyse herangezogen werden.

Figure 9: Inter-individuelle Antwortvariabilität

Zusammenfassende Auswertung

In der nachstehenden Tabelle (Table 1) sind die durch die einzelnen Verfahren identifizierten User-Codes aufgeführt. Die Sortierung erfolgt jeweils nach der Stärke der durch die Methode bestimmten Ausprägung. Curran (2016) empfiehlt die Anwendung verschiedener Methoden in einem sequenziellen Vorgehen, wobei er jedoch von deutlich größeren Stichproben und Skalen ausgeht.Eine manuelle Überprüfung der jeweils fünf höchsten Ausprägungen jeder Methode ergab, dass weder bei der Mahalanobis-Distanz noch bei der IRV-Methode Fälle identifiziert wurden, die aufgrund ihres Antwortverhaltens auszuschließen wären. Lediglich bei den drei Longstring-Fällen zeigt sich ein deutliches Muster in der SUS-Skala, was darauf hindeuten könnte, dass diese Teilnehmerinnen und Teilnehmer dieses Instrument – das auch den Abschluss des Fragebogens und des Kurses markierte – nicht mehr zuverlässig ausgefüllt haben. Es wäre daher zu erwägen, ob die Daten dieser drei Personen bei der Auswertung der SUS-Skala ausgeschlossen werden sollten.Abschließend lässt sich festhalten, dass mit den hier eingesetzten Methoden kein Fall identifiziert werden konnte, der ein verdächtiges oder die Daten verzerrendes Antwortmuster aufweist.

Mahalanobis
IRV
Longstring
User Code n User Code Wert User Code Wert
tzfiknqp 3 wqblnxcd 0.629 bgsonczq 12
mjzcxasl 2 wviaelcx 0.636 kdsnqjxe 9
dikntfzc 1 nxalpgsi 0.662 yagvbqis 8
gnlmaoyk 1 rafckknp 0.712

hagckjwd 1 fhyxptcm 0.724

junetcaz 1 afpgbtwu 0.724

kdmuvojw 1 bgsonczq 0.734

mlesctpv 1 yauklphz 0.751

ouslzwnp 1 xzmpntwl 0.751

psqkeaxw 1 bihydgfp 0.759

pyzdxwnr 1



rxoztmhs 1



supdcing 1



usgvjehb 1



Table 1: Inter-individuelle Antwortvariabilität

Pfadmodel (PLS)

Zur Schätzung der nachfolgenden Pfadmodelle, wurde ein aggregierter Datensatz der Teilnehmenden verwendet, in welchem alle Messungen zusammengefasst wurden. Dies ist nötig, da die Technologieakzeptanz zum ersten Zeitpunkt, die CAMIL-Items und der nachfolgende Wissenstest je nach Bedingung zum zweiten oder dritten Zeitpunkt erhoben wurden.

Das Model wird mit dem Partial Least Squares (PLS-SEM) Ansatz analysiert, da dieser im Gegensatz zu kovarianzbasierten SEM Modellen, kleinere Stichprobengrössen akzeptiert und keine Normlaverteilung der Daten voraussetzt (Hair, Sarstedt, and Ringle 2019). Bei der Anlayse und Einschätzung der Modellen folgen wir den Empfehlungen von Hair et al. (2021). Die Berechnungen werden hauptsächlich mit dem SEMinR Package durchgeführt (Ray, Danks, and Calero Valdez, n.d.)

Vollständiges, erstes Modell

Das erste geschätzte Modell begründet sich auf dem CAMIL-Model und der Hypothese, dass die Technologieakzeptanz einen Einfluss auf die erlebte Präsenz ausübt (vgl. Figure 10).

Figure 10: Angenommenes Model zum Lernen in VR und den Wirkmechanismen

Ein erstes Modell mit allen Indikatorvariablen konvergierte nach 15 Iterationen. Die Indikator-Reliabilität, welche sich in der Kommunalität der Items ausdrückt, fällt bei einem Grossteil der Items unter dem empfohlenen Cut-Off-Wert von 0.708 (Damit würden 50% der Varianz der Items durch das zugrundeliegende Konstrukt erklärt). Besonders auffällig sind dei Items MO_2 (0.032) und MO_5 (0.052), deren Varianz zu nicht mehr als 5% durch das zugrundeliegende Konstrukt erklärt werden kann (Table 2). Diese Feststellung schlägt sich dann auch in den internen Konsistenz-Ralibilitäten der Skalen nieder, wobei auch hier die Motivationsskala besonders auffällt (Figure 11). Die Werte für die konvergente Reliabilität ( vgl. AVE in Table 3) fallen für die Motivationsskale ebenfalls deutlich unter den empfohlenen Schwellwert (AVE < 0.5), während einzig die Präsenzskala diesen Wert übertrifft. Die HTMT-Werte für die diskriminante Validität liegen alle unter dem empfohlenen Schwellwert von 0.9 (vgl. Table 4) , einzig die beiden Skalen der kognitiven Belastung (CL_Ex und CL_Int) übertreffen bei weitem diesen Wert und weisen auf ein gemeinsames Konstrukt hin (Was auch durchaus der Fall ist).

Figure 11: Interne Konsisten-Reliabilität
Table 2: Quadrierte Faktorladungen
TA CL_Ex Mo Pre CL_Int Wis
0.378




0.471




0.681




0.415





0.256




0.696




0.759




0.235





0.304




0.032




0.650




0.721




0.052





0.420




0.359




0.621




0.726





0.469




0.698




0.222




0.471





1.000
Table 3: Reliabilitätskennwerte
alpha rhoC rhoA AVE
TA 0.650 0.789 0.693 0.486
Pre 0.700 0.816 0.729 0.531
CL_Ex 0.638 0.780 0.714 0.487
CL_Int 0.602 0.770 0.661 0.465
Mo 0.822 0.678 0.157 0.352
Wis 1.000 1.000 1.000 1.000
Table 4: Diskriminante Validität (HTMT)
TA Pre CL_Ex CL_Int Mo Wis






0.359




0.435 0.621



0.399 0.728 1.177


0.299 0.226 0.288 0.295

0.224 0.167 0.286 0.108 0.082

Angepasstes Messmodell

In einer zweiten Version, werden die beiden Items der Skala Motivation, welche durch die geringen, beinahe bei 0 liegenden Indikator-Reliabilitäten, aufgefallen sind.

In dieser angepassten Version, haben sich die Reliabilitäts-Werte der Skala Motivation eindeutig verbessert (Figure 12).

Figure 12: Interne Konsisten-Reliabilität

Nachfolgend die einzelnen Werte der Indikator-Reliabilität (Table 5), der internen Konsistenz-Reliabilität (Table 6) und der konvergenten Validität , sowie die diskriminante Validität (Table 7). Es zeigt sich weiterhin ein gemischtes Bild, allerdings sind die beobachteten Werte insbesondere der internen Konsistenz-Reliabilität und der konvergenten Validität sehr nahe an den Cut-Off-Werten und werden, je nach Instrument auch übertroffen (bspw. \(rho_c > 0.7\), \(rho_a [0.68:0.88]\) ).

Wir rechnen mit diesem Modell weiter.

Table 5: Quadrierte Faktorladungen des angepassten Modells
TA CL_Ex Mo Pre CL_Int Wis
0.377




0.473




0.679




0.416





0.258




0.695




0.758




0.237





0.471




0.708




0.821





0.410




0.377




0.612




0.719





0.465




0.699




0.225




0.472





1.000
Table 6: Reliabilitätskennwerte des angepassten Modells
alpha rhoC rhoA AVE
TA 0.650 0.789 0.692 0.486
Pre 0.700 0.816 0.724 0.530
CL_Ex 0.638 0.780 0.713 0.487
CL_Int 0.602 0.770 0.660 0.465
Mo 0.772 0.856 0.875 0.667
Wis 1.000 1.000 1.000 1.000
Table 7: Diskriminante Validität (HTMT, angepasstes Modell)
TA Pre CL_Ex CL_Int Mo Wis






0.359




0.435 0.621



0.399 0.728 1.177


0.248 0.233 0.259 0.298

0.224 0.167 0.286 0.108 0.082

Strukturmodell

Es konnten keine Kolinearitätsprobleme festgestellt werden (Alle VIF <5). Die Erklärungskraft des Modells kann durch die erklärte Varianz der Pfadkoeffizienten innerhalb der Stichprobe bewertet werden, ausgedrückt durch \(R^2\). Wie in Table 8 ersichtlich, sind alle Werte unterhalb der als schwach einzuschätzenden Schwellwertes angesiedelt (schwach >0.25).

Pre CL_Ex CL_Int Mo Wis
R^2 0.054 0.200 0.247 0.042 0.073
AdjR^2 0.043 0.191 0.239 0.031 0.041
Table 8: Erklärungskraft des Modells

Die Bewertung der prädiktiven Power eines Modells kann durch einen k-fold cross-validation Prozess bestimmt werden. Dabei wird der RMSEA mit einem linearen Regressionsmodell verglichen. Fallen alle oder ein Grossteil der Differenzen negativ aus, spricht dies für eine gute bis starle Vorhersagekraft des Modells für zukünftige Daten. Table 9 weist die Differenzen der Items zwischen dem RMSEA und dem LM aus und es zeigt sich, dass das Modell über eine mittlere prädiktive Stärke verfügt (Shmueli et al. (2019)).

Items Differenz RMSEA-LM
Pre_1 −0.167
Pre_2 −0.146
Pre_3 −0.050
Pre_4 −0.026
CL_Ex_1 −0.059
CL_Ex_2 −0.002
CL_Ex_3 0.011
CL_Ex_4 0.114
CL_Int_1 −0.076
CL_Int_2 −0.024
CL_Int_3 −0.036
CL_Int_4 0.013
Mo_1 −0.089
Mo_3 −0.184
Mo_4 −0.177
wissen_score −0.547
Table 9: Prädiktive Power des Modells

Der Modellvergleich mit einem Fokus auf das Kriterium Wissen zeigt, dass Modell 1 das bessere Modell ist…

   Model1    Model2 
0.6412504 0.3587496 

Ein drittes Modell, bei welchem nur die drei besten Items der Skala cognitive Load zusammengefasst wurden. Es schneidet im Modellvergleich oben noch schlechter ab, bei der Erklärung von Wissen, allerdings wären die Reliabilitätswerte toll…


Results from  package seminr (2.3.4)

Path Coefficients:
         Pre     CL    Mo    Wis
R^2    0.054  0.231 0.042  0.017
AdjR^2 0.043  0.223 0.031 -0.005
TA     0.232      .     .      .
Pre        . -0.481 0.205      .
CL         .      .     .  0.100
Mo         .      .     . -0.068

Reliability:
    alpha  rhoC   AVE  rhoA
TA  0.650 0.789 0.487 0.692
Pre 0.700 0.816 0.531 0.726
CL  0.809 0.887 0.723 0.813
Mo  0.772 0.855 0.666 0.879
Wis 1.000 1.000 1.000 1.000

Alpha, rhoC, and rhoA should exceed 0.7 while AVE should exceed 0.5

Bibliographie

Curran, Paul G. 2016. “Methods for the Detection of Carelessly Invalid Responses in Survey Data.” Journal of Experimental Social Psychology 66 (September): 4–19. https://doi.org/10.1016/j.jesp.2015.07.006.
Dunn, Alexandra M., Eric D. Heggestad, Linda R. Shanock, and Nels Theilgard. 2018. “Intra-Individual Response Variability as an Indicator of Insufficient Effort Responding: Comparison to Other Indicators and Relationships with Individual Differences.” Journal of Business and Psychology 33 (1): 105–21. https://doi.org/10.1007/s10869-016-9479-0.
Hair, Joseph F., William C. Black, Barry J. Babin, and Rolph E. Anderson. 2019. Multivariate data analysis. Eighth edition. Andover, Hampshire: Cengage.
Hair, Joseph F., G. Tomas M. Hult, Christian M. Ringle, Marko Sarstedt, Nicholas P. Danks, and Soumya Ray. 2021. Partial Least Squares Structural Equation Modeling (PLS-SEM) Using R: A Workbook. Classroom Companion: Business. Cham: Springer International Publishing. https://doi.org/10.1007/978-3-030-80519-7.
Hair, Joseph F., Marko Sarstedt, and Christian M. Ringle. 2019. “Rethinking Some of the Rethinking of Partial Least Squares.” European Journal of Marketing 53 (4): 566–84. https://doi.org/10.1108/EJM-10-2018-0665.
Huang, Jason L., Paul G. Curran, Jessica Keeney, Elizabeth M. Poposki, and Richard P. DeShon. 2012. “Detecting and Deterring Insufficient Effort Responding to Surveys.” Journal of Business and Psychology 27 (1): 99–114. https://doi.org/10.1007/s10869-011-9231-8.
Meade, Adam W., and S. Bartholomew Craig. 2012. “Identifying Careless Responses in Survey Data.” Psychological Methods 17 (3): 437–55. https://doi.org/10.1037/a0028085.
Ray, Soumya, Nicholas Patrick Danks, and André Calero Valdez. n.d. “Seminr: Building and Estimating Structural Equation Models.” https://doi.org/10.32614/CRAN.package.seminr.
Shmueli, Galit, Marko Sarstedt, Joseph F. Hair, Jun-Hwa Cheah, Hiram Ting, Santha Vaithilingam, and Christian M. Ringle. 2019. “Predictive Model Assessment in PLS-SEM: Guidelines for Using PLSpredict.” European Journal of Marketing 53 (11): 2322–47. https://doi.org/10.1108/EJM-02-2019-0189.
Yentes, Richard, and Francisco Wilhelm. n.d. “Careless: Procedures for Computing Indices of Careless Responding.” https://doi.org/10.32614/CRAN.package.careless.