Frage |
Zeitpunkt 1
|
Zeitpunkt 2
|
Zeitpunkt 3
|
|||
---|---|---|---|---|---|---|
Mw | SD | Mw | SD | Mw | SD | |
1 | 1.82 | 0.61 | 1.80 | 0.52 | 1.85 | 0.49 |
2 | 2.24 | 1.10 | 2.08 | 0.64 | 2.08 | 0.64 |
3 | 3.32 | 0.95 | 3.63 | 0.78 | 3.54 | 0.85 |
4 | 2.42 | 1.36 | 2.57 | 1.27 | 2.59 | 1.21 |
5 | 2.55 | 1.00 | 2.59 | 1.11 | 2.48 | 1.09 |
6 | 3.43 | 0.90 | 3.71 | 0.67 | 3.79 | 0.61 |
7 | 3.69 | 0.73 | 3.64 | 0.80 | 3.74 | 0.68 |
8 | 3.16 | 0.43 | 3.16 | 0.56 | 3.26 | 0.55 |
9 | 3.31 | 0.64 | 3.52 | 0.56 | 3.51 | 0.50 |
10 | 3.26 | 0.66 | 3.41 | 0.61 | 3.37 | 0.74 |
11 | 3.32 | 0.95 | 3.63 | 0.78 | 3.67 | 0.75 |
12 | 2.26 | 0.68 | 2.20 | 0.60 | 2.29 | 0.70 |
13 | 2.53 | 0.96 | 2.60 | 0.88 | 2.70 | 0.84 |
Fragebogendaten VR-Lav
Allgemeine Informationen
Die Erhebung fand in Muttenz vom 09. October 2024 bis zum 17. October 2024 statt. Teilgenommen haben 91 Personen.
Demographische Angaben
Die Stichprobe unteilt sich in rund zwei Drittel Menschen, die sich mit dem weiblichen Geschlecht identifizieren und einem Drittel mit dem männlichen Geschlecht. Eine Person bezeichnet sich als non-binär (vgl Figure 1). Etwas mehr als die Hälfte der Personen absolvierten eine gymnasiale oder Fachmatura, gegenüber knapp 40% mit einer Berufsmatura (vgl. Figure 2).
Bei der Altersverteilung zeigt sich, dass die Teilnehmerinnen im Mittel (Mw= 21.79 ) ungefähr gleich alt sind, wie die männlichen Personen mit einem Durchschnittsalter von 21.91 Jahren (vgl. Figure 3).
SUS Skala
Der beobachtete, mittlere SUS-Wert in unserer Population beträgt 71,3. Dieser Wert liegt über dem allgemein anerkannten Durchschnitt von 68 und deutet darauf hin, dass das System von den Nutzern als überdurchschnittlich benutzerfreundlich wahrgenommen wird. Der folgende Plot (vgl. Figure 4) zeigt die Verteilung der SUS-Werte in unserer Population und verdeutlicht, wie dieser Wert im Verhältnis zu typischen Usability-Ergebnissen steht.
Wissenstest
Der Wissenstest bestand aus 13 Multiple-Choice Fragen.
Angezeigt werden nur signifikante Korrelationsindices (p<.05).
Antworttendenz
Mittelwertunterschiede
Eine repeated measures Anova ergibt einen signifikanten Haupteffekt der Bedingung (VR vs. Labor, F(1, 89)=3.954, p=0.05, ηp² = 0.043) über alle Zeitpunkte. Wobei die Teilnehmenden, die mit der Laborbedingung begonnen einen signifikanten, aber geringen höheren Mittelwert (Mw=39, SD=3.795) aufweisen, als die VR-Bedingung (Mw=38.407, SD=4.039). Sowohl der Zeitpunkt (F(1, 89)=1.054, p=0.307), als auch die Interaktion (F(1, 89)=0.249, p=0.619)der beiden Effekte sind nicht signifikant (vgl. Figure 6).
Antwortverhalten der Teilnehmenden
Es geht bei der Analyse des Antwortverhaltens von Teilnehmenden um die Identifikation von Werten, die nicht dem “wahren” Wert der Person entsprechen und als unzureichende Anstrengung beim Antworten (insufficient effort responding, IER) bezeichnet wird (Huang et al. 2012; Meade and Craig 2012). Dies kann aus unterschiedlichen Gründen auftreten, bspw. Müdigkeit, Missverständnis, falsche Interpretation der Frage oder Unaufmerksamkeit. Um die Güte der statistischen Methoden zu gewährleisten, können verschiedene Methoden angewandt werden, um solche Antworten, bzw. Datensätze zu identifizieren und ggf. aus der nachfolgenden Analyse auszuschliessen (Curran 2016). Der Auschluss von Daten einer Person, welche ein problematisches Verhalten an den Tag legt, aknn in einer verbesserten Aussagekraft der nachfolgenden Analysen münden (Huang et al. 2012).
Mahalanobis-Distanz
Die Mahalanobis-Distanz (D) basiert auf der Idee, dass die Antworten der Items einer Skala eine Distanz zum Mittelwert der Skala aufweisen. D berechnet die Abweichung von einem Vektor x (z.B. den Antworten einer Person) zum Mittelwert der Skala X und berücksichtigt dabei auch die Kovarianzmatrix der Items. Dies ist wichtig, da jedes Item unterschiedliche Varianzen aufweist und sich die Abweichungen daher in Abhängigkeit von der gemeinsamen Varianz der Items innerhalb der gleichen Skala unterscheiden können. Der Vergleich von D zu einer Normalverteilung kann Fälle identifizieren, die ausserhalb eines bestimmten Konfindenzintervalls liegen und daher als Ausreisser angesehen werden können. Für die folgende Analyse (Figure 7) wurde das 99%-Perzentil verwendet, welches extreme Ausreisser auszeichnet (Hair et al. 2019). Dabei werden nicht nur einzelene Items betrachtet, sondern die gemeinsame Distanz innerhalb einer Person zu der gesamten Skalenverteilung (Curran 2016). Die Analyse wird mit dem Careless Package durchgeführt (Yentes and Wilhelm, n.d.).
Bei den untersuchten Skalen wurde die Technologieakzeptanz zu t1 erhoben, alle anderen Skalen nach dem Durchlaufen der VR-Bedingung. Damit ein identifizierter Ausreisser zu einem allfälligen Auschluss führen könnte, müsste die Person wiederholt identifiziert werden. Dies ist nicht gegeben, da die Daten keiner Person in mehr als drei Skalen ausgewiesen wurden. Von 17 Ausreissern können 3 einer Person zugeordnet werden, 2 einer weiteren und die verbleibenden 12 Werte sind Einzelfälle.
Längste Folge identischer Antworten
Ein weiterer Ausdruck unaufmerksamen Verhaltens kann sich als lange Folge identischer Antworten ausdrücken. Im folgenden Plot (Figure 8) sind die längsten Ketten identischer Antworten für die drei zusammenhängend erfassten Messinstrumente aufgeführt. Um eine bessere Vergleichbarkeit zu erzielen, wurde die Anzahl aufeinanderfolgender identischer Antworten skaliert, wodurch der Maximalwert 1 bedeutet, dass 100% aller Antworten identisch sind. Desweiteren wurde die Analyse mit nicht umkodierten Items durchgeführt, um nur die Personen zu identifizieren, die sich “durchgeklickt” haben.
Die CAMIL-Batterie besteht aus fünf verschiedenen Konstrukten, diese wurden aber in randomisierter Reihenfolge gemeinsam abgefragt, weshalb sie auch hier zusammengefasst aufgeführt sind. Desweiteren wurde auch CAMIL und SUS noch gemeinsam geprüft, da diese beiden Skalen gemeinsam erhoben wurden und 25 Items als untere Grenze von Dunn (2018) angegeben wird. Es gibt keinen universell festgelegeten Cut-Off-Wert für die längste Folge. Curran (2016) empfiehlt alle Folgen, welche über die Hälfte der Items liegen, als supekt zu betrachten. Allerdings ist auch die Anzahl der Itmes entscheidend; die Technologieakzeptanz-Skala umfasst nur 4 Items und kann deshalb nur bedingt Auskunft über unaufmerksame Personen geben. Der CutOff-Wert für alle Skalen wurde, wie empfhlen, auf 0.5 festgelegt.
Inter-individuelle Antwortvariabilität
Die inter-individuelle Antwortvariabilität (intra-individual response variability, IRV) ist eine Erweiterung des Longstring Ansatzes und bezieht die Varianz in den fortlaufenden Antworten einer Person mit ein. Dies führt zu einer höheren Sensitivtät, da auch leichte Variationen im Antwortverhalten identifiziert werden können. Der IRV sollte über gemischte Skalen, einschliesslich umgekehrt codierter Items berechnet werden. Empfohlen werden mindestens 25 Items für die Analyse (Dunn et al. 2018). Aufgrund dieser Empfehlungen und der zeitlichen Abfolge der Abfrage der Items, wird die Technologieakzeptanzskala ausgeschlossen (zu kurz und zu Beginn der Untertsuchung durchgeführt) und die beiden verbleibenden (CAMIL und SUS) zusammengefasst. Damit erreichen wir 27 Items für die Analyse, welche aufeinanderfolgend nach Abschluss der VR Bedingung erhoben wurden. Der nachstehende Plot Figure 9 zeigt die Verteilung der Varianzen und die schwächsten 10% der errechneten Werte, welche zur anschliessenden Analyse herangezogen werden.
Zusammenfassende Auswertung
In der nachstehenden Tabelle (Table 1) sind die durch die einzelnen Verfahren identifizierten User-Codes aufgeführt. Die Sortierung erfolgt jeweils nach der Stärke der durch die Methode bestimmten Ausprägung. Curran (2016) empfiehlt die Anwendung verschiedener Methoden in einem sequenziellen Vorgehen, wobei er jedoch von deutlich größeren Stichproben und Skalen ausgeht.Eine manuelle Überprüfung der jeweils fünf höchsten Ausprägungen jeder Methode ergab, dass weder bei der Mahalanobis-Distanz noch bei der IRV-Methode Fälle identifiziert wurden, die aufgrund ihres Antwortverhaltens auszuschließen wären. Lediglich bei den drei Longstring-Fällen zeigt sich ein deutliches Muster in der SUS-Skala, was darauf hindeuten könnte, dass diese Teilnehmerinnen und Teilnehmer dieses Instrument – das auch den Abschluss des Fragebogens und des Kurses markierte – nicht mehr zuverlässig ausgefüllt haben. Es wäre daher zu erwägen, ob die Daten dieser drei Personen bei der Auswertung der SUS-Skala ausgeschlossen werden sollten.Abschließend lässt sich festhalten, dass mit den hier eingesetzten Methoden kein Fall identifiziert werden konnte, der ein verdächtiges oder die Daten verzerrendes Antwortmuster aufweist.
Mahalanobis
|
IRV
|
Longstring
|
|||
---|---|---|---|---|---|
User Code | n | User Code | Wert | User Code | Wert |
tzfiknqp | 3 | wqblnxcd | 0.629 | bgsonczq | 12 |
mjzcxasl | 2 | wviaelcx | 0.636 | kdsnqjxe | 9 |
dikntfzc | 1 | nxalpgsi | 0.662 | yagvbqis | 8 |
gnlmaoyk | 1 | rafckknp | 0.712 | ||
hagckjwd | 1 | fhyxptcm | 0.724 | ||
junetcaz | 1 | afpgbtwu | 0.724 | ||
kdmuvojw | 1 | bgsonczq | 0.734 | ||
mlesctpv | 1 | yauklphz | 0.751 | ||
ouslzwnp | 1 | xzmpntwl | 0.751 | ||
psqkeaxw | 1 | bihydgfp | 0.759 | ||
pyzdxwnr | 1 | ||||
rxoztmhs | 1 | ||||
supdcing | 1 | ||||
usgvjehb | 1 |
Pfadmodel (PLS)
Zur Schätzung der nachfolgenden Pfadmodelle, wurde ein aggregierter Datensatz der Teilnehmenden verwendet, in welchem alle Messungen zusammengefasst wurden. Dies ist nötig, da die Technologieakzeptanz zum ersten Zeitpunkt, die CAMIL-Items und der nachfolgende Wissenstest je nach Bedingung zum zweiten oder dritten Zeitpunkt erhoben wurden.
Das Model wird mit dem Partial Least Squares (PLS-SEM) Ansatz analysiert, da dieser im Gegensatz zu kovarianzbasierten SEM Modellen, kleinere Stichprobengrössen akzeptiert und keine Normlaverteilung der Daten voraussetzt (Hair, Sarstedt, and Ringle 2019). Bei der Anlayse und Einschätzung der Modellen folgen wir den Empfehlungen von Hair et al. (2021). Die Berechnungen werden hauptsächlich mit dem SEMinR Package durchgeführt (Ray, Danks, and Calero Valdez, n.d.)
Vollständiges, erstes Modell
Das erste geschätzte Modell begründet sich auf dem CAMIL-Model und der Hypothese, dass die Technologieakzeptanz einen Einfluss auf die erlebte Präsenz ausübt (vgl. Figure 10).
Ein erstes Modell mit allen Indikatorvariablen konvergierte nach 15 Iterationen. Die Indikator-Reliabilität, welche sich in der Kommunalität der Items ausdrückt, fällt bei einem Grossteil der Items unter dem empfohlenen Cut-Off-Wert von 0.708 (Damit würden 50% der Varianz der Items durch das zugrundeliegende Konstrukt erklärt). Besonders auffällig sind dei Items MO_2 (0.032) und MO_5 (0.052), deren Varianz zu nicht mehr als 5% durch das zugrundeliegende Konstrukt erklärt werden kann (Table 2). Diese Feststellung schlägt sich dann auch in den internen Konsistenz-Ralibilitäten der Skalen nieder, wobei auch hier die Motivationsskala besonders auffällt (Figure 11). Die Werte für die konvergente Reliabilität ( vgl. AVE in Table 3) fallen für die Motivationsskale ebenfalls deutlich unter den empfohlenen Schwellwert (AVE < 0.5), während einzig die Präsenzskala diesen Wert übertrifft. Die HTMT-Werte für die diskriminante Validität liegen alle unter dem empfohlenen Schwellwert von 0.9 (vgl. Table 4) , einzig die beiden Skalen der kognitiven Belastung (CL_Ex und CL_Int) übertreffen bei weitem diesen Wert und weisen auf ein gemeinsames Konstrukt hin (Was auch durchaus der Fall ist).
TA | CL_Ex | Mo | Pre | CL_Int | Wis |
---|---|---|---|---|---|
0.378 | |||||
0.471 | |||||
0.681 | |||||
0.415 | |||||
0.256 | |||||
0.696 | |||||
0.759 | |||||
0.235 | |||||
0.304 | |||||
0.032 | |||||
0.650 | |||||
0.721 | |||||
0.052 | |||||
0.420 | |||||
0.359 | |||||
0.621 | |||||
0.726 | |||||
0.469 | |||||
0.698 | |||||
0.222 | |||||
0.471 | |||||
1.000 |
alpha | rhoC | rhoA | AVE | |
---|---|---|---|---|
TA | 0.650 | 0.789 | 0.693 | 0.486 |
Pre | 0.700 | 0.816 | 0.729 | 0.531 |
CL_Ex | 0.638 | 0.780 | 0.714 | 0.487 |
CL_Int | 0.602 | 0.770 | 0.661 | 0.465 |
Mo | 0.822 | 0.678 | 0.157 | 0.352 |
Wis | 1.000 | 1.000 | 1.000 | 1.000 |
TA | Pre | CL_Ex | CL_Int | Mo | Wis |
---|---|---|---|---|---|
0.359 | |||||
0.435 | 0.621 | ||||
0.399 | 0.728 | 1.177 | |||
0.299 | 0.226 | 0.288 | 0.295 | ||
0.224 | 0.167 | 0.286 | 0.108 | 0.082 |
Angepasstes Messmodell
In einer zweiten Version, werden die beiden Items der Skala Motivation, welche durch die geringen, beinahe bei 0 liegenden Indikator-Reliabilitäten, aufgefallen sind.
In dieser angepassten Version, haben sich die Reliabilitäts-Werte der Skala Motivation eindeutig verbessert (Figure 12).
Nachfolgend die einzelnen Werte der Indikator-Reliabilität (Table 5), der internen Konsistenz-Reliabilität (Table 6) und der konvergenten Validität , sowie die diskriminante Validität (Table 7). Es zeigt sich weiterhin ein gemischtes Bild, allerdings sind die beobachteten Werte insbesondere der internen Konsistenz-Reliabilität und der konvergenten Validität sehr nahe an den Cut-Off-Werten und werden, je nach Instrument auch übertroffen (bspw. \(rho_c > 0.7\), \(rho_a [0.68:0.88]\) ).
Wir rechnen mit diesem Modell weiter.
TA | CL_Ex | Mo | Pre | CL_Int | Wis |
---|---|---|---|---|---|
0.377 | |||||
0.473 | |||||
0.679 | |||||
0.416 | |||||
0.258 | |||||
0.695 | |||||
0.758 | |||||
0.237 | |||||
0.471 | |||||
0.708 | |||||
0.821 | |||||
0.410 | |||||
0.377 | |||||
0.612 | |||||
0.719 | |||||
0.465 | |||||
0.699 | |||||
0.225 | |||||
0.472 | |||||
1.000 |
alpha | rhoC | rhoA | AVE | |
---|---|---|---|---|
TA | 0.650 | 0.789 | 0.692 | 0.486 |
Pre | 0.700 | 0.816 | 0.724 | 0.530 |
CL_Ex | 0.638 | 0.780 | 0.713 | 0.487 |
CL_Int | 0.602 | 0.770 | 0.660 | 0.465 |
Mo | 0.772 | 0.856 | 0.875 | 0.667 |
Wis | 1.000 | 1.000 | 1.000 | 1.000 |
TA | Pre | CL_Ex | CL_Int | Mo | Wis |
---|---|---|---|---|---|
0.359 | |||||
0.435 | 0.621 | ||||
0.399 | 0.728 | 1.177 | |||
0.248 | 0.233 | 0.259 | 0.298 | ||
0.224 | 0.167 | 0.286 | 0.108 | 0.082 |
Strukturmodell
Es konnten keine Kolinearitätsprobleme festgestellt werden (Alle VIF <5). Die Erklärungskraft des Modells kann durch die erklärte Varianz der Pfadkoeffizienten innerhalb der Stichprobe bewertet werden, ausgedrückt durch \(R^2\). Wie in Table 8 ersichtlich, sind alle Werte unterhalb der als schwach einzuschätzenden Schwellwertes angesiedelt (schwach >0.25).
Pre | CL_Ex | CL_Int | Mo | Wis | |
---|---|---|---|---|---|
R^2 | 0.054 | 0.200 | 0.247 | 0.042 | 0.073 |
AdjR^2 | 0.043 | 0.191 | 0.239 | 0.031 | 0.041 |
Die Bewertung der prädiktiven Power eines Modells kann durch einen k-fold cross-validation Prozess bestimmt werden. Dabei wird der RMSEA mit einem linearen Regressionsmodell verglichen. Fallen alle oder ein Grossteil der Differenzen negativ aus, spricht dies für eine gute bis starle Vorhersagekraft des Modells für zukünftige Daten. Table 9 weist die Differenzen der Items zwischen dem RMSEA und dem LM aus und es zeigt sich, dass das Modell über eine mittlere prädiktive Stärke verfügt (Shmueli et al. (2019)).
Items | Differenz RMSEA-LM |
---|---|
Pre_1 | −0.167 |
Pre_2 | −0.146 |
Pre_3 | −0.050 |
Pre_4 | −0.026 |
CL_Ex_1 | −0.059 |
CL_Ex_2 | −0.002 |
CL_Ex_3 | 0.011 |
CL_Ex_4 | 0.114 |
CL_Int_1 | −0.076 |
CL_Int_2 | −0.024 |
CL_Int_3 | −0.036 |
CL_Int_4 | 0.013 |
Mo_1 | −0.089 |
Mo_3 | −0.184 |
Mo_4 | −0.177 |
wissen_score | −0.547 |
Der Modellvergleich mit einem Fokus auf das Kriterium Wissen zeigt, dass Modell 1 das bessere Modell ist…
Model1 Model2
0.6412504 0.3587496
Ein drittes Modell, bei welchem nur die drei besten Items der Skala cognitive Load zusammengefasst wurden. Es schneidet im Modellvergleich oben noch schlechter ab, bei der Erklärung von Wissen, allerdings wären die Reliabilitätswerte toll…
Results from package seminr (2.3.4)
Path Coefficients:
Pre CL Mo Wis
R^2 0.054 0.231 0.042 0.017
AdjR^2 0.043 0.223 0.031 -0.005
TA 0.232 . . .
Pre . -0.481 0.205 .
CL . . . 0.100
Mo . . . -0.068
Reliability:
alpha rhoC AVE rhoA
TA 0.650 0.789 0.487 0.692
Pre 0.700 0.816 0.531 0.726
CL 0.809 0.887 0.723 0.813
Mo 0.772 0.855 0.666 0.879
Wis 1.000 1.000 1.000 1.000
Alpha, rhoC, and rhoA should exceed 0.7 while AVE should exceed 0.5