Ein Unternehmen für Personaldiagnostik hat einen Eignungstest entwickelt, der die Führungskompetenzen von Kandidaten anhand realistischer Entscheidungsszenarien bewertet. Der Test umfasst zehn Szenarien, die zentrale Führungsaspekte wie Konfliktmanagement, Ressourcenpriorisierung, Delegation, Entscheidungsfähigkeit und strategisches Denken abdecken. Zu jedem Szenario wird eine Frage mit dichotomem Antwortformat (Ja/Nein) gestellt, die typische Herausforderungen in Führungspositionen simuliert.
Ressourcenpriorisierung: Ihr Team kann aufgrund begrenzter Kapazitäten nur eines von zwei Projekten erfolgreich abschließen. Projekt A erhöht die Sichtbarkeit des Unternehmens, bietet jedoch geringe finanzielle Vorteile. Projekt B ist weniger sichtbar, hat aber langfristig höhere finanzielle Potenziale.
Item1: “Sollten Sie Projekt A wählen, um die Unternehmenssichtbarkeit zu priorisieren?”
Zur Qualitätssicherung wird der Test einer psychometrischen Analyse unterzogen. Mithilfe der Item-Response-Theorie (IRT) werden Itemschwierigkeit, Trennschärfe und die Testinformationsfunktion berechnet, um die Präzision der Messung in verschiedenen Kompetenzbereichen zu bewerten.
packages <- c("tidyverse","rio", "here", "mirt", "papaja")
lapply(packages, function(package){
if (!require(package, character.only = TRUE)) {
install.packages(package, dependencies = TRUE)
}
library(package, character.only = TRUE)
})
here::here()
data <- rio::import(file = "dataIRT.csv", sep = ";")
str(data)
## 'data.frame': 500 obs. of 10 variables:
## $ Item1 : int 1 0 1 1 0 1 1 0 1 1 ...
## $ Item2 : int 0 0 1 0 1 1 1 0 0 0 ...
## $ Item3 : int 0 1 0 1 1 1 1 0 1 0 ...
## $ Item4 : int 0 0 0 0 0 0 0 0 0 1 ...
## $ Item5 : int 0 1 1 0 1 0 1 1 0 1 ...
## $ Item6 : int 0 1 1 1 1 1 1 0 1 1 ...
## $ Item7 : int 0 0 0 0 0 0 1 0 0 0 ...
## $ Item8 : int 1 0 1 1 1 1 1 1 0 1 ...
## $ Item9 : int 0 0 1 1 1 1 1 0 1 1 ...
## $ Item10: int 0 1 1 0 1 0 1 0 0 1 ...
Der Datensatz enthält die Antworten von 500 Personen auf 10 dichotome Items eines Eignungstests für Führungspositionen. Die Antworten (0 = Nein, 1 = Ja) repräsentieren die Entscheidungen der Testpersonen in verschiedenen Szenarien.
summary(data)
## Item1 Item2 Item3 Item4
## Min. :0.000 Min. :0.000 Min. :0.000 Min. :0.000
## 1st Qu.:0.000 1st Qu.:0.000 1st Qu.:0.000 1st Qu.:0.000
## Median :1.000 Median :0.000 Median :1.000 Median :0.000
## Mean :0.734 Mean :0.444 Mean :0.702 Mean :0.216
## 3rd Qu.:1.000 3rd Qu.:1.000 3rd Qu.:1.000 3rd Qu.:0.000
## Max. :1.000 Max. :1.000 Max. :1.000 Max. :1.000
## Item5 Item6 Item7 Item8 Item9
## Min. :0.000 Min. :0.00 Min. :0.000 Min. :0.000 Min. :0.000
## 1st Qu.:0.000 1st Qu.:0.00 1st Qu.:0.000 1st Qu.:1.000 1st Qu.:1.000
## Median :0.000 Median :1.00 Median :0.000 Median :1.000 Median :1.000
## Mean :0.324 Mean :0.53 Mean :0.224 Mean :0.754 Mean :0.834
## 3rd Qu.:1.000 3rd Qu.:1.00 3rd Qu.:0.000 3rd Qu.:1.000 3rd Qu.:1.000
## Max. :1.000 Max. :1.00 Max. :1.000 Max. :1.000 Max. :1.000
## Item10
## Min. :0.00
## 1st Qu.:0.00
## Median :1.00
## Mean :0.52
## 3rd Qu.:1.00
## Max. :1.00
Die deskriptive Zusammenfassung zeigt keine Auffälligkeiten. Es gibt keine fehelnden oder irregulären Werte.
summary_stats <- data.frame(
Item = colnames(data),
ProportionCorrect = colMeans(data))
print(summary_stats)
## Item ProportionCorrect
## Item1 Item1 0.734
## Item2 Item2 0.444
## Item3 Item3 0.702
## Item4 Item4 0.216
## Item5 Item5 0.324
## Item6 Item6 0.530
## Item7 Item7 0.224
## Item8 Item8 0.754
## Item9 Item9 0.834
## Item10 Item10 0.520
Die Proportion der korrekten Antworten repräsentiert die Schwierigkeit der Items. Die Verteilung der Antworten umfasst sowohl leichte Items (z. B. Item1, Item8 und Item9), die grundlegende Fähigkeiten abfragen und von den meisten KandidatInnen gelöst werden, als auch schwierige Items (z. B. Item4 und Item7), die komplexere Szenarien darstellen und KandidatInnen mit ausgeprägteren Fähigkeiten besser differenzieren.
Das 2-Parameter-Modell (2PL) der IRT bietet die Möglichkeit, zwei wichtige Eigenschaften jedes Items zu schätzen: die Schwierigkeit (b) und die **Diskrimination (a)*. Der Schwierigkeitsparameter (b) gibt an, bei welchem Fähigkeitsniveau die Wahrscheinlichkeit einer Zustimmung zu einem Item 50 % beträgt. Der Diskriminationsparameter (a) misst, wie gut ein Item zwischen Testpersonen mit unterschiedlichen Fähigkeitsniveaus unterscheidet.
model <- mirt::mirt(data = data, model = 1, itemtype = "2PL", verbose = FALSE)
summary(model)
## F1 h2
## Item1 0.572 0.3275
## Item2 0.499 0.2491
## Item3 0.555 0.3081
## Item4 0.548 0.3002
## Item5 0.279 0.0781
## Item6 0.663 0.4402
## Item7 0.759 0.5755
## Item8 0.568 0.3229
## Item9 0.652 0.4256
## Item10 0.388 0.1506
##
## SS loadings: 3.178
## Proportion Var: 0.318
##
## Factor correlations:
##
## F1
## F1 1
Die Modellzusammenfassung zeigt sowohl hohe als auch niedrige Faktorladungen für die einzelnen Items. Hohe Faktorladungen (F1 > 0.6) wurden bei den Items 6 (0.663), 7 (0.759) und 9 (0.652) beobachtet. Diese Items tragen besonders stark zur Messung der Führungskompetenz bei, da sie gut zwischen verschiedenen Fähigkeitsniveaus unterscheiden können. Im Gegensatz dazu weisen die Items 5 (0.279) und 10 (0.388) niedrige Faktorladungen (F1 < 0.4) auf. Diese Items zeigen eine geringere Trennschärfe und sollten überarbeitet oder ersetzt werden, um die Messgenauigkeit zu verbessern.
Die gesamte aufgeklärte Varianz (Proportion Var = 31.8 %) ist akzeptabel, aber eine Optimierung der schwächeren Items könnte den Test weiter verbessern.
plot(model, type = "trace")
Das Diagramm zeigt die ICCs der zehn Items des Eignungstests und veranschaulicht, wie die Wahrscheinlichkeit einer positiven Antwort (𝑃(𝜃)) von der Ausprägung auf dem latenten Merkmal 𝜃 abhängt. Items unterscheiden sich in ihrer Schwierigkeit (Position der Kurve auf der 𝜃-Achse) und Trennschärfe (Steigung der Kurve). Beispielsweise zeigt Item 9 eine niedrige Schwierigkeit, während Item 7 für höhere 𝜃-Werte informativer ist.
plot(model, type = "info")
Die Test-Informationskurve zeigt, wie viel Information der Test für verschiedene Werte des latenten Merkmals θ liefert. Der Test ist am informativsten im Bereich um θ = 0, was darauf hinweist, dass er besonders gut zwischen Personen mit durchschnittlicher Ausprägung auf dem latenten Merkmal differenziert. Außerhalb dieses Bereichs nimmt die Testinformation ab, insbesondere bei extrem hohen oder niedrigen θ-Werten, was bedeutet, dass der Test dort weniger präzise misst. Diese Verteilung unterstützt die Validität des Tests für Personen mit mittlerer Merkmalsausprägung.
theta <- mirt::fscores(model)
head(theta)
## F1
## [1,] -1.16160711
## [2,] -0.70175166
## [3,] 0.37623081
## [4,] 0.06715006
## [5,] 0.36092200
## [6,] 0.35381708
Die geschätzten Fähigkeitswerte (𝜃) repräsentieren die latente Führungskompetenz der Testpersonen. Positive Werte zeigen überdurchschnittliche Kompetenz, negative Werte unterdurchschnittliche Kompetenz.
# Dataframe erstellen
theta_df <- data.frame(Person = 1:nrow(data), Ability = theta[, 1])
# Verteilung der Fähigkeiten
ggplot(theta_df, aes(x = Ability)) +
geom_histogram(binwidth = 0.25, fill = "gray30", color = "black") +
labs(title = "Verteilung der geschätzten Führungskompetenzen",
x = "Führungskompetenz (Theta)",
y = "Anzahl der Personen") +
papaja::theme_apa()
Das Histogramm zeigt die Verteilung der geschätzten Werte des latenten Merkmals „Führungskompetenz“ 𝜃 für die Testpersonen. Die Verteilung ist annähernd normalverteilt, mit einem Schwerpunkt um 𝜃, was darauf hinweist, dass die meisten Personen durchschnittliche Führungskompetenzen aufweisen. Es gibt relativ wenige Personen mit extrem niedrigen oder hohen Werten. Diese Verteilung entspricht den Erwartungen für eine repräsentative Stichprobe und bestätigt die Eignung des Tests für die differenzierte Erfassung von Führungskompetenzen im mittleren Bereich.