Procedemos a continuación a responder una serie de preguntas desde el punto de vista descriptivo e inferencial. Las pruebas de comparación de grupos las basamos en:
Se muestran tablas con percentiles basados en las notas medias de los alumnos, mínimos y máximos, tanto para grupos como para globales.
Para los gráficos boxplot, se muestra la distribucion de calificaciones en cada uno de los grupos descritos por la variable que categoriza (en cada apartado), y una caja adicional con todas las calificaciones en global, con el fin de poder visualizar la comparación entre grupos y respecto del total.
¿Cuáles han sido las calificaciones de los alumnos durante los tres turnos de examen (grupo)? ¿Ha habido diferencias entre esos turnos?
Calculamos inicialmente la calificación media para cada sujeto en todas las pruebas que ha realizado. Describimos a continuación estas calificaciones, a través de percentiles y rango (mínimo-máximo), en cada uno de los turnos y en global.
grupo | median | q25 | q75 | minimum | maximum |
---|---|---|---|---|---|
1SM | 7.100 | 6.888 | 7.429 | 6.155 | 7.930 |
2ST | 7.140 | 6.964 | 7.436 | 6.470 | 7.965 |
3DM | 7.242 | 7.116 | 7.536 | 6.585 | 8.135 |
Todos datos | 7.143 | 6.905 | 7.436 | 6.155 | 8.135 |
A la vista del gráfico, y aunque las medianas muestran cierta tendencia al alza desde el sábado mañana al domingo mañana, el test KW, con un p-valor de 0.1608, no se puede concluir a favor de diferencias significativas entre las calificaciones de los estudiantes en los tres turnos (no podemos rechazar igualdad en el comportamiento, en calificación, en los tres turnos). No se puede concluir a favor de un efecto claro de aprendizaje por la experiencia de los compañeros que realizaron previamente el examen.
¿Cuáles han sido las calificaciones de los alumnos en cada uno de los 5 turnos de evaluación, considerando que el sábado mañana y sábado tarde se realizaron 2 ruedas simultáneas con evaluadores diferentes? ¿Ha habido diferencias entre esos turnos?
Calculamos inicialmente la calificación media para cada sujeto en todos los tribunales. Describimos a continuación estas calificaciones, a través de percentiles y rango (mínimo-máximo), en cada uno de los tribunales y en global.
tribunal | median | q25 | q75 | minimum | maximum |
---|---|---|---|---|---|
1SMA | 7.242 | 7.116 | 7.536 | 6.585 | 8.135 |
2SMB | 7.135 | 6.777 | 7.445 | 6.350 | 7.720 |
3STA | 7.065 | 6.895 | 7.365 | 6.155 | 7.930 |
4STB | 7.140 | 7.003 | 7.361 | 6.635 | 7.705 |
5DMA | 7.178 | 6.847 | 7.454 | 6.470 | 7.965 |
Todos datos | 7.143 | 6.905 | 7.436 | 6.155 | 8.135 |
A la vista del gráfico, y aunque las medianas muestran cierta tendencia al alza desde el sábado mañana al domingo mañana, el test KW, con un p-valor de 0.4344, no se puede concluir a favor de diferencias significativas entre las calificaciones dadas por los 5 tribunales (no podemos rechazar igualdad en el comportamiento entre los cinco tribunales).
Recordemos que para la evaluación en cada estación se utilizó un tipo de prueba específica, a saber:
##
## Tipo de prueba EOE fue utilizado en las estaciones: E03 E07 E10 E13
## Tipo de prueba IC fue utilizado en las estaciones: E02 E05 E19 E21 E22
## Tipo de prueba MP fue utilizado en las estaciones: E04 E09 E14 E16
## Tipo de prueba PEA fue utilizado en las estaciones: E01 E15 E20
## Tipo de prueba PER fue utilizado en las estaciones: E06 E08 E12 E18
¿Cuáles han sido las calificaciones en los diferentes tipos de prueba? ¿Se aprecian diferencias entre ellas?
Trabajamos con la calificación media de cada sujeto por tipo de prueba. Calculamos a continuación los percentiles para estas calificaciones (medias) sujeto-tipoprueba.
tipoprueba | median | q25 | q75 | minimum | maximum | n |
---|---|---|---|---|---|---|
EOE | 7.475 | 6.950 | 7.788 | 5.500 | 8.925 | 116 |
IC | 6.410 | 5.960 | 7.045 | 5.020 | 8.180 | 116 |
MP | 7.888 | 7.475 | 8.250 | 5.800 | 8.800 | 116 |
PEA | 6.817 | 6.225 | 7.300 | 4.600 | 8.533 | 116 |
PER | 7.525 | 7.069 | 7.875 | 5.975 | 8.850 | 116 |
Todos datos | 7.271 | 6.665 | 7.806 | 4.600 | 8.925 | 580 |
Los tipos de prueba en los que los estudiantes son mejor calificados son, de mayor a menor:
## 1 . MP > 2 . PER > 3 . EOE > 4 . PEA > 5 . IC >
Apreciamos diferencias significativas entre las calificaciones medias por tipo de prueba, evaluadas con el test de Friedman, con un p-valor de 1.003195810^{-42}: el tipo de prueba influye significativamente en las calificaciones de los estudiantes examinados.
Dado que algunas de las pruebas basadas en Procedimiento Estandarizado (PE) fueron realizadas por actores (PEA) y otras por profesionales residentes (PER), ¿existen diferencias entre que el Procedimiento Estandarizado lo asuma un actor o un profesional?
Trabajamos con la calificación media de cada sujeto en las pruebas de tipo PE (PER y PEA). Calculamos a continuación los percentiles para estas calificaciones (medias) sujeto-tipo de prueba.
tipoprueba | median | q25 | q75 | minimum | maximum | n |
---|---|---|---|---|---|---|
PEA | 6.817 | 6.225 | 7.300 | 4.600 | 8.533 | 116 |
PER | 7.525 | 7.069 | 7.875 | 5.975 | 8.850 | 116 |
Todos datos | 7.125 | 6.650 | 7.750 | 4.600 | 8.850 | 232 |
La calificación dada por actores queda por debajo de la dada por evaluadores. En principio resultan más exigentes los actores que los profesionales.
Para las calificaciones obtenidas en pruebas realizadas con Procedimiento Estandarizado (PE), se aprecian diferencias significativas entre las calificaciones otorgadas por actores y las otorgadas por profesionales. El p-valor en el test KW de 9.993673810^{-13}. No evalúan igual los actores que los profesionales en las pruebas PE.
Trabajamos con la calificación media de cada sujeto por estación. Calculamos a continuación los percentiles para estas calificaciones (medias) sujeto-estación.
estacion | median | q25 | q75 | minimum | maximum | n |
---|---|---|---|---|---|---|
E01 | 6.30 | 5.500 | 6.900 | 3.1 | 10.0 | 116 |
E02 | 5.25 | 4.275 | 6.100 | 0.0 | 8.3 | 116 |
E03 | 7.70 | 6.600 | 8.300 | 3.6 | 10.0 | 116 |
E04 | 8.50 | 8.000 | 9.000 | 5.1 | 10.0 | 116 |
E05 | 7.70 | 6.900 | 8.650 | 4.0 | 9.6 | 116 |
E06 | 9.70 | 9.250 | 10.000 | 6.5 | 10.0 | 116 |
E07 | 7.45 | 6.675 | 8.300 | 2.9 | 9.6 | 116 |
E08 | 6.85 | 6.000 | 7.500 | 0.0 | 9.5 | 116 |
E09 | 7.30 | 6.300 | 8.700 | 3.4 | 10.0 | 116 |
E10 | 8.90 | 8.500 | 9.400 | 6.6 | 10.0 | 116 |
E12 | 5.75 | 4.600 | 7.100 | 2.4 | 10.0 | 116 |
E13 | 5.80 | 4.975 | 7.025 | 2.3 | 9.3 | 116 |
E14 | 8.40 | 7.800 | 9.000 | 5.1 | 10.0 | 116 |
E15 | 6.40 | 5.200 | 7.525 | 2.7 | 8.6 | 116 |
E16 | 7.20 | 6.300 | 8.325 | 4.0 | 10.0 | 116 |
E18 | 7.95 | 6.800 | 8.800 | 4.3 | 10.0 | 116 |
E19 | 5.80 | 4.800 | 6.800 | 1.6 | 8.2 | 116 |
E20 | 7.95 | 7.300 | 8.525 | 4.6 | 9.7 | 116 |
E21 | 6.60 | 5.200 | 8.600 | 2.6 | 10.0 | 116 |
E22 | 6.85 | 6.200 | 7.500 | 4.0 | 9.3 | 116 |
Todos datos | 7.30 | 6.000 | 8.500 | 0.0 | 10.0 | 2320 |
Las estaciones con mayor mediana son, de mayor a menor calificación:
## 1 . E08 > 2 . E21 > 3 . E15 > 4 . E01 > 5 . E08 >
Las dos estaciones con una calificación (mediana) más baja:
## E12 E02
Apreciamos diferencias significativas entre las calificaciones medias por estación, evaluadas con el test de Friedman, con un p-valor de 1.766088510^{-194}, así como diferencias en la variabilidad entre las diferentes estaciones a la vista del gráfico anterior. Podemos concluir que los estudiantes no están igual de preparados en todas las especialidades (estaciones).
Gráficamente, las diferencias entre áreas en cada estación se muestran a continuación.
Comparamos ahora estadísticamente, en cada estación las calificaciones en las diferentes áreas que intervienen, utilizando el test de Friedman. En la siguiente tabla se muestran los p-valores asociados al test de igualdad. Un p-valor significativo implica que rechazamos la igualdad en la evaluación de las distintas áreas que han sido evaluadas en una estación dada, a favor de diferencias entre ellas.
## En la Estacion E21 es inviable la comparación, al sólo haber 1 área evaluada.
p-valor Friedman | |
---|---|
E01 | 1.96e-08 |
E02 | 2.445e-19 |
E03 | 5.566e-08 |
E04 | 0.0007201 |
E05 | 7.238e-08 |
E06 | 4.648e-11 |
E07 | 0.001237 |
E08 | 7.367e-49 |
E09 | 7.497e-18 |
E10 | 6.167e-19 |
E12 | 2.126e-35 |
E13 | 1.833e-13 |
E14 | 4.678e-20 |
E15 | 0.01492 |
E16 | 5.481e-18 |
E18 | 5.699e-37 |
E19 | 9.946e-12 |
E20 | 3.636e-24 |
E21 | NA |
E22 | 1.244e-10 |
En cada una de las estaciones se aprecian diferencias significativas en la evaluación de las diferentes áreas, salvo en la Estación E21, que sólo evalúa un área competencial.
En cada estación, ¿existieron diferencias significativas entre las calificaciones medias que se dieron en los 5 tribunales que evaluaron entre el sábado y el domingo?
En cada estación testamos a continuación las diferencias entre los 5 tribunales de evaluación respecto a las calificaciones dadas. Mostramos los p-valores del test de Kruskal-Wallis en el que la hipótesis nula consiste en la igualdad entre los tribunales. Un p-valor significativo (\(<0.05\)) implica que se rechaza la hipótesis nula y se reconocen diferencias entre los tribunales a la hora de juzgar la calificación de un alumno en cada una de las estaciones evaluadas. Dichos p-valores se presentan en la siguiente tabla:
## Adding missing grouping variables: `estacion`
estacion | E01 | E02 | E03 | E04 | E05 |
pval | 5.892464e-05 | 4.937951e-05 | 5.360865e-12 | 5.411662e-06 | 6.000521e-01 |
estacion | E06 | E07 | E08 | E09 | E10 |
pval | 2.288588e-04 | 3.502646e-07 | 6.733162e-09 | 2.243177e-05 | 6.123317e-07 |
estacion | E12 | E13 | E14 | E15 | E16 |
pval | 8.629432e-14 | 3.877083e-02 | 1.850182e-05 | 3.066108e-02 | 1.246286e-10 |
estacion | E18 | E19 | E20 | E21 | E22 |
pval | 2.195346e-09 | 4.766475e-01 | 2.277283e-04 | 7.766872e-01 | 4.608593e-03 |
Sólo en las estaciones E05, E19, E21 no existen evidencias suficientes para reconocer diferencias entre los tribunales. Para el resto, el comportamiento de los tribunales es significativamente distinto para calificar cada estación.
Mostramos a continuación gráficamente las diferencias entre tribunales en cada estación.
Y a continuación individualmente para cada estación:
Mostramos a continuación los p-valores asociados a los test de comparación entre la evaluación dada por los 5 tribunales, en cada una de las combinaciones estación-área.
## Adding missing grouping variables: `estacion`, `areasim`
Anam | AspEtic | ExpClin | HabCom | HabTec | JuiClin | PrevSalu | |
---|---|---|---|---|---|---|---|
E01 | 0.001567 | NA | 3.5e-05 | 0.000141 | NA | NA | NA |
E02 | NA | NA | NA | NA | NA | 0.2054 | NA |
E03 | NA | 0 | NA | NA | NA | NA | 0 |
E04 | NA | 0.1854 | 1.2e-05 | NA | 0.000156 | NA | NA |
E05 | NA | 0.5912 | NA | NA | NA | NA | NA |
E06 | NA | NA | 0.000273 | 0.1706 | NA | NA | NA |
E07 | NA | 0 | NA | NA | 0 | 0.003003 | NA |
E08 | 0.00337 | NA | 0 | 0.0969 | NA | 0.000641 | NA |
E09 | NA | NA | 1e-06 | NA | 1.2e-05 | 0.7248 | NA |
E10 | NA | 0.3823 | NA | NA | NA | 0.002799 | 0 |
E12 | 0 | NA | 0 | 0 | NA | 1.7e-05 | NA |
E13 | 5.8e-05 | NA | NA | NA | 2.5e-05 | NA | 0 |
E14 | NA | 0.09108 | NA | NA | 3.7e-05 | NA | 0.002597 |
E15 | 0.000412 | NA | NA | 0.01321 | NA | 0.008829 | 0.04146 |
E16 | NA | NA | 0.001882 | NA | 1e-04 | 2.4e-05 | 0 |
E18 | 0.000817 | NA | 5e-06 | 0.02129 | NA | 0.2648 | 0 |
E19 | NA | NA | NA | NA | NA | 0.2325 | NA |
E20 | 0.001939 | NA | 0.000224 | 0.01957 | NA | 0.06144 | NA |
E21 | NA | NA | NA | NA | NA | 0.7767 | NA |
E22 | NA | 0.0535 | NA | NA | NA | 0.001129 | 0.0103 |
RelInter | |
---|---|
E01 | NA |
E02 | 2e-06 |
E03 | NA |
E04 | NA |
E05 | 0.4232 |
E06 | NA |
E07 | NA |
E08 | NA |
E09 | NA |
E10 | NA |
E12 | NA |
E13 | NA |
E14 | NA |
E15 | NA |
E16 | NA |
E18 | NA |
E19 | 0.6536 |
E20 | NA |
E21 | NA |
E22 | NA |
No encontramos diferencias significativas (al 5%) entre los tribunales que evaluaron las siguientes estaciones-areas:
estacion | areasim | pval |
---|---|---|
E02 | JuiClin | 0.205381 |
E04 | AspEtic | 0.185370 |
E05 | AspEtic | 0.591203 |
E05 | RelInter | 0.423205 |
E06 | HabCom | 0.170644 |
E08 | HabCom | 0.096901 |
E09 | JuiClin | 0.724752 |
E10 | AspEtic | 0.382313 |
E14 | AspEtic | 0.091084 |
E18 | JuiClin | 0.264839 |
E19 | JuiClin | 0.232515 |
E19 | RelInter | 0.653633 |
E20 | JuiClin | 0.061439 |
E21 | JuiClin | 0.776687 |
E22 | AspEtic | 0.053504 |
Y visualizamos a continuación gráficamente las diferencias entre los tribunales para cada una de las estaciones y áreas.
¿Cuáles han sido las calificaciones en las diferentes áreas? ¿Qué diferencias se aprecian entre ellas?
Trabajamos con la calificación media de cada sujeto por área. Mostramos los descriptivos para cada área a continuación.
## Warning in matrix(value, n, p): la longitud de los datos [54] no es un
## submúltiplo o múltiplo del número de columnas [5] en la matriz
areasim | median | q25 | q75 | minimum | maximum | n |
---|---|---|---|---|---|---|
Anam | 7.163 | 6.723 | 7.617 | 5.195 | 8.815 | 116 |
AspEtic | 8.561 | 7.972 | 9.092 | 6.051 | 9.918 | 116 |
ExpClin | 7.156 | 6.659 | 7.763 | 4.783 | 8.924 | 116 |
HabCom | 7.790 | 7.365 | 8.115 | 5.722 | 9.381 | 116 |
HabTec | 7.267 | 6.614 | 7.740 | 5.403 | 9.003 | 116 |
JuiClin | 7.051 | 6.612 | 7.411 | 5.137 | 8.591 | 116 |
PrevSalu | 7.207 | 6.627 | 7.856 | 3.259 | 8.986 | 116 |
RelInter | 5.274 | 4.360 | 6.054 | 2.542 | 7.925 | 116 |
Todos datos | 7.265 | 6.556 | 7.913 | 2.542 | 9.918 | 928 |
Las áreas competenciales en las que los estudiantes resultan mejor posicionados (respecto de su calificación ECOE) son (desde la mejor a la peor):
## 1 . AspEtic > 2 . HabCom > 3 . HabTec > 4 . PrevSalu >
y en la que quedan peor posicionados es:
## RelInter
Gráficamente visualizamos la diferencias entre las áreas competenciales, y la testamos con el test de Friedman.
Se aprecian diferencias significativas entre las calificaciones obtenidas en las diferentes áreas competenciales, con un p-valor en el test Friedman de 4.213530810^{-80}. En principio no resultan igual de competentes los estudiantes en todas las áreas competenciales.
Comparamos, en cada área, la evaluación en las diferentes estaciones Se muestran en la tabla a continuación los p-valores asociados al test de Friedman (cada alumno fue evaluado en todas las estaciones).
Anam | AspEtic | ExpClin | HabCom | HabTec | JuiClin | PrevSalu | RelInter |
---|---|---|---|---|---|---|---|
1.095e-46 | 5.886e-46 | 2.874e-70 | 1.56e-51 | 3.208e-44 | 2.77e-91 | 1.716e-17 | 3.674e-17 |
Para todas las áreas se aprecian diferencias significativas en la evaluación llevada a cabo en las diferentes estaciones en que se han considerado.
Las diferencias gráficas ya las mostramos en el gráfico que ilustraba la sección Diferencias entre áreas para cada estación.
Calculamos los descriptivos en cada área para cada tipo de prueba:
## Área AnamnesisÁrea Aspectos eticos/legales y profesionalismoÁrea Exploracion ClinicaÁrea Habilidades de ComunicacionÁrea Habilidades tecnicas/ProcedimentalesÁrea Juicio Clinico, plan de manejo diagnostico y terapeuticoÁrea Prevencion y promocion de la saludÁrea Relaciones interprofesionales
Comparamos a continuación el efecto que puede tener, en cada área, el tipo de prueba que se ha utilizado para la evaluación. Utilizamos como punto de partida la nota media de cada sujeto evaluado, para cada área y tipo de prueba.
## En el área Relaciones interprofesionales es inviable la comparación, al haber sido evaluada con sólo 1 tipo de prueba
Anam | AspEtic | ExpClin | HabCom | HabTec | JuiClin | PrevSalu | RelInter |
---|---|---|---|---|---|---|---|
0.3908 | 3.127e-05 | 6.611e-11 | 4.417e-13 | 6.472e-17 | 1.263e-18 | 2.034e-07 | 0 |
Tan sólo no podemos rechazar diferencias debidas al tipo de prueba en la evaluación del área Anamnesis, en la que se utilizaron como tipos de prueba EOE, PEA, PER.
Visualizamos a continuación gráficamente, las diferencias entre tipos de pruebas en cada área:
Kruskas-Wallis test, in Handbook of Biological Statistics, by John H. McDonald, http://www.biostathandbook.com/kruskalwallis.html
Friedman test, by Milton Friedman. Described in https://en.wikipedia.org/wiki/Friedman_test
R software, in https://www.r-project.org/about.html
R Studio, in https://www.rstudio.com/
Librerías utilizadas en R: ggplot2, dplyr, pander