Metodología

Procedemos a continuación a responder una serie de preguntas desde el punto de vista descriptivo e inferencial. Las pruebas de comparación de grupos las basamos en:

Se muestran tablas con percentiles basados en las notas medias de los alumnos, mínimos y máximos, tanto para grupos como para globales.

Para los gráficos boxplot, se muestra la distribucion de calificaciones en cada uno de los grupos descritos por la variable que categoriza (en cada apartado), y una caja adicional con todas las calificaciones en global, con el fin de poder visualizar la comparación entre grupos y respecto del total.

Diferencias entre turnos de examen

¿Cuáles han sido las calificaciones de los alumnos durante los tres turnos de examen (grupo)? ¿Ha habido diferencias entre esos turnos?

Calculamos inicialmente la calificación media para cada sujeto en todas las pruebas que ha realizado. Describimos a continuación estas calificaciones, a través de percentiles y rango (mínimo-máximo), en cada uno de los turnos y en global.

grupo median q25 q75 minimum maximum
1SM 7.100 6.888 7.429 6.155 7.930
2ST 7.140 6.964 7.436 6.470 7.965
3DM 7.242 7.116 7.536 6.585 8.135
Todos datos 7.143 6.905 7.436 6.155 8.135

A la vista del gráfico, y aunque las medianas muestran cierta tendencia al alza desde el sábado mañana al domingo mañana, el test KW, con un p-valor de 0.1608, no se puede concluir a favor de diferencias significativas entre las calificaciones de los estudiantes en los tres turnos (no podemos rechazar igualdad en el comportamiento, en calificación, en los tres turnos). No se puede concluir a favor de un efecto claro de aprendizaje por la experiencia de los compañeros que realizaron previamente el examen.

Diferencias entre tribunales

¿Cuáles han sido las calificaciones de los alumnos en cada uno de los 5 turnos de evaluación, considerando que el sábado mañana y sábado tarde se realizaron 2 ruedas simultáneas con evaluadores diferentes? ¿Ha habido diferencias entre esos turnos?

Calculamos inicialmente la calificación media para cada sujeto en todos los tribunales. Describimos a continuación estas calificaciones, a través de percentiles y rango (mínimo-máximo), en cada uno de los tribunales y en global.

tribunal median q25 q75 minimum maximum
1SMA 7.242 7.116 7.536 6.585 8.135
2SMB 7.135 6.777 7.445 6.350 7.720
3STA 7.065 6.895 7.365 6.155 7.930
4STB 7.140 7.003 7.361 6.635 7.705
5DMA 7.178 6.847 7.454 6.470 7.965
Todos datos 7.143 6.905 7.436 6.155 8.135

A la vista del gráfico, y aunque las medianas muestran cierta tendencia al alza desde el sábado mañana al domingo mañana, el test KW, con un p-valor de 0.4344, no se puede concluir a favor de diferencias significativas entre las calificaciones dadas por los 5 tribunales (no podemos rechazar igualdad en el comportamiento entre los cinco tribunales).

Diferencias entre tipos de prueba

Recordemos que para la evaluación en cada estación se utilizó un tipo de prueba específica, a saber:

## 
##  Tipo de prueba  EOE  fue utilizado en las estaciones: E03 E07 E10 E13
##  Tipo de prueba  IC  fue utilizado en las estaciones: E02 E05 E19 E21 E22
##  Tipo de prueba  MP  fue utilizado en las estaciones: E04 E09 E14 E16
##  Tipo de prueba  PEA  fue utilizado en las estaciones: E01 E15 E20
##  Tipo de prueba  PER  fue utilizado en las estaciones: E06 E08 E12 E18

¿Cuáles han sido las calificaciones en los diferentes tipos de prueba? ¿Se aprecian diferencias entre ellas?

Trabajamos con la calificación media de cada sujeto por tipo de prueba. Calculamos a continuación los percentiles para estas calificaciones (medias) sujeto-tipoprueba.

tipoprueba median q25 q75 minimum maximum n
EOE 7.475 6.950 7.788 5.500 8.925 116
IC 6.410 5.960 7.045 5.020 8.180 116
MP 7.888 7.475 8.250 5.800 8.800 116
PEA 6.817 6.225 7.300 4.600 8.533 116
PER 7.525 7.069 7.875 5.975 8.850 116
Todos datos 7.271 6.665 7.806 4.600 8.925 580

Los tipos de prueba en los que los estudiantes son mejor calificados son, de mayor a menor:

## 1 . MP >   2 . PER >   3 . EOE >   4 . PEA >   5 . IC >

Apreciamos diferencias significativas entre las calificaciones medias por tipo de prueba, evaluadas con el test de Friedman, con un p-valor de 1.003195810^{-42}: el tipo de prueba influye significativamente en las calificaciones de los estudiantes examinados.

Procedimiento Estandarizado (PE): diferencias entre actores (PEA) y profesionales (PER)

Dado que algunas de las pruebas basadas en Procedimiento Estandarizado (PE) fueron realizadas por actores (PEA) y otras por profesionales residentes (PER), ¿existen diferencias entre que el Procedimiento Estandarizado lo asuma un actor o un profesional?

Trabajamos con la calificación media de cada sujeto en las pruebas de tipo PE (PER y PEA). Calculamos a continuación los percentiles para estas calificaciones (medias) sujeto-tipo de prueba.

tipoprueba median q25 q75 minimum maximum n
PEA 6.817 6.225 7.300 4.600 8.533 116
PER 7.525 7.069 7.875 5.975 8.850 116
Todos datos 7.125 6.650 7.750 4.600 8.850 232

La calificación dada por actores queda por debajo de la dada por evaluadores. En principio resultan más exigentes los actores que los profesionales.

Para las calificaciones obtenidas en pruebas realizadas con Procedimiento Estandarizado (PE), se aprecian diferencias significativas entre las calificaciones otorgadas por actores y las otorgadas por profesionales. El p-valor en el test KW de 9.993673810^{-13}. No evalúan igual los actores que los profesionales en las pruebas PE.

Diferencias entre estaciones

Trabajamos con la calificación media de cada sujeto por estación. Calculamos a continuación los percentiles para estas calificaciones (medias) sujeto-estación.

estacion median q25 q75 minimum maximum n
E01 6.30 5.500 6.900 3.1 10.0 116
E02 5.25 4.275 6.100 0.0 8.3 116
E03 7.70 6.600 8.300 3.6 10.0 116
E04 8.50 8.000 9.000 5.1 10.0 116
E05 7.70 6.900 8.650 4.0 9.6 116
E06 9.70 9.250 10.000 6.5 10.0 116
E07 7.45 6.675 8.300 2.9 9.6 116
E08 6.85 6.000 7.500 0.0 9.5 116
E09 7.30 6.300 8.700 3.4 10.0 116
E10 8.90 8.500 9.400 6.6 10.0 116
E12 5.75 4.600 7.100 2.4 10.0 116
E13 5.80 4.975 7.025 2.3 9.3 116
E14 8.40 7.800 9.000 5.1 10.0 116
E15 6.40 5.200 7.525 2.7 8.6 116
E16 7.20 6.300 8.325 4.0 10.0 116
E18 7.95 6.800 8.800 4.3 10.0 116
E19 5.80 4.800 6.800 1.6 8.2 116
E20 7.95 7.300 8.525 4.6 9.7 116
E21 6.60 5.200 8.600 2.6 10.0 116
E22 6.85 6.200 7.500 4.0 9.3 116
Todos datos 7.30 6.000 8.500 0.0 10.0 2320

Las estaciones con mayor mediana son, de mayor a menor calificación:

## 1 .  E08 >   2 .  E21 >   3 .  E15 >   4 .  E01 >   5 .  E08 >

Las dos estaciones con una calificación (mediana) más baja:

## E12 E02

Apreciamos diferencias significativas entre las calificaciones medias por estación, evaluadas con el test de Friedman, con un p-valor de 1.766088510^{-194}, así como diferencias en la variabilidad entre las diferentes estaciones a la vista del gráfico anterior. Podemos concluir que los estudiantes no están igual de preparados en todas las especialidades (estaciones).

Por estación: diferencias entre áreas

Gráficamente, las diferencias entre áreas en cada estación se muestran a continuación.

Comparamos ahora estadísticamente, en cada estación las calificaciones en las diferentes áreas que intervienen, utilizando el test de Friedman. En la siguiente tabla se muestran los p-valores asociados al test de igualdad. Un p-valor significativo implica que rechazamos la igualdad en la evaluación de las distintas áreas que han sido evaluadas en una estación dada, a favor de diferencias entre ellas.

## En la Estacion  E21  es inviable la comparación, al sólo haber 1 área evaluada.
  p-valor Friedman
E01 1.96e-08
E02 2.445e-19
E03 5.566e-08
E04 0.0007201
E05 7.238e-08
E06 4.648e-11
E07 0.001237
E08 7.367e-49
E09 7.497e-18
E10 6.167e-19
E12 2.126e-35
E13 1.833e-13
E14 4.678e-20
E15 0.01492
E16 5.481e-18
E18 5.699e-37
E19 9.946e-12
E20 3.636e-24
E21 NA
E22 1.244e-10

En cada una de las estaciones se aprecian diferencias significativas en la evaluación de las diferentes áreas, salvo en la Estación E21, que sólo evalúa un área competencial.

Por estación: diferencias entre tribunales

En cada estación, ¿existieron diferencias significativas entre las calificaciones medias que se dieron en los 5 tribunales que evaluaron entre el sábado y el domingo?

En cada estación testamos a continuación las diferencias entre los 5 tribunales de evaluación respecto a las calificaciones dadas. Mostramos los p-valores del test de Kruskal-Wallis en el que la hipótesis nula consiste en la igualdad entre los tribunales. Un p-valor significativo (\(<0.05\)) implica que se rechaza la hipótesis nula y se reconocen diferencias entre los tribunales a la hora de juzgar la calificación de un alumno en cada una de las estaciones evaluadas. Dichos p-valores se presentan en la siguiente tabla:

## Adding missing grouping variables: `estacion`
Table continues below
estacion E01 E02 E03 E04 E05
pval 5.892464e-05 4.937951e-05 5.360865e-12 5.411662e-06 6.000521e-01
Table continues below
estacion E06 E07 E08 E09 E10
pval 2.288588e-04 3.502646e-07 6.733162e-09 2.243177e-05 6.123317e-07
Table continues below
estacion E12 E13 E14 E15 E16
pval 8.629432e-14 3.877083e-02 1.850182e-05 3.066108e-02 1.246286e-10
estacion E18 E19 E20 E21 E22
pval 2.195346e-09 4.766475e-01 2.277283e-04 7.766872e-01 4.608593e-03

Sólo en las estaciones E05, E19, E21 no existen evidencias suficientes para reconocer diferencias entre los tribunales. Para el resto, el comportamiento de los tribunales es significativamente distinto para calificar cada estación.

Mostramos a continuación gráficamente las diferencias entre tribunales en cada estación.

Y a continuación individualmente para cada estación:

Por estación y área: diferencias entre tribunales

Mostramos a continuación los p-valores asociados a los test de comparación entre la evaluación dada por los 5 tribunales, en cada una de las combinaciones estación-área.

## Adding missing grouping variables: `estacion`, `areasim`
Table continues below
  Anam AspEtic ExpClin HabCom HabTec JuiClin PrevSalu
E01 0.001567 NA 3.5e-05 0.000141 NA NA NA
E02 NA NA NA NA NA 0.2054 NA
E03 NA 0 NA NA NA NA 0
E04 NA 0.1854 1.2e-05 NA 0.000156 NA NA
E05 NA 0.5912 NA NA NA NA NA
E06 NA NA 0.000273 0.1706 NA NA NA
E07 NA 0 NA NA 0 0.003003 NA
E08 0.00337 NA 0 0.0969 NA 0.000641 NA
E09 NA NA 1e-06 NA 1.2e-05 0.7248 NA
E10 NA 0.3823 NA NA NA 0.002799 0
E12 0 NA 0 0 NA 1.7e-05 NA
E13 5.8e-05 NA NA NA 2.5e-05 NA 0
E14 NA 0.09108 NA NA 3.7e-05 NA 0.002597
E15 0.000412 NA NA 0.01321 NA 0.008829 0.04146
E16 NA NA 0.001882 NA 1e-04 2.4e-05 0
E18 0.000817 NA 5e-06 0.02129 NA 0.2648 0
E19 NA NA NA NA NA 0.2325 NA
E20 0.001939 NA 0.000224 0.01957 NA 0.06144 NA
E21 NA NA NA NA NA 0.7767 NA
E22 NA 0.0535 NA NA NA 0.001129 0.0103
  RelInter
E01 NA
E02 2e-06
E03 NA
E04 NA
E05 0.4232
E06 NA
E07 NA
E08 NA
E09 NA
E10 NA
E12 NA
E13 NA
E14 NA
E15 NA
E16 NA
E18 NA
E19 0.6536
E20 NA
E21 NA
E22 NA

No encontramos diferencias significativas (al 5%) entre los tribunales que evaluaron las siguientes estaciones-areas:

estacion areasim pval
E02 JuiClin 0.205381
E04 AspEtic 0.185370
E05 AspEtic 0.591203
E05 RelInter 0.423205
E06 HabCom 0.170644
E08 HabCom 0.096901
E09 JuiClin 0.724752
E10 AspEtic 0.382313
E14 AspEtic 0.091084
E18 JuiClin 0.264839
E19 JuiClin 0.232515
E19 RelInter 0.653633
E20 JuiClin 0.061439
E21 JuiClin 0.776687
E22 AspEtic 0.053504

Y visualizamos a continuación gráficamente las diferencias entre los tribunales para cada una de las estaciones y áreas.

Diferencias entre áreas

¿Cuáles han sido las calificaciones en las diferentes áreas? ¿Qué diferencias se aprecian entre ellas?

Trabajamos con la calificación media de cada sujeto por área. Mostramos los descriptivos para cada área a continuación.

## Warning in matrix(value, n, p): la longitud de los datos [54] no es un
## submúltiplo o múltiplo del número de columnas [5] en la matriz
areasim median q25 q75 minimum maximum n
Anam 7.163 6.723 7.617 5.195 8.815 116
AspEtic 8.561 7.972 9.092 6.051 9.918 116
ExpClin 7.156 6.659 7.763 4.783 8.924 116
HabCom 7.790 7.365 8.115 5.722 9.381 116
HabTec 7.267 6.614 7.740 5.403 9.003 116
JuiClin 7.051 6.612 7.411 5.137 8.591 116
PrevSalu 7.207 6.627 7.856 3.259 8.986 116
RelInter 5.274 4.360 6.054 2.542 7.925 116
Todos datos 7.265 6.556 7.913 2.542 9.918 928

Las áreas competenciales en las que los estudiantes resultan mejor posicionados (respecto de su calificación ECOE) son (desde la mejor a la peor):

## 1 . AspEtic >   2 . HabCom >   3 . HabTec >   4 . PrevSalu >

y en la que quedan peor posicionados es:

## RelInter

Gráficamente visualizamos la diferencias entre las áreas competenciales, y la testamos con el test de Friedman.

Se aprecian diferencias significativas entre las calificaciones obtenidas en las diferentes áreas competenciales, con un p-valor en el test Friedman de 4.213530810^{-80}. En principio no resultan igual de competentes los estudiantes en todas las áreas competenciales.

Por área: diferencias entre estaciones

Comparamos, en cada área, la evaluación en las diferentes estaciones Se muestran en la tabla a continuación los p-valores asociados al test de Friedman (cada alumno fue evaluado en todas las estaciones).

Anam AspEtic ExpClin HabCom HabTec JuiClin PrevSalu RelInter
1.095e-46 5.886e-46 2.874e-70 1.56e-51 3.208e-44 2.77e-91 1.716e-17 3.674e-17

Para todas las áreas se aprecian diferencias significativas en la evaluación llevada a cabo en las diferentes estaciones en que se han considerado.

Las diferencias gráficas ya las mostramos en el gráfico que ilustraba la sección Diferencias entre áreas para cada estación.

Por área: diferencias entre tipos de prueba

Calculamos los descriptivos en cada área para cada tipo de prueba:

## Área  AnamnesisÁrea  Aspectos eticos/legales y profesionalismoÁrea  Exploracion ClinicaÁrea  Habilidades de ComunicacionÁrea  Habilidades tecnicas/ProcedimentalesÁrea  Juicio Clinico, plan de manejo diagnostico y terapeuticoÁrea  Prevencion y promocion de la saludÁrea  Relaciones interprofesionales

Comparamos a continuación el efecto que puede tener, en cada área, el tipo de prueba que se ha utilizado para la evaluación. Utilizamos como punto de partida la nota media de cada sujeto evaluado, para cada área y tipo de prueba.

## En el área  Relaciones interprofesionales  es inviable la comparación, al haber sido evaluada con sólo 1 tipo de prueba
Anam AspEtic ExpClin HabCom HabTec JuiClin PrevSalu RelInter
0.3908 3.127e-05 6.611e-11 4.417e-13 6.472e-17 1.263e-18 2.034e-07 0

Tan sólo no podemos rechazar diferencias debidas al tipo de prueba en la evaluación del área Anamnesis, en la que se utilizaron como tipos de prueba EOE, PEA, PER.

Visualizamos a continuación gráficamente, las diferencias entre tipos de pruebas en cada área:

Referencias