Metodología
Diferencias entre turnos de examen
Diferencias entre tribunales
Diferencias entre tipos de prueba
- Procedimiento Estandarizado (PE): diferencias entre actores (PEA) y profesionales (PER)
Diferencias entre estaciones
Diferencias entre áreas
- Por área: diferencias entre estaciones
- Por área: diferencias entre tipos de prueba
Referencias

Metodología

Procedemos a continuación a responder una serie de preguntas desde el punto de vista descriptivo e inferencial. Las pruebas de comparación de grupos las basamos en:

el test no-paramétrico de Kruskal-Wallis (KW), cuando las comparaciones se realizan entre datos independientes (comportamiento de diferentes sujetos),
el test no-paramétrico de Friedman (FR) para medidas repetidas, cuando las comparaciones se realizan entre datos dependientes (comportamiento de los mismos sujetos en distintas pruebas).

Se muestran tablas con percentiles basados en las notas medias de los alumnos, mínimos y máximos, tanto para grupos como para globales.

Para los gráficos boxplot, se muestra la distribucion de calificaciones en cada uno de los grupos descritos por la variable que categoriza (en cada apartado), y una caja adicional con todas las calificaciones en global, con el fin de poder visualizar la comparación entre grupos y respecto del total.

Diferencias entre turnos de examen

¿Cuáles han sido las calificaciones de los alumnos durante los tres turnos de examen (grupo)? ¿Ha habido diferencias entre esos turnos?

Calculamos inicialmente la calificación media para cada sujeto en todas las pruebas que ha realizado. Describimos a continuación estas calificaciones, a través de percentiles y rango (mínimo-máximo), en cada uno de los turnos y en global.

grupo	median	q25	q75	minimum	maximum
1SM	7.100	6.888	7.429	6.155	7.930
2ST	7.140	6.964	7.436	6.470	7.965
3DM	7.242	7.116	7.536	6.585	8.135
Todos datos	7.143	6.905	7.436	6.155	8.135

A la vista del gráfico, y aunque las medianas muestran cierta tendencia al alza desde el sábado mañana al domingo mañana, el test KW, con un p-valor de 0.1608, no se puede concluir a favor de diferencias significativas entre las calificaciones de los estudiantes en los tres turnos (no podemos rechazar igualdad en el comportamiento, en calificación, en los tres turnos). No se puede concluir a favor de un efecto claro de aprendizaje por la experiencia de los compañeros que realizaron previamente el examen.

Diferencias entre tribunales

¿Cuáles han sido las calificaciones de los alumnos en cada uno de los 5 turnos de evaluación, considerando que el sábado mañana y sábado tarde se realizaron 2 ruedas simultáneas con evaluadores diferentes? ¿Ha habido diferencias entre esos turnos?

Calculamos inicialmente la calificación media para cada sujeto en todos los tribunales. Describimos a continuación estas calificaciones, a través de percentiles y rango (mínimo-máximo), en cada uno de los tribunales y en global.

tribunal	median	q25	q75	minimum	maximum
1SMA	7.242	7.116	7.536	6.585	8.135
2SMB	7.135	6.777	7.445	6.350	7.720
3STA	7.065	6.895	7.365	6.155	7.930
4STB	7.140	7.003	7.361	6.635	7.705
5DMA	7.178	6.847	7.454	6.470	7.965
Todos datos	7.143	6.905	7.436	6.155	8.135

A la vista del gráfico, y aunque las medianas muestran cierta tendencia al alza desde el sábado mañana al domingo mañana, el test KW, con un p-valor de 0.4344, no se puede concluir a favor de diferencias significativas entre las calificaciones dadas por los 5 tribunales (no podemos rechazar igualdad en el comportamiento entre los cinco tribunales).

Diferencias entre tipos de prueba

Recordemos que para la evaluación en cada estación se utilizó un tipo de prueba específica, a saber:

## 
##  Tipo de prueba  EOE  fue utilizado en las estaciones: E03 E07 E10 E13
##  Tipo de prueba  IC  fue utilizado en las estaciones: E02 E05 E19 E21 E22
##  Tipo de prueba  MP  fue utilizado en las estaciones: E04 E09 E14 E16
##  Tipo de prueba  PEA  fue utilizado en las estaciones: E01 E15 E20
##  Tipo de prueba  PER  fue utilizado en las estaciones: E06 E08 E12 E18

¿Cuáles han sido las calificaciones en los diferentes tipos de prueba? ¿Se aprecian diferencias entre ellas?

Trabajamos con la calificación media de cada sujeto por tipo de prueba. Calculamos a continuación los percentiles para estas calificaciones (medias) sujeto-tipoprueba.

tipoprueba	median	q25	q75	minimum	maximum	n
EOE	7.475	6.950	7.788	5.500	8.925	116
IC	6.410	5.960	7.045	5.020	8.180	116
MP	7.888	7.475	8.250	5.800	8.800	116
PEA	6.817	6.225	7.300	4.600	8.533	116
PER	7.525	7.069	7.875	5.975	8.850	116
Todos datos	7.271	6.665	7.806	4.600	8.925	580

Los tipos de prueba en los que los estudiantes son mejor calificados son, de mayor a menor:

## 1 . MP >   2 . PER >   3 . EOE >   4 . PEA >   5 . IC >

Apreciamos diferencias significativas entre las calificaciones medias por tipo de prueba, evaluadas con el test de Friedman, con un p-valor de 1.003195810^{-42}: el tipo de prueba influye significativamente en las calificaciones de los estudiantes examinados.

Procedimiento Estandarizado (PE): diferencias entre actores (PEA) y profesionales (PER)

Dado que algunas de las pruebas basadas en Procedimiento Estandarizado (PE) fueron realizadas por actores (PEA) y otras por profesionales residentes (PER), ¿existen diferencias entre que el Procedimiento Estandarizado lo asuma un actor o un profesional?

Trabajamos con la calificación media de cada sujeto en las pruebas de tipo PE (PER y PEA). Calculamos a continuación los percentiles para estas calificaciones (medias) sujeto-tipo de prueba.

tipoprueba	median	q25	q75	minimum	maximum	n
PEA	6.817	6.225	7.300	4.600	8.533	116
PER	7.525	7.069	7.875	5.975	8.850	116
Todos datos	7.125	6.650	7.750	4.600	8.850	232

La calificación dada por actores queda por debajo de la dada por evaluadores. En principio resultan más exigentes los actores que los profesionales.

Para las calificaciones obtenidas en pruebas realizadas con Procedimiento Estandarizado (PE), se aprecian diferencias significativas entre las calificaciones otorgadas por actores y las otorgadas por profesionales. El p-valor en el test KW de 9.993673810^{-13}. No evalúan igual los actores que los profesionales en las pruebas PE.

Diferencias entre estaciones

Trabajamos con la calificación media de cada sujeto por estación. Calculamos a continuación los percentiles para estas calificaciones (medias) sujeto-estación.

estacion	median	q25	q75	minimum	maximum	n
E01	6.30	5.500	6.900	3.1	10.0	116
E02	5.25	4.275	6.100	0.0	8.3	116
E03	7.70	6.600	8.300	3.6	10.0	116
E04	8.50	8.000	9.000	5.1	10.0	116
E05	7.70	6.900	8.650	4.0	9.6	116
E06	9.70	9.250	10.000	6.5	10.0	116
E07	7.45	6.675	8.300	2.9	9.6	116
E08	6.85	6.000	7.500	0.0	9.5	116
E09	7.30	6.300	8.700	3.4	10.0	116
E10	8.90	8.500	9.400	6.6	10.0	116
E12	5.75	4.600	7.100	2.4	10.0	116
E13	5.80	4.975	7.025	2.3	9.3	116
E14	8.40	7.800	9.000	5.1	10.0	116
E15	6.40	5.200	7.525	2.7	8.6	116
E16	7.20	6.300	8.325	4.0	10.0	116
E18	7.95	6.800	8.800	4.3	10.0	116
E19	5.80	4.800	6.800	1.6	8.2	116
E20	7.95	7.300	8.525	4.6	9.7	116
E21	6.60	5.200	8.600	2.6	10.0	116
E22	6.85	6.200	7.500	4.0	9.3	116
Todos datos	7.30	6.000	8.500	0.0	10.0	2320

Las estaciones con mayor mediana son, de mayor a menor calificación:

## 1 .  E08 >   2 .  E21 >   3 .  E15 >   4 .  E01 >   5 .  E08 >

Las dos estaciones con una calificación (mediana) más baja:

## E12 E02

Apreciamos diferencias significativas entre las calificaciones medias por estación, evaluadas con el test de Friedman, con un p-valor de 1.766088510^{-194}, así como diferencias en la variabilidad entre las diferentes estaciones a la vista del gráfico anterior. Podemos concluir que los estudiantes no están igual de preparados en todas las especialidades (estaciones).

Por estación: diferencias entre áreas

Gráficamente, las diferencias entre áreas en cada estación se muestran a continuación.

Comparamos ahora estadísticamente, en cada estación las calificaciones en las diferentes áreas que intervienen, utilizando el test de Friedman. En la siguiente tabla se muestran los p-valores asociados al test de igualdad. Un p-valor significativo implica que rechazamos la igualdad en la evaluación de las distintas áreas que han sido evaluadas en una estación dada, a favor de diferencias entre ellas.

## En la Estacion  E21  es inviable la comparación, al sólo haber 1 área evaluada.

	p-valor Friedman
E01	1.96e-08
E02	2.445e-19
E03	5.566e-08
E04	0.0007201
E05	7.238e-08
E06	4.648e-11
E07	0.001237
E08	7.367e-49
E09	7.497e-18
E10	6.167e-19
E12	2.126e-35
E13	1.833e-13
E14	4.678e-20
E15	0.01492
E16	5.481e-18
E18	5.699e-37
E19	9.946e-12
E20	3.636e-24
E21	NA
E22	1.244e-10

En cada una de las estaciones se aprecian diferencias significativas en la evaluación de las diferentes áreas, salvo en la Estación E21, que sólo evalúa un área competencial.

Por estación: diferencias entre tribunales

En cada estación, ¿existieron diferencias significativas entre las calificaciones medias que se dieron en los 5 tribunales que evaluaron entre el sábado y el domingo?

En cada estación testamos a continuación las diferencias entre los 5 tribunales de evaluación respecto a las calificaciones dadas. Mostramos los p-valores del test de Kruskal-Wallis en el que la hipótesis nula consiste en la igualdad entre los tribunales. Un p-valor significativo (\(<0.05\)) implica que se rechaza la hipótesis nula y se reconocen diferencias entre los tribunales a la hora de juzgar la calificación de un alumno en cada una de las estaciones evaluadas. Dichos p-valores se presentan en la siguiente tabla:

## Adding missing grouping variables: `estacion`

Table continues below
estacion	E01	E02	E03	E04	E05
pval	5.892464e-05	4.937951e-05	5.360865e-12	5.411662e-06	6.000521e-01

Table continues below
estacion	E06	E07	E08	E09	E10
pval	2.288588e-04	3.502646e-07	6.733162e-09	2.243177e-05	6.123317e-07

Table continues below
estacion	E12	E13	E14	E15	E16
pval	8.629432e-14	3.877083e-02	1.850182e-05	3.066108e-02	1.246286e-10

estacion	E18	E19	E20	E21	E22
pval	2.195346e-09	4.766475e-01	2.277283e-04	7.766872e-01	4.608593e-03

Sólo en las estaciones E05, E19, E21 no existen evidencias suficientes para reconocer diferencias entre los tribunales. Para el resto, el comportamiento de los tribunales es significativamente distinto para calificar cada estación.

Mostramos a continuación gráficamente las diferencias entre tribunales en cada estación.

Y a continuación individualmente para cada estación:

Por estación y área: diferencias entre tribunales

Mostramos a continuación los p-valores asociados a los test de comparación entre la evaluación dada por los 5 tribunales, en cada una de las combinaciones estación-área.

## Adding missing grouping variables: `estacion`, `areasim`

Table continues below
	Anam	AspEtic	ExpClin	HabCom	HabTec	JuiClin	PrevSalu
E01	0.001567	NA	3.5e-05	0.000141	NA	NA	NA
E02	NA	NA	NA	NA	NA	0.2054	NA
E03	NA	0	NA	NA	NA	NA	0
E04	NA	0.1854	1.2e-05	NA	0.000156	NA	NA
E05	NA	0.5912	NA	NA	NA	NA	NA
E06	NA	NA	0.000273	0.1706	NA	NA	NA
E07	NA	0	NA	NA	0	0.003003	NA
E08	0.00337	NA	0	0.0969	NA	0.000641	NA
E09	NA	NA	1e-06	NA	1.2e-05	0.7248	NA
E10	NA	0.3823	NA	NA	NA	0.002799	0
E12	0	NA	0	0	NA	1.7e-05	NA
E13	5.8e-05	NA	NA	NA	2.5e-05	NA	0
E14	NA	0.09108	NA	NA	3.7e-05	NA	0.002597
E15	0.000412	NA	NA	0.01321	NA	0.008829	0.04146
E16	NA	NA	0.001882	NA	1e-04	2.4e-05	0
E18	0.000817	NA	5e-06	0.02129	NA	0.2648	0
E19	NA	NA	NA	NA	NA	0.2325	NA
E20	0.001939	NA	0.000224	0.01957	NA	0.06144	NA
E21	NA	NA	NA	NA	NA	0.7767	NA
E22	NA	0.0535	NA	NA	NA	0.001129	0.0103

	RelInter
E01	NA
E02	2e-06
E03	NA
E04	NA
E05	0.4232
E06	NA
E07	NA
E08	NA
E09	NA
E10	NA
E12	NA
E13	NA
E14	NA
E15	NA
E16	NA
E18	NA
E19	0.6536
E20	NA
E21	NA
E22	NA

No encontramos diferencias significativas (al 5%) entre los tribunales que evaluaron las siguientes estaciones-areas:

estacion	areasim	pval
E02	JuiClin	0.205381
E04	AspEtic	0.185370
E05	AspEtic	0.591203
E05	RelInter	0.423205
E06	HabCom	0.170644
E08	HabCom	0.096901
E09	JuiClin	0.724752
E10	AspEtic	0.382313
E14	AspEtic	0.091084
E18	JuiClin	0.264839
E19	JuiClin	0.232515
E19	RelInter	0.653633
E20	JuiClin	0.061439
E21	JuiClin	0.776687
E22	AspEtic	0.053504

Y visualizamos a continuación gráficamente las diferencias entre los tribunales para cada una de las estaciones y áreas.

Diferencias entre áreas

¿Cuáles han sido las calificaciones en las diferentes áreas? ¿Qué diferencias se aprecian entre ellas?

Trabajamos con la calificación media de cada sujeto por área. Mostramos los descriptivos para cada área a continuación.

## Warning in matrix(value, n, p): la longitud de los datos [54] no es un
## submúltiplo o múltiplo del número de columnas [5] en la matriz

areasim	median	q25	q75	minimum	maximum	n
Anam	7.163	6.723	7.617	5.195	8.815	116
AspEtic	8.561	7.972	9.092	6.051	9.918	116
ExpClin	7.156	6.659	7.763	4.783	8.924	116
HabCom	7.790	7.365	8.115	5.722	9.381	116
HabTec	7.267	6.614	7.740	5.403	9.003	116
JuiClin	7.051	6.612	7.411	5.137	8.591	116
PrevSalu	7.207	6.627	7.856	3.259	8.986	116
RelInter	5.274	4.360	6.054	2.542	7.925	116
Todos datos	7.265	6.556	7.913	2.542	9.918	928

Las áreas competenciales en las que los estudiantes resultan mejor posicionados (respecto de su calificación ECOE) son (desde la mejor a la peor):

## 1 . AspEtic >   2 . HabCom >   3 . HabTec >   4 . PrevSalu >

y en la que quedan peor posicionados es:

## RelInter

Gráficamente visualizamos la diferencias entre las áreas competenciales, y la testamos con el test de Friedman.

Se aprecian diferencias significativas entre las calificaciones obtenidas en las diferentes áreas competenciales, con un p-valor en el test Friedman de 4.213530810^{-80}. En principio no resultan igual de competentes los estudiantes en todas las áreas competenciales.

Por área: diferencias entre estaciones

Comparamos, en cada área, la evaluación en las diferentes estaciones Se muestran en la tabla a continuación los p-valores asociados al test de Friedman (cada alumno fue evaluado en todas las estaciones).

Anam	AspEtic	ExpClin	HabCom	HabTec	JuiClin	PrevSalu	RelInter
1.095e-46	5.886e-46	2.874e-70	1.56e-51	3.208e-44	2.77e-91	1.716e-17	3.674e-17

Para todas las áreas se aprecian diferencias significativas en la evaluación llevada a cabo en las diferentes estaciones en que se han considerado.

Las diferencias gráficas ya las mostramos en el gráfico que ilustraba la sección Diferencias entre áreas para cada estación.

Por área: diferencias entre tipos de prueba

Calculamos los descriptivos en cada área para cada tipo de prueba:

## Área  AnamnesisÁrea  Aspectos eticos/legales y profesionalismoÁrea  Exploracion ClinicaÁrea  Habilidades de ComunicacionÁrea  Habilidades tecnicas/ProcedimentalesÁrea  Juicio Clinico, plan de manejo diagnostico y terapeuticoÁrea  Prevencion y promocion de la saludÁrea  Relaciones interprofesionales

Comparamos a continuación el efecto que puede tener, en cada área, el tipo de prueba que se ha utilizado para la evaluación. Utilizamos como punto de partida la nota media de cada sujeto evaluado, para cada área y tipo de prueba.

## En el área  Relaciones interprofesionales  es inviable la comparación, al haber sido evaluada con sólo 1 tipo de prueba

Anam	AspEtic	ExpClin	HabCom	HabTec	JuiClin	PrevSalu	RelInter
0.3908	3.127e-05	6.611e-11	4.417e-13	6.472e-17	1.263e-18	2.034e-07	0

Tan sólo no podemos rechazar diferencias debidas al tipo de prueba en la evaluación del área Anamnesis, en la que se utilizaron como tipos de prueba EOE, PEA, PER.

Visualizamos a continuación gráficamente, las diferencias entre tipos de pruebas en cada área:

Referencias

Kruskas-Wallis test, in Handbook of Biological Statistics, by John H. McDonald, http://www.biostathandbook.com/kruskalwallis.html
Friedman test, by Milton Friedman. Described in https://en.wikipedia.org/wiki/Friedman_test
R software, in https://www.r-project.org/about.html
R Studio, in https://www.rstudio.com/
Librerías utilizadas en R: ggplot2, dplyr, pander

Informe ECOE 2017 ANÁLISIS

A.M.MAYORAL

26/02/2017