Trabajo Banco de Datos
Grupo C
Nombres de los participantes: Manuel Iniesta, Diego Fuentes, Iker Valía
Hemos usado la base de datos
nyc_marathon para realizar los siguientes
ejercicios:
Realizamos un análisis descriptivo visual utilizando las
variables time_hrs y country.
Ejecutamos una prueba de hipótesis paramétrica para determinar si la media del tiempo en horas de la categoria masculina es 7820
Los objetivos de este trabajo son los siguientes:
Distribuimos los valores de la variable time_hrs
excluyendo los valores NA (es decir, sólo consideramos a los
participantes que han completado la prueba), en un histograma para
verificar si los datos siguen una distribución normal.
Además, podemos verificar que los datos no siguen una distribución
normal utilizando la pruebaShapiro-Wilk:
##
## Shapiro-Wilk normality test
##
## data: nyc_marathon$time_hrs
## W = 0.83772, p-value = 4.871e-09
Como el P-valor < 0.05 rechazamos la hipótesis nula, por lo que
podemos afirmar que los datos de la variable time_hrs
no siguen una distribución normal.
Diagrama de cajas y bigotes relacionando con el tiempo de cada país:
United States
(diferencias entre bigotes).United States (datos más dispersos).Poland,
Morocco… (datos más concentrados).Analisis de los tiempos mas rapidos:
Vamos a comprobar los 5 mejores tiempos de todos los corredores:
## # A tibble: 6 × 7
## year name country time time_hrs division note
## <dbl> <chr> <chr> <time> <dbl> <chr> <chr>
## 1 2011 Geoffrey Mutai Kenya 02:05:06 2.08 Men Current cours…
## 2 2018 Lelisa Desisa Ethiopia 02:05:59 2.10 Men <NA>
## 3 2001 Tesfaye Jifar Ethiopia 02:07:43 2.13 Men Course record
## 4 2016 Ghirmay Ghebreslassie Eritrea 02:07:51 2.13 Men <NA>
## 5 1989 Juma Ikangaa Tanzania 02:08:01 2.13 Men Course record
## 6 2002 Rodgers Rop Kenya 02:08:07 2.14 Men <NA>
Como podemos ver los mejores tiempos son realizados en la categoria masculina, el cual el mejor fue realizado en 2011 por Goeffrey Mutai con un tiempo de 2 horas y 5 minutos.
Se esta llevando a cabo un estudio para medir los hombres ganadores de
los maratones. Se seleccionan 52 corredores de los ganadores de
maratones y la medición de sus marcas.
Despues de la medición se realiza una media muestral donde se obtiene que son de 7907.56 segundos. Teniendo una desviación tipica de 345.0403 segundos.
Se quiere determinar si hay suficiente evidencia para demostrar las marcas utilizando un nivel de significación del 5%.
Hemos obtenido la media y la desviacion tipica con este codigo:
## Time difference of 7907.56 secs
## [1] 345.0403
1-Plantea la hipotesis en la cual se quiere saber si la media es 7820.
Hipótesis nula (H0): La medicion es efectiva, es decir, \(H_0 : µ = 7820\).
Hipótesis alternativa (H1): La medición no es efectiva, es decir, \(H_1: µ ≠ 7820\).
Nivel de significacion es del \(α = 0.05\).
2-Calcula el contraste estadístico.
## [1] 1.829943
3-Calcula el p-valor
## [1] 0.06725844
4-Extrae las conclusiones del ejercicio.
Como p-valor es mayor que \(α\) la hipotesis \(H_0\) no se rechaza.