Trabajo Banco de Datos

Grupo C

Nombres de los participantes: Manuel Iniesta, Diego Fuentes, Iker Valía

Índice de contenidos

 

Introducción


Hemos usado la base de datos nyc_marathon para realizar los siguientes ejercicios:

Objetivos


Los objetivos de este trabajo son los siguientes:

Análisis descriptivo

  Distribuimos los valores de la variable time_hrs excluyendo los valores NA (es decir, sólo consideramos a los participantes que han completado la prueba), en un histograma para verificar si los datos siguen una distribución normal.

mean(nyc_marathon$time_hrs, na.rm = TRUE);
## [1] 2.350295
median(nyc_marathon$time_hrs, na.rm = TRUE)
## [1] 2.385833

Análisis descriptivo

 
Además, podemos verificar que los datos no siguen una distribución normal utilizando la pruebaShapiro-Wilk:

shapiro.test(nyc_marathon$time_hrs)
## 
##  Shapiro-Wilk normality test
## 
## data:  nyc_marathon$time_hrs
## W = 0.83772, p-value = 4.871e-09

Como el P-valor < 0.05 rechazamos la hipótesis nula, por lo que podemos afirmar que los datos de la variable time_hrs no siguen una distribución normal.

Análisis descriptivo

 

Diagrama de cajas y bigotes relacionando con el tiempo de cada país:

  • La variable menos simétrica es United States (diferencias entre bigotes).
  • La variable con mayor rango intercuartílico es United States (datos más dispersos).
  • Las variables que tienen menor variabilidad son Poland, Morocco… (datos más concentrados).

Analisis descriptivo

 

Analisis de los tiempos mas rapidos:

Vamos a comprobar los 5 mejores tiempos de todos los corredores:

## # A tibble: 6 × 7
##    year name                  country  time     time_hrs division note          
##   <dbl> <chr>                 <chr>    <time>      <dbl> <chr>    <chr>         
## 1  2011 Geoffrey Mutai        Kenya    02:05:06     2.08 Men      Current cours…
## 2  2018 Lelisa Desisa         Ethiopia 02:05:59     2.10 Men      <NA>          
## 3  2001 Tesfaye Jifar         Ethiopia 02:07:43     2.13 Men      Course record 
## 4  2016 Ghirmay Ghebreslassie Eritrea  02:07:51     2.13 Men      <NA>          
## 5  1989 Juma Ikangaa          Tanzania 02:08:01     2.13 Men      Course record 
## 6  2002 Rodgers Rop           Kenya    02:08:07     2.14 Men      <NA>

Como podemos ver los mejores tiempos son realizados en la categoria masculina, el cual el mejor fue realizado en 2011 por Goeffrey Mutai con un tiempo de 2 horas y 5 minutos.

Ejercicio Contraste de hipotesis


Se esta llevando a cabo un estudio para medir los hombres ganadores de los maratones. Se seleccionan 52 corredores de los ganadores de maratones y la medición de sus marcas.

Despues de la medición se realiza una media muestral donde se obtiene que son de 7907.56 segundos. Teniendo una desviación tipica de 345.0403 segundos.

Se quiere determinar si hay suficiente evidencia para demostrar las marcas utilizando un nivel de significación del 5%.

Hemos obtenido la media y la desviacion tipica con este codigo:

## Time difference of 7907.56 secs
## [1] 345.0403

1-Plantea la hipotesis en la cual se quiere saber si la media es 7820.

Hipótesis nula (H0): La medicion es efectiva, es decir, \(H_0 : µ = 7820\).

Hipótesis alternativa (H1): La medición no es efectiva, es decir, \(H_1: µ ≠ 7820\).

Nivel de significacion es del \(α = 0.05\).

Ejercicio Contraste de hipotesis


2-Calcula el contraste estadístico.

## [1] 1.829943

3-Calcula el p-valor

## [1] 0.06725844

4-Extrae las conclusiones del ejercicio.

Como p-valor es mayor que \(α\) la hipotesis \(H_0\) no se rechaza.