En la competencia de 100m el valor máximo es el tiempo que demoró el perdedor (11.64 segundos). Lo mismo se aplica en 400m (53.20 segundos), 1500m (317.0 segundos) y 110m Hurdle (15.67 segundos).
En el caso de Long Jump, el máximo sería de cuántos metros fue el salto del ganador (7.96 metros), lo mismo para High Jump (2.150 metros).
En el caso del Shot Put, el máximo representa la cantidad de kilogramos que cargó el participante cuyas características (género principalmente) implican tal peso en la bola de metal (16.36 kilogramos).
Para Discus, el máximo implica la distancia a la que el ganador consiguió arrojar el disco (51.65 metros), bastante similar a Javeline (70.52 metros). En Pole Vault, el máximo es la altura que consiguió superar el ganador (5.400 metros).
summary(decathlon)
## 100m Long.jump Shot.put High.jump 400m
## Min. :10.44 Min. :6.61 Min. :12.68 Min. :1.850 Min. :46.81
## 1st Qu.:10.85 1st Qu.:7.03 1st Qu.:13.88 1st Qu.:1.920 1st Qu.:48.93
## Median :10.98 Median :7.30 Median :14.57 Median :1.950 Median :49.40
## Mean :11.00 Mean :7.26 Mean :14.48 Mean :1.977 Mean :49.62
## 3rd Qu.:11.14 3rd Qu.:7.48 3rd Qu.:14.97 3rd Qu.:2.040 3rd Qu.:50.30
## Max. :11.64 Max. :7.96 Max. :16.36 Max. :2.150 Max. :53.20
## 110m.hurdle Discus Pole.vault Javeline
## Min. :13.97 Min. :37.92 Min. :4.200 Min. :50.31
## 1st Qu.:14.21 1st Qu.:41.90 1st Qu.:4.500 1st Qu.:55.27
## Median :14.48 Median :44.41 Median :4.800 Median :58.36
## Mean :14.61 Mean :44.33 Mean :4.762 Mean :58.32
## 3rd Qu.:14.98 3rd Qu.:46.07 3rd Qu.:4.920 3rd Qu.:60.89
## Max. :15.67 Max. :51.65 Max. :5.400 Max. :70.52
## 1500m Rank Points Competition
## Min. :262.1 Min. : 1.00 Min. :7313 Decastar:13
## 1st Qu.:271.0 1st Qu.: 6.00 1st Qu.:7802 OlympicG:28
## Median :278.1 Median :11.00 Median :8021
## Mean :279.0 Mean :12.12 Mean :8005
## 3rd Qu.:285.1 3rd Qu.:18.00 3rd Qu.:8122
## Max. :317.0 Max. :28.00 Max. :8893
var(decathlon$`100m`)
## [1] 0.0691811
var(decathlon$Long.jump)
## [1] 0.10011
var(decathlon$Shot.put)
## [1] 0.6796812
var(decathlon$High.jump)
## [1] 0.007912195
var(decathlon$`400m`)
## [1] 1.330449
var(decathlon$`110m.hurdle`)
## [1] 0.2225849
var(decathlon$Discus)
## [1] 11.40984
var(decathlon$Pole.vault)
## [1] 0.0772839
var(decathlon$Javeline)
## [1] 23.29819
var(decathlon$`1500m`)
## [1] 136.2647
La varianza de los datos resulta bastante baja en 100m (0.691811), Long Jump (0.10011), Shot Put (0.6796812), High Jump (0.007912195), 400m (1.330449), 110m Hurdle (0.2225849) y Pole Vault (0.0772839), siendo que los competidores se mantuvieron más o menos en el mismo promedio.
En cambio, la varianza en Discus (11.40984), Javeline (23.29819) y 1500m (136.2647) es bastante alta, indicando que los competidores distaron mucho en sus resultados.
a) Diagrama de dispersión
ggplot(decathlon, aes(x=`100m`, y=`400m`))+
geom_jitter(color="#FF1493")+
geom_smooth(method=lm, color="mediumpurple4")
## `geom_smooth()` using formula = 'y ~ x'
b) Correlación
cor(decathlon$`100m`, decathlon$`400m`)
## [1] 0.5202982
Ambas disciplinas consisten en realizar una carrera, pero se diferencian por la distancia. Dado el índice de correlación cercano a 1, están bastante cerca de seguir una tendencia lineal. En el diagrama de dispersión se aprecia una relación positiva débil, con algunos datos atípicos.
cor(decathlon[,1:10])
## 100m Long.jump Shot.put High.jump 400m
## 100m 1.00000000 -0.59867767 -0.35648227 -0.24625292 0.520298155
## Long.jump -0.59867767 1.00000000 0.18330436 0.29464444 -0.602062618
## Shot.put -0.35648227 0.18330436 1.00000000 0.48921153 -0.138432919
## High.jump -0.24625292 0.29464444 0.48921153 1.00000000 -0.187956928
## 400m 0.52029815 -0.60206262 -0.13843292 -0.18795693 1.000000000
## 110m.hurdle 0.57988893 -0.50541009 -0.25161571 -0.28328909 0.547987756
## Discus -0.22170757 0.19431009 0.61576810 0.36921834 -0.117879365
## Pole.vault -0.08253683 0.20401411 0.06118185 -0.15618074 -0.079292469
## Javeline -0.15774645 0.11975893 0.37495551 0.17188009 0.004232096
## 1500m -0.06054645 -0.03368613 0.11580306 -0.04490252 0.408106432
## 110m.hurdle Discus Pole.vault Javeline 1500m
## 100m 0.579888931 -0.2217076 -0.082536834 -0.157746452 -0.06054645
## Long.jump -0.505410086 0.1943101 0.204014112 0.119758933 -0.03368613
## Shot.put -0.251615714 0.6157681 0.061181853 0.374955509 0.11580306
## High.jump -0.283289090 0.3692183 -0.156180742 0.171880092 -0.04490252
## 400m 0.547987756 -0.1178794 -0.079292469 0.004232096 0.40810643
## 110m.hurdle 1.000000000 -0.3262010 -0.002703885 0.008743251 0.03754024
## Discus -0.326200961 1.0000000 -0.150072400 0.157889799 0.25817510
## Pole.vault -0.002703885 -0.1500724 1.000000000 -0.030000603 0.24744778
## Javeline 0.008743251 0.1578898 -0.030000603 1.000000000 -0.18039313
## 1500m 0.037540240 0.2581751 0.247447780 -0.180393128 1.00000000
ggplot(decathlon, aes(x=Competition, y=Javeline)) +
geom_boxplot(fill="goldenrod2") +
labs(y="Prueba: Javeline (m)", x="Competition",
title="Distribución de Javeline por Competencia")
ggplot(decathlon, aes(x=Competition, y=Discus)) +
geom_boxplot(fill="lightblue") +
labs(y="Prueba: Discus (m)", x="Competition",
title="Distribución de Discus por Competencia")
Para ambos casos, la caja de Discus es más compacta, indicando lanzamientos más homogéneos. En Javeline, la caja es más amplia y en OlympicG aparece un valor atípico (>70 m) que representa un rendimiento excepcional.
a) Diagrama de dispersión
ggplot(decathlon, aes(x=Long.jump, y=High.jump)) +
geom_jitter(color="mediumspringgreen") +
geom_smooth(method="lm", color="lightcoral")
## `geom_smooth()` using formula = 'y ~ x'
b) Correlación
cor(decathlon$Long.jump, decathlon$High.jump)
## [1] 0.2946444
El coeficiente de correlación obtenido (≈0.29) indica una relación positiva pero débil.