1. Estadísticas descriptivas de las 10 competencias

En la competencia de 100m el valor máximo es el tiempo que demoró el perdedor (11.64 segundos). Lo mismo se aplica en 400m (53.20 segundos), 1500m (317.0 segundos) y 110m Hurdle (15.67 segundos).

En el caso de Long Jump, el máximo sería de cuántos metros fue el salto del ganador (7.96 metros), lo mismo para High Jump (2.150 metros).

En el caso del Shot Put, el máximo representa la cantidad de kilogramos que cargó el participante cuyas características (género principalmente) implican tal peso en la bola de metal (16.36 kilogramos).

Para Discus, el máximo implica la distancia a la que el ganador consiguió arrojar el disco (51.65 metros), bastante similar a Javeline (70.52 metros). En Pole Vault, el máximo es la altura que consiguió superar el ganador (5.400 metros).

summary(decathlon)
##       100m         Long.jump       Shot.put       High.jump          400m      
##  Min.   :10.44   Min.   :6.61   Min.   :12.68   Min.   :1.850   Min.   :46.81  
##  1st Qu.:10.85   1st Qu.:7.03   1st Qu.:13.88   1st Qu.:1.920   1st Qu.:48.93  
##  Median :10.98   Median :7.30   Median :14.57   Median :1.950   Median :49.40  
##  Mean   :11.00   Mean   :7.26   Mean   :14.48   Mean   :1.977   Mean   :49.62  
##  3rd Qu.:11.14   3rd Qu.:7.48   3rd Qu.:14.97   3rd Qu.:2.040   3rd Qu.:50.30  
##  Max.   :11.64   Max.   :7.96   Max.   :16.36   Max.   :2.150   Max.   :53.20  
##   110m.hurdle        Discus        Pole.vault       Javeline    
##  Min.   :13.97   Min.   :37.92   Min.   :4.200   Min.   :50.31  
##  1st Qu.:14.21   1st Qu.:41.90   1st Qu.:4.500   1st Qu.:55.27  
##  Median :14.48   Median :44.41   Median :4.800   Median :58.36  
##  Mean   :14.61   Mean   :44.33   Mean   :4.762   Mean   :58.32  
##  3rd Qu.:14.98   3rd Qu.:46.07   3rd Qu.:4.920   3rd Qu.:60.89  
##  Max.   :15.67   Max.   :51.65   Max.   :5.400   Max.   :70.52  
##      1500m            Rank           Points       Competition
##  Min.   :262.1   Min.   : 1.00   Min.   :7313   Decastar:13  
##  1st Qu.:271.0   1st Qu.: 6.00   1st Qu.:7802   OlympicG:28  
##  Median :278.1   Median :11.00   Median :8021                
##  Mean   :279.0   Mean   :12.12   Mean   :8005                
##  3rd Qu.:285.1   3rd Qu.:18.00   3rd Qu.:8122                
##  Max.   :317.0   Max.   :28.00   Max.   :8893
var(decathlon$`100m`)
## [1] 0.0691811
var(decathlon$Long.jump)
## [1] 0.10011
var(decathlon$Shot.put)
## [1] 0.6796812
var(decathlon$High.jump)
## [1] 0.007912195
var(decathlon$`400m`)
## [1] 1.330449
var(decathlon$`110m.hurdle`)
## [1] 0.2225849
var(decathlon$Discus)
## [1] 11.40984
var(decathlon$Pole.vault)
## [1] 0.0772839
var(decathlon$Javeline)
## [1] 23.29819
var(decathlon$`1500m`)
## [1] 136.2647

La varianza de los datos resulta bastante baja en 100m (0.691811), Long Jump (0.10011), Shot Put (0.6796812), High Jump (0.007912195), 400m (1.330449), 110m Hurdle (0.2225849) y Pole Vault (0.0772839), siendo que los competidores se mantuvieron más o menos en el mismo promedio.

En cambio, la varianza en Discus (11.40984), Javeline (23.29819) y 1500m (136.2647) es bastante alta, indicando que los competidores distaron mucho en sus resultados.


  1. Relación entre las competencias de 100m y 400m

a) Diagrama de dispersión

ggplot(decathlon, aes(x=`100m`, y=`400m`))+
  geom_jitter(color="#FF1493")+
  geom_smooth(method=lm, color="mediumpurple4")
## `geom_smooth()` using formula = 'y ~ x'

b) Correlación

cor(decathlon$`100m`, decathlon$`400m`)
## [1] 0.5202982

Ambas disciplinas consisten en realizar una carrera, pero se diferencian por la distancia. Dado el índice de correlación cercano a 1, están bastante cerca de seguir una tendencia lineal. En el diagrama de dispersión se aprecia una relación positiva débil, con algunos datos atípicos.


  1. Matriz de correlaciones de las 10 competencias

cor(decathlon[,1:10])
##                    100m   Long.jump    Shot.put   High.jump         400m
## 100m         1.00000000 -0.59867767 -0.35648227 -0.24625292  0.520298155
## Long.jump   -0.59867767  1.00000000  0.18330436  0.29464444 -0.602062618
## Shot.put    -0.35648227  0.18330436  1.00000000  0.48921153 -0.138432919
## High.jump   -0.24625292  0.29464444  0.48921153  1.00000000 -0.187956928
## 400m         0.52029815 -0.60206262 -0.13843292 -0.18795693  1.000000000
## 110m.hurdle  0.57988893 -0.50541009 -0.25161571 -0.28328909  0.547987756
## Discus      -0.22170757  0.19431009  0.61576810  0.36921834 -0.117879365
## Pole.vault  -0.08253683  0.20401411  0.06118185 -0.15618074 -0.079292469
## Javeline    -0.15774645  0.11975893  0.37495551  0.17188009  0.004232096
## 1500m       -0.06054645 -0.03368613  0.11580306 -0.04490252  0.408106432
##              110m.hurdle     Discus   Pole.vault     Javeline       1500m
## 100m         0.579888931 -0.2217076 -0.082536834 -0.157746452 -0.06054645
## Long.jump   -0.505410086  0.1943101  0.204014112  0.119758933 -0.03368613
## Shot.put    -0.251615714  0.6157681  0.061181853  0.374955509  0.11580306
## High.jump   -0.283289090  0.3692183 -0.156180742  0.171880092 -0.04490252
## 400m         0.547987756 -0.1178794 -0.079292469  0.004232096  0.40810643
## 110m.hurdle  1.000000000 -0.3262010 -0.002703885  0.008743251  0.03754024
## Discus      -0.326200961  1.0000000 -0.150072400  0.157889799  0.25817510
## Pole.vault  -0.002703885 -0.1500724  1.000000000 -0.030000603  0.24744778
## Javeline     0.008743251  0.1578898 -0.030000603  1.000000000 -0.18039313
## 1500m        0.037540240  0.2581751  0.247447780 -0.180393128  1.00000000

  1. Diagramas de caja para Discus y Javeline

ggplot(decathlon, aes(x=Competition, y=Javeline)) +
  geom_boxplot(fill="goldenrod2") +
  labs(y="Prueba: Javeline (m)", x="Competition",
       title="Distribución de Javeline por Competencia")

ggplot(decathlon, aes(x=Competition, y=Discus)) +
  geom_boxplot(fill="lightblue") +
  labs(y="Prueba: Discus (m)", x="Competition",
       title="Distribución de Discus por Competencia")

Para ambos casos, la caja de Discus es más compacta, indicando lanzamientos más homogéneos. En Javeline, la caja es más amplia y en OlympicG aparece un valor atípico (>70 m) que representa un rendimiento excepcional.


  1. Relación entre Long Jump y High Jump

a) Diagrama de dispersión

ggplot(decathlon, aes(x=Long.jump, y=High.jump)) +
  geom_jitter(color="mediumspringgreen") +
  geom_smooth(method="lm", color="lightcoral")
## `geom_smooth()` using formula = 'y ~ x'

b) Correlación

cor(decathlon$Long.jump, decathlon$High.jump)
## [1] 0.2946444

El coeficiente de correlación obtenido (≈0.29) indica una relación positiva pero débil.