Maria Camila Bello Contreras 1014856040
Sofia Forero Garzón 1013257165
Yudy Marcela Leyton Carrero 1110173482
La estadística descriptiva permite “describir, resumir, tabular, graficar y realizar análisis de tipo cuantitativo”, por esta razón, en este documento se hará uso de esta herramienta para tomar y analizar una muestra aleatoria de datos, y a partir de ello realizar los respectivos gráficos, tanto para variables cuantitativas como cualitativas. Entre los gráficos que serán mostrados en el trabajo se encuentran el diagrama de barras, el boxplot, y el histograma, de los cuales se puede evidenciar el comportamiento de los datos tomados, como lo es su dispersión, su variación, como también, la frecuencia del dato (que en pocas palabras es, las veces que se repiten un número o dato de la muestra).
A continuación se mostrará la base de datos a utilizar, cargada mediante la función library()
Dato1<-Olimpicos_Atenas_2004
set.seed(250)
Datos1 <- Dato1[sample(nrow(Dato1),200),c(-1,-8,-9,-10,-11,-12) ];Datos1## # A tibble: 200 × 9
## Name Sex Age Height Weight Team Sport Event Medal
## <chr> <chr> <dbl> <dbl> <dbl> <chr> <chr> <chr> <chr>
## 1 Kashi Ananda Leuchs M 26 180 63 New Zeala… Cycl… Cycl… NA
## 2 Darian Roy Townsend M 19 195 87 South Afr… Swim… Swim… NA
## 3 Cole Shade Sule M 23 186 85 Cameroon Swim… Swim… NA
## 4 Aghiles Slimani M 21 172 57 Algeria Swim… Swim… NA
## 5 Frnk Ren Schleck M 24 185 63 Luxembourg Cycl… Cycl… NA
## 6 Leif Lampater M 21 182 70 Germany Cycl… Cycl… NA
## 7 Mon Redee Sut Txi F 22 167 64 Malaysia Arch… Arch… NA
## 8 Ralph Nf M 24 174 65 Switzerla… Cycl… Cycl… NA
## 9 Slobodan Gruji M 30 180 76 Serbia an… Tabl… Tabl… NA
## 10 Yaima Rosario Mena Pea F 19 151 49 Cuba Divi… Divi… NA
## # ℹ 190 more rows
Ahora se tomó una muestra y se eliminaron las columnas correspondientes a ID, NOC, Games, Year, Season y City, de forma que se tomó un set.seed() con los datos de una de las cédulas de las integrantes del grupo para poder obtener la muestra de 200 datos y posteriormente crear un vector al que se le eliminarían las columnas mencionadas anteriormente.
Para determinar los países participantes por sexo, lo primero que se realizó fue encontrar primero los datos del sexo femenino, para posteriormente realizar un data.frame() al que se le asignaron las dos columnas a trabajar, las cuales son Sex y Team.
Más adelante se filtró la columna Sex para que mostrara solamente las casillas correspondientes a los datos femeninos mediante la función subset().
Sexo<-Dato1$Sex
Femenino<-subset(Tabla1,Sexo=="F")
Sexo_Femenino<-Femenino$Sexo
Pais_Fem<-Femenino$Pais
MuestraFem<-data.frame(Sexo_Femenino,Pais_Fem)Por consiguiente, el siguiente paso realizado fue aplicar la función table() al data.frame() obtenido con los datos anteriores.
Tabla_FrecuenciaFem<-table(Pais_Fem)
FrecuenciasFem<-data.frame(Tabla_FrecuenciaFem)
Cantidad<-c(1)
Tabla1<-data.frame(Cantidad,FrecuenciasFem)Para al final poder obtener la suma de los paises.
## [1] 156
## [1] "La suma de los Paises participantes por mujer es:"
## [2] "156"
Se ejecuto el mismo proceso anterior pero ahora tomando de referencia las casillas que hacen referencia al sexo masculina de forma que se obtuvo la siguiente información:
Tabla1<-data.frame(Sexo,Pais)
Masculino<-subset(Tabla1,Sexo=="M")
Sexo_Maculino<-Masculino$Sexo
Pais_Mas<-Masculino$Pais
MuestraMas<-data.frame(Sexo_Maculino,Pais_Mas)Tabla_FrecuenciaMas<-table(Pais_Mas)
FrecuenciasMas<-data.frame(Tabla_FrecuenciaMas)
Cantidad<-c(1)
Tabla2<-data.frame(Cantidad,FrecuenciasMas)## [1] 186
## [1] "La suma de los Paises participantes por genero masculino es:"
## [2] "186"
####Union
Paises_Por_Sexo_Femenino<-SumF
Paises_Por_Sexo_Masculino<-SumM
Total<-data.frame(Paises_Por_Sexo_Masculino,Paises_Por_Sexo_Femenino);Total## Paises_Por_Sexo_Masculino Paises_Por_Sexo_Femenino
## 1 186 156
Para al final obtener los anteriores datos los cuales indican que hubo mayor participacion de paises por sexo masculino.
Ahora, para poder encontrar la frecuencia absoluta de países se realizará un data.frame() al que se le asignarán dos columnas, las cuales son Team y Medal, para después quitarle las casillas NA, las cuales significan que el país no aplicó para ganar una medalla.
Medalleria<-data.frame(Dato1$Team,Dato1$Medal)
Frec_Paises <-table(Medalleria)
Medalleria$Dato1.Medal[Medalleria$Dato1.Medal == "NA"] <- NA
datos_sin_na <- subset(Medalleria, !is.na(Medalleria$Dato1.Medal))
mm<-data.frame(datos_sin_na)
datos<-mm[c(-3)]Para poder mostrar a los Ganadores se filtro la columa medal en Gold, Silver y Bronze las cuales son las 3 medallas disponibles para ganar, de forma que a cada una de estas se le obtuvo la frecuencia para mas adelante con la funcion max() determinar el mayor valor, y establecer lo siguiente:
##################
Gold<- subset(Medalleria, Dato1$Medal == "Gold")
Gold$Numeracion <- seq_along(Gold$Dato1.Medal)
Gold1<-data.frame(Gold)
FG<-table(Gold1$Dato1.Team)
GoldF<-data.frame(FG);GoldF## Var1 Freq
## 1 Australia 18
## 2 Austria 1
## 3 Bulgaria 1
## 4 China 13
## 5 China-1 6
## 6 China-2 2
## 7 France 3
## 8 Georgia 1
## 9 Germany 9
## 10 Great Britain 1
## 11 Greece 3
## 12 Hungary 5
## 13 Indonesia 1
## 14 Iran 1
## 15 Italy 2
## 16 Japan 1
## 17 Netherlands 1
## 18 New Zealand 1
## 19 Norway 1
## 20 Poland 1
## 21 Romania 1
## 22 Russia 4
## 23 Slovakia 3
## 24 South Africa 2
## 25 South Korea 5
## 26 South Korea-2 2
## 27 Sweden 2
## 28 Thailand 2
## 29 Turkey 3
## 30 Ukraine 1
## 31 United States 14
Mayor_Fre_G <- max(GoldF$Freq)
F_M_G <- GoldF$Var1[which.max(GoldF$Freq)]
ValorG<-c("Numero medallas del pais:", Mayor_Fre_G);ValorG## [1] "Numero medallas del pais:" "18"
## [1] "El pais con mas medallas Gold es: Australia"
Silver<-subset(Medalleria, Dato1$Medal == "Silver")
Silver$Numeracion <- seq_along(Silver$Dato1.Medal)
Silver1<-data.frame(Silver)
FS<-table(Silver1$Dato1.Team)
SilverF<-data.frame(FS);SilverF## Var1 Freq
## 1 Australia 11
## 2 Austria 1
## 3 Belarus 2
## 4 Bulgaria 1
## 5 Canada 2
## 6 China 10
## 7 Chinese Taipei 2
## 8 Croatia 1
## 9 Cuba 1
## 10 Germany 11
## 11 Germany-1 2
## 12 Great Britain 6
## 13 Great Britain-1 1
## 14 Hong Kong-2 2
## 15 Hungary 6
## 16 Indonesia 1
## 17 Italy 2
## 18 Japan 2
## 19 Latvia 2
## 20 Netherlands 6
## 21 New Zealand 2
## 22 Romania 1
## 23 Russia 9
## 24 Slovakia 1
## 25 South Korea 5
## 26 South Korea-1 2
## 27 Spain 3
## 28 Switzerland 2
## 29 Ukraine 1
## 30 United States 15
## 31 Zimbabwe 1
Mayor_Fre_S <- max(SilverF$Freq)
F_M_S <- SilverF$Var1[which.max(SilverF$Freq)]
ValorS<-c("La cantidad de medallas silver es:", Mayor_Fre_S);ValorS## [1] "La cantidad de medallas silver es:" "15"
## [1] "El pais con mas medallas Silver es: United States"
Bronze<-subset(Medalleria, Dato1$Medal == "Bronze")
Bronze$Numeracion <- seq_along(Bronze$Dato1.Medal)
Bronze1<-data.frame(Bronze)
FB<-table(Bronze1$Dato1.Team)
BronzeF<-data.frame(FB);BronzeF## Var1 Freq
## 1 Australia 5
## 2 Belarus 2
## 3 Belgium 1
## 4 Bulgaria 1
## 5 Canada 2
## 6 China 2
## 7 China-2 2
## 8 Chinese Taipei 2
## 9 Colombia 1
## 10 Croatia 1
## 11 Czech Republic-1 2
## 12 Denmark 2
## 13 Denmark-2 1
## 14 France 5
## 15 Germany 7
## 16 Great Britain 4
## 17 Greece 1
## 18 Hungary 3
## 19 Indonesia 1
## 20 Indonesia-1 2
## 21 Italy 4
## 22 Japan 6
## 23 Netherlands 5
## 24 Norway 2
## 25 Poland 3
## 26 Russia 4
## 27 Slovakia 4
## 28 South Korea-1 2
## 29 Spain 3
## 30 Switzerland 1
## 31 Thailand 2
## 32 Turkey 2
## 33 Ukraine 6
## 34 United States 5
## 35 Venezuela 1
Mayor_Fre_B <- max(BronzeF$Freq)
F_M_B <- BronzeF$Var1[which.max(BronzeF$Freq)]
ValorB<-c("La cantidad de medallas Bronze es:", Mayor_Fre_B);ValorB## [1] "La cantidad de medallas Bronze es:" "7"
## [1] "El pais con mas medallas Bronze es: Germany"
## [1] Australia United States Germany
## 51 Levels: Australia Austria Bulgaria China China-1 China-2 France ... Venezuela
## [1] "Gold" "Silver" "Bronze"
## Medallas Ganadores Cantidad_Medallas
## 1 Gold Australia 18
## 2 Silver United States 15
## 3 Bronze Germany 7
Para al finar asignar a un vector la informacion obtenida anteriormente y junto con esta realizar un data.frame() el cual dio como resultado que el pais con mayor medallas de Oro o Gold ganadas fue Australia con 18 medallas en distintos deportes,seguido por Estados Unidos con 15 medallas de plata o silver y por ultimo Alemania con 7 medallas de Bronce.
Para construir el diagrama de barras se hará uso las siguientes librerías:
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
Se carga la base de datos proporcionada, se planta la semilla y se toma una muestra, que estará denominada como muestra.d,luego, se hace uso de attach, lo que permitirá acceder directamente a las variables de la base de datos por su nombre, sin tener que hacer uso de la expresión objeto$variable:
## [1] "ID" "Name" "Sex" "Age" "Height" "Weight" "Team" "NOC"
## [9] "Games" "Year" "Season" "City" "Sport" "Event" "Medal"
Se crea una tabla con los deportes en participación y luego se crea un vector con los mismos, otro vector con los números de participantes por deporte, y con estos vectores se crea un data frame para así construir el diagrama de barras:
## Sport
## Archery Badminton Canoeing Cycling Diving
## 8 7 24 33 9
## Gymnastics Swimming Table Tennis Triathlon Weightlifting
## 16 67 12 5 19
## Deportes n
## 1 Archery 8
## 2 Badminton 7
## 3 Canoeing 24
## 4 Cycling 33
## 5 Diving 9
## 6 Gymnastics 16
## 7 Swimming 67
## 8 Table Tennis 12
## 9 Triathlon 5
## 10 Weightlifting 19
Para los deportes en participación se tienen 10: natación, ciclismo, canotaje, levantamiento de pesas, gimnasia, tenis de mesa, salto o clavado(natación), tiro con arco, badminton y triatlón; de los cuales se puede observar que, de la muestra tomada, el deporte con mayor partipación fue natación y el de menor participación fue triatlón.
## The following objects are masked from muestra.d (pos = 3):
##
## Age, Event, Height, Medal, Name, Sex, Sport, Team, Weight
Ahora bien, en cuanto al diagrama de caja y bigotes se puede observar que para las mujeres (F), la parte izquierda de la caja es mayor que la de la derecha; ello quiere decir que los pesos comprendidos entre el 25% y el 50% de las atletas están más dispersos que entre el 50% y el 75%. Por otro lado, para los hombres (M), la parte derecha de la caja es mayor que la de la izquierda, los datos que se encuentran entre el 50% y el 75% están más dispersos que aquellos que se encuentran entre el 25% y el 50%. Adicionalmente, se evidencia que para los hombres, la gráfica de caja cuenta con datos asimétricos hacia la derecha.
Además, se sabe que la línea central de la caja indica la mediana de los datos, como los datos no son simétricos, para ninguno de los sexos, la mediana no se encuentra en el centro de la caja, más bien, se logra ver que los datos están sesgados, pues la mediana está más cerca a la parte derecha en el caso de las mujeres y para los hombres se encuentra más cerca a la parte izquierda. También, se evidencian datos atípicos para las mujeres, representados por los dos puntos negros ubicados a un lado del bigote derecho.
De la misma manera, si se toma en cuenta un diagrama de cajas y bigotes conjunto para el sexo y y los pesos, se logra ver que el minimo valor de los pesos es 37 kg y el maximo valor es de 105 kg. En este caso no se observan datos atípicos.
## 0% 25% 50% 75% 100%
## 37.0 61.0 68.5 80.0 105.0
## [1] 19
En cuanto al rango intercuartílico(IQR), que es la diferencia entre el tercer y primer cuartil, se tiene que para la muestra es de 19. Es decir, el 50% de los datos está entre 80 y 61, de esto se puede concluir que hay una gran dispersión de los datos, pues se está hablando de un rango grande. Del mismo modo, teniendo en cuenta uno de los percentiles, tomando como ejemplo el percentil 75, se tiene un valor de 80, indicando asi que el peso del 75% de la poblacion es menor que o igual a este dato.
Proximamente se mostraran los resumenes completos para las variables cuantitativas para mujeres y para hombres con las alturas, incluyendo estadísticas descriptivas como media, mediana, desviación estándar, mínimo y máximo.
Olimpicos_Atenas_2004 <- read_excel("C:/Users/macab/OneDrive - Universidad Nacional de Colombia/Pobabilidad/Olimpicos Atenas 2004.xlsx")
set.seed(250)
muestra1 <- Olimpicos_Atenas_2004[sample(nrow(Olimpicos_Atenas_2004), size = 200, replace = FALSE), ]
summary(subset(muestra1, Sex=="F")[c("Height","Weight","Age")]) ## Height Weight Age
## Min. :146.0 Min. :37.00 Min. :14.00
## 1st Qu.:160.0 1st Qu.:52.75 1st Qu.:19.00
## Median :167.0 Median :60.00 Median :23.00
## Mean :165.8 Mean :58.97 Mean :23.69
## 3rd Qu.:173.0 3rd Qu.:65.00 3rd Qu.:28.00
## Max. :186.0 Max. :89.00 Max. :38.00
Olimpicos_Atenas_2004 <- read_excel("C:/Users/macab/OneDrive - Universidad Nacional de Colombia/Pobabilidad/Olimpicos Atenas 2004.xlsx")
set.seed(250)
muestra1 <- Olimpicos_Atenas_2004[sample(nrow(Olimpicos_Atenas_2004), size = 200, replace = FALSE), ]
summary(subset(muestra1, Sex=="M")[c("Height")])## Height
## Min. :150
## 1st Qu.:173
## Median :180
## Mean :179
## 3rd Qu.:185
## Max. :205
Estas estadísticas muestran diferencias en las distribuciones de altura entre atletas masculinos y femeninos, con los hombres siendo en promedio más altos.
#Tabla De Frecuencias Para Alturas De Mujeres
Olimpicos_Atenas_2004 <- read_excel("C:/Users/macab/OneDrive - Universidad Nacional de Colombia/Pobabilidad/Olimpicos Atenas 2004.xlsx")
set.seed(250)
muestra1 <- Olimpicos_Atenas_2004[sample(nrow(Olimpicos_Atenas_2004), size = 200, replace = FALSE), ]
mujeres <- subset(muestra1, Sex == "F")
tabla_frecuencias <- table(mujeres$"Height")
frec_abs_acumulada <- cumsum(tabla_frecuencias)
frec_relativa <- prop.table(tabla_frecuencias)
frec_relativa_acumulada <- cumsum(frec_relativa)
resultados <- data.frame(Altura = as.numeric(names(tabla_frecuencias)),
Frec_Absoluta = as.numeric(tabla_frecuencias),
Frec_Relativa = as.numeric(frec_relativa),
Frec_Absoluta_Acumulada = as.numeric(frec_abs_acumulada),
Frec_Relativa_Acumulada = as.numeric(frec_relativa_acumulada))
knitr::kable(resultados, caption = "Tabla de Frecuencias de Altura en Mujeres")| Altura | Frec_Absoluta | Frec_Relativa | Frec_Absoluta_Acumulada | Frec_Relativa_Acumulada |
|---|---|---|---|---|
| 146 | 1 | 0.0138889 | 1 | 0.0138889 |
| 147 | 3 | 0.0416667 | 4 | 0.0555556 |
| 149 | 2 | 0.0277778 | 6 | 0.0833333 |
| 150 | 2 | 0.0277778 | 8 | 0.1111111 |
| 151 | 1 | 0.0138889 | 9 | 0.1250000 |
| 152 | 1 | 0.0138889 | 10 | 0.1388889 |
| 154 | 1 | 0.0138889 | 11 | 0.1527778 |
| 155 | 1 | 0.0138889 | 12 | 0.1666667 |
| 156 | 1 | 0.0138889 | 13 | 0.1805556 |
| 158 | 3 | 0.0416667 | 16 | 0.2222222 |
| 160 | 3 | 0.0416667 | 19 | 0.2638889 |
| 161 | 3 | 0.0416667 | 22 | 0.3055556 |
| 162 | 2 | 0.0277778 | 24 | 0.3333333 |
| 163 | 1 | 0.0138889 | 25 | 0.3472222 |
| 165 | 4 | 0.0555556 | 29 | 0.4027778 |
| 166 | 4 | 0.0555556 | 33 | 0.4583333 |
| 167 | 5 | 0.0694444 | 38 | 0.5277778 |
| 168 | 6 | 0.0833333 | 44 | 0.6111111 |
| 170 | 5 | 0.0694444 | 49 | 0.6805556 |
| 171 | 1 | 0.0138889 | 50 | 0.6944444 |
| 172 | 2 | 0.0277778 | 52 | 0.7222222 |
| 173 | 7 | 0.0972222 | 59 | 0.8194444 |
| 174 | 1 | 0.0138889 | 60 | 0.8333333 |
| 175 | 3 | 0.0416667 | 63 | 0.8750000 |
| 176 | 2 | 0.0277778 | 65 | 0.9027778 |
| 177 | 2 | 0.0277778 | 67 | 0.9305556 |
| 178 | 1 | 0.0138889 | 68 | 0.9444444 |
| 181 | 1 | 0.0138889 | 69 | 0.9583333 |
| 182 | 1 | 0.0138889 | 70 | 0.9722222 |
| 183 | 1 | 0.0138889 | 71 | 0.9861111 |
| 186 | 1 | 0.0138889 | 72 | 1.0000000 |
La tabla de frecuencias para las alturas de las mujeres muestra una clara tendencia hacia alturas intermedias, con el rango de 165 a 173 cm teniendo la mayor frecuencia relativa. Esto indica que dentro de la muestra de atletas femeninas, existe una concentración significativa de alturas en este rango. Los extremos, representados por alturas menores a 150 cm y mayores a 186 cm, son considerablemente menos comunes, lo que sugiere que las atletas de alturas muy bajas o muy altas son excepciones en este contexto deportivo. La distribución de las alturas refleja posiblemente las demandas físicas de los deportes incluidos en la muestra, donde ciertas alturas pueden proporcionar ventajas competitivas o simplemente ser más comunes debido a la selección natural del deporte.
datos_mujeres <- subset(muestra1, Sex == "F")
ggplot(datos_mujeres, aes(x = Height)) +
geom_histogram(binwidth = 5, aes(fill = after_stat(density)), color = "black") +
scale_fill_gradient(low = "lightblue", high = "darkblue", guide = "legend") + # Degradado lineal
labs(title = "Histograma de Altura de Mujeres",
x = "Altura",
y = "Frecuencia relativa") +
theme_minimal()El histograma de frecuencias relativas de las alturas para las mujeres muestra una distribución que tiende hacia las alturas de 165 a 173 cm, que es donde se encuentra la mayor frecuencia relativa. Esto indica que, dentro de la muestra seleccionada, la mayoría de las atletas femeninas tienen alturas en este rango.
El histograma de frecuencias relativas de las alturas de las mujeres refuerza la conclusión obtenida de la tabla de frecuencias, mostrando gráficamente cómo la mayoría de las atletas femeninas se concentran en un rango de altura específico, particularmente entre 165 y 173 cm. La visualización en el histograma permite apreciar la forma de la distribución, que se inclina hacia estos valores medios, demostrando una preferencia o ventaja para atletas femeninas dentro de este rango de altura en los deportes representados. La presencia de barras más bajas en los extremos del histograma confirma que las alturas muy bajas y muy altas son menos frecuentes, lo que puede influir en las estrategias de entrenamiento y selección de atletas para ciertas disciplinas deportivas.
Los diagramas de cajas y bigotes permiten observar de manera clara la distribución de datos para una variable continua, e identificar si hay valores atípicos, en este documento se presentó un diagrama de cajas y bigotes para el peso de los atletas, tanto mujeres como hombres, donde se observó la mediana de estos datos, como también, sus cuartiles.
Las tablas de frecuencia proporcionan una forma sistemática y organizada de agrupar datos en categorías y calcular la frecuencia de cada valor. Son útiles para comprender la distribución y variación de los datos e identificar tendencias y patrones. Las tablas de frecuencia son particularmente útiles cuando se trabaja con conjuntos de datos categóricos o discretos. Además, permiten una fácil comparación de diferentes categorías de datos o grupos de datos. En definitiva, se puede decir que las tablas de frecuencia son una herramienta indispensable para el análisis exploratorio de datos y para una presentación clara y concisa de los resultados.
Los histogramas son gráficos que muestran la distribución de frecuencia de los datos en forma de barras. Proporcionan una poderosa representación visual de la distribución de datos, lo que facilita la detección de patrones, tendencias y variaciones. Los histogramas son particularmente útiles para visualizar datos continuos y comprender la forma y extensión de una distribución. Además, se pueden utilizar para detectar valores atípicos y evaluar la simetría o asimetría de una distribución. En resumen, se puede afirmar que los histogramas son una herramienta importante para la visualización de datos y el análisis estadístico, que permite una interpretación rápida de los resultados y una comunicación efectiva.