Integrantes :
                Maria Camila Bello Contreras 1014856040
                Sofia Forero Garzón 1013257165
                Yudy Marcela Leyton Carrero 1110173482 

Introducción

La estadística descriptiva permite “describir, resumir, tabular, graficar y realizar análisis de tipo cuantitativo”, por esta razón, en este documento se hará uso de esta herramienta para tomar y analizar una muestra aleatoria de datos, y a partir de ello realizar los respectivos gráficos, tanto para variables cuantitativas como cualitativas. Entre los gráficos que serán mostrados en el trabajo se encuentran el diagrama de barras, el boxplot, y el histograma, de los cuales se puede evidenciar el comportamiento de los datos tomados, como lo es su dispersión, su variación, como también, la frecuencia del dato (que en pocas palabras es, las veces que se repiten un número o dato de la muestra).

A continuación se mostrará la base de datos a utilizar, cargada mediante la función library()

library(readxl)
Olimpicos_Atenas_2004 <- read_excel("C:/Users/macab/OneDrive - Universidad Nacional de Colombia/Pobabilidad/Olimpicos Atenas 2004.xlsx")
View(Olimpicos_Atenas_2004)

Punto 1 - Muestra y Columnas

Dato1<-Olimpicos_Atenas_2004
set.seed(250)
Datos1 <- Dato1[sample(nrow(Dato1),200),c(-1,-8,-9,-10,-11,-12) ];Datos1
## # A tibble: 200 × 9
##    Name                   Sex     Age Height Weight Team       Sport Event Medal
##    <chr>                  <chr> <dbl>  <dbl>  <dbl> <chr>      <chr> <chr> <chr>
##  1 Kashi Ananda Leuchs    M        26    180     63 New Zeala… Cycl… Cycl… NA   
##  2 Darian Roy Townsend    M        19    195     87 South Afr… Swim… Swim… NA   
##  3 Cole Shade Sule        M        23    186     85 Cameroon   Swim… Swim… NA   
##  4 Aghiles Slimani        M        21    172     57 Algeria    Swim… Swim… NA   
##  5 Frnk Ren Schleck       M        24    185     63 Luxembourg Cycl… Cycl… NA   
##  6 Leif Lampater          M        21    182     70 Germany    Cycl… Cycl… NA   
##  7 Mon Redee Sut Txi      F        22    167     64 Malaysia   Arch… Arch… NA   
##  8 Ralph Nf               M        24    174     65 Switzerla… Cycl… Cycl… NA   
##  9 Slobodan Gruji         M        30    180     76 Serbia an… Tabl… Tabl… NA   
## 10 Yaima Rosario Mena Pea F        19    151     49 Cuba       Divi… Divi… NA   
## # ℹ 190 more rows

Ahora se tomó una muestra y se eliminaron las columnas correspondientes a ID, NOC, Games, Year, Season y City, de forma que se tomó un set.seed() con los datos de una de las cédulas de las integrantes del grupo para poder obtener la muestra de 200 datos y posteriormente crear un vector al que se le eliminarían las columnas mencionadas anteriormente.

Punto 2 - Paises Participantes Por Sexo

Para determinar los países participantes por sexo, lo primero que se realizó fue encontrar primero los datos del sexo femenino, para posteriormente realizar un data.frame() al que se le asignaron las dos columnas a trabajar, las cuales son Sex y Team.

Femenino

Sexo<-Dato1$Sex
Pais<-Dato1$Team

Tabla1<-data.frame(Sexo,Pais)

Más adelante se filtró la columna Sex para que mostrara solamente las casillas correspondientes a los datos femeninos mediante la función subset().

Sexo<-Dato1$Sex

Femenino<-subset(Tabla1,Sexo=="F")

Sexo_Femenino<-Femenino$Sexo
Pais_Fem<-Femenino$Pais

MuestraFem<-data.frame(Sexo_Femenino,Pais_Fem)

Por consiguiente, el siguiente paso realizado fue aplicar la función table() al data.frame() obtenido con los datos anteriores.

Tabla_FrecuenciaFem<-table(Pais_Fem)

FrecuenciasFem<-data.frame(Tabla_FrecuenciaFem)

Cantidad<-c(1)

Tabla1<-data.frame(Cantidad,FrecuenciasFem)

Para al final poder obtener la suma de los paises.

SumF<-sum(Tabla1$Cantidad);SumF
## [1] 156
TextoF<-c("La suma de los Paises participantes por mujer es:", SumF);TextoF
## [1] "La suma de los Paises participantes por mujer es:"
## [2] "156"

Masculino

Se ejecuto el mismo proceso anterior pero ahora tomando de referencia las casillas que hacen referencia al sexo masculina de forma que se obtuvo la siguiente información:

Tabla1<-data.frame(Sexo,Pais)

Masculino<-subset(Tabla1,Sexo=="M")

Sexo_Maculino<-Masculino$Sexo
Pais_Mas<-Masculino$Pais

MuestraMas<-data.frame(Sexo_Maculino,Pais_Mas)
Tabla_FrecuenciaMas<-table(Pais_Mas)

FrecuenciasMas<-data.frame(Tabla_FrecuenciaMas)

Cantidad<-c(1)

Tabla2<-data.frame(Cantidad,FrecuenciasMas)
SumM<-sum(Tabla2$Cantidad);SumM
## [1] 186
TextoM<-c("La suma de los Paises participantes por genero masculino es:", SumM);TextoM
## [1] "La suma de los Paises participantes por genero masculino es:"
## [2] "186"
####Union 
Paises_Por_Sexo_Femenino<-SumF
Paises_Por_Sexo_Masculino<-SumM
Total<-data.frame(Paises_Por_Sexo_Masculino,Paises_Por_Sexo_Femenino);Total
##   Paises_Por_Sexo_Masculino Paises_Por_Sexo_Femenino
## 1                       186                      156

Para al final obtener los anteriores datos los cuales indican que hubo mayor participacion de paises por sexo masculino.

Punto 3 - Frecuencia absoluta de medalleria

Ahora, para poder encontrar la frecuencia absoluta de países se realizará un data.frame() al que se le asignarán dos columnas, las cuales son Team y Medal, para después quitarle las casillas NA, las cuales significan que el país no aplicó para ganar una medalla.

Medalleria<-data.frame(Dato1$Team,Dato1$Medal)

Frec_Paises <-table(Medalleria)

Medalleria$Dato1.Medal[Medalleria$Dato1.Medal == "NA"] <- NA

datos_sin_na <- subset(Medalleria, !is.na(Medalleria$Dato1.Medal))

mm<-data.frame(datos_sin_na)

datos<-mm[c(-3)]

Para poder mostrar a los Ganadores se filtro la columa medal en Gold, Silver y Bronze las cuales son las 3 medallas disponibles para ganar, de forma que a cada una de estas se le obtuvo la frecuencia para mas adelante con la funcion max() determinar el mayor valor, y establecer lo siguiente:

##################


Gold<- subset(Medalleria, Dato1$Medal == "Gold")

Gold$Numeracion <- seq_along(Gold$Dato1.Medal)

Gold1<-data.frame(Gold)

FG<-table(Gold1$Dato1.Team)

GoldF<-data.frame(FG);GoldF
##             Var1 Freq
## 1      Australia   18
## 2        Austria    1
## 3       Bulgaria    1
## 4          China   13
## 5        China-1    6
## 6        China-2    2
## 7         France    3
## 8        Georgia    1
## 9        Germany    9
## 10 Great Britain    1
## 11        Greece    3
## 12       Hungary    5
## 13     Indonesia    1
## 14          Iran    1
## 15         Italy    2
## 16         Japan    1
## 17   Netherlands    1
## 18   New Zealand    1
## 19        Norway    1
## 20        Poland    1
## 21       Romania    1
## 22        Russia    4
## 23      Slovakia    3
## 24  South Africa    2
## 25   South Korea    5
## 26 South Korea-2    2
## 27        Sweden    2
## 28      Thailand    2
## 29        Turkey    3
## 30       Ukraine    1
## 31 United States   14
Mayor_Fre_G <- max(GoldF$Freq)

F_M_G <- GoldF$Var1[which.max(GoldF$Freq)] 

ValorG<-c("Numero medallas del pais:", Mayor_Fre_G);ValorG
## [1] "Numero medallas del pais:" "18"
PaisG<-paste("El pais con mas medallas Gold es:",F_M_G);PaisG 
## [1] "El pais con mas medallas Gold es: Australia"
Silver<-subset(Medalleria, Dato1$Medal == "Silver")

Silver$Numeracion <- seq_along(Silver$Dato1.Medal)

Silver1<-data.frame(Silver)

FS<-table(Silver1$Dato1.Team)

SilverF<-data.frame(FS);SilverF
##               Var1 Freq
## 1        Australia   11
## 2          Austria    1
## 3          Belarus    2
## 4         Bulgaria    1
## 5           Canada    2
## 6            China   10
## 7   Chinese Taipei    2
## 8          Croatia    1
## 9             Cuba    1
## 10         Germany   11
## 11       Germany-1    2
## 12   Great Britain    6
## 13 Great Britain-1    1
## 14     Hong Kong-2    2
## 15         Hungary    6
## 16       Indonesia    1
## 17           Italy    2
## 18           Japan    2
## 19          Latvia    2
## 20     Netherlands    6
## 21     New Zealand    2
## 22         Romania    1
## 23          Russia    9
## 24        Slovakia    1
## 25     South Korea    5
## 26   South Korea-1    2
## 27           Spain    3
## 28     Switzerland    2
## 29         Ukraine    1
## 30   United States   15
## 31        Zimbabwe    1
Mayor_Fre_S <- max(SilverF$Freq)

F_M_S <- SilverF$Var1[which.max(SilverF$Freq)]

ValorS<-c("La cantidad de medallas silver es:", Mayor_Fre_S);ValorS
## [1] "La cantidad de medallas silver es:" "15"
PaisS<-paste("El pais con mas medallas Silver es:", F_M_S);PaisS
## [1] "El pais con mas medallas Silver es: United States"
Bronze<-subset(Medalleria, Dato1$Medal == "Bronze")

Bronze$Numeracion <- seq_along(Bronze$Dato1.Medal)

Bronze1<-data.frame(Bronze)

FB<-table(Bronze1$Dato1.Team)

BronzeF<-data.frame(FB);BronzeF
##                Var1 Freq
## 1         Australia    5
## 2           Belarus    2
## 3           Belgium    1
## 4          Bulgaria    1
## 5            Canada    2
## 6             China    2
## 7           China-2    2
## 8    Chinese Taipei    2
## 9          Colombia    1
## 10          Croatia    1
## 11 Czech Republic-1    2
## 12          Denmark    2
## 13        Denmark-2    1
## 14           France    5
## 15          Germany    7
## 16    Great Britain    4
## 17           Greece    1
## 18          Hungary    3
## 19        Indonesia    1
## 20      Indonesia-1    2
## 21            Italy    4
## 22            Japan    6
## 23      Netherlands    5
## 24           Norway    2
## 25           Poland    3
## 26           Russia    4
## 27         Slovakia    4
## 28    South Korea-1    2
## 29            Spain    3
## 30      Switzerland    1
## 31         Thailand    2
## 32           Turkey    2
## 33          Ukraine    6
## 34    United States    5
## 35        Venezuela    1
Mayor_Fre_B <- max(BronzeF$Freq)

F_M_B  <- BronzeF$Var1[which.max(BronzeF$Freq)]

ValorB<-c("La cantidad de medallas Bronze es:", Mayor_Fre_B);ValorB
## [1] "La cantidad de medallas Bronze es:" "7"
PaisB<-paste("El pais con mas medallas Bronze es:", F_M_B);PaisB
## [1] "El pais con mas medallas Bronze es: Germany"
Cantidad_Medallas<-c(Mayor_Fre_G,Mayor_Fre_S,Mayor_Fre_B)
Ganadores<-c(F_M_G,F_M_S,F_M_B);Ganadores
## [1] Australia     United States Germany      
## 51 Levels: Australia Austria Bulgaria China China-1 China-2 France ... Venezuela
Medallas<-c("Gold","Silver","Bronze");Medallas 
## [1] "Gold"   "Silver" "Bronze"
Ganadores_J<-data.frame(Medallas,Ganadores,Cantidad_Medallas);Ganadores_J
##   Medallas     Ganadores Cantidad_Medallas
## 1     Gold     Australia                18
## 2   Silver United States                15
## 3   Bronze       Germany                 7

Para al finar asignar a un vector la informacion obtenida anteriormente y junto con esta realizar un data.frame() el cual dio como resultado que el pais con mayor medallas de Oro o Gold ganadas fue Australia con 18 medallas en distintos deportes,seguido por Estados Unidos con 15 medallas de plata o silver y por ultimo Alemania con 7 medallas de Bronce.

Punto 4 - Diagrama de barras para los deportes en competición

Para construir el diagrama de barras se hará uso las siguientes librerías:

library(ggplot2)
library(dplyr)
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
library(readxl)

Se carga la base de datos proporcionada, se planta la semilla y se toma una muestra, que estará denominada como muestra.d,luego, se hace uso de attach, lo que permitirá acceder directamente a las variables de la base de datos por su nombre, sin tener que hacer uso de la expresión objeto$variable:

##  [1] "ID"     "Name"   "Sex"    "Age"    "Height" "Weight" "Team"   "NOC"   
##  [9] "Games"  "Year"   "Season" "City"   "Sport"  "Event"  "Medal"

Se crea una tabla con los deportes en participación y luego se crea un vector con los mismos, otro vector con los números de participantes por deporte, y con estos vectores se crea un data frame para así construir el diagrama de barras:

## Sport
##       Archery     Badminton      Canoeing       Cycling        Diving 
##             8             7            24            33             9 
##    Gymnastics      Swimming  Table Tennis     Triathlon Weightlifting 
##            16            67            12             5            19
##         Deportes  n
## 1        Archery  8
## 2      Badminton  7
## 3       Canoeing 24
## 4        Cycling 33
## 5         Diving  9
## 6     Gymnastics 16
## 7       Swimming 67
## 8   Table Tennis 12
## 9      Triathlon  5
## 10 Weightlifting 19

Para los deportes en participación se tienen 10: natación, ciclismo, canotaje, levantamiento de pesas, gimnasia, tenis de mesa, salto o clavado(natación), tiro con arco, badminton y triatlón; de los cuales se puede observar que, de la muestra tomada, el deporte con mayor partipación fue natación y el de menor participación fue triatlón.

Punto 5 - Diagrama de cajas y bigotes

## The following objects are masked from muestra.d (pos = 3):
## 
##     Age, Event, Height, Medal, Name, Sex, Sport, Team, Weight

Ahora bien, en cuanto al diagrama de caja y bigotes se puede observar que para las mujeres (F), la parte izquierda de la caja es mayor que la de la derecha; ello quiere decir que los pesos comprendidos entre el 25% y el 50% de las atletas están más dispersos que entre el 50% y el 75%. Por otro lado, para los hombres (M), la parte derecha de la caja es mayor que la de la izquierda, los datos que se encuentran entre el 50% y el 75% están más dispersos que aquellos que se encuentran entre el 25% y el 50%. Adicionalmente, se evidencia que para los hombres, la gráfica de caja cuenta con datos asimétricos hacia la derecha.

Además, se sabe que la línea central de la caja indica la mediana de los datos, como los datos no son simétricos, para ninguno de los sexos, la mediana no se encuentra en el centro de la caja, más bien, se logra ver que los datos están sesgados, pues la mediana está más cerca a la parte derecha en el caso de las mujeres y para los hombres se encuentra más cerca a la parte izquierda. También, se evidencian datos atípicos para las mujeres, representados por los dos puntos negros ubicados a un lado del bigote derecho.

De la misma manera, si se toma en cuenta un diagrama de cajas y bigotes conjunto para el sexo y y los pesos, se logra ver que el minimo valor de los pesos es 37 kg y el maximo valor es de 105 kg. En este caso no se observan datos atípicos.

quantile(Weight,probs=seq(0,1,0.25))
##    0%   25%   50%   75%  100% 
##  37.0  61.0  68.5  80.0 105.0
peso <- muestra.d$Weight

IQR(peso)
## [1] 19

En cuanto al rango intercuartílico(IQR), que es la diferencia entre el tercer y primer cuartil, se tiene que para la muestra es de 19. Es decir, el 50% de los datos está entre 80 y 61, de esto se puede concluir que hay una gran dispersión de los datos, pues se está hablando de un rango grande. Del mismo modo, teniendo en cuenta uno de los percentiles, tomando como ejemplo el percentil 75, se tiene un valor de 80, indicando asi que el peso del 75% de la poblacion es menor que o igual a este dato.

Punto 6 - Resumen Variables Cuantitativas Para Mujeres y Hombres Por Alturas

Proximamente se mostraran los resumenes completos para las variables cuantitativas para mujeres y para hombres con las alturas, incluyendo estadísticas descriptivas como media, mediana, desviación estándar, mínimo y máximo.

Resumen de las variables cuantitativas para Mujeres

Olimpicos_Atenas_2004 <- read_excel("C:/Users/macab/OneDrive - Universidad Nacional de Colombia/Pobabilidad/Olimpicos Atenas 2004.xlsx")
set.seed(250)

muestra1 <- Olimpicos_Atenas_2004[sample(nrow(Olimpicos_Atenas_2004), size = 200, replace = FALSE), ]

summary(subset(muestra1, Sex=="F")[c("Height","Weight","Age")]) 
##      Height          Weight           Age       
##  Min.   :146.0   Min.   :37.00   Min.   :14.00  
##  1st Qu.:160.0   1st Qu.:52.75   1st Qu.:19.00  
##  Median :167.0   Median :60.00   Median :23.00  
##  Mean   :165.8   Mean   :58.97   Mean   :23.69  
##  3rd Qu.:173.0   3rd Qu.:65.00   3rd Qu.:28.00  
##  Max.   :186.0   Max.   :89.00   Max.   :38.00

Resumen de las alturas para hombres

Olimpicos_Atenas_2004 <- read_excel("C:/Users/macab/OneDrive - Universidad Nacional de Colombia/Pobabilidad/Olimpicos Atenas 2004.xlsx")
set.seed(250)
muestra1 <- Olimpicos_Atenas_2004[sample(nrow(Olimpicos_Atenas_2004), size = 200, replace = FALSE), ]
summary(subset(muestra1, Sex=="M")[c("Height")])
##      Height   
##  Min.   :150  
##  1st Qu.:173  
##  Median :180  
##  Mean   :179  
##  3rd Qu.:185  
##  Max.   :205

Estas estadísticas muestran diferencias en las distribuciones de altura entre atletas masculinos y femeninos, con los hombres siendo en promedio más altos.

Punto 7 - Tabla de Frecuencias Y Histograma

#Tabla De Frecuencias Para Alturas De Mujeres

Olimpicos_Atenas_2004 <- read_excel("C:/Users/macab/OneDrive - Universidad Nacional de Colombia/Pobabilidad/Olimpicos Atenas 2004.xlsx")
set.seed(250)
muestra1 <- Olimpicos_Atenas_2004[sample(nrow(Olimpicos_Atenas_2004), size = 200, replace = FALSE), ]
mujeres <- subset(muestra1, Sex == "F")
tabla_frecuencias <- table(mujeres$"Height")
frec_abs_acumulada <- cumsum(tabla_frecuencias)
frec_relativa <- prop.table(tabla_frecuencias)
frec_relativa_acumulada <- cumsum(frec_relativa)
resultados <- data.frame(Altura = as.numeric(names(tabla_frecuencias)),
                         Frec_Absoluta = as.numeric(tabla_frecuencias),
                         Frec_Relativa = as.numeric(frec_relativa),
                         Frec_Absoluta_Acumulada = as.numeric(frec_abs_acumulada),
                         Frec_Relativa_Acumulada = as.numeric(frec_relativa_acumulada))

knitr::kable(resultados, caption = "Tabla de Frecuencias de Altura en Mujeres")
Tabla de Frecuencias de Altura en Mujeres
Altura Frec_Absoluta Frec_Relativa Frec_Absoluta_Acumulada Frec_Relativa_Acumulada
146 1 0.0138889 1 0.0138889
147 3 0.0416667 4 0.0555556
149 2 0.0277778 6 0.0833333
150 2 0.0277778 8 0.1111111
151 1 0.0138889 9 0.1250000
152 1 0.0138889 10 0.1388889
154 1 0.0138889 11 0.1527778
155 1 0.0138889 12 0.1666667
156 1 0.0138889 13 0.1805556
158 3 0.0416667 16 0.2222222
160 3 0.0416667 19 0.2638889
161 3 0.0416667 22 0.3055556
162 2 0.0277778 24 0.3333333
163 1 0.0138889 25 0.3472222
165 4 0.0555556 29 0.4027778
166 4 0.0555556 33 0.4583333
167 5 0.0694444 38 0.5277778
168 6 0.0833333 44 0.6111111
170 5 0.0694444 49 0.6805556
171 1 0.0138889 50 0.6944444
172 2 0.0277778 52 0.7222222
173 7 0.0972222 59 0.8194444
174 1 0.0138889 60 0.8333333
175 3 0.0416667 63 0.8750000
176 2 0.0277778 65 0.9027778
177 2 0.0277778 67 0.9305556
178 1 0.0138889 68 0.9444444
181 1 0.0138889 69 0.9583333
182 1 0.0138889 70 0.9722222
183 1 0.0138889 71 0.9861111
186 1 0.0138889 72 1.0000000

La tabla de frecuencias para las alturas de las mujeres muestra una clara tendencia hacia alturas intermedias, con el rango de 165 a 173 cm teniendo la mayor frecuencia relativa. Esto indica que dentro de la muestra de atletas femeninas, existe una concentración significativa de alturas en este rango. Los extremos, representados por alturas menores a 150 cm y mayores a 186 cm, son considerablemente menos comunes, lo que sugiere que las atletas de alturas muy bajas o muy altas son excepciones en este contexto deportivo. La distribución de las alturas refleja posiblemente las demandas físicas de los deportes incluidos en la muestra, donde ciertas alturas pueden proporcionar ventajas competitivas o simplemente ser más comunes debido a la selección natural del deporte.

Histograma de Frecuencias de Alturas en Mujeres

datos_mujeres <- subset(muestra1, Sex == "F")

ggplot(datos_mujeres, aes(x = Height)) +
  geom_histogram(binwidth = 5, aes(fill = after_stat(density)), color = "black") +
  scale_fill_gradient(low = "lightblue", high = "darkblue", guide = "legend") +  # Degradado lineal
  labs(title = "Histograma de Altura de Mujeres",
       x = "Altura",
       y = "Frecuencia relativa") +
  theme_minimal()

El histograma de frecuencias relativas de las alturas para las mujeres muestra una distribución que tiende hacia las alturas de 165 a 173 cm, que es donde se encuentra la mayor frecuencia relativa. Esto indica que, dentro de la muestra seleccionada, la mayoría de las atletas femeninas tienen alturas en este rango.

El histograma de frecuencias relativas de las alturas de las mujeres refuerza la conclusión obtenida de la tabla de frecuencias, mostrando gráficamente cómo la mayoría de las atletas femeninas se concentran en un rango de altura específico, particularmente entre 165 y 173 cm. La visualización en el histograma permite apreciar la forma de la distribución, que se inclina hacia estos valores medios, demostrando una preferencia o ventaja para atletas femeninas dentro de este rango de altura en los deportes representados. La presencia de barras más bajas en los extremos del histograma confirma que las alturas muy bajas y muy altas son menos frecuentes, lo que puede influir en las estrategias de entrenamiento y selección de atletas para ciertas disciplinas deportivas.

Conclusiones

Los diagramas de cajas y bigotes permiten observar de manera clara la distribución de datos para una variable continua, e identificar si hay valores atípicos, en este documento se presentó un diagrama de cajas y bigotes para el peso de los atletas, tanto mujeres como hombres, donde se observó la mediana de estos datos, como también, sus cuartiles.

Las tablas de frecuencia proporcionan una forma sistemática y organizada de agrupar datos en categorías y calcular la frecuencia de cada valor. Son útiles para comprender la distribución y variación de los datos e identificar tendencias y patrones. Las tablas de frecuencia son particularmente útiles cuando se trabaja con conjuntos de datos categóricos o discretos. Además, permiten una fácil comparación de diferentes categorías de datos o grupos de datos. En definitiva, se puede decir que las tablas de frecuencia son una herramienta indispensable para el análisis exploratorio de datos y para una presentación clara y concisa de los resultados.

Los histogramas son gráficos que muestran la distribución de frecuencia de los datos en forma de barras. Proporcionan una poderosa representación visual de la distribución de datos, lo que facilita la detección de patrones, tendencias y variaciones. Los histogramas son particularmente útiles para visualizar datos continuos y comprender la forma y extensión de una distribución. Además, se pueden utilizar para detectar valores atípicos y evaluar la simetría o asimetría de una distribución. En resumen, se puede afirmar que los histogramas son una herramienta importante para la visualización de datos y el análisis estadístico, que permite una interpretación rápida de los resultados y una comunicación efectiva.