Realizar análisis descriptivo de los datos presentados. Obtener las medidas de tendencia central y de disperción.
De un conjunto de datos que tiene variables como el nombre de la persona y la edad se debe identificar los siguiente:
La frecuencia de nombre y saber cual nombre tiene mayor y menor frecuencia
Determinar un gráfico de barra de los nombres
Determinar las media y mediana de la variable edad
Determinar la varianza y desviación de la variable edad
Determinar una tabla de frecuencia de la variable edad e identificar cual clase tiene maypr frecuencia
Visualizar un histograma de la variable edad
library(readr) # Leer archivos
library(fdth) # Usar distribuciones de frecuencia
library(knitr) #Mejorar presentacion de tablas
library(ggplot2)
Cargar los datos desde github: https://raw.githubusercontent.com/rpizarrog/Probabilidad-y-EstadIstica-VIRTUAL-DISTANCIA/main/datos/nombres%20dades.csv
datos<- read.csv("https://raw.githubusercontent.com/rpizarrog/Probabilidad-y-EstadIstica-VIRTUAL-DISTANCIA/main/datos/nombres%20dades.csv", encoding="UTF-8" )
Se muestran los datos
kable(datos, caption="Tabla de datos")
| X | nombres | edades |
|---|---|---|
| 1 | CARLOS | 25 |
| 2 | JUAN | 20 |
| 3 | CARLOS | 18 |
| 4 | RUBEN | 16 |
| 5 | ADRIANA | 19 |
| 6 | JUAN | 14 |
| 7 | LAURA | 23 |
| 8 | HECTOR | 17 |
| 9 | PATY | 12 |
| 10 | CARLOS | 19 |
| 11 | HECTOR | 16 |
| 12 | ADRIANA | 18 |
| 13 | JUAN | 22 |
| 14 | JUAN | 15 |
| 15 | CARLOS | 14 |
| 16 | LAURA | 22 |
| 17 | CARLOS | 23 |
| 18 | JUAN | 16 |
| 19 | CARLOS | 23 |
| 20 | RUBEN | 25 |
| 21 | PATY | 15 |
| 22 | LAURA | 19 |
| 23 | LAURA | 19 |
| 24 | CARLOS | 22 |
| 25 | HECTOR | 17 |
| 26 | PATY | 18 |
| 27 | CARLOS | 16 |
| 28 | LAURA | 21 |
| 29 | ADRIANA | 22 |
| 30 | CARLOS | 19 |
| 31 | CARLOS | 26 |
| 32 | PATY | 18 |
| 33 | PATY | 20 |
| 34 | RUBEN | 23 |
| 35 | CARLOS | 17 |
| 36 | LAURA | 23 |
| 37 | LAURA | 18 |
| 38 | HECTOR | 19 |
| 39 | JUAN | 29 |
| 40 | JUAN | 20 |
| 41 | CARLOS | 17 |
| 42 | JUAN | 22 |
| 43 | CARLOS | 16 |
| 44 | LAURA | 21 |
| 45 | LAURA | 32 |
| 46 | HECTOR | 17 |
| 47 | JUAN | 20 |
| 48 | CARLOS | 20 |
| 49 | LAURA | 17 |
| 50 | HECTOR | 14 |
| 51 | HECTOR | 21 |
| 52 | PATY | 18 |
| 53 | JUAN | 16 |
| 54 | JUAN | 17 |
| 55 | HECTOR | 18 |
| 56 | CARLOS | 16 |
| 57 | HECTOR | 24 |
| 58 | ADRIANA | 18 |
| 59 | PATY | 22 |
| 60 | RUBEN | 16 |
| 61 | RUBEN | 20 |
| 62 | PATY | 22 |
| 63 | CARLOS | 25 |
| 64 | CARLOS | 19 |
| 65 | JUAN | 19 |
| 66 | RUBEN | 18 |
| 67 | CARLOS | 19 |
| 68 | ADRIANA | 18 |
| 69 | JUAN | 16 |
| 70 | LAURA | 23 |
| 71 | CARLOS | 27 |
| 72 | PATY | 21 |
| 73 | HECTOR | 16 |
| 74 | JUAN | 16 |
| 75 | RUBEN | 14 |
| 76 | JUAN | 18 |
| 77 | HECTOR | 22 |
| 78 | CARLOS | 11 |
| 79 | ADRIANA | 22 |
| 80 | CARLOS | 27 |
| 81 | ADRIANA | 26 |
| 82 | RUBEN | 17 |
| 83 | CARLOS | 22 |
| 84 | CARLOS | 27 |
| 85 | CARLOS | 28 |
| 86 | HECTOR | 21 |
| 87 | LAURA | 23 |
| 88 | CARLOS | 15 |
| 89 | CARLOS | 17 |
| 90 | JUAN | 20 |
| 91 | LAURA | 26 |
| 92 | ADRIANA | 21 |
| 93 | JUAN | 28 |
| 94 | HECTOR | 26 |
| 95 | JUAN | 18 |
| 96 | LAURA | 22 |
| 97 | LAURA | 27 |
| 98 | ADRIANA | 21 |
| 99 | RUBEN | 19 |
| 100 | CARLOS | 4 |
Se genera la distribución de frecuencias para los datos en función del nombre
tabla<- fdt_cat(x=datos$nombres) # Crea una distribucion de frecuencias para datos cualitativos
tabla
## Category f rf rf(%) cf cf(%)
## CARLOS 27 0.27 27 27 27
## JUAN 18 0.18 18 45 45
## LAURA 15 0.15 15 60 60
## HECTOR 13 0.13 13 73 73
## ADRIANA 9 0.09 9 82 82
## PATY 9 0.09 9 91 91
## RUBEN 9 0.09 9 100 100
De acuerdo a la tabla, CARLOS es el nombre mas común entre los datos, debido a que presenta la mayor frecuencia (27 veces). Así mismo, RUBEN, PATY y ADRIANA son los nombres que menos se repiten ya que tienen la menor frecuencia (los tres con 9 veces).
A continuación, se crea un gráfico de barras para la variable cualitativa “nombres”.
colors=c("red","blue","yellow","green", "pink", "purple", "cyan") #Colores para la gráfica
barplot(height=tabla$f,names.arg=tabla$Category, col=colors) #Generamos la gráfica de barras
De acuerdo a la gráfica de barras, se verifica que el nombre mas común es CARLOS y el menos común son ADRIANA, PATY y RUBEN.
A continuación se calcula la media y mediana de la variable “edades”
edades<- datos$edades
media<- mean(edades)
mediana<- median(edades)
paste("La media de las edades es: ", media)
## [1] "La media de las edades es: 19.81"
paste("La mediana de las edades es: ", mediana)
## [1] "La mediana de las edades es: 19"
Se observa que la media de las edades es 19.81 y la mediana es de 19. Incluso podemos generar una visualización de la mediana y media en el comportamiento de la distribución de la variable edades.
edades2<- data.frame(datos)
ggplot(data=edades2,mapping=aes(x=edades))+geom_histogram(bins=30)+ggtitle('Histograma de edades')+xlab('Edades')+ylab('Frecuencia')+geom_vline(aes(xintercept=media,color="media"),linetype="dashed" , size=1)+ geom_vline(aes(xintercept=mediana,color="mediana"),linetype="dashed" , size=1)
Se observa que dado que la media es mayor que la mediana, la distribución de los datos tiene un comportamiento asimétrico con sesgo positivo (los datos tienden a agruparse antes de la media y forma una cola a la derecha)
Procedemos a calcular la varianza y desviación estandar de los datos de edad.
var<-var(edades)
sd<-sd(edades)
paste("La varianza de las edades es: ", var)
## [1] "La varianza de las edades es: 18.4786868686869"
paste("La desviación estandar de las edades es: ", sd)
## [1] "La desviación estandar de las edades es: 4.29868431833356"
De acuerdo a la información, la varianza es de 18.47 y la desviación estandar es de 4.29. Por tanto, los datos se alejan de la media en promedio 4.29 años.
Se procede a determinar una tabla de distribución de frecuencias para identificar la clase con mayor frecuencia entre las edades. Se ha considerado anchos de clase de 2 años.
tablaedades<- fdt(x=datos$edades, start=min(edades), end=max(edades),h=2)
tablaedades
## Class limits f rf rf(%) cf cf(%)
## [4,6) 1 0.01 1 1 1
## [6,8) 0 0.00 0 1 1
## [8,10) 0 0.00 0 1 1
## [10,12) 1 0.01 1 2 2
## [12,14) 1 0.01 1 3 3
## [14,16) 7 0.07 7 10 10
## [16,18) 20 0.20 20 30 30
## [18,20) 22 0.22 22 52 52
## [20,22) 14 0.14 14 66 66
## [22,24) 18 0.18 18 84 84
## [24,26) 4 0.04 4 88 88
## [26,28) 8 0.08 8 96 96
## [28,30) 3 0.03 3 99 99
## [30,32) 0 0.00 0 99 99
La tabla de distribucion de frecuencias indica que la mayor frecuencia la presenta la edad de 18 a 20 años.
Se genera un histograma a aprtir de la información de la distribución de frecuencias anterior.
hist(x=edades, col=colors)
Se observa en el histograma que la clase con mayor frecuencia es la de los datos de 15 a 20 años.
De acuerdo a toda la información analizada, se puede determinar que el nombre mas com´pun entre los datos es CARLOS (27 veces), mientras que los menos frecuentes son ADRIANA, PATY y RUBEN (9 datos cada uno).
Así mismo la media y mediana de las edades genera 19.81 y 19 respectivamente. Lo cual nos permite verificar con el las gráficas que los datos tienden a concentrarse cercanos a esos valores.
La distribución de datos de las edades muestra comportamiento asimétrico con sesgo positivo (los datos tienden a agruparse antes de la media y forma una cola a la derecha), por lo que se debe analizar a detalle la información para dar inferencias.
Las medidas de disperción muestran varianza 18.47 de y desviación estandar de 4.29. Los datos tienden a alejarse de la media en promedio 4.29 anos. Finalmente la edad con mayor frecuencia es el grupo entre 15 y 20 años.
Anderson, David R., Dennis J. Sweeney, and Thomas A. Williams. 2008. Estadística Para Administración y Economía. 10th ed. Australia Brasil Corea España Estados Unidos Japón México Reino Unido Singapur: Cengage Learning,.
Walpole, Ronald E., Raymond H. Myers, and Sharon L. Myers. 2012. Probabilidad y Estadística Para Ingeniería y Ciencias. Novena Edición. México: Pearson